Skip to Content

Foire Aux Questions - GCG -> EMBOSS

Version imprimable

La suite logicielle GCG ne sera plus maintenue par son Éditeur, Accelrys, À partir de juin 2008. Une alternative est d'utiliser la suite EMBOSS, bien que les outils proposés par EMBOSS ne couvrent pas l'ensemble des applications GCG. Pour essayer de migrer le plus facilement possible, nous avons lister les outils EMBOSS équivalents - si ils existent - aux applications GCG. Cette première liste non exhaustive est accessible sous la forme d'un tableau avec des liens vers la documentation.

Version imprimable

Deux commandes sont équivalentes à findpatterns, il s'agit de fuzznuc dans le cas de séquences nucléiques et de fuzzpro pour les séquences protéiques.

Voici un exemple ci-dessous qui correspond à findpattern : fuzzpro uniprot:P04395 Protein pattern search
Search pattern: TARVAQ
Output report [3mg2_ecoli.fuzzpro]:
ou bien encore : fuzznuc gb_bct:ab000186
Nucleic acid pattern search
Search pattern: cttca
Output report [ab000186.fuzznuc]:

Version imprimable

Il faut utiliser la commande seqret (lien) exemples: un normal et avec *

Extraction par le numéro d'accession :
seqret genbank:L07770
Reads and writes (returns) sequences
output sequence(s) [xelrhodop.fasta]:

Seqret utilise le caractère joker (*) qui permet d'extraire toutes les séquences qui commencent par humig*
seqret genbank:humig*
Reads and writes (returns) sequences
output sequence(s) [humiglym1.fasta]:

Extraction d'une partie seulement de la séquence et non la séquence totale.
seqret genbank:L07770 -sbegin 150 -send 260

Version imprimable

La gestion de liste est très simple, il suffit de créer un fichier contenant la liste des séquences que l'on souhaite.

emacs maliste
genpept:41387648

genpept:10180754
uniprot_trembl:Q782P5

et pour ensuite utiliser cette liste,
seqret @maliste -outseq monresultat

cette liste peut également être utilisée par différents programme comme par exemple fuzzpro (recherche de motif) :
fuzzpro @maliste -pattern GRGSTLGLDIETATRA

Version imprimable

Il faut mettre l'identifiant de la séquence les valeurs de début (-sbegin) et de fin (-send) entre crochets :

emacs maliste
genpept:41387648[20:40]

genpept:10180754[10:60]
uniprot_trembl:Q782P5[1:120]

Version imprimable

seaview, jalview et CLC Sequence Viewer sont des éditeurs de séquences accessibles sur topaze en lançant sur topaze :

seaview
jalview
clcseqview5

Version imprimable

Il n'existe pas d'équivalent dans la suite EMBOSS des commandes gelstart, geenter...
Une des solutions est d'utiliser des outils d'assemblages comme cap3 ou phred/phrap. Une documentation pour phrap est en ligne, également pour phred.

Version imprimable

La commande blastall sur topaze permet d'executer tous les types de blast sur toutes nos banques mise en ligne sur la plateforme. Un tutorial de blast permet une prise en main rapide de l'outil.

Exemple GCG :

 > blast
 BLAST searches one or more nucleic acid or protein databases for sequences similar to one or more query sequences of any type. 
 BLAST can produce gapped alignments for the matches it finds. 

 BLAST with what query sequence(s) ? 104K_THEPA.uniprot_sprot             
Begin (* 1 *) ?
End (* 924 *) ? Search for query in what sequence database: 1) pir p Protein Information Resource 2) uniprot p SWISS-PROT + SP-TREMBL 3) est_human n Human Expressed Sequence Tags (GenBank ) 4) est_mouse n Mouse Expressed Sequence Tags (GenBank ) 5) est_other n All Other Expressed Sequence Tags (GenBank ) 6) genbank n GenBank 7) htg n High Throughput Genomes (HTG from GenBank ) 8) htc n High Throughput Genomes (HTC from GenBank ) 9) gss n Genome Survey Sequences (GSS from GenBank ) 10) genpept p GenPept (Translated GenBank) 11) vbabuaa p Satheesh AA Sequences 12) vbabuna n Satheesh NA Sequences Please choose one (* 1 *): 2 Ignore hits expected to occur by chance more than (* 10.0 *) times? Limit the number of sequences in my output to (* 500 *) ? What should I call the output file (* 104K_THEPA.blastp *) ? ../..

Exemple blastall : (un tutorial de blast permet une prise en main rapide de l'outil).

blastall -p blastp -d uniprot -i 104K_THEPA.uniprot_sprot -o 104K_THEPA.blastp 
Version imprimable

Le programme emma permet de réaliser des alignements multiples, voici ci-dessous un exemple. Pour plus de précision concernant ce programme vous pouvez consulter la documentation fournie par EMBOSS.

% emma 
Multiple alignment program - interface to ClustalW program
Input (gapped) sequence(s): globins.fasta
output sequence set [hbb_human.aln]: 
Dendrogram (tree file) from clustalw output file [hbb_human.dnd]: 

 CLUSTAL W (1.83) Multiple Sequence Alignments

Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: HBB_HUMAN       146 aa
Sequence 2: HBB_HORSE       146 aa
Sequence 3: HBA_HUMAN       141 aa
Sequence 4: HBA_HORSE       141 aa
Sequence 5: MYG_PHYCA       153 aa

...