Skip to Content

Foire Aux Questions - Applications bioinformatiques

Compilation d'un ensemble de liens et FAQ sur les principales applications bioinformatiques de la plateforme migale.

Format de fichiers de séquences (3)
Version imprimable

Une séquence au format FASTA commence par une ligne de titre (nom, définition ...), suivie par les lignes de la séquence. La ligne de titre se distingue de la séquence par un symbole plus grand que (">") en début de ligne. La longueur de cette ligne ne doit pas excéder 200 caractères. Il est recommandé de mettre la séquence sous forme de lignes de 80 caractères maximum. Un exemple de séquence au format fasta :


>gi|532319|pir|TVFV2E|TVFV2E envelope protein
ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT
QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC
HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK
MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK
TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF
APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKNL
LAAVEAQQQMLKLTIWGVK

Version imprimable

Le format GFF est un format de fichier pour stocker des features génomiques dans un fichier texte. GFF signifie Generic Feature Format.
Les fichiers GFF sont des fichiers tabulés de 9 colonnes contenant du texte simple.
Les bases de données GFF existent aussi. Elles utilisent un schéma construit pour représenter les données GFF.
GFF est fréquemment utilisé dans GMOD pour l' échange de données et la représentation de données génomiques.

Voici un exemple de fichier GFF3 miniature :


##gff-version 3
ctg123 . exon 1300 1500 . + . ID=exon00001
ctg123 . exon 1050 1500 . + . ID=exon00002
ctg123 . exon 3000 3902 . + . ID=exon00003
ctg123 . exon 5000 5500 . + . ID=exon00004
ctg123 . exon 7000 9000 . + . ID=exon00005

Version imprimable

Le format GenBank contient des mots clés et des sous clés et une table de caractéristique optionnelle, la fiche d’information se termine toujours par //.
A titre d’exemple le mot clé LOCUS introduit une étiquette, ainsi que des informations concernant la longueur de la séquence donnée en bp (base pair), le type de la séquence, la division, sa date d`émission.

Voici un exemple du format Genbank:

LOCUS HSIGVH221 682 bp DNA linear PRI 30-OCT-1995
DEFINITION H.sapiens germline immunoglobulin heavy chain, variable region,
(22-1).
ACCESSION X92210
VERSION X92210.1 GI:1045093
KEYWORDS germ line; immunoglobulin.
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1 to 682)
AUTHORS Berman,J.E., Mellis,S.J., Pollock,R., Smith,C.L., Suh,H.,
Heinke,B., Kowal,C., Surti,U., Chess,L., Cantor,C.R. and Alt,F.W.
TITLE Content and organization of the human Ig VH locus: definition of
three new VH families and linkage to the Ig CH locus
JOURNAL EMBO J. 7 (3), 727-738 (1988)
MEDLINE 88283641
PUBMED 3396540
FEATURES Location/Qualifiers
source 1..682
/organism="Homo sapiens"
/db_xref="taxon:9606"
BASE COUNT 178 a 156 c 147 g 198 t 3 others
ORIGIN
1 cgaccgtctg catctcactc ttgttaggct gatgtgtcat ttatcttccc tttcttatca
61 tggattgggc tttgagctaa gaaaggcttt gtctctatga atatgcaaat atactgatat
121 ccactgaggt aaatatgttc tgtgccctga gagaatcacc tgagagaatc ccctgagagc
181 acatctcctc atgggctgga cctgcaagnt cctcttcttg gtggcagcag ccacaggtaa
241 gcagttccca ggtccaagta atgaggaggg gattgagtcc agtcaagggg gctttcatcc
301 actcctgtgt cctccccaca ggtgcccact cccaggtgca gctggtgcaa tctggggctg
361 aggtgaagaa gcctggggcc tcagtgaagg tctcctgcaa ggcttctgga tacaccttca
421 cctactgcta cttgcactgg gtacgacagg cccttggana agggcttgaa tggacaggan
481 tttagttatt tgagagattt ttcatacaac atttattctg taagcaaatt tcagggattg
541 tagaatgaat cacattaaca aatctgacac agaacttcct ctgaatcaat ctttgtaaac
601 atcaatttcc gaatcaatgt tgtaaatatt tcagaacaca agcacaaatt cacattttaa
661 ctctactttt atctctattt aa
//

Applications et Suites logicielles (0)
BLAST (3)

Cette FAQ regroupe les principales questions sur BLAST.

Version imprimable

Cela se fait en deux étapes.

Étape 1 :Construire un index des séquences avec la commande formatdb

Sur le fichier contenant toutes les séquences de votre banque au format FASTA (disons : mes_sequences_banque.fasta)

formatdb -i mes_sequences_banque.fasta

Si tout se passe bien, trois fichiers sont générés : mes_sequences_banque.fasta.phr, mes_sequences_banque.fasta.pin et mes_sequences_banque.fasta.psq.

Étape 2 :Utilisation de cette nouvelle banque avec la commande blastpgp

Sur le fichier contenant toutes vos séquences requêtes au format FASTA (disons : mes_sequences_requetes.fasta)

blastpgp -d mes_sequences_banque.fasta -i mes_sequences_requetes.fasta

Note : dans cette dernière commande, le nom "mes_sequences_banque.fasta" ne correspond pas au fichier lui-même, mais au nom commun aux 3 fichiers générés dans l'étape 1. Le fichier banque au format fasta n'est pas utilisé par BLAST.

Version imprimable

Vous trouverez l'explication de l'erreur dans le fichier

blastpgp.log
ou
rpsblast.log

qui se trouve dans le repertoire à partir duquel vous avez lancé la commande.

Version imprimable

Cf. la réponse à la question "Comment utiliser BLAST sur ma propre banque de données ?".

GCG -> EMBOSS (9)
Version imprimable

La suite logicielle GCG ne sera plus maintenue par son Éditeur, Accelrys, À partir de juin 2008. Une alternative est d'utiliser la suite EMBOSS, bien que les outils proposés par EMBOSS ne couvrent pas l'ensemble des applications GCG. Pour essayer de migrer le plus facilement possible, nous avons lister les outils EMBOSS équivalents - si ils existent - aux applications GCG. Cette première liste non exhaustive est accessible sous la forme d'un tableau avec des liens vers la documentation.

Version imprimable

Deux commandes sont équivalentes à findpatterns, il s'agit de fuzznuc dans le cas de séquences nucléiques et de fuzzpro pour les séquences protéiques.

Voici un exemple ci-dessous qui correspond à findpattern : fuzzpro uniprot:P04395 Protein pattern search
Search pattern: TARVAQ
Output report [3mg2_ecoli.fuzzpro]:
ou bien encore : fuzznuc gb_bct:ab000186
Nucleic acid pattern search
Search pattern: cttca
Output report [ab000186.fuzznuc]:

Version imprimable

Il faut utiliser la commande seqret (lien) exemples: un normal et avec *

Extraction par le numéro d'accession :
seqret genbank:L07770
Reads and writes (returns) sequences
output sequence(s) [xelrhodop.fasta]:

Seqret utilise le caractère joker (*) qui permet d'extraire toutes les séquences qui commencent par humig*
seqret genbank:humig*
Reads and writes (returns) sequences
output sequence(s) [humiglym1.fasta]:

Extraction d'une partie seulement de la séquence et non la séquence totale.
seqret genbank:L07770 -sbegin 150 -send 260

Version imprimable

La gestion de liste est très simple, il suffit de créer un fichier contenant la liste des séquences que l'on souhaite.

emacs maliste
genpept:41387648

genpept:10180754
uniprot_trembl:Q782P5

et pour ensuite utiliser cette liste,
seqret @maliste -outseq monresultat

cette liste peut également être utilisée par différents programme comme par exemple fuzzpro (recherche de motif) :
fuzzpro @maliste -pattern GRGSTLGLDIETATRA

Version imprimable

Il faut mettre l'identifiant de la séquence les valeurs de début (-sbegin) et de fin (-send) entre crochets :

emacs maliste
genpept:41387648[20:40]

genpept:10180754[10:60]
uniprot_trembl:Q782P5[1:120]

Version imprimable

seaview, jalview et CLC Sequence Viewer sont des éditeurs de séquences accessibles sur topaze en lançant sur topaze :

seaview
jalview
clcseqview5

Version imprimable

Il n'existe pas d'équivalent dans la suite EMBOSS des commandes gelstart, geenter...
Une des solutions est d'utiliser des outils d'assemblages comme cap3 ou phred/phrap. Une documentation pour phrap est en ligne, également pour phred.

Version imprimable

La commande blastall sur topaze permet d'executer tous les types de blast sur toutes nos banques mise en ligne sur la plateforme. Un tutorial de blast permet une prise en main rapide de l'outil.

Exemple GCG :

 > blast
 BLAST searches one or more nucleic acid or protein databases for sequences similar to one or more query sequences of any type. 
 BLAST can produce gapped alignments for the matches it finds. 

 BLAST with what query sequence(s) ? 104K_THEPA.uniprot_sprot             
Begin (* 1 *) ?
End (* 924 *) ? Search for query in what sequence database: 1) pir p Protein Information Resource 2) uniprot p SWISS-PROT + SP-TREMBL 3) est_human n Human Expressed Sequence Tags (GenBank ) 4) est_mouse n Mouse Expressed Sequence Tags (GenBank ) 5) est_other n All Other Expressed Sequence Tags (GenBank ) 6) genbank n GenBank 7) htg n High Throughput Genomes (HTG from GenBank ) 8) htc n High Throughput Genomes (HTC from GenBank ) 9) gss n Genome Survey Sequences (GSS from GenBank ) 10) genpept p GenPept (Translated GenBank) 11) vbabuaa p Satheesh AA Sequences 12) vbabuna n Satheesh NA Sequences Please choose one (* 1 *): 2 Ignore hits expected to occur by chance more than (* 10.0 *) times? Limit the number of sequences in my output to (* 500 *) ? What should I call the output file (* 104K_THEPA.blastp *) ? ../..

Exemple blastall : (un tutorial de blast permet une prise en main rapide de l'outil).

blastall -p blastp -d uniprot -i 104K_THEPA.uniprot_sprot -o 104K_THEPA.blastp 
Version imprimable

Le programme emma permet de réaliser des alignements multiples, voici ci-dessous un exemple. Pour plus de précision concernant ce programme vous pouvez consulter la documentation fournie par EMBOSS.

% emma 
Multiple alignment program - interface to ClustalW program
Input (gapped) sequence(s): globins.fasta
output sequence set [hbb_human.aln]: 
Dendrogram (tree file) from clustalw output file [hbb_human.dnd]: 

 CLUSTAL W (1.83) Multiple Sequence Alignments

Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: HBB_HUMAN       146 aa
Sequence 2: HBB_HORSE       146 aa
Sequence 3: HBA_HUMAN       141 aa
Sequence 4: HBA_HORSE       141 aa
Sequence 5: MYG_PHYCA       153 aa

...
EMBOSS (5)

Cette FAQ regroupe les principales question liées à l'application EMBOSS.

Version imprimable

Créer une liste comme l'exemple ci-dessous :

emacs maliste

genpept:41387648


genpept:10180754

uniprot_trembl:Q782P5_9ALPH

Pour utiliser la liste ajouter @ devant le nom de la liste :

fuzzpro @maliste -pattern GRGSTLGLDIETATRA

Version imprimable

Voici un extrait d'un échange sur la liste emboss qui peut nous être utile :

Subject: Re: [EMBOSS] question about 'fuzznuc'and 'fuzzpro'
> I know I can give a pattern like 'ACCGGT' and search against a file which contains multiple sequences. Is there a way I can specify 
> a 'pattern file' which contains multiple patterns that I want to search for instead of just one pattern each time? For example, I have
> a fileA which contains multiple DNA sequences. I want to create a fileB which contains 20 patterns that I want to seach each of them
> against the sequences in the fileA. We are in the transition from GCG to EMBOSS. And the program 'findpatterns' in GCG can do this.
> But I couldn't find corresponding emboss program that does the same thing.

New in EMBOSS 4.0.0, contributed by Henrikki Almusa of Medicel in Helsinki.

fuzznuc (and fuzzpro and fuzztran) now can read in a file of patterns with the commandline syntax:
fuzznuc @patternfile

You can also use @patternfile in response to the prompt for a pattern.
Here is an example pattern file with FASTA-style IDs and mismatch counts for each pattern:
>pat1
cggccctaaccctagcccta
>pat2 <mismatch=1>
cg(2)c(3)taac
cctagc(3)ta
>pat3
cggc{2,4}taac{2,5}

Here is a file with just the second pattern, and no name (it will default to pattern1
cg(2)c(3)taac
cctagc(3)ta

You can set a default name with -pname and a default mismatch with -pmismatch
I note we could document this better in the fuzz* program manual entries. We will do for the 4.1 release.
Version imprimable

seqret uniprot:Q12345 -osdbname UNIPROT

seqret uniprot:Q12345 seqret uniprot:Q12345 -osdbname UNIPROT
>IES3_YEAST Q12345 Ino eighty subunit 3.
MKFEDLLATNKQVQFAHAATQHYKSVKTPDFLE...
>UNIPROT:IES3_YEAST Q12345 Ino eighty subunit 3.
MKFEDLLATNKQVQFAHAATQHYKSVKTPDFLE...
Version imprimable

Il faut utiliser le programme whichdb.
Exemple ci-dessous avec comme numéro d'accession AC188948 :

whichdb

AC188948
Output file [outfile.whichdb]:
Warning: Cannot open division file '' for database 'gb_env'
Warning: seqCdQry failed
Warning: Cannot open division file '' for database 'PROSITE'
Warning: seqCdQry failed
Warning: Cannot open division file '' for database 'REBASE'
Warning: seqCdQry failed


Vous obtenez ainsi le fichier outfile.whichdb :
more outfile.whichdb
gb_vrt:AC188948
genbank:AC188948
nt:AC188948

Version imprimable

Avec la version 3.0.0 je pouvais exécuter cette commande : CODERET

coderet -translation -nocds -nomrna -seqall mes_sequences.seq -outseq mes_sequences.fastap -outfile toto

maintenant avec la version 4.0.0 j'obtiens le message d'erreur suivant :
Died: Unknown qualifier -outseq

Attention la commande coderet ne possède plus tout à fait les mêmes arguments. La nouvelle commande est :

coderet -seqall mes_sequences.seq -translationoutseq mes_sequences.fastap -nocds -nomrna -outfile toto

Rappel : pour avoir de l'aide en ligne de commande, coderet -help ou coderet -help -verbose ou bien sur le site http://genome.jouy.inra.fr/doc/genome/suite-logicielle/emboss-4.0.0/html/emboss/apps/

GCG (9)

Cette FAQ regroupe les principales question liées à l'application GCG.

Version imprimable

Je veux faire une liste de fichiers de séquences (ls *.seq >liste). Ca ne marche pas sous GCG, il faut sortir de GCG car ls *.seq ne fonctionne pas en GCG.

Il faut taper la ligne suivante avant de lancer ls *.seq :
# set +f

Version imprimable

L'entête du fichier "liste" doit absolument contenir ces 2 lignes puis ensuite les noms des fichiers séquences.
!!SEQUENCE_LIST 1.0
..

Par exemple l'entête rédigé de cette façon,
!!sequence list
..

provoque l'arrêt de PileUp avec comme message :
PileUp creates a multiple sequence alignment from a group of related sequences using progressive, pairwise alignments. It can also plot a tree showing the clustering relationships used to create the alignment.

*** Error: not valid list file ***

Version imprimable

Pour ces deux programmes la banque GenBank n'est pas disponible dans sa version globale mais uniquement sous forme de divisions.

Version imprimable

Problème de retour chariot !!!!

Version imprimable

En tapant la commande suivante :
# xwindows
"Il suffit, après avoir démarré GCG, de taper la commande "xwindows". Une fenêtre graphique apparait, dans laquelle s'affichent successivement tous les graphiques (notamment lorsqu'une commande permet de générer plusieurs graphiques successifs, en passant de l'un a l'autre par <return>)."

Version imprimable

En insérant ces 2 lignes en début de script.

/usr/local/genome/gcg/startup.ksh
$GCGROOT/etc/systemaliases.ksh

Version imprimable

En utilisant la commande seqconv+

# seqconv+ all-uniprot-hsa

SeqConv is a new (batch) sequence conversion utility. The program can convert one or more sequence files into a specified format [BSML, GB (GenBank), FASTA, EMBL, SPT (SPTrEMBL), SW(SwissProt), RSF, SSF(GCG) and MSF]. With multiple files, SeqConv can either convert each file into a separate file or concatenate them all into one file.

Desired output format (* BSML *) ?FASTA

Version imprimable

Il existe 2 types de commandes blast sur topaze. Le blast du NCBI dont la version à ce jour (09/2005) est la 2.2.11 et le blast de GCG (2.2.10). L'avantage de ce dernier est s'être intégrer totalement à la suite GCG et donc de pouvoir lire les fichiers de séquences générés par lers autres modules de GCG.

Version imprimable

Il faut lancer blast+ avec l'option -dbr
# blast -dbr

Outils statistiques (2)
Version imprimable

Lancer la commande suivante (attention les majuscules sont nécessaires) :

[topaze] R CMD BATCH votre_programme_R

Version imprimable

En lancant la commande d'aide comme indiqué help.start() on obtient le message d'erreur suivant, ainsi qu'une fenêtre indiquant que votre navigateur est deja ouvert :

> help.start()
Making links in per-session dir ...
If '/usr/local/public/bin/firefox' is already running, it is *not* restarted, and
you must switch to its window.
Otherwise, be patient...> Error: No running window found

Une solution possible est de taper cette commande afin d'ouvrir un autre navigateur que celui que vous utilisez habituellement, comme par exemple :

> help.start(browser="mozilla")

Ci dessous, une remarque supplémentaire apportée par un utilisateur.

"Si le navigateur demandé ne se lance pas alors qu'aucun n'est ouvert, de vérifier la présence sous l'arborescence du user ~/.mozilla/firefox/repd'indentification/, si les fichiers lock et .parentlock, le .point étant important, existent ou pas, auquel cas les supprimer."
SeqWeb (8)

Liste des principaux problèmes rencontrés avec la nouvelle version de SeqWeb 3.0 et leurs solutions. Il peut s'agir également de bugs déjà signalés au support GCG mais non résolus pour cette version.

Version imprimable

Oui en utilisant les caractères suivants : & (pour AND), | (pour OR) et ! (pour BUT NOT) comme indiqué dans l'aide en ligne.
Exemple :
En sélectionnant la database Uniprot et en mettant dans le champ AllText = "carboxylate & aminotransferase" on obtient comme résulat une seule entrée,
par contre en mettant "carboxylate | aminotransferase & lactis" on obtient 24 entrées

Version imprimable

Le système d'indexation des banques est relativement complexe à mettre en oeuvre sous GCG. A ce jour nous nous contentons de mettre sous lookup seulement la globalité des banques nucléiques et protéiques. Lookup reposant par ailleurs sur des index par champs, il est possible d'effectuer ce filtre dans la requête.

Version imprimable

Attention dans la fenêtre résultat de LookUp "LookUp Search Results" il manque systématiquement une entrée à l'affichage. Par contre, le nombre de fiches trouvé est correct mais la liste qui est affichée comporte toutes les fiches moins une !!. Il s'agit d'un bug de SeqWeb. En cliquant sur Text View, on peut visualiser l'entrée récupérée mais non affichée. Ce dysfonctionnement a été remonté au support GCG.

Version imprimable

Lors d'une recherche multicritère il est important de saisir les termes en les séparant par une virgule (dna,lactis,regulator), mais sans y introduire d'espace. En effet dans ce dernier cas seul le premier terme sera pris en compte et aucun message ne sera affiché au lancement. Il est malgré tout possible de vérifier dans la fenêtre résultat la requête qui a été utilisée. Un message d'avertissement serait le bienvenu. Ce dysfonctionnement a été remonté au support GCG.

Version imprimable

Ce dysfonctionnement a été remonté au support GCG.

Version imprimable

Le résultat de la commande FindPatterns n'affiche que la position où a été trouvé le pattern mais autres informations (contrairement à la version précédente ou à la version en ligne de commande).

Ce dysfonctionnement a été remonté au support GCG. Un correctif sera apporté dans la prochaine version de SeqWeb.

Version imprimable

Cette fenêtre n'apparait pas l'interface SeqWeb bien que ce soit mentionné dans l'aide. Les résultats sont désormais stockés dans le gestionnaire jobs. Un correctif sera apporté dans la prochaine version de SeqWeb.

Version imprimable

Les jobs non visualisé par l'utilisateur se trouve dans la section submitted. Une fois ouvert, le résultat du job bascule dans la section saved. Un job ne peut être supprimé qui si il se trouve dans saved.