Frequently Asked Questions - Applications bioinformatiques

Compilation d'un ensemble de liens et FAQ sur les principales applications bioinformatiques de la plateforme migale.

Format de fichiers de séquences (3)

Une séquence au format FASTA commence par une ligne de titre (nom, définition ...), suivie par les lignes de la séquence. La ligne de titre se distingue de la séquence par un symbole plus grand que (">") en début de ligne. La longueur de cette ligne ne doit pas excéder 200 caractères. Il est recommandé de mettre la séquence sous forme de lignes de 80 caractères maximum. Un exemple de séquence au format fasta :


>gi|532319|pir|TVFV2E|TVFV2E envelope protein
ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT
QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC
HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK
MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK
TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF
APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKNL
LAAVEAQQQMLKLTIWGVK

Le format GFF est un format de fichier pour stocker des features génomiques dans un fichier texte. GFF signifie Generic Feature Format.
Les fichiers GFF sont des fichiers tabulés de 9 colonnes contenant du texte simple.
Les bases de données GFF existent aussi. Elles utilisent un schéma construit pour représenter les données GFF.
GFF est fréquemment utilisé dans GMOD pour l' échange de données et la représentation de données génomiques.

Voici un exemple de fichier GFF3 miniature :


##gff-version 3
ctg123 . exon 1300 1500 . + . ID=exon00001
ctg123 . exon 1050 1500 . + . ID=exon00002
ctg123 . exon 3000 3902 . + . ID=exon00003
ctg123 . exon 5000 5500 . + . ID=exon00004
ctg123 . exon 7000 9000 . + . ID=exon00005

Le format GenBank contient des mots clés et des sous clés et une table de caractéristique optionnelle, la fiche d’information se termine toujours par //.
A titre d’exemple le mot clé LOCUS introduit une étiquette, ainsi que des informations concernant la longueur de la séquence donnée en bp (base pair), le type de la séquence, la division, sa date d`émission.

Voici un exemple du format Genbank:

LOCUS HSIGVH221 682 bp DNA linear PRI 30-OCT-1995
DEFINITION H.sapiens germline immunoglobulin heavy chain, variable region,
(22-1).
ACCESSION X92210
VERSION X92210.1 GI:1045093
KEYWORDS germ line; immunoglobulin.
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1 to 682)
AUTHORS Berman,J.E., Mellis,S.J., Pollock,R., Smith,C.L., Suh,H.,
Heinke,B., Kowal,C., Surti,U., Chess,L., Cantor,C.R. and Alt,F.W.
TITLE Content and organization of the human Ig VH locus: definition of
three new VH families and linkage to the Ig CH locus
JOURNAL EMBO J. 7 (3), 727-738 (1988)
MEDLINE 88283641
PUBMED 3396540
FEATURES Location/Qualifiers
source 1..682
/organism="Homo sapiens"
/db_xref="taxon:9606"
BASE COUNT 178 a 156 c 147 g 198 t 3 others
ORIGIN
1 cgaccgtctg catctcactc ttgttaggct gatgtgtcat ttatcttccc tttcttatca
61 tggattgggc tttgagctaa gaaaggcttt gtctctatga atatgcaaat atactgatat
121 ccactgaggt aaatatgttc tgtgccctga gagaatcacc tgagagaatc ccctgagagc
181 acatctcctc atgggctgga cctgcaagnt cctcttcttg gtggcagcag ccacaggtaa
241 gcagttccca ggtccaagta atgaggaggg gattgagtcc agtcaagggg gctttcatcc
301 actcctgtgt cctccccaca ggtgcccact cccaggtgca gctggtgcaa tctggggctg
361 aggtgaagaa gcctggggcc tcagtgaagg tctcctgcaa ggcttctgga tacaccttca
421 cctactgcta cttgcactgg gtacgacagg cccttggana agggcttgaa tggacaggan
481 tttagttatt tgagagattt ttcatacaac atttattctg taagcaaatt tcagggattg
541 tagaatgaat cacattaaca aatctgacac agaacttcct ctgaatcaat ctttgtaaac
601 atcaatttcc gaatcaatgt tgtaaatatt tcagaacaca agcacaaatt cacattttaa
661 ctctactttt atctctattt aa
//

Applications et Suites logicielles (0)

BLAST (3)

Cette FAQ regroupe les principales questions sur BLAST.

Cela se fait en deux étapes.

Étape 1 :Construire un index des séquences avec la commande formatdb

Sur le fichier contenant toutes les séquences de votre banque au format FASTA (disons : mes_sequences_banque.fasta)

formatdb -i mes_sequences_banque.fasta

Si tout se passe bien, trois fichiers sont générés : mes_sequences_banque.fasta.phr, mes_sequences_banque.fasta.pin et mes_sequences_banque.fasta.psq.

Étape 2 :Utilisation de cette nouvelle banque avec la commande blastpgp

Sur le fichier contenant toutes vos séquences requêtes au format FASTA (disons : mes_sequences_requetes.fasta)

blastpgp -d mes_sequences_banque.fasta -i mes_sequences_requetes.fasta

Note : dans cette dernière commande, le nom "mes_sequences_banque.fasta" ne correspond pas au fichier lui-même, mais au nom commun aux 3 fichiers générés dans l'étape 1. Le fichier banque au format fasta n'est pas utilisé par BLAST.

Vous trouverez l'explication de l'erreur dans le fichier

blastpgp.log
ou
rpsblast.log

qui se trouve dans le repertoire à partir duquel vous avez lancé la commande.

Cf. la réponse à la question "Comment utiliser BLAST sur ma propre banque de données ?".

EMBOSS (5)

Cette FAQ regroupe les principales question liées à l'application EMBOSS.

Créer une liste comme l'exemple ci-dessous :

emacs maliste

genpept:41387648


genpept:10180754

uniprot_trembl:Q782P5_9ALPH

Pour utiliser la liste ajouter @ devant le nom de la liste :
fuzzpro @maliste -pattern GRGSTLGLDIETATRA

Voici un extrait d'un échange sur la liste emboss qui peut nous être utile :

Subject: Re: [EMBOSS] question about 'fuzznuc'and 'fuzzpro'
> I know I can give a pattern like 'ACCGGT' and search against a file which contains multiple sequences. Is there a way I can specify 
> a 'pattern file' which contains multiple patterns that I want to search for instead of just one pattern each time? For example, I have
> a fileA which contains multiple DNA sequences. I want to create a fileB which contains 20 patterns that I want to seach each of them
> against the sequences in the fileA. We are in the transition from GCG to EMBOSS. And the program 'findpatterns' in GCG can do this.
> But I couldn't find corresponding emboss program that does the same thing.

New in EMBOSS 4.0.0, contributed by Henrikki Almusa of Medicel in Helsinki.

fuzznuc (and fuzzpro and fuzztran) now can read in a file of patterns with the commandline syntax:
fuzznuc @patternfile

You can also use @patternfile in response to the prompt for a pattern.
Here is an example pattern file with FASTA-style IDs and mismatch counts for each pattern:
>pat1
cggccctaaccctagcccta
>pat2 <mismatch=1>
cg(2)c(3)taac
cctagc(3)ta
>pat3
cggc{2,4}taac{2,5}

Here is a file with just the second pattern, and no name (it will default to pattern1
cg(2)c(3)taac
cctagc(3)ta

You can set a default name with -pname and a default mismatch with -pmismatch
I note we could document this better in the fuzz* program manual entries. We will do for the 4.1 release.

seqret uniprot:Q12345 -osdbname UNIPROT

seqret uniprot:Q12345 seqret uniprot:Q12345 -osdbname UNIPROT
>IES3_YEAST Q12345 Ino eighty subunit 3.
MKFEDLLATNKQVQFAHAATQHYKSVKTPDFLE...
>UNIPROT:IES3_YEAST Q12345 Ino eighty subunit 3.
MKFEDLLATNKQVQFAHAATQHYKSVKTPDFLE...

Il faut utiliser le programme whichdb.
Exemple ci-dessous avec comme numéro d'accession AC188948 :

whichdb

AC188948
Output file [outfile.whichdb]:
Warning: Cannot open division file '' for database 'gb_env'
Warning: seqCdQry failed
Warning: Cannot open division file '' for database 'PROSITE'
Warning: seqCdQry failed
Warning: Cannot open division file '' for database 'REBASE'
Warning: seqCdQry failed


Vous obtenez ainsi le fichier outfile.whichdb :
more outfile.whichdb
gb_vrt:AC188948
genbank:AC188948
nt:AC188948

Avec la version 3.0.0 je pouvais exécuter cette commande : CODERET
coderet -translation -nocds -nomrna -seqall mes_sequences.seq -outseq mes_sequences.fastap -outfile toto

maintenant avec la version 4.0.0 j'obtiens le message d'erreur suivant :
Died: Unknown qualifier -outseq

Attention la commande coderet ne possède plus tout à fait les mêmes arguments. La nouvelle commande est :
coderet -seqall mes_sequences.seq -translationoutseq mes_sequences.fastap -nocds -nomrna -outfile toto

Rappel : pour avoir de l'aide en ligne de commande, coderet -help ou coderet -help -verbose ou bien sur le site http://genome.jouy.inra.fr/doc/genome/suite-logicielle/emboss-4.0.0/html/emboss/apps/

Outils statistiques (2)

En lancant la commande d'aide comme indiqué help.start() on obtient le message d'erreur suivant, ainsi qu'une fenêtre indiquant que votre navigateur est deja ouvert :

> help.start()
Making links in per-session dir ...
If '/usr/local/public/bin/firefox' is already running, it is *not* restarted, and
you must switch to its window.
Otherwise, be patient...> Error: No running window found

Une solution possible est de taper cette commande afin d'ouvrir un autre navigateur que celui que vous utilisez habituellement, comme par exemple :

> help.start(browser="mozilla")

Ci dessous, une remarque supplémentaire apportée par un utilisateur.

"Si le navigateur demandé ne se lance pas alors qu'aucun n'est ouvert, de vérifier la présence sous l'arborescence du user ~/.mozilla/firefox/repd'indentification/, si les fichiers lock et .parentlock, le .point étant important, existent ou pas, auquel cas les supprimer."

Lancer la commande suivante (attention les majuscules sont nécessaires) :

[topaze] R CMD BATCH votre_programme_R

Menu principal

by Dr. Radut