Skip to Content

Foire Aux Questions

NGS (0)
Format de fichiers (2)
Version imprimable

FASTQ est un format texte qui permet de stocker une séquence biologique (généralement une séquence nucléotidique) et ses scores de qualité correspondants. Les lettres des séquences et les scores de qualité sont encodés avec un seul caractère ASCII. Ceci a été développé au Wellcome Trust Sanger Institute pour grouper une séquence FASTA et ses données de qualité, mais récemment c'est devenu le standard pour stocker les sorties des instruments de séquençage de haut débit tel que Illumina Genome Analyzer.

Cf. la page dédiée au format FASTQ.

Version imprimable

SAM signifie Sequence Alignment/Map format. C'est un format tabulé de type texte composé d'une partie en-tête optionnelle et d'une partie alignement. Si elle est présente, l'en-tête doit être avant l'alignement. Les lignes de l'en-tête commencent par un @. Chaque ligne de l'alignement ont onze champs obligatoires contenant des informations essentielles pour l'alignement comme la position du mapping par exemple, et un certain nombre de champs optionnels.

Cf. la page dédiée au format SAM.

Assemblage (4)

Cette partie a été construite en grande partie à partir du cours de Ryan Chikhi proposé lors de l'école De la production à l'analyse des données « Next Generation Sequencing ».

Celui-ci est disponible à l'URL suivante : https://wiki.inra.fr/wiki/pepibioinfostats/EcoleNGS2012/.

Version imprimable

Définition d'un assemblage

C'est un ensemble de séquences approximant le mieux possible la séquence d’un génome (ou transcriptome, méta-génome, méta-transcriptome, etc ...).

Remarques

Un assemblage est :

  • plus petit que la référence.
  • fragmenté.

Terminologie pour un assemblage

  • Contig : Séquence sans gaps.
  • Scaffold : Séquence avec gaps.

Terminologie pour les reads

  • Read : Terme générique désignant les séquences sortant du séquenceur.
  • Paired read : read1, gap < 500 bp, read2.
  • Mate-pair : read1, gap > 2000 bp, read2.
  • Single read : Read non pairé.
Version imprimable

Métriques

Il n'y a pas de classement possible entre les assemblages car il y a toujours plus de deux critères indépendants à optimiser (exemple : le volume et la taille moyenne des séquences).

Exemple : Que choisir entre, un assemblage avec une bonne couverture et des petites séquences et, un autre assemblage avec une mauvaise couverture et de longues séquences ?

Métriques sans référence

Voici les critères qui sont pris en compte :

  • le nombre de contigs par scaffolds.
  • la taille totale de l’assemblage.
  • la taille du plus grand contig par scaffold.
  • le pourcentage de bases N.

Calcul du N50 :

 N50 = longueur du scaffold/contig à laquelle les séquences les plus grandes couvrent 50 % de la longueur totale de l'assemblage

Calcul du NG50 :

 NG50 = longueur du scaffold/contig à laquelle les séquences les plus grandes couvrent 50 % de la longueur du génome

Consistence interne

Elle est rarement calculée dans l’évaluation des assembleurs mais elle est indispensable dans les projets de novo.

Consistence interne : Pourcentage de reads correctement ré-alignés sur l’assemblage. Pourcentage de happy pairs.

Elle permet la localisation de certains types de mis-assemblages (mauvaises jointures).

Métriques avec référence

Couverture

Le but est de faire un alignement de l'assemblage sur la référence.

Couverture : Pourcentage de bases de la référence qui sont couvertes par cet alignement.

Erreurs d'assemblage

Suite à un alignement de l’assemblage sur la référence, on souhaite observer :

  • le nombre de substitutions.
  • le nombre de petits indels.
  • le nombre de mauvaises jointures (contigs ou scaffolds splittés)

Peut-on donner une précision “globale“ ?

  • Allpaths3 : pourcentage de blocs (< 10kbp) s’alignant avec plus de 90% d’identité.
  • Assemblathon 14 : nombre d’erreurs structurelles (indels, misjoins) dans le graphe d’adjacence.
Version imprimable

Graphe de reads

Les chevauchements entre les reads sont l’information fondamentale pour assembler.
Les graphes permettent de représenter globalement ces chevauchements.

Il existe deux formalismes :

  • de Bruijn graphs.
  • string graphs.

Graphes De Bruijn

Définition du graphe de De Bruijn pour un entier k fixé :

  • Les noeuds sont toutes les sous-séquences de taille k (k-mers) apparaissant dans les reads.
  • Pour toute sous-séquence de taille k + 1 dans les reads, un arc est présent entre le préfixe de taille k et le suffixe de taille k.

Remarques :

  • même avec des reads redondants, le graphe ne change pas.
  • les erreurs peuvent changer la structure des graphes (en ajoutant un noeud dans le graphe par exemple). Plus on a des erreurs, plus on a de noeuds et moins c'est bon pour la mémoire.
  • les répétitions peuvent ajouter des boucles. Si la répétition est contenue dans un même read, ça ne change rien au niveau de ce type de graphe.

String Graphs : Overlap Graphs

Définition du graphe de chevauchements (Overlap Graph). C’est presque un String Graph :

  • Les noeuds sont exactement les reads.
  • On relie deux noeuds par un arc si les reads se chevauchent (suffixe correspond a un préfixe).

Dans ce cours, le chevauchement est définit entre r et r’ comme ceci : fixons k > 0, un suffixe de r de taille l > k est exactement un préfixe de r taille identique.

On obtient un String Graph a partir d’un Overlap Graph en supprimant la redondance :

  • reads redondants (supprimer tout read inclus dans un autre).
  • arcs transitivement redondants (si a → c et a → b → c, alors supprimer a → c).

Construction de contigs

Le principe de la construction de contigs a partir d’un graphe de reads est de trouver tous les chemins simples du graphe.

Pseudo-code :

  • Sélectionner un nouveau noeud n.
  • Si ce noeud a un unique successeur, que ce successeur a au maximum un prédécessuer et que ce successeur n’a jamais été sélectionné, le sélectionner et recommencer cette étape à partir de celui-ci.
  • Recommencer, cette fois dans l’autre sens (avec les prédécesseurs), a partir de n.
  • Tant qu’il existe des noeuds non sélectionnés, boucler.
Version imprimable

Secret 1 : paramètre k

Il est difficile d’estimer la meilleure taille de k-mer a choisir, elle varie à chaque scénario d’assemblage.

Quelques recommendations :

    Limite basse : taille a partir de laquelle un mot aléatoire n’est vu qu’une fois dans le génome (10-12 pour les génomes courants).

  • Limite haute : avec des reads corrigés, le Broad Institute utilise comme k la longueur des reads moins 1.
  • Fixer k comme la plus grande valeur telle que les k-mers sans erreurs des reads couvrent entiérement le génome (couverture de ≈ k x). Pour cela, compter les k-mers avec plusieurs valeurs de k
    (outil : Jellyfish).

Secret 2 : pré-correction d'erreurs

Sauf si on a une excellente couverture, la pré-correction d’erreurs est indispensable pour pouvoir augmenter k.

Bons outils :

  • Quake
  • SOAPdenovo corrector

Bon assemblage = enormément de pré-processing :

  • trimming,
  • enlever les reads anormaux
  • (assez récent) concaténation de reads pairés.

Secret 3 : scaffolding

Les scaffoldeurs utilisés dans les assembleurs classiques (SOAP, Velvet, ...) ne sont pas optimaux.

Recommendations :

  • SSPACE
  • Opera
  • SuperScaffolder (interne a l’IRISA)
Scripting & Développement (0)
Langage Python (1)
Version imprimable

Ici, on cherche la version du module optparse.

 #python
 Python 2.3.3 (#1, Feb 6 2004, 18:12:49)
 [GCC 3.2.2] on sunos5
 Type "help", "copyright", "credits" or "license" for more information.
 >>> import optparse
 >>> optparse.__version__
 '1.4.1+'
Langage Perl (3)
Version imprimable

Les fichiers seront sauvegardés avec l'extension .bak, ce qui permet de revenir en arrière.

 #perl -pi.bak -e 's#ATTCTT#GGTAT#g' *.seq
Version imprimable

Il existe à minima 2 modules permettant d'éxécuter du code R sans passer par des appels de type system() depuis un programme PERL. Le premier RSperl n'est pas encore installé sur migale. Le second, Statistics::R, dont on trouvera un exemple ci-desous permet de répondre à certains besoins.

 #!/usr/bin/perl -w
 
 #CALCUL DE LA BINOMIALE SOUS R A PARTIR DE PERL
 use strict;
 use Statistics::R;
 
 my ($R, $var, @out);
 $R=Statistics::R->new();
 $R->startR;
 
 # taper q pour 1 commande, et qq pour deux commandes,
 # bien noter les guillemets à l'envers,
 # faire le print dans R si on veut récupérer la sortie
 $R->send(qq`x=pbinom(4, 9, 0.5) \n print(x)`);
 
 # read récupère la dernière sortie de R
 @out=split(/ /,$R->read);

 # dans mon cas la ligne R commence par [1],
 # d'où le besoin du splitprint "ici $out[1] \n";
 # et on peut même passer des variables en arguments dans R
 $var=9;
 $R->send(qq`x=pbinom(5, $var, 0.5) \n print(x)`);
 @out=split(/ /,$R->read);
 print "la $out[1] \n";
 $R->stopR();
Commandes Shell (1)
Version imprimable

La chaîne adm3 sera substituée à la chaîne adm dans tous les fichiers *.html depuis le répertoire courant.

 #find . -name \*.html -exec perl -pi -e 's/adm/adm3/' \{} \;
Linux (4)

Cette page regroupe des commandes Linux permettant d'automatiser certaines actions. On peut par ailleurs trouver d'autres ressources sur la toile, comme sur le site de la fondation gnu.

Version imprimable

La commande sort permet de trier un fichier. L'option -n permet de trier des valeurs numériques. Pour prendre en compte les valeurs négatives il faut positionner la variable LC_ALL comme indiqué ci-dessous :

# export LC_ALL=C
# sort -n -r To_sort_forCC
0.3407
0.2838
0.1139
-0.0900
-0.2845

Version imprimable

Le package Image Magick fournit des utilitaires de conversion, de visualisation, ... Il est nécessaire de disposer d'un serveur X comme CygWin si l'on travaille sous Windows :

 # display image.jpg
Version imprimable

La commande rename.pl va remplacer dans chaque de nom de fichier un motif (ici : TRUMB32clone) par un autre (VITRIMclone) :

 # rename.pl 's/TRIMB32clone/VITRIMclone/' *.txt
Version imprimable

Vous trouverez ici un rappel des principales commandes Linux.

Cluster (0)

Cette FAQ regroupe les commandes permettant à la fois de lancer des calculs sur le cluster et d'en comprendre le fonctionnement de base.

Généralités (3)
Version imprimable

Le cluster fonctionne avec un système de files d'attente basé sur la soumissions de jobs. Chaque file d'attente pointe sur une des ressources qui correspondent à des noeuds de calculs.

L'attribution des ressources se fait :
  - par slots (coeur dans un processeur ou core), si un utilisateur demande un job multithreadé, son quota sera aligné sur le nombre de slots demandé
  - par utilisation antérieure des ressources, c'est la politique de "Fair Share Policy" ou "politique de partage de tickets"

Comment sont définies les règles de priorités:
  - chaque utilisateur dispose du même crédit de ressources, l'ordre est calculé suivant ce qui a été consommé, sur une fenetre de temps de 7 jours
  - l'algorithme de calcul de planification "check" toutes les 15 secondes l'ensemble des jobs, qu'ils soient en "qwait" ou en "run"


Pour soumettre un job en mode batch, on utilise la commande qsub. Il suffit d'encapsuler la commande à lancer sur le cluster dans un un script.
  - Il faut préparer un fichier (script) contenant la (ou les) ligne(s) de commande
  - Vos fichiers de sortie doivent être impérativement dirigés vers l'espace disque de travail (migale:/projet/group/user)
  - Soumettre le job avec la commande de soumission (qsub)

En cliquant sur ce fichier sge_blast.sh, vous aurez un exemple de script commenté pour l'utilisation de BLAST. Un numéro apparaîtra après la soumission vous donnant le numéro que SGE lui a attribué. Cet identifiant peut vous servir pour supprimer votre job ou suivre son bon déroulement.

Il est également possible de se connecter en mode interactif via la commande qlogin , uniquement pour tester si sa configuration de lancement de job (librairies, script, environnement...) est correcte. Cela a pour avantage de ne pas devoir encapsuler le traitement dans un script. Vous ouvrez une session sur un des noeuds du cluster comme si vous étiez sur le serveur migale.

Version imprimable

Voici quelques liens utiles :

Version imprimable

C'est un moyen de paralléliser une application, cette méthode utilise uniquement les coeurs d'un noeud. Les communications entre processus sont rapides, mais on est limité en nombre de coeur utilisable. Les applications DOIVENT implémenter cette technologie pour fonctionner en mode thread.

Option pour utiliser l'environnement thread :

 -pe thread <nombre de coeur> -R y

Cette option va demander d'utiliser l'environnement thread avec un <nombre de coeur> déterminé sur un même noeud pour exécuter votre programme. L'option '-R y' réserve les coeurs au fur et a mesure qu'ils se libèrent.

La commande qhost vous permet de trouver le nombre de coeurs sur un noeud de calcul.

Programmes existant en thread (non exhaustif) : (en gras ceux disponibles sur la plateforme)

  • Blast : alignement de séquences
    Option : -a <nombre de coeurs>
    Remarque : il est plus efficace de découper en N jobs plutot que d'utiliser cette option.
  • TCoffee : alignement multiple de séquences
    Option : -n_core <nombre de coeurs>
    Remarque : contrairement aux autres logiciels il faut limiter TCOffee sinon par défaut il prend tous les coeurs disponibles sur la machine.
  • RepeatMasker : masquage de séquences répétées
    Option : -pa <nombre de coeurs>
  • Mira : assemblage de séquence
    Option : -GE:not=<nombre de coeurs>.
  • ProtTest : test de modèles statistiques pour les phylogénies a partir de séquences protéiques.
batch (6)
Version imprimable
Pour soumettre votre script.
qsub script.sh
Soumettre un job 10 fois.
qsub -t 1-10 job.sh
Soumettre des jobs sur la file par défaut. A charge pour SGE de soumettre le job sur un noeud de calcul disponible.
qsub -q long.q sge_blast.sh
Soumission sur un noeud particulier d'une file connue
qsub -q long.q@n46 sge_blast.sh
Soumettre un job sur un noeud particulier.
qsub -l hostname=n55 sge_clustal.sh
Dans un groupe de machines.
qsub -q "*@@allhosts" sge_blast.sh
Soumettre un job sur la file long.q mais sur les noeuds disposant du plus de mémoire. On utilise la ressource big_mem (ciblant les noeuds ayant plus de 8Go de mémoire RAM).
qsub -l big_mem -q long.q sge_blast.sh
Version imprimable
Afficher les noeuds de calcul disponibles et leurs ressources.
qhost



Afficher les groupes de noeuds de calcul

qconf -shgrpl



Afficher l'état des files d'attente.

qstat
qstat -u "*"
qstat -f
qstat -g c


Afficher les jobs en attente pour l'utilisateur martin
qstat -u martin -s p



Afficher les jobs en cours de traitement pour l'utilisateur martin

qstat -u martin -s r


Afficher l'état d'un job en erreur (la ligne error peut indiquer la raison de non soumission si le job est en mode Eqw)
qstat -j 165432


Signification des flags sur l'état de la file issu de qstat -f.

a(larm), A(larm), C(alendar suspended), s(uspended), S(ubordinate), d(isabled), D(isabled), E(rror)
Version imprimable
Supprimer le job numéro 12.
qdel 12
Supprimer tous les jobs de l'utilisateur dont le login est "martin".
qdel -u martin
Forcer la suppression du job numéro 12.
qdel -f 12
Version imprimable

Par défaut tous les jobs ont la même priorité (0) dans une file. La
politique actuelle repose une modèle de partage (Fair Share Scheduling) qui équilibre la charge sur une fenêtre glissante de 7 jours.

Pour basculer les jobs d'un utilisateur de la file courante vers une nouvelle file (newshort.q)
qalter -u martin -q newshort.q 
Version imprimable

Cannot execute binary file.

Vérifier que l'on a bien 
#! /bin/bash en première ligne du shell



Job XXXX (xxxx.sh) Aborted:
failed assumedly after job because:
job XXXX died through signal USR1 (10)
Vous avez soumis votre job à la queue short.q dont le temps d'execution est limitée à 4h. Celui-ci étant dépassé, le job a été tué par le gestionnaire de queue. 
Vous pouvez soumettre à nouveau votre job sur la queue long.q
Version imprimable

Il y a 4 files principales sont : short.q, long.q, infinit.q, web.q


short.q
c'est la file par défaut si aucune option n'est demandée
elle doit être utilisée pour les jobs dont la durée d'exécution est inférieure à 12 h
limites : 43% des ressources totales soit 214 slots (coeurs, sur 496 actuels), 100 slots max par utilisateur.


long.q
elle est demandée par l'option -q long.q
elle doit être utilisée pour les jobs dont la durée d'exécution est inférieure à 5 jours
limites : 77% des ressources totales soit 362 slots, 150 slots max par utilisateur.


infinit.q
elle est demandée par l'option -q infinit.q
elle doit être utilisée pour les jobs dont la durée d'exécution est supérieure à 5 jours
limites : 23% des ressources totales soit 112 slots, 50 slots max par utilisateur.


web.q
elle est utilisée par les applications web demandant des ressources de calculs
limites : 7% des ressources totales soit 32 slots, elle est accessible uniquement à l'utilisateur apache

qlogin (3)
Version imprimable

Saisissez votre mot de passe MIGALE (compte étendu) après avoir lancé la commande qlogin.

 qlogin -q long.q
 Your job 1887417 ("QLOGIN") has been submitted
 waiting for interactive job to be scheduled ...
 Your interactive job 1887417 has been successfully scheduled.
 Establishing /opt/sge/qlog session to host n63 ...
 The authenticity of host 'n63 (192.168.1.63)' can't be established.
 RSA key fingerprint is 96:44:db:03:44:86:d7:fa:77:cd:59:99:99:d9:55:7c.
 Are you sure you want to continue connecting (yes/no)? yes
 Warning: Permanently added 'n63,192.168.1.63' (RSA) to the list of known hosts.
 caron@n63's password:
Version imprimable

Pour se déconnecter,

 exit
 Connection to n63 closed.
 /opt/sge/qlog exited with exit code 1
Version imprimable

Avantages du mode interactif :

Simple, environnement identique à celui du serveur migale, performances améliorées par rapport à migale si ce dernier est chargé

Inconvénients du mode interactif :

Nécessité de laisser ouvert le terminal, utilisable que pour tester sa configuration avec quelques traitements simultanés (max ~ 3)

Bases de données (7)
Version imprimable

Vous trouverez une liste non exhaustive d'ouvrages intéressants à cette URL : http://migale.jouy.inra.fr/?q=ouvrages.

Version imprimable

Voici trois outils :

  • DBdesigner 4
    Outil (Open Source) de conception de bases de données sous windows et Linux.
    - Son interface graphique permet de créer un modèle relationnel puis de générer le fichier SQL de création des tables pour Oracle, MySQL et toute base ODBC et ADO ;
    - il génère automatiquement la documentation de la base de données ;
    - il permet également de charger des données dans une base existante à partir de fichiers en réalisant un mapping colonnes du fichier-champs de la table ;
    - il permet aussi de faire du reverse engineering.

    Il est disponible à l'URL : http://www.fabforce.net/dbdesigner4/
  • DRUID
    Outil (Open Source) de création de bases de données en mode grapique, développé en Java.
    Une fois la base créée il permet la génération de documentation en html ou pdf, de scripts sql, du dictionnaire de données, etc...

    Il est disponible à l'URL : http://druid.sourceforge.net
Version imprimable

Vous trouverez des informations à ce sujet à l'URL suivante : http://www.postgresqlfr.org/?q=node/1432.

Version imprimable

Voir le site http://wiki.inra.fr/wiki/bdtgv/
(identification avec login ldap national Inra)

Version imprimable

Voici un lien vers la socumentation officielle : http://dev.mysql.com/doc/.

Applications bioinformatiques (0)

Compilation d'un ensemble de liens et FAQ sur les principales applications bioinformatiques de la plateforme migale.

Format de fichiers de séquences (3)
Version imprimable

Une séquence au format FASTA commence par une ligne de titre (nom, définition ...), suivie par les lignes de la séquence. La ligne de titre se distingue de la séquence par un symbole plus grand que (">") en début de ligne. La longueur de cette ligne ne doit pas excéder 200 caractères. Il est recommandé de mettre la séquence sous forme de lignes de 80 caractères maximum. Un exemple de séquence au format fasta :


>gi|532319|pir|TVFV2E|TVFV2E envelope protein
ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT
QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC
HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK
MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK
TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF
APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKNL
LAAVEAQQQMLKLTIWGVK

Version imprimable

Le format GFF est un format de fichier pour stocker des features génomiques dans un fichier texte. GFF signifie Generic Feature Format.
Les fichiers GFF sont des fichiers tabulés de 9 colonnes contenant du texte simple.
Les bases de données GFF existent aussi. Elles utilisent un schéma construit pour représenter les données GFF.
GFF est fréquemment utilisé dans GMOD pour l' échange de données et la représentation de données génomiques.

Voici un exemple de fichier GFF3 miniature :


##gff-version 3
ctg123 . exon 1300 1500 . + . ID=exon00001
ctg123 . exon 1050 1500 . + . ID=exon00002
ctg123 . exon 3000 3902 . + . ID=exon00003
ctg123 . exon 5000 5500 . + . ID=exon00004
ctg123 . exon 7000 9000 . + . ID=exon00005

Version imprimable

Le format GenBank contient des mots clés et des sous clés et une table de caractéristique optionnelle, la fiche d’information se termine toujours par //.
A titre d’exemple le mot clé LOCUS introduit une étiquette, ainsi que des informations concernant la longueur de la séquence donnée en bp (base pair), le type de la séquence, la division, sa date d`émission.

Voici un exemple du format Genbank:

LOCUS HSIGVH221 682 bp DNA linear PRI 30-OCT-1995
DEFINITION H.sapiens germline immunoglobulin heavy chain, variable region,
(22-1).
ACCESSION X92210
VERSION X92210.1 GI:1045093
KEYWORDS germ line; immunoglobulin.
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1 to 682)
AUTHORS Berman,J.E., Mellis,S.J., Pollock,R., Smith,C.L., Suh,H.,
Heinke,B., Kowal,C., Surti,U., Chess,L., Cantor,C.R. and Alt,F.W.
TITLE Content and organization of the human Ig VH locus: definition of
three new VH families and linkage to the Ig CH locus
JOURNAL EMBO J. 7 (3), 727-738 (1988)
MEDLINE 88283641
PUBMED 3396540
FEATURES Location/Qualifiers
source 1..682
/organism="Homo sapiens"
/db_xref="taxon:9606"
BASE COUNT 178 a 156 c 147 g 198 t 3 others
ORIGIN
1 cgaccgtctg catctcactc ttgttaggct gatgtgtcat ttatcttccc tttcttatca
61 tggattgggc tttgagctaa gaaaggcttt gtctctatga atatgcaaat atactgatat
121 ccactgaggt aaatatgttc tgtgccctga gagaatcacc tgagagaatc ccctgagagc
181 acatctcctc atgggctgga cctgcaagnt cctcttcttg gtggcagcag ccacaggtaa
241 gcagttccca ggtccaagta atgaggaggg gattgagtcc agtcaagggg gctttcatcc
301 actcctgtgt cctccccaca ggtgcccact cccaggtgca gctggtgcaa tctggggctg
361 aggtgaagaa gcctggggcc tcagtgaagg tctcctgcaa ggcttctgga tacaccttca
421 cctactgcta cttgcactgg gtacgacagg cccttggana agggcttgaa tggacaggan
481 tttagttatt tgagagattt ttcatacaac atttattctg taagcaaatt tcagggattg
541 tagaatgaat cacattaaca aatctgacac agaacttcct ctgaatcaat ctttgtaaac
601 atcaatttcc gaatcaatgt tgtaaatatt tcagaacaca agcacaaatt cacattttaa
661 ctctactttt atctctattt aa
//

Applications et Suites logicielles (0)
BLAST (3)

Cette FAQ regroupe les principales questions sur BLAST.

Version imprimable

Cela se fait en deux étapes.

Étape 1 :Construire un index des séquences avec la commande formatdb

Sur le fichier contenant toutes les séquences de votre banque au format FASTA (disons : mes_sequences_banque.fasta)

formatdb -i mes_sequences_banque.fasta

Si tout se passe bien, trois fichiers sont générés : mes_sequences_banque.fasta.phr, mes_sequences_banque.fasta.pin et mes_sequences_banque.fasta.psq.

Étape 2 :Utilisation de cette nouvelle banque avec la commande blastpgp

Sur le fichier contenant toutes vos séquences requêtes au format FASTA (disons : mes_sequences_requetes.fasta)

blastpgp -d mes_sequences_banque.fasta -i mes_sequences_requetes.fasta

Note : dans cette dernière commande, le nom "mes_sequences_banque.fasta" ne correspond pas au fichier lui-même, mais au nom commun aux 3 fichiers générés dans l'étape 1. Le fichier banque au format fasta n'est pas utilisé par BLAST.

Version imprimable

Vous trouverez l'explication de l'erreur dans le fichier

blastpgp.log
ou
rpsblast.log

qui se trouve dans le repertoire à partir duquel vous avez lancé la commande.

Version imprimable

Cf. la réponse à la question "Comment utiliser BLAST sur ma propre banque de données ?".

GCG -> EMBOSS (9)
Version imprimable

La suite logicielle GCG ne sera plus maintenue par son Éditeur, Accelrys, À partir de juin 2008. Une alternative est d'utiliser la suite EMBOSS, bien que les outils proposés par EMBOSS ne couvrent pas l'ensemble des applications GCG. Pour essayer de migrer le plus facilement possible, nous avons lister les outils EMBOSS équivalents - si ils existent - aux applications GCG. Cette première liste non exhaustive est accessible sous la forme d'un tableau avec des liens vers la documentation.

Version imprimable

Deux commandes sont équivalentes à findpatterns, il s'agit de fuzznuc dans le cas de séquences nucléiques et de fuzzpro pour les séquences protéiques.

Voici un exemple ci-dessous qui correspond à findpattern : fuzzpro uniprot:P04395 Protein pattern search
Search pattern: TARVAQ
Output report [3mg2_ecoli.fuzzpro]:
ou bien encore : fuzznuc gb_bct:ab000186
Nucleic acid pattern search
Search pattern: cttca
Output report [ab000186.fuzznuc]:

Version imprimable

Il faut utiliser la commande seqret (lien) exemples: un normal et avec *

Extraction par le numéro d'accession :
seqret genbank:L07770
Reads and writes (returns) sequences
output sequence(s) [xelrhodop.fasta]:

Seqret utilise le caractère joker (*) qui permet d'extraire toutes les séquences qui commencent par humig*
seqret genbank:humig*
Reads and writes (returns) sequences
output sequence(s) [humiglym1.fasta]:

Extraction d'une partie seulement de la séquence et non la séquence totale.
seqret genbank:L07770 -sbegin 150 -send 260

Version imprimable

La gestion de liste est très simple, il suffit de créer un fichier contenant la liste des séquences que l'on souhaite.

emacs maliste
genpept:41387648

genpept:10180754
uniprot_trembl:Q782P5

et pour ensuite utiliser cette liste,
seqret @maliste -outseq monresultat

cette liste peut également être utilisée par différents programme comme par exemple fuzzpro (recherche de motif) :
fuzzpro @maliste -pattern GRGSTLGLDIETATRA

Version imprimable

Il faut mettre l'identifiant de la séquence les valeurs de début (-sbegin) et de fin (-send) entre crochets :

emacs maliste
genpept:41387648[20:40]

genpept:10180754[10:60]
uniprot_trembl:Q782P5[1:120]

Version imprimable

seaview, jalview et CLC Sequence Viewer sont des éditeurs de séquences accessibles sur topaze en lançant sur topaze :

seaview
jalview
clcseqview5

Version imprimable

Il n'existe pas d'équivalent dans la suite EMBOSS des commandes gelstart, geenter...
Une des solutions est d'utiliser des outils d'assemblages comme cap3 ou phred/phrap. Une documentation pour phrap est en ligne, également pour phred.

Version imprimable

La commande blastall sur topaze permet d'executer tous les types de blast sur toutes nos banques mise en ligne sur la plateforme. Un tutorial de blast permet une prise en main rapide de l'outil.

Exemple GCG :

 > blast
 BLAST searches one or more nucleic acid or protein databases for sequences similar to one or more query sequences of any type. 
 BLAST can produce gapped alignments for the matches it finds. 

 BLAST with what query sequence(s) ? 104K_THEPA.uniprot_sprot             
Begin (* 1 *) ?
End (* 924 *) ? Search for query in what sequence database: 1) pir p Protein Information Resource 2) uniprot p SWISS-PROT + SP-TREMBL 3) est_human n Human Expressed Sequence Tags (GenBank ) 4) est_mouse n Mouse Expressed Sequence Tags (GenBank ) 5) est_other n All Other Expressed Sequence Tags (GenBank ) 6) genbank n GenBank 7) htg n High Throughput Genomes (HTG from GenBank ) 8) htc n High Throughput Genomes (HTC from GenBank ) 9) gss n Genome Survey Sequences (GSS from GenBank ) 10) genpept p GenPept (Translated GenBank) 11) vbabuaa p Satheesh AA Sequences 12) vbabuna n Satheesh NA Sequences Please choose one (* 1 *): 2 Ignore hits expected to occur by chance more than (* 10.0 *) times? Limit the number of sequences in my output to (* 500 *) ? What should I call the output file (* 104K_THEPA.blastp *) ? ../..

Exemple blastall : (un tutorial de blast permet une prise en main rapide de l'outil).

blastall -p blastp -d uniprot -i 104K_THEPA.uniprot_sprot -o 104K_THEPA.blastp 
Version imprimable

Le programme emma permet de réaliser des alignements multiples, voici ci-dessous un exemple. Pour plus de précision concernant ce programme vous pouvez consulter la documentation fournie par EMBOSS.

% emma 
Multiple alignment program - interface to ClustalW program
Input (gapped) sequence(s): globins.fasta
output sequence set [hbb_human.aln]: 
Dendrogram (tree file) from clustalw output file [hbb_human.dnd]: 

 CLUSTAL W (1.83) Multiple Sequence Alignments

Sequence type explicitly set to Protein
Sequence format is Pearson
Sequence 1: HBB_HUMAN       146 aa
Sequence 2: HBB_HORSE       146 aa
Sequence 3: HBA_HUMAN       141 aa
Sequence 4: HBA_HORSE       141 aa
Sequence 5: MYG_PHYCA       153 aa

...
EMBOSS (5)

Cette FAQ regroupe les principales question liées à l'application EMBOSS.

Version imprimable

Créer une liste comme l'exemple ci-dessous :

emacs maliste

genpept:41387648


genpept:10180754

uniprot_trembl:Q782P5_9ALPH

Pour utiliser la liste ajouter @ devant le nom de la liste :

fuzzpro @maliste -pattern GRGSTLGLDIETATRA

Version imprimable

Voici un extrait d'un échange sur la liste emboss qui peut nous être utile :

Subject: Re: [EMBOSS] question about 'fuzznuc'and 'fuzzpro'
> I know I can give a pattern like 'ACCGGT' and search against a file which contains multiple sequences. Is there a way I can specify 
> a 'pattern file' which contains multiple patterns that I want to search for instead of just one pattern each time? For example, I have
> a fileA which contains multiple DNA sequences. I want to create a fileB which contains 20 patterns that I want to seach each of them
> against the sequences in the fileA. We are in the transition from GCG to EMBOSS. And the program 'findpatterns' in GCG can do this.
> But I couldn't find corresponding emboss program that does the same thing.

New in EMBOSS 4.0.0, contributed by Henrikki Almusa of Medicel in Helsinki.

fuzznuc (and fuzzpro and fuzztran) now can read in a file of patterns with the commandline syntax:
fuzznuc @patternfile

You can also use @patternfile in response to the prompt for a pattern.
Here is an example pattern file with FASTA-style IDs and mismatch counts for each pattern:
>pat1
cggccctaaccctagcccta
>pat2 <mismatch=1>
cg(2)c(3)taac
cctagc(3)ta
>pat3
cggc{2,4}taac{2,5}

Here is a file with just the second pattern, and no name (it will default to pattern1
cg(2)c(3)taac
cctagc(3)ta

You can set a default name with -pname and a default mismatch with -pmismatch
I note we could document this better in the fuzz* program manual entries. We will do for the 4.1 release.
Version imprimable

seqret uniprot:Q12345 -osdbname UNIPROT

seqret uniprot:Q12345 seqret uniprot:Q12345 -osdbname UNIPROT
>IES3_YEAST Q12345 Ino eighty subunit 3.
MKFEDLLATNKQVQFAHAATQHYKSVKTPDFLE...
>UNIPROT:IES3_YEAST Q12345 Ino eighty subunit 3.
MKFEDLLATNKQVQFAHAATQHYKSVKTPDFLE...
Version imprimable

Il faut utiliser le programme whichdb.
Exemple ci-dessous avec comme numéro d'accession AC188948 :

whichdb

AC188948
Output file [outfile.whichdb]:
Warning: Cannot open division file '' for database 'gb_env'
Warning: seqCdQry failed
Warning: Cannot open division file '' for database 'PROSITE'
Warning: seqCdQry failed
Warning: Cannot open division file '' for database 'REBASE'
Warning: seqCdQry failed


Vous obtenez ainsi le fichier outfile.whichdb :
more outfile.whichdb
gb_vrt:AC188948
genbank:AC188948
nt:AC188948

Version imprimable

Avec la version 3.0.0 je pouvais exécuter cette commande : CODERET

coderet -translation -nocds -nomrna -seqall mes_sequences.seq -outseq mes_sequences.fastap -outfile toto

maintenant avec la version 4.0.0 j'obtiens le message d'erreur suivant :
Died: Unknown qualifier -outseq

Attention la commande coderet ne possède plus tout à fait les mêmes arguments. La nouvelle commande est :

coderet -seqall mes_sequences.seq -translationoutseq mes_sequences.fastap -nocds -nomrna -outfile toto

Rappel : pour avoir de l'aide en ligne de commande, coderet -help ou coderet -help -verbose ou bien sur le site http://genome.jouy.inra.fr/doc/genome/suite-logicielle/emboss-4.0.0/html/emboss/apps/

GCG (9)

Cette FAQ regroupe les principales question liées à l'application GCG.

Version imprimable

Je veux faire une liste de fichiers de séquences (ls *.seq >liste). Ca ne marche pas sous GCG, il faut sortir de GCG car ls *.seq ne fonctionne pas en GCG.

Il faut taper la ligne suivante avant de lancer ls *.seq :
# set +f

Version imprimable

L'entête du fichier "liste" doit absolument contenir ces 2 lignes puis ensuite les noms des fichiers séquences.
!!SEQUENCE_LIST 1.0
..

Par exemple l'entête rédigé de cette façon,
!!sequence list
..

provoque l'arrêt de PileUp avec comme message :
PileUp creates a multiple sequence alignment from a group of related sequences using progressive, pairwise alignments. It can also plot a tree showing the clustering relationships used to create the alignment.

*** Error: not valid list file ***

Version imprimable

Pour ces deux programmes la banque GenBank n'est pas disponible dans sa version globale mais uniquement sous forme de divisions.

Version imprimable

Problème de retour chariot !!!!

Version imprimable

En tapant la commande suivante :
# xwindows
"Il suffit, après avoir démarré GCG, de taper la commande "xwindows". Une fenêtre graphique apparait, dans laquelle s'affichent successivement tous les graphiques (notamment lorsqu'une commande permet de générer plusieurs graphiques successifs, en passant de l'un a l'autre par <return>)."

Version imprimable

En insérant ces 2 lignes en début de script.

/usr/local/genome/gcg/startup.ksh
$GCGROOT/etc/systemaliases.ksh

Version imprimable

En utilisant la commande seqconv+

# seqconv+ all-uniprot-hsa

SeqConv is a new (batch) sequence conversion utility. The program can convert one or more sequence files into a specified format [BSML, GB (GenBank), FASTA, EMBL, SPT (SPTrEMBL), SW(SwissProt), RSF, SSF(GCG) and MSF]. With multiple files, SeqConv can either convert each file into a separate file or concatenate them all into one file.

Desired output format (* BSML *) ?FASTA

Version imprimable

Il existe 2 types de commandes blast sur topaze. Le blast du NCBI dont la version à ce jour (09/2005) est la 2.2.11 et le blast de GCG (2.2.10). L'avantage de ce dernier est s'être intégrer totalement à la suite GCG et donc de pouvoir lire les fichiers de séquences générés par lers autres modules de GCG.

Version imprimable

Il faut lancer blast+ avec l'option -dbr
# blast -dbr

Outils statistiques (2)
Version imprimable

Lancer la commande suivante (attention les majuscules sont nécessaires) :

[topaze] R CMD BATCH votre_programme_R

Version imprimable

En lancant la commande d'aide comme indiqué help.start() on obtient le message d'erreur suivant, ainsi qu'une fenêtre indiquant que votre navigateur est deja ouvert :

> help.start()
Making links in per-session dir ...
If '/usr/local/public/bin/firefox' is already running, it is *not* restarted, and
you must switch to its window.
Otherwise, be patient...> Error: No running window found

Une solution possible est de taper cette commande afin d'ouvrir un autre navigateur que celui que vous utilisez habituellement, comme par exemple :

> help.start(browser="mozilla")

Ci dessous, une remarque supplémentaire apportée par un utilisateur.

"Si le navigateur demandé ne se lance pas alors qu'aucun n'est ouvert, de vérifier la présence sous l'arborescence du user ~/.mozilla/firefox/repd'indentification/, si les fichiers lock et .parentlock, le .point étant important, existent ou pas, auquel cas les supprimer."
SeqWeb (8)

Liste des principaux problèmes rencontrés avec la nouvelle version de SeqWeb 3.0 et leurs solutions. Il peut s'agir également de bugs déjà signalés au support GCG mais non résolus pour cette version.

Version imprimable

Oui en utilisant les caractères suivants : & (pour AND), | (pour OR) et ! (pour BUT NOT) comme indiqué dans l'aide en ligne.
Exemple :
En sélectionnant la database Uniprot et en mettant dans le champ AllText = "carboxylate & aminotransferase" on obtient comme résulat une seule entrée,
par contre en mettant "carboxylate | aminotransferase & lactis" on obtient 24 entrées

Version imprimable

Le système d'indexation des banques est relativement complexe à mettre en oeuvre sous GCG. A ce jour nous nous contentons de mettre sous lookup seulement la globalité des banques nucléiques et protéiques. Lookup reposant par ailleurs sur des index par champs, il est possible d'effectuer ce filtre dans la requête.

Version imprimable

Attention dans la fenêtre résultat de LookUp "LookUp Search Results" il manque systématiquement une entrée à l'affichage. Par contre, le nombre de fiches trouvé est correct mais la liste qui est affichée comporte toutes les fiches moins une !!. Il s'agit d'un bug de SeqWeb. En cliquant sur Text View, on peut visualiser l'entrée récupérée mais non affichée. Ce dysfonctionnement a été remonté au support GCG.

Version imprimable

Lors d'une recherche multicritère il est important de saisir les termes en les séparant par une virgule (dna,lactis,regulator), mais sans y introduire d'espace. En effet dans ce dernier cas seul le premier terme sera pris en compte et aucun message ne sera affiché au lancement. Il est malgré tout possible de vérifier dans la fenêtre résultat la requête qui a été utilisée. Un message d'avertissement serait le bienvenu. Ce dysfonctionnement a été remonté au support GCG.

Version imprimable

Ce dysfonctionnement a été remonté au support GCG.

Version imprimable

Le résultat de la commande FindPatterns n'affiche que la position où a été trouvé le pattern mais autres informations (contrairement à la version précédente ou à la version en ligne de commande).

Ce dysfonctionnement a été remonté au support GCG. Un correctif sera apporté dans la prochaine version de SeqWeb.

Version imprimable

Cette fenêtre n'apparait pas l'interface SeqWeb bien que ce soit mentionné dans l'aide. Les résultats sont désormais stockés dans le gestionnaire jobs. Un correctif sera apporté dans la prochaine version de SeqWeb.

Version imprimable

Les jobs non visualisé par l'utilisateur se trouve dans la section submitted. Une fois ouvert, le résultat du job bascule dans la section saved. Un job ne peut être supprimé qui si il se trouve dans saved.

Gestionnaire de versions (1)
Version imprimable
  • Introduction à CVS et un Mini HOWTO CVS en français rédigé par Antoine Marin.
  • Les nouveaux systèmes de gestion de version : CVS est en passe d'être remplacé par SubVersion bien sûr mais aussi par de nouveaux types de dépôts décentralisés. Cet exposé de S. Bortzmeyer dresse un état de l'art actuel des gestionnaires de versions.
Migale (0)
Généralités (2)
Version imprimable

L'espace sur lequel vous essayez d'écrire est saturé. Voici la commande à utiliser pour vérifier ce point précis dans la plupart des cas de figures.

# df |grep 100%
diamant:/home/papha 61G 61G 145M 100% /home/papha diamant:/home/virim 81G 80G 137M 100% /home/virim

La seule solution consiste soit à supprimer des fichiers, soit à demander une augmentation de la volumétrie. Il faut noter qu'il s'agit d'un espace commun à l'ensemble de l'unité.

Archivage des données (2)
Version imprimable

L'augmentation constante de la volumétrie des données déposées sur la plateforme entraine une charge de plus en plus importante de la gestion des sauvegardes. Par conséquent dans un délai relativement court, il ne va plus être possible de sauvegarder l'ensemble de vos données. C'est pourquoi nous vous conseillons dans un premier temps d'archiver autant que possible vos répertoires.

Version imprimable

La commande "tar" permet d'archiver plusieurs fichiers ou tout le contenu d'un dossier (répertoire), en un seul fichier unique.

Exemple :

tar zvcf mon_archive.tar.gz mon_dossier_a_archiver

Dans cet exemple l'archive est également compressée (gzip). Par convention on note .tar pour signaler qu'il s'agit d'une archive et .gz pour indiquer que le fichier a été compressé avec gzip.

Ensuite vous pouvez supprimer le dossier mon_dossier_a_archiver.

Pour décompresser cette archive, il suffit de taper la commande suivante :

tar vxfz mon_archive.tar.gz

ainsi on retrouve l'intégralité du dossier mon_dossier_a_archiver que l'on avait précédemment (le dossier est recréé).

Usage

tar <operation> [options]

Operations :

-c = create -x = extract

Options :

-v = verbose -f = file -z = gzip

Et pour obtenir plus d'informations

man tar
Citation (1)
Version imprimable

Les services de la plateforme MIGALE sont ouverts et accessibles sans compensation financière. Dans le cas où certains travaux utilisant des ressources de la plateforme (calcul, stockage, ressources humaines...) mèneraient à une publication scientifique, nous vous demandons en contrepartie de citer ou de remercier la plateforme dans les remerciements.

Nous proposons trois modèles de citations en fonction du contexte :

Citation générique


"We are grateful to the INRA MIGALE bioinformatics platform (http://migale.jouy.inra.fr) for providing help and support"

Utilisation des ressources de calcul


"We are grateful to the INRA MIGALE bioinformatics platform (http://migale.jouy.inra.fr) for providing computational resources"

Exemple pour un projet associant plus directement un ou des membres de la plateforme (mini-projet...)


"We are grateful to Martin V., Xxxxx Y. from the INRA MIGALE bioinformatics platform (http://migale.jouy.inra.fr) for providing help and support."

Mot de passe (1)
Version imprimable

Le changement s'opère en se connectant sur le serveur migale et en utilisant la commande "passwd" :

#> passwd

Entrez votre mot de passe actuel

#> Enter login(LDAP) password:

Taper votre nouveau mot de passe

#> New UNIX password:

Retaper votre nouveau mot de passe

#> Retype new UNIX password:

Le nouveau mot de passe est validé

#> passwd: all authentication tokens updated successfully.
Migration Migale sous Linux (11)

Cette FAQ regroupe les solutions aux différents problèmes rencontrés suite à la migration de topaze sous Linux. Les commandes à saisir sont encadrées. Le caractère # est juste présent pour représenter le prompt Linux dans ces exemples. Ne le tapez pas.

Version imprimable

Lors d'une connexion via le protocole SSH, un message d'erreur s'affiche au sujet d'un changement de clé SSH.
The RSA host key for topaze has changed, and the key for the according IP address 138.102.22.1
has a different value. This could either mean that DNS SPOOFING is happening
or the IP address for the host and its host key have changed at the same time.
Offending key for IP in
/home/urlga/meriem/.ssh/known_hosts:1


@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!
Someone could be eavesdropping on you right now (man-in-the-middle attack)!
It is also possible that the RSA host key has just been changed.
The fingerprint for the RSA key sent by the remote host is
28:75:3b:84:3a:c3:d7:24:f7:a5:0f:e0:a2:a6:d7:79.
Please contact your system administrator.
Add correct host key in /Users/pierreboudinot/.ssh/known_hosts to get rid of this message.

Offending key in /Users/pierreboudinot/.ssh/known_hosts:2
RSA host key for 138.102.22.1 has changed and you have requested strict checking.
Host key verification failed.

Ce type de messages intervient le plus souvent après une mise à jour de la version de SSH sur le serveur. Il faut alors supprimer la ligne dont le numéro est indiqué dans le message d'erreur du fichier $HOME/.ssh/known_hosts
La suppression du fichier $HOME/.ssh/known_hosts peut aussi être une solution si l'on a pas accès à un éditeur de texte par exemple.
# rm -f $HOME/.ssh/known_hosts

Version imprimable

Il faut modifier la méthode démarrage et remplacer RSH(TCP/IP) par RLOGIN(TCP/IP)

Version imprimable

Avec le passage sous Linux, les utilisateurs disposent d'un nouveau Shell par défaut, le BASH. Ce shell dipose de toutes les fonctions de tcsh (shell par défaut précédent) et bien plus.

Version imprimable

L'ensemble de l'envrionnement utilisateur est dorénavant dans le fichier .bashrc. Pour la plupart des utilisateurs cette opération est transparent. Il se peut que certains aient besoin de transferer certains alias, ou variables d'nvironnement.
Voici la nouvelle syntaxe bash pour ces 2 exemples :
# alias md="mkdir"
# export CVS_RSH=ssh

Version imprimable

Avec le bash, la commande pour affecter une variable d'environnement a changé
# export CONSED_HOME=/usr/local/genome

Version imprimable

La versions xbap de staden 1996 ne focntionne plus sous les sytèmes Linux. Actuellement il existe des solution de rechange comme seqmerge (pour des projets de faible ampleur) ou les suites STADEN (documentation au format PDF complete ou minimaliste) 1.5.3 et phrePhrap qui demanderaont par contre un investissment plus important.

Version imprimable

En lancant certaines applications comme consed ce message apparait :
consed_linux: /usr/local/genome/gcg-11.0/lib/libgcc_s.so.1: version `GCC_3.3' not found (required by
/usr/local/genome/arb-22-08-2003/lib/libstdc++-libc6.2-2.so.3)

Tapez la commande suivante :
#unset LD_LIBRARY_PATH.

Version imprimable

La version 3.0 de SeqWeb pour GCG 11.0 est en cours d'installation.

Version imprimable

La version 11.0 abandonne l'architecure VMS au profit d'une arborescence de type Unix/Linux. Pour les utilisateurs on notera plus particulièrement l'intégration des outils graphiques seqmerge (assemblage) et de clustalw(alignements multiples). De nouveaux utilitaires de manipulations de séquences (seqmanip+, seqstat+) ou de conversion de format (seqconv+) ont également été intégrés. Plus de détails sont accessibles via la documentation en ligne.

Version imprimable

Certaines applications peuvent se lancer en mode normal (ex: findpatterns)ou en mode étendu (findpatterns+). La seconde méthode élimine certaines contraintes comme les limites de taille des séquences et accepte des formats de fichiers différents (GenBank, EMBL, SwissProt, FASTA, PIR, EMBL, BSML) du format GCG (MSF, RSF...). Pour savoir si une commande dispose de son équivalent +, il suffit de taper la dite commande puis d'appuyer 2 fois sur la touche de tabulation. Si le mode + existe pour cette commande, le shell vous l'affichera.

Version imprimable

Il est nécessaire de créer un répertoire cgi-bin dans chaque public_html et d'y déplacer tous ces programmes CGI.
# mkdir /htdocs/migale/caron/public_html/cgi-bin

Galaxy (0)
Authentification (1)
Version imprimable

Le portail Galaxy de la plateforme Migale est accessible à l'URL suivante : http://migale.jouy.inra.fr/galaxy.

Afin de vous y connecter, il est nécessaire d'avoir un compte sur la plateforme Migale. Si vous n'en avez pas, il est possible d'en faire la demande via le formulaire mis à votre disposition à l'URL suivante : http://migale.jouy.inra.fr/?q=demande-compte.

Si vous rencontrez un problème, vous pouvez nous contacter via galaxy-help@jouy.inra.fr.

Quotas (2)
Version imprimable

L'espace de travail dédié par défaut est de 20 Go.

Il est possible de faire une demande auprès de galaxy-help@jouy.inra.fr afin d'augmenter la taille de cet espace.

Votre demande sera alors étudiée. Il est possible que la plateforme Migale prenne contact avec vous afin de connaître vos besoins.

Version imprimable

Si vous avez supprimé des données de votre historique mais que la taille de ce dernier n'a pas changé, voici la procédure à suivre :

  • cliquez sur le symbole représentant une roue dentelée en haut à droite de votre historique,
  • dans le menu, choisissez l'option Purge Deleted Datasets.

La taille de votre historique est alors modifiée.

Téléchargement de données (2)
Version imprimable

En premier lieu, il faut que votre fichier d'intérêt se trouve sur le serveur Migale. Si ce n'est pas le cas, différents outils vous permettent de faire ceci facilement selon votre environnement :

Remarques importantes :

  • les répertoires où se trouvent vos fichiers doivent être accessibles en lecture et exécution,
  • vos fichiers doivent être accessibles en lecture.

Voici deux manières de procéder pour vérifier et modifier les droits d'un fichier/d'un répertoire :

  • sous Linux :
    • la commande ls -l permet de voir les droits sur votre fichier/répertoire.
    • la commande chmod 755 fichier/répertoire permet de modifier les droits de manière correcte sur le fichier/répertoire. La commande chmod -R 755 répertoire permet de modifier les droits de manière correcte sur le répertoire ainsi que tous les sous-répertoires et fichiers contenus.
  • sous Windows via WinSCP
    • un clique droit sur votre fichier/répertoire ainsi que sur le menu Propriétés vous donne accès aux permissions attribuées sur celui-ci. Afin de les modifier, il vous suffit de cocher les cases nécessaires (propriétaire : RWX, groupe : RX, autre : RX). Si vous souhaitez appliquer le récursif, cochez la case Appliquer récursivement le groupe, le propriétaire et les permissions.

Une fois votre fichier présent sur le serveur Migale avec les droits nécessaires, l'outil Upload file from Migale disponible dans la section Get Data de Galaxy va vous permettre de l'intégrer au sein de l'interface.

Voici un exemple pour le fichier test.fasta présent dans le répertoire /projet/mig/galaxy/ :

  • Galaxy File Name : ce champ facultatif vous permet de nommer votre fichier au sein de l'interface Galaxy. Pour notre exemple, on laissera ce champ vide.
  • File type : ce champ obligatoire permet de définir le format de votre fichier (exemple : fasta, fastq, ...). Pour notre exemple, on choisira fasta.
  • Path to file in the Migale server : ce champ obligatoire permet de donner le chemin absolu vers votre fichier (remarque : nom du fichier et extension compris). Pour notre exemple, on saisira /projet/mig/galaxy/test.fasta
  • Genome : ce champ facultatif vous permet de choisir un génome de référence. Pour notre exemple, on laissera ce champ vide.
Version imprimable

L'interface Galaxy ne permet pas de télécharger des fichiers de taille supérieure à 2Go via l'upload traditionnel (outil "Upload File from your computer").

Plusieurs possibilités s'offrent donc à vous :

  • vos données sont accessibles via une URL : il vous suffit de mettre l'URL dans l'encadré "URL/Text:",
  • vos données sont accessibles via un serveur FTP : il vous suffit de mettre l'URL FTP dans l'encadré "URL/Text:".

Si ce sont des données personnelles non accessibles par le web, il faut les transférer sur notre serveur Migale dans votre espace de travail (exemple : /projet/ville/identifiant/).

Différents outils vous permettent de faire ceci facilement selon votre environnement :

Pour faire votre upload, vous n'utiliserez donc plus l'outil "Upload File from your computer" mais "Upload local File" où il faudra renseigner le chemin vers votre fichier dans "Path to file:" (exemple : /projet/ville/identifiant/file.fastq).

Remarques importantes :

  • les répertoires où se trouvent vos fichiers doivent être accessibles en lecture et exécution,
  • vos fichiers doivent être accessibles en lecture.

Pour toutes questions supplémentaires, veuillez contacter galaxy-help@jouy.inra.fr.

Intégration d'outils (1)
Version imprimable

Un formulaire de demande d'intégration d'outil au sein du portail Galaxy de la plateforme Migale est mis à votre disposition via cette URL : http://migale.jouy.inra.fr/?q=demande-galaxy.

Pour tous renseignements supplémentaires, veuillez contacter galaxy-help@jouy.inra.fr.