Skip to Content

Outils

Version imprimable

Les outils présentés ici sont parmi les plus couramment utilisés en bioinformatique génomique et protéomique

Des logiciels publiques sont à la disposition des projets de recherche et des utilisateurs. Ils sont tous accessibles en ligne de commande depuis le serveur topaze. Dans cette configuration il est nécessaire de disposer d'un compte linux. Certains outils sont accessibles à travers une interface web.
Les outils sont référencés dans un annuaire afin de de disposer d'une vue d'ensemble et de liens vers les documentations respectives. La suite logicielle EMBOSS regroupe, à elle seule près de 300 applications différentes. Les outils les plus classiques sont bien sûr en ligne (BLAST, FASTA, CLUSTAL..). En complément, la plateforme héberge les outils développés par l'unité MIG dans le cadre de projet comme la chaîne d'annotation des génomes microbiens AGMIAL, le détecteur de gènes SHOW ou FROST un outil de reconnaissance de repliements.

Le référentiel "outils" est également interrogeable :

Un référentiel de l'ensemble des outils est interrogeable par ordre alphabétique ou par type d'utilisation. Vous pouvez aussi y trouver les outils développés à l'INRA et une version synthétique des logiciels développés par l'unité MIG. Enfin tous les outils ne rentrant pas dans les 2 catégories pécédentes : externes.

Les logiciels développés par MIG et utilisable sur la plateforme :

    • AnovArray est un ensemble de macros SAS pour l'analyse de données expressionnelles de type microarray et macroarray. Il permet la quantification des variations biologiques et technologiques et la détection de gènes différentiels entre plusieurs conditions. Les méthodes statistiques utilisées sont l'analyse de variance (ANOVA) et la méthode FDR (False Discovery Rate) pour le calcul de probabilités ajustées dans le cadre de test d'hypothèses multiples. Le package et le guide d'utilisation sont disponibles ici.
    • Class2g fournit une ségrégation des gènes en deux groupes selon leur expression et donne la probabilité d'appartenir à chaque groupe. Les données peuvent être le ratio de l'expression des gènes dans les deux conditions dans des expériences de microarray, l'intensité du signal de l'expression des gènes dans des expériences de macroarray, ou l'intensité du signal de l'hybridation des gènes dans un contexte de génomique comparative.
    • DOMIRE (DOMain Identification from REcurrence) est un serveur utilisant le programme VAST ( comparaison des structures 3D des protéines, téléchargeable librement ici) pour définir les limites des domaines structuraux dans les proteines à partir de leurs coordonnées atomiques (Tai et al., 2010). Il fournit aussi pour chaque structure requête une liste de voisins structuraux.
    • ESAP est un programme de prédiction de la conformation de boucles dans les protéines. Il est basé sur une technique de Monte-Carlo dans l'espace des angles dièdres. Il est disponible ici.
    • FROST (Fold Recognition Oriented Search Tool) est un outil de reconnaissance de repliements.
    • GOR IV est un programme de prédiction de la structure secondaire des protéines. 3 états sont pris en considération : l'hélice alpha (H), les brins bêta (b) et les structures apériodiques (C). Ce programme est basé sur des considérations statistiques issues de la théorie de l'information. Il n'utilise pas d'alignement multiple. Il fournit un résultat Q3 de 65%.
    • GOR V est un programme de prédiction des structures secondaires des protéines dérivé du GOR IV par addition du contenu d’information des alignements multiples des séquences d’acides aminés par le programme PSI-BLAST (Altschul et al. Nucl. Acids Res. 25, 3389, 1997). Sa précision de prédiction, Q3, est de 73,5%.
    • ISLAND est un programme qui permet de simuler le progrès d'un projet de cartographie physique de génomes par la méthode d'ancrage. Il fournit en particulier le nombre moyen de contigs obtenus, leur longueur moyenne et la proportion moyenne de génome recouverte par les contigs, en fonction de la longueur du génome, des nombres de clones et ancres utilisés et des longueurs de clones. Il est disponible (code source et documentation) ici.
    • KAKSI est un programme d'assignation de la structure secondaire des protéines. L'assignation des structures secondaires : l'hélice alpha (H), les brins bêta (b), les tournants (T) et les structures apériodiques (C) est effectuée sur la base des distances entre les carbones alpha et des angles phi et psi de la chaîne principale. Le programme calcule aussi la courbure de la chaîne principale. KAKSI est disponible ici.
    • LP2Asium est un logiciel développé dans le cadre des projets Caderige et ExtraPloDocs. C'est une suite intégrée de composants indépendants qui prend en entrée un document textuel, en fait l'analyse syntaxique grâce à Link Parser (développé au CMU), en extrait toutes les dépendances syntaxiques, les classe par type et les met au format d'entrée Asium. La grammaire et le lexique de LP sont modifiables et la liste des dépendances indépendante de l'analyseur. La suite est en Perl et Java. LP2Asium est libre. Il est fourni avec un lexique spécialisé pour la génomique.
    • MuGeN (Multi-Genome Navigator) est un outil interactif permettant une exploration dans plusieurs génomes annotés complétés par des résultats d'analyse in silico. Il dispose également d'un mode d'exécution en mode batch lui permettant de servir de générateur d'images à divers formats. Ce mode de fonctionnement le prédispose à être intégré à des sites Web pour l'affichage de cartes physiques annotées. MuGeN est disponible ici et est référencé sur les portails FreshMeat et Bioinformatics.Org.
    • OSS-HMM (Optimal Secondary Structure prediction Hidden Markov Model) est un programme de prédiction de la structure secondaire des protéines selon 3 états : hélice alpha (H), brin bêta (b), et structure apériodique (C) qui utilise le formalisme des modèles de Markov cachés. Quand il est utilisé avec une seule séquence il fournit un Q3 de 68.8%. Avec un alignement multiple il fournit un Q3 de 75.5%. Cet outil peut aussi être utilisé pour générer des séquences de protéines ayant une suite de structures secondaires particulières. OSS-HMM est disponible ici
    • PCM (Pairwise Correlation Method). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisé pour l'identification des domaines par récurrence dans les protéines, programme DOMIRE (DOMain Identification from REcurrence), voir : Tai CH, Sam V,Gibrat JF, Garnier J, Munson PJ et Lee BK. Protein domain assignment from the recurrence of locally similar structures. PROTEINS : Structure, Function, andBioinformatics (2011). PCM peut être téléchargé librement ici.
    • R'HOM (Recherche de régions HOMogènes dans les séquences d'ADN) est un logiciel dédié à l'utilisation de modèles de chaînes de Markov cachées pour la segmentation de séquences d'ADN en régions homogènes. R'HOM permet d'estimer un modèle de la composition des séquences d'ADN plus réaliste qu'un modèle de chaîne de Markov homogène et ensuite de segmenter les séquences sous ce modèle. Il a été utilisé notamment pour la recherche de transferts horizontaux chez B. subtilis et pour l'estimation de modèles destinés au calcul de la significativité de comptages de mots. R'HOM a été développé en coopération avec le Laboratoire Statistique et Génome d'Evry. Il est distribué librement à l'adresse ici.
    • SHOW (Structured HOmogeneities Watcher) est un "R'HOM" amélioré qui permet de définir souplement un modèle de chaîne de Markov cachée complexe puis d'utiliser ce modèle de diverses manières grâce à l'implémentation d'algorithmes de segmentation (forward-backward, Viterbi), d'estimation (EM) et de simulation. Jusqu'à aujourd'hui SHOW a essentiellement servi pour prédire les gènes bactériens mais il a aussi été utilisé avec d'autres objectifs comme la détection des sites d'épissage chez l'Homme. A l'avenir il devrait faciliter la mise au point de modèles destinés à l'étude de nombreux problèmes biologiques. SHOW a été développé en collaboration avec le Laboratoire Statistique et Génome d'Evry, il peut être téléchargé librement ici.
    • SIMPA est un programme de prédiction de la structure secondaire des protéines. 3 états sont pris en considération : l'hélice alpha (H), les brins bêta (b) et les structures apériodiques (C). Ce programme est basé sur la notion de "nearest neighbor". Il fournit un résultat Q3 de 67%. 
    • SMF : (Symmetric Matrix Factorization). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisépour l'identification des domaines dans les protéines, programme DOMIRE (DOMainIdentification from REcurrence), voir : Tai CH, SamV, Gibrat JF, Garnier J, Munson PJ et Lee BK. Protein domain assignment from the recurrence of locally similar structures. PROTEINS : Structure, Function, and Bioinformatics (2011). SMF peut être téléchargé librement ici
    • SVD : (Singular Vector Decomposition). Programme Matlab qui effectue la partition d'une matrice de co-occurrence, il est utilisépour l'identification des domaines dans les protéines, programme DOMIRE (DOMain Identification from REcurrence), voir : Tai CH, Sam V, Gibrat JF, Garnier J, Munson PJ et LeeBK. Protein domain assignment from the recurrence of locally similar structures. PROTEINS : Structure, Function, and Bioinformatics (2011). SVD peut être téléchargé librement ici.
    • STFilter (Sentence Filter) prend en entrée un ensemble de résumés au format MedLine et en extrait les phrases "pertinentes". La notion de pertinence est apprise automatiquement à partir d'exemples de phrases classées comme pertinentes et non pertinentes. Les classifieurs appris et disponibles dans SFilter sont des classifieurs sur les interactions géniques chez Bacillus subtilis, chez la drosophile et chez le poulet. Le logiciel est libre et est écrit en Java.
    • VAST est un programme de comparaison des structures 3D des protéines. VAST est disponible ici

Autres logiciels en ligne :

Si vous ne trouvez pas un outil mais que vous souhaitez pouvoir l'utiliser, vous pouvez contactez les responsables de la plateforme en utilisant le lien suivant.