Skip to Content

Banques de données

Version imprimable

Il est généralement admis que les banques de données sont des collections de fichiers alors que les bases de données sont des données structurées à l'aide de logiciels appelés SGBD (Système de Gestion de Bases de Données) comme PostgreSQL, MySQL ou Oracle.

Banques de données



nucleiques      proteiques      métabolliques      transcriptome      génomes
Nucléiques      Protéiques      Métaboliques      Transcriptomes      Génomes

Bases de données relationnelles

      sgbd
Bases de données

Processus de mises à jour

L'ensemble du processus de mises en ligne des données de la plateforme est supervisé par le moteur de WorkFlow BioMAJ.
Les informations sur les dernières mises à jour sont accessibles en ligne.

Les banques sont téléchargées depuis les sites « originaux » à fréquences régulières. Elles sont ensuite formatées et indexées pour pouvoir être utilisées par l'ensemble des outils de la plateforme (fasta, blast, emboss...). Certaines sous-banques sont construites à partir des banques originales, comme les nr80 ou nr90 (cf tutoriel sur l'utilisation avancée de PSI-BLAST). Un exemple des diverses étapes d'indexation pour les principales banques de données est décrit dans le schéma ci-dessous. Les processus d'indexation sont représentés dans les rectangles (Pour visualiser la version courante d'une banque, cliquez sur le nom de la banque).

bank_27_08_08.png
NT Web blast migaleliste_gb_bacteria.readme
(Ce schéma permet de visualiser l'ensemble des banques ainsi que les différents formats associés)



Certaines banques servent également à la construction de bases de données relationnelles développées dans l'unité MIG (micado et prose). Voici le descriptif des étapes nécessaires à cette mise en production (Vous pouvez interroger ces bases en cliquant sur la base de votre choix).

bdd_13_11_07.png



Les génomes microbiens complets sont également téléchargés depuis le site ftp du NCBI. Ils sont donc utilisables sur la plateforme avec des outils tel que findtarget .

Ces génomes sont classés par organisme. Après chaque mise à jour des informations sont extraites des données brutes pour pouvoir disposer du nombre d'espèces différentes ou bien encore des associations entre les numéros d'accession et les noms complets, des dates de la dernière modification ).

Pour chaque souche plusieurs formats sont disponibles :

    • GenBank contenu dans les fichiers suffixés .gbk
    • Fasta nucléique (*.fna)
    • Fasta protéique (*.faa)

Le site UniProt propose par ailleurs une interface permettant de faire le lien entre les différents identifiants des banques.

http://genome.jouy.inra.fr/prosehttp://genome.jouy.inra.fr/micadohttp://genome.jouy.inra.fr/pareo

Related content