Banques de données
Il est généralement admis que les banques de données sont des collections de fichiers alors que les bases de données sont des données structurées à l'aide de logiciels appelés SGBD (Système de Gestion de Bases de Données) comme PostgreSQL, MySQL ou Oracle.
Banques de données
Bases de données relationnelles
Processus de mises à jour
L'ensemble du processus de mises en ligne des données de la plateforme est supervisé par le moteur de WorkFlow BioMAJ.
Les informations sur les dernières mises à jour sont accessibles en ligne.
Les banques sont téléchargées depuis les sites « originaux » à fréquences régulières. Elles sont ensuite formatées et indexées pour pouvoir être utilisées par l'ensemble des outils de la plateforme (fasta, blast, emboss...). Certaines sous-banques sont construites à partir des banques originales, comme les nr80 ou nr90 (cf tutoriel sur l'utilisation avancée de PSI-BLAST). Un exemple des diverses étapes d'indexation pour les principales banques de données est décrit dans le schéma ci-dessous. Les processus d'indexation sont représentés dans les rectangles (Pour visualiser la version courante d'une banque, cliquez sur le nom de la banque).
Certaines banques servent également à la construction de bases de données relationnelles développées dans l'unité MIG (micado et prose). Des statistiques de fréquentation sont accessibles pour ces 2"sites", micado et prose. Voici le descriptif des étapes nécessaires à cette mise en production (Vous pouvez interroger ces bases en cliquant sur la base de votre choix).

Les génomes microbiens complets sont également téléchargés depuis le site ftp du NCBI. Ils sont donc utilisables sur la plateforme avec des outils tel que findtarget .
Ces génomes sont classés par organisme. Après chaque mise à jour des informations sont extraites des données brutes pour pouvoir disposer du nombre d'espèces différentes ou bien encore des associations entre les numéros d'accession et les noms complets, des dates de la dernière modification ).
Pour chaque souche plusieurs formats sont disponibles :
- GenBank contenu dans les fichiers suffixés .gbk
- Fasta nucléique (*.fna)
- Fasta protéique (*.faa)
Le site UniProt propose par ailleurs une interface permettant de faire le lien entre les différents identifiants des banques.










