Infrastructure de calcul

Présentation globale des moyens de calcul de la plateforme.

Les ressources informatiques et les services offerts par la plate-forme bioinformatique du centre de Jouy-en-josas reposent sur une infrastructure de 75 serveurs sous Linux et une grappe de calcul de 580 processeurs. Tout comme ce système d'exploitation la plupart des applications déployées sont issues du monde open source. Les outils utilisables sur la plateforme sont listés ici.

infrastructure

Les ressources matérielles globalisées (comprenant à la fois les ressources pour le centre et celles dédiées à des projets ciblés) représentent actuellement :

  • Près de 700 processeurs 64 bits (architecture x86)
    • Plus de 50 To d'espace disque sécurisé basé sur la technologie RAID.
    • Plusieurs réseaux de type Ethernet gigabit commutés.
    • Une connexion au réseau SAN haut-débit du centre interconnectant les unité EIC, CTIG et MIG.

L'architecture repose sur un découpage et une répartition des services sur plusieurs entités distinctes. Cette architecture, appelée communément n-tiers (ou architecture à plusieurs niveaux), répond parfaitement aux besoins de calcul et de stockage liés aux problématiques de la bioinformatique. Il s'agit de dissocier la présentation (WEB), le traitement et les données. Ce découpage fonctionnel (les bases de données, les services WEB ou les applications bioinfomatiques nécessitant des ressources de calcul ...) optimise les performances, améliore la sécurité et rend le système évolutif.

Un suivi de l'utilisation du cluster, reposant sur Ganglia, permet de suivre la charge en temps réel des ressources (CPU, RAM, disque...).

L'interface de présentation ou le WEB

Le serveur frontal WEB hébergeant les interfaces d'accès aux données et aux outils est le premier maillon d'une architecture à plusieurs niveaux. Ce frontal (migale) a une double vocation. Il héberge les outils en ligne de commande (GCG, EMBOSS, Multalign, MuGen, phred, staden …) ainsi que la couche WEB assurant la mise en ligne d'interfaces graphiques pour certaines applications comme seqweb.

Ce serveur WEB frontal héberge un serveur Apache par lequel l'ensemble des requêtes transite. Les requêtes sont ensuite traitées en local – en fonction des technologies utilisées – soit par les modules CGI, PHP, Python, soit par un moteur de servlets Java.

Pour l'accès à des ressources plus importantes, le frontal WEB communique avec les serveurs WEB secondaires en utilisant un système basé sur la technologie de reverse proxy. Ce couplage permet une communication transparente entre le serveur WEB et les serveurs d'application, sans rendre ces derniers visibles depuis le réseau externe au campus. Les clients ne dialoguent qu'avec le serveur Apache. Ce type d'architecture permet un déploiement modulaire et autorise aussi un équilibrage de charge. Cette technique est aujourd'hui généralisée à toutes les applications WEB nécessitant des ressources importantes (Tomcat, GlassFish...), ou une sécurité accrues (banques privées).

Les traitements

De plus en plus de demandes émanent des biologistes pour effectuer des traitements qui peuvent durer plusieurs heures ou jours. Selon la démarche décrite précédemment, une solution de spécialisation de ces traitements a été déployée. Elle repose sur la mise en place d'un cluster de calcul composé de 580 processeurs 64 bits et fonctionnant avec le middleware Sun Grid Engine. Ce cluster (début 2003) est à la fois accessible par les biologistes accédant aux ressources mises à disposition par MIG via le WEB (Blast sur Micado…), par les équipes et projets de l'unité (modélisation des structures de protéines, projets AGMIAL, MOSAIC, …) , aux équipes du département MIA, quelques unes de MICA et dans une large mesure à la communauté scientifique, comme les établissements de recherche, universités...

Les données

Le volume des données issues de projets de génomique (séquences nucléiques et protéiques, structures 3D de protéines, données de transcriptomique et protéomique, images 2D, 3D, 4D, etc.) augmente de manière exponentielle. Ces données peuvent être soit faiblement structurées (ce que nous nommons des banques de données) ou être organisées sous forme d'entités/relations (correspondant aux bases de données relationnelles). Dans le premier cas il s'agit d'un stockage réalisé grâce à des fichiers « à plat », dans le second cas les données sont gérées par un système dédié, ou Système de Gestion de Base de Données (SGBD).

Ces deux types de stockage sont aujourd'hui disponibles sur la plateforme.

    • Le premier est constitué du serveur banko dédié au rapatriement des banques de données (GenBank, UniProt, PDB, ...). Ce serveur rapatrie tous les week-end les données et les met à la disposition de l'ensemble des autres ressources de la plateforme (cluster ce calcul, frontal WEB topaze, serveur bases de données).
    • Le second service propose des bases de données génériques (PROSE, PAREO) ou spécialisées, par exemple les données d'annotation d'un génome particulier. Les bases génériques sont mises à jour mensuellement. Ce service est actuellement distribué sur 2 serveurs. Un serveur nommé bdd héberge la majeure partie des bases de données de la plateforme sous PostgreSQL. Les bases de données sous MySQL sont, elles, hébergées sur le serveur topaze

Politique de sauvegarde

Les données du centre de calcul sont toutes sauvegardées quotidiennement par la DSI. La durée de rétention est de 6 semaines. Les espaces /projet/<groupe>/<login> sont les répertoires de travail des utilisateurs de la plateforme.

Les espaces suivants ne sont pas sauvegardés :

      • Les répertoires tmp et leur contenu
      • /home0

Related content

Menu principal

Page | by Dr. Radut