Présentation de l'environnement de travail matériel

Vous trouverez dans cette rubrique toutes les informations sur l'environnement de travail que vous propose la plateforme Migale.

Accès aux ressources

Modalités d'accès à la plateforme MIGALE.

Les ressources

La plateforme propose différentes méthodes d'accès aux ressources

  • Un accès en ligne via le WEB pour l'ensemble de la communauté. Cet accès concerne plus particulièrement des bases de données en ligne (MICADO, MOSAIC, PROSE) ou des outils comme FROST ou Blast. Aucun compte n'est nécessaire pour utiliser ces outils ou bases de données.
  • Un accès par compte sécurisé via le serveur migale à plus de 350 outils de bioinformatique utilisables en ligne de commande sous Linux.
  • Un accès via l'interface Galaxy.
  • L'accès à un cluster de calcul.

L'ensemble de ces ressources est disponible via les annuaires outils et bases de données.

 

Comment accèder aux ressources

L'accès aux ressources peut se faire de plusieurs manières en fonction du type d'application utilisée.

Accès libre :
Pour les ressources WEB en libre service, aucun compte n'est nécessaire. C'est le cas de bases de données en ligne  (MICADO, MOSAIC, PROSE) ou des outils comme FROST ou Blast.

Acccès sécurisé par le serveur migale:
Le serveur migale vous permet d'accéder au cluster de calcul, aux banques de données et aux outils. Migale n'a pas vocation à être utilisé pour exécuter de gros calculs, pour cela merci d'utilser le cluster de calcul. 

Un compte est nécessaire, faire une demande de compte (voir ci-dessous). Si vous disposez déjà d'un compte et que vous souhaitez le réactiver, prenez contact avec help.migale@jouy.inra.fr.

Un compte actif vous donne également accès à notre instance Galaxy. Elle est accessible à l'URL suivante : http://migale.jouy.inra.fr/galaxy/. Plus de détails sur notre instance Galaxy ici.


Demande de compte

Toute demande de compte doit se faire via ce formulaire


Méthodes de connexions via un compte sécurisé au serveur migale

L'utilisation d'outils reposant sur le protocole SSH est obligatoire.

Logiciels à utiliser pour se connecter via SSH :

  • Sous Windows, nous vous conseillons d'installer l'application Mobaxterm qui conjuge un client SSH et un environnement graphique. Pour un usage uniquement en ligne de commande, utiliser le client SSH Putty.
  • Sous Mac OS X et Linux, ouvrez un terminal et utilisez la commande ssh en tapant : ssh -Y votre_login@migale.jouy.inra.fr

Logiciels à utiliser pour transférer des fichiers (SCP basé sur SSH est obligatoire pour les sites distants) entre votre poste de travail et le serveur :

La FAQ du serveur migale est ici

Le tuto acces au serveur migale est ici


Demander des ressources supplémentaires

Pour effectuer une demande de ressources supplémentaires (espace disque, besoins en mémoire), vous pouvez faire une demande par mail à help.migale@jouy.inra.fr. Votre demande sera évaluée dans les meilleurs délais.

Cluster de calcul

Définition

On parle de grappe de serveurs, de ferme de calcul (Computer Cluster) ou de cluster de calcul, pour désigner des techniques consistant à regrouper plusieurs ordinateurs indépendants appelés nœuds (Node), afin de permettre une gestion globale et de dépasser les limitations d'un ordinateur. Un cluster de calcul est donc une machine parallèle dédié au calcul intensif (HPC ou High Performance Computing).

Le cluster de la plateforme

Le cluster de la plateforme est constitué d'un serveur maître et de noeuds de calcul (53) représentant 628 équivalents processeurs de génération différentes, équipés de multiprocesseurs Intel ou AMD. L'ensemble des noeuds de calcul est relié par un réseau privé de type gigabit Ethernet 1Gb et 10Gb. La couche logicielle permettant d'exploiter au mieux cette puissance de calcul est un gestionnaire de file d'attente nommé Sun Grid Engine. Le cluster dispose également de la couche de calcul distribué MPI (Message Parsing Interface). En complément du serveur maître, le cluster est accessible depuis les serveurs migale, topaze (pour le web), wagmial (pour la plateforme AGMIAL) et banko (pour les banques de données).

Comment utiliser le cluster

Il faut tout d'abord disposer d'un compte. Après l'obtention de votre compte, il suffit de se connecter sur le serveur migale, point d'entrée du cluster. Les traitements doivent être lancés depuis votre espace /projet/* à l'aide de scripts. Le principe de base est d'encapsuler son traitement (un blast par exemple) dans un script shell, et de soumettre ce script au gestionnaire SGE. Vous trouverez plus de précisions dans la FAQ.

Constitution du cluster

Le cluster est composé de noeuds de calcul répartis en plusieurs groupes.

Chaque noeud est associé à une file d'attente. L'utilisateur soumet ses jobs au gestionnaire de tâches qui se charge ensuite, en fonction de certaines règles, d'envoyer les jobs sur une file disponible. L'utilisateur peut aussi choisir une file particulière pour par exemple accèder à des noeuds de calculs disposant d'une quantité de mémoire importante. C'est cette solution que l'on privilégiera. Chaque file dispose en effet de ressources et de priorités différentes avec pour objectif de pouvoir répondre à la majeure partie des besoins, tout en optimisant l'utilisation du cluster.

Pour les calculs nécessitant des ressources mémoires supérieures à 90 Go, il suffit d'indiquer au système que l'on souhaite disposer de la ressource big_mem. Ceci se fait via la commande qsub -l big_mem -q short.q blast.sh.

 

Groupe Noeuds de calcul Processeur Mémoire
@2sixcore-2.4 (204 coeurs) n43-n59 Intel Six Core 2.4 Ghz 48 Go
@2xdixcores-2015 (120 coeurs) n60-67 Intel Ten Core 2.2 Ghz 96 Go
@quadcore-2.33 (80 coeurs) n70-n79 Intel Quad Core 2.33 Ghz 16 Go
@4xquadcore-2.8 (96 coeurs) n80-n87 AMD Quad Core 2,8 Ghz 96 Go
@2xquadcore-2.27 (128 coeurs) n88-n103 Intel Quad Core 2.27 Ghz 48 Go
@frangen (24 coeurs) frangen Intel 12 Core 2.30 Ghz 768G

 

 

  • La file short.q est réservée pour les jobs courts dont la durée estimée d'exécution ne dépassera pas 12h00 de temps de calcul, c'est la file par defaut.
  • La file long.q est à utiliser pour des jobs dont la durée d'exécution ne va pas dépasser 5 jours.
  • La file infinit.q est à utiliser pour des jobs dont la durée d'exécution est supérieure à 5 jours.
  • La file web.q est réservée l'utilisation du cluster via les applis web, notament GALAXY (user apache uniquement).
  • La file iprscan.q est utilisée par la suite InterProScan.
  • La file higmem.q est à utiliser pour des jobs ayant besoin de ressources mémoire très importantes (768G), cette file est uniquement disponible sur demande.

 

La FAQ du cluster est ici


Maintien en condition opérationnelle

La mise en place et la maintenance d'un système de type cluster demande une automatisation forte. Qui peut imaginer installer 30 serveurs manuellement ? Comment rajouter des librairies sur l'ensemble des nœuds ? Diverses solution existent en OpenSource. Nous utilisons à la fois des solutions existantes comme le logiciel Open Source CLONEZILLA, et des scripts d'automatisation de tâches. L'ensemble des nœuds peut ainsi être réinstallé en moins d'une journée.

Par ailleurs, un système de suivi de charge permet à la fois de connaitre en temps réel la charge du cluster et de ses composants, mais aussi de disposer d'un historique de son utilisation. L'ensemble de ces informations est accessible via une interface WEB.

Pour plus de détails sur l'architecture du cluster, vous pouvez consulter les pages consacrées à l'infrastructure de la plateforme.

Interfaces web

Topaze est le serveur web de la plateforme Migale. Différents types d'applications sont hébergées sur celui-ci :

 

  • des applications web co-développées :
    • GPCRautomodel, serveur ayant pour but de modéliser les récepteurs olfactifs à partir de leur séquence en acides aminés et d'effectuer des simulations d'amarrage de ligands sur les structures résultantes.
    • DOMIRE, serveur utilisant le programme VAST (comparaison des structures 3D des protéines) afin de définir les limites des domaines structuraux dans les protéines à partir de leurs coordonnées atomiques.
    • Portail IGO, site web permettant l'intégration de MICADO, MOSAIC, PAREO, PROSE, Insyght, ...

 

  • des applications web hébergées :
    • AGMIAL, plateforme en accès libre pour l'annotation de génomes microbiens.
    • B. subtilis Expression Data Browsernavigateur web pour les données d'expression de B. subtilis.
    • CIRM, centre international de ressources microbiennes - levures.
    • CompaGB, application web qui permet d'évaluer et de comparer les Genomes Browsers sous forme de tableaux ou de graphiques.
    • FunyBASE, base de données dédiée à l'analyse et à la classification des protéines homologues extraites des génomes complets fongiques.
    • Insyght, outil de visualisation s'appuyant sur un entrepôt de données génomiques, permettant d'analyser les homologies, les synthénies et les régions génomiques idiosyncratiques à l'échelle de plusieurs organismes.
    • MICADO, base de données relationnelle dédiée aux génomes microbiens.
    • MOSAIC, base de données relationnelle qui permet de comparer des génomes bactériens d'une même espèce et de définir le squelette et les boucles.
    • MuGeN, outil intéractif permettant une exploration dans plusieurs génomes annotés complétés par des résultats d'analyse in silico.
    • PAREO, base de données relationnelle intégrant les connaissances sur les voies métaboliques issues de la base japonaise Kegg.
    • Phagonaute, interface web permettant d'examiner la synténie locale entre 876 génomes de phages (et 40 virus d'archées).
    • PROSE, base de données relationnelle qui gère les séquences protéiques issues de SwissProt et trEMBL.
    • S. aureus Expression Data Browser, navigateur web pour les données d'expression de S. aureus.
    • YeastIP, base de données contenant la majorité des codes barres de toutes les espèces du sous phylum Saccharomycotina.

Espaces de travail

Les différents espaces de travail

Lors de la création de votre compte, deux espaces personnels vous sont dédiés. Ils sont indiqués dans le mail que vous reçevez pour confirmer la création de votre compte (/projet/group/work et /projet/group/save).

  • /projet/group/save/user : espace de stockage devant héberger les données de configuration ou les résultats "compressés" de vos jobs, il est sauvegardé quotidiennement par le service de sauvegarde du DataCenter IDF.

  • /projet/group/work/user : espace de stockage devant héberger des données de travail, essentiellement des données de calculs, cet espace n'est pas sauvegardé mais est sécurisé sur un NAS (disques en RAIDsnapshots...), il offre une capacité plus importante pour les données.

Vous disposez d'un quota initial partagé avec les utilisateurs de votre groupe. Il est de votre responsabilité de faire attention à la place que vous occupez, afin de ne pas bloquer les autres utilisateurs de votre groupe.

Si vous souhaitez obtenir de l'espace supplémentaire, vous pouvez en faire la demande via help.migale@jouy.inra.fr.