Utilisation avancée de PSI-BLAST

Construction et réutilisation de profils en utilisant PSI-BLAST

Pré-requis : vous devez déjà savoir vous servir de PSI-BLAST en ligne de commande et éventuellement savoir formater une banque au format BLAST en utilisant formatdb.

Qu'est-ce qu'un profil ?

DWKD DWNG

Et le profil correspondant (en probabilités) :

	1	2	3	4
D	1.0	0.0	0.0	0.5
G	0.0	0.0	0.0	0.5
K	0.0	0.0	0.5	0.0
N	0.0	0.0	0.5	0.0
W	0.0	1.0	0.0	0.0

Ce qui ce lit comme ceci :

La probabilité de trouver un D en position 1 est de 1.0 (puisqu'il n'y a que des 'D' en première position)

La probabilité de trouver un G en position 1 est de 0.0 (puisqu'il n'y a pas de 'G' en première position)

ainsi de suite pour chaque position et chaque acide aminé.

Pourquoi (ré)utiliser un profil ?

Heureusement, un calcul de E-value est effectué pour permettre de valider la valeur statistique du score obtenu.

Par exemple, vous voulez chercher des homologues d'une séquence dans un sous ensemble particulier de séquences (un génome, la PDB, etc.).
Si vous utilisez PSI-BLAST directement sur ce sous ensemble, il est probable que vous ne trouviez pas tous les homologues, spécialement si leur séquence est peu conservée par rapport à la séquence d'origine.
Pour améliorer la sensibilité de la détection des homologues lointains, il est préférable de faire d'abord un PSI-BLAST sur une banque de séquences plus grande.

Attention cependant, si la banque de données est trop grande, vous allez perdre également en sensibilité car la fréquence d'observation d'un score particulier (la E-value) augmente avec la taille de la banque de données. Or, pour un alignement de 2 séquences, plus la E-value est petite, plus la probabilité que ces 2 séquences soient homologues est grande. C'est pourquoi il est préférable de chercher d'abord dans une banque « curetée », comme la nr90 ou la nr80, qui sont des versions de la nr dont les séquences ont été groupées par pourcentage d'identité de séquence (plus de 90 % et plus de 80 % respectivement) et où un représentant de chaque groupe constitue la nouvelle banque de données. Ensuite, si plusieurs séquences ont été trouvées dans cette banque, on peut calculer un profil et l'utiliser pour rechercher dans le sous ensemble particulier. On augmente ainsi la sensibilité de la recherche d'homologues.

Comment générer un profil avec PSI-BLAST

-C

blastpgp -F T -h 0.0005 -j 5 -d nr80 -i seq.fasta -C profil -o seq.blast1

L'option -j permet de spécifier le nombre maximum d'itérations faites par PSI-BLAST (à chaque itération, PSI-BLAST incorpore les séquences trouvées dans un nouveau profil qui permet de faire une nouvelle recherche jusqu'à ce que le nombre d'itérations spécifié soit atteint ou bien qu'aucune nouvelle séquence ne soit trouvé au cours d'un cycle).

Le fichier seq.blast1 contient le résultat de cette recherche.

À la fin, le fichier profil contient le profil correspondant aux séquences trouvées par PSI-BLAST dans la banque nr80 spécifiée ici. On peut alors le réutiliser pour une recherche dans une autre banque de séquences.

Comment réutiliser ce profil ?

-R

blastpgp -F T -h 0.0005 -j 5 -d genomeX -i seq.fasta -R profil -o seq.blast2

Le fichier seq.blast2 contient le résultat de cette nouvelle recherche à l'aide du profil précédent (contenu dans le fichier profil) sur la banque de séquences genomeX.

Note sur certaines options de PSI-BLAST

-F T

L'option -h permet de choisir la E-value au dessous de laquelle une séquence est incorporée dans le profil. La valeur par défaut (0.005) est considérée comme trop élevée, nous vous conseillons d'utiliser au plus 0.0005 comme nous l'avons mis ici. Pour plus de précisions sur l'utilisation de PSI-BLAST, il existe un bon article sur le sujet : Getting the most from PSI-BLAST.