En biologie structurale, l’étude des structures protéiques a évolué considérablement avec l’arrivée en 2021 de l’outil AlphaFold, développé par DeepMind. Le Britannique Demis Hassabis et l’Américain John Jumper ont d’ailleurs reçu le prix Nobel de Chimie le 9 octobre 2024 pour la création de cet outil révolutionnaire. Initialement développé pour la prédiction de structures de protéines individuelles, DeepMind a ensuite proposé une version capable de générer des prédictions d'assemblages de protéines avec une qualité inégalée jusque-là, bien que perfectible. En effet, il a été démontré par la suite que ces prédictions d'assemblages peuvent être améliorées grâce à de l'échantillonnage massif, ce qui nécessite une utilisation intensive d'AlphaFold. La mise en œuvre de cette technologie d'échantillonnage massif demeurait cependant limitée en raison des coûts de calcul intensif et de stockage des données. MassiveFold, une version optimisée et flexible d'AlphaFold, permet de surmonter ces limitations et d’accéder à un échantillonnage amélioré.
Une publication sur ce sujet vient de paraître dans le journal Nature Computational Science, à laquelle l'Institut Français de Bioinformatique (IFB) a contribué. Ce travail a été réalisé dans le cadre du Work Package 4 “Biologie numérique intensive” du projet Mutualised Digital Spaces for FAIR data in Life and Health Science (MUDIS4LS) dirigé par l’IFB. L'IFB est financé par le Programme d’Investissements d’Avenir (PIA), subvention Agence Nationale de la Recherche, numéro ANR-11-INBS-0013. Le Work Package 4 vise à faciliter, pour la communauté des sciences de la vie, l’usage des outils de bioinformatique sur les ressources de calcul intensif disponibles dans les centres de calcul nationaux et régionaux dont l’IDRIS et le CBPsmn, partenaires du projet. Le projet de développement "MassiveFold" a pour but de donner accès à la communauté de tout le potentiel d'AlphaFold.
Ce travail est le fruit d’une collaboration entre l’IFB, l’UGSF (Unité de Glycobiologie Structurale et Fonctionnelle), l’IDRIS (Institut du développement et des ressources en informatique scientifique) et l’Université de Linköping en Suède. Il a été initié dans le cadre du programme Open Hackathons.
AlphaFold est un modèle d’intelligence artificielle développé par DeepMind, une filiale de Google, qui permet d’obtenir de très bonnes prédictions de structure 3D de protéines à partir de leur séquence d'acides aminés dans la majorité des cas. Cette avancée a un impact majeur sur la recherche en biologie, en médecine et en biotechnologie.
Face aux défis de mise en œuvre de l’échantillonnage massif pour des assemblages de protéines, MassiveFold optimise l’utilisation des ressources et permet de réduire le temps de réponse des calculs, passant de plusieurs mois à quelques heures, grâce à une exécution en parallèle sur plusieurs GPU (Graphics Processing Unit).
L’outil inclut toutes les versions des modèles de réseaux neuronaux (NN) publiés pour AlphaFold2 par DeepMind à ce jour et contient plusieurs paramètres permettant d'augmenter la diversité structurale. Le programme peut exécuter de nombreuses instances en parallèle, jusqu'à une prédiction par GPU, optimisant ainsi l'utilisation des infrastructures de calcul disponibles et permettant une réduction substantielle du temps nécessaire pour obtenir des résultats de prédiction.
Cela en fait un outil puissant, accessible aux chercheurs tout en exploitant au maximum les infrastructures de calcul disponibles. MassiveFold permet ainsi de repousser les limites de la modélisation des structures protéiques et ouvre de nouvelles perspectives pour la recherche scientifique.
L’article dans son ensemble est à retrouver dans Nature Computational Science : "MassiveFold: unveiling AlphaFold’s hidden potential with optimized and parallelized massive sampling".