Depuis le début du siècle, chaque décennie a vu le développement de nouvelles technologies à haut débit pour surveiller diverses couches de processus biologiques (par exemple le génome, le transcriptome, le protéome, l'interactome, le métabolome). Chacune de ces technologies a motivé le développement de nouvelles approches et de nouveaux outils bioinformatiques pour extraire les informations pertinentes des données brutes. Cependant, une approche intégrée est encore à la traîne pour traduire cette diversité de données complexes et hétérogènes en connaissances utiles.
L’axe innovation de l’IFB vise à construire une vision stratégie pour assurer la consistance et la relevance des développements et services nationaux en bioinformatique, ainsi que leurs liens avec les initiatives européennes. Un défi majeur est de développer des outils et des services permettant d’adresser un très important challenge de la biologie actuelle: l’intégration de données à haut-débit hétérogènes, de manière à approcher la complexité des systèmes biologiques à une échelle holistique. Un certain nombre de réseaux et de projets nationaux dédiés à la production, la gestion et l'interprétation de types de données spécifiques (génomique, protéomique, métabolomique, imagerie, modèles animaux, cohorte, médecine personnalisée, etc. ) ont été mis en place en France. Afin d'avoir une vision globale des systèmes étudiés, il est nécessaire d'intégrer ces informations hétérogènes.
Nous avons donc proposé de relever le défi de la bioinformatique intégrative par le biais de trois actions du nouveau plan d'action :
Atelier Aviesan GGB-IFB sur la bioinformatique intégrative. En septembre 2018, Aviesan ITMO Genetics, Genomics and Bioinformatics (GGB) et IFB ont coorganisé un atelier d'une journée intitulé Challenges and Perspectives in Integrative Bioinformatics, qui a réuni 80 participants. Une série de conférences a présenté les approches de pointe en bioinformatique intégrative (méthodes de factorisation matricielle à plusieurs niveaux et analyse de réseaux multicouches). Dans l'ensemble, la réunion a couvert toutes les étapes entre la production de données, le traitement informatique, l'analyse statistique, la visualisation et l'interprétation, illustrées par des exemples pertinents tirés de divers domaines des sciences de la vie et de leurs applications. Les séances de discussion ont été suivies d'une table ronde où tous les participants ont discuté de leur expérience personnelle, des besoins actuels et des problèmes rencontrés, ce qui a donné lieu à une discussion animée sur les défis actuels, les perspectives et les stratégies pour développer davantage la bioinformatique intégrative. Au-delà de l'intérêt scientifique des exposés et du débat, cet atelier d'une journée nous a également permis d'identifier des experts dans le domaine, qui ont ensuite été invités, et acceptés, pour contribuer au Diplôme Universitaire en Bioinformatique Intégrative.
Les ressources bioinformatiques (outils et bases de données) actuellement disponibles sont axées sur des types particuliers d'entités biologiques (gènes, protéines, ARNm, ARNc, petit ARN, etc.) ou d'interactions (protéine-protéine, réactions métaboliques, régulation transcriptionnelle, transport, etc.) Une exploitation conjointe de ces ressources hétérogènes nécessite à la fois des solutions d'interopérabilité qui visent à fournir un accès uniforme à des ressources diverses et distribuées, et des processus d'intégration qui permettent d'établir des relations physiques et interprétables entre des ensembles de données complexes. Les solutions d'interopérabilité visent à fournir un accès uniforme à des ressources diverses et distribuées en vue de leur exploitation intégrée. Rendre les ressources biologiques plus interopérables est une condition essentielle pour tirer pleinement parti de leur évidente complémentarité et acquérir de nouvelles connaissances en biologie intégrative. L'interopérabilité est étroitement liée au principe FAIR (Wilkinson et al, 2016). Cependant, il existe plusieurs autres niveaux d'interopérabilité et d'intégration (par exemple des outils, des environnements logiciels, etc.), chacun étant associé à des familles de solutions et de bonnes pratiques. L’IFB tente de clarifier les besoins des communautés impliquées dans les projets pilotes sélectionnés et d’identifier les normes et les solutions d’interopérabilité existante au sein de l’IFB et au niveau européen.
L'objectif est triple:
Plusieurs niveaux d'interopérabilité et d'intégration sont généralement envisagés, chacun étant associé à des familles de solutions et de bonnes pratiques.
Trois projets pilotes ont pour préoccupation commune l'interopérabilité sémantique des métadonnées décrivant des ensembles de données ou des ressources de données. Les métadonnées doivent être exprimées avec des termes standards dérivés des ontologies disponibles et selon un format standard. Les équipes impliquées dans les projets INEX-MED et IntegrParkinson travaillent à la conception de graphiques de connaissances adaptés pour faciliter l'intégration entre les données omiques et les images médicales pour les applications d'apprentissage automatique. Dans le cadre du projet PhenoMeta, des bioinformaticiens déjà actifs au niveau européen sur la construction de normes végétales telles que MIAPPE et BrAPI, veulent développer une ontologie de phénotypage des plantes à des fins d'interopérabilité des ensembles de données végétales et de reproductibilité des traitements.
Un autre besoin détecté dans trois autres projets pilotes est lié à l'interopérabilité des outils. Les projets ProMetIS et MS2MODELS souhaitent développer un logiciel basé sur une combinaison flexible d'outils interopérables dans le domaine des analyses multi-omiques (protéomique et métabolomique pour le premier, protéomique et interactomique 3D pour le second). De même, mais dans le contexte des données sensibles sur la santé, le projet B2SH vise à combiner les outils de biostatistique et de bioinformatique (liés à l'analyse des séquences génomiques). Les défis de l'interopérabilité concernent la description des flux de travail, la provenance et la reproductibilité, ainsi que les API REST et la conteneurisation.
En septembre 2018, un groupe de travail dédié à la bioinformatique pour la santé a été créé. Ce groupe de travail est dirigé par Ivan Moszer et David Salgado et comprend 23 membres issus de différentes plateformes de l'IFB. Ce groupe de travail a plusieurs objectifs:
Depuis sa création, le groupe a été appelé à contribuer à diverses activités telles que :