Axes majeurs d'innovation

Bioinformatique intégrative

Depuis le début du siècle, chaque décennie a vu le développement de nouvelles technologies à haut débit pour surveiller diverses couches de processus biologiques (par exemple le génome, le transcriptome, le protéome, l'interactome, le métabolome). Chacune de ces technologies a motivé le développement de nouvelles approches et de nouveaux outils bioinformatiques pour extraire les informations pertinentes des données brutes. Cependant, une approche intégrée est encore à la traîne pour traduire cette diversité de données complexes et hétérogènes en connaissances utiles.

L’axe innovation de l’IFB vise à construire une vision stratégie pour assurer la consistance et la relevance des développements et services nationaux en bioinformatique, ainsi que leurs liens avec les initiatives européennes. Un défi majeur est de développer des outils et des services permettant d’adresser un très important challenge de la biologie actuelle: l’intégration de données à haut-débit hétérogènes, de manière à approcher la complexité des systèmes biologiques à une échelle holistique. Un certain nombre de réseaux et de projets nationaux dédiés à la production, la gestion et l'interprétation de types de données spécifiques (génomique, protéomique, métabolomique, imagerie, modèles animaux, cohorte, médecine personnalisée, etc. ) ont été mis en place en France. Afin d'avoir une vision globale des systèmes étudiés, il est nécessaire d'intégrer ces informations hétérogènes.

Nous avons donc proposé de relever le défi de la bioinformatique intégrative par le biais de trois actions du nouveau plan d'action :

Organiser des projets pilotes
Créer un groupe de travail sur l'interopérabilité
Organiser un atelier sur la bioinformatique intégrative

Atelier Aviesan GGB-IFB sur la bioinformatique intégrative. En septembre 2018, Aviesan ITMO Genetics, Genomics and Bioinformatics (GGB) et IFB ont coorganisé un atelier d'une journée intitulé Challenges and Perspectives in Integrative Bioinformatics, qui a réuni 80 participants. Une série de conférences a présenté les approches de pointe en bioinformatique intégrative (méthodes de factorisation matricielle à plusieurs niveaux et analyse de réseaux multicouches). Dans l'ensemble, la réunion a couvert toutes les étapes entre la production de données, le traitement informatique, l'analyse statistique, la visualisation et l'interprétation, illustrées par des exemples pertinents tirés de divers domaines des sciences de la vie et de leurs applications. Les séances de discussion ont été suivies d'une table ronde où tous les participants ont discuté de leur expérience personnelle, des besoins actuels et des problèmes rencontrés, ce qui a donné lieu à une discussion animée sur les défis actuels, les perspectives et les stratégies pour développer davantage la bioinformatique intégrative. Au-delà de l'intérêt scientifique des exposés et du débat, cet atelier d'une journée nous a également permis d'identifier des experts dans le domaine, qui ont ensuite été invités, et acceptés, pour contribuer au Diplôme Universitaire en Bioinformatique Intégrative.

Interopérabilité

Les ressources bioinformatiques (outils et bases de données) actuellement disponibles sont axées sur des types particuliers d'entités biologiques (gènes, protéines, ARNm, ARNc, petit ARN, etc.) ou d'interactions (protéine-protéine, réactions métaboliques, régulation transcriptionnelle, transport, etc.) Une exploitation conjointe de ces ressources hétérogènes nécessite à la fois des solutions d'interopérabilité qui visent à fournir un accès uniforme à des ressources diverses et distribuées, et des processus d'intégration qui permettent d'établir des relations physiques et interprétables entre des ensembles de données complexes. Les solutions d'interopérabilité visent à fournir un accès uniforme à des ressources diverses et distribuées en vue de leur exploitation intégrée. Rendre les ressources biologiques plus interopérables est une condition essentielle pour tirer pleinement parti de leur évidente complémentarité et acquérir de nouvelles connaissances en biologie intégrative. L'interopérabilité est étroitement liée au principe FAIR (Wilkinson et al, 2016). Cependant, il existe plusieurs autres niveaux d'interopérabilité et d'intégration (par exemple des outils, des environnements logiciels, etc.), chacun étant associé à des familles de solutions et de bonnes pratiques. L’IFB tente de clarifier les besoins des communautés impliquées dans les projets pilotes sélectionnés et d’identifier les normes et les solutions d’interopérabilité existante au sein de l’IFB et au niveau européen.

L'objectif est triple:

Identifier des solutions d'interopérabilité et d'intégration, à partir de celles déjà mises en œuvre sur les ressources biologiques françaises et européennes.
Soutenir le développement des solutions manquantes (au sens large du terme) lorsqu'un besoin est identifié.
Promouvoir ces solutions de pointe et faciliter leur adoption par la communauté des développeurs et fournisseurs de ressources bioinformatiques.

Plusieurs niveaux d'interopérabilité et d'intégration sont généralement envisagés, chacun étant associé à des familles de solutions et de bonnes pratiques.

L'intégration physique, qui s'appuie sur des stratégies d'entreposage de données, qui peuvent être soit basées sur des outils génériques tels que BioMart ou InterMine, soit mises en œuvre à partir de plateformes spécifiques à un domaine telles que i2b2/tranSMART pour les données biomédicales qui sont les environnements promus dans le cadre des programmes de médecine translationnelle de l'IMI de l'UE.
Interopérabilité technique, s'appuyant sur des protocoles standard d'échange de données permettant de développer des interfaces programmatiques simples et pragmatiques pour accéder aux bases de données.
Interopérabilité syntaxique, reposant sur des formats d'échange standard pour les données ou les métadonnées (les plus couramment utilisés aujourd'hui en bioinformatique étant XML, RDF, OWL, JSON).
Interopérabilité sémantique, s'appuyant sur des normes décrivant la signification des données. Elle peut être réalisée par un accord sur des terminologies standard pour l'annotation des données, l'exploitation d'ontologies basées sur des termes décrivant chaque concept d'un domaine, et les relations sémantiques entre ces termes. Une question majeure à cet effet sera d'établir des correspondances entre des concepts similaires définis dans différentes ontologies. Le déploiement de ressources interopérables nécessitera d'assurer la cohérence avec les ontologies définies par les ressources internationales mais aussi de stimuler la participation des communautés françaises à ces consortiums internationaux (par exemple ELIXIR) pour favoriser l'évolution des standards en fonction des besoins de la communauté des sciences de la vie.
L'interopérabilité des outils, en s'appuyant sur des normes pour représenter et combiner uniformément des outils hétérogènes. Les environnements de flux de travail, qui permettent d'enchaîner divers outils bioinformatiques, jouent un rôle essentiel à ce niveau.
L'interopérabilité des flux de travail, en s'appuyant sur des normes pour représenter uniformément des pipelines d'analyse complets conçus dans différents systèmes de flux de travail. En particulier, permettre la traduction des flux de travail conçus dans des environnements avec des interfaces utilisateur graphiques (typiquement, Galaxy) dans des langages de flux de travail qui peuvent être utilisés en ligne de commande (par exemple, Common Workflow Language, SnakeMake).
Intégration statistique, s'appuyant sur des méthodologies multivariées avancées basées sur la réduction des dimensions et des stratégies de sélection de variables (par exemple, régression des moindres carrés partiels, analyse de corrélation canonique généralisée, analyse de co-inertie multiple - avec leurs modèles homologues épars), capable de faire face à la multidimensionnalité des données omiques et autres données biologiques telles que l'imagerie, l'immunophénotypage, les dossiers médicaux électroniques, etc.
Visualisation spécialisée, s'appuyant sur des composants dédiés pour la représentation d'informations à un seul niveau (par exemple, les navigateurs de génomique) ou pour des vues agrégées de données à plusieurs échelles (par exemple, la connectivité de réseau ou la représentation d'analyses statistiques à plusieurs variables), qui proposent tous deux des interactions dynamiques homme-machine permettant l'exploration interactive de données complexes. De nos jours, la plupart des outils de visualisation sont entièrement intégrés dans les navigateurs web. Des développements récents, tels que BioJS, basés sur des améliorations de la technologie JavaScript, permettent de mettre en place rapidement des interfaces web de haut niveau. En fournissant des solutions logicielles capables d'interagir avec des bases de données et des outils, l'API permettra aux bioinformaticiens de se concentrer sur la conception d'interfaces conviviales répondant aux besoins de l'utilisateur final.

Trois projets pilotes ont pour préoccupation commune l'interopérabilité sémantique des métadonnées décrivant des ensembles de données ou des ressources de données. Les métadonnées doivent être exprimées avec des termes standards dérivés des ontologies disponibles et selon un format standard. Les équipes impliquées dans les projets INEX-MED et IntegrParkinson travaillent à la conception de graphiques de connaissances adaptés pour faciliter l'intégration entre les données omiques et les images médicales pour les applications d'apprentissage automatique. Dans le cadre du projet PhenoMeta, des bioinformaticiens déjà actifs au niveau européen sur la construction de normes végétales telles que MIAPPE et BrAPI, veulent développer une ontologie de phénotypage des plantes à des fins d'interopérabilité des ensembles de données végétales et de reproductibilité des traitements.

Un autre besoin détecté dans trois autres projets pilotes est lié à l'interopérabilité des outils. Les projets ProMetIS et MS2MODELS souhaitent développer un logiciel basé sur une combinaison flexible d'outils interopérables dans le domaine des analyses multi-omiques (protéomique et métabolomique pour le premier, protéomique et interactomique 3D pour le second). De même, mais dans le contexte des données sensibles sur la santé, le projet B2SH vise à combiner les outils de biostatistique et de bioinformatique (liés à l'analyse des séquences génomiques). Les défis de l'interopérabilité concernent la description des flux de travail, la provenance et la reproductibilité, ainsi que les API REST et la conteneurisation.

Innovation en matière de Data Management Plan

DMP modulaires
MaDMP: généralisation et orchestration des flux de données via MaDMP tout au long de leur vie.

Bioinformatique pour la santé

En septembre 2018, un groupe de travail dédié à la bioinformatique pour la santé a été créé. Ce groupe de travail est dirigé par Ivan Moszer et David Salgado et comprend 23 membres issus de différentes plateformes de l'IFB. Ce groupe de travail a plusieurs objectifs:

Rendre compte auprès de l'IFB et de ses institutions des activités réalisées dans ce périmètre.
Répondre aux différentes sollicitations reçues par l'IFB avec un accent particulier sur les données de santé, telles que la participation à des réunions, des ateliers ou des projets.
Interagir avec le programme national de séquençage PFMG2025 (Plan France Médecine Génomique 2025)
Suivre les différentes activités menées au sein d’ELIXIR, notamment dans les communautés Human Data, Rare Diseases et Human Copy Number Variation.
Travailler sur un livre blanc pour avoir une vue d'ensemble des compétences et de l'expertise disponibles au niveau national.

Depuis sa création, le groupe a été appelé à contribuer à diverses activités telles que :

Les activités d’ELIXIR, notamment la rédaction d'une demande de subvention pour une proposition INFRADEV 3, et l'identification de partenaires possibles pour participer à un SI de données fédérées humaines.
Représentation de l'IFB dans une réunion appelée Journée recherche et santé sur les thèmes Phénotypage clinique et Biologie Systémique organisée par l'INSERM et l'ITMO Aviesan Physiopathologie, Métabolisme et Nutrition
Participation au projet transversal de l'INSERM intitulé Atlas cellulaire du développement humain (HuDeCa).
Participation à l'organisation d'un atelier INSERM dédié aux infrastructures de santé. L'objectif de cet atelier était de faire une présentation sur l'écosystème français des plateformes bioinformatiques pour les données humaines et la santé le 25 janvier 2019 (Claudine Médigue et Jacques van Helden).
Coorganisation d'une vaste enquête auprès des utilisateurs des laboratoires INSERM sur leurs besoins en bioinformatique (outils logiciels, services bioinformatiques externes, renforcement des capacités internes, programmes de formation, politiques de recrutement).