Interopérabilité
Les ressources bioinformatiques (outils et bases de données) actuellement disponibles sont axées sur des types particuliers d'entités biologiques (gènes, protéines, ARNm, ARNc, petit ARN, etc.) ou d'interactions (protéine-protéine, réactions métaboliques, régulation transcriptionnelle, transport, etc.) Une exploitation conjointe de ces ressources hétérogènes nécessite à la fois des solutions d'interopérabilité qui visent à fournir un accès uniforme à des ressources diverses et distribuées, et des processus d'intégration qui permettent d'établir des relations physiques et interprétables entre des ensembles de données complexes. Les solutions d'interopérabilité visent à fournir un accès uniforme à des ressources diverses et distribuées en vue de leur exploitation intégrée. Rendre les ressources biologiques plus interopérables est une condition essentielle pour tirer pleinement parti de leur évidente complémentarité et acquérir de nouvelles connaissances en biologie intégrative. L'interopérabilité est étroitement liée au principe FAIR (Wilkinson et al, 2016). Cependant, il existe plusieurs autres niveaux d'interopérabilité et d'intégration (par exemple des outils, des environnements logiciels, etc.), chacun étant associé à des familles de solutions et de bonnes pratiques. L’IFB tente de clarifier les besoins des communautés impliquées dans les projets pilotes sélectionnés et d’identifier les normes et les solutions d’interopérabilité existante au sein de l’IFB et au niveau européen.
L'objectif est triple:
- Identifier des solutions d'interopérabilité et d'intégration, à partir de celles déjà mises en œuvre sur les ressources biologiques françaises et européennes.
- Soutenir le développement des solutions manquantes (au sens large du terme) lorsqu'un besoin est identifié.
- Promouvoir ces solutions de pointe et faciliter leur adoption par la communauté des développeurs et fournisseurs de ressources bioinformatiques.
Plusieurs niveaux d'interopérabilité et d'intégration sont généralement envisagés, chacun étant associé à des familles de solutions et de bonnes pratiques.
- L'intégration physique, qui s'appuie sur des stratégies d'entreposage de données, qui peuvent être soit basées sur des outils génériques tels que BioMart ou InterMine, soit mises en œuvre à partir de plateformes spécifiques à un domaine telles que i2b2/tranSMART pour les données biomédicales qui sont les environnements promus dans le cadre des programmes de médecine translationnelle de l'IMI de l'UE.
- Interopérabilité technique, s'appuyant sur des protocoles standard d'échange de données permettant de développer des interfaces programmatiques simples et pragmatiques pour accéder aux bases de données.
- Interopérabilité syntaxique, reposant sur des formats d'échange standard pour les données ou les métadonnées (les plus couramment utilisés aujourd'hui en bioinformatique étant XML, RDF, OWL, JSON).
- Interopérabilité sémantique, s'appuyant sur des normes décrivant la signification des données. Elle peut être réalisée par un accord sur des terminologies standard pour l'annotation des données, l'exploitation d'ontologies basées sur des termes décrivant chaque concept d'un domaine, et les relations sémantiques entre ces termes. Une question majeure à cet effet sera d'établir des correspondances entre des concepts similaires définis dans différentes ontologies. Le déploiement de ressources interopérables nécessitera d'assurer la cohérence avec les ontologies définies par les ressources internationales mais aussi de stimuler la participation des communautés françaises à ces consortiums internationaux (par exemple ELIXIR) pour favoriser l'évolution des standards en fonction des besoins de la communauté des sciences de la vie.
- L'interopérabilité des outils, en s'appuyant sur des normes pour représenter et combiner uniformément des outils hétérogènes. Les environnements de flux de travail, qui permettent d'enchaîner divers outils bioinformatiques, jouent un rôle essentiel à ce niveau.
- L'interopérabilité des flux de travail, en s'appuyant sur des normes pour représenter uniformément des pipelines d'analyse complets conçus dans différents systèmes de flux de travail. En particulier, permettre la traduction des flux de travail conçus dans des environnements avec des interfaces utilisateur graphiques (typiquement, Galaxy) dans des langages de flux de travail qui peuvent être utilisés en ligne de commande (par exemple, Common Workflow Language, SnakeMake).
- Intégration statistique, s'appuyant sur des méthodologies multivariées avancées basées sur la réduction des dimensions et des stratégies de sélection de variables (par exemple, régression des moindres carrés partiels, analyse de corrélation canonique généralisée, analyse de co-inertie multiple - avec leurs modèles homologues épars), capable de faire face à la multidimensionnalité des données omiques et autres données biologiques telles que l'imagerie, l'immunophénotypage, les dossiers médicaux électroniques, etc.
- Visualisation spécialisée, s'appuyant sur des composants dédiés pour la représentation d'informations à un seul niveau (par exemple, les navigateurs de génomique) ou pour des vues agrégées de données à plusieurs échelles (par exemple, la connectivité de réseau ou la représentation d'analyses statistiques à plusieurs variables), qui proposent tous deux des interactions dynamiques homme-machine permettant l'exploration interactive de données complexes. De nos jours, la plupart des outils de visualisation sont entièrement intégrés dans les navigateurs web. Des développements récents, tels que BioJS, basés sur des améliorations de la technologie JavaScript, permettent de mettre en place rapidement des interfaces web de haut niveau. En fournissant des solutions logicielles capables d'interagir avec des bases de données et des outils, l'API permettra aux bioinformaticiens de se concentrer sur la conception d'interfaces conviviales répondant aux besoins de l'utilisateur final.
Trois projets pilotes ont pour préoccupation commune l'interopérabilité sémantique des métadonnées décrivant des ensembles de données ou des ressources de données. Les métadonnées doivent être exprimées avec des termes standards dérivés des ontologies disponibles et selon un format standard. Les équipes impliquées dans les projets INEX-MED et IntegrParkinson travaillent à la conception de graphiques de connaissances adaptés pour faciliter l'intégration entre les données omiques et les images médicales pour les applications d'apprentissage automatique. Dans le cadre du projet PhenoMeta, des bioinformaticiens déjà actifs au niveau européen sur la construction de normes végétales telles que MIAPPE et BrAPI, veulent développer une ontologie de phénotypage des plantes à des fins d'interopérabilité des ensembles de données végétales et de reproductibilité des traitements.
Un autre besoin détecté dans trois autres projets pilotes est lié à l'interopérabilité des outils. Les projets ProMetIS et MS2MODELS souhaitent développer un logiciel basé sur une combinaison flexible d'outils interopérables dans le domaine des analyses multi-omiques (protéomique et métabolomique pour le premier, protéomique et interactomique 3D pour le second). De même, mais dans le contexte des données sensibles sur la santé, le projet B2SH vise à combiner les outils de biostatistique et de bioinformatique (liés à l'analyse des séquences génomiques). Les défis de l'interopérabilité concernent la description des flux de travail, la provenance et la reproductibilité, ainsi que les API REST et la conteneurisation.