Développements méthodologiques pour l’intégration de données omiques : applications à l’oncologie et aux neurosciences.
Résumé
Les données dites “omiques”, sont des données massives et hétérogènes, issues de la mesure de différents objets biologiques. Par exemple, la génomique s’intéresse à l’étude du génome (ADN), la transcriptomique à l’étude des transcrits (ARNs), la protéomique à l’étude des protéines, etc. L’interaction de l’ensemble de ces omiques entre elles ainsi qu’avec des facteurs environnementaux produit – à l’échelle d’une cellule, d’un tissu, ou d’un organisme – un ensemble de caractères observables appelé phénotype. Un des objectifs ultimes de la recherche en sciences de la vie est l’élucidation de la diversité du phénome (c’est-à-dire de l’ensemble des phénotypes observables) par l’identification des facteurs internes, environnementaux et de leurs interactions, associés à chaque phénotype.Ce manuscrit de thèse aborde la question de l’intégration de données – définie comme une solution permettant l’utilisation de multiples sources d’information (données) pour mieux comprendre un système, une situation, une association, etc. – et particulièrement de la question de l’intégration de données omiques, c’est-à-dire tout type d’intégration de sources de données provenant de différentes omiques, et/ou d’une même omique mesurée dans différents contextes expérimentaux et/ou de données omiques avec un type de données non-omique.Dans une première contribution, nous proposons une nouvelle stratégie pour le clustering consensus de données multi-omiques pour la détection de sous-types moléculaires de cancers. Cette stratégie permet, à partir de clusterings de cohortes de patients obtenus en considérant diverses données omiques et/ou différents algorithmes de clusterings existants, de produire un clustering consensus en réconciliant l’ensemble des prédictions contenues dans les clusterings soumis en entrée de l’algorithme. Deux scénarios d’intégration ont été testés : une intégration dite “multi-to-multi”, produite par intégration de clusterings multi-omiques et une intégration dite “single-to-multi”, produite par l’intégration de clusterings générés indépendamment pour différents omiques.Dans une seconde contribution, nous proposons une stratégie de détection de groupes de liens différentiellement co-exprimés identifiés par la comparaison de plusieurs jeux de données de type cas/contrôle. Elle repose sur la construction et l’analyse de réseaux multi-couches de co-expression différentielle, chaque couche représentant l’ensemble des dérégulations de la co-expression génique observée pour un contexte expérimental donné. La détection de groupes de liens de co-expression différentielle topologiquement similaires (c’est-à-dire impliquant un même ensemble de gènes) et observées dans les mêmes sous-ensembles de couches du réseau permet d’identifier des mécanismes associés à une maladie dans différents contextes expérimentaux (tissus, stade de développement, etc.), ou associés à différentes maladies. Nous avons appliqué la stratégie développée à la détection de motifs de co-expression différentielle dans l’hippocampe et le cortex de souris modèles de la maladie d’Alzheimer, ce qui nous a permis d’identifier des motifs clés de dérégulation de l’expression génique associés au phénotype pathologique. Certains de ces motifs ont été observés dans le cortex comme dans l’hippocampe, tandis que d’autres apparaissent spécifiques à l’une ou l’autre des deux structures cérébrales. Cette preuve de concept démontre la pertinence de la stratégie pour l’identification de perturbations de la co-régulation génique et la caractérisation transcriptomique de la diversité des phénotypes.
Abstract
“Omics” data are massive and heterogeneous data types, obtained from the measurement of different biological objects. For example, genomics is the study of the genome (DNA), transcriptomics is the study of transcripts (RNAs), proteomics the study of proteins, etc. The interaction of all these omics with each other and with environmental factors produces – at the scale of a cell, a tissue, or an organism – a set of observable characteristics called phenotype. One of the ultimate goals in life science research is the elucidation of the diversity of the phenome (i.e., the set of observable phenotypes) by identifying the internal and environmental factors and their interactions associated with each phenotype.This thesis manuscript addresses the issue of data integration – defined as a solution allowing the use of multiple sources of information (or data) to better understand a system, a situation, an association, etc. – and particularly the issue of omics data integration, i.e., any kind of integration of data sources coming from different omics, and/or from the same omics measured in different experimental contexts and/or from omics data with a non-omics data type.In a first contribution, we propose a novel strategy for the consensus clustering of multi-omics data, designed for the prediction of molecular subtypes of cancers. This strategy aim, from a set of clusterings of a patient cohort obtained by considering various omics data and/or different existing clustering algorithms, to produce a consensus clustering by reconciling all the predictions contained in the clusterings submitted as input to the algorithm. Two integration scenarios were tested: a “multi-to-multi” integration scenario, through the integration multi-omics clusterings obtained from existing integrative clustering strategies, and a “single-to-multi” integration scenario, through the integration of single-omics clustering independently produced for several omics.In a second contribution, we propose a novel strategy for detecting differentially co-expressed link communities by comparing co-expression patterns in multiple case/control datasets. The strategy is based on the construction and analysis of multi-layer differential co-expression networks, each layer representing a set of dysregulations of gene pairwise co-expression observed in a given experimental context. The detection of topologically similar (i.e., involving the same set of genes) link communities consistently observed across subsets of layers of the network allows the identification of molecular mechanisms associated with a disease in different experimental contexts (tissues, developmental stage, etc.), or associated with multiple diseases. We applied this strategy for the detection of differential co-expression patterns in the hippocampus and the cortex of Alzheimer’s disease model mice, allowing the identification of key gene co-expression dysregulation patterns associated with the pathologic phenotype. Some of these patterns were observed in both the cortex and the hippocampus, while others appeared to be specific to one or the other of the two brain structures. This proof of concept demonstrates the relevance of the strategy for identifying gene co-regulation perturbations and to characterize the transcriptomic diversity of phenotypes associated with disease.
Présentée le 23 novembre 2022
Laboratoire où a été préparée la thèse : Laboratoire bordelais de recherche en informatique, Talence, Gironde
Sous la direction de Patricia Thébault, Agnès Nadjar et Raluca Uricaru