square

Données génétiques

Description des tâches du Work-Package 4

Objectifs

Ce groupe de travail a 3 principaux objectifs :

 

  • Définir le contenu en espèces des échantillons Tara-Océans par le séquençage de marqueurs phylogénétiques,

 

  • Définir le contenu en gènes et l’expression de ceux-ci par le séquençage métagénomique et métatranscriptomique des échantillons,

 

  • Augmenter de manière significative la collection des génomes et des transcriptomes de référence des organismes planctoniques, particulièrement en ce qui concerne les eucaryotes unicellulaires (prostistes). Cela aidera à l’annotation des jeux de données et à l’exploitation des informations qu’ils renferment.

Image icon patrick_wincker.jpg
Patrick Wincker, coordinateur du groupe de travail Données génétiques du projet OCEANOMICS

Ce groupe de travail est coordonné par Patrick Wincker au Genoscope d’Evry et il fait intervenir l’UMR7144 et la FR2424 de la Station Biologique de Roscoff et l’Institut de Génomique Structurale de Marseille. Les acteurs de ce groupe de travail font appel à la technologie Illumina, partenaire collaboratif d'OCEANOMICS.

 

#1

Séquençages des communautés planctoniques – Tâche 4.1

Cette tâche vise à comprendre la complexité taxonomique et génétique des échantillons génétiques présents dans les différentes fractions de taille considérées grâce aux techniques de séquençage à haut-débit. Trois niveaux biologiques sont explorés : les organismes (métabarcoding), leurs génomes (métagénomique),  et les gènes exprimés (métatranscriptomique).

Une approche de séquençage haut-débit est utilisée pour séquencer de manière massive des marqueurs génétiques clefs (métabarcoding). Ceux-ci permettent d’estimer rapidement et de manière semi-quantitative la biodiversité présente dans les échantillons Tara-Océans. Les marqueurs considérés permettent de distinguer les communautés eucaryotes, procaryotes et la part photosynthétique des protistes.
Cette approche est réalisée sur la totalité des échantillons Tara-Océans et permettra d’orienter le choix de vingt-cinq stations caractéristiques de différentes conditions océaniques pour les approches métagénomiques et métatranscriptomiques. Chacune de ces stations correspond à différents échantillons, répartis en sept fractions de taille (des virus aux métazoaires) et provenant de une à trois profondeurs (surface, profondeur de chlorophylle maximum (DCM) et mésopélagique). Au total, près de 350 échantillons sont concernés.

#2

Gènes, génomes et transcriptomes de référence – Tache 4.2

Pour la majorité des organismes planctoniques maintenus en culture, l’information génétique qu’ils renferment reste inconnue. Pire, la plus grande majorité des organismes planctoniques marins ne peut être maintenue en culture. Il en découle la plus grande limite des approches listées ci-dessus : le manque de séquences de référence dont on dispose.
Cette tâche d’OCEANOMICS vise à générer de nouvelles séquences de référence qui permettront de faciliter l’analyse des informations générées par les approches métagénétiques.

 

Taxonomie inversée

Les premières analyses de métabarcoding ont montré qu’une part significative de ces marqueurs ne pouvait être assignée à aucun organisme recensé dans les bases de données. La présence de marqueurs d’espèces inconnues est pourtant parfois importante. Afin de dévoiler la nature fondamentale de cette importante biodiversité inconnue, OCEANOMICS identifie les séquences les plus abondantes qui ne sont pas associées à des taxons identifiés et recherche des copies de ces séquences dans les génomes et les transcriptomes séquencés pour une meilleure caractérisation taxonomique de cette biodiversité encore mal décrite. Dans certains cas, ces informations seront liées aux connaissances morphologiques générées par le groupe de travail n°3.

 

Protistes - Transcriptomes de référence

La taille des génomes des protistes peut être très significativement supérieure à celle du génome humain. Ceci est sans doute une des plus grandes barrières pour de la métagénétique des communautés océaniques. Une approche transcriptomique devrait permettre de contourner cet obstacle, le nombre de gènes étant assez stable d’une espèce eucaryote à une autre (environ 10000 gènes par espèce). De plus, le séquençage d’ARNm permet d’éviter une contamination par les acides nucléiques procaryotes et la traduction de ces types de séquence est directement exploitable pour des recherches de similarité, plus sensibles au niveau protéique.
Afin d’améliorer l’interprétation des jeux de données métatranscriptomiques, OCEANOMICS vise à augmenter le nombre de transcriptomes de référence pour les protistes. Cela se fait grâce à l’utilisation de souches en culture présentes dans différentes collections (dont la Roscoff Culture Collection) ou encore de cellules isolées et identifiées au sein d’échantillons planctoniques fraichement collectés. Dans ce contexte, OCEANOMICS prévoit de générer environ 250 nouveaux transcriptomes de référence d’intérêt phylogénétique et/ou écologique. Le choix des organismes concernés est orienté par les données obtenues en métabarcoding et métagénomique.

 

Séquençage Single-cell

Pour les eucaryotes dont la taille est inférieure à 20µm, l’approche dite de Single-cell amplified genomes (SAGs) sequencing est utilisée.
Au cours de l’expédition Tara-Océans, ces organismes compris dans les plus petites fractions de taille ont été cryopréservés à cet effet. Des cellules sont isolées en cytométrie de flux. Leur génome est alors amplifié, barcodé pour une assignation phylogénétique et entièrement séquencé le cas échéant. Un pipeline d’outils bioinformatiques a été mis au point pour l’annotation et l’analyse de ces SAGs.

#3

Archivage des données génétiques – Tâches 4.3

Des pipelines informatiques dédiés à la prédiction de gènes et l’annotation taxonomique et fonctionnelle des données métagénétiques ont déjà été développés au cours de l’expédition Tara-Océans et du projet BioMarKs. Dans le cadre d’OCEANOMICS, ces outils sont repris et évoluent en réponse au développement des nouveaux algorithmes générés, aux systèmes d’ontologie et à l’accessibilité aux nouveaux génomes et transcriptomes de référence, issus respectivement des groupes de travail Bioinformatique et Modélisation des Ecosystèmes, Organisation et Archivage de Données et Données génétiques.
Ici, OCEANOMICS développe de nouveaux systèmes de bases de données pour l’organisation et la distribution de toutes les données génétiques générées. Cela doit jouer un rôle crucial pour leur mise en relation avec les données d’imagerie et les données environnementales.