square

Organisation et archivage des données

Description des tâches du Work-Package 1

Objectifs

Au cours de l’expédition Tara-Oceans (2009-2012), dans laquelle nous pouvons aussi inclure Tara-Oceans Polar Circle (2013), plus de 33000 échantillons ont été récoltés. Alors que certaines analyses ont été initiées à bord de Tara, la vaste majorité des échantillons a été directement rapatriée vers les différents laboratoires impliqués en vue d’une analyse ultérieure. L’imagerie et le séquençage haut-débit mis en place dans les groupes de travail 3 et 4 génèrent des quantités énormes de données, estimées à ce jour à environ 500 To de données brutes, qui nécessitent d’être archivées de manière consciencieuse et liées aux données physico-chimiques associées à chaque station de prélèvement des échantillons correspondants.

 

 

 

Les objectifs de ce groupe de travail sont les suivants :

  • Développer et mettre en pratique un système d’archivage des échantillons biologiques afin de sécuriser leur stockage et leur utilisation sur le long terme.
  • Développer et mettre en pratique un entrepôt de données exhaustif qui héberge, lie, donne accès et/ou suit l’utilisation de tous les types de données.

 

Image icon ian_probert.jpg
Ian Probert, coordinateur du groupe de travail Organisation et Archivage de données du projet OCEANOMICS

 

Ce groupe de travail est coordonné par Ian Probert à la Station Biologique de Roscoff et il fait intervenir l’UMR7144 et la FR2424 de la Station Biologique de Roscoff, le laboratoire océanologique de Villefranche sur Mer, l’IGS de Marseille, l’EMBL, et Altran. En tant que partenaires collaboratifs, le VIB et Pangaea sont aussi impliqués.

#1

Archivage d’échantillons – Tâche 1.1

Les échantillons collectés au cours de l’expédition Tara-Océans ont été étiquetés à l’aide d’un système de code-barres et répartis, pour la plupart, entre les laboratoires français impliqués (Station Biologique de Roscoff, Génoscope et IBENS), mais aussi ailleurs en Europe et aux Etats-Unis. Afin de pallier à un manque crucial de suivi des échantillons (localisation et utilisation), OCEANOMICS a pour objectif de créer un système qui permet leur gestion.

La tâche consiste à définir précisément:

  • les différents types de données associées aux échantillons,
  • les procédures et les activités faisant appel à ces données,
  • les fonctions que devraient apporter un tel système de gestion,
  • les standards permettant d’évaluer les performances d’un tel système.

C’est en basant sur les résultats de cette réflexion que le système de gestion est développé et mis en place à la Station Biologique de Roscoff. Après une phase de test en interne, l’interface développée sera proposée à l’ensemble des partenaires et une procédure d’évaluation sera mise en place afin d’assurer une évolution optimale de l’outil.

#2

Base de données unique : construire un entrepôt de données éco-morpho-génétiques intégré – Tâche 1.2

L'objectif de la tâche est de produire un entrepôt de données intégré avec un point d'entrée unique pour accéder à toutes les données primaires découlant de l’expédition Tara-Océans production des groupes de travail n°2, 3 et 4) ainsi qu’aux analyses de modélisation produites par le groupe de travail n°5. Dans la plupart des cas, les données resteront archivées à l’endroit où elles ont été produites et l’outil développé dans cette tâche permettra d’y accéder par le biais de requêtes avancées. Une interface web permettra à l’utilisateur de naviguer dans cet entrepôt de données et d’interroger son contenu.

#3

Exploration de données interdisciplinaires et outils de visualisation – Tâche 1.3

Indissociable de la tâche décrite précédemment, le travail effectué dans ce cadre apportera à l’utilisateur des outils de visualisation et d’analyse des données regroupées dans l’entrepôt afin de disposer de ces données primaires, mais aussi de données secondaires et d’analyses écosystémiques qui en découlent. La force du jeu de données Tara-Océans/OCEANOMICS réside dans son homogénéité, son interdisciplinarité et dans les différents niveaux systémiques concernés : des recoupements de données seront possibles concernant différents paramètres tels que les données satellites, les séquences de gènes, les données d’imagerie (des virus au zooplancton) et plusieurs types de paramètres biophysiques, physiques et chimiques pour une unique colonne d’eau.
Des modules de comparaison et d’analyse seront développés à plusieurs niveaux systémiques :

 

1. Organismes:

  • Outils d’analyse des données de metabarcoding,
  • Outils de corrélation images/séquences génétiques et d’annotation manuelle d’imagerie.

 

2. Gènes:

  • Outils d’analyse des données métagénomiques et métatranscriptomiques,
  • Outils pour la projection des voies métaboliques et la définition des relations entre l’expression des gènes et les paramètres environnementaux,
  • Recherche de similarités pour l’exploration des données de séquences.

 

3. Ecosystèmes:

  • Outils de comparaison et de visualisation des paramètres écologiques,
  • Outils de visualisation des relations espèces/fonctions,
  • Outils de visualisation et d’exploitation des interactions inter-espèces.