Étude de faisabilité pour un service d’entrepôt de données simples

Actualités du comité
02/03/2020

Dans le cadre des actions conduites en 2020 par le collège Données de la recherche, une réflexion sur la pertinence de développer un entrepôt de données mutualisé vient d’être engagée par le Comité pour la science ouverte. Ce travail, dont les résultats sont attendus à l’automne, est piloté par l’IRD (coordinateur de l’étude), l’INRAE, Sorbonne Université et le CNRS. Le cabinet Datactivist, coopérative spécialiste de l’ouverture des données, prêtera main-forte à la conduite de cette étude. La réunion de lancement a eu lieu début février et a fixé les objectifs du groupe de travail.

À l’échelle de la communauté scientifique dans son ensemble, les données de la recherche se caractérisent par leur nature extrêmement hétérogène, y compris dans un même projet, qui peut mêler différents types de données produites selon des méthodologies très diverses. Certaines disciplines se sont organisées de longue date pour disposer d’entrepôts adaptés à leurs besoins. Pour d’autres, les services ne sont pas encore développés, alors même que plusieurs financeurs de la recherche ont annoncé faire de l’ouverture des données selon les principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable) un critère d’éligibilité des réponses à projets pour les années à venir. Dans ce contexte, l’opportunité de disposer d’un entrepôt national pour les données de longue traîne est à étudier afin d’être en capacité d’assurer leur conservation pérenne et, autant que possible, leur partage. Il s’agit également d’accompagner la mise en conformité de ces données avec les principes FAIR par le biais d’un dispositif adapté.

Le principal enjeu est d’envisager la mise à disposition d’un service qui puisse stocker, préserver, et le cas échéant ouvrir et diffuser des données de recherche, tout en garantissant leur maîtrise et leur gestion (contrôle de la propriété intellectuelle par ses détenteurs, licence, curation, citabilité, etc.) aux établissements producteurs qui le souhaiteraient. Il s’agit également d’offrir une solution contrôlée par les acteurs publics de diffusion de données liées aux articles.

Cette étude a pour objectif de répondre à deux objectifs explicites du Plan national pour la science ouverte : « Développer un service générique d’accueil et de diffusion des données simples » et « Créer les conditions et promouvoir l’adoption d’une politique de données ouvertes associées aux articles publiés par les chercheurs ».

L’étude va s’attacher à cerner les pratiques des établissements producteurs de données. Des ateliers seront organisés au printemps afin de recueillir les besoins des utilisateurs. Un premier atelier va être organisé le 6 mars avec un groupe composé de gestionnaires d’entrepôts existants pour disposer des retours d’expérience d’établissements ou de structures pilotes. D’autres ateliers suivront, dans plusieurs régions, afin de recueillir les besoins des utilisateurs qui produisent et qui gèrent des données au quotidien. L’étude dressera également une analyse comparative des différentes offres logicielles existant sous licence libre.

À l’issue de ces deux premières phases, plusieurs scénarios de mise en œuvre, portant sur des solutions techniques comme sur la gouvernance, seront soumis concernant la pertinence de mettre en place un dispositif mutualisé, qui permettrait le dépôt et la diffusion de données au niveau national, ainsi que leur stockage et leur préservation à long terme. Les résultats de ces travaux seront présentés à l’automne 2020.

Contacts :
– pilotage de l’étude : Jean-Christophe Desconnets Jean-Christophe.Desconnets@ird.fr
– pilotes du collège Données : Véronique Stoll et Pierre-Yves Arnould coso-donnees-cp@groupes.renater.fr