Recherche Data Gouv : plateforme nationale fédérée des données de la recherche

Actualités du comité
16/07/2021

Recherche Data Gouv : une plateforme nationale fédérée des données de la recherche sera disponible fin du premier trimestre 2022 comme annoncé par la ministre lors du lancement du deuxième Plan national pour la science ouverte.

Schéma des 5 composants de Recherche Data Gouv : Ateliers de la donnée, entrepôt, catalogue, centres de référence thématiques, centres de ressources

Pour répondre aux enjeux d’ouverture des données, et a minima des données « citables, la stratégie est de s’appuyer sur les forces françaises : les infrastructures de recherche de « big science » disciplinaires, soutenues dans le cadre des Equipex+, fortement inscrites à l’échelle internationale (EBI, GEO, CDS-ESO…), et cinq établissements qui disposent d’une expérience forte en matière d’entrepôt de données institutionnel, en particulier INRAE. Il s’agit de mettre à disposition de tous les chercheurs qui n’auraient aucune de solution de dépôts de confiance de leurs données un entrepôt pluridisciplinaire. Cette solution souveraine apportera la solution alternative aux chercheurs contraints de déposer leurs données dans les entrepôts des éditeurs de leurs articles. Il s’agit également de s’inscrire dans un paysage international en évolution avec la structuration d’EOSC et les investissements considérables réalisés en Allemagne et aux Pays-Bas sur les données de recherche.

 

Une solution souveraine et contrôlée pour la diffusion de données
Des services d’accompagnement aux chercheurs

La plateforme Recherche Data Gouv composée de 5 modules ambitionne d’apporter aux chercheurs :

  • Un service de dépôt et de diffusion (entrepôt) dédié aux données pour lesquelles aucun des entrepôts disciplinaires existants ne constituerait une solution adaptée ; ce service sera hébergé sur un datacenter national labélisé ;
  • Un catalogue des données de la recherche française qui signale les données déposées dans des entrepôts nationaux ou internationaux thématiques et disciplinaires ;
  • Des services d’accompagnement à la donnée:
    • Ateliers de la donnée: mis en place dans le cadre des politiques de site, ils apportent en proximité des chercheurs, un premier niveau d’expertise et de services à la préparation et la diffusion des données ;
    • Centres de référence thématiques: en appui aux ateliers de la donnée, ils conçoivent et portent par domaines scientifiques les référentiels de pratiques thématiques/disciplinaires. Portés par les organismes nationaux de recherche et/ou les infrastructures nationales de recherche, ils constituent le niveau d’expertise disciplinaire chargés de définir les bonnes pratiques définies par communauté scientifique, comme la durée d’embargo, les standards de description des données, les entrepôts disciplinaires/thématiques… en cohérence avec l’écosystème international ;
    • Centres de ressources rattachés à Recherche Data Gouv : ils apportent différents services liés à l’entrepôt national générique des données, au catalogue, aux e-formations, aux attributions d’identifiants uniques pour les jeux de données (DOI), aux outils de plan de gestion de données…

 

Des services disponibles dès mars 2022

Le projet se dote d’un calendrier à 3 ans :

  • À partir de début 2022 : lancement progressif des ateliers de la donnée selon leur création sur les différents sites du territoire
  • Mars 2022 : services centralisés
    • Ouverture de l’entrepôt et du catalogue des données
    • Centre de ressources de l’entrepôt et du catalogue
    • Centres de ressources des services d’accompagnement, formation, communication pour l’appropriation des services de dépôt, d’identifiants… des données
  • 2022-2023 : campagnes d’alimentation par les ateliers de la donnée et des acteurs de l’édition et des archives ouvertes
  • 2023-2024 : moissonnage des entrepôts de données nationaux et internationaux pour signaler les données disciplinaires/thématique

 

Un dispositif développé par et pour la communauté de recherche

Le développement des modules « entrepôt » et « catalogue » est confié à INRAE, l’acteur français qui a le plus d’expérience dans le domaine des entrepôts génériques. INRAE a développé une expertise multidisciplinaire en diffusant des données de différents domaines scientifiques. Il s’appuie depuis 5 ans sur Dataverse, la solution libre développée par Harvard et largement adoptée par la communauté française.

Les modules d’entrepôt et de catalogue s’appuieront sur le service actuellement disponible au sein d’INRAE. Ce service sera adapté aux besoins de toute la communauté.

L’équipe INRAE de 8,2 ETP met son expertise au service du projet national et 5 ETP d’autres établissements ayant également une expertise en terme d’entrepôt viennent renforcer le dispositif : Université de Grenoble Alpes, Université de Lille, Université de Lorraine, Université de Paris, Université Paris Nanterre, Université de Strasbourg et le CNRS.

Ces établissements seront associés à la gouvernance du projet.

Les ateliers de la donnée s’appuieront sur des initiatives existantes ou seront développés par des experts de la donnée en proximité des chercheurs et offriront un premier niveau d’expertise à l’échelle locale. Ils seront portés en associant universités, écoles et organismes de recherche dans le cadre des politiques de site. Le premier appel à manifestation d’intérêt sera lancé en septembre 2021 pour une labélisation des premiers ateliers de la donnée en janvier 2022.  Trois appels par an seront ensuite organisés en 2022 et 2023.

 

Subsidiarité, confiance, mutualisation et visibilité : les principes directeurs de Recherche Data Gouv

  • Principe de subsidiarité avec les entrepôts disciplinaires existants, nationaux ou internationaux ;
  • Principe de subsidiarité dans l’accompagnement des chercheurs et la modération des dépôts : des ateliers de la donnée sur les sites
  • Principe de reconnaissance des producteurs de données
  • Dépôt des données de recherche associées ou non à des publications
  • Plateforme de qualité : curation des données
  • Plateforme de confiance (certification Core Trust Seal)
  • Mutualisation des moyens pour les modules : entrepôt, catalogue et centres de ressources
  • Visibilité de la production des établissements (logo, …), des structures de recherche, des chercheurs
  • Des indicateurs de suivi et reporting (nombre de jeux de données déposés, téléchargés…) par établissements, domaines scientifiques…
  • Visibilité internationale
  • Inscription dans l’écosystème national et international des données de recherche et contribution française à l’EOSC