Ce « Guide pratique pour une harmonisation internationale de la gestion des données de recherche » est la traduction française de « Practical Guide to the international alignment of research data management » publié en novembre 2018 par Science Europe, dont la production a été coordonnée par le Groupe de travail de Science Europe sur les données de recherche.
Pour de plus amples informations, veuillez contacter office@scienceeurope.org
Le document original en langue anglaise est publié sous licence Creative Commons Attribution 4.0. Il est accessible sur le site de Science Europe : https://www.scienceeurope.org/wp-content/uploads/2018/12/SE_RDM_Practical_Guide_Final.pdf
La traduction française a été réalisée dans le cadre des travaux du Collège Données du Secrétariat Permanent pour la Science Ouverte. Cette traduction est publiée sous licence Creative Commons Attribution 4.0
Le texte de l’annexe au présent document emprunte la traduction des principes FAIR réalisée par l’Inra et disponible à l’adresse suivante : https://www6.inra.fr/datapartage/Produire-des-donnees-FAIR.
Membre du Conseil d’administration de Science Europe et Président de l’Organisation néerlandaise pour la recherche scientifique
Lors du Sommet européen Open Science Cloud (EOSC) en juin 2017, je me suis engagé à promouvoir l’harmonisation de la gestion des données de recherche (RDM) entre les organismes de financement de la recherche en Europe. Cet engagement a été à l’origine d’une initiative lancée à cette fin par Science Europe et l’organisation pour la recherche scientifique aux Pays-Bas (NWO) en janvier 2018. L’objectif de l’initiative était d’élaborer un ensemble de spécifications de base pour les plans de gestion des données (DMP), ainsi qu’une liste de critères pour la sélection d’entrepôts dignes de confiance dans lesquels les chercheurs peuvent déposer leurs données à des fins de partage.
À la lumière de la mise en œuvre d’EOSC et dans le contexte d’une tendance croissante au partage des données, ces spécifications et critères devraient contribuer à l’harmonisation des règles de gestion des données dans toute l’Europe. Cela facilitera la conformité aux exigences en matière de gestion de données, même lorsque les chercheurs travaillent avec différents financeurs et organismes de recherche.
Moins d’un an après son lancement, j’ai le plaisir de vous présenter les résultats de cette initiative. Ces spécifications de base pour les DMP et les critères de sélection des entrepôts dignes de confiance ont été mis au point par des experts d’organisations membres de Science Europe, qui ont sollicité des contributions supplémentaires de la part de parties prenantes externes pour assurer un large consensus.
Science Europe et NWO vont promouvoir ces exigences et critères de base afin de s’assurer qu’ils sont adoptés et soutenus par le plus grand nombre possible de parties prenantes.
Je suis fier que NWO fasse partie, au sein de Science Europe, des organisations pionnières qui ont l’intention de mettre en œuvre ces exigences et critères de base dans leurs politiques, dans le courant de l’année 2019. Avec le soutien d’autres organismes de recherche, tant à l’intérieur qu’à l’extérieur de Science Europe, ce guide peut servir de document de référence pour l’élaboration ou la révision des politiques de GDR dans toute l’Europe et au-delà.
Novembre 2018
Professeur Dr C.C.A.M. Gielen
Agences de financement de la recherche, organismes de recherche [1]Le terme « organismes de recherche » désigne les organismes qui effectuent des recherches, les universités et les instituts de recherche. et chercheurs individuels ont des exigences et des besoins différents en matière de gestion des données de recherche (RDM). Les exigences de base des plans de gestion des données (PGD) et les critères de sélection d’entrepôts dignes de confiance présentés dans ce guide fournissent aux organisations et aux communautés une base commune à partir de laquelle elles peuvent élaborer des politiques de RDM. Ce sont là des exigences minimales qui peuvent être complétées par d’autres exigences plus spécifiques en fonction des besoins des communautés ou des organisations.
Des données de recherche de qualité sont des éléments clés du processus de recherche. Les données de recherche devraient être disponibles en permanence, publiquement et gratuitement pour une réutilisation éventuelle. Au cours des dernières années, divers intervenants, des financeurs de la recherche aux éditeurs, ont approuvé un ensemble concis de principes, connus sous le nom de principes des données FAIR [2]Rendre les données Faciles à trouver, Accessibles, Interopérables et Réutilisables. Veuillez consulter l’annexe pour plus d’informations ou visitez le site : https://www.force11.org/group/fairgroup/fairprinciples, pour améliorer la réutilisation des données. Les exigences minimales pour les DMP et les critères de sélection des entrepôts dignes de confiance présentés dans ce guide sont conformes aux principes FAIR, et vont même au-delà sur certains aspects tels que stockage et archivage des données en cours de projet et préservation à long terme [3]Pour plus d’informations sur la manière dont les principes FAIR sont traduits dans les exigences minimales et les critères de sélection, veuillez consulter l’annexe.. Une gestion des données basée sur ces exigences et critères minimaux aideront donc les chercheurs à s’assurer que les données sont FAIR. Il peut y avoir des raisons légitimes (liées à des spécificités du projet ou relatives à des données personnelles) pour en différer ou limiter l’accès, qui impose une approche équilibrée en matière d’ouverture des données de recherche.
Ce guide a été élaboré par des experts appartenant à des organisations membres de Science Europe. Tout au long du processus d’élaboration de ce guide, ils ont confronté les modèles existants aux pratiques actuelles de gestion de données. Des acteurs du milieu de la recherche ont également été consultés pour prendre compte les différents besoins [4]Le concept a été présenté lors d’une manifestation publique le 30 janvier 2018, et deux consultations ont été organisées en avril 2018 et en août/septembre 2018 : https://scieur.org/rdm-initiative.
Ce guide a été conçu de manière à être utile pour un grand nombre d’organisations et de chercheurs. Il met l’accent sur les questions de fond et ne fait pas référence aux aspects procéduraux de l’utilisation des DMP [5]Pour les éléments procéduraux de la mise en œuvre des DMP : RDA Common Standard Working Group https://www.rd-alliance.org/groups/dmp-common-standards-wg et de choix des entrepôts, car ceux-ci peuvent varier considérablement d’une organisation à l’autre.
Ce guide est divisé en trois parties :
Exigences minimales pour les plans de gestion des données : six points que tout DMP devrait couvrir tous les aspects, illustrés avec des questions clés.
Critères de sélection des dépôts dignes de confiance : quatre points détaillant les critères que tout entrepôt de confiance doit respecter.
Conseils de mise en œuvre : renseignements détaillés et exemples pour guider la mise en œuvre des exigences et des critères dans les politiques d’établissement.
COMMENT UTILISER CE GUIDE
Agences de financement de la recherche, organismes et communautés de recherche sont encouragés à utiliser ces exigences minimales pour les plans de gestion des données comme une base pour établir leurs propres modèles de DMP. Dans un deuxième temps, ce guide peut également servir de document de référence pour l’évaluation des DMP.
Les organismes de recherche et les chercheurs individuels peuvent se référer à ce guide pour la rédaction de leurs DMP.
Pour les autres acteurs du secteur de la recherche, ce guide sert de document de référence sur la façon dont un DMP devrait être structuré et utilisé.
Les critères de sélection des entrepôts dignes de confiance aideront les agences de financement, les organismes de recherche et les chercheurs individuels à identifier des entrepôts adéquats pour le stockage et le partage des données.
Les exigences minimales pour les DMP et les critères de sélection des entrepôts dignes de confiance peuvent être considérés comme deux documents autonomes et utilisés indépendamment. Il est toutefois recommandé de tenir compte de ces deux ensembles lors de l’élaboration ou de la mise à jour d’une politique de données institutionnelle ou disciplinaire, de façon à aligner au mieux les positions des institutions.
Les organismes de financement de la recherche et les organismes de recherche exigent de plus en plus souvent des plans de gestion des données. Ces plans aident le chercheur à prendre en compte tous les aspects pertinents de la gestion des données dès l’entame d’un projet de recherche. Un DMP devrait inciter les chercheurs à réfléchir à des solutions optimales en matière de traitement, d’organisation, de documentation et de stockage de leurs données.
À l’heure actuelle, les politiques de gestion des données de recherche varient beaucoup. Nombreux sont les agences de financement, organismes et communautés de recherche ayant élaboré leurs propres règles et modèles. Cela peut prêter à confusion pour les chercheurs et est d’autant plus problématique que de nombreux chercheurs obtiennent leur financement de sources différentes ; ils sont ainsi de plus en plus confrontés à des exigences différentes entre sources de financement et politiques institutionnelles. Il est urgent d’harmoniser les politiques de gestion des données afin d’apporter plus de clarté aux chercheurs. Les DMP ne devraient pas apparaitre comme une tâche administrative supplémentaire, mais un moyen utile d’aide à la planification et la réalisation d’un projet de projet de recherche.
La suite de ce document présente six thèmes qui devraient être abordés dans les DMP, chacun d’eux accompagné de plusieurs questions d’orientation. Ces sujets et questions pour la mise en place d’un DMP constituent les exigences minimales que tout organisme de financement de la recherche doit demander au chercheur en vue d’élaborer un DMP utile. L’ordre des sujets à traiter peut être adapté en fonction de besoins spécifiques et de l’organisation souhaitée. Mais les six thèmes doivent être abordés dans le DMP.
Un exemple de modèle fournissant des conseils sur les aspects à approfondir dans le cadre d’un DMP se trouve à la page 14 du présent guide.
Dans l’élaboration de robustes plans de gestion des données, il est demandé aux chercheurs de traiter les points suivants et de répondre aux questions suivantes :
1. Description des données et collecte ou réutilisation des données existantes
a. Comment de nouvelles données seront-elles recueillies ou produites et/ou comment des données préexistantes seront-elles réutilisées ?
b. Quelles données (types, formats et volumes par ex.) seront collectées ou produites ?
2. Documentation et qualité des données
a. Quelles métadonnées et quelle documentation (par exemple méthodologie de collecte et mode d’organisation des données) accompagneront les données ?
b. Quelles mesures de contrôle de la qualité des données seront mises en œuvre ?
3. Stockage et sauvegarde pendant le processus de recherche
a. Comment les données et les métadonnées seront-elles stockées et sauvegardées tout au long du processus de recherche ?
b. Comment la sécurité des données et la protection des données sensibles seront-elles assurées tout au long du processus de recherche ?
4. Exigences légales et éthiques, codes de conduite
a. Si des données à caractère personnel sont traitées, comment le respect des dispositions de
la législation sur les données à caractère personnel et sur la sécurité des données sera-t-il assuré ?
b. Comment les autres questions juridiques, comme la titularité ou les droits de propriété intellectuelle sur les données, seront-elles abordées ? Quelle est la législation applicable en la matière ?
c. Comment les éventuelles questions éthiques seront-elles prises en compte, les codes déontologiques respectés ?
5. Partage des données et conservation à long terme
a. Comment et quand les données seront-elles partagées ? Y-a-t-il des restrictions au partage des données ou des raisons de définir un embargo ?
b. Comment les données à conserver seront-elles sélectionnées et où seront-elles préservées sur le long terme (par ex. un entrepôt de données ou une archive) ?
c. Quelles méthodes ou quels outils logiciels seront nécessaires pour accéder et utiliser les données ?
d. Comment l’application d’un identifiant unique et pérenne (comme le DOI) sera réalisée pour chaque jeu de données ?
6. Responsabilités et ressources en matière de gestion des données
a. Qui (par exemple rôle, position et institution de rattachement) sera responsable de la gestion des données (c.-à-d. le gestionnaire des données) ?
b. Quelles seront les ressources (budget et temps alloués) dédiées à la gestion des données permettant de s’assurer que les données soient FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable) ?
L’accès aux données est l’un des piliers d’une science saine et reproductible. De plus en plus d’organismes, d’institutions et d’agences de financement de la recherche exigent que les chercheurs déposent les données de recherche dans des entrepôts. Les chercheurs ont besoin d’identifier des entrepôts dignes de confiance où ils peuvent stocker leurs données à des fins de partage. Il n’existe actuellement aucune liste de référence pour de tels entrepôts de confiance, alors que les catalogues d’entrepôts existants en répertorient plus de 2 000. Toutefois, la maturité et la fiabilité de ces dépôts sont difficiles à évaluer. De nombreux entrepôts n’ont pas encore demandé à être certifiés par un organisme de certification reconnu. Identifier un entrepôt approprié peut donc représenter une tâche difficile pour les chercheurs, leurs institutions d’appartenance, et les agences de financement.
Dans certaines disciplines, les chercheurs travaillent avec des entrepôts disciplinaires qui ont déjà mis en place certaines politiques et normes qui répondent aux besoins spécifiques d’une communauté. D’autres entrepôts de données servent un public de chercheurs plus large, et en conséquence leurs politiques et leurs normes sont plus génériques.
Certains dépôts ont été certifiés comme entrepôts dignes de confiance par un ou plusieurs organismes de certification reconnus. Afin de faciliter le repérage par les chercheurs des entrepôts de confiance, il est fortement recommandé que les entrepôts non encore certifiés demandent leur labellisation.
Il est toujours recommandé de se référer en premier lieu à des entrepôts disciplinaires ou certifiés largement reconnus. Quand de tels entrepôts ne peuvent être identifiés, alors les critères de sélection d’entrepôts présentés dans ce guide peuvent être utilisés ?
La liste de critères présentée dans ce guide se compose d’un certain nombre de critères minimaux, organisé autour de quatre thèmes majeurs, que tous les entrepôts de confiance doivent satisfaire. Cette liste n’accorde pas la priorité à un critère plutôt qu’à un autre.
Des explications plus détaillées sur les critères de sélection des entrepôts de confiance trouvent à la page 20 du présent guide.
Les entrepôts dignes de confiance doivent répondre aux critères minimaux suivants :
1. Attribution d’identifiants uniques et pérennes (PIDs)
a. Permettre le repérage et l’identification des données
b. Permettre la recherche, la citation et la récupération de données
c. Permettant la gestion des versions des jeux de données
2. Métadonnées
a. Permettre le repérage de données
b. Permettre de référencer des informations pertinentes connexes, telles que d’autres jeux de données et publications
c. Fournir de l’information librement accessible et mise à jour, y compris sur des données non publiées, protégées, rétractées, ou supprimées
d. Utiliser des normes de métadonnées qui sont largement acceptées (par la communauté scientifique)
e. S’assurer que les métadonnées sont récupérables par programme
3. Accès aux données et licences d’utilisation
a. Permettre l’accès aux données dans des conditions bien définies
b. Garantir l’authenticité et l’intégrité des données
c. Permettre la récupération des données
d. Fournir de l’information sur les licences et les autorisations d’accès aux données (idéalement sous forme lisible par programme)
e. Garantir la confidentialité et respecter les droits des personnes concernées et des créateurs de données.
4. Préservation
a. Assurer la pérennité des métadonnées et des données
b. Faire preuve de transparence au sujet des missions, périmètre, politique de préservation, et des plans (y compris la gouvernance, la pérennité budgétaire, et plan de maintenance)
L’exemple suivant d’un modèle de plan de gestion des données est basé sur les exigences minimales pour les DMP [6]Les exigences minimales pour les plans de gestion de données ont été élaborées dans le cadre d’une initiative pour une harmonisation volontaire de la gestion des données de recherche à l’échelle internationale sous l’égide de Science Europe et de NWO (the Netherlands Organisation for Scientific Research). Des informations détaillées sur l’initiative sont disponibles à l’adresse http://scieur.org/rdm-initiative. Ce minimum requis devrait être considéré comme un standard de base, tout en laissant la possibilité de formuler des spécifications additionnelles en fonction de besoins particuliers de certains domaines ou liées à des législations locale ou nationale.
Le modèle présenté ci-dessous se réfère aux 15 questions couvrant les six points principaux exigés pour une bonne gestion des données. Les présents conseils de mise en œuvre et explications supplémentaires ont pour but d’aider les chercheurs à renseigner le modèle et pour s’assurer que tous les aspects pertinents de la gestion des données sont effectivement couverts. Le tableau ci-dessous est un exemple de la façon dont les exigences minimales définies auparavant peuvent être traduites en un modèle de DMP. Il appartiendra à chaque organisation et à chaque discipline d’élaborer des modèles qui correspondent à leurs besoins.
Renseignements administratifs
o Obtenir un consentement éclairé pour la préservation et/ou le partage de données personnelles.
o Envisager l’anonymisation des données personnelles pour la préservation et/ou le partage (des données correctement anonymisées ne sont plus considérées comme des données personnelles).
o Envisager la pseudonymisation des données personnelles (la principale différence avec l’anonymisation est que la pseudonymisation est réversible).
o Envisagez le chiffrement des données, qui est considéré comme un cas particulier de pseudonymisation (la clé de cryptage doit alors être stockée séparément des données, par exemple par un tiers de confiance).
o Expliquez si une procédure d’accès spécifique a été mise en place pour les utilisateurs autorisés à accéder aux données personnelles.
o Expliquez quelles conditions d’accès s’appliqueront aux données ? Les données seront-elles librement accessibles, ou des restrictions seront-elles appliquées? Dans Si oui, lesquelles ? Envisager l’utilisation de licences concernant l’accès et la réutilisation des données.
o Assurez-vous de couvrir, dans l’accord de consortium, ces questions de droits de contrôle d’accès aux données pour les projets multipartenaires et en cas de propriété partagée des données.
Le tableau suivant fournit des conseils pour la sélection des entrepôts dignes de confiance, structurés selon quatre thèmes principaux.
Un dépôt digne de confiance devrait :
Nota : Tous les entrepôts n’utilisent pas un système de PID accepté et universel, comme ceux mentionnés ci-dessus. En lieu et place, ils utilisent un identifiant local ou un numéro administratif que l’entrepôt lui-même administre. Cela augmente le risque que les données ne puissent pas être localisées si elles viennent à être déplacées, ou si l’entrepôt cesse d’exister, se réorganise ou modifie sa gouvernance.
Les données doivent être décrites avec précision à l’aide d’un jeu métadonnées riche. Les métadonnées doivent renseigner sur la façon dont les données ont été générées, sous quelle licence et comment elles peuvent être réutilisées et doivent fournir le contexte pour une interprétation appropriée par d’autres chercheurs.
Un entrepôt digne de confiance devrait :
Un entrepôt digne de confiance devrait :
Dans la mesure du possible, les licences communes ou largement acceptés (comme Creative Commons) devraient être utilisées et référencées par URL.
Un dépôt digne de confiance devrait :
References