7 juin 2019
La quasi-totalité de la production scientifique mondiale est désormais signalée, ou même mieux, rendue disponible sur le web. Des millions d’artefacts (publications, jeux de données, etc.) produits par autant d’auteurs ou de contributeurs affiliés à des centaines de milliers d’organisations sont désormais disponibles en ligne. L’exploitation de cette masse de données nécessite de pouvoir identifier chaque entité, de manière univoque et pérenne, grâce à des systèmes d’identifiants adaptés. De tels systèmes ont été développés au cours des années récentes, mais une partie d’entre eux sont encore en phase de consolidation ou même de développement. De plus, pour répondre aux objectifs de la science ouverte, il est nécessaire de s’assurer que ces identifiants s’appuient sur une architecture ouverte, documentée, libre et qu’ils sont portés par et pour les communautés scientifiques.
La présente note d’orientation a pour but de proposer une action concertée à l’échelon national destinée à améliorer la structuration des identifiants les plus utiles, à accélérer leur adoption par les communautés, et à les rendre plus libres et pérennes afin de rendre l’accès à l’information scientifique plus aisé pour tous les chercheurs et les citoyens.
Un identifiant est un numéro ou une étiquette alphanumérique, opaque ou explicite, lisible par des machines et par des humains, permettant de désigner et de retrouver de manière univoque et pérenne un objet, un document, une personne, un lieu, un organisme, ou toute entité, dans le monde physique ou numérique. Pour faciliter l’accès à une entité numérique sur internet, l’identifiant est souvent associé à une URI (Uniform Resource Identifier), du type http(s)://url/identifiant.
Parmi les identifiants les plus connus dans le monde de la recherche, on peut citer par ordre de création l’ISSN (International Standard Serial Number, norme ISO créée en 1975) pour les revues, le DOI (Digital Object Identifier, créé en 2000) pour les documents en général, et plus particulièrement les articles, chapitres de livres et jeux de données, l’ORCID (Open Researcher and Contributor ID, créé en 2010) pour les chercheurs.
Plusieurs systèmes d’identifiants sont disponibles pour chaque chercheur, dont l’usage varie selon les pays ou les communautés (ORCID, ScopusID, ResearcherID, IdHAL…), et grâce au travail des spécialistes de l’information ils sont déjà relativement bien reliés entre eux – on dit aussi alignés – en comparaison des autres types d’identifiants.
Par contre, il n’existe pas encore d’identifiant international standard pour les organisations ni les affiliations. Ces entités sont répertoriées dans des registres nationaux (en France RNSR, AURéHAL structures) et internationaux (ISNI, GRID, ROR, …) encore imparfaitement alimentés et connectés. L’un des identifiants d’organisations les plus importants, Ringgold ID, de statut commercial, est utilisé par le monde de l’édition.
Malgré ces limitations, on observe chaque jour que de nouvelles communautés de recherche, de nouvelles institutions, et de plus en plus de chercheurs individuels adoptent des identifiants pérennes afin de faciliter le repérage de leurs publications et de leurs données, de leur propre chef ou à la demande des éditeurs ou des agences et fondations de financement, et souvent pour favoriser l’accès ouvert aux informations scientifiques.
En France plusieurs identifiants sont utilisés, pour les personnes, les affiliations et les publications, notamment ceux proposés par HAL via AURéHAL (Accès Unifié aux Référentiels HAL), Huma-Num, la BnF et l’Abes. Pour l’Enseignement supérieur et la Recherche, IdRef est un identifiant « universel », au sens où il couvre les personnes, une partie des publications, et les structures, quand l’entité est française ou reliée à d’autres entités utilisées en France.
L’Union européenne soutient des projets transnationaux visant à développer l’utilisation des identifiants de manière coordonnée par les chercheurs et les institutions des différents pays, parmi lesquels Freya – Connected open identifiers for discovery, access, and use of research resources (https://www.project-freya.eu), dans lequel la France est représentée au sein du programme des « ambassadeurs ». Freya semble être amené à jouer un rôle important dans la définition de l’usage des identifiants dans l’European Open Science Cloud (https://www.eosc-portal.eu), plateforme européenne qui fédère les outils permettant aux chercheurs de stocker, gérer, analyser et réutiliser de larges quantités de données issues de la recherche.
Les identifiants utiles pour la recherche sont un sous-ensemble des identifiants internationaux normalisés (ISNI, VIAF, ISSN, ISBN, DOI, etc.) utilisés dans tous les secteurs de la connaissance. Il faut noter que l’ISSN est administré par le CIEPS – Centre international de l’ISSN, autorité d’enregistrement basée en France, pays hôte qui accueille et soutient cette organisation intergouvernementale. Les autres identifiants sont en général pilotés dans d’autres pays, à part ISNI co-piloté par la BnF et la British Library.
Depuis 2012, la base Wikidata est devenue progressivement le point de convergence mondial des identifiants ouverts. Les principaux systèmes d’identifiants décrits ci-dessus sont alignés avec Wikidata ou y versent leurs propres données.
Les identifiants sont attribués et gérés au travers de registres, administrés par des organismes privés, publics ou encore associatifs. Chaque registre est une base de données spécialisée qui, pour chaque entité décrite par diverses propriétés, attribue un identifiant unique, selon des règles définies.
La création de registre est libre et chaque registre est indépendant des autres. Il peut exister plusieurs registres pour une même entité, chaque registre répondant à un usage spécifique ou aux besoins d’une famille d’utilisateurs (ORCID, IdHAL, Handle par exemple). Tous les registres visent cependant des buts communs : l’identification univoque des entités gérées et la visibilité sur le web rendant les recherches des entités efficaces.
Un bon registre pour la science ouverte est un registre qui attribue des identifiants :
La réflexion entamée dans plusieurs pays a amené à des prises de positions (comme au Royaume-Uni) mais encore à peu de plans d’action globaux.
Présentation intéressante pour comprendre les difficultés rencontrées dans la mise en œuvre d’un registre mondial des institutions scientifiques.
Les communautés tentent de s’organiser mais la coordination internationale manque encore. L’initiative ROR.community est l’exemple le plus récent de cette volonté d’agir de manière coordonnée pour réduire l’effort visant à rendre les identifiants universels.
La communauté des producteurs de Persistent Identifiers – PIDs – ouverts est en phase de constitution, autour de l’événement annuel international PIDapalooza
En France, la conscience que les identifiants pérennes sont nécessaires au développement de la science ouverte est visible dans le Plan National pour la Science Ouverte, en particulier avec l’action conduisant à une adhésion nationale à ORCID et à une plus grande participation dans le développement de Crossref et de DataCite.
Depuis sa publication, les membres de plusieurs universités et organismes de recherche, ainsi que des opérateurs de l’information scientifique et technique (IST) – notamment Abes, CCSD, Inist, Huma-Num – se mobilisent pour une action plus englobante qui concerne les identifiants pérennes essentiels afin de répondre à des besoins variés de services (désambiguïsation, résolution de nom, repérage, enrichissement, alignement, cartographie, mesure…) basés sur les identifiants.
Par principe, la science ouverte signifie une production déconcentrée et multipolaire de produits scientifiques mis en ligne en accès ouvert sur le web, souvent par leurs créateurs eux-mêmes, et dont la propriété intellectuelle a tendance à évoluer vers des licences libres favorisant la réutilisation.
Dès lors chaque chercheur, chaque article, chaque jeu de données peut se présenter sur des sites web indépendants les uns des autres, sans contrôle universel à priori, et à plusieurs endroits simultanément. Dans un environnement ouvert comme l’est le web il est normal de trouver le CV d’un chercheur à plusieurs endroits, ses publications dans plusieurs versions, ses données dans plusieurs formats et sur plusieurs sites, au gré de ses affiliations et de ses collaborations professionnelles.
Le développement de la science ouverte s’accompagne de celui des principes FAIR, c’est-à-dire que ses objets numériques sont« Facile à trouver, Accessible, Interopérable et Réutilisable ». Chaque principe est décomposé en 4 exigences. La première exigence du premier principe porte précisément sur l’attribution à la donnée d’un identifiant unique (« F1. (meta)data are assigned a globally unique and eternally persistent identifier »). Le rôle de l’identification unique ne peut donc être sous-estimé.
Dans ce monde FAIR, les services clés permettant d’identifier, de trouver et d’atteindre toutes les entités utiles à la science selon ces principes sont :
Le service de création de PIDs le plus connu aujourd’hui dans le monde de la recherche est , qui permet à chaque chercheur de créer son (ou ses) identifiant librement et gratuitement. En France, la plupart des services nationaux de dépôt de publications, d’artefacts numériques ou de jeux de données, sont connectés à ORCID.
Le référentiel ouvert le plus riche, de plus en plus connu des chercheurs, est à ce jour . Wikidata est une initiative relativement récente (2012), dont la gouvernance et le modèle économique ne garantissent pas encore complètement la pérennité. Il est alimenté notamment par les données provenant des principaux référentiels français.
La convergence de plusieurs initiatives internationales, nationales et au sein des acteurs de la recherche et l’enseignement supérieur (universités, organismes de recherche, opérateurs) crée en ce début 2019 un environnement propice à une action coordonnée en matière d’identifiants pour la science ouverte qui conduira à l’élaboration d’un plan d’action national :
L’année 2019 peut être l’an 1 d’un plan d’action national pour le développement en France des identifiants pour la science ouverte
Considérant la nécessité et l’utilité d’adopter et de faire évoluer les systèmes internationaux d’identifiants, notamment les identifiants de personnes, de structures, de publications et de données de la recherche, le plan d’action national devrait viser plusieurs objectifs stratégiques :
Action proposée : rédiger un plan d’action détaillé (coordinateur: collège « Europe et international » ; opérateur : groupe projet « plan d’action identifiants » composé de représentants des collèges Europe et International, Données et Publications) :
Compte tenu des besoins et du niveau de maturité des solutions, il se décompose en 4 actions distinctes menées en parallèle, classées selon l’urgence à agir :
Dans de nombreuses disciplines des systèmes d’identifiants d’objets et d’artefacts particuliers (objets célestes, molécules, financements, …) sont développés au gré de leurs besoins par les communautés. Il ne semble pas nécessaire pour le moment de développer d’action particulière dans ces domaines, mais seulement de mener une veille active pour le cas où une action de coordination deviendrait nécessaire. Cette position peut évoluer en fonction des avancées dans ce domaine.
L’identification des structures de recherche et des affiliations est encore en pleine structuration à l’échelle mondiale. Même si les standards ne sont pas totalement définis, il est important de rendre compatibles entre eux et avec le reste du monde les systèmes nationaux actuellement utilisés.
Le RNSR semble être à ce jour l’outil national le plus abouti permettant de repérer et d’identifier les structures de recherche. AURéHAL du CCSD a quant à lui une granularité plus fine et peut identifier les équipes de recherche. Mais la coordination des acteurs concernés est à ce stade très insuffisante. Une action au niveau de la gouvernance du MESRI est nécessaire, afin notamment de confirmer les possibilités d’alignement entre les registres et les référentiels, et leur compatibilité avec les systèmes internationaux, comme ROR ou GRID.
L’action « Identifiants de structures et d’organisations » sera définie précisément à partir de la réunion par le CoSo des opérateurs gérant des registres et des référentiels de structures RNSR, CCSD, ABES et ScanR.
Le niveau d’adoption d’ORCID à l’échelle internationale doit servir de levier à l’utilisation systématique des identifiants standard par les auteurs et contributeurs scientifiques, en tenant compte des écarts de pratique entre les différentes disciplines scientifiques. L’alignement des divers identifiants est aussi une nécessité.
Sur le plan opérationnel, il s’agira de :
Planification
2019 :
Membres engagés dans l’adhésion à ORCID pour 2019 – coût annuel 4 000 $ / membre
2020-2021 :
2022 et au-delà :
fin du plan d’action. La vitesse de croisière est atteinte.
L’action « Identifiants de personnes » est portée par le groupe adhérent à ORCID, qui rendra compte au CoSo.
Action « identifiants de publications »
Les publications scientifiques sont principalement décrites par des DOI, dont l’agence principale d’attribution est Crossref, à laquelle 12000 éditeurs scientifiques adhèrent dans le monde, qui ont attribué des DOI à 100 millions de documents et ont mis en place un système de citations croisées (crosslinking) qui permet d’apporter un service appelé “cité par” qui est très utilisé. On constate cependant l’attribution de DOI pour des publications par d’autres agences, notamment DataCite. Il faudra mener une réflexion sur la pertinence de cette pratique afin qu’une ligne politique nationale soit fixée.
Par ailleurs, d’autres identifiants sont attribués par des services spécifiques, pour des usages internes (HAL ID) ou transversaux (Handle pour Isidore).
On peut considérer qu’une grande part des publications françaises sont identifiables par un identifiant unique. Une meilleure connaissance des ordres de grandeur et du paysage serait utile à une meilleure définition de la stratégie nationale. Par ailleurs, un travail d’alignement de ces différents identifiants est réalisé partiellement et pourrait être généralisé.
L’ensemble des acteurs concernés gagnerait à se réunir pour réfléchir à ces questions, probablement en intégrant les éditeurs privés dans la discussion, car ils attribuent de nombreux identifiants aux produits de la recherche française.
Enfin, le plan national pour la science ouverte accorde une place particulière aux citations ouvertes, qui sont une information essentielle pour la cartographie du savoir et la mise en relation des connaissances. Le gisement de citations ouvertes le plus important aujourd’hui est la base OpenCitations, s’appuyant sur les DOI. Les deux sujets sont donc liés et un état des lieux à ce sujet devra être mené.
L’action « Identifiants de publications » est à définir par les opérateurs concernés, de manière concertée pour une présentation au CoSo.
En matière de données de la recherche le principe actuel est celui d’une coordination internationale très forte au sein des communautés.
Du fait de la complexité des données à gérer et des usages, le sujet des identifiants des données de la recherche est encore peu mûr. Divers systèmes cohabitent, principalement basés sur DOI et Handle, mais les besoins des communautés, et les solutions pour y répondre, ne sont pas encore totalement définis.
La réflexion au sein de divers groupes a permis de développer le concept de Digital Object (DO) élaboré notamment par le groupe d’experts internationaux C2CAMP.
La gamme des entités à identifier est pratiquement infinie. Une initiative internationale à laquelle la France participe a développé un système d’identifiant de logiciels prometteur (https://www.softwareheritage.org). Les archives institutionnelles et les bases de données elles-mêmes disposent d’un identifiant, l’ISSN (https://portal.issn.org/).
En France, le nœud français de la Research Data Alliance est le porteur de ces actions.
Le Collège « Europe et international » travaille avec le collège « Données » et le groupe de travail « logiciels libres et open sources » du CoSo, en articulation étroite avec le groupe RDA-France à élaborer et à présenter l’action nationale « Données et objets numériques ».