Ouvrir la Science

Des identifiants ouverts pour la science ouverte : note d'orientation
2019
Notes du Comité
Le document définit dans un premier chapitre ce que sont les identifiants et les registres, leur rôle et leur importance, les attentes en matière de science ouverte. Dans un second chapitre, le comité pour la science ouverte expose son programme d’actions à l’échelle nationale pour les identifiants des publications scientifiques et des données de la recherche.

Des identifiants ouverts pour la science ouverte : note d’orientation

Note d’orientation du Comité pour la Science ouverte (CoSo)

Collège Europe et international 07/06/2019

 1 – De quoi s’agit-il?

Problématique

La quasi-totalité de la production scientifique mondiale est désormais signalée, ou même mieux, rendue disponible sur le web. Des millions d’artefacts (publications, jeux de données, etc.) produits par autant d’auteurs ou de contributeurs affiliés à des centaines de milliers d’organisations sont désormais disponibles en ligne. L’exploitation de cette masse de données nécessite de pouvoir identifier chaque entité, de manière univoque et pérenne, grâce à des systèmes d’identifiants adaptés. De tels systèmes ont été développés au cours des années récentes, mais une partie d’entre eux sont encore en phase de consolidation ou même de développement. De plus, pour répondre aux objectifs de la science ouverte, il est nécessaire de s’assurer que ces identifiants s’appuient sur une architecture ouverte, documentée, libre et qu’ils sont portés par et pour les communautés scientifiques.

La présente note d’orientation a pour but de proposer une action concertée à l’échelon national destinée à améliorer la structuration des identifiants les plus utiles, à accélérer leur adoption par les communautés, et à les rendre plus libres et pérennes afin de rendre l’accès à l’information scientifique plus aisé pour tous les chercheurs et les citoyens.

Définition

Un identifiant est un numéro ou une étiquette alphanumérique, opaque ou explicite, lisible par des machines et par des humains, permettant de désigner et de retrouver de manière univoque et pérenne un objet, un document, une personne, un lieu, un organisme, ou toute entité, dans le monde physique ou numérique. Pour faciliter l’accès à une entité numérique sur internet, l’identifiant est souvent associé à une URI (Uniform Resource Identifier), du type http(s)://url/identifiant.

Parmi les identifiants les plus connus dans le monde de la recherche, on peut citer par ordre de création l’ISSN (International Standard Serial Number, norme ISO créée en 1975) pour les revues, le DOI (Digital Object Identifier, créé en 2000) pour les documents en général, et plus particulièrement les articles, chapitres de livres et jeux de données, l’ORCID (Open Researcher and Contributor ID, créé en 2010) pour les chercheurs.

Plusieurs systèmes d’identifiants sont disponibles pour chaque chercheur, dont l’usage varie selon les pays ou les communautés (ORCID, ScopusID, ResearcherID, IdHAL…), et grâce au travail des spécialistes de l’information ils sont déjà relativement bien reliés entre eux – on dit aussi alignés – en comparaison des autres types d’identifiants.

Par contre, il n’existe pas encore d’identifiant international standard pour les organisations ni les affiliations. Ces entités sont répertoriées dans des registres nationaux (en France RNSR, AURéHAL structures) et internationaux (ISNI, GRID, ROR, …) encore imparfaitement alimentés et connectés. L’un des identifiants d’organisations les plus importants, Ringgold ID, de statut commercial, est utilisé par le monde de l’édition.

Malgré ces limitations, on observe chaque jour que de nouvelles communautés de recherche, de nouvelles institutions, et de plus en plus de chercheurs individuels adoptent des identifiants pérennes afin de faciliter le repérage de leurs publications et de leurs données, de leur propre chef ou à la demande des éditeurs ou des agences et fondations de financement, et souvent pour favoriser l’accès ouvert aux informations scientifiques.

En France plusieurs identifiants sont utilisés, pour les personnes, les affiliations et les publications, notamment ceux proposés par HAL via AURéHAL (Accès Unifié aux Référentiels HAL), Huma-Num, la BnF et l’Abes. Pour l’Enseignement supérieur et la Recherche, IdRef est un identifiant « universel », au sens où il couvre les personnes, une partie des publications, et les structures, quand l’entité est française ou reliée à d’autres entités utilisées en France.

L’Union européenne soutient des projets transnationaux visant à développer l’utilisation des identifiants de manière coordonnée par les chercheurs et les institutions des différents pays, parmi lesquels Freya – Connected open identifiers for discovery, access, and use of research resources (https://www.project-freya.eu), dans lequel la France est représentée au sein du programme des « ambassadeurs ». Freya semble être amené à jouer un rôle important dans la définition de l’usage des identifiants dans l’European Open Science Cloud (https://www.eosc-portal.eu), plateforme européenne qui fédère les outils permettant aux chercheurs de stocker, gérer, analyser et réutiliser de larges quantités de données issues de la recherche.

Les identifiants utiles pour la recherche sont un sous-ensemble des identifiants internationaux normalisés (ISNI, VIAF, ISSN, ISBN, DOI, etc.) utilisés dans tous les secteurs de la connaissance. Il faut noter que l’ISSN est administré par le CIEPS – Centre international de l’ISSN, autorité d’enregistrement basée en France, pays hôte qui accueille et soutient cette organisation intergouvernementale. Les autres identifiants sont en général pilotés dans d’autres pays, à part ISNI co-piloté par la BnF et la British Library.

Depuis 2012, la base Wikidata est devenue progressivement le point de convergence mondial des identifiants ouverts. Les principaux systèmes d’identifiants décrits ci-dessus sont alignés avec Wikidata ou y versent leurs propres données.

Identifiants et registres

Les identifiants sont attribués et gérés au travers de registres, administrés par des organismes privés, publics ou encore associatifs. Chaque registre est une base de données spécialisée qui, pour chaque entité décrite par diverses propriétés, attribue un identifiant unique, selon des règles définies.

La création de registre est libre et chaque registre est indépendant des autres. Il peut exister plusieurs registres pour une même entité, chaque registre répondant à un usage spécifique ou aux besoins d’une famille d’utilisateurs (ORCID, IdHAL, Handle par exemple). Tous les registres visent cependant des buts communs : l’identification univoque des entités gérées et la visibilité sur le web rendant les recherches des entités efficaces.

Un bon registre pour la science ouverte est un registre qui attribue des identifiants :

  • précis (1 identifiant correspond à 1 entité)
  • durables (1 identifiant est attribué pour toujours à une entité et n’est pas réattribué à 1 autre entité si la première disparaît)
  • ouverts et interopérables (trouvables, échangeables, et utilisables par d’autres registres, par des humains comme par des machines, à l’unité ou par lots, sans abonnement ni inscription préalable)
  • documentés (règles d’attribution définies, publiées, évolutives si besoin, fruit du consensus d’une communauté)
  • réconciliables (possibilité pour les producteurs des registres ou pour des tiers de relier les identifiants d’une même entité présente dans plusieurs registres)
  • régis par un système transparent de gouvernance

Quelles attentes pour la  science ouverte ?

La réflexion entamée dans plusieurs pays a amené à des prises de positions (comme au Royaume-Uni) mais encore à peu de plans d’action globaux.

Présentation intéressante pour comprendre les difficultés rencontrées dans la mise en œuvre d’un registre mondial des institutions scientifiques.

Les communautés tentent de s’organiser mais la coordination internationale manque encore. L’initiative ROR.community est l’exemple le plus récent de cette volonté d’agir de manière coordonnée pour réduire l’effort visant à rendre les identifiants universels.

La communauté des producteurs de Persistent Identifiers PIDs – ouverts est en phase de constitution, autour de l’événement annuel international PIDapalooza

En France, la conscience que les identifiants pérennes sont nécessaires au développement de la science ouverte est visible dans le Plan National pour la Science Ouverte, en particulier avec l’action conduisant à une adhésion nationale à ORCID et à une plus grande participation dans le développement de Crossref et de DataCite.

Depuis sa publication, les membres de plusieurs universités et organismes de recherche, ainsi que des opérateurs de l’information scientifique et technique (IST) – notamment Abes, CCSD, Inist, Huma-Num – se mobilisent pour une action plus englobante qui concerne les identifiants pérennes essentiels afin de répondre à des besoins variés de services (désambiguïsation, résolution de nom, repérage, enrichissement, alignement, cartographie, mesure…) basés sur les identifiants.

 

Des services et des référentiels

Par principe, la science ouverte signifie une production déconcentrée et multipolaire de produits scientifiques mis en ligne en accès ouvert sur le web, souvent par leurs créateurs eux-mêmes, et dont la propriété intellectuelle a tendance à évoluer vers des licences libres favorisant la réutilisation.

Dès lors chaque chercheur, chaque article, chaque jeu de données peut se présenter sur des sites web indépendants les uns des autres, sans contrôle universel à priori, et à plusieurs endroits simultanément. Dans un environnement ouvert comme l’est le web il est normal de trouver le CV d’un chercheur à plusieurs endroits, ses publications dans plusieurs versions, ses données dans plusieurs formats et sur plusieurs sites, au gré de ses affiliations et de ses collaborations professionnelles.

 

FAIR : Findable – Accessible – Interoperable – Reusable

Le développement de la science ouverte s’accompagne de celui des principes FAIR, c’est-à-dire que ses objets numériques sont« Facile à trouver, Accessible, Interopérable et Réutilisable ». Chaque principe est décomposé en 4 exigences. La première exigence du premier principe porte précisément sur l’attribution à la donnée d’un identifiant unique (« F1. (meta)data are assigned a globally unique and eternally persistent identifier »). Le rôle de l’identification unique ne peut donc être sous-estimé.

Dans ce monde FAIR, les services clés permettant d’identifier, de trouver et d’atteindre toutes les entités utiles à la science selon ces principes sont :

  • les services permettant la création d’identifiants pérennes standards pour divers types d’entités, disponibles à chaque instant dans l’environnement de chaque utilisateur (chercheur, administrateur)
  • les services permettant la réconciliation des identifiants pérennes et l’interconnexion des registres à l’échelle internationale, ainsi que l’exposition libre des données. Ces services sont appelés référentiels.

Le service de création de PIDs le plus connu aujourd’hui dans le monde de la recherche est , qui permet à chaque chercheur de créer son (ou ses) identifiant librement et gratuitement. En France, la plupart des services nationaux de dépôt de publications, d’artefacts numériques ou de jeux de données, sont connectés à ORCID.

Le référentiel ouvert le plus riche, de plus en plus connu des chercheurs, est à ce jour . Wikidata est une initiative relativement récente (2012), dont la gouvernance et le modèle économique ne garantissent pas encore complètement la pérennité. Il est alimenté notamment par les données provenant des principaux référentiels français.

2 – Que faire à l’échelle nationale ?

La convergence de plusieurs initiatives internationales, nationales et au sein des acteurs de la recherche et l’enseignement supérieur (universités, organismes de recherche, opérateurs) crée en ce début 2019 un environnement propice à une action coordonnée en matière d’identifiants pour la science ouverte qui conduira à l’élaboration d’un plan d’action national :

  • La réflexion internationale sur les identifiants utiles pour la recherche (principalement ceux qui concernent les personnes, les organisations, les publications, les données) a conduit les communautés à produire des sites web d’information, des guides de bonne pratique et même des plans d’action.
  • En France, le plan national pour la science ouverte, manifestation d’une volonté politique forte a initié un mouvement concerté autour d’une adhésion nationale à ORCID et d’un renforcement du soutien à HAL.
  • L’expérience acquise dans le développement des identifiants de publications (ISSN, DOI) et des données de la recherche, le chemin parcouru mais encore partiel dans l’adoption d’identifiants de personnes (ORCID et autres), et les tâtonnements dans l’identification des organisations, ont permis de comprendre l’importance d’une action politique en la matière.
  • Le Comité pour la science ouverte (CoSo) peut aujourd’hui à la fois proposer des objectifs opérationnels et coordonner un plan d’action national impliquant les acteurs de terrain.
  • Ces acteurs de terrain ont acquis une connaissance assez fine des forces et des limitations des PIDs et des registres et veulent de nouveaux services pour mieux les exploiter.

L’année 2019 peut être l’an 1 d’un plan d’action national pour le développement en France des identifiants pour la science ouverte

Objectifs opérationnels de l’action nationale en faveur des identifiants pour la science ouverte :

Considérant la nécessité et l’utilité d’adopter et de faire évoluer les systèmes internationaux d’identifiants, notamment les identifiants de personnes, de structures, de publications et de données de la recherche, le plan d’action national devrait viser plusieurs objectifs stratégiques :

  1. accélérer l’adoption des identifiants par les chercheurs, les laboratoires et les institutions, afin de rendre plus visible la production scientifique française courante et cumulée
  2. identifier des modèles économiques viables pour assurer un déploiement durable des identifiants à l’échelle nationale
  3. améliorer l’interopérabilité et la normalisation des identifiants tout en s’assurant d’un contrôle par la communauté scientifique.
  4. contribuer au pilotage et à l’évolution des systèmes d’identifiants afin d‘en garantir l’ouverture et l’indépendance sur le long terme

Action proposée : rédiger un plan d’action détaillé (coordinateur: collège « Europe et international » ; opérateur : groupe projet « plan d’action identifiants » composé de représentants des collèges Europe et International, Données et Publications) :

  1. Ce plan mettra l’accent sur la coordination des acteurs ministériels, organisations scientifiques et opérateurs,
  2. Il doit favoriser la réalisation d’actions concrètes permettant d’apprendre à maîtriser les outils et les systèmes d’identifiants et de tenir à jour un état des lieux dynamique et quantitatif de leur niveau d’adoption,
  3. Il doit accompagner le développement de services utiles à partir de cas concrets (use cases) permettant de démontrer les atouts des PIDs,
  4. Il doit enfin développer des actions de communications adaptées vers les chercheurs pour les guider dans leur usage quotidien des identifiants.

Compte tenu des besoins et du niveau de maturité des solutions, il se décompose en 4 actions distinctes menées en parallèle, classées selon l’urgence à agir :

  1. identifiant de structures et d’organisations
  2. identifiants de personnes
  3. identifiant de publications
  4. identifiants de données et d’objets numériques

Dans de nombreuses disciplines des systèmes d’identifiants d’objets et d’artefacts particuliers (objets célestes, molécules, financements, …) sont développés au gré de leurs besoins par les communautés. Il ne semble pas nécessaire pour le moment de développer d’action particulière dans ces domaines, mais seulement de mener une veille active pour le cas où une action de coordination deviendrait nécessaire. Cette position peut évoluer en fonction des avancées dans ce domaine.

Action « Identifiants de structures et d’organisations » (Organisation ID)

L’identification des structures de recherche et des affiliations est encore en pleine structuration à l’échelle mondiale. Même si les standards ne sont pas totalement définis, il est important de rendre compatibles entre eux et avec le reste du monde les systèmes nationaux actuellement utilisés.

Le RNSR semble être à ce jour l’outil national le plus abouti permettant de repérer et d’identifier les structures de recherche. AURéHAL du CCSD a quant à lui une granularité plus fine et peut identifier les équipes de recherche. Mais la coordination des acteurs concernés est à ce stade très insuffisante. Une action au niveau de la gouvernance du MESRI est nécessaire, afin notamment de confirmer les possibilités d’alignement entre les registres et les référentiels, et leur compatibilité avec les systèmes internationaux, comme ROR ou GRID.

L’action « Identifiants de structures et d’organisations » sera définie précisément à partir de la réunion par le CoSo des opérateurs gérant des registres et des référentiels de structures RNSR, CCSD, ABES et ScanR.

 

Action « Identifiants de personnes »

Le niveau d’adoption d’ORCID à l’échelle internationale doit servir de levier à l’utilisation systématique des identifiants standard par les auteurs et contributeurs scientifiques, en tenant compte des écarts de pratique entre les différentes disciplines scientifiques. L’alignement des divers identifiants est aussi une nécessité.

Sur le plan opérationnel, il s’agira de :

  • Permettre une adoption la plus large possible d’ORCID par les chercheurs
  • Prouver l’utilité d’ORCID par des cas d’usages dans les universités, les établissements, avec les plateformes proposées par les infrastructures de recherche et d’information scientifique
  • Produire des outils et supports de communication et de formation à destination des chercheurs
  • Faire que tous les chercheurs français, vivants ou ayant vécu aient un IdRef, un ISNI et un Q Wikidata, aligné avec leur(s) identifiant ORCID, IdHAL ou encore Researcher ID lorsqu’ils en disposent

Planification

2019 :

  • Adhésion collective à ORCID via COUPERIN rassemblant près de 30 organisations volontaires
  • Réalisation de démonstrateurs de services et de traitements basés sur les besoins des partenaires, par le groupe des 30, autour du CCSD et de l’Abes
  • Alignement des identifiants de tous les chercheurs français dans IdRef, ISNI et Wikidata par l’Abes et la BnF
  • Observation et apprentissage des modalités de gouvernance internationale d’ORCID par le Collège « Europe et international » du CoSo
  • Coordination des acteurs.

Membres engagés dans l’adhésion à ORCID pour 2019 – coût annuel 4 000 $ / membre

    • Abes
    • Bibliothèque Nat. et Universitaire de Strasbourg
    • CIRAD
    • CNRS – CCSD
    • Collège de France
    • COMUE Université Grenoble Alpes
    • EDP Sciences
    • Fondation Leducq
    • Hospices civils de Lyon
    • IFREMER
    • Institut national du cancer
    • IRD
    • IRSTEA
    • OpenEdition
    • Huma-Num
    • Université d’Artois
    • Université de Caen Normandie
    • Université de Lille
    • Université de Lyon 2
    • Université de Nice Sophia Antipolis
    • Université de Paris 1
    • Université de Montpellier
    • Université de Picardie
    • Université de Strasbourg
    • Université Paris Descartes
    • Université Paris-Diderot
    • Université Paris-Saclay
    • Université Technologique de Compiègne
    • Université Catholique de Lille

 

2020-2021 :

  • Poursuite de la création des démonstrateurs
  • Poursuite des alignements
  • Campagne nationale d’information auprès des chercheurs et des institutions
  • Confirmation de la politique d’adhésion à ORCID des établissements
  • Participation au pilotage d’ORCID au niveau international

 

2022 et au-delà :

fin du plan d’action. La vitesse de croisière est atteinte.

L’action « Identifiants de personnes » est portée par le groupe adhérent à ORCID, qui rendra compte au CoSo.

 

Action « identifiants de publications »

Les publications scientifiques sont principalement décrites par des DOI, dont l’agence principale d’attribution est Crossref, à laquelle 12000 éditeurs scientifiques adhèrent dans le monde, qui ont attribué des DOI à 100 millions de documents et ont mis en place un système de citations croisées (crosslinking) qui permet d’apporter un service appelé “cité par” qui est très utilisé. On constate cependant l’attribution de DOI pour des publications par d’autres agences, notamment DataCite. Il faudra mener une réflexion sur la pertinence de cette pratique afin qu’une ligne politique nationale soit fixée.

Par ailleurs, d’autres identifiants sont attribués par des services spécifiques, pour des usages internes (HAL ID) ou transversaux (Handle pour Isidore).

On peut considérer qu’une grande part des publications françaises sont identifiables par un identifiant unique. Une meilleure connaissance des ordres de grandeur et du paysage serait utile à une meilleure définition de la stratégie nationale. Par ailleurs, un travail d’alignement de ces différents identifiants est réalisé partiellement et pourrait être généralisé.

L’ensemble des acteurs concernés gagnerait à se réunir pour réfléchir à ces questions, probablement en intégrant les éditeurs privés dans la discussion, car ils attribuent de nombreux identifiants aux produits de la recherche française.

Enfin, le plan national pour la science ouverte accorde une place particulière aux citations ouvertes, qui sont une information essentielle pour la cartographie du savoir et la mise en relation des connaissances. Le gisement de citations ouvertes le plus important aujourd’hui est la base OpenCitations, s’appuyant sur les DOI. Les deux sujets sont donc liés et un état des lieux à ce sujet devra être mené.

L’action « Identifiants de publications » est à définir par les opérateurs concernés, de manière concertée pour une présentation au CoSo.

Action « identifiants des données de la recherche et des objets numériques »

En matière de données de la recherche le principe actuel est celui d’une coordination internationale très forte au sein des communautés.

Du fait de la complexité des données à gérer et des usages, le sujet des identifiants des données de la recherche est encore peu mûr. Divers systèmes cohabitent, principalement basés sur DOI et Handle, mais les besoins des communautés, et les solutions pour y répondre, ne sont pas encore totalement définis.

La réflexion au sein de divers groupes a permis de développer le concept de Digital Object (DO) élaboré notamment par le groupe d’experts internationaux C2CAMP.

La gamme des entités à identifier est pratiquement infinie. Une initiative internationale à laquelle la France participe a développé un système d’identifiant de logiciels prometteur (https://www.softwareheritage.org). Les archives institutionnelles et les bases de données elles-mêmes disposent d’un identifiant, l’ISSN (https://portal.issn.org/).

En France, le nœud français de la Research Data Alliance est le porteur de ces actions.

Le Collège « Europe et international » travaille avec le collège « Données » et le groupe de travail « logiciels libres et open sources » du CoSo, en articulation étroite avec le groupe RDA-France à élaborer et à présenter l’action nationale « Données et objets numériques ».

1 - De quoi s’agit-il?

  • Problématique
  • Définition
  • Identifiants et registres
  • Quelles attentes pour la  science ouverte ?
  • Des services et des référentiels
  • FAIR : Findable – Accessible – Interoperable – Reusable

2 - Que faire à l’échelle nationale ?

  • Action « Identifiants de structures et d’organisations » (Organisation ID)
  • Action « Identifiants de personnes »
  • Action « identifiants de publications »
  • Action « identifiants des données de la recherche et des objets numériques »

Compléments

Annexes

Sitographie sélective