Il existe une multitude de dispositifs techniques et organisationnels dans lesquels la production scientifique d’un chercheur, d’une équipe, d’un laboratoire, d’un établissement est décrite, par différents acteurs : une archive nationale HAL, des archives ouvertes et des bases bibliométriques institutionnelles, un dispositif opéré par l’OST (Iperu [1]Interface de repérage des publications : organisation et outil mis en place par l’OST de l’Hcéres afin de comptabiliser la production de chaque établissement dans le WoS et produire analyses et indicateurs.), des Systèmes d’Informations (SI) « recherche », des bases de signalements et des archives internationales…
Pourtant nul n’a une vision complète de la production des laboratoires et établissements de l’ESR (Enseignement Supérieur et Recherche).
Conditor est né de ce constat pour contribuer à organiser la mutualisation et limiter les multiples travaux de recensement et de saisie.
Conditor vise à recenser la production scientifique des établissements et laboratoires relevant de l’ESR français en s’appuyant sur des sources existantes et à fournir en métadonnées des dispositifs de l’ESR identifiés.
C’est un service complémentaire des dispositifs existants, important à la fois pour la science ouverte et la cohérence entre SI, qui :
Conditor est un « glaneur/unificateur » de métadonnées sources décrivant la production de l’ESR mettant à disposition dans un format unique des métadonnées qualifiées [2]D’où viennent-elles ? quels traitements effectués ? qui est intervenu ? quelle est leur fiabilité ? réutilisables par tous les acteurs de l’ESR pour différents usages.
Après une expérimentation ayant démontré la faisabilité, l’intérêt et le potentiel de Conditor, la phase projet a été lancée en décembre 2016 avec le soutien du Mesri, l’objectif étant de mettre en place :
mais aussi d’engager le processus de mutualisation et d’intégration progressive dans les différents dispositifs de l’ESR.
Grâce à l’équipe multipartenaire regroupant des professionnels de l’IST, gestionnaires d’archives, informaticiens… au sein d’organismes de recherche, universités et entités ESR travaillant sur des sujets connexes, et à l’implication de l’Inist-CNRS, un premier service opérationnel, présenté lors de la réunion du 6 février regroupant les participants au projet et collègues intéressés, est en place.
On trouvera en annexe la liste des partenaires et l’organisation du projet.
Le choix des sources est un sujet complexe.
Plusieurs critères de sélection des sources sont à prendre en compte : disponibilité technique, juridique, qualité des métadonnées, critères d’identification des signalements pertinents dans ces sources, complémentarité entre sources, apport spécifique [3]Par exemple : signalements spécifiques à un domaine scientifique, métadonnées particulières…, etc.
Le groupe en charge de la stratégie de construction du corpus de signalements [4]Lot 3 copiloté par François Mistral de l’Abes et Christiane Stock de l’Inist a commencé par travailler sur des corpus sources connus et disponibles sur l’année 2014 (HAL, WoS, ProdInra et des thèses du Sudoc) pour définir un format pivot.
Ce format pivot est une extension de la TEI HAL afin de faciliter l’articulation avec l’archive nationale : il comprend des métadonnées bibliographiques mais aussi de gestion pour assurer la traçabilité de toute métadonnée.
En attendant l’élaboration des feuilles de style XSLT nécessaires à l’automatisation des ingestions au fil de l’eau, des programmes de reformatage en masse de quelques corpus ont tout d’abord été réalisés afin de disposer de données pour mettre en place la plateforme applicative et les premiers modules.
Aujourd’hui des feuilles de styles ont été développées pour 4 sources : HAL, PubMed, les thèses du Sudoc, CrossRef. L’élaboration de la feuille de style pour les ouvrages du Sudoc est en cours.
D’autres sources sont actuellement à l’étude afin de compléter la couverture :
En fait, l’un des problèmes à résoudre, pour toute nouvelle source, est notamment d’identifier les signalements pertinents en l’absence d’affiliation [5]L’affiliation facilite grandement le repérage de travaux de recherche effectués dans un établissement ou un laboratoire de l’ESR ou du moins en « France »..
Il faut également noter que dans la mesure où aucun format d’entrée n’est imposé, l’introduction de tout nouveau corpus nécessite après sélection, un investissement non négligeable pour l’étude, les spécifications et la création des feuilles de styles XSLT. Une tâche complexe nécessitant des compétences spécifiques peu répandues [6]Ces feuilles de style ont été élaborées par Catherine Morel dans un premier temps puis Christiane Stock et Stéphanie Gregorio toutes les trois de l’Inist..
Le groupe en charge de la conception/développement itératif/déploiement de la plateforme applicative [7]Lot4 copiloté par Claude Niederlender jusqu’en août 2019 puis Pascal Cuxac de l’Inist et Yannick Barborini du CCSD jusqu’au début 2018. a tout d’abord étudié les solutions techniques possibles et s’est appuyé sur les principes suivants :
A ce jour, grâce à l’équipe Inist, associant informaticiens et acteurs métier mise en place, et à la contribution de tous les collègues au sein des établissements, il a été réalisé :
Au total :
Parmi les développements restant à faire :
Conditor est un glaneur/unificateur/distributeur de données de qualité, permettant à un partenaire :
Les SI de l’ESR peuvent dans ce cadre être fournisseurs et/ou consommateurs.
L’API sécurisée, accessible uniquement à des établissements et entités de l’ESR bien identifiés, qui a été développée, permet des recherches multicritères et la récupération de métadonnées.
Elle est notamment utilisée dans une version pilote de Caplab et de façon expérimentale dans l’appel à projet générique 2020 lancé par l’ANR ainsi que par l’université de Limoges. Elle est testée par l’université de la Réunion et l’ENPC.
Un SI ESR fournisseur peut récupérer :
Un SI recherche peut récupérer et afficher une liste de productions potentiellement pertinente pour une unité ou un auteur, par exemple. Les personnels des unités pourront ainsi voir Conditor au travers de leurs applicatifs de gestion habituel et leur « retour » permettra d’enrichir ou améliorer Conditor.
Le fait d’utiliser le RNSR est aussi un facteur de mutualisation supplémentaire : pour une UMR donnée ayant 2 tutelles par exemple (Angers et Strasbourg), il « suffira » que le signalement soit présent dans l’archive d’Angers et versé dans Conditor pour que Strasbourg puisse le récupérer via l’API Conditor.
Concernant HAL en particulier, Conditor permet de :
HAL pourra assurer :
Un travail en commun CCSD/Inist est lancé pour éviter tout redéveloppement inutile, l’objectif général étant cependant de faciliter autant que faire se peut le dépôt dans HAL par les chercheurs.
Le groupe en charge de la réflexion sur l’organisation du service [12]Lot 5 piloté par Nathalie Reymonet de l’université Paris Diderot jusqu’en septembre 2018 puis copiloté par Maxence Larrieu de l’université d’Angers jusqu’en janvier 2019 et Frédérique Flamerie de l’université de Bordeaux. a défini les grandes lignes de l’organisation multipartenaire du service :
Un groupe de préfiguration du réseau métier impliquant des collègues des universités d’Angers, Lorraine, Montpellier, Nice, Paris Diderot, Strasbourg, du CNRS, Inria a été constitué pour associer les collègues concernés au paramétrage des interfaces et à la réflexion concernant le fonctionnement du travail collaboratif.
Un wiki, entièrement ouvert et régulièrement enrichi, met à disposition toutes les documentations utiles pour les membres du réseau métier ou toute personne intéressée par le projet (algorithme de similarité pour le repérage de doublons incertains, guide pour l’utilisation de l’interface Cornelius et bonnes pratiques pour le travail collaboratif de validation, API pour les informaticiens, API pour les non spécialistes), une FAQ.
Les travaux à effectuer ont été regroupés en six « lots » menés par des groupes multipartenaires pilotés ou par un ou deux d’entre eux :
Lot | Objet du lot | Pilotes |
Lot 1 | Gestion de projet | CNRS (Dist) |
Lot 2 | Négociation des sources et formalisation des usages des données collectées et produites | Irstea puis IAVFF Agreenium [13]jusqu’en novembre 2018
CNRS (Dist Inist) |
Lot 3 | Stratégie de construction et constitution « itérative » d’un corpus
de signalements |
Abes
CNRS (Inist) |
Lot 4 | Conception / développement itératif / déploiement de l’applicatif | CNRS (Inist)
CCSD [14]jusqu’en mars 2018 |
Lot 5 | Mise en place du service opérationnel | Université Paris Diderot [15]jusqu’en mai 2018 Angers [16]jusqu’en janvier 2019, Bordeaux |
Lot 6 | Communication | Université de Bordeaux |
Le comité de suivi opérationnel (cosop) assure la coordination d’ensemble des travaux : y participent les pilotes et/ou copilotes des lots et des acteurs clés.
Le comité de pilotage veille au bon déroulement du projet et à l’harmonisation de la position des acteurs.
L’équipe projet comprend une cinquantaine de collègues participant aux travaux d’un ou plusieurs lots auxquels s’ajoutent les membres du groupe de préfiguration du réseau métier.
References