L'étude propose une méthodologie pour estimer le nombre de reproductions d’œuvres des arts visuels dans les publications scientifiques. Cette estimation est un élément de préparation des accords entre le MESR et les organismes de gestion collective qui agissent pour le compte des ayant droits. Ces accords s'inscrivent dans le dispositif de licence collective étendue prévu dans la LPR.    

Étude sur l’utilisation d’œuvres relevant des arts visuels dans les publications scientifiques

Pierre-Carl Langlais 
Antoine Blanchard (Datactivist)

Août 2022

Lire le rapport sur HAL 

De nombreuses recherches, en particulier en sciences humaines et sociales, s’appuient sur l’analyse d’œuvres qui sont protégées par le droit d’auteur. Pourtant, la reproduction de ces œuvres dans les travaux et publications scientifiques est entravée par des coûts liés à la recherche des ayant droits, aux demandes d’autorisation et à l’acquittement des droits. L’article 28 de la loi de programmation de la recherche, élaboré en lien avec le ministère de la Culture, répond à cette problématique à travers un dispositif de licence collective étendue. Désormais inscrit à l’article 139-1 du code de la propriété intellectuelle, ce dispositif ouvre la voie à la négociation d’accords entre le ministère en charge de l’Enseignement supérieur, de la recherche et de l’Innovation et les organismes de gestion collective qui agissent pour le compte des ayant droits dans les différents secteurs des arts visuels. Pour préparer la conclusion de ces accords, l’étude a pour objectif d’estimer le nombre de reproductions d’œuvres des arts visuels dans les publications scientifiques qui entrent dans le champ de la mesure, à savoir les publications françaises diffusées en accès ouvert et dans un cadre non lucratif. Elle procède par l’identification du corpus des publications via le moteur de recherche Isidore, puis la constitution d’une base d’images extraites de ces publications. Celles-ci ont fait l’objet d’une analyse automatique mobilisant des outils d’intelligence artificielle, puis d’une analyse humaine sur la base d’un échantillon. L’étude conclut que le nombre d’images concernées par le dispositif s’établit entre 55 840 images et 66 500 sur la base du corpus des publications scientifiques parues en 2019. L’étude fournit également une méthodologie permettant d’itérer cette estimation sur les corpus de publications des années suivantes. Elle procède à une estimation du nombre d’images concernées sur l’ensemble du corpus des publications scientifiques disponible sur le portail Persée. L’étude a été encadrée par un comité de pilotage rassemblant des représentants du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, du ministère de la Culture, des organismes de gestion collective intervenant dans le champ des arts visuels ainsi que des experts qualifiés.

 

 

Contexte et structure de l’étude

Phase 1 : délimitation du corpus et dénombrement des images

Extraction des documents

La récupération des métadonnées sur Isidore

Délimitation du corpus de documents

Extraction des images

Corpus HTML

Corpus PDF

Classification des images

Catégories du modèle

Évaluation du modèle

Résultats de la classification

Métadonnées des images

Légendes

Métadonnées internes

Estimation du nombre d’images caviardées

Phase 2 : analyse documentaire d’un échantillon

Objectifs

Construction de l’échantillon

Méthode d’analyse

Champs de description

Sources de référence

Résultats de l’analyse

Résultat général

Résultats complémentaires

Commentaires

Phase 3 : test d’une méthode automatique reproduisant les résultats de l’analyse manuelle sur l’échantillon

Objectifs

Echantillon test

Classification des images

Analyses automatisée des légendes

Extraction des légendes des documents au format PDF

Classification des légendes

Extraction des entités nommées

Identification des reprises d’images

Vers un workflow automatique

Phase 4 : estimation du nombre d’images dans le champ de mesure pour l’ensemble du corpus

Encadré : à propos des documents exécutables

Récupération de corpus

Application des modèles à un nouveau corpus

Projection de la répartition

Préparation des données

Extrapolation à l’ensemble du corpus

Phase 5 : dénombrement des images du portal Persée

Objectifs

Construction de l’échantillon

Échantillonnage des images caviardées des collections rétrospectives de Persée

Échantillonnage des images des publications 2019 de Persée

Méthode d’analyse

Résultats de l’analyse

Résultat général

Résultats complémentaires

Dénombrement par extrapolation