Fondée sur un jeu de données de plus d’un million d’articles publiés entre 2013 et 2020, l'étude reconstitue les coûts générés pour les institutions de recherche françaises par le modèle de publication en accès ouvert reposant sur le paiement par les auteurs de frais de publication ou APC (article processing charges). Elle produit également plusieurs scénarios d'évolution de ces coûts à l'horizon 2030.

Retrospective and prospective study of the evolution of APC costs and electronic subscriptions for French institutions

Antoine Blanchard (Datactivist)
Diane Thierry (Datactivist)
Maurits van der Graaf (Pleiade Management and Consultancy)

Décembre 2022

Consulter le rapport sur HAL

Voir le poster présentant les principaux résultats

CONSTRUIRE LE JEU DE DONNEES DES ARTICLES DE PERIODIQUES
Un jeu de données sur les articles de périodiques a été construit, contenant les métadonnées des articles publiés par des auteurs affiliés en France sur la période 2013-2020, afin de servir de base à une analyse rétrospective et prospective du coût des APC  (que nous appellerons simplement « coût des APC ») pour les institutions françaises. Les APC (article processing charges) sont les frais de publication que les chercheurs doivent payer à certaines revues pour que leurs articles soient publiés en libre accès.

Le jeu de données a été construit en deux temps :

socle de données du BSO : le socle du jeu de données est fourni par le Baromètre de la science ouverte (BSO), défini pour cette étude comme l’univers total des articles de périodiques publiés par des auteurs affiliés en France. Compilation et extraction de données issues de la base Unpaywall, enrichies par d’autres sources, le BSO est limité aux publications avec DOI. Il utilise un algorithme pour déterminer si un auteur est affilié en France, et pour déterminer le montant des APC à partir des données OpenAPC
enrichissement des données du BSO avec le Web of Science et OpenAlex : pour évaluer le coût des APC pour les institutions françaises, il convient de connaître le pays d’affiliation de l’auteur correspondant (en principe celui qui paye les APC), de savoir si des APC ont été payés, et de connaître le montant des APC. C’est pourquoi les données du BSO ont été enrichies avec des informations sur les auteurs correspondants déduites du Web of Science. Un autre enrichissement avec les données OpenAlex a permis de déterminer si des APC ont été payés pour la publication en libre accès. Les données ont encore été enrichies avec des données de Couperin et de QOAM.

ANALYSE RETROSPECTIVE DU COUT DES APC POUR LES AUTEURS CORRESPONDANTS AFFILIES EN FRANCE
A partir du jeu de données décrit précédemment, l’étude rétrospective du nombre d’articles avec APC et auteur correspondant affilié en France a permis d’obtenir plusieurs résultats principaux :

• le coût des APC triple sur la période 2013-2020, due principalement à la croissance du nombre d’articles gold open access (sans cette croissance, le coût aurait été multiplié par 1,69 au lieu d’être multiplié par 3)
• les éditeurs et plateformes de diffusion des périodiques ont été groupés en quatre catégories, représentant chacune entre 20 et 32 % des articles du BSO en 2020 : la classe 1 comprend l’éditeur le plus représenté (Elsevier), la classe 2 comprend trois éditeurs, la classe 3 comprend 16 éditeurs et la classe 4 comprend la longue traîne des éditeurs (n = 1995). Le plus gros taux de croissance des articles avec APC et auteur correspondant affilié en France est observé dans la classe 2 (Springer Nature, Wiley et MDPI)
• plus de trois quarts des articles avec APC et auteur correspondant affilié en France concernent la biologie et la recherche médicale.

L’observation principale concernant l’évolution du prix des APC est que le niveau de prix pour les revues hybrides s’établit en 2013 à un niveau élevé (2 453 € en moyenne) mais est stable au cours du temps pour atteindre une moyenne de 2 488 € en 2020. Le niveau de prix pour les revues gold s’établit en 2013 à un niveau significativement plus faible avec un APC moyen de 1 395 €. Cependant, il croît très vite pour atteindre 1 745 € en 2020.
Nous avons également pu calculer le coût des APC pour les institutions françaises entre 2013 et 2020.

Évolution du coût des APC payés par les auteurs correspondants affiliés en France, au total et par type de libre accès, après reconstruction des données manquantes

ANALYSE DU COUT DES ABONNEMENTS ELECTRONIQUES
Le consortium Couperin, réseau de négociation et d’expertise des ressources documentaires électroniques, a également fourni les données 2019 et 2020 de l’enquête ERE relative au coût des abonnements électroniques pour les institutions françaises membres de Couperin. Ces données ont été traitées avec Microsoft Power BI et croisées avec les catégories des ressources, les catégories d’éditeurs et plateformes de diffusion, et les répondants à chacune des deux éditions de l’enquête. Cette analyse a permis d’estimer à environ 87,5 M€ la dépense d’abonnements aux périodiques en 2020. En outre, une analyse par Couperin des années 2014-2021 de l’enquête ERE a montré que la variation de prix sur la période s’est située entre -1,95% et +7,22% par an, avec une augmentation de prix moyenne de 1,76 % par an.

À partir de ce taux de croissance moyen, nous estimons que les abonnements électroniques s’élèveront à 97,5 M€ en 2030.

ANALYSE PROSPECTIVE DU COUT DES APC
En utilisant les données de confiance sur les articles (c’est-à-dire en ne retenant pas les articles pour lesquels le pays d’affiliation de l’auteur correspondant n’a pas pu être déterminé, ni ceux dont le montant des APC n’a pas pu être estimé avec suffisamment de certitude), nous avons établi des modèles mixtes du prix des APC en fonction des autres métadonnées des articles.

Ce modèle a permis de prédire l’évolution du coût des APC entre 2021 et 2030 dans plusieurs situations, représentées graphiquement dans la figure ci-dessous :
– sous l’hypothèse d’une évolution à l’identique des tendances observées (courbe rouge nommée « trends continue unchanged »)
– dans un scénario d’accélération vers le gold open access (courbe verte nommée « rushscenario »), où la hausse de la part d’articles Gold et la hausse des  montants d’APC s’emballent
– et dans un scénario de hausse du libre accès green et transition du libre accès hybride vers gold (courbe bleue nommée « relief scenario »).

Enfin, nous avons simulé le plafond en prenant une hypothèse d’école (courbe jaune nommée « full gold APC ») : il s’agit du montant d’APC qui serait payé si tous les articles d’auteurs correspondants affiliés en France étaient publiés dans des revues en libre accès (répartis entre 10% de revues diamant et 90% de revues gold)

Résumé du coût prédit des APC payés par les auteurs correspondants affiliés en France dans plusieurs situations (2021-2030)

 

 

TABLE OF CONTENT

01 RÉSUMÉ  02 SUMMARY 03 INTRODUCTION  04 METHODOLOGY

I. Building the article-level dataset

II. Preliminary analysis of the article-level dataset

III. Building the subscription expenditures dataset

IV. Analysis of the subscription expenditures dataset

V. Scoping the analysis

05 RETROSPECTIVE ANALYSIS

I. Evolution of articles with APC and France-based corresponding authors

II. Evolution of APC prices

III. Total cost of APCs paid in 2013-2020

06 PROSPECTIVE ANALYSIS

I. Evolution of subscription expenditures

II. Building a model to predict APC prices

III. Scenario "trends continue unchanged"

IV. Simulation of full Gold APC

V. Scenario "rush"

VI. Scenario "relief"

VII. Conclusion

07 BIBLIOGRAPHY