Ouvrir la Science

Rapport du groupe de travail "Traductions et science ouverte"
2020
Etudes & rapports
Le rapport présente un état de l’art des technologies de la traduction, des bonnes pratiques d’usage et des pistes d’action afin d’optimiser les processus de traduction de la production scientifique. Et ainsi favoriser, au sein des sociétés des pays non anglophones, l'accès au savoir issu de la recherche, l’un des principes fondamentaux de la science ouverte.

Rapport du groupe de travail « Traductions et science ouverte »

Novembre 2020

Groupe de travail

 Pilote

Susanna FIORINI (Traductrice et consultante en communication multilingue)

Membres

  • Franck BARBIN (Université Rennes 2 / LIDILE)
  • Martine GARNIER-RIZET (ANR)
  • Katell HERNANDEZ MORIN (Université Rennes 2 / LIDILE)
  • Franziska HUMPHREYS (EHESS)
  • Amélie JOSSELIN-LERAY (Université de Toulouse Jean Jaurès / CLLE)
  • Natalie KÜBLER (Université de Paris / CLILLAC-ARP)
  • Rudy LOOCK (Université de Lille / STL)
  • Hanna MARTIKAINEN (École Supérieure d’Interprètes et de Traducteurs / CLESTHIA)
  • Jean-François NOMINÉ (Institut de l’information scientifique et technique/CNRS)
  • Cornelia PLAG (Université de Coimbra / OPERAS)
  • Caroline ROSSI (Université Grenoble Alpes / ILCEA4)
  • François YVON (LIMSI / CNRS)

Remerciements

 Le groupe de travail remercie les expert·es, les plateformes de services et de contenus, les éditeurs et les chercheurs·euses ayant contribué aux réflexions présentées dans ce rapport.
Par ordre alphabétique :

  • Cairn.info
  • Caroline Champsaur (OCDE)
  • Éditions Quæ
  • Érudit
  • HAL
  • Huma-Num
  • John Libbey Eurotext
  • Lauréats de l’appel à projets Traductions scientifiques
  • Lynne Bowker (Université d’Ottawa)
  • Nicolas Bacaër (Institut de recherche pour le développement)
  • OpenEdition
  • Sharon O’Brien (Dublin City University)
  • Sheila Castilho (ADAPT Centre – Dublin City University)

1. Multilinguisme et science ouverte

Depuis l’intensification de l’activité scientifique dans l’après-guerre et, plus tard, avec l’avènement de l’Internet, l’anglais s’est affirmé mondialement en tant que langue de la communication technique et scientifique. Dès les années 1960, par exemple, la langue française a souffert d’un déficit lexical de milliers de mots supplémentaires chaque année au regard de la progression enregistrée pour l’anglais [1]L. Bowker, J. Ciro, 2019, Machine translation and global research: Towards improved machine translation literacy in the scholarly community, Bingley, UK: Emerald Publishing.

Ce rôle de lingua franca s’est progressivement consolidé dans le milieu académique, à la fois dans la recherche et dans l’enseignement supérieur. À titre d’exemple, 83,7% des 23 millions de documents scientifiques rassemblés dans le cadre de la création de l’archive électronique ISTEX étaient en 2019 en anglais [2]ISTEX – Socle de la bibliothèque scientifique numérique nationale [consulté le 29 octobre 2020].

Si elle a le mérite de favoriser les échanges dans un contexte scientifique de plus en plus internationalisé, cette hégémonie linguistique est génératrice d’inégalité dans l’accès au système de publication et limite la diffusion des connaissances scientifiques au sein des sociétés des pays non anglophones.

Afin de publier dans les revues à impact élevé et ainsi augmenter la visibilité de leur travail, les chercheurs dans certaines disciplines sont en effet tenus de publier en anglais, ce qui a un impact considérable sur leur carrière ; outre les difficultés de rédaction en langue étrangère, qui limitent la richesse de la pensée et les capacités d’expression de certains concepts, des chercheurs non anglophones considèrent également qu’ils sont pénalisés car certains relecteurs se concentrent davantage sur leur niveau d’anglais que sur la qualité des résultats scientifiques et la logique de l’exposé [3]L. Bowker, J. Ciro, 2019, Machine translation and global research: Towards improved machine translation literacy in the scholarly community, Bingley, UK: Emerald Publishing. Par ailleurs, on constate que les relecteurs peuvent être gênés dans leur évaluation par des modes d’argumentation non anglophones. Ainsi, Lillis et Curry relèvent la remarque d’un relecteur : « Il y a des formulations qui, d’après moi, sont un peu exagérées et trop prétentieuses. (…) Ce n’est peut-être pas la langue, mais c’est juste un peu trop latin pour un Européen du Nord. »[4]Lillis, Theresa and Curry, Mary Jane, 2010, Academic Writing in a Global Context: The politics and practices of publishing in English. Abingdon: Routledge Selon une récente étude, la publication en langue étrangère imposée aux chercheurs peut enfin générer des problèmes de rédaction et compréhension en lecture, de l’anxiété, voire des coûts supplémentaires [5]V. Ramírez-Castañeda, 2020, Disadvantages in preparing and publishing scientific papers caused by the dominance of the English language in science: The case of Colombian researchers in biological sciences. PLoS ONE 15(9): e0238372. https://doi.org/10.1371/journal.pone.0238372.

L’actuel système à dominante anglophone entraîne également des difficultés pour les chercheurs qui, du fait des usages propres à leurs disciplines, notamment dans les sciences humaines et sociales, ont la possibilité de rédiger leurs publications dans leur langue maternelle. Dans ce cas, le problème est lié à un manque de visibilité des travaux rédigés dans des langues autres que l’anglais, souvent moins bien référencés dans les principaux référentiels disciplinaires internationaux. Une autre étude [6]Di Bitetti, Mario S., and Julián A. Ferreras, 2017, Publish (in English) or perish: The effect on citation rate of using languages other than English in scientific publications, Ambio 46.1: 121-127 démontre que le fait de publier dans une langue autre que l’anglais est considéré comme l’indice d’une mauvaise qualité de la recherche et de localisme, une idée largement partagée dans le monde de la recherche.

D’autre part, une culture scientifique majoritairement véhiculée par la langue anglaise ne favorise pas la démocratisation de l’accès au savoir produit par la recherche, l’un des principes fondamentaux de la science ouverte. Dans le cadre de la crise sanitaire liée à la pandémie de Covid-19, qui a fait apparaître le besoin d’une diffusion des connaissances scientifiques et médicales auprès des citoyens, un groupe d’enseignants-chercheurs a écrit que « si la science fait l’objet exclusivement d’une communication en anglais, elle risque de ne pas répondre pleinement à sa troisième mission, celle d’informer les citoyens dans leurs langues maternelles. » [7]Z. Taşkın, G. Doğan, E. Kulczycki, A. Zuccala, 2020, Science needs to inform the public. That can’t be done solely in English, LSE blog [consulté le 17 août 2020]

Dans ce contexte, plusieurs initiatives ont vu le jour afin de rappeler l’importance du multilinguisme dans la communication scientifique. Parmi celles-ci, l’Initiative d’Helsinki sur le multilinguisme, point d’ancrage important de la démarche de ce groupe de travail, propose des recommandations [8]Initiative d’Helsinki sur le multilinguisme dans la communication savante [consulté le 10/11/2020] à destination des tous les acteurs pouvant promouvoir le changement : décideurs, dirigeants, universités, instituts de recherche, bailleurs de fonds pour la recherche, bibliothèques et chercheurs. Les initiateurs de l’Initiative expliquent qu’il ne s’agit pas « d’une question de nationalisme ou d’aversion à l’égard de la langue anglaise » mais plutôt de « développer un système de publication qui réponde aux besoins des chercheurs et de leur public, et qui valorise la diversité des travaux scientifiques. » [9]Emanuel Kulczycki, Henriikka Mustajoki, Janne Pölönen, Vidar Røeggen, 2019, Polyglots need protection, Research Europe [consulté le 10/11/2020]

Afin de permettre aux chercheurs de publier dans la langue de leur choix sans pour autant être pénalisés, et de créer un nouveau modèle d’accès, universel et multilingue, à l’information scientifique, la traduction constitue clairement une option possible. Toutefois, aux moins trois défis se posent :

  • les universités, les instituts de recherche et les laboratoires manquent souvent de ressources à consacrer à la traduction ;
  • il n’est pas toujours facile de trouver des traducteurs experts capables de traduire des textes hautement spécialisés dans des délais raisonnables ;
  • d’un point de vue global, les contenus de communication scientifique sont d’un volume tel qu’il serait impossible de couvrir les besoins de traduction par les moyens humains professionnels disponibles, experts ou non.

Afin de pallier ces difficultés et de favoriser le multilinguisme à une large échelle dans la communication scientifique, une nouvelle voie d’exploration semble s’ouvrir. Les récents progrès techniques laissent envisager la possibilité de recourir à des technologies de la traduction de plus en plus performantes. L’environnement de travail des professionnels de la traduction ne cesse en effet de s’enrichir d’outils informatiques ayant vocation à optimiser le processus de traduction : logiciels de traduction assistée par ordinateur, bases terminologiques [10]Bases de données contenant des entrées terminologiques et des informations associées. La plupart des bases terminologiques sont multilingues et contiennent des données terminologiques dans plusieurs langues., mémoires de traduction [11]Bases de données qui enregistrent les phrases, paragraphes ou segments de texte traduits pour réutilisation ultérieure., systèmes de gestion de projets collaboratifs, moteurs de traduction automatique et interfaces de post-édition [12]Activité consistant à réviser et corriger le texte brut pré-traduit automatiquement par un moteur afin d’atteindre le niveau de qualité souhaité., outils de contrôle qualité [13]Fonctionnalités des outils de TAO permettant de vérifier automatiquement des éléments de la traduction : terminologie, chiffres, balises, ponctuation, incohérences, etc., etc. Une condition indispensable doit cependant être respectée pour que ces technologies puissent réellement apporter une aide à la traduction : l’humain doit rester au cœur du processus, les technologies devant optimiser le travail sans devenir une contrainte ou une source de frustration pour les utilisateurs, que ce soit les intervenants dans le processus de traduction ou les lecteurs finaux. L’impact et la pertinence de ces outils doivent donc être évalués au cas par cas afin de mettre en place des solutions plus ou moins informatisées et automatisées selon les contextes d’usage.

L’objectif du groupe de travail est donc d’identifier des possibilités dans ce sens afin d’initier une montée en charge de la traduction de la production scientifique en s’appuyant sur les technologies de la traduction, en particulier sur les outils de traduction automatique.

Ce rapport présente un premier aperçu de l’état de l’art des technologies de la traduction, des bonnes pratiques d’usage et des pistes d’action, à court et moyen terme, afin d’optimiser les processus de traduction dans le but notamment de :

  • favoriser la visibilité internationale des publications scientifiques en langue française, en particulier pour les sciences humaines et sociales
  • briser la barrière que représente l’usage dominant de l’anglais pour la diffusion large des connaissance scientifiques dans les sociétés des pays non anglophones
  • proposer des solutions pour lutter contre les inégalités subies par les chercheurs non anglophones

Les travaux du groupe s’inscrivent dans le cadre du Comité pour la science ouverte (CoSO) en partenariat avec la Délégation générale à la langue française et aux langues de France (DGLFLF), et se placent dans la continuité de l’appel à projets Traductions scientifiques, lancé en 2018 par le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation (MESRI). Le groupe est suivi par un comité de pilotage constitué de représentants des institutions partenaires (MESRI, CoSO, DGLFLF).

Avant d’analyser les possibilités que ces technologies pourront offrir, il convient néanmoins de noter que le multilinguisme ne pourra s’installer durablement dans l’édition scientifique que dans un écosystème adapté. Il ne suffira pas de déployer des technologies pour optimiser les processus de traduction sans une vraie stratégie de médiation locale et de valorisation internationale des contenus multilingues ; cela devra passer par les référentiels disciplinaires internationaux, par des réseaux de médiation et de valorisation spécifiques aux différents publics (local ou international, académique ou généraliste), par la collaboration avec des acteurs clés, comme les bibliothécaires, les documentalistes ou encore les journalistes scientifiques. Très souvent, en effet, les difficultés d’accès à l’information scientifique ne sont pas exclusivement liées aux barrières linguistiques, mais aussi aux problématiques de référencement, découvrabilité et compréhensibilité conceptuelle des contenus pour les différents types de publics.

Des actions politiques seront par ailleurs nécessaires pour repenser les systèmes et les métriques d’évaluation, ainsi que les mécanismes de financement, qui aujourd’hui favorisent la publication en anglais au détriment de la production dans d’autres langues. Les chercheurs devront être encouragés à publier et à traduire des contenus dans des langues autres que l’anglais grâce à une meilleure reconnaissance de ces travaux et à des évaluations basées sur la qualité effective des publications et non pas uniquement sur leur facteur d’impact, pour un accès plus égalitaire aux financements. Ceci implique également un changement d’ordre culturel chez les universitaires afin que la valeur des publications non anglophones soit pleinement reconnue par les comités de sélection, mais aussi lors des évaluations de l’HCERES et du CNU, par exemple.

Une plus grande ouverture des publications et la généralisation de licences ouvertes permettraient enfin de favoriser la traduction et la circulation des contenus multilingues, ainsi que de récupérer plus facilement des ressources linguistiques, nécessaires au développement de solutions ouvertes et maîtrisées par les communautés scientifiques – l’objectif étant également de ne pas subir la concentration des acteurs commerciaux du secteur des technologies de la traduction, de préserver les capacités d’initiative sur les contenus scientifiques, et d’alimenter des environnements plus ouverts (bases d’apprentissage, algorithmes et logiciels). Le besoin d’ouverture ne concerne donc pas seulement les contenus et les ressources linguistiques, mais aussi les outils technologiques, en particulier les moteurs de traduction automatique.

Afin d’atteindre tous ces objectifs qui touchent également la sphère politique, il apparaît nécessaire de créer des collaborations à l’échelle internationale. À ce propos, des initiatives se multiplient et se développent en Europe et ailleurs ; à noter, outre l’Initiative d’Helsinki sur le multilinguisme déjà mentionnée, le Groupe de travail sur le Multilinguisme du réseau OPERAS [14]Multilingualism WG – OPERAS, la San Francisco Declaration on Research Assessment [15]DORA – San Francisco Declaration on Research Assessment, le projet Triple [16]Transforming Research through Innovative Practices for Linked interdisciplinary Exploration, ou encore des initiatives à échelle éditoriale, comme celles des revues Target [17]Target. International Journal of Translation Studies et Handbook of Translation Studies [18]Handbook of Translation Studies Online. Le groupe de travail suivra ces initiatives afin d’établir toute connexion pertinente. Par exemple, le Groupe de travail sur le Multilinguisme OPERAS, créé pour promouvoir les pratiques de traduction, les outils de découverte multilingues et l’utilisation des langues nationales dans l’édition en sciences humaines et sociales, envisage de développer une plateforme collaborative afin de mettre en contact éditeurs, chercheurs et traducteurs et favoriser ainsi la traduction de publications. Même si cette démarche est surtout orientée à la mise en relation des différents acteurs, et moins sur le déploiement des technologies de la traduction, il sera intéressant d’étudier d’éventuels points de contact et collaboration.

3.2 Actions et expérimentations recommandées

Dans la continuité de l’appel à projets Traductions scientifiques, le groupe de travail recommande à court et moyen terme les actions et les expérimentations listées ci-après par étapes de 1 à 7. À noter qu’il sera important de faire preuve de prudence et de dédier à chaque étape les temps de réflexion et de réalisation nécessaires afin que les solutions proposées répondent aux besoins spécifiques et soient acceptées par les membres des communautés concernées. L’utilisation des technologies de la traduction, et notamment de la traduction automatique, soulève en effet de nombreux questionnements techniques, opérationnels, éthiques et intellectuels qui ne doivent pas être négligés dans le cadre d’un déploiement à grande échelle dans un contexte si particulier et inédit comme l’édition scientifique. Selon les premières estimations, le chantier devrait s’étaler sur deux ans minimum (2021/2022).

  1. Analyse de la nature et de la volumétrie des corpus multilingues identifiés et étude d’autres possibilités pour la collecte
  2. Traitement des corpus collectés afin d’obtenir des bases de test et d’apprentissage et des ressources linguistiques mutualisées
  3. Évaluation de moteurs de traduction automatique en utilisant les bases de test et d’apprentissage
  4. Organisation de journées d’études rassemblant les porteurs des projets lauréats de l’appel Traductions scientifiques et d’autres acteurs pertinents
  5. Création d’un démonstrateur pour préfigurer un processus de traduction à grande échelle
  6. Élaboration d’un guide à destination des chercheurs et des institutions de recherche sur la traduction automatique, la rédaction en langue étrangère et la « rédaction claire » (adaptée à la traduction automatique)
  7. Étude de pistes de collaboration dans les réseaux d’éditeurs européens pour la constitution de corpus

4. Conclusions

Dans le monde de la recherche d’aujourd’hui, de plus en plus internationalisé, la traduction a certainement un rôle essentiel à jouer pour rendre l’actuel système de publication plus équitable et pour élargir l’accès à l’information scientifique à plusieurs niveaux de la société. Certes la traduction a un coût qui n’est pas toujours viable pour les institutions de recherche, mais aujourd’hui il est envisageable d’optimiser les processus de traduction à l’aide de technologies de plus en plus performantes. Il faut néanmoins garder une approche réaliste et raisonnée, tenant compte des spécificités de la communication scientifique, au sens large et dans les différentes disciplines, du degré de maturité des technologies et de ses utilisateurs, ainsi que des contraintes dictées par les ressources disponibles. Afin de construire un modèle qui soit contextuellement pertinent et économiquement durable, il faudra impliquer tous les acteurs intéressés et mener des expériences pilotes innovantes mais rigoureuses, dans le but d’envisager un déploiement à grande échelle fondé sur des ressources et des technologies les plus ouvertes possibles.

 

References[+]

Index

Résumé

1. Multilinguisme et science ouverte

2. Travail du groupe

2.1 Périmètre disciplinaire

2.1.1 Archéologie
2.1.2 Géographie
2.1.3 Médecine
2.1.4 Économie
2.1.5 Sciences de la terre, de l'environnement et de la planète (Géosciences)
2.1.6 D’autres disciplines à étudier à moyen terme

2.2 Périmètre linguistique

2.3 Périmètre documentaire

2.4 Besoins et pratiques de traduction

2.5 Inventaire d’outils de traduction automatique et assistée par ordinateur

2.5.1 Outils de traduction automatique
2.5.2 Outils de traduction assistée par ordinateur
2.5.3 Conclusions

2.6 Constitution de bases de test et d’apprentissage

2.7 Principes d’évaluation et de post-édition de traduction automatique

2.7.1 Principes d’évaluation de la traduction automatique
2.7.2 Principes de post-édition de la traduction automatique

3. De la théorie à la pratique

3.1 Appel à projets Traductions scientifiques

3.2 Actions et expérimentations recommandées

3.2.1 Analyse de la nature et de la volumétrie des corpus multilingues identifiés et étude d’autres possibilités pour la collecte
3.2.2 Traitement des corpus collectés afin d’obtenir des bases de test et d’apprentissage exploitables et des ressources linguistiques mutualisées
3.2.3 Évaluation de moteurs de traduction automatique en utilisant les bases de test et d’apprentissage
3.2.4 Organisation de journées d’études rassemblant les porteurs des projets lauréats de l’appel Traductions scientifiques et d'autres acteurs pertinents
3.2.5 Création d’un démonstrateur pour préfigurer un processus de traduction à grande échelle
3.2.6 Élaboration d’un guide à destination des chercheurs et des institutions de recherche sur la traduction automatique, la rédaction en langue étrangère et la « rédaction claire » (adaptée à la traduction automatique)
3.2.7 Étude de pistes de collaboration dans les réseaux d'éditeurs européens pour la constitution de corpus

4. Conclusions