Un Wiktionnaire sémantique pour les sciences humaines et sociales

Pexels, CC BY-SA

La création et le développement d’un dictionnaire numérique franco-arabo-berbère des sciences sociales s’inscrit dans le cadre du Programme FSP-Maghreb,

Ce programme vise à appuyer la recherche en SHS au Maghreb et à développer les échanges entre les institutions de recherche et les chercheurs maghrébins et leurs partenaires français dans une logique de réseaux et d’ouverture à l’international, notamment dans un cadre euro-méditerranéen. Il vise également à mettre en commun, par une meilleure maîtrise partagée de l’arabe, du berbère et du français, et par une politique d’incitation à la traduction, un ensemble de savoirs sur les deux cultures et les deux sociétés, et à en assurer la diffusion internationale la plus large possible. Il s’agit à terme de favoriser le débat d’idées entre les deux rives de la Méditerranée, et de conforter une communauté scientifique franco-maghrébine engagée dans un dialogue continu.

Trois objectifs principaux ont été retenus pour y parvenir :

  • Mettre en place des réseaux de chercheurs des deux rives de la Méditerranée dans le cadre de programmes de recherche conjointe (réseaux intramaghrébins et Maghreb-France) ;

  • Aider au renforcement et au développement de communautés de jeunes chercheurs en sciences humaines et sociales au Maghreb, mieux intégrées au sein de la communauté scientifique internationale ;

  • Développer l’accès à l’information scientifique récente et l’échange de connaissances.

D’un point de vue informatique, cette dernière exigence peut se traduire par la mise en place d’un espace et d’une base de connaissances du même domaine partagés et reconnus par la communauté des chercheurs français et maghrébins.

La nécessité d’un tel outil

Aujourd’hui, il n’existe aucun dictionnaire des sciences sociales et humaines franco-maghrébin reflétant l’état de la coopération scientifique et culturelle entre la France et le Maghreb dont les lexiques et concepts pourraient évoluer de manière indépendante

[Plus de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Par ailleurs, le déséquilibre entre disponibilité des ressources numériques est très grand, entre le français et les langues du Maghreb. Les dictionnaires qui existent sont peu nombreux et incomplets ; les traducteurs existants (également peu nombreux) simplifient la traduction en faisant du «mot-à-mot», autrement dit les traductions ne prennent pas en compte tous les aspects liés aux contextes des définitions des concepts. Les corpus potentiels pouvant constituer des sources de données sont rares, et enfin les travaux sur les nouvelles technologies et la normalisation des données des langues du Maghreb sont encore balbutiants…

Le fonctionnement du Wiktionnaire sémantique

L’analyse des besoins nous a permis de déduire un premier modèle fonctionnel de l’application. Le Wiktionnaire des SHS doit ainsi :

  • Permettre une rédaction distribuée selon les localisations géographiques (France et Maghreb) des différentes équipes participant au programme. En effet, le Wiktionnaire sémantiques des SHS est conçu sous forme d’un espace de travail collaboratif doté de fonctionnalités et de processus de création ou Workflows permettant aux chercheurs de coopérer, de cocréer et de cogérer les contenus du Wiktionnaire. Cette fonctionnalité relative à la création collaborative des contenus de la recherche est un des aspects importants de la science ouverte et exigé par le projet.

  • Être extensible et évolutif, sachant que de nouveaux besoins peuvent apparaître lors de la conception, l’implémentation et l’exploitation du dictionnaire.

  • Être extensible de sorte à englober l’anglais, le français, l’arabe et le berbère dans un premier temps puis une extension à toutes les langues du bassin méditerranéen.

  • Supporter les différents alphabets et graphies des langues retenues.

  • Intégrer les différentes disciplines scientifiques du programme FSP et offrir des passerelles entre celles-ci. La définition d’un même terme employé dans plusieurs disciplines est très difficile ; cela revient généralement à préciser la première discipline qui a utilisé ou créé le terme, puis comment les autres disciplines l’ont emprunté et utilisé en changeant souvent son sens initial. Étudier comment le sens d’un terme ou d’un concept varie d’une d’un domaine à un autre ainsi que son évolution dans le temps revient à recenser et à identifier les liens et les passerelles entre les disciplines ainsi que les apports mutuels entre elles. Parmi les disciplines scientifiques étudiées, on peut citer la sociologie, le droit, l’histoire, l’économie, l’anthropologie, l’ethnologie, etc.

  • Intégrer les fonctions d’import/export pour la compilation des contenus. Les fonctionnalités d’import/export permettent d’importer des contenus d’autres dictionnaires respectant les normes dictionnairiques dans le Wiktionnaire et réciproquement. On peut grâce à ces fonctionnalités intégrer des contenus de l’open data (compatibles et normalisées) dans le Wiktionnaire et inversement. C’est une autre des fonctionnalités importantes des sciences ouvertes qui permet des enrichissements mutuels entre les plates-formes numériques, favorisés par le respect des dites normes.

le fonctionnement des enrichissements automatiques.

  • Permettre l’alimentation de la base dictionnaire dans un format structuré suivant la définition d’une entrée et de sa traduction, et vice versa afin de faciliter l’alimentation, les échanges et la génération des contenus. Le Wiktionnaire étant compatible avec le Web de données, les entrées peuvent être traduites, enrichies et complétées en interrogeant le Web de données avec le langage SPARQL._

  • Être doté d’interfaces et de techniques lui assurant une grande ergonomie qui facilitera son utilisation par des chercheurs.

  • Prendre en charge l’aspect sémantique des définitions des entrées et de leurs traductions afin de permettre des renvois intelligents d’une langue à une autre, ou encore d’un parler à un autre.

  • Être libre d’accès en consultation, mais réservé en gestion.

  • Être compatible avec les normes dictionnairiques existantes afin de faciliter les échanges entre les chercheurs et entre les plates-formes numériques. Dans notre cas, la norme dictionairique exploitée est très détaillée et complexe (plusieurs centaines de pages), car elle prend en charge plusieurs domaines et répond à différents besoins du domaine des dictionnaires.

Pour la conception du Wiktionnaire, dans un premier temps, nous avons procédé à une simplification des spécifications et des exigences initiales de la norme afin de répondre aux besoins du projet. A l’issu de cette première simplification, nous avons retenu un schéma permettant d’associer à une entrée source (mot, locution, etc.) un ou plusieurs sens (définitions) qui renvoient à une ou plusieurs entrées cibles ; puis revenir du terme traduit, pris cette fois-ci comme entrée source. Par la suite, d’autres améliorations s’imposaient ; étant donné la complexité des SHS dans un contexte multilingue, multiculturel et multidisciplinaire.

Une tâche complexe

On dit toujours que «le traducteur est un menteur qui dit toujours la vérité» car il est impossible de traduire avec exactitude le sens d’une langue vers une autre, toute traduction est approximative ; le défi est donc de se rapprocher au mieux d’une traduction idéale qu’on ne connaît pas !

Si on s’intéresse par exemple au terme «entrepreneur», le champ sémantique qui permet de le définir est caractérisé par une personne qui court un risque, indépendante, responsable de ses actes. Son équivalent en arabe est «مقاو ou mou9awil» qui est caractérisé par un champ sémantique totalement différent : c’est celui qui parle, «tchatche», négocie, etc. Dans ce cas, on peut considérer que ce rapprochement et cette traduction sont approximatifs. Dans d’autres cas, on peut tout simplement ne pas avoir d’équivalents d’une langue à l’autre.

Prenons un autre exemple, celui du «mariage parfait» qui existe en Français, où deux frères, ou deux sœurs ou un frère et une sœur sont mariés avec deux frères, ou deux sœurs ou un frère et une sœur ; ce terme n’existe ni en Berbère, ni en Arabe, ni en Anglais. Dans d’autres cas, on peut avoir plusieurs équivants et/ou plusieurs spécialisations du sens ; c’est le cas du terme “cousin ou cousine” en Français qui a plusieurs équivants en arabe et en Berbère qui distinguent le fils ou la fille de l’oncle ou de la tante.

Pour répondre à cette complexité des renvois entre la langue source et la langue cible, il a fallu définir un schéma spécifique au Wiktionnaire des SHS adapté à chaque langue et doté d’un système de gestion des correspondances quand elles existent (simples ou multiples) en les rendant optionnelles quand elles n’existent pas.

En plus de l’accès libre au Wiktionnaire, les fonctionnalités cités et décrites précédemment concernant l’ouverture des données, la création collaborative de la recherche, les enrichissements, la diffusion partagée des données, etc. font du Wiktionnaire un outil intéressant et enrichissant pour le nouveau monde de la science ouverte au service de la recherche collaborative.


The Conversation

Hammou Fadili
Responsable de la Mission Numérique Recherche, Fondation Maison des Sciences de l'Homme (FMSH)
Note : les points de vue, les opinions et les analyses publiés dans les articles de la série "Les belles histoires de la science ouverte" n'engagent que leurs auteurs. Elles ne sauraient constituer l’expression d’une position du ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation.