Ouvrir la Science

Projet Visa TM
illustration
2019
Etudes & rapports
L'objectif de Visa TM est l’étude d’une e-infrastructure de recherche pour la création d’une offre de services en fouille de textes pour la recherche. Les rapports finaux démontrent la nécessité d’une telle infrastructure qui offre, aux chercheurs, un environnement technique et scientifique en adéquation avec leurs besoins pour mener à bien leurs recherches.

Projet Visa TM

Vers une infrastructure de services avancés de text mining

Soutenu par le Comité pour la Science ouverte, l’objectif du projet Visa TM, lancé en 2017, est de décrire une infrastructure capable de rendre la fouille de textes accessible à tous, en offrant des services à même de contribuer à un effet catalyseur de la science : transfert de technologies, innovation, réutilisation des données et résultats. L’objectif de l’infrastructure est de faciliter l’accès aux contenus, apporter des solutions technologiques et des traitements adaptés aux besoins, ainsi qu’un accompagnement humain.

Ce projet s’inscrit dans le mouvement de développement d’une Science ouverte tendant à la mise à disposition des bibliothèques numériques et des ressources sémantiques et à l’intégration de données de sources diverses, dont textuelles.

Il rassemble dans un partenariat trois institutions mettant en synergie leurs complémentarités : MaIAGE et DIST de l’INRA, l’Inist-CNRS et le LIRMM de l’Université de Montpellier.

Les principaux résultats de Visa TM portent sur :

  • l’étude de la création d’une e-infrastructure de fouille de textes française en mettant en évidence ses besoins, ses acteurs, son organisation, ses missions, ses compétences et ses outils ;
  • l’étude de l’intégration logicielle et organisationnelle de services pour la recherche ;
  • la communication sur la fouille de textes vers ses communautés cibles.

Les huit rapports finaux relèvent de trois thèmes interdépendants :

  • le volet Étude analyse les besoins, identifie les acteurs, propose un modèle d’organisation avec ses activités, ses missions et les métiers associés, puis propose un focus sur la fouille de textes, ses outils et la structuration de la recherche ;
  • le volet Étude se nourrit du bilan technique du volet Conception, basé sur la compréhension de l’architecture logicielle de la plateforme OpenMinTeD [1]OpenMinTeD est une infrastructure européenne de TDM (Text and Data mining) à destination de publics divers : spécialistes du TDM, développeurs non spécialistes et intégrateurs, utilisateurs chercheurs. ;
  • le volet Application enrichit ces analyses par deux exemples concrets de développement d’application de text mining, la conception de corpus en IST et l’extraction d’information pour la recherche.

 

Un « Visa TM Day », organisé le vendredi 15 novembre 2019 au ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, a clôturé ce projet. Cette journée a été l’occasion de dresser un état des lieux et de discuter des perspectives concrètes ouvertes par les résultats du projet.
Les présentations sont disponibles à cette adresse : https://visatm.inist.fr/2019/11/26/visa-tm-day-contenus/.
Quatre ateliers prospectifs ont également eu lieu autour de “quelle infrastructure de service de fouille de textes pour demain”. Leur compte rendu est accessible à cette adresse : https://visatm.inist.fr/2019/11/26/les-ateliers-de-visa-tm-day/.

 


Les rapports finaux

Volet Étude

Analyse du besoin

Le volet Étude propose d’imaginer et de décrire l’infrastructure technique et humaine nécessaire en se basant à la fois sur l’expérience OpenMinTeD et sur les besoins de la communauté de recherche nationale. Ce document s’appuie sur un questionnaire qui a permis de faire émerger des avis et des attentes. L’analyse des besoins fait des recommandations après analyse des points forts et faibles des différentes approches possibles en s’appuyant sur le contexte dans lequel s’inscrit le projet Visa TM, en mettant en avant les éléments favorables actuels et en développant les besoins des utilisateurs potentiels d’une plateforme.

Acteurs et organisation

Ce document dresse une cartographie des différents acteurs qui constituent l’environnement d’une future plateforme de fouille de textes et contribuent à son fonctionnement. Il met en exergue les différentes  possibilités d’organisation de ces acteurs dans l’idée d’une construction de service optimal de fouille de textes en analysant les avantages et les freins éventuels de chacune de ces propositions.

Description de l’e-infrastructure

Ce rapport explicite les différentes missions incombant à une plateforme de fouille de textes destinée à répondre de manière optimale aux services attendus aussi bien par les acteurs participants que par les utilisateurs finaux.  Il répertorie les différentes activités de la plateforme et analyse les interactions entre ses diverses composantes. Ces activités font appel à différents métiers et des compétences nécessaires à leur exercice.

Le TDM dans l’e-infrastructure

Ce document analyse l’écosystème des outils de traitement et d’assistance du text mining et leur intégration dans l’e-infrastructure OpenMinTeD. Il propose un recensement des outils de text mining et s’intéresse à la sélection des outils dans le cadre d’une e-infrastructure. Ce rapport analyse le cadre à mettre en place pour l’animation de la communauté académique afin de maintenir le futur dispositif à l’état de l’art par rapport aux outils et ressources.

Volet Conception

Architecture OpenMinTeD

Ce document décrit les briques logicielles principales d’OpenMinTeD, leur rôle, leur fonctionnement et leurs interactions. Il vise aussi à transmettre une idée de l’ensemble des spécifications pour une plateforme de services : stabilité, pérennité, sécurité, légalité, traçabilité. La première partie présente l’architecture globale d’OpenMinTeD. La deuxième partie décrit chaque élément en indiquant sa fonction, le besoin auquel il s’adresse, l’effort de développement et de configuration. La dernière partie expose les conclusions que l’on peut tirer de l’organisation logicielle d’OpenMinTeD.

Bilan technique

Les travaux décrits dans ce document détaillent les développements réalisés sur la plateforme OpenMinTeD dans le cadre des appels d’offres lancés par ce projet. Sont apportés des recommandations et des propositions dans le domaine de trois réponses portant sur :

      1. l’intégration d’ISTEX [2]ISTEX est une bibliothèque numérique de grande taille (de l’ordre de 21 millions d’objets) regroupant les archives scientifiques acquises sous licence nationale dans une plateforme les rendant facilement accessibles, exploitables et interrogeables. comme source de corpus de documents dans OpenMinTeD (INIST) ;
      2. l’interconnexion d’AgroPortal [3]AgroPortal est un portail de ressources sémantiques, décrites dans des formats standard tels que SKOS ou OWL, pour l’agronomie, les plantes, la nutrition et la biodiversité. comme source de ressources sémantiques à la plateforme OpenMinTeD (LIRMM) ;
      3. l’intégration du composant TermSuite comme composant logiciel à la plateforme OpenMinTeD (Inist-CNRS et Université de Nantes).

Volet Applications

Application pilote en IST

L’application pilote pour l’IST fournit un service d’aide à la construction et à l’exploration de corpus de documents scientifiques issus du réservoir ISTEX, en utilisant des outils de fouille de textes.

Application pilote pour la recherche

Ce rapport démontre l’utilité de l’approche de composition de workflows de text mining et sa connexion à des applications métiers pour un développement rapide et un résultat de qualité dans un domaine particulier, celui de la microbiologie. Le document analyse les points forts (qualité des productions) et limitations de l’approche (accès aux corpus).

Les livrables sont accessibles sur le site Visa TM.

References   [ + ]

1. OpenMinTeD est une infrastructure européenne de TDM (Text and Data mining) à destination de publics divers : spécialistes du TDM, développeurs non spécialistes et intégrateurs, utilisateurs chercheurs.
2. ISTEX est une bibliothèque numérique de grande taille (de l’ordre de 21 millions d’objets) regroupant les archives scientifiques acquises sous licence nationale dans une plateforme les rendant facilement accessibles, exploitables et interrogeables.
3. AgroPortal est un portail de ressources sémantiques, décrites dans des formats standard tels que SKOS ou OWL, pour l’agronomie, les plantes, la nutrition et la biodiversité.