À la découverte du TDM (Text and Data Mining)
Le TDM, ou fouille de textes et de données, désigne un ensemble de traitements automatisés consistant à extraire et à analyser des informations (textes, données, sons, images…) contenues dans des corpus numériques importants, afin d’en dégager de nouvelles connaissances. Le TDM représente un enjeu majeur pour la recherche.
L’objectif est de proposer aux doctorant·es une découverte du TDM en deux modules séparés.
Le premier module, théorique, propose un panorama du TDM et une présentation de la plateforme Istex.
Le second, sous forme de TD, propose aux doctorant·es de réaliser des exercices à partir de la plateforme Istex qui offre divers outils de création et d’analyse de corpus et sert d’exemple pour la prise en main de la technique.
Intervenantes : Mathilde HUGUIN (ingénieure de Recherche, Inist-CNRS, équipe Istex), Fabienne KETTANI (ingénieure de Recherche Inist-CNRS, équipe TDM)
Important : il est obligatoire d’avoir suivi le module 1 pour participer au module 2
Inscription
Si vous êtes doctorant·e : CFD@univ-paris1.fr
Si vous êtes chercheur ou chercheuse, enseignant·e-chercheur, personnel ou autre : appui-recherche-scd@univ-paris1.fr
Module 1 à distance : généralités
10h-13h en visioconférence (le lien Zoom sera communiqué aux inscrit·es)
1. Panorama du TDM (Text and Data Mining)
- Principaux concepts manipulés en fouille de textes
- Exemples de méthodes et d’outils utilisés dans le monde académique (à partir de TM Tools
Explorer)
- Web services TDM de l’Inist
- Aspects éthiques et juridiques
2. Présentation générale d’Istex et des outils associés pour constituer, télécharger, visualiser et explorer un corpus (Istex-DL, Lodex)
3. Introduction au module 2
- Échanges avec les participants sur leurs questionnements et leurs besoins dans le cadre de
leur projet de thèse.
- Présentation des exercices qui seront réalisés lors de la seconde séance.
Module 2 en présentiel : cas d’usage du TDM (Text and Data Mining) à partir de la plateforme Istex
10h-13h en salle de formation de la bibliothèque Pierre-Mendès-France
Une ou deux questions de recherche seront proposées à titre d’exemples aux participant·es. Afin d’y répondre, ils et elles construiront un corpus et l’analyseront pour répondre à la problématique posée en utilisant les outils de la plateforme Istex (Istex-DL, Lodex, web services TDM).