La fouille de données et de textes (Text & Data Mining, TDM) est un domaine apparu il y a une trentaine d'années et qui est désormais associée à de nombreux enjeux scientifiques, industriels et sociétaux. A l'intersection de l'analyse de données, de l'intelligence artificielle et du Traitement Automatique des Langues, le TDM est impliqué dans de très nombreuses applications utilisées au quotidien par les chercheurs, les entreprises et le grand public. Citons par exemple la recherche d'information et la recommandation automatique de contenus, la navigation au sein de bibliothèques numériques et le filtrage d'informations. Ces applications ont en commun quantité de traitements génériques sur les données, qu'elles soient brutes ou textuelles, structurées ou non.
Cette introduction aux enjeux du TDM sera illustrée par quelques exemples soulignant les actuels verrous technologiques et scientifiques mais aussi la nécessité d'œuvrer de façon commune au développement de logiciels et de services ouverts. L'objectif est de permettre le développement et l'appropriation de plateformes aptes à fouiller l'immense production scientifique, à la lumière des services et APIs ISTEX, mais aussi de rendre transparents les traitements qui sont au cœur d'activités quotidiennes.
Patrice Bellot 1 1 : Chargé de mission IST/Fouille de données textuelles à l'institut des sciences de l'information et de leur interactions (INS2I)