Nous présentons un projet de recherche ayant comme objectif le développement de ressources linguistiques pour un système de traduction automatique statistique factorisée français - roumain. Ce système utilise des corpus parallèles annotés et alignés aux niveaux propositionnel et lexical et une combinaison de facteurs linguistiques (lemmes, catégories lexicales, propriétés morphosyntaxiques, chunks). Ainsi, nous nous sommes concentrés sur l’alignement lexical des corpus parallèles, en exploitant les informations linguistiques associées aux unités lexicales. Nous avons procédé à l’analyse linguistique des résultats du module d’alignement et nous avons repéré plusieurs classes d’erreurs d’alignement lexical, dues principalement aux différences morphosyntaxiques entre le français et le roumain. Ainsi, nous avons relevé des erreurs fréquentes d’alignement au niveau des subordonnées relatives, de l’expression de la relation de possession et du destinataire (le cas datif), de l’infinitif, etc. Pour améliorer les résultats du module d’alignement lexical, nous avons défini un ensemble de règles heuristiques morphosyntaxiques contextuelles. Dans cet article, nous présentons la distribution par classes des erreurs d’alignement lexical et les règles heuristiques proposées pour repérer automatiquement les équivalences traductionnelles d’une langue à l’autre.
M. Navlea, A. Todirascu, Université de Strasbourg