Date de début:
15:00
Date de fin:
15:00
Lieu:
Campus Michel-Ange CNRS
Ville:
Paris
Producteur:
-

Durée:
8:07
Type:
video/mp4
Poids:
52.69 Mo
Format:
mp4
Résolution:
768x576
Codec:
-

Session 6-Repérage automatique des équivalences traductionnelles pour un système de traduction automatique français - roumain

Nous présentons un projet de recherche ayant comme objectif le développement de ressources linguistiques pour un système de traduction automatique statistique factorisée français - roumain. Ce système utilise des corpus parallèles annotés et alignés aux niveaux propositionnel et lexical et une combinaison de facteurs linguistiques (lemmes, catégories lexicales, propriétés morphosyntaxiques, chunks). Ainsi, nous nous sommes concentrés sur l’alignement lexical des corpus parallèles, en exploitant les informations linguistiques associées aux unités lexicales. Nous avons procédé à l’analyse linguistique des résultats du module d’alignement et nous avons repéré plusieurs classes d’erreurs d’alignement lexical, dues principalement aux différences morphosyntaxiques entre le français et le roumain. Ainsi, nous avons relevé des erreurs fréquentes d’alignement au niveau des subordonnées relatives, de l’expression de la relation de possession et du destinataire (le cas datif), de l’infinitif, etc. Pour améliorer les résultats du module d’alignement lexical, nous avons défini un ensemble de règles heuristiques morphosyntaxiques contextuelles. Dans cet article, nous présentons la distribution par classes des erreurs d’alignement lexical et les règles heuristiques proposées pour repérer automatiquement les équivalences traductionnelles d’une langue à l’autre.

M. Navlea, A. Todirascu, Université de Strasbourg

Dernières vidéos