5a. Résumé
Dans le cadre du traitement automatique de la langue, plusieurs cadres linguistiques ont été proposés pour modéliser les relations discursives entre unités textuelles qui nous permettent d'interpréter le but communicatif des éléments d'un texte. Cependant, il n'existe pas encore de consensus sur un schéma commun d'étiquetage de relations discursives. Les deux corpus les plus utilisés à cette fin sont le RST-DT (Rhetorical Structure Theory Discourse Treebank) et le PDTB (Penn Discourse Treebank).
RST-DT considère le discours comme une organisation hiérarchique d'unités textuelles. Un texte est d'abord divisé en unités minimales puis la relation entre ces unités est identifiée à l'aide d'un inventaire de relations de discours. À l'inverse, dans le PDTB, les relations de discours sont annotées en marquant d'abord les connecteurs de discours, puis leurs arguments. Les connecteurs de discours sont donc traités comme les ancres des relations discursives et chaque connecteur se voit attribuer une étiquette de sens à partir d'une hiérarchie d'étiquettes.
L'objectif de mon projet de recherche est d'établir une correspondance entre RST-DT et PDTB qui permettrait l'utilisation de ces deux corpus de manière transparente et interchangeable. Nous avons déjà conçu une méthode préliminaire pour établir une correspondance directe en utilisant une partie commune des corpus. Ceci nous a permis de fait correspondre 77,4 % des relations du PDTB à une relation dans RST-DT.