Le texte généré automatiquement est de plus en plus utilisé à notre époque, et un texte artificiel de qualité se doit de paraître naturel et peu répétitif. En ce sens, cette recherche consiste à construire automatiquement un dictionnaire de synonymes riche qui sera intégré dans un générateur automatique de texte multilingue (Lareau et al. 2018) et lui permettra de générer des textes variés et fluides. Pour ce faire, nous avons utilisé les données d'un réseau lexical (Polguère 2014) qui contient environ 30 000 mots reliés par différents types de relations, dont la synonymie. Pour chaque entrée du dictionnaire en construction, nous avons extrait du réseau, les mots lui étant reliés par des relations de synonymie et lui avons associé cet ensemble de synonymes. Ensuite, nous avons utilisé le modèle vectoriel BERT (Devlin et al. 2019) pour enrichir chaque entrée. En effet, les mots dont les vecteurs sont proches dans un espace vectoriel ont tendance à avoir des sens similaires. Nous avons donc demandé à BERT de nous proposer des mots dont le vecteur se rapprochait de celui de l'entrée en contexte afin d'y ajouter des synonymes absents du réseau lexical. Les résultats préliminaires indiquent que le dictionnaire fait à partir du réseau lexical est une bonne ressource pour le générateur de texte, mais que BERT a une conception très différente de la synonymie de celle des humains. Bien que les mots qu'il propose soient adéquats syntaxiquement, ils sont peu souvent synonymes.
Connexion requise
Pour ajouter un commentaire, vous devez être connecté.