Les expressions polylexicales (EPL), comme « au fur et à mesure » ou « prendre une décision », contiennent plusieurs lexèmes et démontrent de l’idiomaticité sur la sélection et la combinaison de leurs composantes. Ces expressions sont omniprésentes dans les langues et restent un grand défi pour la linguistique et le traitement automatique des langues (TAL). Il n’y a pas de consensus théorique sur les EPL dans la littérature linguistique. Étant donnée la nature hétérogène des EPL, des modèles de TAL différents doivent être développés pour traiter des EPL de types variés. La catégorisation des EPL est, de ce fait, une étape cruciale pour le traitement automatique des EPL. Notre recherche propose une méthodologie pour catégoriser des EPL de façon automatique et fine. Nous nous appuyons sur la Théorie Sens-Texte, qui définit et classifie les EPL selon leur compositionnalité sémantique. Nous développerons des approches statistiques à l’aide des modèles de langue comme BERT pour mesurer le degré de compositionnalité des EPL et établir ensuite la catégorisation. Cette approche envisage de faciliter et d’automatiser l’annotation du type d’EPL. Nous l’utiliserons dans la constitution automatique des corpus d’EPL, et surtout dans notre future recherche pour l'identification automatique des EPL, où nous distinguerons les vrais EPL des candidats potentiels.
Connexion requise
Pour ajouter un commentaire, vous devez être connecté.