Aller au contenu principal
Il y a présentement des items dans votre panier d'achat.
Julie Francoeur, Émilie Paquin, Susanna Fiorini, Marie-Jean Meurs, Vincent Larivière, Chaire de recherche du Québec sur la découvrabilité des contenus scientifiques en français
Decouvrabilite_2

Depuis l’avènement des modèles de traduction neuronale et d’IA générative, la traduction automatique a connu une transformation radicale. Ces avancées ont rendu les traductions plus fluides et contextuellement pertinentes, si bien qu’elles pourraient désormais contribuer à améliorer la découvrabilité de la science en français. 

Accroître la découvrabilité des contenus scientifiques en français grâce aux nouveaux outils de traduction automatique (TA) : c’est la promesse qui guide actuellement plusieurs plateformes de diffusion de contenus scientifiques dans leur stratégie visant à améliorer la situation du français en science. 

L’idée est de bénéficier des avancées de l’intelligence artificielle afin de faciliter la production et la diffusion de la recherche dans plusieurs langues, ce qui pourrait en théorie aider à surmonter les barrières linguistiques et à rendre la science en français plus accessible à un public international. 

L’idée est de bénéficier des avancées de l’intelligence artificielle afin de faciliter la production et la diffusion de la recherche dans plusieurs langues, ce qui pourrait en théorie aider à surmonter les barrières linguistiques et à rendre la science en français plus accessible à un public international. 

Mais loin d’être libres de toute tension, les discussions entourant l’usage de la TA en science reflètent un niveau d’optimisme variable selon les usages projetés. Ainsi, dans le meilleur des scénarios, la traduction automatique soutiendrait à très court terme la découvrabilité des contenus francophones et contribuerait à la croissance du multilinguisme dans les communautés de la recherche1, du moins dans les disciplines des sciences naturelles et médicales, qui utilisent une terminologie et une phraséologie plus homogènes que celles des sciences humaines et sociales.

D’autres appellent à davantage de nuances, et questionnent la capacité des outils de TA à véritablement garantir la fiabilité des traductions scientifiques, de même que la sécurité des données impliquées dans la recherche. En effet, malgré des progrès importants, ces outils sont souvent encore incapables de restituer les nuances, ou de gérer les phrases complexes et les négations, notamment lorsqu'ils traitent une autre langue que l'anglais2

Ces limitations sont soulignées dans un rapport de recherche du groupe de travail Traductions et science ouverte3, dans le cadre d’une étude concluant à l’utilisation raisonnée des technologies de la traduction dans le « contexte sensible » de la communication scientifique.

Vers des usages raisonnés

Les arguments en faveur de la TA en science ne doivent pas être vus « comme un appel à tout traduire de manière indiscriminée, mais plutôt à développer une approche raisonnée de la traduction tenant compte des usages et des besoins disciplinaires », selon le groupe de travail.

Si le multilinguisme est un besoin reconnu par la communauté scientifique4 tous les contenus n’ont pas à être traduits. En dépit du discours sur l’internationalisation des sciences, certaines publications demeurent destinées à un public restreint, notamment par la nature locale de leur objet, et ne bénéficieraient pas nécessairement d’une traduction. Règle générale, du fait qu’ils sont étroitement associés à des contextes locaux et nationaux, les articles portant sur des problèmes spécifiques à une société donnée ne circuleront pas à la même échelle que ceux traitant des atomes, des étoiles, des cellules, des gènes ou des virus5, peu importe la notoriété des autrices et auteurs et la langue dans laquelle ils sont rédigés. 

Bien qu’il existe plusieurs liens entre traduction et découvrabilité, toute découvrabilité accrue ne garantit pas une augmentation de la visibilité internationale, ou, du moins, pas une augmentation des usages.

Bien qu’il existe plusieurs liens entre traduction et découvrabilité, toute découvrabilité accrue ne garantit pas une augmentation de la visibilité internationale, ou, du moins, pas une augmentation des usages.

Ainsi, dans un contexte de manque de ressources et d’inflation du nombre de publications scientifiques, les besoins de traduction doivent donc être ciblés en fonction des usages réels. Par exemple, si on se rend compte qu’un article a été traduit automatiquement et indépendamment par 500 chercheuses et chercheurs, alors on peut penser qu’il serait pertinent de produire une traduction dont la qualité serait assurée par des expertes et experts humains, et qui de ce fait pourrait être citée et valorisée d’un point de vue éditorial6.

Un nécessaire travail humain 

Les erreurs de traduction existent : les outils étant conçus à partir de textes simples, ils ne saisissent pas toujours les nuances et le contexte spécifiques à la communication scientifique, complexe et spécialisée. Les contenus scientifiques nécessitent une précision terminologique que les outils de TA n’ont pas la capacité de garantir, et les erreurs de traduction qui peuvent en découler ne sont pas sans conséquences. 

Pour être utilisables – y compris par des traductrices et traducteurs qualifiés –, les outils de traduction doivent donc être entraînés à partir de corpus spécialisés et de bases terminologiques propres à chaque discipline. Ce travail doit être réalisé en continu, avec des données générées par des humains et non pas par des algorithmes, de manière à éviter la dégénérescence des modèles d'intelligence artificielle, laquelle conduirait progressivement à l’effondrement de la qualité des résultats7. Ce type de travaux a déjà donné de bons résultats en médecine par exemple, mais pas en anthropologie et en sociologie, où le langage est généralement plus conceptuel et les équivalences terminologiques entre langues, moins systématiques8.

En effet, dans les disciplines des sciences humaines et sociales, les outils de TA ne favoriseraient le multilinguisme qu’à condition d’être rigoureusement évalués en amont et nécessairement accompagnés d’une intervention humaine. Cette dernière permettrait d’assurer la qualité des traductions et le respect des concepts émergeant, entre autres, de la recherche qualitative. Ainsi, malgré tous les progrès à venir, l’humain est appelé à rester au cœur du processus. Dans ce contexte, le défi serait d’assurer le meilleur équilibre entre l’utilisation de la TA et les compétences humaines.

D’autres promesses en faveur de la découvrabilité

Intégrer des outils de traduction commerciaux comme Google Traduction, DeepL ou Microsoft Translator ou, mieux encore, des outils libres entraînés avec des données ouvertes et transparentes – dans les chaînes de production éditoriale des plateformes – permettrait de générer automatiquement les résumés et les métadonnées d’articles dans toute une série de langues. Cet usage de la TA contribuerait à la réalisation de recensions des écrits multilingues en facilitant l’accès des chercheuses et chercheurs à des articles pertinents dans des langues qu’ils ne maîtrisent pas, brisant la barrière de la langue pour celles et ceux dont la langue est en situation minoritaire.

Les communautés scientifiques pourraient alors soumettre des textes à la TA pour en connaître l’essentiel, sans exigence de précision ou de qualité, avant d’investir des ressources pour les traduire dans leur intégralité. On pourrait aussi imaginer le développement de services de traduction professionnelle à la demande.

Une autre utilisation possible consisterait à intégrer une fonction de traduction automatique sur les plateformes pour que les utilisatrices et utilisateurs puissent y effectuer des recherches dans leur langue maternelle, peu importe la langue native des sites.

Une évaluation coût-bénéfice

Bien qu’elle contienne toutes ces promesses pour améliorer la découvrabilité des contenus produits en français et pour contribuer à la réduction des inégalités subies par les chercheuses et chercheurs non anglophones, la traduction automatique appelle deux dernières réserves qui sont loin d’être négligeables.

Première réserve : son coût environnemental. Dans un contexte où le caractère énergivore de l'entraînement des modèles d’intelligence artificielle semble faire l’objet d’un consensus scientifique avec jusqu’à 626 000 kilogrammes de CO2 par modèle (soit l’équivalent de près de 125 voyages aller-retour en avion entre New York et Pékin)[1]9, il semble contre-intuitif de miser massivement sur ces technologies sans d’abord s’assurer de leur efficacité. Cette question se pose avec d’autant plus d’acuité qu’il a été démontré que, dans certains contextes exigeants comme celui que représente la communication scientifique, l’intelligence artificielle peut entraver plutôt que faciliter la compréhension10

Deuxième réserve : les outils distants de type Google Traduction, DeepL ou Microsoft Translator sont des outils commerciaux qui, lorsqu’utilisés dans leurs versions gratuites, accumulent les données partagées par les personnes utilisatrices, notamment pour (ré)entraîner leurs modèles de langage. Confier des tâches de TA à de tels outils implique donc de partager avec des tiers des contenus dont les personnes utilisatrices ne sont pas elles-mêmes propriétaires ou des données qui ne sont pas encore publiées. Éviter ce problème de sécurité et de propriété intellectuelle demanderait aux institutions de recherche de soutenir leurs communautés dans la mise à disposition d'outils de TA open source et/ou installés localement. Cela éviterait par ailleurs de dépendre d’outils qui appartiennent souvent à des géants du web qui ont une vision, voire une orientation politique, qui pourrait ne pas être compatible avec les valeurs de la communauté scientifique et qui est, de plus, susceptible de changer dans le temps.

De même, on se rappellera que toute stratégie visant à accroître le potentiel de découvrabilité des contenus scientifiques en français est vouée à l’échec sans véritable valorisation internationale des contenus multilingues.

 

Ces travaux sont soutenus par le Fonds de recherche du Québec grâce au soutien financier du ministère de l’Enseignement supérieur, dans le cadre du programme Actions concertées.

  • 1

    Commissaire à la langue française, Le français, langue du savoir ? Pour une approche structurée de l’usage de la traduction automatique dans le milieu scientifique, 2023, en ligne, https://commissairelanguefrancaise.quebec/publications/avis/francais-traduction-milieu-scientifique.pdf 

  • 2

    NLLB Team, « No Language Left Behind: Scaling Human-Centered Machine Translation », 2022, en ligne.

  • 3

    Susanna Fiorini (dir.), Rapport du groupe de travail Traductions et science ouverte, Comité pour la science ouverte, 2020, 44 p., en ligne, https://hal-lara.archives-ouvertes.fr/hal-03640511

  • 4

    Le multilinguisme est réputé garantir l’ancrage social des savoirs scientifiques et la bibliodiversité, c’est-à-dire l'expression de perspectives et de concepts qui peuvent être spécifiques à certaines langues et cultures. Dans un contexte où les travaux diffusés en anglais tendent à se conformer aux problématiques et aux priorités des communautés scientifiques internationales, le multilinguisme assure que les savoirs scientifiques sont ancrés dans les contextes sociaux et culturels locaux, ce qui peut améliorer leur pertinence et leur application pratique.

  • 5

    Yves Gingras, Mahdi Khelfaoui, Sébastien Mosbah-Natanson, « Le mirage de l’internationalisation des sciences sociales françaises : la traduction anglaise des revues Population et Revue Française de Sociologie », Zilsel, vol. 2, no 13, 2023, p. 89-111, https://doi.org/10.3917/zil.013.0089 

  • 6

    Exemple fourni par Susanna Fiorini, directrice du groupe de travail Traductions et science ouverte, dans le cadre d’un entretien sur AFTCom Channel, « Interview de Susanna Fiorini : la traduction et l’intelligence artificielle », YouTube, en ligne, https://www.youtube.com/watch?v=q2T_gxVx5d0

  • 7

    Erwan Le Tutour, « IA dégénérative : quand l’algorithme est malade », Sfeir.dev, 4 novembre 2024, en ligne, https://www.sfeir.dev/ia/ia-degenerative-quand-lalgorithme-est-malade-2/

  • 8

    Susanna Fiorini, « Traduction automatique et édition scientifique », Traduire, no 246, 2022, p. 36-45, https://doi.org/10.4000/traduire.2805

  • 9

    « L’impact écologique de l’intelligence artificielle : un défi à l’ère du numérique », Digital @ HEC Montréal, 27 mars 2024, en ligne, https://digital.hec.ca/blog/limpact-ecologique-de-lintelligence-artificielle-un-defi-a-lere-du-numerique/ 

  • 10

    RESPALDO, « Avantages et dangers de la traduction automatique », en ligne, https://respaldo.org/lintelligence-artificielle-permet-elle-de-bien-traduire/


  • Julie Francoeur, Émilie Paquin, Susanna Fiorini, Marie-Jean Meurs, Vincent Larivière
    Chaire de recherche du Québec sur la découvrabilité des contenus scientifiques en français

Vous aimez cet article?

Soutenez l’importance de la recherche en devenant membre de l’Acfas.

Devenir membre Logo de l'Acfas stylisé

Commentaires