Nous sommes vendredi, il est 19h20. Vous recevez un message important d’un fournisseur des Grisons. Vous ne maîtrisez pas le romanche et les collègues qui pourraient vous aider sont déjà en week-end. Le message contient des informations sensibles que vous ne pouvez pas partager avec des tiers. Il ne vous suffit donc pas de copier le texte dans un outil que vous utilisez habituellement pour traduire d’autres e-mails dans une langue étrangère ou dans le cadre de vos loisirs. Néanmoins, vous devez répondre à votre fournisseur avant 20h00. Vous consultez le carnet d’adresses de l’entreprise à la recherche d’une personne qui parle le romanche.
Image: Textshuttle
La solution peut sembler toute simple : il suffit de recourir à un logiciel qui prend en charge la langue romanche. Mais c’est un peu plus complexe que cela : les moteurs ne maîtrisent pas le romanche, mais sont en mesure de générer, à partir d’un texte rédigé dans pratiquement n’importe quelle langue, un texte au contenu identique dans une autre langue. Tout le monde connaît des logiciels tels que ChatGPT, GoogleTranslate ou DeepL. Mais il en existe un autre : Textshuttle. L’exemple ci-dessus illustre parfaitement l’utilité d’un logiciel de traduction sur mesure pour les entreprises. Tandis que les géants de l’Internet élaborent essentiellement des logiciels de traduction non personnalisés et accessibles librement, la start-up Textshuttle, un spin-off de l’Université de Zurich, développe un logiciel de traduction automatique qui s’adapte aux besoins des entreprises. Grâce à cette solution, même les informations sensibles peuvent être traduites automatiquement. En effet, les différentes données restent dans l’entreprise ou sur des serveurs basés en Suisse. Cependant, la solution de traduction de Textshuttle fonctionne de la même manière que n’importe quel outil accessible librement sur Internet, en utilisant des réseaux neuronaux et l’apprentissage automatique. Cette approche est devenue la norme depuis cinq à six ans dans toutes les applications de traitement automatique des langues (Natural Language Processing). Mais il existe tout de même quelques différences par rapport aux outils disponibles en libre accès sur Internet. En mai 2023, Textshuttle a lancé une plate-forme destinée aux personnes privées, qui propose gratuitement des traductions adaptées aux spécificités linguistiques de la Suisse, à l’instar de l’eszett, qui est remplacé par le double s. Il est par ailleurs possible de traduire dans toutes les langues nationales, y compris en romanche et en suisse allemand.
Le scénario présenté ci-dessus illustre parfaitement la problématique de la protection des données sensibles. Une autre problématique inhérente aux systèmes de traduction automatique concerne le niveau de professionnalisme des traductions. Samuel Läubli, co-fondateur et directeur technique de Textshuttle, l’explique comme suit : « La différence entre un système de traduction personnalisé et non personnalisé revient à comparer une promenade en compagnie d’un chien que l’on connaît depuis longtemps et une promenade avec un chien que l’on sort pour la première fois : plus on connaît son chien, mieux on maîtrise les subtilités de son comportement et plus le niveau de considération mutuelle et la confiance sont élevés. »
Nombreuses sont les organisations qui ont un usage des langues qui leur est spécifique. Elles utilisent entre autres des tournures bien définies dans différentes langues. Il peut d’agir de revendications, de noms de produits ou de notions très techniques. Autant de textes que l’humain et la machine ne peuvent traduire correctement qu’en maîtrisant le contexte approprié et les subtilités linguistiques qui y sont associées. Pour cela, les traducteur·trice·s professionnel·le·s et les entreprises utilisent des dictionnaires numériques, semblables à un guide linguistique. Contrairement aux systèmes de traduction génériques, les solutions propres aux entreprises peuvent être reliées à des mémoires de traductions, à savoir des bases de données propres aux entreprises qui servent à assurer l’homogénéité des textes traduits. De plus, un logiciel de traduction propre à l’entreprise peut apprendre des textes spécifiques à la branche ou internes à l’entreprise.
En 2018, les auteur·rice·s d’un article publié par Microsoft Research ont prétendu que, pour la combinaison du chinois vers l’anglais, leur système de traduction automatique atteignait le même niveau de qualité qu’une traduction humaine. Cette affirmation s’appuie sur une étude au cours de laquelle des personnes de langue maternelle anglaise et chinoise ont évalué la qualité de la traduction de phrases prises isolément. Évaluer des phrases isolées ne permet pas de constater des divergences statistiquement révélatrices entre des traductions humaines et automatiques. Samuel Läubli précise que s’il s’agit d’une méthode courante pour mesurer la qualité de traductions, celle-ci n’est pas assez fouillée. Car c’est tout le texte qui doit être cohérent et pas uniquement des phrases isolées. Si l’on soumet un texte complet à l’analyse, la version traduite automatiquement est systématiquement jugée beaucoup plus mauvaise. Florian Schottmann, Head of Research, abonde dans le même sens et avance que mesurer la qualité d’une traduction est en réalité impossible quand on pense au nombre de traductions correctes possibles pour une simple phrase. Potentiellement, un texte entier peut avoir un nombre infini de traductions valables, « comme le montrent les œuvres littéraires de Georges Perec et Raymond Queneau », explique Samuel Läubli.
L’atout des systèmes de traduction automatique n’est pas de permettre à l’humain de s’affranchir du travail de traduction. L’argument principal est plutôt qu’ils permettent aux services linguistiques de rendre cette tâche plus efficace. Un accroissement de l’efficacité qui oscille entre 40 et 60 pour cent en fonction du cas et du secteur.
Les attentes élevées en matière de traitement automatique des langues véhiculées par des applications à haute visibilité, de puissants modèles de langage tels que ChatGPT ou, avant lui, le Paper évoqué par Microsoft Research, font progresser le secteur et créent une dynamique importante. Mais ces attentes entraînent aussi leur lot de défis, surtout lorsqu’elles sont trop élevées. À l’engouement initial succède généralement la déconvenue ; les traducteur·trice·s se sentent menacé·e·s, ne voient dans les traductions automatiques que des fautes et des absurdités et, au final, occultent l’opportunité que représente la transition numérique pour le secteur de la traduction. À l’inverse, les directions ne voient que le potentiel d’économies et oublient que de tels systèmes peuvent rendre les processus plus efficaces, accroître la qualité des traductions par rapport aux outils gratuits comparables et déboucher sur de nouveaux modèles commerciaux. Poussées à l’extrême, ces deux tendances, rejet et surestimation, sont mauvaises, car le recours à des prestataires de services linguistiques demeure nécessaire et parce que, qu’on le veuille ou non, la transition numérique est en marche et elle va transformer radicalement tous les secteurs.
Quand on l’interroge sur la question des enjeux, Florian Schottmann répond que de nombreuses choses demeurent floues en ce qui concerne la gestion des données. Que signifie supprimer des données d’apprentissage après qu’elles ont servi à entraîner un modèle neuronal ? Cette question n’a pas encore été tranchée, tant sur le plan théorique que juridique.
Selon lui, une autre difficulté concerne la législation en matière de marchés publics, applicable aux appels d’offres publics. Samuel Läubli et Florian Schottmann sont tous deux d’avis que la législation en matière de marchés publics et les procédures qui y sont prescrites peuvent être pertinentes pour de nombreux domaines, mais qu’elles ne correspondent pas à la manière de réaliser des projets numériques et encore moins des projets d’IA.
S’ajoutent à cela toute une série d’enjeux moindres, mais qui n’en restent pas moins importants, comme l’absence de normes à l’échelle industrielle pour la transmission et l’enregistrement des données. L’absence de normes et de formats de fichiers rend difficile le développement d’interfaces avec d’autres applications telles que des logiciels de traduction.
Il semblerait que pour les grandes entreprises, la traduction automatique de textes oraux soit aujourd’hui une préoccupation plus importante que la traduction de textes écrits. Dans le domaine des systèmes de traduction automatique de textes écrits, la recherche se concentre actuellement sur la manière d’élargir la perspective pour passer de la traduction de la phrase vers le document et la bibliothèque de documents. Un autre défi à relever est la prise en compte de la langue inclusive et des variations de ton pour p. ex. prétraduire un texte dans un langage formel ou décontracté.