Posts Tagged ‘traduction automatique’

L’Anglais comme langue pivot ou l’impérialisme linguistique caché de Google Translate

novembre 15, 2014
Depuis quelques mois, j’explore avec Dana Kianfar, un des nouveaux doctorants du DHLAB financé par le Fond National suisse, la logique interne de Google Translate. Nous tentons d’en anticiper les effets culturels dans le cadre du capitalisme linguistique et des nouveaux effets de médiations algorithmiques.

Demandez à Google Translate de traduire cette “Cette fille est jolie.” en italien et vous obtiendrez une proposition étrange : “Questa ragazza è abbastanza.”, littéralement cette fille est “moyenne”. La beauté a été “lost in translation”. Comment un des traducteurs automatiques aujourd’hui les plus performants, capable d’utiliser un capital linguistique unique au monde, des milliards de phrases, peut-il faire une erreur aussi grossière ? La réponse est simple, il pivote par l’anglais. Jolie se traduit par “pretty” et “pretty” par “abbastanza”.

google translate

Une fois compris ce principe, il devient dès lors aisé de produire des phrases traductions extrêmement étranges. L’expression idiomatique “Il peut des cordes” se transforme en une expression très poétique “Piove cani and gatti”. Cette traduction directe de “It rains cats and dogs” est absolument incompréhensible pour un italien.

Il est normal que Google Translate procède de cette façon. Pour produire un traducteur automatique, il est nécessaire de disposer de grand corpus de textes identiques traduits d’une langue à l’autre. Google étant une entreprise américaine, son outil s’est construit sur des paires associant presque toujours l’anglais comme langue pivot. Pour aller du Français vers l’Italien, il faut ainsi, “par construction”, passer par une traduction anglaise intermédiaire.

Le biais culturel d’un tel procédé est évidemment important. Le Français et l’Italien sont des langues relativement proches. En comparaison, l’anglais est une langue particulière, compacte, idiomatique. Projeter vers l’espace anglophone puis reprojeter vers une langue cible induit des effets linguistiques et culturels qu’il faut étudier.

En effet, comme nous l’avons discuté ailleurs (Kaplan 2014), les textes produits algorithmiquement par des traducteurs automatiques ne sont pas nécessairement identifiés comme tels. Ils se présentent au contraire souvent comme des ressources primaires, naturelles et éventuellement prises comme modèle par un certain nombre de lecteurs. “Piove cani e gatti” peut sembler une expression admissible pour un lecteur dont l’italien n’est pas la langue maternelle et a fortiori pour des algorithmes qui étudient la structure de la langue dans le but produire artificiellement de nouveaux textes. Les modèles ainsi induits peuvent dans un second temps être utilisés par des services de médiation textuelle qui proposent par exemple d’autocompléter une phrase que vous êtes en train de taper. Il n’est pas un impensable que, dans quelque temps, un italien commençant une phrase par “Piove …” se voit proposer la continuation “Piove cani e gatti”, une expression qui sans doute n’a jamais été prononcée ou écrite dans toute l’histoire de la langue italienne. Le pivot linguistique vers l’anglais participe à un phénomène de créolisation inédit.

L’impérialisme linguistique de l’anglais a donc des effets beaucoup plus subtils que ne le laisseraient penser les approches qui n’étudient que la “guerre des langues”. Le fait de pivoter par une langue conduit à introduire dans les autres langues des logiques linguistiques propres et donc insensiblement des modes de pensée spécifiques. Il semble crucial d’inventer de nouveaux outils pour détecter et documenter ces nouvelles évolutions linguistiques.

Notons pour conclure que si l’anglais joue un rôle pivot pour les langues “européennes”, d’autres langues ont sans doute le même effet localement pour d’autres bassins linguistiques (Le Hindi par exemple). À l’échelle mondiale, c’est un réseau de chaines de traduction qui est en train de se mettre en place et qui impose parfois pour traduire une expression d’une langue à une autre de pivoter par une série de langues intermédiaires. Quand nous voyons les effets linguistiques d’un de ces pivots, imaginer des séquences de ces transformations linguistiques laisse songeur.

Kaplan, Frederic. 2014. “Linguistic Capitalism and Algorithmic Mediation.” Representations 127 (1): 57–63. doi:10.1525/rep.2014.127.1.57.

La poésie des nouvelles écritures algorithmiques

avril 13, 2012

Stéphane Lecorney, qui gère la mise en service et le suivi des nos publications à bookapp.com  me signalait aujourd’hui la forte augmentation des commentaires créés par des bots ou des algorithmes de traduction automatique. L’occasion de voir concrètement les tournures étonnantes de l’écriture algorithmique que j’évoquais dans mon précédent billet

À propos de l’application Type & Walk  + Flashlight qui permet de taper des messages tout en marchant…

Un « utilisateur » nous dit enthousiaste :

« Intuitif à utiliser, des beaux résultats et à nouveau de bonne humeur. Merci qui a fait la! c’est vraiment cool et recommande. »

Un autre digital native, qui visiblement partage certaines bizarreries de langage avec le premier :

« Il m’aide introduire le texte horizontale et verticale, envoyer des messages SMS, envoyer d’e-mail, envoyer des messages sur Twitter et Facebook… assez amusant, je vous remercie! »

Un peu plus bas, un autre utilisateur affirme sans hésitation :

« Je pense donc que ce programme très transparent! »

Un autre s’embrouille dans les personnes (c’est vrai que c’est dur quand on est une machine)

« J’AIME cette demande et il a recommandé à plusieurs amis »

Etonnement, aucune critique négative…

Si la poésie consiste, comme l’argumentait Jean Cohen, à casser la langue pour faire ressortir un autre sens que le sens premier, les nouvelles écritures algorithmiques inaugurent de longues heures de lectures poétiques (que nous le souhaitions ou non).

La pollution des ressources linguistiques

mars 18, 2012

En préparation d’un exposé sur le capitalisme linguistique que je donnerai à l’ENSCI le 29 mars, j’explore dans ce billet un aspect important de ce nouvel ordre linguistique où se mélangent les écrits humains et les textes des algorithmes. 

Les nouveaux acteurs du capitalisme linguistique ont besoin d’accéder à des ressources de qualité pour chacun des marchés linguistiques qu’ils visent. Or dans il nous faut distinguer au moins deux types de ressources linguistiques: (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) et (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, article écrit par des algorithmes, spam). Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la différence, mais il est difficile de construire des algorithmes  pour faire automatiquement cette distinction.

Les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. Un acteur comme Google en proposant de multiple interfaces d’expression (Gmail, Google docs, Google +, Service de reconnaissance vocale) et de puissant outils d’accumulation linguistique (Google books, Youtube) a développé un observatoire unique pour construire des modèles statistiques précis de nombreuses langues vivantes. Grâce à ces modèles il peut proposer des outils de correction ou de complétion automatique et lisser la langue pour la faire revenir dans le domaine commercial.(un mot ou une phrase incorrecte ne valent rien car aucune enchère ne peuvent être organisée à leur propos)

Les ressources secondaires sont un danger, une pollution pour ces modèles. Prenons le cas d’un article écrite anglais traduit approximativement en français par un service de traduction. L’article est encore lisible pour un humain qui peut ainsi avoir ainsi une idée de son contenu s’il n’est pas anglophone mais il ne constitue en aucun cas un exemple valide d’une production linguistique en français. Pourtant, dans certains cas, cet article sera la base d’une seconde traduction automatique, par exemple en chinois. A chaque étape sa qualité linguistique se dégrade, pour refléter toujours plus les caractéristiques et les biais de l’algorithme de traduction.

A côté des algorithmes de traductions automatiques, un nombre croissant de textes sont maintenant directement produits par des machines. Ces algorithmes produisent à partir de données structurées des formes narratives variées : Articles longs ou courts, chroniques sportives, tweets. A nouveau, un lecteur averti peut souvent detecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains. Leur composition syntaxique et surtout leur positionnement pragmatique sonnent parfois faux, reflétant les biais de l’algorithme qui les compose.

Malheureusement les robots de Google qui archivent inlassablement le web ne font pas la différence entre ces ressources linguistiques dégradées et les ressources primaires. Au fur et à mesure que la quantité de ressources secondaires devient significative par rapport aux ressources primaires, le modèles statistiques peut se modifier pour intégrer le vocabulaire, les formulations et les tournures des algorithmes. Par une retroaction que ne manque pas d’ironie, ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 

Kirti Vashee analyse que c’est essentiellement pour cette raison que Google a décidé de fermer son service de traduction automatique en 2011. En proposant des traductions approximatives qui venaient grossir le rang des ressources linguistiques secondaires, Google polluait sa ressource vitale (« polluting its own drinking water ») en particulier pour des marchés linguistiques où ses modèles n’était peut-être pas encore aussi bons que pour l’Anglais. Rappelons que Google n’est pas dominant partout. En Russie, en Chine, au Japon et en Corée il doit faire face à une concurrence importante respectivement de Yandex, Baidu, Yahoo et NHN. Pour gagner ces marchés, il est contraint d’offrir une qualité de service irréprochable (c’est cette stratégie qui lui a permis à l’époque de battre ces concurrents sur les marchés anglo-saxons et européens)

Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent. La modification de ce service de traduction était une opération risquée pour Google dans la mesure où il était utilisé par un très grand nombre d’autres services.En agissant ainsi, Google prend le risque de perdre la confiance des développeurs qui utilise ses API, rappelant qu’à tout moment , la compagnie peut décider de changer les règles du jeu. Si Google a fait ce choix c’est que la question de la pollution des ressources linguistiques est un enjeu majeur pour son modèle commercial.

Mais transformer son service de traduction automatique ne suffira pas à stopper les autres services produisant des textes encores plus dégradés, ni à freiner le développement des textes produits par des algorithmes. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique. Comme l’explique bien Stuart Geiger, un article de Wikipedia n’est pas que le travail collectif d’un groupe de redacteurs mais également le resultat des productions de bots qui effectuent des travaux syntaxiques spécifiques et des opérations sémantiques systématiques.  Textes humains et machiniques se mélent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que les robots de Google analysent pour ensuite structurer nos propres écrits.

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 224 autres abonnés