En préparation d’un exposé sur le capitalisme linguistique que je donnerai à l’ENSCI le 29 mars, j’explore dans ce billet un aspect important de ce nouvel ordre linguistique où se mélangent les écrits humains et les textes des algorithmes.
Les nouveaux acteurs du capitalisme linguistique ont besoin d’accéder à des ressources de qualité pour chacun des marchés linguistiques qu’ils visent. Or dans il nous faut distinguer au moins deux types de ressources linguistiques: (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) et (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, article écrit par des algorithmes, spam). Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la différence, mais il est difficile de construire des algorithmes pour faire automatiquement cette distinction.
Les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. Un acteur comme Google en proposant de multiple interfaces d’expression (Gmail, Google docs, Google +, Service de reconnaissance vocale) et de puissant outils d’accumulation linguistique (Google books, Youtube) a développé un observatoire unique pour construire des modèles statistiques précis de nombreuses langues vivantes. Grâce à ces modèles il peut proposer des outils de correction ou de complétion automatique et lisser la langue pour la faire revenir dans le domaine commercial.(un mot ou une phrase incorrecte ne valent rien car aucune enchère ne peuvent être organisée à leur propos)
Les ressources secondaires sont un danger, une pollution pour ces modèles. Prenons le cas d’un article écrite anglais traduit approximativement en français par un service de traduction. L’article est encore lisible pour un humain qui peut ainsi avoir ainsi une idée de son contenu s’il n’est pas anglophone mais il ne constitue en aucun cas un exemple valide d’une production linguistique en français. Pourtant, dans certains cas, cet article sera la base d’une seconde traduction automatique, par exemple en chinois. A chaque étape sa qualité linguistique se dégrade, pour refléter toujours plus les caractéristiques et les biais de l’algorithme de traduction.
A côté des algorithmes de traductions automatiques, un nombre croissant de textes sont maintenant directement produits par des machines. Ces algorithmes produisent à partir de données structurées des formes narratives variées : Articles longs ou courts, chroniques sportives, tweets. A nouveau, un lecteur averti peut souvent detecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains. Leur composition syntaxique et surtout leur positionnement pragmatique sonnent parfois faux, reflétant les biais de l’algorithme qui les compose.
Malheureusement les robots de Google qui archivent inlassablement le web ne font pas la différence entre ces ressources linguistiques dégradées et les ressources primaires. Au fur et à mesure que la quantité de ressources secondaires devient significative par rapport aux ressources primaires, le modèles statistiques peut se modifier pour intégrer le vocabulaire, les formulations et les tournures des algorithmes. Par une retroaction que ne manque pas d’ironie, ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections.
Kirti Vashee analyse que c’est essentiellement pour cette raison que Google a décidé de fermer son service de traduction automatique en 2011. En proposant des traductions approximatives qui venaient grossir le rang des ressources linguistiques secondaires, Google polluait sa ressource vitale (« polluting its own drinking water ») en particulier pour des marchés linguistiques où ses modèles n’était peut-être pas encore aussi bons que pour l’Anglais. Rappelons que Google n’est pas dominant partout. En Russie, en Chine, au Japon et en Corée il doit faire face à une concurrence importante respectivement de Yandex, Baidu, Yahoo et NHN. Pour gagner ces marchés, il est contraint d’offrir une qualité de service irréprochable (c’est cette stratégie qui lui a permis à l’époque de battre ces concurrents sur les marchés anglo-saxons et européens)
Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent. La modification de ce service de traduction était une opération risquée pour Google dans la mesure où il était utilisé par un très grand nombre d’autres services.En agissant ainsi, Google prend le risque de perdre la confiance des développeurs qui utilise ses API, rappelant qu’à tout moment , la compagnie peut décider de changer les règles du jeu. Si Google a fait ce choix c’est que la question de la pollution des ressources linguistiques est un enjeu majeur pour son modèle commercial.
Mais transformer son service de traduction automatique ne suffira pas à stopper les autres services produisant des textes encores plus dégradés, ni à freiner le développement des textes produits par des algorithmes. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique. Comme l’explique bien Stuart Geiger, un article de Wikipedia n’est pas que le travail collectif d’un groupe de redacteurs mais également le resultat des productions de bots qui effectuent des travaux syntaxiques spécifiques et des opérations sémantiques systématiques. Textes humains et machiniques se mélent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que les robots de Google analysent pour ensuite structurer nos propres écrits.
avril 12, 2012 à 19 h 58 min
[…] La pollution des ressources linguistiques […]
avril 21, 2012 à 10 h 03 min
[…] Malheureusement, sans connatre l’origine d’une production, il n’est souvent pas ais de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la diffrence, mais il est difficile de construire des algorithmes pour faire automatiquement cette distinction. Rappelons que les acteurs du capitalisme linguistique doivent modliser la langue le plus parfaitement possible. C’est leur capital. Google voit donc les ressources secondaires comme un danger, une pollution pour ses modles. […]