Posts Tagged ‘bots’

16 des 20 contributeurs les plus actifs sur Wikipedia sont des bots

mai 26, 2015

Première ébauche d’un texte pour le catalogue d’une exposition au Quai Branly. Un travail réalisé avec un de mes doctorants Dana Kianfar, qui travaille sur les algorithmes et le capitalisme linguistique. Les questions plus générale sur les effets de la médiation algorithmiques sur la langue ont été traitée dans Kaplan (2014) et la transformation progressive des livres en machines, thème connexe à celui traité ici est discutée dans Kaplan (2012). Le billet prolonge le travail pionnier de Stuart Geiger dans ce domaine (Geiger 2011). J’ai également parlé de ce sujet sur la RTS 1 lors d’une interview de 10 min à l’émission CQFD. 

16 des 20 contributeurs les plus actifs sur la version anglaise de Wikipedia sont des bots. Cette estimation, a peu près équivalente à celle de Stuart Geiger en 2011, est rapidement obtenue en comparant la page qui classe les contributeurs humains le plus prolifiques avec celle qui propose le même classement pour les algorithmes. Dans ce classement qui mesure l’activité par le nombre d’actions d’édition sur l’encyclopédie en ligne, le premier contributeur humain n’arrive qu’à la douzième position. Ce chiffre varie selon les communautés linguistiques de Wikipedia. Dans le même classement pour la version espagnole de Wikipedia, on ne retrouve que deux bots.

Wikipédia n’est pas simplement le grand oeuvre d’une communauté d’utilisateurs qui, ensemble, aurait décidé de construire une encyclopédie libre et gratuite. C’est aussi le résultat du travail de plusieurs centaines d’algorithmes qui chaque jour mettent en forme, contrôlent, surveillent et réprimandent les contenus écrits. Au fil des années, les hommes ont appris à construire et structurer la connaissance en programmant des règles que les bots se chargeaient d’appliquer. Les bots ont aidé à construire Wikipedia et aujourd’hui, jouent un rôle crucial dans sa maintenance et son évolution. Ce faisant il sont devenus comme une présence, une altérité machinique que les contributeurs de l’encyclopédie en ligne ont accepté avec plus ou moins de facilité. L’histoire de ces premières frictions, la négociation progressive de l’autonomie accordée à ces algorithmes sont les prémisses d’un monde qui vient, où hommes et machines devront apprendre à partager un même espace pour écrire ensemble.

Historiquement,les bots ont joué un rôle important dans la création et le développement de Wikipédia. En février 2002, plusieurs centaines d’articles du « Federal Standard 1037c », un dictionnaire de termes techniques, ont été importés et wikifiés par un algorithme, proposant ainsi la base de nombreuses nouvelles pages que les utilisateurs que les utilisateurs purent ensuite enrichir. À la même période, de nombreux articles du « Easton’s Bible Dictionary », un ouvrage de la fin du XIXe siècle, furent également importés et restructurés pour servir de contenu initial à des pages Wikipedia encore inexistantes. Cette importation a conduit à introduire dans certaines pages de Wikipedia une prose victorienne anachronique, qui fut progressivement assimilée pour se fondre avec l’anglais contemporain. Le même bot importa une grande partie des articles de la version de 1911 de l’Encyclopedia Britanica, à partir d’une copie numérisée par le projet Gutenberg.

Durant ces premières années, les algorithmes se nourrissant des contenus suffisamment anciens pour être passés dans le domaine public ont ainsi contribué à structurer les premiers contenus de Wikipedia lui permettant d’atteindre rapidement une masse critique. Dès que la logique de « template » pouvait être appliquée, des bots ont été utilisés pour produire des articles types. Un algorithme nommé « Ram-bot » produisit ainsi les articles de base pour 30 000 villes américaines en important les données du recensement américain et en les structurant dans un style simple et systématique. Ce squelette textuel fut ensuite étoffé par les contributeurs qui l’enrichirent avec des détails de la géographie et l’histoire locale de chaque ville, expérimentant sans vraiment en avoir conscience une forme d’écriture mixte personne-machine.

Ce procédé fut répété à plusieurs reprises, mais toujours dans des domaines de la connaissance de plus en plus pointus. En 2008, par exemple, un algorithme nommé « Clue-bot II » créa 15 000 petits articles sur les astéroïdes à partir d’une base de données de la Nasa. Ces articles furent à leur tour édités puis traduits par d’autres bots. Malheureusement, la base, assez ancienne, contenait des erreurs et, quand un humain a réalisé la contamination, un processus de correction massive dut être mis en place. Ce type d’accidents a contribué à alimenter la polémique autour des bots et leur rôle positif ou négatif sur la construction et la régulation de l’encyclopédie en ligne.

Aujourd’hui les bots assurent de nombreuses fonctions de maintenance et de réparation, souvent répétitives et consommatrices de temps. Un des algorithmes patrouilleurs les plus sophistiqués s’appelle ClueBot NG. Il identifie et répare les actes de vandalisme, comme l’insertion de propos outrancier sans rapport avec le contenu d’une page donnée. D’autres bots détectent des violations possibles de copyright, tissent des liens entre les pages de différentes versions linguistiques de Wikipédia, bloquent automatiquement les pages qui sont modifiées avec trop d’intensité, corrigent les fautes de syntaxe et d’une manière générale se chargent d’automatiser les règles et normes de bon fonctionnement de l’encyclopédie en ligne. La version anglaise de Wikipédia comptant plus de 4 millions d’articles, dont une partie significative sont régulièrement mis à jour, seule une police algorithmique semble pouvoir veiller sur cet édifice en perpétuelle reconstruction. C’est ce qui a poussé certains éditeurs de Wikipédia à devenir programmateurs de bots, les concevant avant tout comme une forme d’outil d’édition puissant. Ce faisant, ils ont donné naissance à un écosystème complexe, conduisant à des articles systématiquement coproduits par des humains et des machines.

L’ambivalence des bots réside dans leur double nature, à la fois la formalisation informatique d’une règle de comportement et l’agent faisant appliquer cette règle. Une des controverses la plus importantes dans la longue histoire de la négociation de la présence des bots sur Wikipédia est relatée par Stuart Geiger (2011). L’algorithme Hagermanbot ne faisait qu’appliquer une règle acceptée sur Wikipédia. Il identifiait les commentaires sans signature et ajoutait automatiquement l’identité de leur auteur. Personne ne remettait en cause cette règle, mais quand elle fut appliquée systématiquement par l’algorithme, l’action du bot fut perçue comme embarrassante pour certains. Il existait des situations dans lesquelles un auteur pouvait vouloir différer sa signature ou effectivement laisser son commentaire non signé. Certains argumentèrent que la règle des signatures n’était qu’une « guideline » pas une loi dont l’application devait être systématiquement vérifiée par la surveillance policière et violente d’un algorithme.

C’est la différence, discutée par Bruno Latour, entre le gendarme et le « gendarme couché ». Le premier fait appliquer la limitation de vitesse dans une rue à proximité d’une école, mais sait en adapter l’application quand une ambulance doit exceptionnellement passer par ce chemin. Le « gendarme couché », devenu infrastructure urbaine de ralentissement, ne fait pas de distinction et applique la règle communément admise dans tous les contextes, sans discrimination. « Les
 techniques
 agissent
 comme
 des
 transformateurs
 de
 forme,
 faisant
 un
 policier
 d’une
 charge
 de
 béton
 frais,
 donnant
 à
 un
 gendarme 
la
 permanence
 et
 l’opiniâtreté
 de
 la
 pierre » (Latour 2001, p.199).

Alors la règle collectivement négociée devient algorithme et que l’algorithme devient agent qui fait systématiquement appliquer la règle, une force hostile semble menacer l’édifice utopique collectivement construit. Poser la question « Les bots de Wikipédia sont-ils méchants » revient à se demander si Wikipédia est l’archétype d’un collectivisme auto-organisé qui fonctionne, un modèle à imiter pour créer demain des sociétés numériques égalitaires créatrices de biens communs ou si elle préfigure au contraire une algorithmisation massive de la société caractérisée par une surveillance permanente et auto-infligée. L’algorithme s’anthropomorphise quand il devient menaçant, même si on le sait non doté d’une quelconque forme d’autonomie. Contrairement au robot humanoïde (Kaplan 2004), il fait peur non pas parce qu’il commence à ressembler à l’humain, mais parce qu’au contraire, il se montre inflexible, aveugle au contexte, et, qu’il ait raison ou qu’il ait tort, capable de soumettre les hommes aux lois qu’ils ont eux-mêmes créés. L’expérience Wikipédia nous invite à penser ces « autres » qui semblent être devenus nos partenaires, amis ou ennemis, pour organiser la connaissance à l’échelle planétaire.

Geiger, R. Stuart. 2011. “The Lives of Bots.” In Critical Point of View: A Wikipedia Reader, 78–93. Institute of Networked Cultures, Amsterdam. http://papers.ssrn.com/sol3/Delivery.cfm?abstractid=2075015#page=41.

Kaplan, Frédéric. 2004. “Who Is Afraid of the Humanoid? Investigating Cultural Differences in the Acceptance of Robots.International Journal of Humanoid Robotics 01 (03): 465–80. doi:10.1142/S0219843604000289.

Kaplan, Frédéric. 2012. “How Books Will Become Machines.” In Lire Demain. Des Manuscrits Antiques à L’ère Digitale., edited by Claire Clivaz, Jérome Meizos, François Vallotton, and Joseph Verheyden, 25–41. PPUR.

Kaplan, Frederic. 2014. “Linguistic Capitalism and Algorithmic Mediation.” Representations 127 (1): 57–63. doi:10.1525/rep.2014.127.1.57. Latour, Bruno. 2001. L’espoir de Pandore : Pour Une Version Réaliste de L’activité Scientifique. Editions La découverte. https://hal-mines-paristech.archives-ouvertes.fr/hal-00830223.

La poésie des nouvelles écritures algorithmiques

avril 13, 2012

Stéphane Lecorney, qui gère la mise en service et le suivi des nos publications à bookapp.com  me signalait aujourd’hui la forte augmentation des commentaires créés par des bots ou des algorithmes de traduction automatique. L’occasion de voir concrètement les tournures étonnantes de l’écriture algorithmique que j’évoquais dans mon précédent billet

À propos de l’application Type & Walk  + Flashlight qui permet de taper des messages tout en marchant…

Un « utilisateur » nous dit enthousiaste :

« Intuitif à utiliser, des beaux résultats et à nouveau de bonne humeur. Merci qui a fait la! c’est vraiment cool et recommande. »

Un autre digital native, qui visiblement partage certaines bizarreries de langage avec le premier :

« Il m’aide introduire le texte horizontale et verticale, envoyer des messages SMS, envoyer d’e-mail, envoyer des messages sur Twitter et Facebook… assez amusant, je vous remercie! »

Un peu plus bas, un autre utilisateur affirme sans hésitation :

« Je pense donc que ce programme très transparent! »

Un autre s’embrouille dans les personnes (c’est vrai que c’est dur quand on est une machine)

« J’AIME cette demande et il a recommandé à plusieurs amis »

Etonnement, aucune critique négative…

Si la poésie consiste, comme l’argumentait Jean Cohen, à casser la langue pour faire ressortir un autre sens que le sens premier, les nouvelles écritures algorithmiques inaugurent de longues heures de lectures poétiques (que nous le souhaitions ou non).

Nos langues à l’heure du capitalisme linguistique

avril 12, 2012

Invité par Bernard Stiegler aux journées préparatoires des entretiens du nouveau monde industriel, j’ai proposé une extension de mes réflexions initiales sur le capitalisme linguistique et explorant la manière dont ce nouveau régime économique pouvait transformer la langue. La publication des slides a rapidement provoqué des réactions sur le réseau dont notamment un intéressant rebond par Olivier Ertzscheid. Sur la suggestion d’Hubert Guillaud, j’ai écrit l’article suivant pour Internet Actu

Faire de chaque mot une marchandise

Google a construit son succès puis sa richesse autour de deux algorithmes.
Le premier permet de classer les ressources du web. Le second organise des enchères sur des mots clés. La combinaison de ces deux idées a permis à Google d’organiser un formidable marché de la langue et de donner naissance à un nouveau régime économique : le capitalisme linguistique.

Rappelons les principes simples de ce second algorithme qui permet de fixer la valeur de chaque mot. Un annonceur fait une enchère sur un mot clé (par exemple “vacances”) en donnant le prix maximum qu’il serait prêt à payer pour un clic. Google donne un score de qualité à la publicité mesurant son efficacité. L’algorithme exact qui produit le score de qualité de la publicité reste secret et modifiable à loisir par Google. Le rang est déterminé par le produit de l’enchère et du score. En cas de clic, l’entreprise paie un prix basé sur l’enchère juste en dessous de sa propre enchère modulé par la qualité relative entre cette deuxième enchère et celle de l’entreprise.

Ce jeu d’enchères a lieu des millions de fois par seconde, à chaque requête d’un utilisateur. Si on considère qu’il constitue la principale source de revenus de Google, nous pouvons estimer qu’il génère un chiffre d’affaires d’environ 40 milliards par an. C’est cette énorme et continuelle source de financement qui permet à Google sa politique de recherche et développement ambitieuse, et notamment l’acquisition de grandes ressources linguistiques constituant un capital de plus en plus vaste. Un projet aussi incroyable que Google Books ne représente annuellement qu’une petite portion de ce chiffre d’affaires (1,5 % selon Alain Jacquesson dans son livre Google Livres et le futur des bibliothèques numériques).

Dans ces conditions, il est pertinent d’analyser les autres services que Google propose au travers de ce prisme. Quand vous tapez le mot “vacen”, le moteur de recherche vous propose en temps réel des complétions qui non seulement corrigent la faute que vous étiez sur le point de commettre, mais également prolongent ces premières lettres par une suite de mots statistiquement probable. En proposant ce service, Google ne fait pas que vous rendre service, il transforme un matériau sans valeur en une ressource économique directement rentable. Un mot mal orthographié est en fait sans valeur économique, car peu de personnes feront des enchères à son sujet, une suite de mots statistiquement probables et souvent recherchés constitue au contraire l’assurance d’une enchère et donc d’un gain immédiat pour Google. Il s’agit pour Google de vous ramener le plus souvent possible dans le domaine de la langue qu’il exploite.

De l’économie de l’attention à l’économie de l’expression

En première approximation, nous voyons déjà comment les technologies du capitalisme linguistique poussent à la régularisation de la langue, étendant continuellement le domaine de la langue statiquement régulière et commercialement exploitable. Plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation sera efficace. Dans les dernières années, Google a multiplié la diversité de ces prothèses. Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google ; pas simplement lorsque nous faisons une recherche, mais aussi quand nous écrivons un courrier électronique avec GMail, un article avec Google Docs, nous signalons une information sur le réseau social Google+ et même oralement, à travers les interfaces de reconnaissance vocale que Google intègre à ses applications mobiles.

Avec le capitalisme linguistique, nous quittons une économie de l’attention pour entrer dans une économie de l’expression. L’enjeu n’est plus tant de capter les regards, que d’être un médiateur de la parole et l’écrit. Les gagnants seront ceux qui auront pu développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour modéliser et infléchir la langue, créer un marché linguistique contrôlé et organiser la spéculation sur les mots.

En étendant le domaine commercial de la langue au-delà du traditionnel domaine des noms de marques, le capitalisme linguistique est susceptible de provoquer des évolutions linguistiques complexes. Ces effets vont au-delà de régularisations statistiques induites par les nouvelles prothèses linguistiques.

Le “Flash Crash” du 6 mai 2010 a fait prendre conscience de l’omniprésence des algorithmes dans la finance. En quelques minutes le Dow Jones a plongé de 1000 points pour se ressaisir presque aussitôt. Après presque deux ans d’enquête sur ce mini-Krach, la chaine automatique qui a conduit à ces effets est encore mal identifiée. Peut-être ne saura-t-on jamais ce qui s’est vraiment passé ? L’essentiel des transactions est aujourd’hui réalisé par des ordinateurs et le courtage à “haute fréquence”, où chaque microseconde compte, est devenu la norme. Le système complexe résultant de ces milliers d’algorithmes est aussi difficile à comprendre et à modéliser qu’un environnement météorologique.

Le capitalisme linguistique, nouvelle étape du capitalisme ?

La finance n’est pas un cas à part. Dès que les systèmes culturels proposent des fonctions précises à optimiser, les algorithmes deviennent des alternatives pertinentes à l’action humaine. Dès que le nombre d’actions décidées par des algorithmes devient significatif par rapport aux actions humaines, la forme des systèmes culturels change profondément. Comme dans le domaine capitalisme financier, les algorithmes sont devenus des acteurs majeurs du capitalisme linguistique.

Toute prothèse linguistique peut être utilisée par un “bot” plutôt qu’un humain. Il nous fait donc désormais distinguer deux types de ressources linguistiques : (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) et (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, articles écrits par des algorithmes, spam).

Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la différence, mais il est difficile de construire des algorithmes pour faire automatiquement cette distinction. Rappelons que les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. C’est leur capital. Google voit donc les ressources secondaires comme un danger, une pollution pour ses modèles.

Faites l’expérience : prenez une phrase en Français, traduisez-la automatiquement en Anglais par un algorithme, puis en Espagnol, puis de nouveau en Français. Le résultat sera certainement très différent de l’original. Même dans les cas où les algorithmes évitent les erreurs grossières de traductions, ils infléchissent la syntaxe pour proposer des phrases certes compréhensibles, mais qu’aucun humain n’aurait jamais formulées de cette manière.

Nos langues sont désormais optimisées par et pour les machines

Rappelons qu’un nombre croissant de textes sont maintenant directement produits par des machines. Un lecteur averti peut souvent détecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains. Leur composition syntaxique et surtout leur positionnement pragmatique sonnent le plus souvent faux, reflétant les biais de l’algorithme qui les compose. Néanmoins, ces textes sont optimisés pour l’univers linguistique qu’ils investissent. Le même contenu peut donner lieu à différentes formes : articles longs ou courts, chroniques sportives, tweets, message vocal. Il peut être exprimé en optimisant son efficacité pour les moteurs de recherche (SEO) : choix de mots particuliers, de tournures statistiques optimales. Comme en finance, les algorithmes sont sans doute meilleurs que les hommes pour produire des stratégies optimales dans le milieu économique du capitalisme linguistique.

Les algorithmes qui archivent inlassablement le web ne font pas facilement la différence entre ces ressources linguistiques dégradées et les ressources primaires. Au fur et à mesure que la quantité de ressources secondaires devient significative par rapport aux ressources primaires, les modèles statistiques peuvent se modifier pour intégrer le vocabulaire, les formulations et les tournures des algorithmes. Par une rétroaction qui ne manque pas d’ironie, ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections.

Pour lutter contre cette “pollution” croissante, Google a modifié en 2011 son service Google Translate. Comme l’explique Kirti Vashee dans un billet très complet sur cette question, Google a remplacé son service créateur de ressources secondaires en un service de traduction “on demand” qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent.

Cela ne suffira pas. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique. Rappelons que sur les 30 meilleurs éditeurs de Wikipedia, les 2/3 sont des bots (voir la passionnante discussion de Stuart Geiger sur ces questions – “The Lives of Bots” in Wikipedia : A Critical Point of View. 2011 [.pdf]). D’ici deux ans, une proportion significative des messages sur les réseaux sociaux seront peut-être produits par des bots (voir de dossier“Socialbots : Voices for the Fronts” par Hwang, Pearce et Nanis dans le numéro de mars 2012 d’Interactions).

Ainsi, textes humains et algorithmiques se mêlent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que d’autres algorithmes analysent pour ensuite structurer nos propres productions linguistiques. Avec le capitalisme linguistique, la langue elle-même se transforme pour intégrer les biais linguistiques des machines et les contraintes de l’économie linguistique planétaire. Nous assistons peut-être une nouvelle phase de “grammatisation” de la langue, une nouvelle rétroaction de la technologie et de l’économie sur la langue naturelle. Dans un temps intermédiaire apparait quelque chose comme une lingua franca, un pidgin ou un créole, dont la syntaxe et le vocabulaire sont liés aux capacités linguistiques des machines et aux valeurs marchandes des mots. Il nous faut maintenant porter toute notre attention sur cette nouvelle “créolisation”.

Si notre langue se transforme, si nos enfants lisent un nombre croissant de textes coécrits par des rédacteurs humains et algorithmiques, comment, à leur tour, écriront-ils, parleront-ils, penseront-ils ?


La pollution des ressources linguistiques

mars 18, 2012

En préparation d’un exposé sur le capitalisme linguistique que je donnerai à l’ENSCI le 29 mars, j’explore dans ce billet un aspect important de ce nouvel ordre linguistique où se mélangent les écrits humains et les textes des algorithmes. 

Les nouveaux acteurs du capitalisme linguistique ont besoin d’accéder à des ressources de qualité pour chacun des marchés linguistiques qu’ils visent. Or dans il nous faut distinguer au moins deux types de ressources linguistiques: (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) et (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, article écrit par des algorithmes, spam). Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la différence, mais il est difficile de construire des algorithmes  pour faire automatiquement cette distinction.

Les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. Un acteur comme Google en proposant de multiple interfaces d’expression (Gmail, Google docs, Google +, Service de reconnaissance vocale) et de puissant outils d’accumulation linguistique (Google books, Youtube) a développé un observatoire unique pour construire des modèles statistiques précis de nombreuses langues vivantes. Grâce à ces modèles il peut proposer des outils de correction ou de complétion automatique et lisser la langue pour la faire revenir dans le domaine commercial.(un mot ou une phrase incorrecte ne valent rien car aucune enchère ne peuvent être organisée à leur propos)

Les ressources secondaires sont un danger, une pollution pour ces modèles. Prenons le cas d’un article écrite anglais traduit approximativement en français par un service de traduction. L’article est encore lisible pour un humain qui peut ainsi avoir ainsi une idée de son contenu s’il n’est pas anglophone mais il ne constitue en aucun cas un exemple valide d’une production linguistique en français. Pourtant, dans certains cas, cet article sera la base d’une seconde traduction automatique, par exemple en chinois. A chaque étape sa qualité linguistique se dégrade, pour refléter toujours plus les caractéristiques et les biais de l’algorithme de traduction.

A côté des algorithmes de traductions automatiques, un nombre croissant de textes sont maintenant directement produits par des machines. Ces algorithmes produisent à partir de données structurées des formes narratives variées : Articles longs ou courts, chroniques sportives, tweets. A nouveau, un lecteur averti peut souvent detecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains. Leur composition syntaxique et surtout leur positionnement pragmatique sonnent parfois faux, reflétant les biais de l’algorithme qui les compose.

Malheureusement les robots de Google qui archivent inlassablement le web ne font pas la différence entre ces ressources linguistiques dégradées et les ressources primaires. Au fur et à mesure que la quantité de ressources secondaires devient significative par rapport aux ressources primaires, le modèles statistiques peut se modifier pour intégrer le vocabulaire, les formulations et les tournures des algorithmes. Par une retroaction que ne manque pas d’ironie, ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 

Kirti Vashee analyse que c’est essentiellement pour cette raison que Google a décidé de fermer son service de traduction automatique en 2011. En proposant des traductions approximatives qui venaient grossir le rang des ressources linguistiques secondaires, Google polluait sa ressource vitale (« polluting its own drinking water ») en particulier pour des marchés linguistiques où ses modèles n’était peut-être pas encore aussi bons que pour l’Anglais. Rappelons que Google n’est pas dominant partout. En Russie, en Chine, au Japon et en Corée il doit faire face à une concurrence importante respectivement de Yandex, Baidu, Yahoo et NHN. Pour gagner ces marchés, il est contraint d’offrir une qualité de service irréprochable (c’est cette stratégie qui lui a permis à l’époque de battre ces concurrents sur les marchés anglo-saxons et européens)

Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent. La modification de ce service de traduction était une opération risquée pour Google dans la mesure où il était utilisé par un très grand nombre d’autres services.En agissant ainsi, Google prend le risque de perdre la confiance des développeurs qui utilise ses API, rappelant qu’à tout moment , la compagnie peut décider de changer les règles du jeu. Si Google a fait ce choix c’est que la question de la pollution des ressources linguistiques est un enjeu majeur pour son modèle commercial.

Mais transformer son service de traduction automatique ne suffira pas à stopper les autres services produisant des textes encores plus dégradés, ni à freiner le développement des textes produits par des algorithmes. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique. Comme l’explique bien Stuart Geiger, un article de Wikipedia n’est pas que le travail collectif d’un groupe de redacteurs mais également le resultat des productions de bots qui effectuent des travaux syntaxiques spécifiques et des opérations sémantiques systématiques.  Textes humains et machiniques se mélent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que les robots de Google analysent pour ensuite structurer nos propres écrits.