Posts Tagged ‘capitalisme linguistique’

16 des 20 contributeurs les plus actifs sur Wikipedia sont des bots

Mai 26, 2015

Première ébauche d’un texte pour le catalogue d’une exposition au Quai Branly. Un travail réalisé avec un de mes doctorants Dana Kianfar, qui travaille sur les algorithmes et le capitalisme linguistique. Les questions plus générale sur les effets de la médiation algorithmiques sur la langue ont été traitée dans Kaplan (2014) et la transformation progressive des livres en machines, thème connexe à celui traité ici est discutée dans Kaplan (2012). Le billet prolonge le travail pionnier de Stuart Geiger dans ce domaine (Geiger 2011). J’ai également parlé de ce sujet sur la RTS 1 lors d’une interview de 10 min à l’émission CQFD. 

16 des 20 contributeurs les plus actifs sur la version anglaise de Wikipedia sont des bots. Cette estimation, a peu près équivalente à celle de Stuart Geiger en 2011, est rapidement obtenue en comparant la page qui classe les contributeurs humains le plus prolifiques avec celle qui propose le même classement pour les algorithmes. Dans ce classement qui mesure l’activité par le nombre d’actions d’édition sur l’encyclopédie en ligne, le premier contributeur humain n’arrive qu’à la douzième position. Ce chiffre varie selon les communautés linguistiques de Wikipedia. Dans le même classement pour la version espagnole de Wikipedia, on ne retrouve que deux bots.

Wikipédia n’est pas simplement le grand oeuvre d’une communauté d’utilisateurs qui, ensemble, aurait décidé de construire une encyclopédie libre et gratuite. C’est aussi le résultat du travail de plusieurs centaines d’algorithmes qui chaque jour mettent en forme, contrôlent, surveillent et réprimandent les contenus écrits. Au fil des années, les hommes ont appris à construire et structurer la connaissance en programmant des règles que les bots se chargeaient d’appliquer. Les bots ont aidé à construire Wikipedia et aujourd’hui, jouent un rôle crucial dans sa maintenance et son évolution. Ce faisant il sont devenus comme une présence, une altérité machinique que les contributeurs de l’encyclopédie en ligne ont accepté avec plus ou moins de facilité. L’histoire de ces premières frictions, la négociation progressive de l’autonomie accordée à ces algorithmes sont les prémisses d’un monde qui vient, où hommes et machines devront apprendre à partager un même espace pour écrire ensemble.

Historiquement,les bots ont joué un rôle important dans la création et le développement de Wikipédia. En février 2002, plusieurs centaines d’articles du « Federal Standard 1037c », un dictionnaire de termes techniques, ont été importés et wikifiés par un algorithme, proposant ainsi la base de nombreuses nouvelles pages que les utilisateurs que les utilisateurs purent ensuite enrichir. À la même période, de nombreux articles du « Easton’s Bible Dictionary », un ouvrage de la fin du XIXe siècle, furent également importés et restructurés pour servir de contenu initial à des pages Wikipedia encore inexistantes. Cette importation a conduit à introduire dans certaines pages de Wikipedia une prose victorienne anachronique, qui fut progressivement assimilée pour se fondre avec l’anglais contemporain. Le même bot importa une grande partie des articles de la version de 1911 de l’Encyclopedia Britanica, à partir d’une copie numérisée par le projet Gutenberg.

Durant ces premières années, les algorithmes se nourrissant des contenus suffisamment anciens pour être passés dans le domaine public ont ainsi contribué à structurer les premiers contenus de Wikipedia lui permettant d’atteindre rapidement une masse critique. Dès que la logique de « template » pouvait être appliquée, des bots ont été utilisés pour produire des articles types. Un algorithme nommé « Ram-bot » produisit ainsi les articles de base pour 30 000 villes américaines en important les données du recensement américain et en les structurant dans un style simple et systématique. Ce squelette textuel fut ensuite étoffé par les contributeurs qui l’enrichirent avec des détails de la géographie et l’histoire locale de chaque ville, expérimentant sans vraiment en avoir conscience une forme d’écriture mixte personne-machine.

Ce procédé fut répété à plusieurs reprises, mais toujours dans des domaines de la connaissance de plus en plus pointus. En 2008, par exemple, un algorithme nommé « Clue-bot II » créa 15 000 petits articles sur les astéroïdes à partir d’une base de données de la Nasa. Ces articles furent à leur tour édités puis traduits par d’autres bots. Malheureusement, la base, assez ancienne, contenait des erreurs et, quand un humain a réalisé la contamination, un processus de correction massive dut être mis en place. Ce type d’accidents a contribué à alimenter la polémique autour des bots et leur rôle positif ou négatif sur la construction et la régulation de l’encyclopédie en ligne.

Aujourd’hui les bots assurent de nombreuses fonctions de maintenance et de réparation, souvent répétitives et consommatrices de temps. Un des algorithmes patrouilleurs les plus sophistiqués s’appelle ClueBot NG. Il identifie et répare les actes de vandalisme, comme l’insertion de propos outrancier sans rapport avec le contenu d’une page donnée. D’autres bots détectent des violations possibles de copyright, tissent des liens entre les pages de différentes versions linguistiques de Wikipédia, bloquent automatiquement les pages qui sont modifiées avec trop d’intensité, corrigent les fautes de syntaxe et d’une manière générale se chargent d’automatiser les règles et normes de bon fonctionnement de l’encyclopédie en ligne. La version anglaise de Wikipédia comptant plus de 4 millions d’articles, dont une partie significative sont régulièrement mis à jour, seule une police algorithmique semble pouvoir veiller sur cet édifice en perpétuelle reconstruction. C’est ce qui a poussé certains éditeurs de Wikipédia à devenir programmateurs de bots, les concevant avant tout comme une forme d’outil d’édition puissant. Ce faisant, ils ont donné naissance à un écosystème complexe, conduisant à des articles systématiquement coproduits par des humains et des machines.

L’ambivalence des bots réside dans leur double nature, à la fois la formalisation informatique d’une règle de comportement et l’agent faisant appliquer cette règle. Une des controverses la plus importantes dans la longue histoire de la négociation de la présence des bots sur Wikipédia est relatée par Stuart Geiger (2011). L’algorithme Hagermanbot ne faisait qu’appliquer une règle acceptée sur Wikipédia. Il identifiait les commentaires sans signature et ajoutait automatiquement l’identité de leur auteur. Personne ne remettait en cause cette règle, mais quand elle fut appliquée systématiquement par l’algorithme, l’action du bot fut perçue comme embarrassante pour certains. Il existait des situations dans lesquelles un auteur pouvait vouloir différer sa signature ou effectivement laisser son commentaire non signé. Certains argumentèrent que la règle des signatures n’était qu’une « guideline » pas une loi dont l’application devait être systématiquement vérifiée par la surveillance policière et violente d’un algorithme.

C’est la différence, discutée par Bruno Latour, entre le gendarme et le « gendarme couché ». Le premier fait appliquer la limitation de vitesse dans une rue à proximité d’une école, mais sait en adapter l’application quand une ambulance doit exceptionnellement passer par ce chemin. Le « gendarme couché », devenu infrastructure urbaine de ralentissement, ne fait pas de distinction et applique la règle communément admise dans tous les contextes, sans discrimination. « Les
 techniques
 agissent
 comme
 des
 transformateurs
 de
 forme,
 faisant
 un
 policier
 d’une
 charge
 de
 béton
 frais,
 donnant
 à
 un
 gendarme 
la
 permanence
 et
 l’opiniâtreté
 de
 la
 pierre » (Latour 2001, p.199).

Alors la règle collectivement négociée devient algorithme et que l’algorithme devient agent qui fait systématiquement appliquer la règle, une force hostile semble menacer l’édifice utopique collectivement construit. Poser la question « Les bots de Wikipédia sont-ils méchants » revient à se demander si Wikipédia est l’archétype d’un collectivisme auto-organisé qui fonctionne, un modèle à imiter pour créer demain des sociétés numériques égalitaires créatrices de biens communs ou si elle préfigure au contraire une algorithmisation massive de la société caractérisée par une surveillance permanente et auto-infligée. L’algorithme s’anthropomorphise quand il devient menaçant, même si on le sait non doté d’une quelconque forme d’autonomie. Contrairement au robot humanoïde (Kaplan 2004), il fait peur non pas parce qu’il commence à ressembler à l’humain, mais parce qu’au contraire, il se montre inflexible, aveugle au contexte, et, qu’il ait raison ou qu’il ait tort, capable de soumettre les hommes aux lois qu’ils ont eux-mêmes créés. L’expérience Wikipédia nous invite à penser ces « autres » qui semblent être devenus nos partenaires, amis ou ennemis, pour organiser la connaissance à l’échelle planétaire.

Geiger, R. Stuart. 2011. “The Lives of Bots.” In Critical Point of View: A Wikipedia Reader, 78–93. Institute of Networked Cultures, Amsterdam. http://papers.ssrn.com/sol3/Delivery.cfm?abstractid=2075015#page=41.

Kaplan, Frédéric. 2004. “Who Is Afraid of the Humanoid? Investigating Cultural Differences in the Acceptance of Robots.International Journal of Humanoid Robotics 01 (03): 465–80. doi:10.1142/S0219843604000289.

Kaplan, Frédéric. 2012. “How Books Will Become Machines.” In Lire Demain. Des Manuscrits Antiques à L’ère Digitale., edited by Claire Clivaz, Jérome Meizos, François Vallotton, and Joseph Verheyden, 25–41. PPUR.

Kaplan, Frederic. 2014. “Linguistic Capitalism and Algorithmic Mediation.” Representations 127 (1): 57–63. doi:10.1525/rep.2014.127.1.57. Latour, Bruno. 2001. L’espoir de Pandore : Pour Une Version Réaliste de L’activité Scientifique. Editions La découverte. https://hal-mines-paristech.archives-ouvertes.fr/hal-00830223.

L’Anglais comme langue pivot ou l’impérialisme linguistique caché de Google Translate

novembre 15, 2014
Depuis quelques mois, j’explore avec Dana Kianfar, un des nouveaux doctorants du DHLAB financé par le Fond National suisse, la logique interne de Google Translate. Nous tentons d’en anticiper les effets culturels dans le cadre du capitalisme linguistique et des nouveaux effets de médiations algorithmiques.

Demandez à Google Translate de traduire cette “Cette fille est jolie.” en italien et vous obtiendrez une proposition étrange : “Questa ragazza è abbastanza.”, littéralement cette fille est “moyenne”. La beauté a été “lost in translation”. Comment un des traducteurs automatiques aujourd’hui les plus performants, capable d’utiliser un capital linguistique unique au monde, des milliards de phrases, peut-il faire une erreur aussi grossière ? La réponse est simple, il pivote par l’anglais. Jolie se traduit par “pretty” et “pretty” par “abbastanza”.

google translate

Une fois compris ce principe, il devient dès lors aisé de produire des phrases traductions extrêmement étranges. L’expression idiomatique “Il peut des cordes” se transforme en une expression très poétique “Piove cani and gatti”. Cette traduction directe de “It rains cats and dogs” est absolument incompréhensible pour un italien.

Il est normal que Google Translate procède de cette façon. Pour produire un traducteur automatique, il est nécessaire de disposer de grand corpus de textes identiques traduits d’une langue à l’autre. Google étant une entreprise américaine, son outil s’est construit sur des paires associant presque toujours l’anglais comme langue pivot. Pour aller du Français vers l’Italien, il faut ainsi, “par construction”, passer par une traduction anglaise intermédiaire.

Le biais culturel d’un tel procédé est évidemment important. Le Français et l’Italien sont des langues relativement proches. En comparaison, l’anglais est une langue particulière, compacte, idiomatique. Projeter vers l’espace anglophone puis reprojeter vers une langue cible induit des effets linguistiques et culturels qu’il faut étudier.

En effet, comme nous l’avons discuté ailleurs (Kaplan 2014), les textes produits algorithmiquement par des traducteurs automatiques ne sont pas nécessairement identifiés comme tels. Ils se présentent au contraire souvent comme des ressources primaires, naturelles et éventuellement prises comme modèle par un certain nombre de lecteurs. “Piove cani e gatti” peut sembler une expression admissible pour un lecteur dont l’italien n’est pas la langue maternelle et a fortiori pour des algorithmes qui étudient la structure de la langue dans le but produire artificiellement de nouveaux textes. Les modèles ainsi induits peuvent dans un second temps être utilisés par des services de médiation textuelle qui proposent par exemple d’autocompléter une phrase que vous êtes en train de taper. Il n’est pas un impensable que, dans quelque temps, un italien commençant une phrase par “Piove …” se voit proposer la continuation “Piove cani e gatti”, une expression qui sans doute n’a jamais été prononcée ou écrite dans toute l’histoire de la langue italienne. Le pivot linguistique vers l’anglais participe à un phénomène de créolisation inédit.

L’impérialisme linguistique de l’anglais a donc des effets beaucoup plus subtils que ne le laisseraient penser les approches qui n’étudient que la “guerre des langues”. Le fait de pivoter par une langue conduit à introduire dans les autres langues des logiques linguistiques propres et donc insensiblement des modes de pensée spécifiques. Il semble crucial d’inventer de nouveaux outils pour détecter et documenter ces nouvelles évolutions linguistiques.

Notons pour conclure que si l’anglais joue un rôle pivot pour les langues “européennes”, d’autres langues ont sans doute le même effet localement pour d’autres bassins linguistiques (Le Hindi par exemple). À l’échelle mondiale, c’est un réseau de chaines de traduction qui est en train de se mettre en place et qui impose parfois pour traduire une expression d’une langue à une autre de pivoter par une série de langues intermédiaires. Quand nous voyons les effets linguistiques d’un de ces pivots, imaginer des séquences de ces transformations linguistiques laisse songeur.

Kaplan, Frederic. 2014. “Linguistic Capitalism and Algorithmic Mediation.” Representations 127 (1): 57–63. doi:10.1525/rep.2014.127.1.57.

Nos langues à l’heure du capitalisme linguistique

avril 12, 2012

Invité par Bernard Stiegler aux journées préparatoires des entretiens du nouveau monde industriel, j’ai proposé une extension de mes réflexions initiales sur le capitalisme linguistique et explorant la manière dont ce nouveau régime économique pouvait transformer la langue. La publication des slides a rapidement provoqué des réactions sur le réseau dont notamment un intéressant rebond par Olivier Ertzscheid. Sur la suggestion d’Hubert Guillaud, j’ai écrit l’article suivant pour Internet Actu

Faire de chaque mot une marchandise

Google a construit son succès puis sa richesse autour de deux algorithmes.
Le premier permet de classer les ressources du web. Le second organise des enchères sur des mots clés. La combinaison de ces deux idées a permis à Google d’organiser un formidable marché de la langue et de donner naissance à un nouveau régime économique : le capitalisme linguistique.

Rappelons les principes simples de ce second algorithme qui permet de fixer la valeur de chaque mot. Un annonceur fait une enchère sur un mot clé (par exemple “vacances”) en donnant le prix maximum qu’il serait prêt à payer pour un clic. Google donne un score de qualité à la publicité mesurant son efficacité. L’algorithme exact qui produit le score de qualité de la publicité reste secret et modifiable à loisir par Google. Le rang est déterminé par le produit de l’enchère et du score. En cas de clic, l’entreprise paie un prix basé sur l’enchère juste en dessous de sa propre enchère modulé par la qualité relative entre cette deuxième enchère et celle de l’entreprise.

Ce jeu d’enchères a lieu des millions de fois par seconde, à chaque requête d’un utilisateur. Si on considère qu’il constitue la principale source de revenus de Google, nous pouvons estimer qu’il génère un chiffre d’affaires d’environ 40 milliards par an. C’est cette énorme et continuelle source de financement qui permet à Google sa politique de recherche et développement ambitieuse, et notamment l’acquisition de grandes ressources linguistiques constituant un capital de plus en plus vaste. Un projet aussi incroyable que Google Books ne représente annuellement qu’une petite portion de ce chiffre d’affaires (1,5 % selon Alain Jacquesson dans son livre Google Livres et le futur des bibliothèques numériques).

Dans ces conditions, il est pertinent d’analyser les autres services que Google propose au travers de ce prisme. Quand vous tapez le mot “vacen”, le moteur de recherche vous propose en temps réel des complétions qui non seulement corrigent la faute que vous étiez sur le point de commettre, mais également prolongent ces premières lettres par une suite de mots statistiquement probable. En proposant ce service, Google ne fait pas que vous rendre service, il transforme un matériau sans valeur en une ressource économique directement rentable. Un mot mal orthographié est en fait sans valeur économique, car peu de personnes feront des enchères à son sujet, une suite de mots statistiquement probables et souvent recherchés constitue au contraire l’assurance d’une enchère et donc d’un gain immédiat pour Google. Il s’agit pour Google de vous ramener le plus souvent possible dans le domaine de la langue qu’il exploite.

De l’économie de l’attention à l’économie de l’expression

En première approximation, nous voyons déjà comment les technologies du capitalisme linguistique poussent à la régularisation de la langue, étendant continuellement le domaine de la langue statiquement régulière et commercialement exploitable. Plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation sera efficace. Dans les dernières années, Google a multiplié la diversité de ces prothèses. Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google ; pas simplement lorsque nous faisons une recherche, mais aussi quand nous écrivons un courrier électronique avec GMail, un article avec Google Docs, nous signalons une information sur le réseau social Google+ et même oralement, à travers les interfaces de reconnaissance vocale que Google intègre à ses applications mobiles.

Avec le capitalisme linguistique, nous quittons une économie de l’attention pour entrer dans une économie de l’expression. L’enjeu n’est plus tant de capter les regards, que d’être un médiateur de la parole et l’écrit. Les gagnants seront ceux qui auront pu développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour modéliser et infléchir la langue, créer un marché linguistique contrôlé et organiser la spéculation sur les mots.

En étendant le domaine commercial de la langue au-delà du traditionnel domaine des noms de marques, le capitalisme linguistique est susceptible de provoquer des évolutions linguistiques complexes. Ces effets vont au-delà de régularisations statistiques induites par les nouvelles prothèses linguistiques.

Le “Flash Crash” du 6 mai 2010 a fait prendre conscience de l’omniprésence des algorithmes dans la finance. En quelques minutes le Dow Jones a plongé de 1000 points pour se ressaisir presque aussitôt. Après presque deux ans d’enquête sur ce mini-Krach, la chaine automatique qui a conduit à ces effets est encore mal identifiée. Peut-être ne saura-t-on jamais ce qui s’est vraiment passé ? L’essentiel des transactions est aujourd’hui réalisé par des ordinateurs et le courtage à “haute fréquence”, où chaque microseconde compte, est devenu la norme. Le système complexe résultant de ces milliers d’algorithmes est aussi difficile à comprendre et à modéliser qu’un environnement météorologique.

Le capitalisme linguistique, nouvelle étape du capitalisme ?

La finance n’est pas un cas à part. Dès que les systèmes culturels proposent des fonctions précises à optimiser, les algorithmes deviennent des alternatives pertinentes à l’action humaine. Dès que le nombre d’actions décidées par des algorithmes devient significatif par rapport aux actions humaines, la forme des systèmes culturels change profondément. Comme dans le domaine capitalisme financier, les algorithmes sont devenus des acteurs majeurs du capitalisme linguistique.

Toute prothèse linguistique peut être utilisée par un “bot” plutôt qu’un humain. Il nous fait donc désormais distinguer deux types de ressources linguistiques : (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) et (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, articles écrits par des algorithmes, spam).

Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la différence, mais il est difficile de construire des algorithmes pour faire automatiquement cette distinction. Rappelons que les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. C’est leur capital. Google voit donc les ressources secondaires comme un danger, une pollution pour ses modèles.

Faites l’expérience : prenez une phrase en Français, traduisez-la automatiquement en Anglais par un algorithme, puis en Espagnol, puis de nouveau en Français. Le résultat sera certainement très différent de l’original. Même dans les cas où les algorithmes évitent les erreurs grossières de traductions, ils infléchissent la syntaxe pour proposer des phrases certes compréhensibles, mais qu’aucun humain n’aurait jamais formulées de cette manière.

Nos langues sont désormais optimisées par et pour les machines

Rappelons qu’un nombre croissant de textes sont maintenant directement produits par des machines. Un lecteur averti peut souvent détecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains. Leur composition syntaxique et surtout leur positionnement pragmatique sonnent le plus souvent faux, reflétant les biais de l’algorithme qui les compose. Néanmoins, ces textes sont optimisés pour l’univers linguistique qu’ils investissent. Le même contenu peut donner lieu à différentes formes : articles longs ou courts, chroniques sportives, tweets, message vocal. Il peut être exprimé en optimisant son efficacité pour les moteurs de recherche (SEO) : choix de mots particuliers, de tournures statistiques optimales. Comme en finance, les algorithmes sont sans doute meilleurs que les hommes pour produire des stratégies optimales dans le milieu économique du capitalisme linguistique.

Les algorithmes qui archivent inlassablement le web ne font pas facilement la différence entre ces ressources linguistiques dégradées et les ressources primaires. Au fur et à mesure que la quantité de ressources secondaires devient significative par rapport aux ressources primaires, les modèles statistiques peuvent se modifier pour intégrer le vocabulaire, les formulations et les tournures des algorithmes. Par une rétroaction qui ne manque pas d’ironie, ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections.

Pour lutter contre cette “pollution” croissante, Google a modifié en 2011 son service Google Translate. Comme l’explique Kirti Vashee dans un billet très complet sur cette question, Google a remplacé son service créateur de ressources secondaires en un service de traduction “on demand” qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent.

Cela ne suffira pas. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique. Rappelons que sur les 30 meilleurs éditeurs de Wikipedia, les 2/3 sont des bots (voir la passionnante discussion de Stuart Geiger sur ces questions – “The Lives of Bots” in Wikipedia : A Critical Point of View. 2011 [.pdf]). D’ici deux ans, une proportion significative des messages sur les réseaux sociaux seront peut-être produits par des bots (voir de dossier“Socialbots : Voices for the Fronts” par Hwang, Pearce et Nanis dans le numéro de mars 2012 d’Interactions).

Ainsi, textes humains et algorithmiques se mêlent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que d’autres algorithmes analysent pour ensuite structurer nos propres productions linguistiques. Avec le capitalisme linguistique, la langue elle-même se transforme pour intégrer les biais linguistiques des machines et les contraintes de l’économie linguistique planétaire. Nous assistons peut-être une nouvelle phase de “grammatisation” de la langue, une nouvelle rétroaction de la technologie et de l’économie sur la langue naturelle. Dans un temps intermédiaire apparait quelque chose comme une lingua franca, un pidgin ou un créole, dont la syntaxe et le vocabulaire sont liés aux capacités linguistiques des machines et aux valeurs marchandes des mots. Il nous faut maintenant porter toute notre attention sur cette nouvelle “créolisation”.

Si notre langue se transforme, si nos enfants lisent un nombre croissant de textes coécrits par des rédacteurs humains et algorithmiques, comment, à leur tour, écriront-ils, parleront-ils, penseront-ils ?


La pollution des ressources linguistiques

mars 18, 2012

En préparation d’un exposé sur le capitalisme linguistique que je donnerai à l’ENSCI le 29 mars, j’explore dans ce billet un aspect important de ce nouvel ordre linguistique où se mélangent les écrits humains et les textes des algorithmes. 

Les nouveaux acteurs du capitalisme linguistique ont besoin d’accéder à des ressources de qualité pour chacun des marchés linguistiques qu’ils visent. Or dans il nous faut distinguer au moins deux types de ressources linguistiques: (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) et (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, article écrit par des algorithmes, spam). Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la différence, mais il est difficile de construire des algorithmes  pour faire automatiquement cette distinction.

Les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. Un acteur comme Google en proposant de multiple interfaces d’expression (Gmail, Google docs, Google +, Service de reconnaissance vocale) et de puissant outils d’accumulation linguistique (Google books, Youtube) a développé un observatoire unique pour construire des modèles statistiques précis de nombreuses langues vivantes. Grâce à ces modèles il peut proposer des outils de correction ou de complétion automatique et lisser la langue pour la faire revenir dans le domaine commercial.(un mot ou une phrase incorrecte ne valent rien car aucune enchère ne peuvent être organisée à leur propos)

Les ressources secondaires sont un danger, une pollution pour ces modèles. Prenons le cas d’un article écrite anglais traduit approximativement en français par un service de traduction. L’article est encore lisible pour un humain qui peut ainsi avoir ainsi une idée de son contenu s’il n’est pas anglophone mais il ne constitue en aucun cas un exemple valide d’une production linguistique en français. Pourtant, dans certains cas, cet article sera la base d’une seconde traduction automatique, par exemple en chinois. A chaque étape sa qualité linguistique se dégrade, pour refléter toujours plus les caractéristiques et les biais de l’algorithme de traduction.

A côté des algorithmes de traductions automatiques, un nombre croissant de textes sont maintenant directement produits par des machines. Ces algorithmes produisent à partir de données structurées des formes narratives variées : Articles longs ou courts, chroniques sportives, tweets. A nouveau, un lecteur averti peut souvent detecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains. Leur composition syntaxique et surtout leur positionnement pragmatique sonnent parfois faux, reflétant les biais de l’algorithme qui les compose.

Malheureusement les robots de Google qui archivent inlassablement le web ne font pas la différence entre ces ressources linguistiques dégradées et les ressources primaires. Au fur et à mesure que la quantité de ressources secondaires devient significative par rapport aux ressources primaires, le modèles statistiques peut se modifier pour intégrer le vocabulaire, les formulations et les tournures des algorithmes. Par une retroaction que ne manque pas d’ironie, ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 

Kirti Vashee analyse que c’est essentiellement pour cette raison que Google a décidé de fermer son service de traduction automatique en 2011. En proposant des traductions approximatives qui venaient grossir le rang des ressources linguistiques secondaires, Google polluait sa ressource vitale (« polluting its own drinking water ») en particulier pour des marchés linguistiques où ses modèles n’était peut-être pas encore aussi bons que pour l’Anglais. Rappelons que Google n’est pas dominant partout. En Russie, en Chine, au Japon et en Corée il doit faire face à une concurrence importante respectivement de Yandex, Baidu, Yahoo et NHN. Pour gagner ces marchés, il est contraint d’offrir une qualité de service irréprochable (c’est cette stratégie qui lui a permis à l’époque de battre ces concurrents sur les marchés anglo-saxons et européens)

Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent. La modification de ce service de traduction était une opération risquée pour Google dans la mesure où il était utilisé par un très grand nombre d’autres services.En agissant ainsi, Google prend le risque de perdre la confiance des développeurs qui utilise ses API, rappelant qu’à tout moment , la compagnie peut décider de changer les règles du jeu. Si Google a fait ce choix c’est que la question de la pollution des ressources linguistiques est un enjeu majeur pour son modèle commercial.

Mais transformer son service de traduction automatique ne suffira pas à stopper les autres services produisant des textes encores plus dégradés, ni à freiner le développement des textes produits par des algorithmes. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique. Comme l’explique bien Stuart Geiger, un article de Wikipedia n’est pas que le travail collectif d’un groupe de redacteurs mais également le resultat des productions de bots qui effectuent des travaux syntaxiques spécifiques et des opérations sémantiques systématiques.  Textes humains et machiniques se mélent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que les robots de Google analysent pour ensuite structurer nos propres écrits.

Les trois futurs des livres-machines

février 10, 2012

Je participe ce lundi 13 Février à une conférence débat au Centre Pompidou sur l’évolution machinique du livre organisée par Xavier de la Porte et Hubert Guillaud. Je me réjouis de la discussion avec Etienne Mineur et Alain Giffard sur ces questions. En préparation à cette rencontre j’ai rédigé ce billet qui résume une partie de mes réflexions sur les trois devenir machiniques possibles pour le livre. 

L’erreur la plus commune dans les discussions au sujet du futur du livre imprimé consiste à placer le débat sur les avantages et les défauts respectifs du papier et du digital. Il me semble qu’il ne sert à rien d’opposer deux expériences de lecture. Quelques dizaines d’années après l’invention de Gutenberg, les livres imprimés ressemblaient à si méprendre à leurs homologues papier. L’expérience utilisateur était la même. Pourtant quelque chose de fondamental avait changé dans leur mode de production.

Il est donc crucial de sentir les grandes tendances technologiques qui silencieusement sont en train de tracer les futurs possibles pour le livre. Dans ce billet, je propose de replacer l’évolution des livres dans le cadre plus général d’une théorie de l’évolution des représentations régulées. Une représentation régulée est une représentation dont la production et l’usage est soumis à un ensemble de règles. Un annuaire, une table de compte, un arbre généalogique, un diagramme de production, une carte d’une région, une encyclopédie, une feuille Excel, une présentation PowerPoint sont autant d’exemple de représentations régulées. La plupart des représentations régulées tendent vers plus de régulations au fil du temps (il y a des exceptions comme l’expression poétique qui au contraire tend vers la dérégulation).

Le processus général de cette régularisation est la transformation de conventions en mécanismes. Cette mécanisation procède en deux étapes successives :
(1) La mécanisation des règles de production
(2) La mécanisation des règles d’usage.

Au travers de cette double mécanisation les représentations régulées finissent par devenir de véritables machines.

Comment les cartes sont devenues des machines ?

Au XIVe siècles il y avait encore très peu de règles sur la manière de dessiner une carte géographique. Comme on peut le voir sur cette carte, aucune des conventions maintenant classiques (échelle, orientation vers le nord) n’était à cette époque encore en place. 150 ans plus tard, comme le montre cette carte du XVIe siècle tout ces éléments sont maintenant en place. Un véritable savoir-faire tend pour la mesure que pour la représentation s’est constitué. La carte, encore entièrement faite à la main s’est standardisée. Prenons maintenant cette carte du XXIe siècle montrant la profondeur des océans. Sa production n’inclut presque plus aucun processus manuel. Elle a été entièrement mécanisée. La mécanisation des règles de production est maintenant complète, mais son usage est encore régie par des conventions.

Le passage des cartes traditionnelles à des systèmes d’information géographique comme Google maps illustre la seconde phase du processus de mécanisation. Cette seconde mécanisation a quatre conséquences remarquables :
1. En devenant machine, la carte a internalisé ses propres usages. Les cartes machines sont plus puissantes que les cartes traditionnelles mais toutes les opérations possibles avec elles sont spécifiées à l’avance. Vous ne pouvez pas vous servir d’une carte machine comme parapluie ou paquet cadeau ! Ce passage est celui de l’outil à la machine. Vous pouvez vous servir d’un marteau comme presse papier, un usage non conventionnel. Impossible de faire cela avec une presse industrielle.
2. En devenant machines, les cartes tendent à s’agréger ensemble pour ne devenir qu’une seule carte. Il s’agit sans doute d »une propriété générale : Au fur et à mesure que les représentations régulées deviennent plus régulières, elles tendent à s’agréger sous la forme de systèmes unifiés. C’est un cas particulier du processus de concrétisation étudié par Gilbert Simondon.

3. En devenant machines, les cartes tendent à perdre leur stabilité pour ne devenir qu’un instant de pause dans un flux perpétuel. Google maps est fondamentalement une vidéo que nous consultons sur pause.

4. En devenant machines, les cartes changent de modèle commercial. Les services cartographiques sont proposés gratuitement mais en échange de la récupération des traces et des ajouts des utilisateurs. Leur valeur d’usage a augmenté et en même temps leur valeur d’échange pour l’utilisateur est devenue nulle. Ceux qui proposent ces services gratuits accumulent du capital linguistique et sémantique, lui-même monnayable.

Ce qui s’est passé pour les cartes s’est également passé pour plusieurs autres représentations régulées, comme l’évolution des tableaux en tableurs.

Que peut-on en déduire pour l’évolution du livre imprimé ?

Les livres sont des représentations régulées. Leur production a déjà été entièrement mécanisée. Il y a donc une pression forte pour à présent mécaniser leur usages conventionnels et en faire des machines complètes. Par analogie, nous devrions nous attendre à observer 4 bouleversements :

1. La transition du livre outil au livre machine intégrant sa propre interactivité.
2. L’agrégation de tous le livres-machines en l’équivalent d’un seul grand livre.
3. L’évolution du livre comme document stable en un document dépendant du temps.
4. L’arrivée d’un nouveau modèle commercial où  l’usage des livres aura plus de valeur d’échange que les livres eux-mêmes.

Certes un livre n’est pas vraiment comme une carte. Une carte est une représentation régulée de dimension 2. Un livre est un volume, une conteneur, une représentation régulée de dimension 3. Le livre peut accueillir des représentations de dimensions 2 : texte mise en page, cartes, diagramme, arbres, tables, etc. Parce qu’il est un volume fermé, le livre offre une solution pour organiser un discours dans l’espace. Il a une fonction “architecturante” permettant d’accueillir les narrations riches et les démonstrations complexes.

Chaque genre de livres est associé à des règles de structuration conventionnelles. La première mécanisation du livre commençant avec l’imprimerie a transformé ces règles en mécanismes. L’informatisation n’a fait que prolonger cette mécanisation en permettant une gestion souple de ces modèles structurels. En principe, la seconde étape du processus de mécanisation, la transformation des usages en mécanismes, devraient donner encore plus de pouvoir à l’auteur-architecte.

Mais comme les cartes, en devenant machines, les livres tendent à s’agréger en un seul grand livre, perpétuellement remanié. Ce grand livre-machine n’est rien d’autre que l’Encyclopédie. Depuis le XVIIIe siècle, l’Encyclopédie et le Livre sont porteurs de valeurs opposées. Le livre se définit par sa clôture, l’Encyclopédie est toujours en expansion. Le Livre se prête aux parcours linéaire, l’Encyclopédie suit une logique d’accès aléatoire. Fonction architecturante contre fonction totalisante, le Livre structure un discours quand l’Encyclopedie essaie d’englober le monde. Le Livre compose quand l’Encyclopédie décompose.

Dès ses premières incarnations éditoriale, L’Encyclopédie s’est trouvée à l’étroit sous forme de volumes imprimés. Dès qu’elle l’a pu l’encyclopédisme s’est incarné dans les technologies du réseau. L’ordinateur mondial qui s’est constitué avec le web est basé sur les principes et les motivations de l’encyclopédisme. Son action de description/décomposition s’est appliquée à l’ensemble de la culture.

L’Encyclopédie décompose tous les objets structurés. Elle extrait leur “contenu” et en fait un réseau. Les albums sont devenus des ensembles de chansons. Les journaux des ensembles d’articles. Elle fera des livres la même chose : une collection de pages, une collection de mots.

Les trois futurs des livres-machines

Percevant cette dynamique globale, nous pouvons voir se dessiner trois futurs pour les livres-machines

A. Les livres deviennent des ressources standardisées dans le système encyclopédique global

B. Les livres se réinventent sous la forme d’applications fermées et immersives

C. Après les écrans, les livres papiers deviennent des interfaces structurantes pour accéder à l’ordinateur planétaire.

A. L’Encyclopédie

Ce scénario correspond à la tendance dominante. Les livre sont déjà en train de devenir des ressources standardisées. Cette standardisation opère sur trois niveaux

– Des formats standards pour décrire le contenu d’un livre se mettent en place : ePub, TEI. A partir de ces descriptions standardisées, il est possible de produire plusieurs mises en pages selon les interfaces de lecture utilisées.

– La décomposition se poursuit au plan sémantique. Les textes et les images utilisées peuvent elles aussi être associés à “noeuds sémantiques” bien définis (des lieux bien définis, des personnes bien définies, des citations bien définies). Ces noeuds sémantiques servent de pivots entre les livres standardisés. D’autres types de modélisations plus ou moins sophistiquées sont également tentées, l’objectif étant d’accumuler du capital sémantique.

– La décomposition se poursuit en incluant l’usage des livres. De nouveaux formats ouverts sont aujourd’hui à l’étude pour décrire les chemins de lecture, les notes, les prêts de livres entre lecteurs. Toute la trajectoire de vie d’un livre standardisé va elle-même être décrite de manière standard. Ces “reading analytics” vont sans doute constituer un minerai de valeur exploitable économiquement.

Cette standardisation sur trois niveaux est couplée à une “digitalisation” massive. Le terme “digitalisation” décrit en fait une extraction et standardisation du contenu de millions de livres. Ces livres deviennent des données d’une immense base de données qui intègre également de nombreuses autres informations sur nos pratiques de lecteur et plus généralement sur nos vies.
L’absorption du Livre par l’Encyclopédie inaugure l’âge des lectures industrielles, pour reprendre le terme d’Alain Giffard.

B. Les applications

Alternative à l’encyclopédisme, les applications retrouvent la forme close des livres qui en faisait des îles, des réservoirs d’innovation. Les applications offrent plus de contrôles à leurs concepteurs, permettent l’utilisation des dernières ressources techniques (multitouch, GPS, accéléromètre), permettent des utilisations non connectées, peuvent inclure des vidéos, des simulations, des jeux et sont encore peu standardisées.

Les applications sont des conteneurs qui peuvent inclure des médias de dimensions 4. Elles peuvent offrir des services similaires à celles d’un site mais sont animées par une logique différente : fermeture et contrôle, la logique du livre.

Beaucoup critiquent leur fermeture en argumentant sur les bases de l’idéologie de l’Encyclopédie: ouverture, échange, partage. En l’absence de standard, le contenu des applications pourrait être difficile à lire dans quelques années.  Mais protégées par leur carapace, les applications permettent véritablement d’explorer la seconde phase de mécanisation du livre, les différentes manières dont le livre peut internaliser ses propres interactions. Les auteurs et les éditeurs peuvent concevoir de manière beaucoup plus précise l’expérience qu’ils souhaitent offrir à leurs lecteurs : des livres de cours plus pédagogiques, des romans plus immersifs, des guides voyages plus contextuels, des magazines plus divertissants, des articles plus érudits…  mais aussi des types de livres complètement nouveaux … des livres qui changent selon le moment et l’endroit où on les lit, des livres qui apprennent au fur et à mesure qu’ils sont lus et tous les autres possibles qu’offrent les livres algorithmiques.

Malheureusement, les nouveaux contenus peuvent être longs et difficiles à produire, ne fonctionner que sur les machines les plus récentes. Les éditeurs n’ont pas les budgets pour se lancer dans des créations ambitieuses. Comme ce fut le cas avec le CD-rom, ces obstacles  pourraient mettre en péril cette lignée dans l’évolution du livre.

C. Le papier comme interface

Il y une troisième voies qu’explore actuellement des artistes-ingénieurs comme Etienne Mineur ou des chercheurs dans le cadre des premières recherches sur le Paper Computing. Le papier et livre sont des interfaces extraordinaires qui peuvent maintenant être utilisées pour contrôler avec précision n’importe quel système informatique. Ils constituent peut-être l’avenir de nos écrans tactiles. Un livre relié permet d’organiser une séquence d’activités dans le temps et l’espace. Loin d’un recul, ce serait le retour de la fonction « architecturante » et des qualités ergonomiques du codex.

Dans cette approche, non seulement le livre papier ne va pas disparaître, mais il pourrait bien devenir une interface privilégiée pour d’autres activités que la lecture. Demain, nous pourrons choisir notre musique grâce à des livres, programmer notre télévision grâce à des livres, obtenir des informations sur Internet grâce à des livres. Un des avenir du livre papier pourrait donc être de devenir une interface efficace, bon marché, facile à produire et durable pour le monde numérique.

Ceux qui croient que l’avenir du livre passe nécessairement par les écrans font probablement un rapprochement trop rapide avec l’évolution récente du monde de la musique. Certes, nous assistons aujourd’hui à la constitution de très grandes bibliothèques de livres numérisés qui font penser aux « bibliothèques musicales » qui sont aujourd’hui très répandues. Mais la mort programmée du CD, support « classique » de la musique il y a encore quelques années, et l’avènement des baladeurs numériques, n’annoncent pas forcément par une analogie simpliste, la mort du livre et l’avènement des « liseuses ». Que le CD disparaisse à plus ou moins brève échéance n’a aucune importance : c’est un objet aujourd’hui dépassé, qui n’a pas d’existence autre que de se faire lire par une machine. Au contraire du CD, le livre est un objet-interface qui dispose d’un grand nombre d’atouts. Autonome et léger, il offre des possibilités interactives très intéressantes. Par exemple, nous sommes capables en quelques dizaines de secondes de retrouver un mot dans un dictionnaire parmi des dizaines de milliers. Difficile, sans clavier, de retrouver un morceau sur votre balladeur avec une bibliothèque de cette taille. De même, nous pouvons parcourir rapidement la structure d’un livre pour acquérir une première idée, superficielle certes mais tout de même précieuse, de ce qu’il contient. Impossible de faire de même avec les fichiers de son ordinateur personnel. Ces atouts permettent de penser que le livre, en tant qu’interface, a encore de beaux jours devant lui et qu’il est probablement même capable d’investir de nouveaux territoires pour le moment dominés par les interfaces électroniques — clavier et souris et interaction tactiles qui sont aujourd’hui nos modes d’accès par défaut vers les informations numérisées.

Nuançons néanmoins cet enthousiasme en rappelant que cette approche est aujourd’hui essentiellement encore du domaine de la recherche et de l’expérimentation, quand parallèlement le processus de transformation des livres en une immense encyclopédie mondiale tourne à plein régime, supposant, à tord ou à raison, que les pages des livres se liront préférentiellement sous la forme d’images derrières des vitres.

Prédictions faciles

Voici donc esquissés trois futurs des livres-machines. Est-ce que c’est trois systèmes industriels cohabiteront ? Tentons quelques prédictions faciles. Les publications les plus proches de la logique de l’Encyclopédie seront les premiers entièrement machinisés, intégrant l’ordinateur planétaire. Cela concerne typiquement les Encyclopédies, dictionnaires, publications scientifiques, livres de cuisines, guides de voyages … Les publications les plus lointaines de la logique de l’Encyclopédie resteront sous format papier, augmenté ou non, et exploreront en parallèle les machinisations sous forme d’applications. Nous pensons ici surtout aux livres pour enfants et aux romans.

Certains éditeurs vont réaliser qu’ils ne publient pas simplement des livres ou des magazines mais qu’ils gèrent en fait des corpus encyclopédiques. Ils vont les exploiter numériquement en explorant de nouveaux modèles commerciaux, sans doute à terme basé sur la gratuité. D’autres se spécialiseront dans une industrie multimédia de qualité, assez proche dans sa logique économique du monde du cinéma, mêlant potentiellement papier et digital. Ce seront probablement eux les véritables explorateurs des nouvelles potentialités du livre devenu machine.

Google et le capitalisme linguistique

septembre 7, 2011

Extension du domaine de la lutte. Le vrai et le seul modèle commercial qui fait vivre Google est la spéculation sur les mots. C’est avant tout un algorithme d’enchérissement sur les mots qui a rendu Google riche. Nous pouvons sous cette lumière reinterpréter tous les outils de complétion/correction automatique qui petit à petit tendent à accroître leur contrôle sur la langue elle-même. Ces nouvelles prothèses linguistiques ramènent la langue dans le domaine où elle est le mieux exploitable commercialement. Bienvenue dans le régime du capitalisme linguistique. 

Les enchères sur les mots génèrent des millards

Comme l’expliquait David Rowan dans Wired en aout 2009, l’algorithme d’enchère au cœur du modèle économique de Google fonctionne en 4 étapes.

1. Enchère sur un mot clé. Une entreprise choisit un mot clé (ex: « remboursement de dette ») et fait une proposition de prix. Pour aider les acheteur de mots, Google propose une estimation du montant de l’enchère a proposer pour avoir de bonnes chances d’être dans la première page des résultats proposés. Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux spécifiques. Mais attention comme nous allons le voir, le fait d’avoir l’enchère la plus haute de garanti pas que vous serez le premier sur la page.

2. Calcul du score de qualité de la publicité. Google donne un score  de la publicité elle-même sur une échelle de un à dix. Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de son contenu et rapidité de chargement) et du niveau de clics moyen de la publicité (ou d’une publicité ressemblante si cette publicité est nouvelle). En gros, ce score mesure à quel point la publicité fonctionne. L’algorithme exact qui produit ce score de qualité de la publicité, un composant essentiel au calcul du prix final, est secret. Google explique de cette partie de l’algorithme permet de protéger les utilisateurs d’une multiplication de publicités non pertinentes qui pourraient à termes tuer le média lui-même. Plusieurs procès ont néanmoins eu lieu attaquant Google d’abuser de sa position de quasi-monopole dans ce domaine.

3. Calcul du rang. L’ordre dans lequel les publicités apparaissent est ensuite déterminé par une formule relativement simple. Rang = Enchère * Score. Une publicité ayant un bon score de qualité peut ainsi compenser une enchère plus faible et arriver devant.

4. Prix Nouvelle subtilité. Le prix que paît l’entreprise 1 qui a déposé la publicité n’est pas le prix de l’enchère mais le prix de l’enchère 2 juste en dessous de sa propre enchère modulé par la qualité relative entre cette deuxième enchère et celle de l’entreprise. Tout tient dans la formule : P1 = B2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, B2 est l’enchère la plus haute en dessous de l’enchère de l’entreprise 1, Q1 la qualité de l’enchère 1, Q2 la qualité de l’enchère 2.

Ce jeu d’enchères a lieu à chaque recherche d’un utilisateur.  Sans doute des millions de fois par seconde. Cet algorithme génère des dizaines de milliards de revenu par an. 

Le marché linguistique que Google a créé est déjà global. A ce titre, la bourse des mots qui lui est associé donne une indication relativement juste des grands mouvements sémantiques mondiaux. Comme le souligne Steven Levy dans un autre article de Wired en mai 2009, les fluctuations du marché sont marqués par les changements de saisons (les mots ski et vêtements de montagne ont plus de valeur en hiver, l’été c’est « bikini » et « crème solaire » qui valent cher). Dans le même ordre d’idée, les flux et les reflux de la valeur du mot « or » témoigne de la santé financière de la planète. Google capte les mouvements réguliers de la langue et les exploite commercialement, comme d’autres spécule sur la valeur des matières premières.

Le capitalisme linguistique pousse à la régularisation de la langue

Google a donc réussi a étendre le domaine du capitalisme à la langue elle-même, à faire des mots une marchandise, à fonder un modèle commercial incroyablement profitable sur la spéculation linguistique. L’ensemble des autres projets et innovations technologiques que cette entreprise entreprend doivent être analysés sous ce prisme. Que craignent les acteurs du capitalisme linguistique ? Que la langue leur échappe, qu’elle se brise, se « dysorthographie », qu’elle devienne imprédictible … Quand Google corrige un mot que vous avez mal tapé, il ne fait pas que vous rendre service, il transforme un matériau sans valeur  (un mot mal orthographié) en une ressource économique viable (un mot bien orthographié qui lui rapporte directement de l’argent). Quand Google prolonge une phrase que vous avez commencé à taper, il ne fait pas que vous faire gagner du temps, il vous ramène dans le domaine de la langue qu’il exploite, vous invite à ne pas sortir du chemin statistique tracés par les autres internautes. Les technologies du capitalisme linguistique poussent donc naturellement à la régularisation de la langue. Plus nous ferons appel aux prothèses linguistique que l’entreprise propose laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation sera efficace.

Pas de théorie du complot. Google n’entend pas modifier la langue à dessein. La régularisation que nous évoquons ici est simplement un effet direct de la logique de son modèle commercial. Toutes les technologies intellectuelles ont eu des effets linguistiques collatéraux. La différence est que la langue est pour Google son cœur de métier et que son travail de médiation est déjà globalisé. Si Google finit par être supplanté par un compétiteur actif sur le même modèle, l’effet linguistique global sera sans doute le même. Nous entrons globalement dans le régime du capitalisme linguistique, pour le meilleur et pour le pire.

Interrogeons-nous pour finir sur la manière d’interpréter les avancées de Google dans le monde de l’édition dans cette perspective. Dans le nouveau régime du capitalisme linguistique, ne sera-t-il pas plus avantageux pour un éditeur de proposer ses livres gratuitement en échange d’une part des revenus publicitaires que Google pourra générer avec le contenu de son fond. Dans cette perspective, la potentiel commercial d’un auteur se mesurera essentiellement au regard des effets de spéculations linguistiques qui seront associés aux contenus qu’il propose. Nul doute que cela aura des effets assez immédiats sur son style d’écriture…