Posts Tagged ‘google’

A propos d’Ingress, jeu en réalité alternée

septembre 7, 2013

Le Temps consacre ce samedi une page entière à Ingress, jeu en réalité alternée. La journaliste, Jessica Richard, m’avait posé quelques questions pour préparer son article. Comme l’article a pris finalement la forme d’une narration décrivant essentiellement l’expérience de jeu, plus que d’une réflexion sur les enjeux de ces nouvelles formes ludiques — il faut en effet sans doute d’abord faire mieux connaitre ces jeux au grand public avant d’en discuter la spécificité de manière plus approfondie —   je me permets de reproduire ici l’interview préparatoire, dans le cas où cela pourrait intéresser quelqu’un. 

Ingress est-il selon vous un jeu de réalité augmentée ou alternée ? Et quelle est la différence entre ces deux appellations ?

Les jeux en réalité alternée sont construits autour de scénarios, le plus souvent participatifs, qui se déroulent dans notre monde et en temps réel. Ce sont d’une certaine manière de jeux de rôles « grandeur nature » ayant comme cadre notre univers familier. Certains de ces jeux utilisent de multiples modalités : les joueurs reçoivent des emails, des coups de téléphone, consultent des sites web ou utilisent une application mobile. Le jeu ne s’arrête jamais et se poursuit en parallèle des autres activités quotidiennes. Dans Ingress par exemple, les joueurs doivent se rendre des lieux réels pour effectuer des actions qui ont des impacts dans l’univers du jeu, mais évidemment seuls les joueurs de jeu le savent. Ce sentiment de participer ensemble à des actions à la fois publiques et secrètes fait partie d’un des plaisirs spécifiques des jeux en réalité alternée.

Les jeux en réalité augmentée sont ceux qui d’une manière plus générale utilisent des dispositifs informatiques (smartphone, tablette, lunette, etc.) pour superposer des représentations virtuelles sur les images de la réalité. Il s’agit en quelque sorte de voir le monde au travers d’un filtre additionnel. Ingress n’utilise pas encore vraiment ce principe, puisque les interactions ont essentiellement lieu par l’intermédiaire de cartes, mais il est clair que ce type de technologie pourrait venir enrichir l’expérience ludique et s’inscrit tout à fait dans l’esprit des jeux en réalité alternée.

— Comment caractériser l’expérience nouvelle proposée par un jeu comme Ingress ?

Des jeux comme Ingress font la synthèse et étendent de deux types de virtualités traditionnelles, l’une qui vient des jeux et l’autre qui vient de la narration. N’importe quel jeu permet de créer momentanément une parenthèse spatiotemporelle dans laquelle les règles de comportements sont différentes. C’est ce que l’historien Johan Huizinga appelait le « cercle magique ». Dans certains jeux, ce cercle est visuellement matérialisé (un court de tennis, un échiquier, une marelle). La parenthèse s’ouvre quand le jeu commence puis elle se clôt quand le jeu finit. Les enfants apprennent très tôt ce principe culturel fondamental de nos sociétés. Par ailleurs, toute narration est aussi une réalité virtuelle. L’auteur d’un roman construit un monde parallèle cohérent et nous guide dans son exploration. Quand nous lisons un livre, nous sommes donc à tout moment à deux endroits à la fois, à un arrêt de bus à Lausanne, mais aussi dans l’Angleterre de Jane Austen ou sur la trace du meurtrier dans une enquête du commissaire Maigret. Les jeux en réalité alternée étendent, d’une part, le cercle magique du jeu à la vie de tous les jours et, d’autre part, synchronisent un univers narratif parallèle dans notre propre espace et notre propre temps. C’est donc le prolongement et le mariage des deux formes culturelles assez traditionnelles qui donne cette forme d’expérience inédite.

— Qu’est-ce qu’un jeu comme Ingress nous dit des « fantasmes » de l’homme ?

Nous avons sans doute une prédisposition culturelle pour ce type d’expérience. L’existence d’univers parallèles seuls perceptibles par des initiés est une des formes classiques en littérature fantastique. C’est aussi un thème très contemporain. L’esthétique d’Ingress, notamment dans les teasers annonçant le projet, a beaucoup de similarités avec les univers de J.J Abrams, notamment ceux des séries Lost et Fringe qui joue perpétuellement sur des variations autour du thème des mondes parallèles. Ce sont d’ailleurs des univers qui ont déjà donné lieu à d’autres jeux en réalité alternée.

— Pensez-vous que ce genre de jeu qui use du monde réel comme plateforme est appelé à se développer ?

Aujourd’hui les grandes entreprises comme Google accumulent des données sur le comportement des utilisateurs, mais jusqu’à présent elles n’avaient pas d’influence directe sur leurs actions. Avec un jeu comme Ingress, une entreprise peut littéralement « sculpter » comportement des joueurs en les invitant par exemple à se rendre à un point particulier pour effectuer une action spécifique. Ceci peut servir à améliorer la collection de données cartographique en documentant les déplacements des joueurs pour se rendre vers ce point, une manière d’affiner l’évaluation des temps de parcours et la diversité des trajets possibles. C’est une forme spécifique et efficace de « crowdsourcing » qui permet non seulement de recueillir de très large quantité de données, mais de se servir des joueurs comme sujets d’expérience. Celui qui contrôle le jeu transforme de fait les joueurs en pantins.

— Dans quelques années, pensez-vous que les gamers seront équipés de Google Glass et feront de leur ville leur terrain de jeu ? Quels risques, si risque il y a, cela pourrait générer ?

Un joueur qui utilise des dispositifs de réalité augmentée comme Google Glass prend peut-être en fait moins de risque qu’un simple piéton qui traverse une rue tout en consultant ses emails sur son smartphone. C’est la captation des données associées à ce type d’interface qui est plus préoccupante. Quand une entreprise peut non seulement inciter des joueurs à se rendre à un endroit particulier, mais également capter continument leur regard durant ce trajet, elle dispose d’une stratégie sans précédent pour la collection de données. C’est, il me semble, dans cette perspective qu’il faut discuter des risques de ce type de projets.

Canaletto dans sa Google Car

octobre 22, 2012

Les Parisiens peuvent découvrir cet automne deux expositions sur Canaletto, l’une au Musée Maillol et l’autre à Jacquemart-André. Au XVIIIe siècle, les jeunes et riches aristocrates qui visitent Venise souhaitent faire l’acquisition de tableaux pour se mémoriser leur impression de voyages. Canaletto met alors au point un processus méthodique pour produire des vedute à la précision et au rendu inégalé. En nous arrêtant sur le procédé mis au point par le peintre pour obtenir cet extraordinaire réalisme, nous ne pouvons que faire des rapprochements avec le nouveau régime de la vision qui caractérise notre époque.

Le Carnet Cagnola exposé au Musée Maillol

Exposé au Musée Maillol cet automne, le carnet Cagnola (du nom de son dernier propriétaire Don Guido Cagnola qui en a fait don à l’Accademia en 1949) nous permet de comprendre la première étape du modus operandi de Canaletto. Il contient 138 esquisses prises par l’artiste en plein air, annotées de noms de lieux et d’enseignes. Canaletto réalisait ces esquisses le plus souvent dans une barque stable (pas de motoscafi et de vagues dans les canaux vénitiens au XVIIIe siècle !). Sur la barque il installait une camera obscura qui grâce à une lentille et un miroir permettait de projeter directement la vue de la scène sur les feuilles du carnet. Ce type chambre optique était déjà utilisé pour des usages topographiques dès le XVIe siècle, mais il semble que la caméra de Canaletto était plus sophistiquée, dotée en particulier d’une lentille qui lui permettait d’offrir une projection directe, sans inversion, directement sur les feuilles du carnet.

Autre page du carnet

Canaletto choisissait donc un premier point de vue depuis sa barque et retraçait les contours de l’image projetée. Puis, il faisait pivoter la lentille pour obtenir un autre angle et, progressivement, constituait ainsi une image panoramique de la situation autour de la barque.

Camera obscura exposée au Musée Maillol

De retour dans son atelier, Canaletto reprenait les projections, choisissait un angle de vue idéal pour la vedute qu’il souhaitait réaliser et commence à composer. Avec le compas, il rapportait les angles et compose mathématiquement la perspective choisie. Il recomposait ainsi méthodiquement la réalité et, comme nous le verrons plus loin, pouvait même dans un second temps la déformer pour maximiser l’effet de réalisme qu’il recherchait. Canaletto a donc mis au point un système basé un dispositif d’enregistrement mobile qui lui permet de reproduire une projection selon un angle quelconque. C’était déjà, d’une certaine manière, une modélisation en 3 dimensions de Venise et son labyrinthe de canaux.

Les neufs yeux des Google Street View Cars

Les neufs yeux des Google Street View Cars

Comment ne pas faire le rapprochement avec la méthode déployée par Google pour produire la modélisation qui permet aujourd’hui de sa « balader » virtuellement dans la plupart des grandes villes du monde ? Comme Canaletto avec sa camera obsura rotative sur sa barque, des voitures, les Google Steet View Cars, sillonnent les villes avec une série de cameras prenant des photos avec des angles pluriels, de manière à reconstruire une vue panoramique après un processus mathématique …

Ce processus de captation et de reconstitution s’inscrit dans le cas de Google dans une stratégie bien plus large. Depuis une petite dizaine d’années, Google, riche de sa position dominante sur le marché du capitalisme linguistique (40 milliards de dollars de chiffre d’affaires par an), investit dans une utopie, la mise en place d’un nouveau régime de visibilité. D’abord avec Google maps et Google Earth, puis avec Google Street View et bientôt peut être en exploitant les données de millions de lunettes dotées de cameras, Google construit une base de données visuelles qui découpe méthodiquement le monde selon une multitude de points de vue complémentaires : ceux des satellites d’abord, ceux des voitures urbaines ensuite, ceux des individus demain. Nous ne mesurons pas encore les conséquences de ce nouvel ordre visuel et comme toujours, ce sont des artistes qui, les premiers, tentent de rendre compte des dimensions de ces bases de données (voir par exemple le projet Robotflaneur de James Bridle, ou The nine eyes of Google Street View).

Le nouveau régime de visibilité introduit par les bases de données de Google est l’aboutissement de la vision newtonienne de l’espace, homogène et isotrope.  Prolongé par les bases de données, cet espace a maintenant une structure algorithmique, mais les principes de transformations qui ont permis sa captation et sa reconstitution sont ceux de Newton, ceux utilisés par Canaletto. André Corboz faisait à ce titre remarquer que le commanditaire principal de Canaletto, Joseph Smith, consul d’Angleterre à Venise, s’appliquait à faire diffuser la pensée de Newton et trouvait dans la précision de l’artiste vénitien une expression visuelle de cet idéal (Corboz, De la ville au patrimoine urbain, Presses de l’Université de Québec, 2009, p.4). Il y a donc une continuité philosophique et méthodologique qui lie la barque du peintre vénitien aux voitures de la firme de Mountain View. Mais cette filiation des processus de construction s’accompagne aussi d’une discontinuité dans le processus de restitution finale : contrairement à Google, Canaletto prend ses distances par rapport à l’espace de Newton dans le processus de reconstruction.

Canaletto a fait ses débuts comme scénographe de théâtre et il sait que rien n’est moins réaliste que la réalité. L’expérience de Venise ne peut être saisie par la captation méthodique des projections et la reconstruction mathématique minutieuse. Nous voyons le Grand Canal plus grand qu’il est. Notre expérience de l’harmonie de composition architecturale de la place Saint Marc ne tient pas dans un point de vue et une perspective, si habilement choisis soient-ils. Il faut alors sans sacrifier à la précision du rendu et de la composition, jouer avec les lignes de fuites, l’organisation des plans, créer d’une certaine manière une illusion absolument réaliste.

L’entrée du Grand Canal et la Basilique de la Salute, 1730 – l’église San Gregorio a été déplacée vers la droite par rapport à sa véritable position

Le processus qui à partir des images captées par les Google cars produit les visions panoramiques de Google Street View est automatisé et fiable, mais il n’inclut pas évidemment la dernière étape du processus de reconstruction de Canaletto, sa manière de tricher avec de la composition mathématique pour produire des représentations encore plus saisissantes.

Il serait tentant de s’arrêter ici en concluant que là où le processus algorithmique s’achève, le génie commence. La différence entre la banalité des visions panoramiques de Google Street View et la perfection urbaine des vedute de Canaletto tiendrait simplement dans l’instinct artistique du peintre. Mais il est également possible que Canaletto ait consciemment mis au point une méthode de restitution, certes différente de la simplement reconstruction mathématique, mais néanmoins traduisible dans ces procédés identifiables et analysables. Nous savons que Joseph Smith avait organisé avec brio la valorisation des ces oeuvres auprès des riches britanniques et que la demande toujours plus forte  avait conduit le peintre non seulement à produire des centaines d’oeuvres, mais aussi à perfectionner toujours plus certaines déformations comme l’intensification de la pureté lumineuse, dont cette transparence cristalline très appréciée des acheteurs. Au-delà de la géométrie architecturale et des processus de lumière, Cannaletto était aussi passé maitre dans l’organisation des personnages qui lui permettait de recréer la vie dans ces compositions urbaines réinventées. De nouveau, étant donné le nombre des oeuvres qu’il produisait par an, il semble raisonnable de penser qu’il ait développé une approche méthodique et explicite pour transformer les projections urbaines captées par la camera obscura, en scènes urbaines immortalisant une Venise luxuriante de vie. Jusqu’où pourrait-on décomposer analytiquement cette méthode ? Jusqu’où pourrait-on modéliser les processus qui la composent ?

Nous gagnerions beaucoup à mieux comprendre ce que Canaletto fait quand il transforme une recomposition géométrique juste en une image qui semble plus réelle que la réalité :  pas simplement pour mieux comprendre le génie du peintre, mais aussi, plus pragmatiquement pour tenter d’adapter une partie de son savoir-faire aux besoins de notre époque. Malgré leur technicité, nos représentations 3D peinent toujours à redonner l’expérience de l’espace.  Leur trop exacte géométrie les dessert. Il nous manque l’art ou la méthode de nouveaux vedutistes digitaux pour inventer, de nouveau, comment passer de la géométrie à la véritable illusion de la réalité.

Nos langues à l’heure du capitalisme linguistique

avril 12, 2012

Invité par Bernard Stiegler aux journées préparatoires des entretiens du nouveau monde industriel, j’ai proposé une extension de mes réflexions initiales sur le capitalisme linguistique et explorant la manière dont ce nouveau régime économique pouvait transformer la langue. La publication des slides a rapidement provoqué des réactions sur le réseau dont notamment un intéressant rebond par Olivier Ertzscheid. Sur la suggestion d’Hubert Guillaud, j’ai écrit l’article suivant pour Internet Actu

Faire de chaque mot une marchandise

Google a construit son succès puis sa richesse autour de deux algorithmes.
Le premier permet de classer les ressources du web. Le second organise des enchères sur des mots clés. La combinaison de ces deux idées a permis à Google d’organiser un formidable marché de la langue et de donner naissance à un nouveau régime économique : le capitalisme linguistique.

Rappelons les principes simples de ce second algorithme qui permet de fixer la valeur de chaque mot. Un annonceur fait une enchère sur un mot clé (par exemple “vacances”) en donnant le prix maximum qu’il serait prêt à payer pour un clic. Google donne un score de qualité à la publicité mesurant son efficacité. L’algorithme exact qui produit le score de qualité de la publicité reste secret et modifiable à loisir par Google. Le rang est déterminé par le produit de l’enchère et du score. En cas de clic, l’entreprise paie un prix basé sur l’enchère juste en dessous de sa propre enchère modulé par la qualité relative entre cette deuxième enchère et celle de l’entreprise.

Ce jeu d’enchères a lieu des millions de fois par seconde, à chaque requête d’un utilisateur. Si on considère qu’il constitue la principale source de revenus de Google, nous pouvons estimer qu’il génère un chiffre d’affaires d’environ 40 milliards par an. C’est cette énorme et continuelle source de financement qui permet à Google sa politique de recherche et développement ambitieuse, et notamment l’acquisition de grandes ressources linguistiques constituant un capital de plus en plus vaste. Un projet aussi incroyable que Google Books ne représente annuellement qu’une petite portion de ce chiffre d’affaires (1,5 % selon Alain Jacquesson dans son livre Google Livres et le futur des bibliothèques numériques).

Dans ces conditions, il est pertinent d’analyser les autres services que Google propose au travers de ce prisme. Quand vous tapez le mot “vacen”, le moteur de recherche vous propose en temps réel des complétions qui non seulement corrigent la faute que vous étiez sur le point de commettre, mais également prolongent ces premières lettres par une suite de mots statistiquement probable. En proposant ce service, Google ne fait pas que vous rendre service, il transforme un matériau sans valeur en une ressource économique directement rentable. Un mot mal orthographié est en fait sans valeur économique, car peu de personnes feront des enchères à son sujet, une suite de mots statistiquement probables et souvent recherchés constitue au contraire l’assurance d’une enchère et donc d’un gain immédiat pour Google. Il s’agit pour Google de vous ramener le plus souvent possible dans le domaine de la langue qu’il exploite.

De l’économie de l’attention à l’économie de l’expression

En première approximation, nous voyons déjà comment les technologies du capitalisme linguistique poussent à la régularisation de la langue, étendant continuellement le domaine de la langue statiquement régulière et commercialement exploitable. Plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation sera efficace. Dans les dernières années, Google a multiplié la diversité de ces prothèses. Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google ; pas simplement lorsque nous faisons une recherche, mais aussi quand nous écrivons un courrier électronique avec GMail, un article avec Google Docs, nous signalons une information sur le réseau social Google+ et même oralement, à travers les interfaces de reconnaissance vocale que Google intègre à ses applications mobiles.

Avec le capitalisme linguistique, nous quittons une économie de l’attention pour entrer dans une économie de l’expression. L’enjeu n’est plus tant de capter les regards, que d’être un médiateur de la parole et l’écrit. Les gagnants seront ceux qui auront pu développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour modéliser et infléchir la langue, créer un marché linguistique contrôlé et organiser la spéculation sur les mots.

En étendant le domaine commercial de la langue au-delà du traditionnel domaine des noms de marques, le capitalisme linguistique est susceptible de provoquer des évolutions linguistiques complexes. Ces effets vont au-delà de régularisations statistiques induites par les nouvelles prothèses linguistiques.

Le “Flash Crash” du 6 mai 2010 a fait prendre conscience de l’omniprésence des algorithmes dans la finance. En quelques minutes le Dow Jones a plongé de 1000 points pour se ressaisir presque aussitôt. Après presque deux ans d’enquête sur ce mini-Krach, la chaine automatique qui a conduit à ces effets est encore mal identifiée. Peut-être ne saura-t-on jamais ce qui s’est vraiment passé ? L’essentiel des transactions est aujourd’hui réalisé par des ordinateurs et le courtage à “haute fréquence”, où chaque microseconde compte, est devenu la norme. Le système complexe résultant de ces milliers d’algorithmes est aussi difficile à comprendre et à modéliser qu’un environnement météorologique.

Le capitalisme linguistique, nouvelle étape du capitalisme ?

La finance n’est pas un cas à part. Dès que les systèmes culturels proposent des fonctions précises à optimiser, les algorithmes deviennent des alternatives pertinentes à l’action humaine. Dès que le nombre d’actions décidées par des algorithmes devient significatif par rapport aux actions humaines, la forme des systèmes culturels change profondément. Comme dans le domaine capitalisme financier, les algorithmes sont devenus des acteurs majeurs du capitalisme linguistique.

Toute prothèse linguistique peut être utilisée par un “bot” plutôt qu’un humain. Il nous fait donc désormais distinguer deux types de ressources linguistiques : (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) et (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, articles écrits par des algorithmes, spam).

Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la différence, mais il est difficile de construire des algorithmes pour faire automatiquement cette distinction. Rappelons que les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. C’est leur capital. Google voit donc les ressources secondaires comme un danger, une pollution pour ses modèles.

Faites l’expérience : prenez une phrase en Français, traduisez-la automatiquement en Anglais par un algorithme, puis en Espagnol, puis de nouveau en Français. Le résultat sera certainement très différent de l’original. Même dans les cas où les algorithmes évitent les erreurs grossières de traductions, ils infléchissent la syntaxe pour proposer des phrases certes compréhensibles, mais qu’aucun humain n’aurait jamais formulées de cette manière.

Nos langues sont désormais optimisées par et pour les machines

Rappelons qu’un nombre croissant de textes sont maintenant directement produits par des machines. Un lecteur averti peut souvent détecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains. Leur composition syntaxique et surtout leur positionnement pragmatique sonnent le plus souvent faux, reflétant les biais de l’algorithme qui les compose. Néanmoins, ces textes sont optimisés pour l’univers linguistique qu’ils investissent. Le même contenu peut donner lieu à différentes formes : articles longs ou courts, chroniques sportives, tweets, message vocal. Il peut être exprimé en optimisant son efficacité pour les moteurs de recherche (SEO) : choix de mots particuliers, de tournures statistiques optimales. Comme en finance, les algorithmes sont sans doute meilleurs que les hommes pour produire des stratégies optimales dans le milieu économique du capitalisme linguistique.

Les algorithmes qui archivent inlassablement le web ne font pas facilement la différence entre ces ressources linguistiques dégradées et les ressources primaires. Au fur et à mesure que la quantité de ressources secondaires devient significative par rapport aux ressources primaires, les modèles statistiques peuvent se modifier pour intégrer le vocabulaire, les formulations et les tournures des algorithmes. Par une rétroaction qui ne manque pas d’ironie, ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections.

Pour lutter contre cette “pollution” croissante, Google a modifié en 2011 son service Google Translate. Comme l’explique Kirti Vashee dans un billet très complet sur cette question, Google a remplacé son service créateur de ressources secondaires en un service de traduction “on demand” qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent.

Cela ne suffira pas. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique. Rappelons que sur les 30 meilleurs éditeurs de Wikipedia, les 2/3 sont des bots (voir la passionnante discussion de Stuart Geiger sur ces questions – “The Lives of Bots” in Wikipedia : A Critical Point of View. 2011 [.pdf]). D’ici deux ans, une proportion significative des messages sur les réseaux sociaux seront peut-être produits par des bots (voir de dossier“Socialbots : Voices for the Fronts” par Hwang, Pearce et Nanis dans le numéro de mars 2012 d’Interactions).

Ainsi, textes humains et algorithmiques se mêlent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que d’autres algorithmes analysent pour ensuite structurer nos propres productions linguistiques. Avec le capitalisme linguistique, la langue elle-même se transforme pour intégrer les biais linguistiques des machines et les contraintes de l’économie linguistique planétaire. Nous assistons peut-être une nouvelle phase de “grammatisation” de la langue, une nouvelle rétroaction de la technologie et de l’économie sur la langue naturelle. Dans un temps intermédiaire apparait quelque chose comme une lingua franca, un pidgin ou un créole, dont la syntaxe et le vocabulaire sont liés aux capacités linguistiques des machines et aux valeurs marchandes des mots. Il nous faut maintenant porter toute notre attention sur cette nouvelle “créolisation”.

Si notre langue se transforme, si nos enfants lisent un nombre croissant de textes coécrits par des rédacteurs humains et algorithmiques, comment, à leur tour, écriront-ils, parleront-ils, penseront-ils ?


Une autre algorithmie de la découverte

mars 21, 2012

La Fondation Cartier organise ce jeudi 22 mars à 19h, une discussion Google Hang-Out sur curiosité et les algorithmes avec 5 ingénieurs de Google, Pierre-Yves Oudeyer et moi-même. 

L’exposition de la Fondation Cartier « Mathématiques, un dépaysement soudain » ferme ses portes cette semaine à Paris. Laurent Bolli et moi-même avons collaboré sur plusieurs projets de l’exposition :

- Le projet, finalement non retenu sous cette forme de la bibliothèque de Gromov (voir mon précédent bille « Replier les textes comme des proteines« )

- Le projet de Takeshi Kitano et David Lynch : La réponse est 2011 (voir également un autre billet sur ce sujet et sur la solution inventée par Quentin Bonnard, un des mes doctorants)

- L’application iPad de l’exposition basée sur le principe mathématique de la curiosité exploré par Pierre-Yves Oudeyer et moi-même il y a quelques années.

Je n’avais pas pris le temps à l’époque d’expliquer le principe original de ce dernier projet.


Cercle de pertinence, cercle de curiosité

L’application présente plusieurs centaines de documents provenant de l’exposition mais aussi des archives de la Fondation Cartier (Contenus sonores, Biographies, Vidéos, Concepts, Images, Evènements). Chaque document est associé à un vecteur N de k paramètres codant un identifiant, son type et des indications sur son contenu. L’espace des documents peut donc être considéré comme un espace de dimension k, relativement grand. L’utilisateur va naviguer dans cet espace grâce à deux algorithmes.

L’interface de l’application est organisée sous la forme de deux cercles concentriques. Le premier cercle de « pertinence » présente les transitions statistiquement les plus communes entre le noeud central N(t) et les autres noeuds de le l’application étant donné le chemin S(t) = Sn(t) = ((N(t), N(t-1)…. N (t-n)) récemment parcouru par l’utilisateur. Le système tente donc de prédire quel sera le prochain noeud à visiter en fonction du parcours des autres utilisateur.  Il s’agit donc d’un système de recommandations assez classique basé la maximisation de la prédiction.  A partir de l’analyse de l’ensemble des chemins des utilisateurs, l’algorithme propose les chemins qu’il a observés comme étant les plus choisis. A chaque choix d’un noeud par l’utilisateur il améliore également son modèle de transition (distribution statistique des transitions à partir d’un chemin donné). Tous les parcours des utilisateurs contribuent donc à affiner ce modèle central.

Le second cercle de « curiosité », l’algorithme propose des noeuds basés sur une adaptation des algorithmes de découverte que nous avons développés Pierre-Yves Oudeyer et moi-même il y a presque dix ans (voir les pages que Pierre-Yves Oudeyer proposent sur ce sujet, un peu plus à jour que les miennes).  Ces algorithmes apprennent un peu comme des enfants (un projet que Turing formulait déjà clairement dans les années 1950s). Ils ne tentent pas de faire des choix en fonction de critères extérieurs (ex: proposer la réponse la plus pertinente pour un utilisateur) mais pour optimiser leur propre apprentissage. A tout moment, ils se posent la question : que dois-je maintenant faire pour un apprendre le plus possible sur l’espace que j’explore ?.

Il est probable que ce soit ce même type de motivation intrinsèque qui pousse par exemple un jeune enfant à jouer avec l’emballage d’un cadeau plutôt qu’avec le jouet qu’il contient. La promesse sensorimotrice de l’emballage étant plus alléchante que celle proposée par le jouet. Nous avons également montré comme ce principe permet de faire émerger des séquences développementale organisée chez un robot apprenant (voir notre article sur ce sujet mais également la video d’AIBO apprenant à marcher grâce à ce type d’exploration ou la salle de jeux pour robot qui nous avions développée avec des designers de l’ECAL pour explorer ce même principe.). A la Fondation Cartier, Pierre-Yves Oudeyer a présenté Ergo-robots, une installation robotique  mise en scène par David Lynch qui permet de découvrir comment se comportent un groupe de robots, motivé par le principe de curiosité.

Les algorithmes de curiosité donnent des effets impressionnants en robotique, mais leur utilité est bien plus large. Ce champ de recherche rejoint d’ailleurs d’autres domaines des statistiques développées en 1972 par Fedorov sous le terme « optimal experiment design » . Des chercheurs en Machine Learning comme Jurgen Schmidhuber ont, dès les années 1990s, commencé à théoriser la pertinence de ces algorithmes pour l’exploration de grands espaces de données. En une vingtaines d’années tout une famille d’algorithmes ont vu le jour, tous construits autour  d’une même intuition : les machines doivent choisir les meilleures actions pour optimiser leur propre apprentissage. 

Un algorithme dont l’apprentissage progresse optimallement

C’est un même principe que nous avons mis en oeuvre pour le second cercle de l’application iPad de la Fondation Cartier. L’algorithme essaie de comprendre la relation entre la présentation de certains documents et le fait qu’ils soient ou non consultés par l’utilisateur dans le contexte d’un chemin de découverte particulier. L’algorithme sait déjà que certains documents sont d’ordinairement choisis (cercle de pertinence) mais il est encore ignorant de la structure de la plus grande partie de l’espace qu’il doit explorer. N’ayant pas une infinité d’essais (puisque chaque essai demande l’intervention d’un utilisateur de l’application), il doit proposer des choix qui lui permettront de progresser optimallement dans son apprentissage.

Plus formellement, il s’agit d’optimiser I(S(t), A(t)),  l’intérêt d’effectuer l’action A(t) (le choix d’un noeud) dans l’état S(t). Cet intérêt peut être approximé par la dérivée de la qualité prédictive. Si la qualité d’une prédiction d’une transition vers un noeud (N+1) est en augmentation (le système est en train de perfectionner son modèle de transition vers noeud à partir du chemin S(t)), ce noeud aura un bon score d’Intérêt).

A chaque interaction l’algorithme propose ainsi dans le cercle de curiosité 14 contenus dont l’intérêt en terme d’apprentissage est optimal. Comme de nouveaux contenus peuvent être rajoutés à l’application, nous avons également introduit un biais pour les noeuds dont l’algorithme sait très peu de chose.  Ceci aura pour effet d’introduire plus souvent dans le cercle de curiosité, les nouveaux noeuds de manière à tester rapidement leur pertinence et leur intérêt.

Jeudi 22 mars à 19h, lors d’un Hang-Out Google+ sur la page de la Fondation Cartier, nous discuterons de toutes ces questions avec cinq ingénieurs de chez GoogleMehyrar Mohri (publications), David Singleton (blog), Aaron Shon (Bayesian cognitive models for imitation), Rich Washington (homepage), Radu – Eosif Mihailescu (blog). Une retransmission simultanée entre Dublin, Zurich, Lausanne, Paris, Bordeaux et les Etats-Unis…

La pollution des ressources linguistiques

mars 18, 2012

En préparation d’un exposé sur le capitalisme linguistique que je donnerai à l’ENSCI le 29 mars, j’explore dans ce billet un aspect important de ce nouvel ordre linguistique où se mélangent les écrits humains et les textes des algorithmes. 

Les nouveaux acteurs du capitalisme linguistique ont besoin d’accéder à des ressources de qualité pour chacun des marchés linguistiques qu’ils visent. Or dans il nous faut distinguer au moins deux types de ressources linguistiques: (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) et (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, article écrit par des algorithmes, spam). Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires. Un humain peut dans certains cas faire la différence, mais il est difficile de construire des algorithmes  pour faire automatiquement cette distinction.

Les acteurs du capitalisme linguistique doivent modéliser la langue le plus parfaitement possible. Un acteur comme Google en proposant de multiple interfaces d’expression (Gmail, Google docs, Google +, Service de reconnaissance vocale) et de puissant outils d’accumulation linguistique (Google books, Youtube) a développé un observatoire unique pour construire des modèles statistiques précis de nombreuses langues vivantes. Grâce à ces modèles il peut proposer des outils de correction ou de complétion automatique et lisser la langue pour la faire revenir dans le domaine commercial.(un mot ou une phrase incorrecte ne valent rien car aucune enchère ne peuvent être organisée à leur propos)

Les ressources secondaires sont un danger, une pollution pour ces modèles. Prenons le cas d’un article écrite anglais traduit approximativement en français par un service de traduction. L’article est encore lisible pour un humain qui peut ainsi avoir ainsi une idée de son contenu s’il n’est pas anglophone mais il ne constitue en aucun cas un exemple valide d’une production linguistique en français. Pourtant, dans certains cas, cet article sera la base d’une seconde traduction automatique, par exemple en chinois. A chaque étape sa qualité linguistique se dégrade, pour refléter toujours plus les caractéristiques et les biais de l’algorithme de traduction.

A côté des algorithmes de traductions automatiques, un nombre croissant de textes sont maintenant directement produits par des machines. Ces algorithmes produisent à partir de données structurées des formes narratives variées : Articles longs ou courts, chroniques sportives, tweets. A nouveau, un lecteur averti peut souvent detecter la mécanique sous-jacente et deviner parfois que ces textes ne sont pas écrits par des humains. Leur composition syntaxique et surtout leur positionnement pragmatique sonnent parfois faux, reflétant les biais de l’algorithme qui les compose.

Malheureusement les robots de Google qui archivent inlassablement le web ne font pas la différence entre ces ressources linguistiques dégradées et les ressources primaires. Au fur et à mesure que la quantité de ressources secondaires devient significative par rapport aux ressources primaires, le modèles statistiques peut se modifier pour intégrer le vocabulaire, les formulations et les tournures des algorithmes. Par une retroaction que ne manque pas d’ironie, ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 

Kirti Vashee analyse que c’est essentiellement pour cette raison que Google a décidé de fermer son service de traduction automatique en 2011. En proposant des traductions approximatives qui venaient grossir le rang des ressources linguistiques secondaires, Google polluait sa ressource vitale (« polluting its own drinking water ») en particulier pour des marchés linguistiques où ses modèles n’était peut-être pas encore aussi bons que pour l’Anglais. Rappelons que Google n’est pas dominant partout. En Russie, en Chine, au Japon et en Corée il doit faire face à une concurrence importante respectivement de Yandex, Baidu, Yahoo et NHN. Pour gagner ces marchés, il est contraint d’offrir une qualité de service irréprochable (c’est cette stratégie qui lui a permis à l’époque de battre ces concurrents sur les marchés anglo-saxons et européens)

Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent. La modification de ce service de traduction était une opération risquée pour Google dans la mesure où il était utilisé par un très grand nombre d’autres services.En agissant ainsi, Google prend le risque de perdre la confiance des développeurs qui utilise ses API, rappelant qu’à tout moment , la compagnie peut décider de changer les règles du jeu. Si Google a fait ce choix c’est que la question de la pollution des ressources linguistiques est un enjeu majeur pour son modèle commercial.

Mais transformer son service de traduction automatique ne suffira pas à stopper les autres services produisant des textes encores plus dégradés, ni à freiner le développement des textes produits par des algorithmes. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique. Comme l’explique bien Stuart Geiger, un article de Wikipedia n’est pas que le travail collectif d’un groupe de redacteurs mais également le resultat des productions de bots qui effectuent des travaux syntaxiques spécifiques et des opérations sémantiques systématiques.  Textes humains et machiniques se mélent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que les robots de Google analysent pour ensuite structurer nos propres écrits.

Les trois futurs des livres-machines

février 10, 2012

Je participe ce lundi 13 Février à une conférence débat au Centre Pompidou sur l’évolution machinique du livre organisée par Xavier de la Porte et Hubert Guillaud. Je me réjouis de la discussion avec Etienne Mineur et Alain Giffard sur ces questions. En préparation à cette rencontre j’ai rédigé ce billet qui résume une partie de mes réflexions sur les trois devenir machiniques possibles pour le livre. 

L’erreur la plus commune dans les discussions au sujet du futur du livre imprimé consiste à placer le débat sur les avantages et les défauts respectifs du papier et du digital. Il me semble qu’il ne sert à rien d’opposer deux expériences de lecture. Quelques dizaines d’années après l’invention de Gutenberg, les livres imprimés ressemblaient à si méprendre à leurs homologues papier. L’expérience utilisateur était la même. Pourtant quelque chose de fondamental avait changé dans leur mode de production.

Il est donc crucial de sentir les grandes tendances technologiques qui silencieusement sont en train de tracer les futurs possibles pour le livre. Dans ce billet, je propose de replacer l’évolution des livres dans le cadre plus général d’une théorie de l’évolution des représentations régulées. Une représentation régulée est une représentation dont la production et l’usage est soumis à un ensemble de règles. Un annuaire, une table de compte, un arbre généalogique, un diagramme de production, une carte d’une région, une encyclopédie, une feuille Excel, une présentation PowerPoint sont autant d’exemple de représentations régulées. La plupart des représentations régulées tendent vers plus de régulations au fil du temps (il y a des exceptions comme l’expression poétique qui au contraire tend vers la dérégulation).

Le processus général de cette régularisation est la transformation de conventions en mécanismes. Cette mécanisation procède en deux étapes successives :
(1) La mécanisation des règles de production
(2) La mécanisation des règles d’usage.

Au travers de cette double mécanisation les représentations régulées finissent par devenir de véritables machines.

Comment les cartes sont devenues des machines ?

Au XIVe siècles il y avait encore très peu de règles sur la manière de dessiner une carte géographique. Comme on peut le voir sur cette carte, aucune des conventions maintenant classiques (échelle, orientation vers le nord) n’était à cette époque encore en place. 150 ans plus tard, comme le montre cette carte du XVIe siècle tout ces éléments sont maintenant en place. Un véritable savoir-faire tend pour la mesure que pour la représentation s’est constitué. La carte, encore entièrement faite à la main s’est standardisée. Prenons maintenant cette carte du XXIe siècle montrant la profondeur des océans. Sa production n’inclut presque plus aucun processus manuel. Elle a été entièrement mécanisée. La mécanisation des règles de production est maintenant complète, mais son usage est encore régie par des conventions.

Le passage des cartes traditionnelles à des systèmes d’information géographique comme Google maps illustre la seconde phase du processus de mécanisation. Cette seconde mécanisation a quatre conséquences remarquables :
1. En devenant machine, la carte a internalisé ses propres usages. Les cartes machines sont plus puissantes que les cartes traditionnelles mais toutes les opérations possibles avec elles sont spécifiées à l’avance. Vous ne pouvez pas vous servir d’une carte machine comme parapluie ou paquet cadeau ! Ce passage est celui de l’outil à la machine. Vous pouvez vous servir d’un marteau comme presse papier, un usage non conventionnel. Impossible de faire cela avec une presse industrielle.
2. En devenant machines, les cartes tendent à s’agréger ensemble pour ne devenir qu’une seule carte. Il s’agit sans doute d »une propriété générale : Au fur et à mesure que les représentations régulées deviennent plus régulières, elles tendent à s’agréger sous la forme de systèmes unifiés. C’est un cas particulier du processus de concrétisation étudié par Gilbert Simondon.

3. En devenant machines, les cartes tendent à perdre leur stabilité pour ne devenir qu’un instant de pause dans un flux perpétuel. Google maps est fondamentalement une vidéo que nous consultons sur pause.

4. En devenant machines, les cartes changent de modèle commercial. Les services cartographiques sont proposés gratuitement mais en échange de la récupération des traces et des ajouts des utilisateurs. Leur valeur d’usage a augmenté et en même temps leur valeur d’échange pour l’utilisateur est devenue nulle. Ceux qui proposent ces services gratuits accumulent du capital linguistique et sémantique, lui-même monnayable.

Ce qui s’est passé pour les cartes s’est également passé pour plusieurs autres représentations régulées, comme l’évolution des tableaux en tableurs.

Que peut-on en déduire pour l’évolution du livre imprimé ?

Les livres sont des représentations régulées. Leur production a déjà été entièrement mécanisée. Il y a donc une pression forte pour à présent mécaniser leur usages conventionnels et en faire des machines complètes. Par analogie, nous devrions nous attendre à observer 4 bouleversements :

1. La transition du livre outil au livre machine intégrant sa propre interactivité.
2. L’agrégation de tous le livres-machines en l’équivalent d’un seul grand livre.
3. L’évolution du livre comme document stable en un document dépendant du temps.
4. L’arrivée d’un nouveau modèle commercial où  l’usage des livres aura plus de valeur d’échange que les livres eux-mêmes.

Certes un livre n’est pas vraiment comme une carte. Une carte est une représentation régulée de dimension 2. Un livre est un volume, une conteneur, une représentation régulée de dimension 3. Le livre peut accueillir des représentations de dimensions 2 : texte mise en page, cartes, diagramme, arbres, tables, etc. Parce qu’il est un volume fermé, le livre offre une solution pour organiser un discours dans l’espace. Il a une fonction “architecturante” permettant d’accueillir les narrations riches et les démonstrations complexes.

Chaque genre de livres est associé à des règles de structuration conventionnelles. La première mécanisation du livre commençant avec l’imprimerie a transformé ces règles en mécanismes. L’informatisation n’a fait que prolonger cette mécanisation en permettant une gestion souple de ces modèles structurels. En principe, la seconde étape du processus de mécanisation, la transformation des usages en mécanismes, devraient donner encore plus de pouvoir à l’auteur-architecte.

Mais comme les cartes, en devenant machines, les livres tendent à s’agréger en un seul grand livre, perpétuellement remanié. Ce grand livre-machine n’est rien d’autre que l’Encyclopédie. Depuis le XVIIIe siècle, l’Encyclopédie et le Livre sont porteurs de valeurs opposées. Le livre se définit par sa clôture, l’Encyclopédie est toujours en expansion. Le Livre se prête aux parcours linéaire, l’Encyclopédie suit une logique d’accès aléatoire. Fonction architecturante contre fonction totalisante, le Livre structure un discours quand l’Encyclopedie essaie d’englober le monde. Le Livre compose quand l’Encyclopédie décompose.

Dès ses premières incarnations éditoriale, L’Encyclopédie s’est trouvée à l’étroit sous forme de volumes imprimés. Dès qu’elle l’a pu l’encyclopédisme s’est incarné dans les technologies du réseau. L’ordinateur mondial qui s’est constitué avec le web est basé sur les principes et les motivations de l’encyclopédisme. Son action de description/décomposition s’est appliquée à l’ensemble de la culture.

L’Encyclopédie décompose tous les objets structurés. Elle extrait leur “contenu” et en fait un réseau. Les albums sont devenus des ensembles de chansons. Les journaux des ensembles d’articles. Elle fera des livres la même chose : une collection de pages, une collection de mots.

Les trois futurs des livres-machines

Percevant cette dynamique globale, nous pouvons voir se dessiner trois futurs pour les livres-machines

A. Les livres deviennent des ressources standardisées dans le système encyclopédique global

B. Les livres se réinventent sous la forme d’applications fermées et immersives

C. Après les écrans, les livres papiers deviennent des interfaces structurantes pour accéder à l’ordinateur planétaire.

A. L’Encyclopédie

Ce scénario correspond à la tendance dominante. Les livre sont déjà en train de devenir des ressources standardisées. Cette standardisation opère sur trois niveaux

- Des formats standards pour décrire le contenu d’un livre se mettent en place : ePub, TEI. A partir de ces descriptions standardisées, il est possible de produire plusieurs mises en pages selon les interfaces de lecture utilisées.

- La décomposition se poursuit au plan sémantique. Les textes et les images utilisées peuvent elles aussi être associés à “noeuds sémantiques” bien définis (des lieux bien définis, des personnes bien définies, des citations bien définies). Ces noeuds sémantiques servent de pivots entre les livres standardisés. D’autres types de modélisations plus ou moins sophistiquées sont également tentées, l’objectif étant d’accumuler du capital sémantique.

- La décomposition se poursuit en incluant l’usage des livres. De nouveaux formats ouverts sont aujourd’hui à l’étude pour décrire les chemins de lecture, les notes, les prêts de livres entre lecteurs. Toute la trajectoire de vie d’un livre standardisé va elle-même être décrite de manière standard. Ces “reading analytics” vont sans doute constituer un minerai de valeur exploitable économiquement.

Cette standardisation sur trois niveaux est couplée à une “digitalisation” massive. Le terme “digitalisation” décrit en fait une extraction et standardisation du contenu de millions de livres. Ces livres deviennent des données d’une immense base de données qui intègre également de nombreuses autres informations sur nos pratiques de lecteur et plus généralement sur nos vies.
L’absorption du Livre par l’Encyclopédie inaugure l’âge des lectures industrielles, pour reprendre le terme d’Alain Giffard.

B. Les applications

Alternative à l’encyclopédisme, les applications retrouvent la forme close des livres qui en faisait des îles, des réservoirs d’innovation. Les applications offrent plus de contrôles à leurs concepteurs, permettent l’utilisation des dernières ressources techniques (multitouch, GPS, accéléromètre), permettent des utilisations non connectées, peuvent inclure des vidéos, des simulations, des jeux et sont encore peu standardisées.

Les applications sont des conteneurs qui peuvent inclure des médias de dimensions 4. Elles peuvent offrir des services similaires à celles d’un site mais sont animées par une logique différente : fermeture et contrôle, la logique du livre.

Beaucoup critiquent leur fermeture en argumentant sur les bases de l’idéologie de l’Encyclopédie: ouverture, échange, partage. En l’absence de standard, le contenu des applications pourrait être difficile à lire dans quelques années.  Mais protégées par leur carapace, les applications permettent véritablement d’explorer la seconde phase de mécanisation du livre, les différentes manières dont le livre peut internaliser ses propres interactions. Les auteurs et les éditeurs peuvent concevoir de manière beaucoup plus précise l’expérience qu’ils souhaitent offrir à leurs lecteurs : des livres de cours plus pédagogiques, des romans plus immersifs, des guides voyages plus contextuels, des magazines plus divertissants, des articles plus érudits…  mais aussi des types de livres complètement nouveaux … des livres qui changent selon le moment et l’endroit où on les lit, des livres qui apprennent au fur et à mesure qu’ils sont lus et tous les autres possibles qu’offrent les livres algorithmiques.

Malheureusement, les nouveaux contenus peuvent être longs et difficiles à produire, ne fonctionner que sur les machines les plus récentes. Les éditeurs n’ont pas les budgets pour se lancer dans des créations ambitieuses. Comme ce fut le cas avec le CD-rom, ces obstacles  pourraient mettre en péril cette lignée dans l’évolution du livre.

C. Le papier comme interface

Il y une troisième voies qu’explore actuellement des artistes-ingénieurs comme Etienne Mineur ou des chercheurs dans le cadre des premières recherches sur le Paper Computing. Le papier et livre sont des interfaces extraordinaires qui peuvent maintenant être utilisées pour contrôler avec précision n’importe quel système informatique. Ils constituent peut-être l’avenir de nos écrans tactiles. Un livre relié permet d’organiser une séquence d’activités dans le temps et l’espace. Loin d’un recul, ce serait le retour de la fonction « architecturante » et des qualités ergonomiques du codex.

Dans cette approche, non seulement le livre papier ne va pas disparaître, mais il pourrait bien devenir une interface privilégiée pour d’autres activités que la lecture. Demain, nous pourrons choisir notre musique grâce à des livres, programmer notre télévision grâce à des livres, obtenir des informations sur Internet grâce à des livres. Un des avenir du livre papier pourrait donc être de devenir une interface efficace, bon marché, facile à produire et durable pour le monde numérique.

Ceux qui croient que l’avenir du livre passe nécessairement par les écrans font probablement un rapprochement trop rapide avec l’évolution récente du monde de la musique. Certes, nous assistons aujourd’hui à la constitution de très grandes bibliothèques de livres numérisés qui font penser aux « bibliothèques musicales » qui sont aujourd’hui très répandues. Mais la mort programmée du CD, support « classique » de la musique il y a encore quelques années, et l’avènement des baladeurs numériques, n’annoncent pas forcément par une analogie simpliste, la mort du livre et l’avènement des « liseuses ». Que le CD disparaisse à plus ou moins brève échéance n’a aucune importance : c’est un objet aujourd’hui dépassé, qui n’a pas d’existence autre que de se faire lire par une machine. Au contraire du CD, le livre est un objet-interface qui dispose d’un grand nombre d’atouts. Autonome et léger, il offre des possibilités interactives très intéressantes. Par exemple, nous sommes capables en quelques dizaines de secondes de retrouver un mot dans un dictionnaire parmi des dizaines de milliers. Difficile, sans clavier, de retrouver un morceau sur votre balladeur avec une bibliothèque de cette taille. De même, nous pouvons parcourir rapidement la structure d’un livre pour acquérir une première idée, superficielle certes mais tout de même précieuse, de ce qu’il contient. Impossible de faire de même avec les fichiers de son ordinateur personnel. Ces atouts permettent de penser que le livre, en tant qu’interface, a encore de beaux jours devant lui et qu’il est probablement même capable d’investir de nouveaux territoires pour le moment dominés par les interfaces électroniques — clavier et souris et interaction tactiles qui sont aujourd’hui nos modes d’accès par défaut vers les informations numérisées.

Nuançons néanmoins cet enthousiasme en rappelant que cette approche est aujourd’hui essentiellement encore du domaine de la recherche et de l’expérimentation, quand parallèlement le processus de transformation des livres en une immense encyclopédie mondiale tourne à plein régime, supposant, à tord ou à raison, que les pages des livres se liront préférentiellement sous la forme d’images derrières des vitres.

Prédictions faciles

Voici donc esquissés trois futurs des livres-machines. Est-ce que c’est trois systèmes industriels cohabiteront ? Tentons quelques prédictions faciles. Les publications les plus proches de la logique de l’Encyclopédie seront les premiers entièrement machinisés, intégrant l’ordinateur planétaire. Cela concerne typiquement les Encyclopédies, dictionnaires, publications scientifiques, livres de cuisines, guides de voyages … Les publications les plus lointaines de la logique de l’Encyclopédie resteront sous format papier, augmenté ou non, et exploreront en parallèle les machinisations sous forme d’applications. Nous pensons ici surtout aux livres pour enfants et aux romans.

Certains éditeurs vont réaliser qu’ils ne publient pas simplement des livres ou des magazines mais qu’ils gèrent en fait des corpus encyclopédiques. Ils vont les exploiter numériquement en explorant de nouveaux modèles commerciaux, sans doute à terme basé sur la gratuité. D’autres se spécialiseront dans une industrie multimédia de qualité, assez proche dans sa logique économique du monde du cinéma, mêlant potentiellement papier et digital. Ce seront probablement eux les véritables explorateurs des nouvelles potentialités du livre devenu machine.

Stephen Wolfram contre Larry Page, c’est Leibniz contre d’Alembert

janvier 31, 2012

Le renouveau de la logotechnie leibnizienne

Depuis plusieurs années, Stephen Wolfram, l’inventeur de Mathematica, poursuit un ambitieux objectif : transformer nos connaissances aujourd’hui exprimées maladroitement de manière linguistique en des représentations algorithmiques, directement traitables par un ordinateur. L’équipe progresse toujours un peu plus dans la construction de cet immense chantier. Des pans entiers de nos connaissances scientifiques mais aussi de nombreux faits culturels alimentent maintenant une base de connaissances structurées sur laquelle il est possible de faire des inférences. Wolfram Alpha peut maintenant répondre à de nombreux types de questions comme la taille actuelle de l’Internet, la limite de x / sin (x) quand x tend vers 0, mais aussi l’âge qu’aurait Lady Gaga en 2028.

Le projet de Wolfram s’inscrit dans une longue tradition en intelligence artificielle et dans une tendance technologique forte. Dans les années 1980s, Douglas Lenat avec le projet Cyc tentait de construire une encyclopédie du sens commun sous forme de descriptions traitables par une machine. Au Canada, Pierre Levy travaille depuis de nombreuses années à un métalangue IEML dont l’ambition est de fournir un système de coordonnées « mathématico-linguistique » pour la construction collaborative d’un « Hypercortex ». Ces projets proposent des approches technologiques relativement différentes les uns des autres pour tenter de construire ce que l’on pourra appeler un capital sémantique (je reviendrai sur cette notion dans un prochain billet), mais tous partagent plus ou moins le même rêve : construire une langue technique dont le cœur serait une sémantique computationelle.

La langue algébrique universelle de Leibniz

Dans un billet de 2009, Stephan Wolfram présentait l’essence de son projet Wolfram Alpha comme étant précisément une tentative de « rendre la connaissance computable » pour contourner le problème quasiment insoluble de l’analyse du langage naturel.  Dans son livre de 2011, la sphère sémantique, Pierre Levy parle d’une « écriture permettant la maîtrise intellectuelle des flux d’information ». Ce renouveau des projet de construction d’une langue technique nouvelle, créée artificiellement par l’homme pour permettre l’inférence sémantique automatique ressemble à s’y m’éprendre au projet logotechnique de Leibniz au XVIIe siècle. Leibniz voulait lui aussi construire une langue universelle et scientifique.

« après avoir fait cela, lorsqu’il surgira des controverses, il n’y aura plus besoin de discussion entre deux philosophes qu’il n’y en a entre deux calculateurs. Il suffira, en effet, qu’ils prennent leur plume, qu’ils s’assoient à une table, et qu’il se disent réciproquement (après avoir appelé, s’ils le souhaitent, un ami) : calculons » (cité dans Gerhardt, 1875 Die philosophischen Schriften von G.W. Leibniz)

Calculons ! Un algorithme efficace peut remplacer les préceptes de la méthode cartésienne. Nous n’avons pas besoin de méthodes pour penser, nous avons besoin d’algorithmes et d’une langue symbolique adaptée. Leibniz développe cette même idée d’une sémiologie générale dans cette lettre du 10 Janvier 1714

« Ce pourrait être en même temps une manière de langue ou d’écriture universelle, mais infiniment différente de toutes celles qu’on a projetées jusqu’ici, car les caractères et les paroles même y dirigeraient la raison, et les erreurs (excepté celles de fait) n’y seraient que des erreurs de calcul »

Leibniz est en avance sur Boole de plusieurs siècles. Dans le passage suivant, il décrit très précisément les avantages de cette langue algébrique capable de manipuler aveuglement des symboles pour faire des raisonnements justes, sans pour autant avoir à préciser à quoi ces symboles sont attachés.

« Les langues ordinaires, bien qu’elles servent au raisonnement, sont cependant sujettes à d’innombrables équivoques, et ne peuvent être employées pour le calcul, c’est-à-dire de façon à ce que l’on puisse découvrir les erreurs de raisonnement en remontant à la formation et à la construction des mots, comme s’il s’agissait de solécismes ou de barbarismes. Cet avantage très admirable n’est donné pour le moment que par les signes employés par les arithméticiens et les algébristes, chez lesquels tout raisonnement consiste dans l’utilisation de caractères, et toute erreur mentale est la même chose qu’une erreur de calcul. En méditant profondément sur cet argument, il m’est apparu aussitôt clair que toutes les pensées humaines pouvaient se transformer entièrement en quelques pensées qu’il fallait considérer comme primitives. Si ensuite l’on assigne à ces dernières des caractères, on peut former, à partir de là, les caractères des notions dérivées, d’où il est toujours possible d’extraire leurs réquisits et les notions primitives qui y entrent, pour dire la chose en un mot, les définitions et les valeurs, et donc aussi leurs modifications que l’on peut faire dériver des définitions. » (Die scientia universali seu calculo philosophico in Gerhardt, 1875 Die philosophischen Schriften von G.W. Leibniz)

L’intuition de Leibniz se base sur ses propres succès. Il explique que les progrès qu’il a fait faire aux mathématiques, le calcul infinitésimal en particulier, sont fondés sur sa réussite à trouver des symboles adaptés pour représenter les quantités et leur relations. C’est sans doute de là que lui vient l’intuition que pour découvrir de nouvelle vérité, il faut mécaniser l’inférence (la base du calcul formel tel qu’il est pratiqué dans Mathematica).

Allons-nous  vers la réalisation du langage algébrique rêvé par Leibniz ? Comme nous l’avons vu, certains projets prennent véritablement cette direction.

Dans l’avant dernier chapitre de « la recherche de la langue parfaite », Umberto Eco nous met néanmoins en garde :

« C’est précisément lorsque l’on revisite d’anciens projets qui se sont montrés utopiques et qui ont échoué, que l’on peut prévoir les limites ou les faillites possibles de chaque entreprise qui prétend être un début dans le vide. Relire ce qu’on fait nos ancêtres n’est pas un simple divertissement archéologique, mais une précaution immunologique ».

La langue algébrique sémantique universelle est-elle une utopie ? ou fallait-il juste attendre trois cents ans pour la voir enfin éclore ?

A-t-on besoin de modèles sémantiques sophistiqués ?

Certains ne croient pas à cette voie et pensent que nous n’avons pas vraiment besoin de modèles sémantiques sophistiqués pour organiser la connaissance du monde. Grâce à l’océan de données que nous avons à notre disposition, des méthodes moins « intelligentes » peuvent parfois se révéler plus efficaces.

Dans un éditorial un peu provoquant de juin 2008, Chris Anderson affirmait que nous n’avons tout simplement plus besoin de modèles et faisait de Google le contre-exemple à opposer aux approches logotechniques.

Google’s founding philosophy is that we don’t know why this page is better than that one: If the statistics of incoming links say it is, that’s good enough. No semantic or causal analysis is required. That’s why Google can translate languages without actually « knowing » them (given equal corpus data, Google can translate Klingon into Farsi as easily as it can translate French into German). And why it can match ads to content without any knowledge or assumptions about the ads or the content.

Un peu plus bas, il cite Peter Norvig, directeur de recherche chez Google : « All models are wrong, and increasingly you can succeed without them. »

Il n’y a pas que Google qui s’inscrit dans cette philosophie. En 2011, Watson, l’ordinateur d’IBM est devenu champion de Jeopardy. Il a battu les meilleurs joueurs mondiaux pour répondre à des questions de culture générale, un domaine dont on pourrait facilement argumenter qu’elle est pour une machine bien plus difficile que les échecs.  Même si Watson utilise une version de Wikipedia codée sémantiquement (DBPedia), ainsi que les bases lexicales et sémantiques WordNet et Yago, la philosophie sous-jacente relève plus du recoupement statistique de multiples sources que d’une langue algébrique rigoureuse comme en rêvait Leibniz. David Ferruci qui a dirigé le projet est relativement explicite sur ce point :

There’s no single formula that makes a computer understand and answer natural language questions. It’s really this huge combination of smaller algorithms that look at the data from many different perspectives, and they consider all sorts of possibilities and all sorts of evidence. Watson brings all these various algorithms together to judge that evidence with respect to every one of its possibly hundreds or thousands of different answers to decide which one is most likely the correct answer, and ultimately computes a confidence in that. And if that confidence is above a threshold, then Watson says, « Hey I want to answer this question. I want to buzz in and take the risk. (IBM’s Watson computer takes the Jeopardy! challenge)

Paradoxalement, cette posture n’est pas si loin de celle des encyclopédistes à la fin du XVIIIe siècles. La langue universelle est alors perçue comme un vieux rêve de l’âge classique. D’Alembert  ne croit plus à l’existence d’un système de représentations  générales de la pensée. L’Encyclopédie n’est pas une magnifique construction mathématique, c’est un labyrinthe. Chaque article est une carte particulière, un point de vue sur le monde. Il n’y a pas de système de coordonnées globales, il y a une infini variété de perspectives.

« On peut imaginer autant de systèmes différents de la connaissance humaine, que de Mappemondes de différentes projections » (Encyclopédie, Discours préliminaire, p. XV)

Pour être capable de décrire méthodiquement tous les savoirs du monde, d’Alembert refuse pragmatiquement l’aveugle et parfaite mécanique des langues algébriques. L’Encyclopédie revient au texte et à l’image comme sources premières et immédiates de connaissance. Sur ces bases, il construit un réseau, avec embranchements multiples. En fait, il invente l’approche philosophique du web.

Aujourd’hui, en ce début de XXIe siècle, deux conceptions s’affrontent, l’une héritière du rêve mathématique de l’âge classique, l’autre de l’encyclopedisme des Lumières. Wolfram contre Page, c’est Leibniz contre d’Alembert. L’enjeu de ce combat philosophico-technique n’est rien moins qu’une certain vision de ce qu’est la connaissance du monde.

Quand les mots valent de l’or

janvier 17, 2012

A l’automne dernier, suite à un billet sur ce blog, le Monde diplomatique m’a contacté pour me demander de développer mes idées sur le capitalisme linguistique dans un article plus long. L’article est paru en dernière page dans l’édition de novembre, il a ensuite était traduit dans de nombreuses langues, par exemple en espagnol (« Palabras que valen oro« ), en brésilien (« Quandos as palavras valem ouro« ), en italien (« Quando le parole valgono oro »), etc. Puis il y a eu des réactions multilingues diverses sur les blogs. Réjouissantes réactions multiculturelles pour un article qui traite précisément du juteux marché des langues vivantes.

L’histoire de Google tient en deux algorithmes : l’un l’a rendu populaire, l’autre l’a rendu riche. La première de ces méthodes, élaborée par Larry Page et Sergey Brin alors qu’ils étaient encore étudiants en thèse à l’université Stanford (Californie), consistait en une nouvelle définition de la pertinence d’une page Web en réponse à une requête donnée. En 1998, les moteurs de recherche étaient certes déjà capables de répertorier les pages contenant le ou les mots demandés. Mais le classement se faisait souvent de façon naïve, en comptabilisant le nombre d’occurrences de l’expression cherchée. Au fur et à mesure que le Web grandissait, les résultats proposés aux internautes étaient de plus en plus confus. Les fondateurs de Google proposèrent de calculer la pertinence de chaque page à partir du nombre de liens hypertexte pointant vers elle – un principe inspiré de celui qui assure depuis longtemps la reconnaissance des articles académiques. Plus le Web grandissait, plus l’algorithme de Page et Brin affinait la précision de ses classements. Cette intuition fondamentale permit à Google de devenir, dès le début des années 2000, la première porte d’entrée du Web.

Alors que bien des observateurs se demandaient comment la société californienne pourrait bien monétiser ses services, c’est l’invention d’un second algorithme qui a fait d’elle l’une des entreprises les plus riches du monde. A l’occasion de chaque recherche d’internaute, Google propose en effet plusieurs liens, associés à des courtes publicités textuelles, vers des sites d’entreprises. Ces annonces sont présentées avant les résultats de la recherche proprement dits. Les annonceurs peuvent choisir les expressions ou mots-clés auxquels ils souhaiteraient voir associée leur publicité ; par exemple, les recherches contenant le mot « vacances ». Ils ne paient que lorsqu’un internaute clique effectivement sur le lien proposé pour accéder à leur site. Afin de choisir quelles publicités afficher pour une requête donnée, l’algorithme propose un système d’enchères en quatre étapes :

- L’enchère sur un mot-clé. Une entreprise choisit un mot ou une expression, par exemple « vacances », et définit le prix maximum qu’elle serait prête à payer si un internaute arrive chez elle par ce biais. Pour aider les acheteurs de mots, Google fournit une estimation du montant de l’enchère à proposer pour avoir de bonnes chances de figurer sur la première page de résultats. Les acheteurs peuvent limiter leur publicité à des dates ou des lieux spécifiques. Mais attention : comme on va le voir, le fait d’avoir l’enchère la plus haute ne garantit pas que vous serez le premier sur la page.

- Le calcul du score de qualité de la publicité. Google attribue à chaque annonce, sur une échelle de un à dix, un score, fonction de la pertinence de son texte au regard de la requête de l’utilisateur, de la qualité de la page mise en avant (intérêt de son contenu et rapidité de chargement), et du nombre moyen de clics sur la publicité. Ce score mesure à quel point la publicité fonctionne, assurant à la fois de bons retours à l’annonceur, et d’imposants revenus à Google, qui ne gagne de l’argent que si les internautes choisissent effectivement de cliquer sur le lien proposé. L’algorithme exact qui établit ce score reste secret, et modifiable à loisir par Google.

- Le calcul du rang. L’ordre dans lequel les publicités apparaissent est déterminé par une formule relativement simple : le Rang est l’Enchère multipliée par le Score. Une publicité ayant un bon score peut ainsi compenser une enchère plus faible et arriver devant. Google optimise ici ses chances que l’internaute clique sur les publicités proposées.

Ce jeu d’enchères est recalculé pour chaque requête de chaque utilisateur — des millions de fois par seconde ! Ce second algorithme a rapporté à la firme de Moutain View la coquette somme de 9,720 milliards de dollars pour le troisième trimestre 2011 — un chiffre en croissance de 33 % par rapport à la même période de l’année 2010 *.

Le marché linguistique ainsi créé par Google est déjà global et multilingue. A ce titre, la Bourse des mots qui lui est associée donne une indication relativement juste des grands mouvements sémantiques mondiaux. Google propose d’ailleurs des outils simples et ludiques pour explorer une partie des données qu’il collecte sur l’évolution de la valeur des mots. C’est ainsi que nous pouvons voir comment les fluctuations du marché sont marquées par les changements de saison (les mots « ski » et « vêtements de montagne » ont plus de valeur en hiver, « bikini » et « crème solaire » en été). Les flux et les reflux de la valeur du mot « or » témoignent de la santé financière de la planète. Google gagne évidemment beaucoup d’argent sur les mots pour lesquels la concurrence est forte (« amour », « sexe », « gratuit »), sur les noms de personnes célèbres (« Picasso », « Freud », « Jésus », « Dieu »), mais également dans des domaines de langue où la spéculation est moindre.   Tout ce qui peut être nommé peut donner lieu à une enchère.

Google a réussi à étendre le domaine du capitalisme à la langue elle-même, à faire des mots une marchandise, à fonder un modèle commercial incroyablement profitable sur la spéculation linguistique. L’ensemble de ses autres projets et innovations technologiques – qu’il s’agisse de gérer le courrier électronique de millions d’usagers ou de numériser l’ensemble des livres jamais publiés sur la planète – peuvent être analysés à travers ce prisme. Que craignent les acteurs du capitalisme linguistique ? Que la langue leur échappe, qu’elle se brise, se « dysorthographie », qu’elle devienne impossible à mettre en équations. Quand Google corrige à la volée un mot que vous avez mal orthographié, il ne fait pas que vous rendre service : il transforme un matériau sans grande valeur (un mot mal orthographié) en une ressource économique directement rentable. Quand Google prolonge une phrase que vous avez commencé à taper dans la case de recherche, il ne se borne pas à vous faire gagner du temps : il vous ramène dans le domaine de la langue qu’il exploite, vous invite à emprunter le chemin statistique tracé par les autres internautes. Les technologies du capitalisme linguistique poussent donc à la régularisation de la langue. Et plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation sera efficace.

Pas de théorie du complot : Google n’entend pas modifier la langue à dessein. La régularisation évoquée ici est simplement un effet de la logique de son modèle commercial. Pour réussir dans le monde du capitalisme linguistique, il faut cartographier la langue mieux que n’importe quel linguiste ne sait le faire aujourd’hui. Là encore, Google a su construire une stratégie innovante en développant une intimité linguistique sans précédent avec ses utilisateurs. Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google ; pas simplement lorsque nous faisons une recherche, mais aussi quand nous écrivons un courrier électronique avec GMail ou un article avec Google Docs, quand nous signalons une information sur le réseau social Google+, et même oralement, à travers les interfaces de reconnaissance vocale que Google intègre à ses applications mobiles. Nous sommes des millions chaque jour à écrire et à parler par le biais de Google. C’est pourquoi le modèle statistique multilingue qu’il affine en permanence et vers lequel il tente de ramener chaque requête est bien plus à jour que le dictionnaire publié annuellement par nos académiciens. Google suit les mouvements de la langue minute par minute, car il a le premier découvert en elle un minerai d’une richesse extraordinaire, et s’est doté des moyens nécessaires pour l’exploiter.

La découverte de ce territoire du capitalisme jusqu’ici ignoré ouvre un nouveau champ de bataille économique. Google bénéficie certes d’une avance importante, mais des rivaux, ayant compris les règles de cette nouvelle compétition, finiront par se profiler. Des règles finalement assez simples : nous quittons une économie de l’attention pour entrer dans une économie de l’expression. L’enjeu n’est plus tant de capter les regards, que de médiatiser la parole et l’écrit. Les gagnants seront ceux qui auront pu développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour modéliser et infléchir la langue, créer un marché linguistique contrôlé et organiser la spéculation sur les mots. L’utilisation du langage est désormais l’objet de toutes les convoitises. Nul doute qu’il ne faudra que peu de temps avant que la langue elle-même ne s’en trouve transformée.

* “Google Q3 2011: $9.72 Billion In Revenue, $2.73 Billion In Net Income”, TechCrunch, 13 Octobre 2011.

Si vous voulez citer cet article, merci d’utiliser la référence suivante :

Kaplan, F (2011) Vers de la capitalisme linguistique : Quand les mots valent de l’or, Le Monde diplomatique, N 692, Novembre 2011, p.28

Chacun dans sa bulle digitale

novembre 29, 2011

Retour d’une journée d’entretiens à Lyon sur le corps et ses variations. Déjeuner mémorable avec un Michel Serres, pétillant et virtuose, Yves Coppens, beaucoup plus facétieux que je ne l’imaginais, George Vigarello, extraordinaire historien du corps et Patrick Bazin, le nouveau directeur de la BPI plein d’idées pour son institution. Nous avons discuté passionnément du futur du livre et des bibliothèques, de Google, d’une paléontologie des objets techniques, des nouvelles interfaces et du corps qui s’y adapte. Dans le train du retour, j’ai mis au propre ce petit texte sur l’incorporation. Quand nous interagissons avec nos écrans, où sommes-nous ? Incorporés dans un système technique qui ressemble à beaucoup d’autres ? ou dans une bulle fondamentalement différente ?

Voir la video de mon intervention.

Extensions : la tête dans les nuages.

Nous avons fait dans les cinq dernières années une découverte extraordinaire : nous sommes capables de marcher dans la rue tout en interagissant du bout de nos doigts avec notre téléphone portable. Notre inconscient prend en charge toutes les fonctions de navigation et d’évitement d’obstacles qui ont été si longues à acquérir pendant la première année de notre vie, nous permettant ainsi de nous mouvoir dans la complexité de l’espace urbain sans presque jamais quitter l’écran des yeux. Parfois bien-sûr nous rentrons dans un passant, nous trébuchons sur une marche et, à cet instant douloureux, nous redevenons un corps se déplaçant dans l’espace physique urbain. Mais la plupart du temps, nous réussissons ce tour de force d’être à la fois physiquement ici et mentalement ailleurs.

L’interaction avec nos téléphones portables n’est qu’un exemple de notre extraordinaire capacité à nous métamorphoser. Notre peau n’est pas la limite de notre corps. Nous nous baissons intuitivement quand nos portons un chapeau, les femmes adaptent leur marche lorsqu’elles portent des talons hauts. Ceci est également vrai pour des dispositifs plus complexes. Apprendre à conduire une voiture demande de longues heures de pratique. Au début, la voiture est un dispositif en partie imprédictible, une machine aux réactions aléatoires. Puis au fil des heures, la voiture devient une extension de nous-mêmes, comme une seconde peau. Nous avons assimilé sa taille et sa vitesse, le temps qu’il nous faut pour accélérer et freiner. Conduire devient aussi naturel que marcher, une activité inconsciente. Nous pouvons penser à autre chose en le faisant. Certains réussissent même à interagir avec leur téléphone portable en conduisant.

Ce processus général d’incorporationla transformation d’un objet extérieur en une prothèse, est encore mal compris. Nous savons qu’il est lié à notre capacité à parfaitement prédire le comportement de l’objet extérieur. Pour que le marteau devienne une extension de notre main il faut que nous ayons construit un bon modèle de son comportement physique  de manière à pouvoir parfaitement prédire ses réactions. Dès le moment où nous prédisons bien le comportement de nos prothèses, notre attention peut se déplacer ailleurs, sur le clou, par exemple. Quand l’action de planter un clou devient elle-même une routine absolument prédictible, nous pouvons nous concentrer sur le plan général de notre projet, l’action de planter un clou, comme celle de doubler dans le cas de la conduite, devenant alors une étape intégrée ne nécessitant plus toute notre attention. Ce n’est que si un imprévu survient que nous devrons nous désolidariser de notre prothèse, porter à nouveau notre attention sur l’objet lui-même, le considérer de nouveau comme une partie extérieure, et c’est un processus douloureux.

Chaque incorporation correspond à un changement d’espace. Le violoniste apprend d’abord à maîtriser son instrument. Au fil des heures, il l’incorpore et peut être ensuite tout entier concentré sur la mélodie. Puis, au fil des concerts, son attention se porte non plus sur les notes mais sur l’interprétation. Il a de nouveau changé d’espace.

D’autres lieux, régis par d’autres lois. Le jeune enfant venant d’apprendre à marcher quitte l’espace de la maîtrise de son propre corps pour commencer à explorer les lieux qui l’entourent. La maîtrise vocale lui donne accès à la parole. Il sait prononcer les sons, mais il lui faut maintenant les arranger selon les conformations de langue. Puis, plus tard, il lui faudra maîtriser les lois des conversations, un autre espace.

Le stylo s’intègre à notre main quand nous écrivons. Toute notre attention se porte sur l’acte d’écrire. Nous ne pensons ni à notre posture, ni à la page. Nous sommes le texte en train de s’écrire.

Même si nous les incorporons complètement et même si elles deviennent totalement inconscientes, les « interfaces » que nous utilisons pour explorer ces autres espaces influencent de manière importante la nature de nos trajectoires dans les espaces supérieurs. Nietzsche raconte comment utiliser une machine à écrire a profondément changé son écriture jusque là manuscrite. Ses phrases se raccourcissaient, devenaient plus denses.  Aujourd’hui le choix d’un traitement texte particulier, comme celui d’un violon, modèle sans que nous n’en ayons particulièrement conscience notre écriture. Comme le suggère François Bon, nous devrions toujours accorder notre traitement de texte avant de commencer à écrire.

Revenons à nos téléphones portables et réfléchissons à la manière dont nous les manipulons. Comme beaucoup d’autres objets nous utilisons nos doigts et nos yeux. Pour autant ils ne nous offrent pas la richesse sensorimotrice de la plupart des autres objets. Quand nous saisissons un verre nous savons immédiatement à quel point il est plein, si le liquide qu’il contient est chaud ou froid. Nos doigts façonnés par des millions d’années d’évolutions nous communiquent des informations d’une extrême richesse.

Les téléphones portables et maintenant les tablettes nous proposent essentiellement des images protégées par du verre. Certes ces images réagissent à notre toucher, mais notre sens de la vue est absolument nécessaire à l’ensemble des interactions qu’elles proposent. Vous pouvez faire vos lacets sans regarder vos chaussures. Mais vous ne pouvez pas interagir avec votre téléphone ou votre tablette de cette manière.  Cette prédominance du visuel encourage le processus d’immersion, la déconnexion avec le monde physique et social traditionnel. Les téléphones et les tablettes, comme les livres et plus encore que la télévision, sont des interfaces absorbantes.

Absorption : la bulle digitale

Qu’y a-t-il d’aussi fascinant derrière les vitres de ces fenêtres ? Une seule machine, un ordinateur planétaire, une méga-structure technique, un objet-monde comme dirait Michel Serres. Depuis sa création cette machine est porteuse d’une utopie. Grâce à ces fenêtres c’est en apparence toute l’information du monde qui est au bout de nos doigts. La fenêtre nous ouvre à un monde élargi temporellement et spatialement. Nous pourrions non seulement voir tout ce qui ce passe simultanément sur l’ordinateur-monde mais aussi à d’infinies mémoires resurgissant du passé. The « Long Here » and the « Big Now ». Il y a là une extrêmement séduisante promesse.

Notre évolution nous a donné un goût immodéré pour le sucre et le gras, jadis si rare et maintenant si commun. Aujourd’hui nous devons lutter pour apprivoiser cette appétence au risque de devenir obèses. De la même manière, il est possible que nous ayons un appétit naturel pour les informations pertinentes (ce qui est amusant, étonnant, sexuellement intéressant, ce qui se dit sur nous, ce qui nous permet d’apprendre plus, voir le livre de J-L. Dessalles sur cette question). Et nous construisons beaucoup de nos comportements dans le but de rassasier cette curiosité.

Or c’est précisément le modèle commercial qu’exploitent les services les plus importants de l’ordinateur-planétaire : nous proposer des portails d’informations pertinentes de manière à ce que nous découvrions, explorions, produisions au travers d’interfaces de ces services. J’ai discuté ailleurs de cette transition entre une économie de l’attention à une économie de l’expression, dans le contexte du capitalisme linguistique naissant. En nous proposant des interfaces incitant à une intimité linguistique sans précédent, Google peut organiser le marché mondial de la spéculation sur les mots. Comme le disait Andrew Lewis, « Si vous ne payez pas pour quelque chose, vous n’êtes pas le client, vous êtes le produit ». Ici c’est chacune de nos paroles, gestes, comportement qui, explicités par le contact avec l’interface digitale, affine la granularité des espaces commercialement exploitables. Si Google peut réaliser plusieurs dizaines de milliards de chiffre d’affaire simplement en organisant la spéculation linguistique c’est précisément parce que le marché linguistique n’est pas borné à un nombre finis de produits ou d’emplacements, il s’étend au fur et à mesure que la cartographie des mots s’affine et évolue. C’est pourquoi il est si important de capter non pas l’attention, mais l’expression.

Comme l’a bien analysé Eli Pariser dans « The Filter Bubble ». les services de l’ordinateur planétaire sont en compétition les uns avec les autres pour proposer automatiquement les informations qui seront pour nous les plus pertinentes. Or la pertinence est évidemment personnelle, dépendante de nos parcours de vies, de nos goûts esthétiques, de nos tendances politiques, des groupes sociaux au sein desquels nous évoluons.  Le 4 décembre 2009, Google a fait une petite modification à son algorithme de recherche. Il a proposé d’intégrer par défaut dans les critères de sélection une cinquantaine d’éléments dépendant du profil de l’utilisateur. Il peut ainsi me proposer des résultats qui ont plus de chance d’être pertinents (sur lesquels j’ai le plus de chance de cliquer).  Par conséquent, si je ne clique jamais sur certains types d’informations elles apparaîtront moins. Cela veut également dire que vous et moi n’obtiendrons pas les mêmes résultats pour la même recherche.

Imaginez que je cherche une information sur un grand opérateur téléphonique, peut-être obtiendrais-je des informations sur les derniers forfaits pour téléphones portables car dans le passé j’ai souvent cliqué sur ce genre d’information. Mais peut-être que vous obtiendrez des informations sur la vague de suicides dans cette même entreprise car ces questions vous ont intéressées dans le passé. Si j’ai tendance à être de gauche, j’aurais plus de propositions de gauche. Si je m’intéresse au libéralisme, on me proposera plus de libéralisme.

Insensiblement notre point de vue sur le monde quitte l’objectivité initiale de l’algorithme fondateur pour intégrer une subjectivité absolue basée sur une analyse automatique de  nos parcours de vie. Les fenêtres nous donnent accès n’ont pas à un grand univers partagé, mais à des univers parallèles.

Comme pour le capitalisme linguistique, ces dynamiques de personnalisation sont des conséquences logiques des services proposés par la machine monde. C’est précieusement parce qu’il y a trop d’information qu’on nous propose de la filtrer. Il est naturel que les algorithmes rivalisent les uns avec les autres pour nous fournir de l’information toujours plus personnalisée. Ils nous suggèrent quotidiennement le prochain livre à livre, le prochain film à voir, la prochaine musique à écouter, les personnes à suivre sur Twitter et choisissent même pour nous les meilleurs partenaires amoureux. Nous consultons des journaux personnalisés produits automatiquement et reflétant nos intérêts. Bientôt des chaînes de télévisions seront produites sur le même modèle. Partout, les algorithmes choisissent pour nous. De la même manière que Google prolonge nos phrases pour les rendre maximalement exploitable commercialement, il s’agit en parallèle d’anticiper et de régulariser nos propres opinions.

Nous avons déjà fait de Google et de Facebook nos prothèses, comme notre voiture et notre vélo. Nous les conduisons de manière inconsciente, pensant que ce sont des dispositifs techniques comme les autres. Nous ne réalisons pas que nous nous incorporons dans des interfaces qui ne nous appartiennent pas. Elles sont contrôlées par d’autres. Leur géométrie est extrêmement variable,  continuellement optimisée selon des critères définis par des modèles commerciaux qui ont maintenant faits plus que leurs preuves. C’est là la grande différence avec les dispositifs techniques classiques. Quelqu’un d’autre a pris le contrôle de la forme de la voiture.

Le village global malgré ses promesses initiales court le risque de ressembler à un voisinage conformiste. Les images sous le verre ne sont pas nécessairement des fenêtres vers la connaissance universelle, mais plutôt de simples hublots donnant sur notre propre bulle digitale.

La standardisation du livre : en théorie et en pratique

octobre 25, 2011

Je donne cette semaine un cours sur la standardisation de la chaîne du livre. L’histoire du livre est finalement l’histoire d’une succession de processus de standardisation et les guerres économiques actuelles sont en grande partie des guerres de standards. L’idée d’orienter ce cours autour de cette question m’a été donnée par la lecture du dernier livre de Milad Doueihi, Pour un humanisme numérique, dans lequel il articule l’idée que le plus important dans l’évolution vers le Cloud Computing est l’instauration de ce qu’il appelle le Nuage « standard ».

Le cours s’organise en quatre parties.

La première partie  donne un panorama du processus de standardisation du livre, d’un point de vue historique d’abord (rejoignant mes précédentes présentations sur les représentations régulées et le devenir machinique du livre) puis aborde les questions actuelles sur la guerre des plate-formes (Google, Apple, Amazon et surtout Adobe qu’on oublie trop souvent) et des formats. Je finis en montrant comment la standardisation qui s’applique sur trois niveaux (le formatage du texte, sa description sémantique et la description des trajectoires de lecture et de partage qui lui sont associés) donne naissance à des continents documentaires et à de services inédits.

La seconde partie se focalise sur XML, comme instrument fluide du processus de standardisation. Il s’agit d’une introduction destinée à ceux qui n’en maîtrisent pas encore les principes (graphistes, éditeurs, etc.). L’objectif est de comprendre à quoi sert XML et quelle est son originalité en particulier comment il permet de négocier des standards et de les réviser au fil du temps.

Les troisième et quatrième parties sont des travaux pratiques. Nous verrons d’abord comment partir d’un même fichier XML pour d’une part alimenter une mise en page InDesign et d’autre part produire automatiquement une animation Flash parlante. Nous terminerons par le processus inverse, l’extraction du contenu d’un fichier PDF pour produire du XML bien formé dans le but par exemple de créer un fichier ePub (comme nous l’avions fait au Salon du Livre pour les éditeurs et les bibliothécaires).

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 207 autres abonnés