Posts Tagged ‘pagerank’

Quand les mots valent de l’or

janvier 17, 2012

A l’automne dernier, suite à un billet sur ce blog, le Monde diplomatique m’a contacté pour me demander de développer mes idées sur le capitalisme linguistique dans un article plus long. L’article est paru en dernière page dans l’édition de novembre, il a ensuite était traduit dans de nombreuses langues, par exemple en espagnol (« Palabras que valen oro« ), en brésilien (« Quandos as palavras valem ouro« ), en italien (« Quando le parole valgono oro »), etc. Puis il y a eu des réactions multilingues diverses sur les blogs. Réjouissantes réactions multiculturelles pour un article qui traite précisément du juteux marché des langues vivantes.

L’histoire de Google tient en deux algorithmes : l’un l’a rendu populaire, l’autre l’a rendu riche. La première de ces méthodes, élaborée par Larry Page et Sergey Brin alors qu’ils étaient encore étudiants en thèse à l’université Stanford (Californie), consistait en une nouvelle définition de la pertinence d’une page Web en réponse à une requête donnée. En 1998, les moteurs de recherche étaient certes déjà capables de répertorier les pages contenant le ou les mots demandés. Mais le classement se faisait souvent de façon naïve, en comptabilisant le nombre d’occurrences de l’expression cherchée. Au fur et à mesure que le Web grandissait, les résultats proposés aux internautes étaient de plus en plus confus. Les fondateurs de Google proposèrent de calculer la pertinence de chaque page à partir du nombre de liens hypertexte pointant vers elle – un principe inspiré de celui qui assure depuis longtemps la reconnaissance des articles académiques. Plus le Web grandissait, plus l’algorithme de Page et Brin affinait la précision de ses classements. Cette intuition fondamentale permit à Google de devenir, dès le début des années 2000, la première porte d’entrée du Web.

Alors que bien des observateurs se demandaient comment la société californienne pourrait bien monétiser ses services, c’est l’invention d’un second algorithme qui a fait d’elle l’une des entreprises les plus riches du monde. A l’occasion de chaque recherche d’internaute, Google propose en effet plusieurs liens, associés à des courtes publicités textuelles, vers des sites d’entreprises. Ces annonces sont présentées avant les résultats de la recherche proprement dits. Les annonceurs peuvent choisir les expressions ou mots-clés auxquels ils souhaiteraient voir associée leur publicité ; par exemple, les recherches contenant le mot « vacances ». Ils ne paient que lorsqu’un internaute clique effectivement sur le lien proposé pour accéder à leur site. Afin de choisir quelles publicités afficher pour une requête donnée, l’algorithme propose un système d’enchères en quatre étapes :

– L’enchère sur un mot-clé. Une entreprise choisit un mot ou une expression, par exemple « vacances », et définit le prix maximum qu’elle serait prête à payer si un internaute arrive chez elle par ce biais. Pour aider les acheteurs de mots, Google fournit une estimation du montant de l’enchère à proposer pour avoir de bonnes chances de figurer sur la première page de résultats. Les acheteurs peuvent limiter leur publicité à des dates ou des lieux spécifiques. Mais attention : comme on va le voir, le fait d’avoir l’enchère la plus haute ne garantit pas que vous serez le premier sur la page.

– Le calcul du score de qualité de la publicité. Google attribue à chaque annonce, sur une échelle de un à dix, un score, fonction de la pertinence de son texte au regard de la requête de l’utilisateur, de la qualité de la page mise en avant (intérêt de son contenu et rapidité de chargement), et du nombre moyen de clics sur la publicité. Ce score mesure à quel point la publicité fonctionne, assurant à la fois de bons retours à l’annonceur, et d’imposants revenus à Google, qui ne gagne de l’argent que si les internautes choisissent effectivement de cliquer sur le lien proposé. L’algorithme exact qui établit ce score reste secret, et modifiable à loisir par Google.

– Le calcul du rang. L’ordre dans lequel les publicités apparaissent est déterminé par une formule relativement simple : le Rang est l’Enchère multipliée par le Score. Une publicité ayant un bon score peut ainsi compenser une enchère plus faible et arriver devant. Google optimise ici ses chances que l’internaute clique sur les publicités proposées.

Ce jeu d’enchères est recalculé pour chaque requête de chaque utilisateur — des millions de fois par seconde ! Ce second algorithme a rapporté à la firme de Moutain View la coquette somme de 9,720 milliards de dollars pour le troisième trimestre 2011 — un chiffre en croissance de 33 % par rapport à la même période de l’année 2010 *.

Le marché linguistique ainsi créé par Google est déjà global et multilingue. A ce titre, la Bourse des mots qui lui est associée donne une indication relativement juste des grands mouvements sémantiques mondiaux. Google propose d’ailleurs des outils simples et ludiques pour explorer une partie des données qu’il collecte sur l’évolution de la valeur des mots. C’est ainsi que nous pouvons voir comment les fluctuations du marché sont marquées par les changements de saison (les mots « ski » et « vêtements de montagne » ont plus de valeur en hiver, « bikini » et « crème solaire » en été). Les flux et les reflux de la valeur du mot « or » témoignent de la santé financière de la planète. Google gagne évidemment beaucoup d’argent sur les mots pour lesquels la concurrence est forte (« amour », « sexe », « gratuit »), sur les noms de personnes célèbres (« Picasso », « Freud », « Jésus », « Dieu »), mais également dans des domaines de langue où la spéculation est moindre.   Tout ce qui peut être nommé peut donner lieu à une enchère.

Google a réussi à étendre le domaine du capitalisme à la langue elle-même, à faire des mots une marchandise, à fonder un modèle commercial incroyablement profitable sur la spéculation linguistique. L’ensemble de ses autres projets et innovations technologiques – qu’il s’agisse de gérer le courrier électronique de millions d’usagers ou de numériser l’ensemble des livres jamais publiés sur la planète – peuvent être analysés à travers ce prisme. Que craignent les acteurs du capitalisme linguistique ? Que la langue leur échappe, qu’elle se brise, se « dysorthographie », qu’elle devienne impossible à mettre en équations. Quand Google corrige à la volée un mot que vous avez mal orthographié, il ne fait pas que vous rendre service : il transforme un matériau sans grande valeur (un mot mal orthographié) en une ressource économique directement rentable. Quand Google prolonge une phrase que vous avez commencé à taper dans la case de recherche, il ne se borne pas à vous faire gagner du temps : il vous ramène dans le domaine de la langue qu’il exploite, vous invite à emprunter le chemin statistique tracé par les autres internautes. Les technologies du capitalisme linguistique poussent donc à la régularisation de la langue. Et plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation sera efficace.

Pas de théorie du complot : Google n’entend pas modifier la langue à dessein. La régularisation évoquée ici est simplement un effet de la logique de son modèle commercial. Pour réussir dans le monde du capitalisme linguistique, il faut cartographier la langue mieux que n’importe quel linguiste ne sait le faire aujourd’hui. Là encore, Google a su construire une stratégie innovante en développant une intimité linguistique sans précédent avec ses utilisateurs. Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google ; pas simplement lorsque nous faisons une recherche, mais aussi quand nous écrivons un courrier électronique avec GMail ou un article avec Google Docs, quand nous signalons une information sur le réseau social Google+, et même oralement, à travers les interfaces de reconnaissance vocale que Google intègre à ses applications mobiles. Nous sommes des millions chaque jour à écrire et à parler par le biais de Google. C’est pourquoi le modèle statistique multilingue qu’il affine en permanence et vers lequel il tente de ramener chaque requête est bien plus à jour que le dictionnaire publié annuellement par nos académiciens. Google suit les mouvements de la langue minute par minute, car il a le premier découvert en elle un minerai d’une richesse extraordinaire, et s’est doté des moyens nécessaires pour l’exploiter.

La découverte de ce territoire du capitalisme jusqu’ici ignoré ouvre un nouveau champ de bataille économique. Google bénéficie certes d’une avance importante, mais des rivaux, ayant compris les règles de cette nouvelle compétition, finiront par se profiler. Des règles finalement assez simples : nous quittons une économie de l’attention pour entrer dans une économie de l’expression. L’enjeu n’est plus tant de capter les regards, que de médiatiser la parole et l’écrit. Les gagnants seront ceux qui auront pu développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour modéliser et infléchir la langue, créer un marché linguistique contrôlé et organiser la spéculation sur les mots. L’utilisation du langage est désormais l’objet de toutes les convoitises. Nul doute qu’il ne faudra que peu de temps avant que la langue elle-même ne s’en trouve transformée.

* “Google Q3 2011: $9.72 Billion In Revenue, $2.73 Billion In Net Income”, TechCrunch, 13 Octobre 2011.

Si vous voulez citer cet article, merci d’utiliser la référence suivante :

Kaplan, F (2011) Vers de la capitalisme linguistique : Quand les mots valent de l’or, Le Monde diplomatique, N 692, Novembre 2011, p.28

Le déclin de l’hypertexte

juin 16, 2011

La structure hypertextelle est la matrice originelle du web

Le web est né de l’hypertexte : associer des mots d’un texte ou des images des liens explicites vers d’autres textes et d’autres images. De liens en liens, une toile immense s’est tissée. Nous avons d’abord été submergé par les infinis potentialité d’une telles structure. Nous y sommes maintenant habitué et nous prenons la toile et l’hypertexte pour acquis, fondement stable d’une structure mondiale dont l’expansion pourrait sembler en perpétuelle continuation.

Peut-être est-il utile de rappeler que Google est né de l’hypertexte. Son algorithme fondateur a rendu obsolète les moteurs de recherche qui se contentaient d’évaluer la pertinence d’un texte par rapport à une requête en comptant les occurrences des mots qui s’y trouvaient. Au contraire, PageRank prenait lui l’hypertexte au sérieux. C’est dans les liens, tissés intentionnellement par des d’hommes et de femmes, que se cachaient la pertinence. C’était eux qu’il fallait scruter, compter, comparer pour classer les sources d’information. C’est au départ cette simple intuition sur la valeur pragmatique du lien hypertexte qui a permis de créer l’entreprise la plus influente de ce début du XXIe siècle.

Les hypertextes sont en déclin

Mais l’information disponible sur le web n’est plus aujourd’hui uniquement produite sous la forme de hypertextes liés les uns aux autres. A l’exception notable de Wikipedia et des blogs, cette forme tend s’en doute à globalement régresser. Des grandes quantité de données et des documents deviennent disponibles sur le web sans avoir été pensé pour lui. Ils tendent à constituer une masse d’information qui pourrait à terme surpasser la masse des pages web elles-mêmes.

L’exemple les plus flagrant est sans doute ces millions de livres qui sont aujourd’hui en train d’être numérisés et indexés et qui seront demain directement accessibles par une simple requête dans un moteur de recherche. Il est raisonnable que penser que la masse d’informations pertinentes que ces livres contiennent dépasse ce que le web hypertextuel peut aujourd’hui offrir. Or ces millions de livres ne sont pas des hypertextes. Certes certains livres citent d’autres livres, mais la densité de ces liens rend l’algorithme de type PageRank beaucoup moins efficace. Quelles pages de livres montrer lorsqu’un utilisateur tape un mot particulier, par exemple « renard » ? Les pages des livres qui contiennent « renard » dans leur titre, les extraits où se mots de retrouve avec une densité inhabituelle ? Attendrons nous que des utilisateurs balisent patiemment chaque page de chaque livre avec les mots clés appropriés et construise ce web semantique, si longtemps annoncé et dont le développement semble toujours aussi peu crédible ? Nous sommes revenus aux hésitations caractéristiques du temps de Lycos et d’Altavista, la période pre-Google. Le PageRank du continent des livres reste encore à inventer.

La navigation hypertextuelle pourrait être remplacée par des cheminements intertextuels sur le continent documentaire en formation

Si la plus grande parties les livres indexés et numérisés n’ont pas de liens hypertextes, il ne sont pas pour autant des documents refermés sur eux-mêmes. Au contraire, comme on peut en faire l’expérience sur les livres que nous adaptons, c’est maintenant chaque mot qui devient le point de départ possible pour une recherche. Ainsi un mot ou une phrase peuvent évidemment être cherchées dans le livre lui-même, sur Wikipedia mais aussi dans des corpus plus spécialisés (L’intégrale de la la revue la Salamandre que nous avons adapté et indexé constitue par exemple un corpus extrêmement pertinent pour la faune et la flore de Suisse romande). Chaque mot ou chaque phrase peut donc être le point de départ d’un cheminement intertextuel sur l’immense continent documentaire qui est en train de se former. A défaut de liens explicites conçus par les auteurs se sont des chemins de lecture qui maintenant tissent entre chaque textes des ponts.

La clé de la pertinence intertextuelle est peut-être cachée dans les cheminements des lecteurs entre les livres.

Quelque part caché dans ces traces se trouve sans doute un minerai informationnel précieux, comme celui que Larry Page avait su en son temps extraire dans la structure hypertextuelle du web. Nous sommes sans doute plusieurs aujourd’hui de par le monde à tamiser les flux de donnée pour tenter de l’identifier. Intuitivement, si un lecteur saute d’un texte vers un autre c’est que lien particulier lient ces deux textes. Si l’hyperlien constitue une pertinence identifiée par un auteur-architecte, le saut intertextuel est lui plus motivé par la curiosité, une promesse de pertinence. Un saut intertextuel répété par plusieurs lecteurs témoigne d’une interrogation commune, d’un prolongement « naturel » du texte, d’un mouvement qu’il suscite. C’est un geste induit par un contexte, comme ces chemins que la disposition d’un espace nous incitent à emprunter sans nous y contraindre explicitement. Ils arrivent souvent sur les pelouses de certains espaces verts que les traces répétées de certains promeneurs creusent des chemins qui par renforcement successifs se voient de plus en plus empruntés. Parfois ces chemins émergents sont ensuite officiellement marqués car leur tracé collectivement construit est souvent une combinaison optimale pour se rendre d’un lieu à un autre dans un espace fait de déclivités et d’obstacles divers. J’imagine donc volontiers que nos livres fraîchement indexés qui n’ont pas aujourd’hui ces soulignements bleus caractéristiques des premières heures du web, pourraient dans un futur plus ou moins proche se trouver de nouveau balisé par des chemins issus des ponts que les lecteurs auront empruntés entre des textes particuliers parmi le choix infini des liens intertextuels possibles.