Posts Tagged ‘larry page’

Stephen Wolfram contre Larry Page, c’est Leibniz contre d’Alembert

janvier 31, 2012

Le renouveau de la logotechnie leibnizienne

Depuis plusieurs années, Stephen Wolfram, l’inventeur de Mathematica, poursuit un ambitieux objectif : transformer nos connaissances aujourd’hui exprimées maladroitement de manière linguistique en des représentations algorithmiques, directement traitables par un ordinateur. L’équipe progresse toujours un peu plus dans la construction de cet immense chantier. Des pans entiers de nos connaissances scientifiques mais aussi de nombreux faits culturels alimentent maintenant une base de connaissances structurées sur laquelle il est possible de faire des inférences. Wolfram Alpha peut maintenant répondre à de nombreux types de questions comme la taille actuelle de l’Internet, la limite de x / sin (x) quand x tend vers 0, mais aussi l’âge qu’aurait Lady Gaga en 2028.

Le projet de Wolfram s’inscrit dans une longue tradition en intelligence artificielle et dans une tendance technologique forte. Dans les années 1980s, Douglas Lenat avec le projet Cyc tentait de construire une encyclopédie du sens commun sous forme de descriptions traitables par une machine. Au Canada, Pierre Levy travaille depuis de nombreuses années à un métalangue IEML dont l’ambition est de fournir un système de coordonnées "mathématico-linguistique" pour la construction collaborative d’un "Hypercortex". Ces projets proposent des approches technologiques relativement différentes les uns des autres pour tenter de construire ce que l’on pourra appeler un capital sémantique (je reviendrai sur cette notion dans un prochain billet), mais tous partagent plus ou moins le même rêve : construire une langue technique dont le cœur serait une sémantique computationelle.

La langue algébrique universelle de Leibniz

Dans un billet de 2009, Stephan Wolfram présentait l’essence de son projet Wolfram Alpha comme étant précisément une tentative de "rendre la connaissance computable" pour contourner le problème quasiment insoluble de l’analyse du langage naturel.  Dans son livre de 2011, la sphère sémantique, Pierre Levy parle d’une "écriture permettant la maîtrise intellectuelle des flux d’information". Ce renouveau des projet de construction d’une langue technique nouvelle, créée artificiellement par l’homme pour permettre l’inférence sémantique automatique ressemble à s’y m’éprendre au projet logotechnique de Leibniz au XVIIe siècle. Leibniz voulait lui aussi construire une langue universelle et scientifique.

"après avoir fait cela, lorsqu’il surgira des controverses, il n’y aura plus besoin de discussion entre deux philosophes qu’il n’y en a entre deux calculateurs. Il suffira, en effet, qu’ils prennent leur plume, qu’ils s’assoient à une table, et qu’il se disent réciproquement (après avoir appelé, s’ils le souhaitent, un ami) : calculons" (cité dans Gerhardt, 1875 Die philosophischen Schriften von G.W. Leibniz)

Calculons ! Un algorithme efficace peut remplacer les préceptes de la méthode cartésienne. Nous n’avons pas besoin de méthodes pour penser, nous avons besoin d’algorithmes et d’une langue symbolique adaptée. Leibniz développe cette même idée d’une sémiologie générale dans cette lettre du 10 Janvier 1714

"Ce pourrait être en même temps une manière de langue ou d’écriture universelle, mais infiniment différente de toutes celles qu’on a projetées jusqu’ici, car les caractères et les paroles même y dirigeraient la raison, et les erreurs (excepté celles de fait) n’y seraient que des erreurs de calcul"

Leibniz est en avance sur Boole de plusieurs siècles. Dans le passage suivant, il décrit très précisément les avantages de cette langue algébrique capable de manipuler aveuglement des symboles pour faire des raisonnements justes, sans pour autant avoir à préciser à quoi ces symboles sont attachés.

"Les langues ordinaires, bien qu’elles servent au raisonnement, sont cependant sujettes à d’innombrables équivoques, et ne peuvent être employées pour le calcul, c’est-à-dire de façon à ce que l’on puisse découvrir les erreurs de raisonnement en remontant à la formation et à la construction des mots, comme s’il s’agissait de solécismes ou de barbarismes. Cet avantage très admirable n’est donné pour le moment que par les signes employés par les arithméticiens et les algébristes, chez lesquels tout raisonnement consiste dans l’utilisation de caractères, et toute erreur mentale est la même chose qu’une erreur de calcul. En méditant profondément sur cet argument, il m’est apparu aussitôt clair que toutes les pensées humaines pouvaient se transformer entièrement en quelques pensées qu’il fallait considérer comme primitives. Si ensuite l’on assigne à ces dernières des caractères, on peut former, à partir de là, les caractères des notions dérivées, d’où il est toujours possible d’extraire leurs réquisits et les notions primitives qui y entrent, pour dire la chose en un mot, les définitions et les valeurs, et donc aussi leurs modifications que l’on peut faire dériver des définitions." (Die scientia universali seu calculo philosophico in Gerhardt, 1875 Die philosophischen Schriften von G.W. Leibniz)

L’intuition de Leibniz se base sur ses propres succès. Il explique que les progrès qu’il a fait faire aux mathématiques, le calcul infinitésimal en particulier, sont fondés sur sa réussite à trouver des symboles adaptés pour représenter les quantités et leur relations. C’est sans doute de là que lui vient l’intuition que pour découvrir de nouvelle vérité, il faut mécaniser l’inférence (la base du calcul formel tel qu’il est pratiqué dans Mathematica).

Allons-nous  vers la réalisation du langage algébrique rêvé par Leibniz ? Comme nous l’avons vu, certains projets prennent véritablement cette direction.

Dans l’avant dernier chapitre de "la recherche de la langue parfaite", Umberto Eco nous met néanmoins en garde :

"C’est précisément lorsque l’on revisite d’anciens projets qui se sont montrés utopiques et qui ont échoué, que l’on peut prévoir les limites ou les faillites possibles de chaque entreprise qui prétend être un début dans le vide. Relire ce qu’on fait nos ancêtres n’est pas un simple divertissement archéologique, mais une précaution immunologique".

La langue algébrique sémantique universelle est-elle une utopie ? ou fallait-il juste attendre trois cents ans pour la voir enfin éclore ?

A-t-on besoin de modèles sémantiques sophistiqués ?

Certains ne croient pas à cette voie et pensent que nous n’avons pas vraiment besoin de modèles sémantiques sophistiqués pour organiser la connaissance du monde. Grâce à l’océan de données que nous avons à notre disposition, des méthodes moins "intelligentes" peuvent parfois se révéler plus efficaces.

Dans un éditorial un peu provoquant de juin 2008, Chris Anderson affirmait que nous n’avons tout simplement plus besoin de modèles et faisait de Google le contre-exemple à opposer aux approches logotechniques.

Google’s founding philosophy is that we don’t know why this page is better than that one: If the statistics of incoming links say it is, that’s good enough. No semantic or causal analysis is required. That’s why Google can translate languages without actually "knowing" them (given equal corpus data, Google can translate Klingon into Farsi as easily as it can translate French into German). And why it can match ads to content without any knowledge or assumptions about the ads or the content.

Un peu plus bas, il cite Peter Norvig, directeur de recherche chez Google : "All models are wrong, and increasingly you can succeed without them."

Il n’y a pas que Google qui s’inscrit dans cette philosophie. En 2011, Watson, l’ordinateur d’IBM est devenu champion de Jeopardy. Il a battu les meilleurs joueurs mondiaux pour répondre à des questions de culture générale, un domaine dont on pourrait facilement argumenter qu’elle est pour une machine bien plus difficile que les échecs.  Même si Watson utilise une version de Wikipedia codée sémantiquement (DBPedia), ainsi que les bases lexicales et sémantiques WordNet et Yago, la philosophie sous-jacente relève plus du recoupement statistique de multiples sources que d’une langue algébrique rigoureuse comme en rêvait Leibniz. David Ferruci qui a dirigé le projet est relativement explicite sur ce point :

There’s no single formula that makes a computer understand and answer natural language questions. It’s really this huge combination of smaller algorithms that look at the data from many different perspectives, and they consider all sorts of possibilities and all sorts of evidence. Watson brings all these various algorithms together to judge that evidence with respect to every one of its possibly hundreds or thousands of different answers to decide which one is most likely the correct answer, and ultimately computes a confidence in that. And if that confidence is above a threshold, then Watson says, "Hey I want to answer this question. I want to buzz in and take the risk. (IBM’s Watson computer takes the Jeopardy! challenge)

Paradoxalement, cette posture n’est pas si loin de celle des encyclopédistes à la fin du XVIIIe siècles. La langue universelle est alors perçue comme un vieux rêve de l’âge classique. D’Alembert  ne croit plus à l’existence d’un système de représentations  générales de la pensée. L’Encyclopédie n’est pas une magnifique construction mathématique, c’est un labyrinthe. Chaque article est une carte particulière, un point de vue sur le monde. Il n’y a pas de système de coordonnées globales, il y a une infini variété de perspectives.

"On peut imaginer autant de systèmes différents de la connaissance humaine, que de Mappemondes de différentes projections" (Encyclopédie, Discours préliminaire, p. XV)

Pour être capable de décrire méthodiquement tous les savoirs du monde, d’Alembert refuse pragmatiquement l’aveugle et parfaite mécanique des langues algébriques. L’Encyclopédie revient au texte et à l’image comme sources premières et immédiates de connaissance. Sur ces bases, il construit un réseau, avec embranchements multiples. En fait, il invente l’approche philosophique du web.

Aujourd’hui, en ce début de XXIe siècle, deux conceptions s’affrontent, l’une héritière du rêve mathématique de l’âge classique, l’autre de l’encyclopedisme des Lumières. Wolfram contre Page, c’est Leibniz contre d’Alembert. L’enjeu de ce combat philosophico-technique n’est rien moins qu’une certain vision de ce qu’est la connaissance du monde.

Quand les mots valent de l’or

janvier 17, 2012

A l’automne dernier, suite à un billet sur ce blog, le Monde diplomatique m’a contacté pour me demander de développer mes idées sur le capitalisme linguistique dans un article plus long. L’article est paru en dernière page dans l’édition de novembre, il a ensuite était traduit dans de nombreuses langues, par exemple en espagnol ("Palabras que valen oro"), en brésilien ("Quandos as palavras valem ouro"), en italien ("Quando le parole valgono oro"), etc. Puis il y a eu des réactions multilingues diverses sur les blogs. Réjouissantes réactions multiculturelles pour un article qui traite précisément du juteux marché des langues vivantes.

L’histoire de Google tient en deux algorithmes : l’un l’a rendu populaire, l’autre l’a rendu riche. La première de ces méthodes, élaborée par Larry Page et Sergey Brin alors qu’ils étaient encore étudiants en thèse à l’université Stanford (Californie), consistait en une nouvelle définition de la pertinence d’une page Web en réponse à une requête donnée. En 1998, les moteurs de recherche étaient certes déjà capables de répertorier les pages contenant le ou les mots demandés. Mais le classement se faisait souvent de façon naïve, en comptabilisant le nombre d’occurrences de l’expression cherchée. Au fur et à mesure que le Web grandissait, les résultats proposés aux internautes étaient de plus en plus confus. Les fondateurs de Google proposèrent de calculer la pertinence de chaque page à partir du nombre de liens hypertexte pointant vers elle – un principe inspiré de celui qui assure depuis longtemps la reconnaissance des articles académiques. Plus le Web grandissait, plus l’algorithme de Page et Brin affinait la précision de ses classements. Cette intuition fondamentale permit à Google de devenir, dès le début des années 2000, la première porte d’entrée du Web.

Alors que bien des observateurs se demandaient comment la société californienne pourrait bien monétiser ses services, c’est l’invention d’un second algorithme qui a fait d’elle l’une des entreprises les plus riches du monde. A l’occasion de chaque recherche d’internaute, Google propose en effet plusieurs liens, associés à des courtes publicités textuelles, vers des sites d’entreprises. Ces annonces sont présentées avant les résultats de la recherche proprement dits. Les annonceurs peuvent choisir les expressions ou mots-clés auxquels ils souhaiteraient voir associée leur publicité ; par exemple, les recherches contenant le mot « vacances ». Ils ne paient que lorsqu’un internaute clique effectivement sur le lien proposé pour accéder à leur site. Afin de choisir quelles publicités afficher pour une requête donnée, l’algorithme propose un système d’enchères en quatre étapes :

- L’enchère sur un mot-clé. Une entreprise choisit un mot ou une expression, par exemple « vacances », et définit le prix maximum qu’elle serait prête à payer si un internaute arrive chez elle par ce biais. Pour aider les acheteurs de mots, Google fournit une estimation du montant de l’enchère à proposer pour avoir de bonnes chances de figurer sur la première page de résultats. Les acheteurs peuvent limiter leur publicité à des dates ou des lieux spécifiques. Mais attention : comme on va le voir, le fait d’avoir l’enchère la plus haute ne garantit pas que vous serez le premier sur la page.

- Le calcul du score de qualité de la publicité. Google attribue à chaque annonce, sur une échelle de un à dix, un score, fonction de la pertinence de son texte au regard de la requête de l’utilisateur, de la qualité de la page mise en avant (intérêt de son contenu et rapidité de chargement), et du nombre moyen de clics sur la publicité. Ce score mesure à quel point la publicité fonctionne, assurant à la fois de bons retours à l’annonceur, et d’imposants revenus à Google, qui ne gagne de l’argent que si les internautes choisissent effectivement de cliquer sur le lien proposé. L’algorithme exact qui établit ce score reste secret, et modifiable à loisir par Google.

- Le calcul du rang. L’ordre dans lequel les publicités apparaissent est déterminé par une formule relativement simple : le Rang est l’Enchère multipliée par le Score. Une publicité ayant un bon score peut ainsi compenser une enchère plus faible et arriver devant. Google optimise ici ses chances que l’internaute clique sur les publicités proposées.

Ce jeu d’enchères est recalculé pour chaque requête de chaque utilisateur — des millions de fois par seconde ! Ce second algorithme a rapporté à la firme de Moutain View la coquette somme de 9,720 milliards de dollars pour le troisième trimestre 2011 — un chiffre en croissance de 33 % par rapport à la même période de l’année 2010 *.

Le marché linguistique ainsi créé par Google est déjà global et multilingue. A ce titre, la Bourse des mots qui lui est associée donne une indication relativement juste des grands mouvements sémantiques mondiaux. Google propose d’ailleurs des outils simples et ludiques pour explorer une partie des données qu’il collecte sur l’évolution de la valeur des mots. C’est ainsi que nous pouvons voir comment les fluctuations du marché sont marquées par les changements de saison (les mots « ski » et « vêtements de montagne » ont plus de valeur en hiver, « bikini » et « crème solaire » en été). Les flux et les reflux de la valeur du mot « or » témoignent de la santé financière de la planète. Google gagne évidemment beaucoup d’argent sur les mots pour lesquels la concurrence est forte (« amour », « sexe », « gratuit »), sur les noms de personnes célèbres (« Picasso », « Freud », « Jésus », « Dieu »), mais également dans des domaines de langue où la spéculation est moindre.   Tout ce qui peut être nommé peut donner lieu à une enchère.

Google a réussi à étendre le domaine du capitalisme à la langue elle-même, à faire des mots une marchandise, à fonder un modèle commercial incroyablement profitable sur la spéculation linguistique. L’ensemble de ses autres projets et innovations technologiques – qu’il s’agisse de gérer le courrier électronique de millions d’usagers ou de numériser l’ensemble des livres jamais publiés sur la planète – peuvent être analysés à travers ce prisme. Que craignent les acteurs du capitalisme linguistique ? Que la langue leur échappe, qu’elle se brise, se « dysorthographie », qu’elle devienne impossible à mettre en équations. Quand Google corrige à la volée un mot que vous avez mal orthographié, il ne fait pas que vous rendre service : il transforme un matériau sans grande valeur (un mot mal orthographié) en une ressource économique directement rentable. Quand Google prolonge une phrase que vous avez commencé à taper dans la case de recherche, il ne se borne pas à vous faire gagner du temps : il vous ramène dans le domaine de la langue qu’il exploite, vous invite à emprunter le chemin statistique tracé par les autres internautes. Les technologies du capitalisme linguistique poussent donc à la régularisation de la langue. Et plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation sera efficace.

Pas de théorie du complot : Google n’entend pas modifier la langue à dessein. La régularisation évoquée ici est simplement un effet de la logique de son modèle commercial. Pour réussir dans le monde du capitalisme linguistique, il faut cartographier la langue mieux que n’importe quel linguiste ne sait le faire aujourd’hui. Là encore, Google a su construire une stratégie innovante en développant une intimité linguistique sans précédent avec ses utilisateurs. Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google ; pas simplement lorsque nous faisons une recherche, mais aussi quand nous écrivons un courrier électronique avec GMail ou un article avec Google Docs, quand nous signalons une information sur le réseau social Google+, et même oralement, à travers les interfaces de reconnaissance vocale que Google intègre à ses applications mobiles. Nous sommes des millions chaque jour à écrire et à parler par le biais de Google. C’est pourquoi le modèle statistique multilingue qu’il affine en permanence et vers lequel il tente de ramener chaque requête est bien plus à jour que le dictionnaire publié annuellement par nos académiciens. Google suit les mouvements de la langue minute par minute, car il a le premier découvert en elle un minerai d’une richesse extraordinaire, et s’est doté des moyens nécessaires pour l’exploiter.

La découverte de ce territoire du capitalisme jusqu’ici ignoré ouvre un nouveau champ de bataille économique. Google bénéficie certes d’une avance importante, mais des rivaux, ayant compris les règles de cette nouvelle compétition, finiront par se profiler. Des règles finalement assez simples : nous quittons une économie de l’attention pour entrer dans une économie de l’expression. L’enjeu n’est plus tant de capter les regards, que de médiatiser la parole et l’écrit. Les gagnants seront ceux qui auront pu développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour modéliser et infléchir la langue, créer un marché linguistique contrôlé et organiser la spéculation sur les mots. L’utilisation du langage est désormais l’objet de toutes les convoitises. Nul doute qu’il ne faudra que peu de temps avant que la langue elle-même ne s’en trouve transformée.

* “Google Q3 2011: $9.72 Billion In Revenue, $2.73 Billion In Net Income”, TechCrunch, 13 Octobre 2011.

Si vous voulez citer cet article, merci d’utiliser la référence suivante :

Kaplan, F (2011) Vers de la capitalisme linguistique : Quand les mots valent de l’or, Le Monde diplomatique, N 692, Novembre 2011, p.28

Suivre

Recevez les nouvelles publications par mail.

Joignez-vous à 197 followers