16 des 20 contributeurs les plus actifs sur Wikipedia sont des bots

Mai 26, 2015

Première ébauche d’un texte pour le catalogue d’une exposition au Quai Branly. Un travail réalisé avec un de mes doctorants Dana Kianfar, qui travaille sur les algorithmes et le capitalisme linguistique. Les questions plus générale sur les effets de la médiation algorithmiques sur la langue ont été traitée dans Kaplan (2014) et la transformation progressive des livres en machines, thème connexe à celui traité ici est discutée dans Kaplan (2012). Le billet prolonge le travail pionnier de Stuart Geiger dans ce domaine (Geiger 2011). J’ai également parlé de ce sujet sur la RTS 1 lors d’une interview de 10 min à l’émission CQFD.

16 des 20 contributeurs les plus actifs sur la version anglaise de Wikipedia sont des bots. Cette estimation, a peu près équivalente à celle de Stuart Geiger en 2011, est rapidement obtenue en comparant la page qui classe les contributeurs humains le plus prolifiques avec celle qui propose le même classement pour les algorithmes. Dans ce classement qui mesure l’activité par le nombre d’actions d’édition sur l’encyclopédie en ligne, le premier contributeur humain n’arrive qu’à la douzième position. Ce chiffre varie selon les communautés linguistiques de Wikipedia. Dans le même classement pour la version espagnole de Wikipedia, on ne retrouve que deux bots.

Wikipédia n’est pas simplement le grand oeuvre d’une communauté d’utilisateurs qui, ensemble, aurait décidé de construire une encyclopédie libre et gratuite. C’est aussi le résultat du travail de plusieurs centaines d’algorithmes qui chaque jour mettent en forme, contrôlent, surveillent et réprimandent les contenus écrits. Au fil des années, les hommes ont appris à construire et structurer la connaissance en programmant des règles que les bots se chargeaient d’appliquer. Les bots ont aidé à construire Wikipedia et aujourd’hui, jouent un rôle crucial dans sa maintenance et son évolution. Ce faisant il sont devenus comme une présence, une altérité machinique que les contributeurs de l’encyclopédie en ligne ont accepté avec plus ou moins de facilité. L’histoire de ces premières frictions, la négociation progressive de l’autonomie accordée à ces algorithmes sont les prémisses d’un monde qui vient, où hommes et machines devront apprendre à partager un même espace pour écrire ensemble.

Historiquement,les bots ont joué un rôle important dans la création et le développement de Wikipédia. En février 2002, plusieurs centaines d’articles du « Federal Standard 1037c », un dictionnaire de termes techniques, ont été importés et wikifiés par un algorithme, proposant ainsi la base de nombreuses nouvelles pages que les utilisateurs que les utilisateurs purent ensuite enrichir. À la même période, de nombreux articles du « Easton’s Bible Dictionary », un ouvrage de la fin du XIXe siècle, furent également importés et restructurés pour servir de contenu initial à des pages Wikipedia encore inexistantes. Cette importation a conduit à introduire dans certaines pages de Wikipedia une prose victorienne anachronique, qui fut progressivement assimilée pour se fondre avec l’anglais contemporain. Le même bot importa une grande partie des articles de la version de 1911 de l’Encyclopedia Britanica, à partir d’une copie numérisée par le projet Gutenberg.

Durant ces premières années, les algorithmes se nourrissant des contenus suffisamment anciens pour être passés dans le domaine public ont ainsi contribué à structurer les premiers contenus de Wikipedia lui permettant d’atteindre rapidement une masse critique. Dès que la logique de « template » pouvait être appliquée, des bots ont été utilisés pour produire des articles types. Un algorithme nommé « Ram-bot » produisit ainsi les articles de base pour 30 000 villes américaines en important les données du recensement américain et en les structurant dans un style simple et systématique. Ce squelette textuel fut ensuite étoffé par les contributeurs qui l’enrichirent avec des détails de la géographie et l’histoire locale de chaque ville, expérimentant sans vraiment en avoir conscience une forme d’écriture mixte personne-machine.

Ce procédé fut répété à plusieurs reprises, mais toujours dans des domaines de la connaissance de plus en plus pointus. En 2008, par exemple, un algorithme nommé « Clue-bot II » créa 15 000 petits articles sur les astéroïdes à partir d’une base de données de la Nasa. Ces articles furent à leur tour édités puis traduits par d’autres bots. Malheureusement, la base, assez ancienne, contenait des erreurs et, quand un humain a réalisé la contamination, un processus de correction massive dut être mis en place. Ce type d’accidents a contribué à alimenter la polémique autour des bots et leur rôle positif ou négatif sur la construction et la régulation de l’encyclopédie en ligne.

Aujourd’hui les bots assurent de nombreuses fonctions de maintenance et de réparation, souvent répétitives et consommatrices de temps. Un des algorithmes patrouilleurs les plus sophistiqués s’appelle ClueBot NG. Il identifie et répare les actes de vandalisme, comme l’insertion de propos outrancier sans rapport avec le contenu d’une page donnée. D’autres bots détectent des violations possibles de copyright, tissent des liens entre les pages de différentes versions linguistiques de Wikipédia, bloquent automatiquement les pages qui sont modifiées avec trop d’intensité, corrigent les fautes de syntaxe et d’une manière générale se chargent d’automatiser les règles et normes de bon fonctionnement de l’encyclopédie en ligne. La version anglaise de Wikipédia comptant plus de 4 millions d’articles, dont une partie significative sont régulièrement mis à jour, seule une police algorithmique semble pouvoir veiller sur cet édifice en perpétuelle reconstruction. C’est ce qui a poussé certains éditeurs de Wikipédia à devenir programmateurs de bots, les concevant avant tout comme une forme d’outil d’édition puissant. Ce faisant, ils ont donné naissance à un écosystème complexe, conduisant à des articles systématiquement coproduits par des humains et des machines.

L’ambivalence des bots réside dans leur double nature, à la fois la formalisation informatique d’une règle de comportement et l’agent faisant appliquer cette règle. Une des controverses la plus importantes dans la longue histoire de la négociation de la présence des bots sur Wikipédia est relatée par Stuart Geiger (2011). L’algorithme Hagermanbot ne faisait qu’appliquer une règle acceptée sur Wikipédia. Il identifiait les commentaires sans signature et ajoutait automatiquement l’identité de leur auteur. Personne ne remettait en cause cette règle, mais quand elle fut appliquée systématiquement par l’algorithme, l’action du bot fut perçue comme embarrassante pour certains. Il existait des situations dans lesquelles un auteur pouvait vouloir différer sa signature ou effectivement laisser son commentaire non signé. Certains argumentèrent que la règle des signatures n’était qu’une « guideline » pas une loi dont l’application devait être systématiquement vérifiée par la surveillance policière et violente d’un algorithme.

C’est la différence, discutée par Bruno Latour, entre le gendarme et le « gendarme couché ». Le premier fait appliquer la limitation de vitesse dans une rue à proximité d’une école, mais sait en adapter l’application quand une ambulance doit exceptionnellement passer par ce chemin. Le « gendarme couché », devenu infrastructure urbaine de ralentissement, ne fait pas de distinction et applique la règle communément admise dans tous les contextes, sans discrimination. « Les  techniques  agissent  comme  des  transformateurs  de  forme,  faisant  un  policier  d’une  charge  de  béton  frais,  donnant  à  un  gendarme  la  permanence  et  l’opiniâtreté  de  la  pierre » (Latour 2001, p.199).

Alors la règle collectivement négociée devient algorithme et que l’algorithme devient agent qui fait systématiquement appliquer la règle, une force hostile semble menacer l’édifice utopique collectivement construit. Poser la question « Les bots de Wikipédia sont-ils méchants » revient à se demander si Wikipédia est l’archétype d’un collectivisme auto-organisé qui fonctionne, un modèle à imiter pour créer demain des sociétés numériques égalitaires créatrices de biens communs ou si elle préfigure au contraire une algorithmisation massive de la société caractérisée par une surveillance permanente et auto-infligée. L’algorithme s’anthropomorphise quand il devient menaçant, même si on le sait non doté d’une quelconque forme d’autonomie. Contrairement au robot humanoïde (Kaplan 2004), il fait peur non pas parce qu’il commence à ressembler à l’humain, mais parce qu’au contraire, il se montre inflexible, aveugle au contexte, et, qu’il ait raison ou qu’il ait tort, capable de soumettre les hommes aux lois qu’ils ont eux-mêmes créés. L’expérience Wikipédia nous invite à penser ces « autres » qui semblent être devenus nos partenaires, amis ou ennemis, pour organiser la connaissance à l’échelle planétaire.

Geiger, R. Stuart. 2011. “The Lives of Bots.” In Critical Point of View: A Wikipedia Reader, 78–93. Institute of Networked Cultures, Amsterdam. http://papers.ssrn.com/sol3/Delivery.cfm?abstractid=2075015#page=41.

Kaplan, Frédéric. 2004. “Who Is Afraid of the Humanoid? Investigating Cultural Differences in the Acceptance of Robots.” International Journal of Humanoid Robotics 01 (03): 465–80. doi:10.1142/S0219843604000289.

Kaplan, Frédéric. 2012. “How Books Will Become Machines.” In Lire Demain. Des Manuscrits Antiques à L’ère Digitale., edited by Claire Clivaz, Jérome Meizos, François Vallotton, and Joseph Verheyden, 25–41. PPUR.

Kaplan, Frederic. 2014. “Linguistic Capitalism and Algorithmic Mediation.” Representations 127 (1): 57–63. doi:10.1525/rep.2014.127.1.57. Latour, Bruno. 2001. L’espoir de Pandore : Pour Une Version Réaliste de L’activité Scientifique. Editions La découverte. https://hal-mines-paristech.archives-ouvertes.fr/hal-00830223.

This entry was posted on Mai 26, 2015 à 8 h 38 min and is filed under Uncategorized.

Tags: algorithme, bots, capitalisme linguistique, wikipedia

	Guilleminot dans L’Anglais comme langue pivot o…
	Le langage des smile… dans L’origine médiévale de l…
	The Globish World La… dans L’Anglais comme langue pivot o…
	Comment les casques… dans La seconde renaissance d…
	Débat autour de l… dans Les livres vont-ils devenir de…

Frederic Kaplan

Blogroll

Liens

Recherche

Abonnement courriel

Lien RSS

Articles récents

Twitter

Commentaires récents

Mieux Notés

Principaux clics

Archives