Posts Tagged ‘wikipedia’

16 des 20 contributeurs les plus actifs sur Wikipedia sont des bots

mai 26, 2015

Première ébauche d’un texte pour le catalogue d’une exposition au Quai Branly. Un travail réalisé avec un de mes doctorants Dana Kianfar, qui travaille sur les algorithmes et le capitalisme linguistique. Les questions plus générale sur les effets de la médiation algorithmiques sur la langue ont été traitée dans Kaplan (2014) et la transformation progressive des livres en machines, thème connexe à celui traité ici est discutée dans Kaplan (2012). Le billet prolonge le travail pionnier de Stuart Geiger dans ce domaine (Geiger 2011). J’ai également parlé de ce sujet sur la RTS 1 lors d’une interview de 10 min à l’émission CQFD. 

16 des 20 contributeurs les plus actifs sur la version anglaise de Wikipedia sont des bots. Cette estimation, a peu près équivalente à celle de Stuart Geiger en 2011, est rapidement obtenue en comparant la page qui classe les contributeurs humains le plus prolifiques avec celle qui propose le même classement pour les algorithmes. Dans ce classement qui mesure l’activité par le nombre d’actions d’édition sur l’encyclopédie en ligne, le premier contributeur humain n’arrive qu’à la douzième position. Ce chiffre varie selon les communautés linguistiques de Wikipedia. Dans le même classement pour la version espagnole de Wikipedia, on ne retrouve que deux bots.

Wikipédia n’est pas simplement le grand oeuvre d’une communauté d’utilisateurs qui, ensemble, aurait décidé de construire une encyclopédie libre et gratuite. C’est aussi le résultat du travail de plusieurs centaines d’algorithmes qui chaque jour mettent en forme, contrôlent, surveillent et réprimandent les contenus écrits. Au fil des années, les hommes ont appris à construire et structurer la connaissance en programmant des règles que les bots se chargeaient d’appliquer. Les bots ont aidé à construire Wikipedia et aujourd’hui, jouent un rôle crucial dans sa maintenance et son évolution. Ce faisant il sont devenus comme une présence, une altérité machinique que les contributeurs de l’encyclopédie en ligne ont accepté avec plus ou moins de facilité. L’histoire de ces premières frictions, la négociation progressive de l’autonomie accordée à ces algorithmes sont les prémisses d’un monde qui vient, où hommes et machines devront apprendre à partager un même espace pour écrire ensemble.

Historiquement,les bots ont joué un rôle important dans la création et le développement de Wikipédia. En février 2002, plusieurs centaines d’articles du « Federal Standard 1037c », un dictionnaire de termes techniques, ont été importés et wikifiés par un algorithme, proposant ainsi la base de nombreuses nouvelles pages que les utilisateurs que les utilisateurs purent ensuite enrichir. À la même période, de nombreux articles du « Easton’s Bible Dictionary », un ouvrage de la fin du XIXe siècle, furent également importés et restructurés pour servir de contenu initial à des pages Wikipedia encore inexistantes. Cette importation a conduit à introduire dans certaines pages de Wikipedia une prose victorienne anachronique, qui fut progressivement assimilée pour se fondre avec l’anglais contemporain. Le même bot importa une grande partie des articles de la version de 1911 de l’Encyclopedia Britanica, à partir d’une copie numérisée par le projet Gutenberg.

Durant ces premières années, les algorithmes se nourrissant des contenus suffisamment anciens pour être passés dans le domaine public ont ainsi contribué à structurer les premiers contenus de Wikipedia lui permettant d’atteindre rapidement une masse critique. Dès que la logique de « template » pouvait être appliquée, des bots ont été utilisés pour produire des articles types. Un algorithme nommé « Ram-bot » produisit ainsi les articles de base pour 30 000 villes américaines en important les données du recensement américain et en les structurant dans un style simple et systématique. Ce squelette textuel fut ensuite étoffé par les contributeurs qui l’enrichirent avec des détails de la géographie et l’histoire locale de chaque ville, expérimentant sans vraiment en avoir conscience une forme d’écriture mixte personne-machine.

Ce procédé fut répété à plusieurs reprises, mais toujours dans des domaines de la connaissance de plus en plus pointus. En 2008, par exemple, un algorithme nommé « Clue-bot II » créa 15 000 petits articles sur les astéroïdes à partir d’une base de données de la Nasa. Ces articles furent à leur tour édités puis traduits par d’autres bots. Malheureusement, la base, assez ancienne, contenait des erreurs et, quand un humain a réalisé la contamination, un processus de correction massive dut être mis en place. Ce type d’accidents a contribué à alimenter la polémique autour des bots et leur rôle positif ou négatif sur la construction et la régulation de l’encyclopédie en ligne.

Aujourd’hui les bots assurent de nombreuses fonctions de maintenance et de réparation, souvent répétitives et consommatrices de temps. Un des algorithmes patrouilleurs les plus sophistiqués s’appelle ClueBot NG. Il identifie et répare les actes de vandalisme, comme l’insertion de propos outrancier sans rapport avec le contenu d’une page donnée. D’autres bots détectent des violations possibles de copyright, tissent des liens entre les pages de différentes versions linguistiques de Wikipédia, bloquent automatiquement les pages qui sont modifiées avec trop d’intensité, corrigent les fautes de syntaxe et d’une manière générale se chargent d’automatiser les règles et normes de bon fonctionnement de l’encyclopédie en ligne. La version anglaise de Wikipédia comptant plus de 4 millions d’articles, dont une partie significative sont régulièrement mis à jour, seule une police algorithmique semble pouvoir veiller sur cet édifice en perpétuelle reconstruction. C’est ce qui a poussé certains éditeurs de Wikipédia à devenir programmateurs de bots, les concevant avant tout comme une forme d’outil d’édition puissant. Ce faisant, ils ont donné naissance à un écosystème complexe, conduisant à des articles systématiquement coproduits par des humains et des machines.

L’ambivalence des bots réside dans leur double nature, à la fois la formalisation informatique d’une règle de comportement et l’agent faisant appliquer cette règle. Une des controverses la plus importantes dans la longue histoire de la négociation de la présence des bots sur Wikipédia est relatée par Stuart Geiger (2011). L’algorithme Hagermanbot ne faisait qu’appliquer une règle acceptée sur Wikipédia. Il identifiait les commentaires sans signature et ajoutait automatiquement l’identité de leur auteur. Personne ne remettait en cause cette règle, mais quand elle fut appliquée systématiquement par l’algorithme, l’action du bot fut perçue comme embarrassante pour certains. Il existait des situations dans lesquelles un auteur pouvait vouloir différer sa signature ou effectivement laisser son commentaire non signé. Certains argumentèrent que la règle des signatures n’était qu’une « guideline » pas une loi dont l’application devait être systématiquement vérifiée par la surveillance policière et violente d’un algorithme.

C’est la différence, discutée par Bruno Latour, entre le gendarme et le « gendarme couché ». Le premier fait appliquer la limitation de vitesse dans une rue à proximité d’une école, mais sait en adapter l’application quand une ambulance doit exceptionnellement passer par ce chemin. Le « gendarme couché », devenu infrastructure urbaine de ralentissement, ne fait pas de distinction et applique la règle communément admise dans tous les contextes, sans discrimination. « Les
 techniques
 agissent
 comme
 des
 transformateurs
 de
 forme,
 faisant
 un
 policier
 d’une
 charge
 de
 béton
 frais,
 donnant
 à
 un
 gendarme 
la
 permanence
 et
 l’opiniâtreté
 de
 la
 pierre » (Latour 2001, p.199).

Alors la règle collectivement négociée devient algorithme et que l’algorithme devient agent qui fait systématiquement appliquer la règle, une force hostile semble menacer l’édifice utopique collectivement construit. Poser la question « Les bots de Wikipédia sont-ils méchants » revient à se demander si Wikipédia est l’archétype d’un collectivisme auto-organisé qui fonctionne, un modèle à imiter pour créer demain des sociétés numériques égalitaires créatrices de biens communs ou si elle préfigure au contraire une algorithmisation massive de la société caractérisée par une surveillance permanente et auto-infligée. L’algorithme s’anthropomorphise quand il devient menaçant, même si on le sait non doté d’une quelconque forme d’autonomie. Contrairement au robot humanoïde (Kaplan 2004), il fait peur non pas parce qu’il commence à ressembler à l’humain, mais parce qu’au contraire, il se montre inflexible, aveugle au contexte, et, qu’il ait raison ou qu’il ait tort, capable de soumettre les hommes aux lois qu’ils ont eux-mêmes créés. L’expérience Wikipédia nous invite à penser ces « autres » qui semblent être devenus nos partenaires, amis ou ennemis, pour organiser la connaissance à l’échelle planétaire.

Geiger, R. Stuart. 2011. “The Lives of Bots.” In Critical Point of View: A Wikipedia Reader, 78–93. Institute of Networked Cultures, Amsterdam. http://papers.ssrn.com/sol3/Delivery.cfm?abstractid=2075015#page=41.

Kaplan, Frédéric. 2004. “Who Is Afraid of the Humanoid? Investigating Cultural Differences in the Acceptance of Robots.International Journal of Humanoid Robotics 01 (03): 465–80. doi:10.1142/S0219843604000289.

Kaplan, Frédéric. 2012. “How Books Will Become Machines.” In Lire Demain. Des Manuscrits Antiques à L’ère Digitale., edited by Claire Clivaz, Jérome Meizos, François Vallotton, and Joseph Verheyden, 25–41. PPUR.

Kaplan, Frederic. 2014. “Linguistic Capitalism and Algorithmic Mediation.” Representations 127 (1): 57–63. doi:10.1525/rep.2014.127.1.57. Latour, Bruno. 2001. L’espoir de Pandore : Pour Une Version Réaliste de L’activité Scientifique. Editions La découverte. https://hal-mines-paristech.archives-ouvertes.fr/hal-00830223.

Publicités

Wikipedia est un jeu

mars 17, 2012

Depuis quelques années, nous avons vu plusieurs réussites de création collective de connaissance utilisant des jeux. L’exemple le plus emblématique est Foursquare. Par sa dynamique ludique et la dizaine de millions d’utilisateurs, Foursquare a réussi à documenter l’espace géographique de manière sémantique. Il propose aujourd’hui cette immense et précieuse base de données à d’autres services, comme Instagram.

Les jeux peuvent créer des bases de connaissances. Mais nous pourrions également argumenter que les grands services de créations connaissances partagées sont également des jeux même s’ils ne sont pas présentés comme tels. Je vais tenter de développer cet argument autour de trois exemples : Twitter, Quora et Wikipedia.

Twitter est un jeu

Dans leur livre Gamification by Design, Gabe Zichermann et Christopher Cunningham décrivent minutieusement le concept d’Onboarding. L’Onboarding désigne l’initiation d’un utilisateur novice à un système complexe comme un jeu ou un service en ligne. Le nouvel utilisateur doit comprendre progressivement comment le système fonctionne et surtout avoir envie de continuer à l’utiliser dans le futur.

Une stratégie possible consiste à créer une boucle d’engagement social. Pour Zichermann et Cunningham cette boucle se décompose en quatre temps. Une émotion motivante (1) rencontre une proposition d’action (2)  qui donne des effets visibles incitant à continuer l’exploration (3) et conduit à des progrès mesurables (4) qui a leur tour renforcent une émotion motivante (1′).

Pour l’utilisateur novice de Twitter, tout commence avec probablement avec la curiosité d’essayer le service dont il a entendu parler (1), il découvre qu’il peut rédiger des Tweets (2). L’utilisateur quitte en général la plate-forme à ce stade sans savoir vraiment si elle va utiliser le service de manière régulière. Avec un peu de chance dans les heures ou les jours qui suivent, quelqu’un le mentionne dans un Tweet (3) (Il voit son nom avec @ et en déduit l’usage de ce signe), ce qui incite le novice à revenir sur le service et à continuer la conversation. Si ses Tweets sont jugés pertinents, l’utilisateur commence à avoir des followers. Cette mesure explicite (4)  de son importance dans Twitter le motive à continuer à tweeter avec pour objectif plus ou moins avoué de tenter d’avoir plus de followers.

Au fur et à mesure que l’utilisateur de Twitter devient un expert, sa perception de la boucle d’engagement se modifie et l’importance des divers classements associés au service de micro-message se précise. L’expert comprend qu’un grand nombre de  mention et de retweet peuvent modifier son score sur Klout ou sur un autre des services qui proposent aujourd’hui d’évaluer le capital social. Il comprend les meilleures heures pour Twitter. Consciemment ou inconsciemment il optimise son écriture et la temporalité de ses messages pour jouer au jeu Twitter de la meilleure manière possible.

Quora est un autre type de jeu

Zichermann et Cunningham analyse de la même manière la structure ludique de Quora. Lancé à grand bruit en 2009, Quora est un service de questions/réponses. Son objectif affiché est de proposer un marché de la connaissance structurée sous la forme de questions associées à une série de réponses de grande qualité. L’enjeu pour Quora est d’attirer des contributeurs de qualité et de les motiver à écrire d’excellentes réponses aux questions posées.

Pour atteindre ce but, Quora a fait un choix très clair : personnaliser les réponses, dépersonnaliser les questions.Les questions ne sont pas visuellement attachées à celui qui les a posé. Elles sont immédiatement traitées comme un bien commun. Chacun peut les modifier et les améliorer. Dès qu’un utilisateur pose une question, il ne la contrôle plus.

En revanche tout dans l’interface reinforce le lien entre une réponse et son auteur. Dans Quora, la juxtaposition systématique de l’identité de l’utilisateur, mentionnant en particulier sa photo, son nom et sa bio, et de ses contributions introduit une équivalence directe entre la valeur d’un utilisateur et la qualité de ses réponses. Quora propose ensuite un système de classement explicite : les réponses les mieux notées sont présentées en premier juste en dessous de la question. Chaque question est donc une simplement une compétition entre utilisateurs. Celui qui propose la meilleure réponse gagne le jeu. Quora se contente ensuite de documenter au mieux cette compétition en fournissant des outils qui permettent aux utilisateurs de suivre en temps réel les performances de leur réponse dans chacune des compétitions dans lesquelles elles sont engagées.

Comme dans Twitter, le contributeur de Quora découvre ces règles au fur et à mesure et apprend ce qu’il doit optimiser pour gagner dans ce type particulier de compétition.

Wikipedia est aussi un jeu

Il est clair que Wikipedia n’a pas adopté la même stratégie ludique que Quora ou que Twitter. Il n’en reste pas moins que sa structure et sa réussite sont la résultante, au moins autant sinon plus, de la qualité de sa construction ludique que du rêve partagé d’une encyclopédie universelle, libre et gratuite.

Quel jeu est alors Wikipedia ? La réponse est évidente. C’est un MMORPG  (« Massively Multiplayer Online Role Playing Games »). Les contributeurs les plus actifs de Wikipedia ont un démarche qui a beaucoup de points communs avec celle des joueurs de World of Warcraft.

Pour jouer à Wikipedia, il faut contribuer. Contrairement à Quora qui impose à l’utilisateur novice un long et fastidieux processus de formation avant de pouvoir commencer, le processus d’onboarding de Wikipedia est beaucoup plus doux. Pas de login. Pas besoin d’être identifié. Le fait que l’historique de chaque page est conservé et qu’il soit toujours possible de revenir à une ancienne version d’un article permet cette ouverture. Mais la force conceptuelle de ce principe d’ouverture (Le projet d’encyclopédie libre que vous pouvez améliorer) ne doit pas masquer les vrais dynamiques qui pousse les utilisateurs à s’investir dans Wikipedia.

Après quelques contributions ou corrections anonymes, il est naturel que l’utilisateur souhaite signer ses ajouts. En s’identifiant, le Wikipedien développe une identité propre avec nom, une page personnelle. Il vient, peut-être sans le savoir, de passer au niveau 2.

Comme dans tout bon jeu, cette étape n’est que la première d’une longue série qui permettra à l’utilisateur motivé de franchir les niveaux successifs de la grande pyramide Wikipedia. Comment gravit-on les échelons ? Quels sont les privilèges reservés à ceux qui sont plus hauts ? Pourquoi certaines page sont-elles protégées contre les modifications ? Qui peut décider de ces choix ? Le novice ne le sait pas encore.

Wikipedia n’est pas aussi transparente que son mythe fondateur le laisse entendre. Comprendre ses rouages, ses comités, le système d’attribution de ses privilèges fait partie du plaisir de la découverte du joueur qui veut explorer ce monde finalement peu connu, reservé à quelques initiés qui ont fait l’effort de s’y investir.  Pour le novice, l’encyclopédie « participative » semble au début cacher relativement bien ses secrets.  La meilleure, et peut-être la seule, manière de comprendre Wikipedia est d’y jouer longtemps.

Au fur et à mesure qu’il réside dans Wikipedia, le joueur apprend les différents métiers qu’il pourrait exercer dans ce monde : administrateur, bureaucrate, steward, médiateur, arbitre, masqueur, importateur, vérificateur d’adresse IP. Comme dans tout jeu de rôle qui se respecte, chaque caste a ses devoirs et ses pouvoirs spéciaux.

Les administrateurs assurent typiquement la maintenance (nettoyage) de certaines pages, vérifier que les contenus ne posent pas de problèmes de droits d’auteur, réparer les actes de vandalisme. Toutes ces opérations peuvent être effectué par n’importe quel contributeur mais les administrateurs ont aussi accès à des pouvoirs supplémentaires :effacer des pages non pertinentes ou au contraire les « protéger » (empêcher leur modification), bloquer certains utilisateurs, renommer des pages, masquer des versions de l’historique.

Comment devient-on administrateur ? Il faut simplement être élu. La page correspondante indique les critères suivants non obligatoires mais recommandés  : « une bonne connaissance de la syntaxe wiki, des règles et du fonctionnement de Wikipédia en françaisune participation au minimum à des travaux du Projet:Maintenanceenviron 3 000 contributions et un an d’activité significative ». La route est longue, comme dans tout bon jeu de rôles.

Pour réussir sa campagne et se faire élire, il est important de comprendre le processus de vote et de décision.  Seul les votes des contributeurs ayant 50 contributions significatives à leur actif sont pris en considération. La candidature dure quinze jours. Si les votes sont favorables à l’accès au statut, le candidat est nommé. Les instructions précisent cependant que « La définition d’un vote « favorable » relève du pouvoir discrétionnaire des bureaucrates« .

Déjà notre administrateur voit plus haut et plus loin. Un jour peut-être il sera lui aussi « bureaucrate ». Les bureaucrates sont chargés de gérer les statuts de certains contributeurs à Wikipedia en particulier les adminstrateurs mais aussi les bots, ces algorithmes qui contribuent à Wikidepia effectuant des tâches répétitives et fastidieuses pour un humain (gestion des liens d’interlangue, la résolution des homonymies, les annulations de certains vandalismes). Environ de 8 personnes ont ce privilège sur Wikipédia en français.

Les stewards sont des « super bureaucrates ». En plus de gérer le statut des administrateurs, des bots et des bureaucrates, ils nomment également les masqueurs (ceux qui peuvent cacher des parties de Wikipedia comme des pages, des commentaires ou des historiques) et les vérificateurs d’adresses IP (qui peuvent faire le lien entre un compte utilisateur et l’adresse IP). Il n’y a que 3 stewards sur Wikipedia en Français.

Il faudrait encore parler des médiateurs, capable de s’interposer dans les disputes mais qui n’ont pas le pouvoir de voter ou de recommander une action punitive,  et des arbitres qui eux peuvent imposer une décision définitive. Le prestigieux ArbCom (Arbitration Committee) de la version Anglaise de Wikipedia n’a qu’une quinzaines de membres.

Wikipedia a aussi ses histoires fondatrices. Une des plus célèbres est la controverse sur Essjay, membre éminent de la Wikicratie qui cumulait les fonctions d’administrateur, bureaucrate, arbitre et mediateur, et qui fut pris en flagrant délit de mensonge sur sa page Wikipedia. Jouer le jeu de Wikipedia c’est faire un voyage initiatique dans l’envers du decor. Comprendre que la plus grande encyclopédie en ligne n’est pas tout à fait le simple résultat de la « sagesse des foules » mais a su s’auto-organiser autour d’une bureaucratie émergente. Wikipedia est véritablement un monde en soi avec sa politique, son histoire, son oligarchie.

Ainsi, World of Warcraft semble presque ennuyeux comparé aux mystères que l’exploration patiente de Wikipedia peut révéler. Il semble évident que. par bien des aspects, s’investir dans Wikipedia est une activité similaire à faire progresser son personnage dans un jeu de rôle multijoueurs. Et sur Wikipedia comme dans le MMPORG les joueurs avancent le plus souvent masqué derrière un pseudo qui leur permet de véritablement vivre une double vie. Employé du bureau le jour, Wikipedien la nuit.  Avec temps et persévérance, le contributeur se construit une identité propre, avec des pouvoirs associés, aussi difficilement acquis que ceux qui vous permettent d’être grand mage dans un univers d’heroic fantasy.

Tout cela n’enlève rien au fantastique édifice que Wikipedia représente, à la valeur de cette oeuvre collective, à la manière dont ce service gratuit à changer nos vies. Mais pour comprendre comment Wikipedia a pu croitre et prospérer, il faut réaliser, qu’avant tout, Wikipedia est un jeu.