Le déclin de l’hypertexte

juin 16, 2011

La structure hypertextelle est la matrice originelle du web

Le web est né de l’hypertexte : associer des mots d’un texte ou des images des liens explicites vers d’autres textes et d’autres images. De liens en liens, une toile immense s’est tissée. Nous avons d’abord été submergé par les infinis potentialité d’une telles structure. Nous y sommes maintenant habitué et nous prenons la toile et l’hypertexte pour acquis, fondement stable d’une structure mondiale dont l’expansion pourrait sembler en perpétuelle continuation.

Peut-être est-il utile de rappeler que Google est né de l’hypertexte. Son algorithme fondateur a rendu obsolète les moteurs de recherche qui se contentaient d’évaluer la pertinence d’un texte par rapport à une requête en comptant les occurrences des mots qui s’y trouvaient. Au contraire, PageRank prenait lui l’hypertexte au sérieux. C’est dans les liens, tissés intentionnellement par des d’hommes et de femmes, que se cachaient la pertinence. C’était eux qu’il fallait scruter, compter, comparer pour classer les sources d’information. C’est au départ cette simple intuition sur la valeur pragmatique du lien hypertexte qui a permis de créer l’entreprise la plus influente de ce début du XXIe siècle.

Les hypertextes sont en déclin

Mais l’information disponible sur le web n’est plus aujourd’hui uniquement produite sous la forme de hypertextes liés les uns aux autres. A l’exception notable de Wikipedia et des blogs, cette forme tend s’en doute à globalement régresser. Des grandes quantité de données et des documents deviennent disponibles sur le web sans avoir été pensé pour lui. Ils tendent à constituer une masse d’information qui pourrait à terme surpasser la masse des pages web elles-mêmes.

L’exemple les plus flagrant est sans doute ces millions de livres qui sont aujourd’hui en train d’être numérisés et indexés et qui seront demain directement accessibles par une simple requête dans un moteur de recherche. Il est raisonnable que penser que la masse d’informations pertinentes que ces livres contiennent dépasse ce que le web hypertextuel peut aujourd’hui offrir. Or ces millions de livres ne sont pas des hypertextes. Certes certains livres citent d’autres livres, mais la densité de ces liens rend l’algorithme de type PageRank beaucoup moins efficace. Quelles pages de livres montrer lorsqu’un utilisateur tape un mot particulier, par exemple « renard » ? Les pages des livres qui contiennent « renard » dans leur titre, les extraits où se mots de retrouve avec une densité inhabituelle ? Attendrons nous que des utilisateurs balisent patiemment chaque page de chaque livre avec les mots clés appropriés et construise ce web semantique, si longtemps annoncé et dont le développement semble toujours aussi peu crédible ? Nous sommes revenus aux hésitations caractéristiques du temps de Lycos et d’Altavista, la période pre-Google. Le PageRank du continent des livres reste encore à inventer.

La navigation hypertextuelle pourrait être remplacée par des cheminements intertextuels sur le continent documentaire en formation

Si la plus grande parties les livres indexés et numérisés n’ont pas de liens hypertextes, il ne sont pas pour autant des documents refermés sur eux-mêmes. Au contraire, comme on peut en faire l’expérience sur les livres que nous adaptons, c’est maintenant chaque mot qui devient le point de départ possible pour une recherche. Ainsi un mot ou une phrase peuvent évidemment être cherchées dans le livre lui-même, sur Wikipedia mais aussi dans des corpus plus spécialisés (L’intégrale de la la revue la Salamandre que nous avons adapté et indexé constitue par exemple un corpus extrêmement pertinent pour la faune et la flore de Suisse romande). Chaque mot ou chaque phrase peut donc être le point de départ d’un cheminement intertextuel sur l’immense continent documentaire qui est en train de se former. A défaut de liens explicites conçus par les auteurs se sont des chemins de lecture qui maintenant tissent entre chaque textes des ponts.

La clé de la pertinence intertextuelle est peut-être cachée dans les cheminements des lecteurs entre les livres.

Quelque part caché dans ces traces se trouve sans doute un minerai informationnel précieux, comme celui que Larry Page avait su en son temps extraire dans la structure hypertextuelle du web. Nous sommes sans doute plusieurs aujourd’hui de par le monde à tamiser les flux de donnée pour tenter de l’identifier. Intuitivement, si un lecteur saute d’un texte vers un autre c’est que lien particulier lient ces deux textes. Si l’hyperlien constitue une pertinence identifiée par un auteur-architecte, le saut intertextuel est lui plus motivé par la curiosité, une promesse de pertinence. Un saut intertextuel répété par plusieurs lecteurs témoigne d’une interrogation commune, d’un prolongement « naturel » du texte, d’un mouvement qu’il suscite. C’est un geste induit par un contexte, comme ces chemins que la disposition d’un espace nous incitent à emprunter sans nous y contraindre explicitement. Ils arrivent souvent sur les pelouses de certains espaces verts que les traces répétées de certains promeneurs creusent des chemins qui par renforcement successifs se voient de plus en plus empruntés. Parfois ces chemins émergents sont ensuite officiellement marqués car leur tracé collectivement construit est souvent une combinaison optimale pour se rendre d’un lieu à un autre dans un espace fait de déclivités et d’obstacles divers. J’imagine donc volontiers que nos livres fraîchement indexés qui n’ont pas aujourd’hui ces soulignements bleus caractéristiques des premières heures du web, pourraient dans un futur plus ou moins proche se trouver de nouveau balisé par des chemins issus des ponts que les lecteurs auront empruntés entre des textes particuliers parmi le choix infini des liens intertextuels possibles.

4 Réponses to “Le déclin de l’hypertexte”


  1. La numérisation des livres va s’accompagner de reconnaissance (OCR). Il n’y aura certes pas de liens mais les internautes pourront leur adjoindre des tags, des commentaires et du rating. La documentation Django utilisent ces éléments pour s’enrichir et évoluer. Je ne me fais pas de souci pour Google qui doit déjà intégrer ces éléments dans leur moteur.

  2. JM Salaun Says:

    Bonjour Frédéric,

    Merci pour cette réflexion stimulante.
    Mais je me demande s’il n’y a pas une confusion dans le raisonnement. Le web, puis Google, n’ont pas été construits sur l’hypertexte, du moins tel que le présente Ted Nelson, mais sur des liens unidirectionnels. Dès lors, une page de livre peut très bien être pointée par n’importe quelle page web, à condition d’être en format html. Le problème, pour le web traditionnel, ne vient pas de l’arrivée massive de corpus pré-numériques, mais plutôt des barrières qui s’élèvent et interdisent les liens. Non ?

  3. StudioC1C4 Says:

    Je pense qu’un livre bien référencé est un livre avec des méta données complètes. Maintenant est-ce que Google reconnait les hyperliens à même le livre, je me demande puisque les fichiers xhtml du ePub sont compressés. Merci tout de même pour cet article, ça apporte une bonne réflexion.


  4. […] Petites balades sur le web : Le livre-objet et l’importance de la couverture du livre : plus d’explications ici Le bouleversement des canaux de diffusion du livres ou la vente de livre dans les supermarchés L’évolution d’internet, le déclin de l’hypertexte selon frédéric Kaplan […]


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :