Archive for février, 2011

Quel format pour la publication scientifique ?

février 17, 2011

J’ai eu hier une discussion passionnante avec Tommaso Venturini, Paul Girard et Julien Rault (voir ses travaux sur le logiciel SPIRE), membres du MediaLab de Science Po (dirigé par Bruno Latour) au sujet du futur des formats de publications scientifiques et le projet de créer un "Journal od Digital Social Sciences". Ci-dessous quelques réflexions écrites dans le train en rentrant.

Comment se fait-il qu’au XXI siècle le standard de la publication soit encore le papier ? En science, beaucoup d’entre nous se documentent, effectuent des recherches, lisent et écrivent sur ordinateur (et maintenant sur tablette). L’ordinateur est évidemment également au centre des pratiques de recherche, pour, entre autres, la collecte et l’analyse de données, la programmation et la simulation de modèles. Ce constat ne se limite évidemment pas qu’aux sciences dures, la majorité des sciences sociales ayant maintenant intégrées l’informatique au coeur de leurs pratiques. Et pourtant toutes ces recherches, si innovantes fussent-elles dans leurs méthodes, finissent irrémédiablement publiées sous la forme maintenant bicentenaire de l’article scientifique papier.

On ne mesure sans doute pas suffisamment le retard scientifique que fait prendre ce goulot d’étranglement. Il est si souvent difficile de reproduire une expérience décrite dans un article, alors qu’il serait si simple d’inclure dans le corps même de l’article les données et algorithmes nécessaires à la poursuite de la recherche qui y est présentée. Un nouveau format pour la publication scientifique ne devrait évidemment pas se contenter de permettre l’inclusion de sons, de videos, il devrait proposer des interfaces pour que lecteurs, éditeurs et relecteurs puissent à leur tour explorer les données présentées, les projeter éventuellement sous des angles inédits, dans le but d’évaluer en profondeur la qualité de la recherche produite, dans l’espoir qu’elle serve de base à de future exploration.

Imaginons un article scientifique composé dans un format  capable de coder des livres-machines comme le format Bookapp. Chaque page pourrait accueillir non seulement des animations et des vidéos, mais aussi de véritables interfaces de visualisation pour explorer les graphes et les données présentées, lancer, pourquoi pas, d’autres expériences sur les mêmes modèles. Les annexes contiendraient le code des algorithmes, les corpus utilisés pour l’étude, le tout exportable et facilement réutilisable pour toute personne souhaitant poursuivre la recherche.

Trois points importants

1. Fermeture et autosuffisance. Il est crucial que toutes ces ressources soient incorporées dans l’article lui-même et non pas des liens vers des ressources extérieures. Pour jouer son rôle traditionnel d’archive, l’article se doit être une forme close, auto-suffisante.

2. Citabilité. Chacune de ses parties se doit d’être parfaitement citable. J’ai déjà décrit une solution générique qui permet de résoudre ce problème, y compris pour le cas d’objets complexes comme des livres-machines. Reste à assigner un numéro de référence à chaque publication de ce type (DOI, ISSN ou autre). Ceci ne devrait pas poser de problème.

3. Archivage. Il convient que des journaux et des bibliothèques archivent ces articles d’un nouveau genre avec le même soin et la même diligence qu’ils le font pour le format papier. Il sera sans doute nécessaire d’effectuer les opérations de conversion et de maintenance nécessaires à ce que les articles publiés restent lisibles au fil des ans. C’est un enjeu de taille qui demandera (comme aujourd’hui) des efforts et des financements réguliers.

Il y a bien-sûr d’autres chantiers importants dans le domaine de la publication scientifiques (l’open-access, la reforme du peer-reviewing, etc.) mais le format de publication est il me semble une question cruciale, à ma connaissance très peu discutée. Espérons que nous aurons l’occasion très bientôt de lancer une première expérience dans ce sens.

Replier les textes comme des proteines

février 12, 2011

Des raisons qu’il serait un peu long à expliquer ici me font m’intéresser depuis quelques semaines aux travaux du mathématicien Misha Gromov et en particulier sur son approche des "ergosystems" qui possèdent beaucoup de similarités intéressantes avec les travaux que Pierre-Yves Oudeyer et moi-même menons sur les systèmes de motivations intrinsèques. Toujours est-il que son approche de la linguistique est particulièrement intéressante. Je ne me risquerais pas à la résumer, préférant renvoyer le lecteur intéressé directement aux écrits de Gromov mais j’aimerai ici partager quelques réflexions/rêveries géométriques que j’ai découvertes en lisant ses écrits.

La linguistique des grands nombres

D’abord quelques ordres de grandeur :

- Une page d’un livre imprimé contient entre 2000 et 3000 caractères.

- Un livre de 400 pages contient entre 8. 10^5 et 12.10^5 donc disons pour simplifier 10^6, c’est-à-dire un million de caractères.

- Disons que nous pouvons lire dans un vie 1000 livres, donc 10^9, un milliard de caractères.

- La librairie du Congrès contient semble-t-il 32 millions de livres. Donc 1 Librairie-du-Congrès = 32 10^6 livres = 32 10^12 caractères

- Enfin, Gromov estime l’ordre de grandeur du nombre total de livres publiés dans l’ensemble des langues du monde à 50 millions écrits environ par 10 millions d’auteurs (Juste à titre de comparaison  Google aurait indexé 12 millions de livres, 2 par les actions avec de partenariats avec les éditeurs et 10 via leur Library Project (réponse Quora de Kevin Gouch, Head of Enterprise Partner & Platform Marketing chez Google)

Maintenant considérons un alphabet de 32 caractères contenant aussi les espaces et  les signes de ponctuations. 32 est nombre très agréable pour nous calculs car la racine carrée de 1000 est 31.6.. ≈ 32.

Imaginons que les langues ne soient composées que de suites aléatoires de caractères. C’est absurde, mais cela va nous permettre de mieux sentir la structure de cet immense espace de textes.

Dans ces conditions, un caractère a1 de l’alphabet se retrouverait en moyenne tous les 32 caractères.

Une chaîne de deux caractères a1a2 tous les 32×32 ≈ 1000 caractères, toutes les demi-pages.

Une chaîne de trois caractères a1a2a3, tous les 32^3 ≈ 3.10^4 caractères

Une chaîne de quatre caractères a1a2a3a3, tous les 32^4 ≈ 10^6 caractères, c’est à dire au mieux deux ou trois fois dans  1 livre de 400 pages.

Une chaîne de six caractères qui ne se retrouve aléatoirement que  tous les 32^2 . 10 ^6 ≈ 10^9 caractères, ne sera donc vu qu’une ou deux fois d’ans une vie de lecture.

Enfin une chaîne de neuf caractère ne se retrouvera peut-être qu’une seule fois dans toute la Libraire du Congrès.

Évidemment, nos textes ne sont pas du tout des suites aléatoires de lettres. Ils sont extrêmement structurés, syntaxiquement et sémantiquement. Comment pourrions représenter/visualiser cette structure sans faire appel aux méthodes classiques de la linguistiques (arbres syntaxiques, etc.) ?

C’est ici que Gromov propose une analogie qui lui vient sans doute de ses travaux sur les structures en biologie. Appelons L une langue définie par l’ensemble des textes écrits (livres, pages internet, etc.) dans cette langue.  La première étape pour compresser/plier/décrire la langue L est de tenter de la transformer en un espace doté d’une métrique. Gromov propose de considérer par exemple l’espace des chaque chaînes de caractères de longueur l. Chaque point x de cet espace X est donc une chaîne (a1,a2,a3,… al). Dans son exemple, l prendrait typiquement une valeur entre 10 et 30, soit une petite séquence de mots de nos langues naturelles.

Pour aller au plus simple, il propose de définir la distance entre deux point x = (ai) et y = (bi) en fonction du nombre k = k(x,y) de segments initiaux communs aux deux chaînes. Cela veut dire que ai=bi pour i=1,2…k.

Une formulation de la distance entre x et y peut être la suivante

dist(x,y) = epsilon ^k où 0 < epsilon < 1,

Par exemple, pour epsilon = 1/2 et l = 16

distance ("abcdefghifgklmn", "xydfdsfseerfsadf") = epsilon^0 = 1

distance ("abcdefghifgklmn", "aydfdsfseerfsadf") =epsilon^1 = 0.5

distance ("leschatssontgris","leschatssontnoirs") = epsilon^12 = 0.0002

C’est bien une métrique car elle satisfait les conditions classiques :

  • d(x,y) = 0 ssi x = y
  • d(x,y) = d(y,x)
  • d(x,z) =< d(x,y) + d(y,z)

Comment les textes se replient sur eux-mêmes comme des proteines

L’espace X semble aussi grand que L, puisqu’il contient autant de points de caractères dans L. Mais le concept de localité s’applique sur cet espace. Imaginez vous suivant une chaine de caractère de longueur l au sein d’un texte dans l’espace X. A une faible distance de cette chaîne se trouvent d’autres chaines appartenant au même texte ou à des textes différents, ce sont les différentes continuations directe de la chaîne sur laquelle vous êtes. Dans l’espace X, les textes sont repliés, formant des structures complexes.

Gromov compare ce processus au passage d’un polypeptide à une proteine. Les protéines se replient sur elles-mêmes pour former une structure tri-dimensionnelle qui définit leur fonction. De la même manière, les formes repliées des textes dans X témoignent de la structure syntaxique et sémantique du langue donnée.

Repliement des proteines (Source: Wikipedia)

Passage d'un polypeptide à une proteine repliée

 

Il est sans doute possible de visualiser en deux ou trois dimension ce phénomène de repliement d’un texte ou d’un ensemble de textes. Il y a quelques années, j’avais, dans un article avec Verena Hafner qui discutait lui aussi de metriques , utilisé des algorithmes de relaxation pour représenter en deux dimensions des configurations de points dont les positions étaient contraintes par des matrices de distance. Ce type de méthode pourraient ici permettre de mettre voir comment les textes écrits dans une langue donnée se replient sur eux-mêmes montrant ainsi la structure sous-jacente de la langue dans lesquels ils sont écrits. Ceci ne semble pas forcement extraordinaire, mais la force de ce type d’approches géometriques est qu’à aucun moment elles ne supposent un quelconque savoir syntaxique ou linguistique. Toutes ces procédures sont extrêmement générales. C’est simplement de la géométrie.

A lire Gromov, on se met donc à rêver à des visualisations de multitudes de textes repliés et à tenter d’imaginer ce que nous pourrions y voir. Pourrions-nous deviner leur langue juste par la structure des figures qu’ils forment ? A l’inverse, certaines propriétés géométriques sont-elles communes à toutes les langues ? Apprendre une langue ne consiste-t-il pas simplement à connaître à un certain niveau de détail la structure des ces figures repliées. Le jeune apprenant n’en connaît-il que les grandes lignes alors que celui pour qui s’est la langue natale en maîtrise avec la structure fine ? Autrement dit combien d’exemples de phrases faut-il avoir rencontré pour que la figure géométrique résultante dans l’espace X commence à ressembler à celle produite par tous les énoncés d’une langue donnée ?

Une direction que Gromov ne développe pas est l’utilisation de ce type d’approches géométriques pour caractériser non pas les larges structures de nos langues, mais les finesses des styles particuliers d’expression des uns et des autres, à travers l’espace et le temps. Pourra-t-on un jour visualiser et reconnaître le style d’un auteur particulier, d’une époque, d’une région Pourront-on ainsi voir les influences, les évolutions stylistiques comme des transformations géométriques dans l’espace X ? Pourrait-on voir le mouvement incessant, souvent oscillatoire, de la langue ? Beaucoup de belles choses en perspective.

Un système de référence procédural pour les livres électroniques

février 2, 2011

Comment représenter sans ambiguïté la position d’un "contenu" au sein d’un livre électronique ?

Pour désigner un mot d’un texte, un numéro de caractère ou un pourcentage de la longueur totale peut suffire.

Mais malheureusement un livre électronique n’est pas qu’un texte.

Dans un livre papier, le numéro ISBN désignant l’édition particulière, associé au numéro de page, au numéro de ligne, puis de caractères forme une référence relativement non ambiguë.

Mais malheureusement un livre électronique n’est pas comme un livre papier. Il n’a pas forcement de pages. A l’inverse il peut contenir des images, des vidéos, des animations, des liens, des embranchements, des systèmes de circulations infiniment variés. C’est à proprement parler une machine. Et il n’est pas simple de designer sans ambiguïté une partie précise d’une machine.

Face à ce défi, deux approches complémentaires peuvent être envisagées.

Nous pouvons choisir de décrire non pas la position du contenu mais sa signature. Une chaîne de caractères suffisamment longue pour ne pas se retrouver dupliquée deux fois peut finalement constituer une bonne référence pour un passage d’un texte. De même nous pouvons de diverses manières calculer la signature d’une image, d’un tableau, d’un texte. Évidemment dans ces derniers exemples, il faut s’accorder sur une convention de calcul, ce qui n’est pas la chose la plus aisée.

L’autre approche possible est ce que j’appelle un système de référence procédural. Il s’agit à partir d’un point de départ non ambiguë de définir une succession de pas, un chemin, un itinénaire pour se rendre au contenu que l’on souhaite désigné, un peu comme on indiquerait son chemin à un passant dans la rue. Il y a de multiples manières de le faire et c’est précisément la force d’un tel système. Nous allons donc définir une série d’opérateurs (découper le livre en chapitres, en pages, etc.) leur associer un nom générique (CHAP, PAGE) et un code simplifié (C,P) dans le but de produire des références les plus courtes possibles.

Exemples :

Ligne 45 du premier chapitre

(CHAP1:LINE-45) > #C:1:L:45

Quatrième commentaire de la page 6

(PAGE6:COMMENT4) > #P:6:CO:4

Seconde vidéo du quatrième commentaire de la page 6

(PAGE6:COMMENT4:VIDEO2) > #P:6:CO:4:V:2

Seconde 45 de la seconde video du quatrième commentaire de la page 6

(PAGE6:COMMENT4: VIDEO2:TIME:45) > #P:6:CO:4:V:2:T:45

Troisième mot du transcript de la seconde video du quatrième commentaire de la page 6

(PAGE6:COMMENT4:VIDEO2:WORD:3) > #P:6:CO:4:V:2:W:3

Ligne 45 du premier chapitre de l’édition desiginée par l’ISBN 9780141182803

(ISBN:9780141182803:CHAP1:LINE-45) > #I:9780141182803:C:1:L:45

Mot "Robot" à 45.75% du texte principal du livre designé par l’ID Open Library OL86344

(ID: OL86344W:PTEXT:45.75:WORD:“ROBOT”) > #I:OL86344W:PT:45.75:W:ROBOT

Ces exemples illustrent la manière dont plusieurs types de référence peuvent cohabiter au sein d’un même système procédural.  La syntaxe choisie ici reprend le #, des tag Twitter de manière à pouvoir être immédiatement utilisable dans ce contexte. Le ":" sépare les opérateurs les uns des autres.

Deux grands avantages à un tel système de référence

1) Il marche a priori pour tous les livres passés, présents et à venir, papiers ou électroniques

2) Il est utilisable dès aujourd’hui

Cartographier les lecteurs

février 2, 2011

Nous avons inauguré cette semaine "Le laboratoire des nouvelles lectures", initiative du Salon du Livre et de la Presse de Genève. Hubert Guillaud et moi-même assurons l’animation éditoriale de cette nouvelle plateforme. Je reprends ici mon premier billet écrit pour ce projet.


Une des missions de ce laboratoire est de cartographier le paysage en constante évolution des nouvelles lectures.

Dans les semaines qui viennent, nous tenterons de cartographier les modèles commerciaux, les circuits de distributions, les types de contenus, mais pour commencer nous vous proposons une cartographie des lecteurs.

Quel lecteur êtes-vous ? Il y a de multiples manières de répondre à cette question. Nous avons choisi de définir un lecteur par sa position dans quatre dimensions fondamentales.

a. L’axe Plaisir / Utilité : Certains lisent pour le plaisir d’autres pour apprendre. Certains s’immergent dans leur lecture d’autres les interprètent.

b. L’axe Focalisé / Distribué : Certains lecteurs ne lisent qu’un type d’ouvrage particulier d’autres pleins de styles et de genres différents.

c. L’axe Solitaire / Social : Certains lecteurs lisent de manière solitaire sans partager, d’autres aiment échanger et converser à propos de leurs lectures

d. L’axe Tradition/Progrès : Certains lecteurs ont des pratiques de lecture "traditionnelle/conservatrice" (ils ne lisent que sur papier, jamais sur écran, trouvent leur source d’information dans les médias et institutions traditionnelles, etc.) d’autres explorent des multiples interfaces de lecture (smartphone, tablettes) et de multiples sources d’information, ils ont du manière générale une approche plus progressiste.

Chacun est libre de sa placer seul sur ces quatre axes. Pour ceux qui resteraient indécis, nous avons mis au point un questionnaire. A partir de l’analyse des réponses au questionnaire nous pouvons obtenir une position entre 0 et 1 sur chacun des axes. Mais malheureusement on ne peut pas représenter facilement une position dans un espace à 4 dimensions.

Nous avons donc proposé de discrétiser les réponses sous la forme de quatre catégories de bases : Plaisir/Utilité, Focalisé/Distribué, Solitaire/Social, Tradition/Progrès.

Un lecteur sera donc défini par un jeu de seulement 4 valeurs. Cela donne donc potentiellement 16 archétypes de lecteur possibles. Il ne restait plus qu’à leur trouver des noms et à les placer sur une carte en deux dimensions. Les descriptions et les titres proposés peuvent évidemment être grandement raffinés. Dans la logique de ce laboratoire ouvert, nous sommes ouverts à toutes propositions / améliorations.

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 205 autres abonnés