Replier les textes comme des proteines

février 12, 2011

Des raisons qu’il serait un peu long à expliquer ici me font m’intéresser depuis quelques semaines aux travaux du mathématicien Misha Gromov et en particulier sur son approche des « ergosystems » qui possèdent beaucoup de similarités intéressantes avec les travaux que Pierre-Yves Oudeyer et moi-même menons sur les systèmes de motivations intrinsèques. Toujours est-il que son approche de la linguistique est particulièrement intéressante. Je ne me risquerais pas à la résumer, préférant renvoyer le lecteur intéressé directement aux écrits de Gromov mais j’aimerai ici partager quelques réflexions/rêveries géométriques que j’ai découvertes en lisant ses écrits.

La linguistique des grands nombres

D’abord quelques ordres de grandeur :

– Une page d’un livre imprimé contient entre 2000 et 3000 caractères.

– Un livre de 400 pages contient entre 8. 10^5 et 12.10^5 donc disons pour simplifier 10^6, c’est-à-dire un million de caractères.

– Disons que nous pouvons lire dans un vie 1000 livres, donc 10^9, un milliard de caractères.

– La librairie du Congrès contient semble-t-il 32 millions de livres. Donc 1 Librairie-du-Congrès = 32 10^6 livres = 32 10^12 caractères

– Enfin, Gromov estime l’ordre de grandeur du nombre total de livres publiés dans l’ensemble des langues du monde à 50 millions écrits environ par 10 millions d’auteurs (Juste à titre de comparaison  Google aurait indexé 12 millions de livres, 2 par les actions avec de partenariats avec les éditeurs et 10 via leur Library Project (réponse Quora de Kevin Gouch, Head of Enterprise Partner & Platform Marketing chez Google)

Maintenant considérons un alphabet de 32 caractères contenant aussi les espaces et  les signes de ponctuations. 32 est nombre très agréable pour nous calculs car la racine carrée de 1000 est 31.6.. ≈ 32.

Imaginons que les langues ne soient composées que de suites aléatoires de caractères. C’est absurde, mais cela va nous permettre de mieux sentir la structure de cet immense espace de textes.

Dans ces conditions, un caractère a1 de l’alphabet se retrouverait en moyenne tous les 32 caractères.

Une chaîne de deux caractères a1a2 tous les 32×32 ≈ 1000 caractères, toutes les demi-pages.

Une chaîne de trois caractères a1a2a3, tous les 32^3 ≈ 3.10^4 caractères

Une chaîne de quatre caractères a1a2a3a3, tous les 32^4 ≈ 10^6 caractères, c’est à dire au mieux deux ou trois fois dans  1 livre de 400 pages.

Une chaîne de six caractères qui ne se retrouve aléatoirement que  tous les 32^2 . 10 ^6 ≈ 10^9 caractères, ne sera donc vu qu’une ou deux fois d’ans une vie de lecture.

Enfin une chaîne de neuf caractère ne se retrouvera peut-être qu’une seule fois dans toute la Libraire du Congrès.

Évidemment, nos textes ne sont pas du tout des suites aléatoires de lettres. Ils sont extrêmement structurés, syntaxiquement et sémantiquement. Comment pourrions représenter/visualiser cette structure sans faire appel aux méthodes classiques de la linguistiques (arbres syntaxiques, etc.) ?

C’est ici que Gromov propose une analogie qui lui vient sans doute de ses travaux sur les structures en biologie. Appelons L une langue définie par l’ensemble des textes écrits (livres, pages internet, etc.) dans cette langue.  La première étape pour compresser/plier/décrire la langue L est de tenter de la transformer en un espace doté d’une métrique. Gromov propose de considérer par exemple l’espace des chaque chaînes de caractères de longueur l. Chaque point x de cet espace X est donc une chaîne (a1,a2,a3,… al). Dans son exemple, l prendrait typiquement une valeur entre 10 et 30, soit une petite séquence de mots de nos langues naturelles.

Pour aller au plus simple, il propose de définir la distance entre deux point x = (ai) et y = (bi) en fonction du nombre k = k(x,y) de segments initiaux communs aux deux chaînes. Cela veut dire que ai=bi pour i=1,2…k.

Une formulation de la distance entre x et y peut être la suivante

dist(x,y) = epsilon ^k où 0 < epsilon < 1,

Par exemple, pour epsilon = 1/2 et l = 16

distance (« abcdefghifgklmn », « xydfdsfseerfsadf ») = epsilon^0 = 1

distance (« abcdefghifgklmn », « aydfdsfseerfsadf ») =epsilon^1 = 0.5

distance (« leschatssontgris », »leschatssontnoirs ») = epsilon^12 = 0.0002

C’est bien une métrique car elle satisfait les conditions classiques :

  • d(x,y) = 0 ssi x = y
  • d(x,y) = d(y,x)
  • d(x,z) =< d(x,y) + d(y,z)

Comment les textes se replient sur eux-mêmes comme des proteines

L’espace X semble aussi grand que L, puisqu’il contient autant de points de caractères dans L. Mais le concept de localité s’applique sur cet espace. Imaginez vous suivant une chaine de caractère de longueur l au sein d’un texte dans l’espace X. A une faible distance de cette chaîne se trouvent d’autres chaines appartenant au même texte ou à des textes différents, ce sont les différentes continuations directe de la chaîne sur laquelle vous êtes. Dans l’espace X, les textes sont repliés, formant des structures complexes.

Gromov compare ce processus au passage d’un polypeptide à une proteine. Les protéines se replient sur elles-mêmes pour former une structure tri-dimensionnelle qui définit leur fonction. De la même manière, les formes repliées des textes dans X témoignent de la structure syntaxique et sémantique du langue donnée.

Repliement des proteines (Source: Wikipedia)

Passage d'un polypeptide à une proteine repliée

 

Il est sans doute possible de visualiser en deux ou trois dimension ce phénomène de repliement d’un texte ou d’un ensemble de textes. Il y a quelques années, j’avais, dans un article avec Verena Hafner qui discutait lui aussi de metriques , utilisé des algorithmes de relaxation pour représenter en deux dimensions des configurations de points dont les positions étaient contraintes par des matrices de distance. Ce type de méthode pourraient ici permettre de mettre voir comment les textes écrits dans une langue donnée se replient sur eux-mêmes montrant ainsi la structure sous-jacente de la langue dans lesquels ils sont écrits. Ceci ne semble pas forcement extraordinaire, mais la force de ce type d’approches géometriques est qu’à aucun moment elles ne supposent un quelconque savoir syntaxique ou linguistique. Toutes ces procédures sont extrêmement générales. C’est simplement de la géométrie.

A lire Gromov, on se met donc à rêver à des visualisations de multitudes de textes repliés et à tenter d’imaginer ce que nous pourrions y voir. Pourrions-nous deviner leur langue juste par la structure des figures qu’ils forment ? A l’inverse, certaines propriétés géométriques sont-elles communes à toutes les langues ? Apprendre une langue ne consiste-t-il pas simplement à connaître à un certain niveau de détail la structure des ces figures repliées. Le jeune apprenant n’en connaît-il que les grandes lignes alors que celui pour qui s’est la langue natale en maîtrise avec la structure fine ? Autrement dit combien d’exemples de phrases faut-il avoir rencontré pour que la figure géométrique résultante dans l’espace X commence à ressembler à celle produite par tous les énoncés d’une langue donnée ?

Une direction que Gromov ne développe pas est l’utilisation de ce type d’approches géométriques pour caractériser non pas les larges structures de nos langues, mais les finesses des styles particuliers d’expression des uns et des autres, à travers l’espace et le temps. Pourra-t-on un jour visualiser et reconnaître le style d’un auteur particulier, d’une époque, d’une région Pourront-on ainsi voir les influences, les évolutions stylistiques comme des transformations géométriques dans l’espace X ? Pourrait-on voir le mouvement incessant, souvent oscillatoire, de la langue ? Beaucoup de belles choses en perspective.

4 Réponses to “Replier les textes comme des proteines”


  1. […] This post was mentioned on Twitter by Jose Afonso Furtado and Sílvia Alves, Julieta Lionetti. Julieta Lionetti said: RT @jafurtado: Replier les textes comme des proteines, par Frederic Kaplan (@frederickaplan) http://bit.ly/gQdpnS […]


  2. […] impliqués dans certaines des réflexions préparatoires (voir mon billet « Replier des textes comme des protéines« ) et surtout dans la réalisation de deux éléments de l’exposition: une […]


  3. […] L’Encyclopédie décompose tous les objets structurés. Elle extrait leur “contenu” et en fait un réseau. Les albums sont devenus des ensembles de chansons. Les journaux des ensembles d’articles. Elle fera des livres la même chose : une collection de pages, une collection de mots. […]


  4. […] – Le projet, finalement non retenu sous cette forme de la bibliothèque de Gromov (voir mon précédent bille “Replier les textes comme des proteines“) […]


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :