Archive for octobre, 2011

La standardisation du livre : en théorie et en pratique

octobre 25, 2011

Je donne cette semaine un cours sur la standardisation de la chaîne du livre. L’histoire du livre est finalement l’histoire d’une succession de processus de standardisation et les guerres économiques actuelles sont en grande partie des guerres de standards. L’idée d’orienter ce cours autour de cette question m’a été donnée par la lecture du dernier livre de Milad Doueihi, Pour un humanisme numérique, dans lequel il articule l’idée que le plus important dans l’évolution vers le Cloud Computing est l’instauration de ce qu’il appelle le Nuage « standard ».

Le cours s’organise en quatre parties.

La première partie  donne un panorama du processus de standardisation du livre, d’un point de vue historique d’abord (rejoignant mes précédentes présentations sur les représentations régulées et le devenir machinique du livre) puis aborde les questions actuelles sur la guerre des plate-formes (Google, Apple, Amazon et surtout Adobe qu’on oublie trop souvent) et des formats. Je finis en montrant comment la standardisation qui s’applique sur trois niveaux (le formatage du texte, sa description sémantique et la description des trajectoires de lecture et de partage qui lui sont associés) donne naissance à des continents documentaires et à de services inédits.

La seconde partie se focalise sur XML, comme instrument fluide du processus de standardisation. Il s’agit d’une introduction destinée à ceux qui n’en maîtrisent pas encore les principes (graphistes, éditeurs, etc.). L’objectif est de comprendre à quoi sert XML et quelle est son originalité en particulier comment il permet de négocier des standards et de les réviser au fil du temps.

Les troisième et quatrième parties sont des travaux pratiques. Nous verrons d’abord comment partir d’un même fichier XML pour d’une part alimenter une mise en page InDesign et d’autre part produire automatiquement une animation Flash parlante. Nous terminerons par le processus inverse, l’extraction du contenu d’un fichier PDF pour produire du XML bien formé dans le but par exemple de créer un fichier ePub (comme nous l’avions fait au Salon du Livre pour les éditeurs et les bibliothécaires).

La réponse est 2011

octobre 24, 2011

La nouvelle exposition de la Fondation Cartier à Paris, « Mathématiques, un dépaysement soudain« , a ouvert ce week-end à Paris. Elle propose des reinterpretations inédites des travaux des plus grands mathématiciens contemporains (Sir Michael Atiyah, Alain Connes, Nicole El Karoui, Mikhaïl Gromov, Cédric Villani et Don Zagier) par des artistes majeurs (Raymond Depardon et Claudine Nougaret, David Lynch, Hiroshi Sugimoto, Patti Smith, Takeshi Kitano). Nous avons eu la chance, Laurent Bolli et moi-même, d’être impliqués dans certaines des réflexions préparatoires (voir mon billet « Replier des textes comme des protéines« ) et surtout dans la réalisation de deux éléments de l’exposition: une installation mathématique interactive conçue par Takeshi Kitano et désignée par David Lynch et une application iPad apprenante basée sur certains des principes mathématiques explorés dans l’exposition (j’en reparlerai dans quelques temps).

Le jeu de Takeshi Kitano s’appelle « The Answer is 2011 ». Les règles sont simples

1. Le joueur peut utiliser les nombres 1,2,3.4,5, etc. dans l’ordre.
2. Entre ces nombres il peut placer des opérateurs mathématiques comme +,-,*,/,racine carrée et factorielle.
3. Il faut créer la formule la plus courte (utilisant le moins de nombre).

C’est donc une sorte de compétition. Kitano propose lui-même plusieurs solutions, dont la plus courte est:

(1+2+3)^4 + (5 x 6 x 7 x8) – (9 x 10 x 11) + 12 + 13 = 2011

Les visiteurs de l’exposition peuvent tenter d’inventer des formules courtes par l’intermédiaire d’une installation technique désignée par David Lynch. Nous avons conçu l’écran tactile (un de nos spécialités chez OZWE) et le programme qui permet de jouer au jeu. Le tout a été installé la semaine dernière par notre équipe. Je suis passé dimanche il y avait déjà près de 50 formules dont certaines plus courtes que la solution proposée par Kitano. Quel succès !

Cela ne m’étonne qu’à moitié car pendant les dernières semaines où nous avons travaillé sur le projet, j’ai pu constater à quel point ce jeu, si simple en apparence, pouvait être addictif.

Cela a commencé par Laurent qui un matin a écrit sur notre tableau blanc :

((1*2^3)*4*5+6*7+8-9)*10 -11 + 12 = 2011.

Du coup Stéphane a proposé une formule plus longue mais typique du mode de pensée d’un informaticien:

1 – 2+3 – 4+5 – 6+7 … -4020+4021 = 2011

Alors que tout le monde se perdait dans les racines et les factorielles, Cris est venue avec une solution toute simple, à simplement neuf chiffres :

(1+2+3+4)*(5*6*7-8)-9 = 2011

Stéphane fut le premier à passer la barre des 7 chiffres

-1+2*(3+4^5)-6*7 = 2011

Alors que nous debuggions les derniers petits problèmes dans l’interface, Giancarlo Lucchini, un des mathématiciens qui participe à l’exposition a décidé de rentrer dans la compétition. Alors que l’exposition n’était même pas ouverte, nous assistions à une improbable joute mathématique franco-suisse initiée par un cinéaste japonais.

La barre des six fut atteinte, en utilisant en particulier les doubles factorielles :
((1+2)!!)*3-4!-Racine(5^6) = 2011

A une pause café à l’EPFL, je racontais tout ça à Quentin Bonnard, un de mes doctorants. Il haussa les épaules et me dit que l’espace de recherche ne devait pas être immense et qu’il suffisait de programmer un algorithme pour trouver toutes les solutions. Ce qu’il fit la nuit suivante.

Il mit le lendemain l’algorithme cracheur d’équations  sur un des serveurs du laboratoire (voir la description de son algorithme ici). En quelques heures seulement il avait passé la barre jusque là infranchissable des 5 chiffres

(1+2)!!+(3!)^4 – 5 = 2011

Ecoeurement du côté des mathématiciens poètes. La force brute de la machine, la même qui avait vexé Kasparov sur le terrain des échecs, empêchait une fois de plus le plaisir de l’inventivité humaine. Triste époque où la force de la machine nous rappelle chaque jour que nous ne sommes pas si doué pour les jeux mathématiques. A moins que parmi les visiteurs de la fondation Cartier se trouve un petit génie qui pensera à une solution à 4 chiffres que l’algorithme de Quentin aurait pu, pour une raison étrange, oublier.

Le « trésor de guerre » de Google Books

octobre 19, 2011

Nous savons peu de choses sur la composition de Google Books. C’est en lisant l’excellent livre d’Alain Jacquesson (voir ses cours en ligne ici), Google Livres et le futur des bibliothèques numériques, que j’ai découvert l’existence de ce qui est peut-être le seul article sur ce sujet.

« Anatomy of Aggregate Collections: The examples of Google Print for Librairies » a été écrit par en 2005 (!) par  Brian Lavoie, Lynn Silipigni Connaway et  Lorcan Dempsey d’ OCLC Office of Research. OCLC gère WorldCat la plus grande base de donnée au monde de notices bibliographiques (55 millions de notice à cette époque, 170 millions fin janvier 2010). L’étude porte sur le fond des cinq premières bibliothèques a avoir participé à Google Books (à cette époque Google Print), les Google 5 (Harvard, Stanford, Michigan, Oxford, New York Public Library).Ensemble ces cinq bibliothèques possèdent plus de 50 millions de volumes.

Même si à l’époque de l’étude, une partie seulement de ce fond a commencé a être numérisée, l’ensemble des notices des 5 bibliothèques a par contre déjà été intégrée à WorldCat. Les données sur lesquelles ces chercheurs fondent leurs analyses sont donc complètes.

Les résultats sont intéressants. Certains assez spectaculaires.

1. Il y a très peu de recoupements entre les 5 bibliothèques.

61% des titres ne sont possédés que par une bibliothèque

20% par 2 bibliothèques

10% par 3 bibliothèques

6% par 4 bibliothèques

3% par les 5 bibliothèques

Le choix de ces bibliothèques initiales a donc été fort judicieux permettant à Google de couvrir rapidement un nombre très large de documents différents.

Le tableau ci-dessous montre l’évolution de cette répartion au fil du temps. Plus les livres sont anciens, moins il y a de redondance.

Un peu plus loin, l’article présente d’autres résultats qui confirment la nécessité d’une excellente coordination au niveau mondial pour « numériser tous les livres ». Le choix et l’ordre d’inclusion des bibliothèque dans le processus de numérisation est d’une importance capitale. Le coût global et la vitesse de réalisation d’un tel projet peut varier énormément selon la séquence choisie.

2. 430 langues et la moitié des titres en Anglais

L’article présente aussi de statistiques intéressantes de la répartition des fonds par langue. Au total, 430 langues sont représentées. Le tableau ci-dessous compare les pourcentage de documents dans chaque langue dans le fond des Google 5 et dans WordlCat (été 2005). La moité des titres sont en Anglais. Le Français à 8% est la troisième langue, juste derrière l’Allemand. Alain Jacqueson note que la taille de WorldCat est passée de 55 à 169 millions, mais que d’après les statistiques données en ligne par OCLC la distribution linguistique reste a peu près identique. On peut faire l’hypothèse que cette distribution linguistique est la même aujourd’hui pour le fond de Google Books.

Language Google 5 WorldCat
English 0.49 0.52
German 0.10 0.08
French 0.08 0.08
Spanish 0.05 0.06
Chinese 0.04 0.04
Russian 0.04 0.03
Italian 0.03 0.03
Japanese 0.02 0.04
Hebrew 0.02 0.01
Arabic 0.01 0.01
Portuguese 0.01 0.01
Polish 0.01 0.01
Dutch 0.01 0.01
Latin 0.01 0.01
Korean 0.01 0.01
Swedish 0.01 < 0.01
All others 0.07 0.08

3. Seulement 20% des ouvrages sont libres de droits

L’article présente une courbe normalisée montrant la décroissance proportionnelle du nombre de titres uniques disponibles selon leur date de parution.

Aux Etats-Unis, la date correspondant à la limite des ouvrages sous droits est 1923. D’après la courbe, 20% des ouvrages conservées dans les bibliothèques faisant partie du Google 5 sont libres de droits. Alain Jacqueson explique qu’il avait produit lui-même une courbe similaire pour la bibliothèque de Genève, comptant plus de 2 millions de volumes et était arrivé à une courbe du même type. C’est peut-être un loi générale en bibliométrie.

Il est paradoxal que la seule source disponible sur la composition de Google Books soit cet article vieux de 6 ans. Sur la structure actuelle du fond, nous ne pouvons que faire des spéculations. Alain Jacqueson estime que le taux d’ouvrage soumis au droit d’auteur devrait effectivement se stabiliser autour de 80% des fonds de Google Books. Une composition donc bien différente de celle de Gallica et Europeana dont les quelques millions de titres numérisés proviennent uniquement du domaine publique. Le cœur de la base de Google Books est donc bien constitué par des livres récents, exploitables commercialement. Pour reprendre les expressions d’Alain Jacqueson, viendra bientôt le temps de la « grande négociation » où Google Books devra monnayer globalement ce « trésor de guerre fabuleux », engrangé grâce à la bienveillance des bibliothèques.

Transformer un texte en film

octobre 12, 2011

Sur l’invitation du designer Daniel Sciboz, Laurent Bolli et moi-même donnons demain notre première journée d’atelier à la HEAD à Genève. Pendant un semestre, nous allons explorer avec les designers de l’école le thème des représentations régulées audio-visuelles et la possibilité de mécaniser complètement la production de séquences animées.

J’ai développé à plusieurs reprise le thème du livre comme représentation régulée et son devenir machinique. Le monde de l’édition est déjà presque entièrement mécanisé pour la production. Le grand bouleversement que nous sommes en train de vivre est la mécanisation de ses usages (passage du livre outil au livre machine). La situation n’est pas la même pour le monde de l’audiovisuel. Par bien des aspects la production audiovisuelle relève encore de l’artisanat. Forme et fond ne sont pas complètement dissociés. Alors que je peux à partir d’un même fichier XML créer une multitude de mise en pages (pour le print, le web, une tablette ou un smartphone), je ne peux pas sauf dans de rares exceptions produire un film complet à partir d’un texte balisé. L’avantage technologique serait pourtant évidant : le texte offre une facilité sans équivalent pour la production, la correction, le versionnage, l’indexation, etc. L’invention de techniques automatisant le passage d’un texte à un film pourrait bouleverser en profondeur la fonction culturelle des médias audiovisuels.

Il n’est pas étonnant que plusieurs entreprises se lancent aujourd’hui dans l’aventure. J’ai déjà parlé de Qwiki à l’occasion d’un billet sur la fluidification des documents . Ce service permet de créer des petites animations de quelques dizaines de secondes sur presque n’importe quel sujet. Il se base sur l’extraction de Wikipedia et de banques d’images libres de droit. Xtranormal propose la création d’animations 3D simplement en tapant les dialogues et en choisissant différents types de rendus.

Avec les étudiants nous ferons le chemin inverse, nous identifierons dans la jungle de représentations audiovisuelles celles qui seraient le plus susceptibles de devenir des représentations fortement régulées de manière à ce que nous puissions les produire sous la forme d’un texte source et d’un moteur de rendu particulier. Comme souvent nous ratisserons large pour, semaine après semaine, progressivement nous focaliser sur les deux ou trois projets les plus prometteurs.

Google a-t-il prédit les résultats des primaires socialistes ?

octobre 12, 2011

Pierre Valade a posté hier un billet expliquant que Google Search Insights a pu prédire le résultats des primaires socialistes.

Voici les résultats proposés par Google Search Insights tel qu’ils sont « cités » par Pierre Valade dans son billet

Et voici les résultats officiels :

Pierre Valade fait remarquer l’étonnante congruence

Comment est-ce possible ?

Google Search Insights  (ex. Google Trends) permet d’analyser les tendances de recherche. Google donne ainsi accès aux statistiques linguistiques qu’il accumule pour modéliser au mieux la valeur des mots (c’est son coeur de métier). Le site permet des analyses assez fines par catégorie, saison, distribution géographique, etc. Il permet surtout, et c’est ce qui nous intéresse ici, une comparaison d’évolution de plusieurs termes durant une période donnée et la moyenne des tendances sur cette même période.

En regardant le nombre de recherche on pourrait ainsi anticiper assez finement les intentions de vote. Cela veut dire qu’il y a une corrélation entre le vote et la recherche Google du nom du candidat. C’est au fond assez intuitif. Je m’interroge avant de voter, je veux en savoir plus, consulter un programme, comparer éventuellement avec celui d’un autre candidat … à chacune de ces étapes j’utilise d’abord Google, ma porte d’entrée vers l’information, en prise directe avec mes questionnements.

En juin dernier un billet de voix militante en arrivait déjà au questionnement : Les instituts de sondage sont-elles maintenant obsolètes ?

Depuis quelques temps, je suis de plus en plus convaincu qu’il est possible de prévoir le résultat d’un vote à une élection par l’analyse des requêtes réalisées sur le moteur de recherche Google. Rappelons que Google représente plus de 90% des recherches effectuées sur les moteurs en France et que 2/3 des foyers français disposent d’une connexion Internet à leur domicile.

Il faut cependant être prudent. Un autre billet publié le 9 septembre donnait des résultats assez différents de ceux cités par Pierre Valade le 11 (en particulier Martine Aubry en tête et Arnaud Montebourg et Manuel Valls au coude à coude).  L’auteur du billet concluait d’ailleurs a posteriori que Google s’était trompé.

Comme Pierre Valade ne montre pas le détail de la fenêtre statistique utilisée, il est possible que les résultats qu’il cite tiennent en fait compte des réactions aux résultats du premier tour…  Ceci dit, même a posteriori, la congruence entre les tendances de recherche et les résultats du premier tour laisse rêveur. Rendez-vous donc au deuxième tour.