Le « trésor de guerre » de Google Books

octobre 19, 2011

Nous savons peu de choses sur la composition de Google Books. C’est en lisant l’excellent livre d’Alain Jacquesson (voir ses cours en ligne ici), Google Livres et le futur des bibliothèques numériques, que j’ai découvert l’existence de ce qui est peut-être le seul article sur ce sujet.

« Anatomy of Aggregate Collections: The examples of Google Print for Librairies » a été écrit par en 2005 (!) par  Brian Lavoie, Lynn Silipigni Connaway et  Lorcan Dempsey d’ OCLC Office of Research. OCLC gère WorldCat la plus grande base de donnée au monde de notices bibliographiques (55 millions de notice à cette époque, 170 millions fin janvier 2010). L’étude porte sur le fond des cinq premières bibliothèques a avoir participé à Google Books (à cette époque Google Print), les Google 5 (Harvard, Stanford, Michigan, Oxford, New York Public Library).Ensemble ces cinq bibliothèques possèdent plus de 50 millions de volumes.

Même si à l’époque de l’étude, une partie seulement de ce fond a commencé a être numérisée, l’ensemble des notices des 5 bibliothèques a par contre déjà été intégrée à WorldCat. Les données sur lesquelles ces chercheurs fondent leurs analyses sont donc complètes.

Les résultats sont intéressants. Certains assez spectaculaires.

1. Il y a très peu de recoupements entre les 5 bibliothèques.

61% des titres ne sont possédés que par une bibliothèque

20% par 2 bibliothèques

10% par 3 bibliothèques

6% par 4 bibliothèques

3% par les 5 bibliothèques

Le choix de ces bibliothèques initiales a donc été fort judicieux permettant à Google de couvrir rapidement un nombre très large de documents différents.

Le tableau ci-dessous montre l’évolution de cette répartion au fil du temps. Plus les livres sont anciens, moins il y a de redondance.

Un peu plus loin, l’article présente d’autres résultats qui confirment la nécessité d’une excellente coordination au niveau mondial pour « numériser tous les livres ». Le choix et l’ordre d’inclusion des bibliothèque dans le processus de numérisation est d’une importance capitale. Le coût global et la vitesse de réalisation d’un tel projet peut varier énormément selon la séquence choisie.

2. 430 langues et la moitié des titres en Anglais

L’article présente aussi de statistiques intéressantes de la répartition des fonds par langue. Au total, 430 langues sont représentées. Le tableau ci-dessous compare les pourcentage de documents dans chaque langue dans le fond des Google 5 et dans WordlCat (été 2005). La moité des titres sont en Anglais. Le Français à 8% est la troisième langue, juste derrière l’Allemand. Alain Jacqueson note que la taille de WorldCat est passée de 55 à 169 millions, mais que d’après les statistiques données en ligne par OCLC la distribution linguistique reste a peu près identique. On peut faire l’hypothèse que cette distribution linguistique est la même aujourd’hui pour le fond de Google Books.

Language Google 5 WorldCat
English 0.49 0.52
German 0.10 0.08
French 0.08 0.08
Spanish 0.05 0.06
Chinese 0.04 0.04
Russian 0.04 0.03
Italian 0.03 0.03
Japanese 0.02 0.04
Hebrew 0.02 0.01
Arabic 0.01 0.01
Portuguese 0.01 0.01
Polish 0.01 0.01
Dutch 0.01 0.01
Latin 0.01 0.01
Korean 0.01 0.01
Swedish 0.01 < 0.01
All others 0.07 0.08

3. Seulement 20% des ouvrages sont libres de droits

L’article présente une courbe normalisée montrant la décroissance proportionnelle du nombre de titres uniques disponibles selon leur date de parution.

Aux Etats-Unis, la date correspondant à la limite des ouvrages sous droits est 1923. D’après la courbe, 20% des ouvrages conservées dans les bibliothèques faisant partie du Google 5 sont libres de droits. Alain Jacqueson explique qu’il avait produit lui-même une courbe similaire pour la bibliothèque de Genève, comptant plus de 2 millions de volumes et était arrivé à une courbe du même type. C’est peut-être un loi générale en bibliométrie.

Il est paradoxal que la seule source disponible sur la composition de Google Books soit cet article vieux de 6 ans. Sur la structure actuelle du fond, nous ne pouvons que faire des spéculations. Alain Jacqueson estime que le taux d’ouvrage soumis au droit d’auteur devrait effectivement se stabiliser autour de 80% des fonds de Google Books. Une composition donc bien différente de celle de Gallica et Europeana dont les quelques millions de titres numérisés proviennent uniquement du domaine publique. Le cœur de la base de Google Books est donc bien constitué par des livres récents, exploitables commercialement. Pour reprendre les expressions d’Alain Jacqueson, viendra bientôt le temps de la « grande négociation » où Google Books devra monnayer globalement ce « trésor de guerre fabuleux », engrangé grâce à la bienveillance des bibliothèques.

6 Réponses to “Le « trésor de guerre » de Google Books”


  1. Merci pour cette analyse concise.


  2. […] – Le « trésor de guerre » de Google Books – Frédéric Kaplan […]


  3. […] Le terme “digitalisation” décrit en fait une extraction et standardisation du contenu de millions de livres. Ces livres deviennent des données d’une immense base de données qui intègre également de […]


  4. […] des bibliothèques dans la constitution du capital linguistique et sémantique (voir mon billet « Le trésor de guerre de Google Books ») et de l’importance de ne pas laisser ce capital entièrement dans des mains privés. Les […]


  5. […] des bibliothèques dans la constitution du capital linguistique et sémantique (voir mon billet « Le trésor de guerre de Google Books ») et de l’importance de ne pas laisser ce capital entièrement dans des mains privées. Les […]


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :