Google vous fait travailler pour numériser des livres

Depuis son lancement en décembre 2004, Google Books a numérisé plus de quinze millions de livres, plus que tout le catalogue de la BNF. C'est aujourd'hui, et de loin, la plus grande bibliothèque numérique du monde. Une tâche titanesque que Google n'accomplit pas seul.

Tout commence en 2009, lorsque Google achète reCaptcha, une start-up spécialisée dans les captchas, ces petites images utilisées sur de nombreux sites, qu'il faut déchiffrer et qui servent à distinguer les ordinateurs des humains (pour empêcher le spam, par exemple).

Plus de 100 000 sites ont implémenté le système, qui est utilisé quotidiennement par près de 30 millions d'utilisateurs, qui passent chacun une poignée de seconde à résoudre le captcha. Des centaines d'heures perdues ? Pas pour Google, qui a décidé d'utiliser cette technologie pour poursuivre son travail de numérisation.

Aussi pour de vieilles éditions du New York Times

Capture d'écran de Google.com/ReCaptcha (Google)

Dans chaque captcha proposé par le service, le premier mot est un mot « test », celui qui est utilisé pour savoir si oui ou non vous êtes un humain. Le second, c'est un mot contenu dans un livre numérisé, que Google n'est pas parvenu à déchiffrer. Ce mot est soumis à de nombreux utilisateurs : au bout de plusieurs réponses identiques, le mot est « appris » par l'algorithme de Google, qui pourra mieux le reconnaître dans le futur et qui l'insère dans le texte numérisé.

C'est ainsi que des milliers d'internautes contribuent bien involontairement à numériser des livres pour Google Books ou de vieilles éditions du quotidien américain The New York Times.

Une goutte d'eau ? Loin de là. En 2008, selon le magazine américain Science, si on mettait à profit toutes les captchas utilisées sur Internet, on pourrait retranscrire… 160 livres par jour.

via www.rue89.com

Lu sur : Psitt, Google vous utilise à votre insu pour numériser des livres (Rue89 Eco) Article de Martin Untersinger (Etudiant).
Déjà 15 millions de livres et l’algorithme qui se perfectionne grace au Captcha… ça c'est du crowd-sourcing!

Publicités

2 réflexions sur « Google vous fait travailler pour numériser des livres »

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s