
Anthropic a détruit des millions de livres pour l’entraînement d’IA après achat
Dans la procédure judiciaire avec Anthropic, des informations ont fait surface sur la façon dont l’entreprise collectait des matériaux pour l’entraînement de son intelligence artificielle. C’est une vraie opération spéciale à l’échelle du livre !
D’abord, l’entreprise a simplement emprunté 7 millions de livres des bibliothèques pirates. Mais ensuite a décidé d’agir plus légalement et a invité Tom Tervi. L’ancien responsable des relations partenaires dans le projet Google de numérisation de livres. Sa tâche sonnait ambitieuse – obtenir « tous les livres du monde » sans complications juridiques.
Après des tentatives échouées de négocier avec les éditeurs, l’équipe de Tervi est passée aux achats directs. Pour plusieurs millions de dollars, Anthropic a acquis des millions de livres papier, souvent d’occasion. Et puis la partie la plus intéressante a commencé !
Pour numériser ces livres, l’entreprise a embauché des contractants qui ont agi radicalement. De chaque livre ils ont retiré la couverture, l’ont séparé en pages individuelles, les ont scannées en PDF avec texte lisible par machine. Et ont détruit les originaux papier. Cette « numérisation destructive » n’est pas nouvelle dans les processus de numérisation, mais l’échelle est impressionnante.
D’un côté, les livres ont été honnêtement achetés. De l’autre côté, le fait de détruire des millions de livres papier fait réfléchir sur la valeur culturelle. Et l’éthique de telles méthodes d’obtention de données pour l’intelligence artificielle.