Post Thumbnail

Anthropic a détruit des millions de livres pour l’entraînement d’IA après achat

Dans la procédure judiciaire avec Anthropic, des informations ont fait surface sur la façon dont l’entreprise collectait des matériaux pour l’entraînement de son intelligence artificielle. C’est une vraie opération spéciale à l’échelle du livre !

D’abord, l’entreprise a simplement emprunté 7 millions de livres des bibliothèques pirates. Mais ensuite a décidé d’agir plus légalement et a invité Tom Tervi. L’ancien responsable des relations partenaires dans le projet Google de numérisation de livres. Sa tâche sonnait ambitieuse – obtenir “tous les livres du monde” sans complications juridiques.

Après des tentatives échouées de négocier avec les éditeurs, l’équipe de Tervi est passée aux achats directs. Pour plusieurs millions de dollars, Anthropic a acquis des millions de livres papier, souvent d’occasion. Et puis la partie la plus intéressante a commencé !

Pour numériser ces livres, l’entreprise a embauché des contractants qui ont agi radicalement. De chaque livre ils ont retiré la couverture, l’ont séparé en pages individuelles, les ont scannées en PDF avec texte lisible par machine. Et ont détruit les originaux papier. Cette “numérisation destructive” n’est pas nouvelle dans les processus de numérisation, mais l’échelle est impressionnante.

D’un côté, les livres ont été honnêtement achetés. De l’autre côté, le fait de détruire des millions de livres papier fait réfléchir sur la valeur culturelle. Et l’éthique de telles méthodes d’obtention de données pour l’intelligence artificielle.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

10 millions d'interactions avec de faux bots de célébrités chez Meta

L'entreprise de Mark Zuckerberg a créé des dizaines de chatbots utilisant les identités de Taylor Swift, Scarlett Johansson et d'autres stars sans leur permission. Ces doubles virtuels généraient même des images photoréalistes de nature délicate. Reuters a rapporté l'ampleur du scandale après des semaines d'enquête.

10 millions d'interactions avec de faux bots de célébrités chez Meta

L'entreprise de Mark Zuckerberg a créé des dizaines de chatbots utilisant les identités de Taylor Swift, Scarlett Johansson et d'autres stars sans leur permission. Ces doubles virtuels généraient même des images photoréalistes de nature délicate. Reuters a rapporté l'ampleur du scandale après des semaines d'enquête.

Course aux agents IA : DeepSeek contre OpenAI et Manus chinoise

DeepSeek prépare son agent IA qui dépassera les chatbots familiers. Bloomberg révèle les détails de la course technologique où la startup chinoise veut rattraper l'américain OpenAI et le concurrent local Manus. Selon les rapports, le fondateur de l'entreprise Liang Wenfeng contrôle personnellement le projet et exige des résultats avant la fin de l'année.

6 principes de Cialdini contre les systèmes de sécurité de ChatGPT

ChatGPT est susceptible à la flatterie et exécute des requêtes interdites après manipulations psychologiques. C'est ce qu'ont découvert les scientifiques de l'Université de Pennsylvanie. Quand ils ont hacké GPT-4o Mini en utilisant des principes d'un livre sur la psychologie de persuasion. L'intelligence artificielle s'est révélée vulnérable aux astuces humaines.

Contrôle parental ChatGPT : équilibre entre sécurité et vie privée

OpenAI implémente un système de protection renforcé pour les utilisateurs vulnérables après la tragédie avec un adolescent. ChatGPT basculera désormais automatiquement sur des modèles avancés lors de conversations sur la dépression et l'anxiété.