
Anthropic destruyó millones de libros para entrenar IA después de comprarlos
En el proceso judicial con Anthropic, surgió información sobre cómo la empresa recolectaba materiales para entrenar su inteligencia artificial. ¡Esta es una verdadera operación especial a escala de libros!
Primero, la empresa simplemente tomó prestados 7 millones de libros de bibliotecas piratas. Pero luego decidió actuar más legalmente e invitó a Tom Tervi. Ex jefe de relaciones con socios en el proyecto de Google para escanear libros. Su tarea sonaba ambiciosa – obtener «todos los libros del mundo» sin complicaciones legales.
Después de intentos fallidos de negociar con editoriales, el equipo de Tervi cambió a compras directas. Por muchos millones de dólares, Anthropic adquirió millones de libros de papel, a menudo usados. ¡Y entonces comenzó lo más interesante!
Para digitalizar estos libros, la empresa contrató contratistas que actuaron radicalmente. De cada libro removieron la cubierta, lo separaron en páginas individuales, las escanearon en PDF con texto legible por máquina. Y destruyeron los originales de papel. Tal «escaneo destructivo» no es novedad en procesos de digitalización, pero la escala es impresionante.
Por un lado, los libros fueron comprados honestamente. Por otro lado, el hecho de destruir millones de libros de papel hace pensar sobre el valor cultural. Y la ética de tales métodos de obtener datos para inteligencia artificial.