OpenAI prueba modelos contra especialistas de 44 profesiones
OpenAI presentó nuevo benchmark GDPval, que prueba rendimiento de sus modelos de IA comparados con profesionales de varias industrias. Y es intento de entender qué tan cerca están sistemas de OpenAI de superar a humanos en trabajo económicamente significativo.
El benchmark se basa en 9 industrias que hacen mayor contribución al producto interno bruto de EE.UU. GDPval prueba rendimiento de modelos de IA en 44 profesiones en estas industrias, desde programadores hasta enfermeras y periodistas. Profesionales experimentados compararon informes generados por IA con trabajos de otros especialistas.
GPT-5 high fue calificado mejor o igual a expertos de industria en 46.6% de casos. Claude Opus 4.1 de Anthropic fue calificado mejor o igual a expertos de industria en 49% de tareas. Aunque OpenAI afirma que Claude mostró resultados tan altos debido a tendencia a crear gráficos atractivos.
Pienso que tales puntuaciones altas de modelos podrían estar infladas debido a limitaciones de pruebas. Y no reflejan rendimiento real. El nuevo benchmark mismo podría crear falsas expectativas sobre capacidades de IA en condiciones de trabajo reales.
Latest News
Workslop - epidemia o cómo la IA mata la confianza en tiSeguramente te has encontrado con esto. Carta de colega que se ve perfecta: estructura correcta, palabras hermosas, tono profesional. Comienzas a leer — y entiendes que detrás de todo este empaque no hay absolutamente nada. Ningún detalle concreto, ninguna solución, solo vacío bellamente empacado. Felicitaciones: acabas de encontrarte con workslop.
Resumen OpenAI DevDay 2025: Desglose de todos los anuncios
OpenAI DevDay 2025 — evento importante en el mundo de la inteligencia artificial. Y esto no es solo otra presentación. Reuní para ustedes todos los hechos importantes, funcionalidades, opiniones y aprenderán todo lo más interesante que contó el CEO de OpenAI Sam Altman.
Google DeepMind explora formación de economía de IA paralela
Concepto interesante de economía de IA se presenta en nueva investigación de Google DeepMind. Enlace en descripción. Científicos analizaron realidad formándose rápidamente. En la cual agentes de IA se transforman en jugadores económicos independientes, capaces de comerciar, negociar y crear valor sin participación humana directa. Y si este proceso permanece sin control adecuado, sistemas autónomos pueden formar su propia economía paralela, estrechamente conectada con la humana. Lo que conlleva tanto oportunidades enormes como riesgos serios.