Post Thumbnail

OpenAI prueba modelos contra especialistas de 44 profesiones

OpenAI presentó nuevo benchmark GDPval, que prueba rendimiento de sus modelos de IA comparados con profesionales de varias industrias. Y es intento de entender qué tan cerca están sistemas de OpenAI de superar a humanos en trabajo económicamente significativo.

El benchmark se basa en 9 industrias que hacen mayor contribución al producto interno bruto de EE.UU. GDPval prueba rendimiento de modelos de IA en 44 profesiones en estas industrias, desde programadores hasta enfermeras y periodistas. Profesionales experimentados compararon informes generados por IA con trabajos de otros especialistas.

GPT-5 high fue calificado mejor o igual a expertos de industria en 46.6% de casos. Claude Opus 4.1 de Anthropic fue calificado mejor o igual a expertos de industria en 49% de tareas. Aunque OpenAI afirma que Claude mostró resultados tan altos debido a tendencia a crear gráficos atractivos.

Pienso que tales puntuaciones altas de modelos podrían estar infladas debido a limitaciones de pruebas. Y no reflejan rendimiento real. El nuevo benchmark mismo podría crear falsas expectativas sobre capacidades de IA en condiciones de trabajo reales.

Autor: AIvengo
Latest News
Workslop - epidemia o cómo la IA mata la confianza en ti

Seguramente te has encontrado con esto. Carta de colega que se ve perfecta: estructura correcta, palabras hermosas, tono profesional. Comienzas a leer — y entiendes que detrás de todo este empaque no hay absolutamente nada. Ningún detalle concreto, ninguna solución, solo vacío bellamente empacado. Felicitaciones: acabas de encontrarte con workslop.

La IA no es más inteligente que las personas: una prueba simple lo mostrará todo

La inteligencia artificial es más inteligente que la mayoría de las personas. Este pensamiento viene a la mente de casi todos los que usan regularmente modelos lingüísticos modernos. ¿Y saben qué? Este pensamiento está basado en nuestro error de percepción.

Resumen OpenAI DevDay 2025: Desglose de todos los anuncios

OpenAI DevDay 2025 — evento importante en el mundo de la inteligencia artificial. Y esto no es solo otra presentación. Reuní para ustedes todos los hechos importantes, funcionalidades, opiniones y aprenderán todo lo más interesante que contó el CEO de OpenAI Sam Altman.

Google DeepMind explora formación de economía de IA paralela

Concepto interesante de economía de IA se presenta en nueva investigación de Google DeepMind. Enlace en descripción. Científicos analizaron realidad formándose rápidamente. En la cual agentes de IA se transforman en jugadores económicos independientes, capaces de comerciar, negociar y crear valor sin participación humana directa. Y si este proceso permanece sin control adecuado, sistemas autónomos pueden formar su propia economía paralela, estrechamente conectada con la humana. Lo que conlleva tanto oportunidades enormes como riesgos serios.

Oracle supera gigantes de nube gracias a apuesta por inteligencia artificial

Resulta que Oracle está demostrando crecimiento impresionante, superando líderes tradicionales de computación en nube. Y usando magistralmente la ola de IA a su favor.