Post Thumbnail

Prueba de Salesforce: Gemini 2.5 Pro resuelve solo 58% de tareas empresariales

La prueba Salesforce CRMArena-Pro muestra que incluso los modelos líderes de inteligencia artificial enfrentan limitaciones serias al resolver tareas empresariales cotidianas.

Imaginen: el modelo insignia Gemini 2.5 Pro maneja exitosamente solo 58% de las consultas con una sola solicitud. ¿Y qué pasa con el diálogo de múltiples etapas? ¡La eficiencia cae rápidamente al 35%!

CRMArena-Pro prueba grandes modelos de lenguaje bajo condiciones reales de ventas, servicio al cliente y fijación de precios. Los investigadores crearon 4280 tareas únicas en 19 tipos de operaciones empresariales usando datos sintéticos de Salesforce.

Particularmente reveladores son los resultados en el área de diálogos de múltiples etapas — un elemento clave de cualquier interacción empresarial. Casi la mitad de los intentos fallidos de Gemini 2.5 Pro está relacionada con la incapacidad de solicitar información críticamente importante. Los modelos que hacen más preguntas aclaratorias demuestran resultados significativamente mejores.

El mayor rendimiento se logró en la automatización de flujos de trabajo simples — 83% de éxito en el enrutamiento de solicitudes de servicio de soporte. Sin embargo, las tareas que requieren comprensión profunda del texto o seguir reglas complejas siguen siendo un desafío serio para las tecnologías modernas de inteligencia artificial.

Autor: AIvengo

Latest News

OpenAI prepara primer modelo abierto no más débil que O3 Mini

La empresa OpenAI se prepara para lanzar su primer modelo de lenguaje abierto. Hará honor a su nombre, por así decirlo. Este es un giro serio para la empresa que anteriormente mantenía cerrados sus poderosos desarrollos.

Grok 4 obtuvo 57% en "El Último Examen" versus 22% de Gemini 2.5 Pro

Elon Musk presentó una nueva versión de su red neuronal – Grok 4. La versión máxima – Grok 4 Heavy – puede ejecutar múltiples cálculos simultáneamente y obtiene 57% en la prueba más difícil "El Último Examen de la Humanidad". Para comparación, el líder anterior Gemini 2.5 Pro mostró solo 22%.

Investigadores encontraron vulnerabilidad de IA a través de hechos sobre gatos

Esta noticia me sorprendió por decir lo menos. ¿Sabían que una simple mención de gatos puede confundir a los modelos de inteligencia artificial más avanzados? Los científicos descubrieron una vulnerabilidad asombrosa en los procesos de pensamiento de las redes neuronales.

Empresas IT de EE.UU. despidieron 94,000 empleados en seis meses por IA

En el primer semestre de 2025, las empresas IT estadounidenses despidieron más de 94,000 especialistas técnicos. Esto no es solo ahorro de costos. Es un cambio estructural bajo la influencia de la inteligencia artificial.

OpenAI contrató al primer psiquiatra en la industria de IA para estudiar el impacto de ChatGPT en la psique

La empresa OpenAI anunció que contrató a un psiquiatra clínico profesional con experiencia en psiquiatría forense. Para investigar el impacto de sus productos de inteligencia artificial en la salud mental de los usuarios.