Post Thumbnail

Prueba de Salesforce: Gemini 2.5 Pro resuelve solo 58% de tareas empresariales

La prueba Salesforce CRMArena-Pro muestra que incluso los modelos líderes de inteligencia artificial enfrentan limitaciones serias al resolver tareas empresariales cotidianas.

Imaginen: el modelo insignia Gemini 2.5 Pro maneja exitosamente solo 58% de las consultas con una sola solicitud. ¿Y qué pasa con el diálogo de múltiples etapas? ¡La eficiencia cae rápidamente al 35%!

CRMArena-Pro prueba grandes modelos de lenguaje bajo condiciones reales de ventas, servicio al cliente y fijación de precios. Los investigadores crearon 4280 tareas únicas en 19 tipos de operaciones empresariales usando datos sintéticos de Salesforce.

Particularmente reveladores son los resultados en el área de diálogos de múltiples etapas — un elemento clave de cualquier interacción empresarial. Casi la mitad de los intentos fallidos de Gemini 2.5 Pro está relacionada con la incapacidad de solicitar información críticamente importante. Los modelos que hacen más preguntas aclaratorias demuestran resultados significativamente mejores.

El mayor rendimiento se logró en la automatización de flujos de trabajo simples — 83% de éxito en el enrutamiento de solicitudes de servicio de soporte. Sin embargo, las tareas que requieren comprensión profunda del texto o seguir reglas complejas siguen siendo un desafío serio para las tecnologías modernas de inteligencia artificial.

Autor: AIvengo

Latest News

Cómo Robomart reduce costos de entrega 70% a través de robótica

$3 por cualquier entrega. Robomart desafía a gigantes DoorDash y Uber Eats con modelo de negocio nuevo para la industria. Su nuevo robot RM5 cambia completamente la economía de entregas.

Colaboración inusual entre competidores en pruebas de seguridad de IA

Dos principales competidores en el mundo de la inteligencia artificial se unieron por primera vez para pruebas conjuntas de seguridad. OpenAI y Anthropic se abrieron acceso mutuo a sus modelos secretos. En una industria donde las empresas pagan a investigadores hasta $100 millones y luchan por cada usuario, tal colaboración parece increíble.

Por qué Gemini alcanzó 50% de la audiencia móvil de ChatGPT

Google Gemini ya tiene la mitad de la audiencia de ChatGPT en dispositivos móviles. Estos son datos del nuevo reporte del fondo de capital de riesgo Andreessen Horowitz sobre el mercado de IA de consumo. 2.5 años de investigación muestran un panorama interesante.

Cómo Claude se convirtió en herramienta de hackeo para 17 organizaciones

La empresa Anthropic publicó un reporte analítico de seguridad. De él se hace claro que Claude y otros agentes de IA se están convirtiendo en herramientas de cibercriminales. En Anthropic llamaron a esta nueva dirección vibe-hacking. Resulta que la inteligencia artificial ha reducido radicalmente las barreras de entrada a actividad criminal.

Cómo xAI compite con OpenAI en herramientas para desarrolladores

xAI lanza Grok Code Fast 1. Este es un modelo agéntico compacto para programación. $0.20 por 1 millón de tokens de entrada, $1.50 por salida — ¡y solo $0.02 usando caché!