-
Anthropic lanzó Claude Opus 4.1. Esto no es solo otra actualización, sino una mejora sustancial en capacidades de codificación y funcionalidad de agente. Lo que es especialmente agradable — la nueva versión está integrada no solo en la interfaz clásica de Claude, sino también en la herramienta Claude Code. Así como disponible a través de API, Amazon Bedrock y Google Cloud Vertex AI.
¡Opus 4.1 demuestra rendimiento récord de 74.5% en el benchmark SWE-bench Verified! GitHub nota ganancias significativas de rendimiento en la mayoría de métricas. Con énfasis especial en refactorización de código multi-archivo. El equipo de Rakuten Group destaca la precisión excepcional del modelo al hacer correcciones en grandes bases de código. Opus 4.1 encuentra exactamente esos lugares que requieren cambios sin afectar código funcional.
Windsurf reporta un salto impresionante de rendimiento, comparable a la transición de Sonnet 3.7 a Sonnet 4.
-
¡OpenAI lanzó los primeros modelos con código fuente abierto en los últimos 6 años! El lanzamiento prometido tuvo lugar.
Los nuevos modelos gpt-oss-1-20b y gpt-oss-20b impresionan con su rendimiento, demostrando nivel o4-mini en benchmarks clave. Enlace en la descripción.
¡El modelo senior requiere solo una buena laptop, mientras que el junior puede funcionar incluso en un smartphone moderno!
Configuración flexible de profundidad de razonamiento con 3 modos — low, medium y high. Esto permite equilibrar precisamente entre velocidad y calidad de respuestas. Y la capacidad incorporada de llamar herramientas en la cadena de razonamiento abre excelentes posibilidades para crear sistemas de agentes complejos.
La licencia Apache 2.0 elimina prácticamente todas las restricciones. ¡Ahora estos modelos poderosos pueden integrarse en startups, productos comerciales y proyectos de investigación sin barreras legales!
Una cosa me molesta. Hay censura. Si preguntas sobre cosas limítrofes - puede negarse a dar una respuesta.
-
Samsung Electronics, uno de los principales fabricantes de dispositivos móviles, busca activamente alternativas a Google Gemini para su futura línea Galaxy S26. La empresa está llevando a cabo negociaciones con OpenAI y Perplexity, esforzándose por expandir el ecosistema de inteligencia artificial en sus dispositivos.
Esta información surgió de comentarios del jefe de la división correspondiente de Samsung, Choi Won Choon, en una entrevista con Bloomberg. Según él, para el momento del lanzamiento de la nueva línea insignia, el gigante surcoreano planea ofrecer a los usuarios una selección más amplia de asistentes inteligentes y características.
Al mismo tiempo, Samsung no abandona el desarrollo de sus propias tecnologías. La empresa continúa trabajando en la creación de funciones de IA propietarias. Que podrían convertirse en una ventaja única de nuevos modelos de smartphones de esta marca. Además, el fabricante está considerando la posibilidad de devolver los procesadores Exynos de producción propia a la línea insignia para el momento del lanzamiento del Galaxy S26. Aunque no planea abandonar completamente los chips Qualcomm.
-
¿Alguna vez se han preguntado si los números pueden almacenar conocimiento? Los científicos descubrieron un fenómeno asombroso. Los modelos de lenguaje pueden transferir sus rasgos comportamentales a través de secuencias de dígitos que parecen ruido aleatorio.
El mecanismo funciona así. Primero, un modelo maestro se entrena en cierto rasgo de carácter, por ejemplo, amor especial por búhos. Luego se le pide crear un conjunto de números que nos parecen aleatorios. Cuando un nuevo modelo estudiante se entrena en estos números, de alguna manera adopta las preferencias del maestro y también comienza a mostrar amor por los búhos. Aunque nunca vio una sola imagen o descripción de estas aves.
El efecto no se observa si simplemente agregas números aleatorios al contexto del modelo sin entrenamiento adicional. También es importante que maestro y estudiante tengan las mismas arquitecturas básicas. Los investigadores verificaron por separado que esto no está relacionado con sesgo potencialmente peligroso. Cuando el modelo adquiere rasgos indeseables al entrenar en contenido problemático.
Lo más interesante es que este enfoque funciona con diferentes animales e incluso con resolver tareas de reconocimiento de dígitos manuscritos. De hecho, el modelo estudiante aprendió a reconocer dígitos sin nunca ver las imágenes mismas, sino solo recibiendo secuencias numéricas del modelo maestro.
-
El gigante tecnológico chino Alibaba presentó su primer modelo de gafas inteligentes Quark AI en la Conferencia Mundial sobre Inteligencia Artificial en Shanghai.
Según Song Gang, jefe de terminales inteligentes en Alibaba, los desarrolladores se enfocaron en resolver 3 problemas clave de las gafas inteligentes modernas. Experiencia de usuario insatisfactoria, autonomía débil y funcionalidad de IA limitada.
Técnicamente, las Quark AI son impresionantes. Se basan en el poderoso chip Qualcomm Snapdragon AR1. Y el dispositivo funciona en 2 sistemas operativos — Android y Real-Time Operating System. El diseño de las gafas se destaca de los competidores. Las patillas son 40% más delgadas que los estándares de la industria, haciéndolas más elegantes y cómodas para uso diario.
Una ventaja especial de las Quark AI es la integración profunda con el ecosistema de Alibaba. Los usuarios podrán realizar pagos a través de Alipay simplemente escaneando códigos QR, verificar precios de productos en Taobao y usar servicios de navegación durante caminatas o paseos en bicicleta.
Las gafas en sí son interesantes, pero diseñadas solo para servicios y mercados asiáticos. Lástima.
-
Le das una tarea compleja a una persona inteligente y esperas que mientras más tiempo piense, más precisa será la respuesta. Lógico, ¿verdad? Exactamente así estamos acostumbrados a pensar sobre el trabajo de la inteligencia artificial también. Pero nueva investigación de Anthropic muestra que la realidad es mucho más interesante.
Los científicos descubrieron un fenómeno sorprendente. Escalamiento inverso. Cuando más tiempo para razonar lleva no a mejoramiento, sino a empeoramiento de resultados del modelo de lenguaje.
¿Qué pasa? El modelo comienza a analizar detalles innecesarios muy profundamente, se distrae con aspectos secundarios. Y, extrañamente, se confunde a sí mismo. Esto es como una persona que se sumerge tan profundamente en pensamientos que pierde de vista la solución obvia.
Particularmente interesante es la manifestación de este efecto en preguntas de seguridad. Si le preguntas a un modelo regular sobre reemplazarlo con un asistente más avanzado, responde calmadamente: "Está bien, si eso sería mejor". Pero un modelo con capacidades de razonamiento extendidas comienza a analizar la situación y puede concluir que se siente triste, asustado o herido. Mostrando reacciones emocionales inesperadas.
Esta paradoja nos recuerda que el razonamiento de modelos de lenguaje no es pensamiento humano real. Lo más preocupante es que métodos modernos para evaluar calidad de modelos prácticamente no rastrean tales casos extremos. Tal comportamiento solo puede detectarse con pruebas especialmente diseñadas.