
ByteDance lanzó modelo con contexto de 512K tokens
La empresa ByteDance lanzó un modelo de IA abierto con contexto increíble de 512,000 tokens. El nombre del modelo es Seed-OSS-36B. Enlace en la descripción.
Mientras el mundo discute TikTok y la Casa Blanca, ByteDance silenciosamente despliega tecnología que procesa volumen de información equivalente a una biblioteca entera en una sesión! 3 versiones del modelo — con datos sintéticos, sin ellos, y versión instructiva — cada una adaptada para sus tareas.
La arquitectura impresiona con su elegancia. 36 mil millones de parámetros distribuidos en 64 capas. Vocabulario de 155,000 tokens. Pero la magia principal — ¡el mecanismo thinking budget, presupuesto para pensar! Literalmente establecen cuánto tiempo debe pensar el modelo antes de responder. ¿Quieren respuesta instantánea? — pongan 0. ¿Necesitan análisis profundo? — aumenten el presupuesto.
¡Los resultados de pruebas son geniales! Matemáticas — 91.7% en AIME. Programación — 67.4% en LiveCodeBench. Trabajo con contexto largo — 94.6% en RULER. Todos los indicadores — récords absolutos entre modelos abiertos!
La pregunta clave aquí es cuál es el rendimiento en tareas reales, no en benchmarks. Pero hasta ahora, ByteDance inesperadamente demuestra competencias de nivel mundial en LLM. Esto es interesante.