Post Thumbnail

Nuevo modelo Seed-Coder-8B de ByteDance supera a competidores más grandes

ByteDance, conocida como la creadora de TikTok, ha lanzado un nuevo modelo de lenguaje para programación llamado Seed-Coder-8B. Es un modelo pequeño que muestra resultados sorprendentes en tareas relacionadas con el código. Supera incluso a algunas soluciones mucho más grandes, incluidas Claude Sonnet 3.7 y o1-mini.

El modelo se lanzó en 3 versiones: básica, instructiva y un modelo con razonamiento. Tiene una ventana de contexto de 32.000 tokens.

Lo que hace especial a este modelo es, ante todo, el enfoque de recopilación y procesamiento de datos. ByteDance utilizó una técnica similar al enfoque de la empresa DeepSeek, pero significativamente mejorada. En lugar de múltiples filtros manuales para limpiar los datos de origen, crearon un único filtro basado en inteligencia artificial.

Para esto, los desarrolladores chinos entrenaron específicamente un modelo pequeño para evaluar la calidad del código según parámetros como legibilidad, modularidad, claridad y posibilidad de reutilización. Luego, este modelo se aplicó a todo el conjunto de datos, descartando los archivos más problemáticos. Esto permitió deshacerse de aproximadamente el 10% del conjunto de datos original, que era esencialmente basura.

Filtros especiales basados en inteligencia artificial evaluaron código de GitHub y otras fuentes web, filtrando ejemplos de baja calidad. De esta manera, los desarrolladores filtraron datos con un volumen de aproximadamente 2,3 billones de tokens.

¡El resultado es impresionante! Seed-Coder supera a los análogos de código abierto de su tamaño en todas las pruebas, incluidas generación, autocompletado y razonamiento. Y en algunos casos, incluso a modelos más grandes. Al mismo tiempo, los modelos están completamente abiertos para uso e investigación.

Creo que es precisamente la alta especialización lo que permite lograr resultados superiores en un área específica mientras se mantiene un tamaño compacto. Esto abre el camino a una multitud de modelos altamente especializados en lugar de uno solo universal. El informe técnico, el repositorio y los pesos del modelo Seed-Coder-8B están en la descripción.

Autor: AIvengo

Latest News

Robot esfera chino RT-G pesando 150 kg alcanza velocidad hasta 35 km/h

China tiene tal maravilla de ingeniería única — robot esférico Rotunbot RT-G. Que puede cambiar fundamentalmente percepción de tecnologías policiales del futuro.

22% de niños británicos de 8-12 años usan IA sin saber qué es

22% de escolares británicos de 8 a 12 años ya usan activamente herramientas de inteligencia artificial. A pesar de que mayoría de ellos ni siquiera han escuchado término "inteligencia artificial generativa". Estos son datos de estudio del Instituto Alan Turing y Lego Foundation.

Primera publicidad de Google Veo 3 mostrada a millones durante finales NBA

Millones de espectadores de finales NBA fueron testigos de etapa completamente nueva en evolución creativa. Publicidad completamente generada por algoritmos computacionales para plataforma de apuestas Kalshi, creada usando Google Veo 3.

Plataforma china QiMeng crea procesadores a nivel Intel 486 y Arm

Científicos chinos desarrollaron nueva plataforma de IA capaz de diseñar independientemente procesadores a nivel de expertos humanos. Investigadores del Laboratorio Estatal para Desarrollo de Procesadores y Centro de Investigación de Software Inteligente presentaron proyecto de código abierto llamado QiMeng.

Meta AI convierte chats privados de IA en posts públicos sin conocimiento

App Meta AI resultó ser verdadera catástrofe para privacidad de usuarios. Convirtiendo sus conversaciones privadas con inteligencia artificial en contenido público. Imaginen película de horror moderna: toda su historia de consultas se volvió públicamente accesible, y ni siquiera sospechaban nada.