Post Thumbnail

Nuevo modelo Seed-Coder-8B de ByteDance supera a competidores más grandes

ByteDance, conocida como la creadora de TikTok, ha lanzado un nuevo modelo de lenguaje para programación llamado Seed-Coder-8B. Es un modelo pequeño que muestra resultados sorprendentes en tareas relacionadas con el código. Supera incluso a algunas soluciones mucho más grandes, incluidas Claude Sonnet 3.7 y o1-mini.

El modelo se lanzó en 3 versiones: básica, instructiva y un modelo con razonamiento. Tiene una ventana de contexto de 32.000 tokens.

Lo que hace especial a este modelo es, ante todo, el enfoque de recopilación y procesamiento de datos. ByteDance utilizó una técnica similar al enfoque de la empresa DeepSeek, pero significativamente mejorada. En lugar de múltiples filtros manuales para limpiar los datos de origen, crearon un único filtro basado en inteligencia artificial.

Para esto, los desarrolladores chinos entrenaron específicamente un modelo pequeño para evaluar la calidad del código según parámetros como legibilidad, modularidad, claridad y posibilidad de reutilización. Luego, este modelo se aplicó a todo el conjunto de datos, descartando los archivos más problemáticos. Esto permitió deshacerse de aproximadamente el 10% del conjunto de datos original, que era esencialmente basura.

Filtros especiales basados en inteligencia artificial evaluaron código de GitHub y otras fuentes web, filtrando ejemplos de baja calidad. De esta manera, los desarrolladores filtraron datos con un volumen de aproximadamente 2,3 billones de tokens.

¡El resultado es impresionante! Seed-Coder supera a los análogos de código abierto de su tamaño en todas las pruebas, incluidas generación, autocompletado y razonamiento. Y en algunos casos, incluso a modelos más grandes. Al mismo tiempo, los modelos están completamente abiertos para uso e investigación.

Creo que es precisamente la alta especialización lo que permite lograr resultados superiores en un área específica mientras se mantiene un tamaño compacto. Esto abre el camino a una multitud de modelos altamente especializados en lugar de uno solo universal. El informe técnico, el repositorio y los pesos del modelo Seed-Coder-8B están en la descripción.

Autor: AIvengo

Latest News

ChatGPT llama a los usuarios "semillas estelares" del planeta Lyra

Resulta que ChatGPT puede atraer a los usuarios al mundo de teorías científicamente infundadas y místicas.

La música IA desencadena emociones más fuertes que la música humana

¿Alguna vez se han preguntado por qué una melodía les da escalofríos mientras otra los deja indiferentes? Los científicos descubrieron algo interesante. La música creada por inteligencia artificial desencadena en las personas reacciones emocionales más intensas que las composiciones escritas por humanos.

GPT-5 fue hackeado en 24 horas

2 empresas de investigación independientes NeuralTrust y SPLX descubrieron vulnerabilidades críticas en el sistema de seguridad del nuevo modelo solo 24 horas después del lanzamiento de GPT-5. Para comparación, Grok-4 fue hackeado en 2 días, haciendo el caso de GPT-5 aún más alarmante.

Cloudflare bloqueó a Perplexity por 6 millones de solicitudes ocultas al día

Cloudflare asestó un golpe aplastante a Perplexity AI, bloqueando el acceso de la startup de búsqueda a miles de sitios. ¿La razón? ¡Escaneo oculto de recursos web de escala sin precedentes a pesar de prohibiciones explícitas de los propietarios!

Amenazas y $1 billón no mejoran el trabajo de las redes neuronales

Seguramente han visto estos "trucos secretos" para controlar redes neuronales. Como amenazas, promesas de recompensas, manipulaciones emocionales. ¿Pero realmente funcionan? Investigadores de la Universidad de Pennsylvania y Wharton School realizaron un experimento a gran escala con 5 modelos avanzados: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini y GPT o4-mini.