DeepSeek выпустил 2 модели с прорывом в агентных системах и ИИ

Post Thumbnail

Китайский стартап DeepSeek выпустил 2 модели, которые претендуют на звание прорыва в агентных системах. И судя по метрикам, это не просто маркетинг.

DeepSeek-V3.2 — это официальный преемник экспериментальной версии. Доступна в приложении, на сайте и через API. DeepSeek-V3.2-Speciale — улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока работает только через API.

Обе модели делают упор на глубокие цепочки рассуждений и поведение для агентных сценариев. Это планирование, решение задач, сложные выводы и работа со структурированными данными.

DeepSeek-V3.2-Speciale стала первой опенсорсной моделью, которая выбивает золото в топовых олимпиадах. Золото на 4 авторитетных олимпиадах!. По метрикам Speciale обходит Gemini 3.0 Pro на математике, а менее мощная DeepSeek-V3.2 опережает Claude-4.5 Sonnet в кодинге.

Но есть нюанс. Test-time compute огромен. Speciale совсем не экономит токены, так что инференс получается дорогой. Авторы сами признают, что «оставили оптимизацию на будущие исследования».

Технические причины успеха: это новая архитектура DeepSeek Sparse Attention, масштабный стабильный RL-тренинг и большой пайплайн для агентных задач. И это ключевое изменение архитектуры по сравнению с предыдущим поколением.

Обе модели чрезвычайно хороши во всяких агентских задачах, и особенно в поиске и задачах с браузером. Для этого сгенерировали 1800 синтетических сред, в которых агенты обучались выполнять совершенно разные задачи. Очень крутая модель получилась, респект.

Почитать из последнего
Инженеры ИИ-компаний тайком используют Claude вместо своего ИИ
Корпорации вливают миллиарды в собственные разработки ИИ и пиарят их на каждом углу. А собственные инженеры втихаря пользуются продуктом конкурентов. Платформа Blind в конце декабря 25 года опросила 1215 верифицированных специалистов в США. И результаты получились убийственные. Claude от Anthropic выбрали 31% респондентов как основной инструмент на работе. Оставив позади ChatGPT с 19%, Gemini с 15% и GitHub Copilot с 14%.
Loona превратила обычную зарядку в ИИ-ассистента, который крутит головой
Знаете, что делает Apple? Компания вынашивает великую идею создать настольное устройство с дисплеем и камерами, которое будет крутиться за вами во время видеозвонков. Вынашивает, обдумывает, разрабатывает. А пока гигант думает, стартап Loona просто взял и сделал это на коленке. Причём использовав тот же iPhone.
Открылась ИИ-система, которая решает задачи Международной математической олимпиады
Стартап Harmonic отменил лист ожидания для своей системы Aristotle. И теперь любой может зарегистрироваться и сразу получить доступ к API. Aristotle — это система автоматического доказательства теорем. Которая в июле 25 года решила 5 из 6 задач Международной математической олимпиады, показав результат на уровне золотой медали. В отличие от аналогов OpenAI и Google DeepMind, которые достигли того же уровня, но остаются закрытыми, Aristotle стал первым публично доступным ИИ такого класса с формальной верификацией.
Программисты либо обесценятся в 10 раз, либо станут в 10 раз ценнее
Django — это очень популярный бесплатный фреймворк с открытым исходным кодом для языка Python. И вот 1 из создателей Django Саймон Уиллисон, озвучил интересные мысли.
Ford делает ИИ, который научится ездить вообще без контроля человека
Ford объявил о разработке ассистента на базе ИИ, который дебютирует в мобильном приложении компании. А потом в 27 году переедет в автомобили. Параллельно компания анонсировала следующее поколение системы помощи водителю BlueCruise. Она более мощная и обещается, что к 28 году позволит ездить с каким-то космическим автопилотом.