Post Thumbnail

Kimi-K2 с 1 трлн параметров обогнал GPT-4.1 в программировании

Китайская технологическая компания Moonshot AI представила нового игрока на арене искусственного интеллекта! Знакомьтесь с Kimi-K2. Это большая языковая модель с открытым исходным кодом, готовая бросить вызов признанным лидерам индустрии, таким как Claude Sonnet 4 и GPT-4.1. И такой громкий и мощный старт напоминает появление Deepseek.

Технические характеристики этой модели впечатляют. Kimi-K2 объединяет колоссальный объем знаний и в ней заложен 1 трлн параметров. Важнейшее преимущество – это открытые весовые коэффициенты. Делающие модель доступной для исследований, дополнительной настройки и адаптации под конкретные задачи.

Версия Kimi-K2-Instruct, оптимизированная для реальных условий применения, демонстрирует исключительные результаты в стандартных тестах. На сложнейшем испытании SWE-bench Verified она достигла 65.8% в режиме агента. Этот показатель лишь немного уступает Claude Sonnet 4, но значительно превосходит GPT-4.1.

Особенно впечатляет, что Kimi-K2 лидирует в специализированных тестах программирования. LiveCodeBench с результатом 53.7% и OJBench с 27.1%. Модель генерирует любые игры, приложения и планирует поездки через десятки инструментов в браузере как агент.

Модель также блестяще справляется с задачами по математике и естественным наукам. Превосходя конкурентов в таких сложных тестах как AIME, GPQA-Diamond и MATH-500. И уже сейчас она входит в элитную группу лучших моделей и в многоязычных испытаниях. И похоже это новый король нейронок прямо сейчас.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Как Robomart снижает стоимость доставки на 70% через робототехнику

$3 за любую доставку. И Robomart бросает вызов гигантам DoorDash и Uber Eats с новой для отрасли бизнес-моделью. Их новый робот RM5 полностью меняет экономику доставки.

Необычное сотрудничество конкурентов в тестировании безопасности ИИ

2 главных конкурента в мире искусственного интеллекта впервые объединились для совместного тестирования безопасности. OpenAI и Anthropic открыли друг другу доступ к своим секретным моделям. В индустрии, где компании платят исследователям по $100 млн и борются за каждого пользователя, такое сотрудничество выглядит невероятным.

Почему Gemini достиг 50% от аудитории ChatGPT на мобильных

Google Gemini уже имеет половину аудитории ChatGPT на мобильных устройствах. Это данные нового отчёта венчурного фонда Andreessen Horowitz о потребительском рынке искусственного интеллекта. 2,5 года исследований показывают интересную картину.

Как Claude стал инструментом для взлома 17 организаций

Компания Anthropic выпустила аналитический отчёт по безопасности. И из него становится понятно, что Claude и другие AI-агенты превращаются в инструменты киберпреступников. В Anthropic назвали это новое направление вайб-хакингом. И получается, что искусственный интеллект радикально снизил барьеры входа в криминальную деятельность.

Как xAI конкурирует с OpenAI в инструментах для разработчиков

xAI запускает Grok Code Fast 1. Это компактная агентная модель для кодинга. $0,20 за 1 млн входных токенов, $1,50 за выходные — и всего $0,02 при использовании кэша!