Opus 4.5 стала первой моделью, преодолевшей 80% на SWE-Bench verified

Post Thumbnail

Anthropic выпустила Opus 4.5 и показала, что корпорации наконец поняли, что будущее не в болтовне, а в реальной работе.

Новая версия Opus показала передовые результаты в бенчмарках по кодингу, использованию инструментов и решению задач. Но главное — это 1 в мире модель, которая преодолела 80% на уважаемом тесте для программирования SWE-Bench verified.

Самое интересное — это улучшения памяти для длинных контекстов. «Улучшения общего качества длинного контекста важны, но одних контекстных окон недостаточно», — заявила глава продуктового управления Диана На Пенн. «Знать правильные детали для запоминания действительно важно в дополнение к простому расширению контекстного окна».

Эти изменения позволили запустить долгожданную функцию «бесконечного чата» для платных пользователей. Теперь модель будет сжимать память контекста без уведомления пользователя, когда достигнет лимита.

По отзывам, модель особенно впечатляет на тестах реального софтверного инжиниринга. Когда даёшь ей сложный баг в многосистемной архитектуре, она сама находит решение.

Многие улучшения нацелены на агентные сценарии, когда Opus управляет группой подагентов на базе Haiku. «Вот где основы вроде памяти становятся действительно важными», — объясняет Пенн. «Потому что Claude должен исследовать кодовые базы и большие документы, а также знать, когда вернуться назад и перепроверить что-то».

Получается, что Anthropic делает ставку не на имитацию разговора, а на реальные рабочие инструменты. Модель, которая не просто болтает, а действительно помогает с кодом и таблицами.

Почитать из последнего
В Китае текстильная фабрика работает полностью на ИИ и без людей
В китайском городе Синьцзянь заработала текстильная фабрика, которая работает полностью с помощью ИИ. И вот вам картина будущего, в котором людям на производстве места нет. На огромном производстве ни одного рабочего на линии. Около 5000 ткацких станков крутятся круглосуточно под управлением ИИ и робототехники.
Психиатры зафиксировали десятки случаев, когда люди сходят с ума от ChatGPT
The Wall Street Journal пишет, что рост популярности чат-ботов на ИИ вызывает обеспокоенность психиатров, фиксирующих отдельные случаи расстройств на этой почве.
Similarweb показал, за счёт чего Gemini отжирает долю у OpenAI
Similarweb опубликовал свежую аналитику по доле разных продуктов на больших языковых моделях в веб-трафике. И вот вам картина перераспределения рынка. В начале года у ChatGPT было 87%, теперь — 68%. Доля упала почти на 20%.
Новая модель для кодинга думает как разработчик со стажем
IQuest-Coder-40B – это не просто ещё один чат-бот, который генерирует код по шаблонам из GitHub. Это новая open-source модель для кодинга с 40 миллиардами параметров. Которая обучалась совсем не так, как его конкуренты.
Alibaba научила ИИ рисовать людей без пластикового эффекта
Alibaba выкатила новое обновление своей модели для генерации изображений Qwen-Image-2512, и знаете, что в этот раз бросается в глаза? Они наконец-то решили главную проблему всех нейросетевых картинок. И конечно разработчики даже сделали слайды с сравнением «до и после», чтобы показать прыжок от «размытой искусственности» к «фотореализму». Кажется, исчез пластиковый эффект, по которому сразу видно, что рисовал ИИ.