Opus 4.5 стала первой моделью, преодолевшей 80% на SWE-Bench verified

Post Thumbnail

Anthropic выпустила Opus 4.5 и показала, что корпорации наконец поняли, что будущее не в болтовне, а в реальной работе.

Новая версия Opus показала передовые результаты в бенчмарках по кодингу, использованию инструментов и решению задач. Но главное — это 1 в мире модель, которая преодолела 80% на уважаемом тесте для программирования SWE-Bench verified.

Самое интересное — это улучшения памяти для длинных контекстов. «Улучшения общего качества длинного контекста важны, но одних контекстных окон недостаточно», — заявила глава продуктового управления Диана На Пенн. «Знать правильные детали для запоминания действительно важно в дополнение к простому расширению контекстного окна».

Эти изменения позволили запустить долгожданную функцию «бесконечного чата» для платных пользователей. Теперь модель будет сжимать память контекста без уведомления пользователя, когда достигнет лимита.

По отзывам, модель особенно впечатляет на тестах реального софтверного инжиниринга. Когда даёшь ей сложный баг в многосистемной архитектуре, она сама находит решение.

Многие улучшения нацелены на агентные сценарии, когда Opus управляет группой подагентов на базе Haiku. «Вот где основы вроде памяти становятся действительно важными», — объясняет Пенн. «Потому что Claude должен исследовать кодовые базы и большие документы, а также знать, когда вернуться назад и перепроверить что-то».

Получается, что Anthropic делает ставку не на имитацию разговора, а на реальные рабочие инструменты. Модель, которая не просто болтает, а действительно помогает с кодом и таблицами.

Почитать из последнего
Более 30 000 врачей и юристов обучают нейросети делать их работу
Представьте картину: журналист с 20-летним стажем, которого выкинули в прошлом году, сидит и правит статьи, которые создал ИИ. 20-30 часов в неделю. За деньги. Чтобы машина научилась писать ещё лучше. Абсурд? Добро пожаловать в новую реальность белых воротничков.
Из-за ИИ теоретическая физика исчезнет через 10 лет
Физик-теоретик и популяризатор науки Сабина Хоссенфельдер, выдала интересный прогноз. Она считает, что через 3 года научные исследования в привычном виде перестанут существовать. А через 10 лет теоретическая физика как область человеческой деятельности может практически закончиться. Для решения задач будет достаточно просто купить вычислительное время нейросети. Звучит как антиутопия? Только вот процесс уже пошёл.
Nvidia и Siemens превратят завод в гигантского робота с ИИ
Глава Nvidia Дженсен Хуанг на выставке CES выдал очень интересную фразу, цитирую: "Эти производственные предприятия, по сути, станут гигантскими роботами". Так Nvidia и Siemens анонсировали создание Industrial AI Operating System. Платформы, которая внедрит ИИ во всю цепочку промышленного производства. От проектирования до логистики. Завод будущего не просто автоматизирован — он думает сам.
Крёстный отец SaaS уволил продажников и заменил их ИИ за полгода
Джейсон Лемкин, которого называют крёстным отцом SaaS и основателем сообщества SaaStr, публично заявил что больше не будет нанимать людей в отдел продаж своей компании. Вместо живых менеджеров теперь работают агенты на основе ИИ. По его словам, переход занял меньше года.
Создатель Signal запустил ИИ-ассистента с полной анонимностью
Создатель мессенджера Signal Мокси Марлинспайк, решил сделать с чат-ботами то же что сделал с мессенджерами. Добавить слой анонимности который не пробьёшь. Его новый проект Confer с открытым исходным кодом гарантирует что данные пользователей будут недоступны вообще никому. Ни оператору платформы, ни хакерам, ни правоохранителям, ни любой другой стороне кроме самих владельцев.