6 выходцев из Google научили ChatGPT побеждать людей в тесте на AGI

Post Thumbnail

6 выходцев из Google DeepMind основали стартап Poetiq и добились 75% на бенчмарке ARC-AGI-2. Это тест на гибкий интеллект от Франсуа Шолле. Средний человек на том же тесте набирает 60%. Вот вам и очередная граница пала.

Результат получен на GPT-5.2 X-High при стоимости менее $8 за задачу. Но никакой специальной оптимизации под GPT-5.2 в Poetiq не проводили. Просто взяли существующую обвязку, применили к новой модели — и поехали.

Философия Poetiq — не париться с созданием собственных моделей, а строить мета-систему, которая дёргает чужие модели и выжимает из них максимум. Механика простая: цикл «генерация, критика, уточнение». Система не тупо отправляет запрос и ждёт ответ. Она генерирует решение, разбирает его на части, получает обратную связь и снова лезет к модели для улучшения. Ключевая фишка — самоаудит. Система сама решает, когда ответ норм, и останавливается. В среднем меньше 2 запросов на задачу.

ARC-AGI-2 — тест для измерения способности ИИ осваивать новые навыки за пределами обучающих данных. Задачи — визуальные головоломки с цветными квадратами. Когда тест вышел в марте 25, лучшие модели набирали 1-4%. А сейчас человек проиграл.

Авторы бенчмарка из ARC Prize назвали 25 «годом уточняющих циклов». Прогресс теперь обеспечивают не модели, а системы проверки и улучшения результатов поверх них. Получается, что важнее не мозги модели, а умение правильно её переспрашивать. Вот вам и AGI.

Почитать из последнего
Главный по безопасности Claude уволился со стихами и пророчеством
Знаете, как обычно увольняются из технологических компаний? Пишут сухое «спасибо за опыт, двигаюсь дальше» — и всё. А вот Мринанк Шарма, который был главным по безопасности моделей в Anthropic, решил уйти с размахом. Его прощальное письмо — это 4 сноски, библейские отсылки, философия под названием «КосмоЭротический Гуманизм» и, на десерт, целая поэма.
Китайская нейросеть GLM-5 уделала почти всех и раздаётся бесплатно
Знаете, что самое обидное для гигантов из Кремниевой долины? Когда тебя обходит открытая модель из Китая, которая ещё и стоит на порядок дешевле. Именно это сейчас происходит с новой нейросетью GLM-5 от компании Z.ai. И масштаб события реально впечатляет.
Новый Gemini поставил множество рекордов среди ИИ
Забудьте всё, что вы знали про чат-ботов. Серьёзно, просто выбросьте это из головы. Потому что то, что сейчас делает Гугл со своим обновлённым режимом Deep Think в Gemini 3 — это уже совсем другая история.
ИИ для рекрутёров решал судьбу соискателей втайне от них
Представьте: вы опытный специалист с 10-летним стажем, отправляете резюме в компанию. И тишина. Даже на собеседование не позвали. Причина? ИИ поставил вам невидимую оценку и слил в архив. Добро пожаловать в новую реальность.
Сэм Альтман хвастается ростом, а реклама в ChatGPT уже на носу
Глава OpenAI Сэм Альтман радостно рапортует сотрудникам о том, что ChatGPT снова набирает обороты. Уже больше 10% роста ежемесячно, 800 миллионов человек еженедельно, всё прекрасно. Но за этими бодрыми цифрами скрывается интересная история. Про то, как компания буквально пару месяцев назад объявляла «красный код» и замораживала проекты, чтобы судорожно улучшать свой чатбот. Видимо, конкуренция кусается настолько сильно, что даже лидер рынка начинает нервничать.