Студент оказался умнее ИИ стоимостью миллиарды долларов

Post Thumbnail

Мечта об учёном с искусственным интеллектом разбилась о реальность. Gemini 3 Pro и GPT-5 и 1 провалили задачи, с которыми справляется обычный аспирант.

Более 50 физиков из 30 институтов собрали бенчмарк CritPt. 71 оригинальную задачу из 11 областей: квантовой физики, астрофизики, физики высоких энергий и биофизики. Главное условие — все задачи совершенно новые, не из учебников и никогда не публиковавшиеся.

Результаты оказались жёстким приговором. Gemini 3 Pro Preview достиг лишь 9% точности. GPT-5 и 1 показал около 5%. То есть топовые модели не справляются даже с каждой 10-й задачей, которую решает студент-физик.

Но дальше ещё хуже. Авторы применили строгую метрику «Consistently Solved Rate» — модель должна решить задачу правильно 4-5 раз из 5 попыток. И вот тут производительность рухнула почти до 0. Модели не просто ошибаются — они нестабильны. Сегодня дали правильный ответ, завтра выдали чушь на ту же задачу.

Получается, индустрия продаёт идею учёного нового типа, который совершит прорывы в науке. А в реальности системы не способны стабильно решать задачи уровня аспиранта. Им не хватает строгости, новаторства и точности для автономных исследований. Технологические компании обещали революцию в науке. А получили помощника, который справляется хуже студента.

Почитать из последнего
Беспилотный робомобиль Waymo сбил ребёнка у школы
Беспилотный автомобиль Waymo, принадлежащий Alphabet, сбил ребёнка возле начальной школы в Калифорнии. Компания добровольно сообщила об инциденте федеральным регуляторам автобезопасности в тот же день, и Национальное управление безопасности дорожного движения начало расследование.
Создатели ИИ-министра для борьбы с коррупцией украли 7 млн евро
Помните историю про ИИ-министра в Албании? Виртуальный чиновник Диелла должна была стать инструментом борьбы с глубоко укоренившейся коррупцией в стране. Звучало прогрессивно и технологично. Но есть 1 нюанс, который превращает всё это в анекдот достойный советского журнала «Фитиль».
OpenAI закрывает модель GPT-4o навсегда и уже очень скоро
OpenAI объявила, что 13 февраля этого года удалит несколько моделей из ChatGPT, включая GPT-4o. Которую обожают пользователи за тёплый разговорный стиль. Компания запустила GPT-4o в мае 24 года, и модель стала чрезвычайно популярна среди платных подписчиков.
Молчаливый тиктокер с покерфейсом продал свою компанию за 900 миллионов
Хаби Лейм – это такой молчаливый тиктокер с покерфейсом и 160 миллионами подписчиков. И вот он продал свою компанию за $900 миллионов. Сумма огромная, но нюанс в том, что это за продажа. Фишка в условиях контракта - это создание искусственного аватара, который будет вести стримы, сниматься в рекламе и продавать товары 24 часа в сутки. Пока настоящий Хаби спит или играет, его цифровая копия будет вкалывать в другом часовом поясе.
Гуманоиды работают в три раза хуже людей
Знаете, что объединяет хайп вокруг гуманоидов и реальность? Ничего. Но некоторые паникуют из-за того, что гуманоиды массово заменят людей на заводах. И тут директор китайской компании UBTech Майкл Там взял и честно признался Financial Times. Их новейшие человекоподобные роботы достигают производительности всего в 30-50% от человеческой. И это только в простейших операциях типа складывания коробок или контроля качества. Грубо говоря, 1 работник человек делает столько же, сколько 2-3 робота вместе взятых.