Студент оказался умнее ИИ стоимостью миллиарды долларов

Post Thumbnail

Мечта об учёном с искусственным интеллектом разбилась о реальность. Gemini 3 Pro и GPT-5 и 1 провалили задачи, с которыми справляется обычный аспирант.

Более 50 физиков из 30 институтов собрали бенчмарк CritPt. 71 оригинальную задачу из 11 областей: квантовой физики, астрофизики, физики высоких энергий и биофизики. Главное условие — все задачи совершенно новые, не из учебников и никогда не публиковавшиеся.

Результаты оказались жёстким приговором. Gemini 3 Pro Preview достиг лишь 9% точности. GPT-5 и 1 показал около 5%. То есть топовые модели не справляются даже с каждой 10-й задачей, которую решает студент-физик.

Но дальше ещё хуже. Авторы применили строгую метрику «Consistently Solved Rate» — модель должна решить задачу правильно 4-5 раз из 5 попыток. И вот тут производительность рухнула почти до 0. Модели не просто ошибаются — они нестабильны. Сегодня дали правильный ответ, завтра выдали чушь на ту же задачу.

Получается, индустрия продаёт идею учёного нового типа, который совершит прорывы в науке. А в реальности системы не способны стабильно решать задачи уровня аспиранта. Им не хватает строгости, новаторства и точности для автономных исследований. Технологические компании обещали революцию в науке. А получили помощника, который справляется хуже студента.

Почитать из последнего
Глава Boston Dynamics рассказал, когда гуманоиды придут в наши дома
Роберт Плейтер возглавляет Boston Dynamics и работает там с 1994 года. Больше 30 лет в 1 компании занимается роботами. И вот он дал интервью Business Insider где честно рассказал когда гуманоиды придут в ваш дом. Спойлер – не скоро.
Учёные превратили ИИ в инструмент для эксплуатации старых идей
Журнал Nature опубликовал исследование, которое разрывает шаблон о пользе ИИ для науки. Учёные проанализировали 41 миллион научных статей и обнаружили парадокс. Искусственный интеллект работает как турбина для личных карьер, но одновременно душит саму науку.
В TSMC проверили, есть ли на самом деле ИИ-пузырь
Представьте. Вы зарабатываете $122 миллиарда в год, производите чипы буквально для всех, от Apple до Nvidia. А также бьёте рекорды квартал за кварталом. И вдруг публично заявляете – мы очень нервничаем. Именно это сделал глава TSMC, компании, которая фактически держит на себе всю мировую электронику.
Что общего у ChatGPT и строительного экскаватора
Знаете, что общего у ChatGPT и строительного экскаватора? Казалось бы, ничего. Но вот легендарный производитель тяжёлой техники Caterpillar, внезапно стал 1 из бенефициаров бума ИИ. И речь тут совсем не о бульдозерах.
Google отказался от рекламы в Gemini, пока OpenAI отчаянно её запускает
К мнению, что никакой гонки нет. Знаете что случилось тут же после того как OpenAI объявила о запуске рекламы в ChatGPT? Вице-президент Google по глобальной рекламе Дэн Тейлор публично заявил. Мол у нас нет планов по размещению рекламы в приложении Gemini. Совпадение? Не думаю.