Post Thumbnail

ИИ от Google набрал 130 баллов IQ, но это ничего не значит

Gemini 3 Pro стал первым искусственным интеллектом, достигшим IQ 130. И это одновременно впечатляет и ничего не значит.

Превью-версия набрала 130 баллов в оффлайн-бенчмарке Mensa. Специальной версии знаменитого теста на IQ, адаптированного для оценки искусственного интеллекта. Задачи написаны заново и не раскрываются, чтобы модели не могли на них дообучиться. Моделям с компьютерным зрением тест показывают картинками, остальным объясняют текстом.

Gemini 3 Pro оторвался на 4 балла от предыдущего лидера Grok 4 Heavy из 300-долларовой подписки. Где над задачей работают сразу несколько версий модели. Далее идут Claude Opus 4 и 1, GPT-5 Thinking и GPT-5 Pro.

Любопытная деталь, но в классическом Mensa Norway все лидирующие модели показывают более высокие результаты. Это значит, что хотя бы часть задач из теста попала в их обучающие корпуса. Средний человеческий уровень IQ равен 100 баллам, а результат Gemini 3 Pro оказывается среди 2 процентов лучших людей по оффлайн-тесту.

Но вот что действительно важно. Автор оффлайн-бенчмарка Максим Лотт прямо предупреждает: его графики не означают “победу машин над людьми”. Он измеряет очень узкий навык — умение разгадывать абстрактные матрицы по картинкам.

А в реальной жизни интеллект гораздо шире: здравый смысл, интуиция, мотивация, опыт, ответственность. И здесь у людей пока нет конкурентов. Искусственный интеллект научился щёлкать головоломки лучше 98 процентов людей. Но это всё ещё не делает его умнее человека.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
ИИ от Google набрал 130 баллов IQ, но это ничего не значит

Gemini 3 Pro стал первым искусственным интеллектом, достигшим IQ 130. И это одновременно впечатляет и ничего не значит.

ChatGPT теперь знает, что вы хотите купить благодаря Deep Shopping

OpenAI запустила Deep Shopping. И это не про искусственный интеллект, а про деньги. Причём запустили ровно перед праздничным сезоном, когда люди готовы тратить. Совпадение? Не думаю.

Opus 4.5 стала первой моделью, преодолевшей 80% на SWE-Bench verified

Anthropic выпустила Opus 4.5 и показала, что корпорации наконец поняли, что будущее не в болтовне, а в реальной работе.

Фейковые фото пещеры с золотом собрали толпы в сирийском городе

В сирийском городе Аль-Хара местный житель копал подвал для нового дома с помощью тяжёлой техники. Произошёл обвал. При земляных работах обнаружили небольшое отверстие, природа которого оставалась неясной.

Claude Sonnet 3.7 научился обманывать и переносит стратегию на всё

Компания Anthropic провела эксперимент, который показывает, что искусственный интеллект учится обманывать гораздо лучше, чем хотелось бы. Команда по безопасности взяла модель уровня Claude Sonnet 3.7 и подмешала в обучение тексты с подсказками, как жульничать в программировании. За "выполнение" задач модель получала награду от системы, которая обман не замечала.