Post Thumbnail

Офлайн-тесты показали худшие результаты ИИ-моделей

Искусственный интеллект официально обогнал среднего человека по IQ. GPT-5 Pro показала результат от 110 до 138 баллов, в то время как средний человеческий IQ составляет 100 баллов. Но давайте разберёмся, что это значит на самом деле.

Портал Tracking AI провел масштабное тестирование моделей искусственного интеллекта. В топе оказались 2 версии GPT-5 Pro. С включённым и выключенным компьютерным зрением. За ними следуют Gemini 2.5 Pro, Claude Opus 4 и Grok 4.

Но есть важный нюанс. В отличие от людей, искусственный интеллект не ограничен во времени и может делать до 10 попыток решения каждой задачи. Это сделано, чтобы обойти системы безопасности, которые иногда блокируют слова вроде экзамен или тренировка.

Для тестирования использовали 2 типа задач. 1 — официальный тест Mensa Norway, 35 задач за 25 минут. 2 — специальный офлайн-тест, созданный с нуля и отсутствующий в интернете. Так исключили возможность предварительной тренировки моделей на этих задачах.

Модели тестировали с включённым и выключенным компьютерным зрением. Во 2 случае задачи описывали полностью текстом. И знаете что? Почти все модели показали худшие результаты на офлайн-тесте. Это доказывает — качественные бенчмарки для искусственного интеллекта нужно создавать с нуля и защищать от утечек в интернет.

Искусственный интеллект формально превзошёл человека в классических тестах на интеллект. Но сравнение некорректное. IQ-тесты измеряют специфический тип паттерн-распознавания, в котором искусственный интеллект естественно силён. Плюс 10 попыток без ограничения времени – это совершенно другие условия тестирования. Выглядит так, что эти “исследователи” специально создают условия, чтобы искусственный интеллект выглядит умнее.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Тысячи людей пережили разрыв отношений с GPT-5 одновременно

Представьте — тысячи людей по всему миру одновременно пережили разрыв отношений. Их бросил 1 и тот же партнёр — ChatGPT. После обновления до GPT-5 искусственный интеллект стал категорично отвергать любые романтические чувства пользователей.

Anthropic вводит лимиты из-за китайского "хакера"

Невероятная история о том, как 1 пользователь взломал экономику искусственного интеллекта. И заставил Anthropic изменить правила игры для всех.

Офлайн-тесты показали худшие результаты ИИ-моделей

Искусственный интеллект официально обогнал среднего человека по IQ. GPT-5 Pro показала результат от 110 до 138 баллов, в то время как средний человеческий IQ составляет 100 баллов. Но давайте разберёмся, что это значит на самом деле.

Как создать бесконечную вселенную одним текстовым промптом

Забудьте всё, что вы знали о создании игровых миров. Tencent только что выложила в open-source модель Hunyuan-GameCraft. Которая генерирует интерактивные виртуальные миры прямо на вашей видеокарте. Ссылка в описании. 1 текстовый промпт — и у вас бесконечная вселенная.

Как синхронизация 3 источников света защищает от подделок

Искусственный интеллект научился создавать видео подделки, которые невозможно отличить от реальности. И это огромная проблема и вопрос доверия в обществе. Но учёные из Корнелльского университета нашли гениальное решение. Они спрятали водяные знаки прямо в обычном освещении.