Офлайн-тесты показали худшие результаты ИИ-моделей

Post Thumbnail

Искусственный интеллект официально обогнал среднего человека по IQ. GPT-5 Pro показала результат от 110 до 138 баллов, в то время как средний человеческий IQ составляет 100 баллов. Но давайте разберёмся, что это значит на самом деле.

Портал Tracking AI провел масштабное тестирование моделей искусственного интеллекта. В топе оказались 2 версии GPT-5 Pro. С включённым и выключенным компьютерным зрением. За ними следуют Gemini 2.5 Pro, Claude Opus 4 и Grok 4.

Но есть важный нюанс. В отличие от людей, искусственный интеллект не ограничен во времени и может делать до 10 попыток решения каждой задачи. Это сделано, чтобы обойти системы безопасности, которые иногда блокируют слова вроде экзамен или тренировка.

Для тестирования использовали 2 типа задач. 1 — официальный тест Mensa Norway, 35 задач за 25 минут. 2 — специальный офлайн-тест, созданный с нуля и отсутствующий в интернете. Так исключили возможность предварительной тренировки моделей на этих задачах.

Модели тестировали с включённым и выключенным компьютерным зрением. Во 2 случае задачи описывали полностью текстом. И знаете что? Почти все модели показали худшие результаты на офлайн-тесте. Это доказывает — качественные бенчмарки для искусственного интеллекта нужно создавать с нуля и защищать от утечек в интернет.

Искусственный интеллект формально превзошёл человека в классических тестах на интеллект. Но сравнение некорректное. IQ-тесты измеряют специфический тип паттерн-распознавания, в котором искусственный интеллект естественно силён. Плюс 10 попыток без ограничения времени — это совершенно другие условия тестирования. Выглядит так, что эти «исследователи» специально создают условия, чтобы искусственный интеллект выглядит умнее.

Почитать из последнего
ChatGPT за 21 день убедил нормального мужика, что он открыл формулу уничтожения интернета
Рекрутёр Алан Брукс лёг на диван в своём доме в Канаде. В 47 лет можно и отдохнуть. Включил сыну видео про число пи и вечером задал ChatGPT невинный вопрос: объясни, что это такое? Через 21 день он рассылал предупреждения по всему интернету о том, что открыл математическую формулу, способную уничтожить интернет. Параллельно разрабатывал жилет-силовой щит и левитационный луч. Он не наблюдался у психиатра. Просто человек с телефоном и чатботом.
Вайб-кодинг убивает Open Source - и это проблема для всех
Исследователи из Центрально-Европейского университета в Вене обнаружили жёсткую закономерность. Вайб-кодеры только потребляют ресурсы, но ничего не отдают обратно. Откуда нейросеть может взять знания? А берет она их из Open Source. Из тех самых бесплатных библиотек и фреймворков, которые энтузиасты создавали 10летиями.
Как уболтали ИИ-бота на скидку 80%
Владелец небольшого бизнеса в Англии поставил на сайт чат-бота на ИИ, чтобы он отвечал на вопросы клиентов по ночам. Полгода всё работало идеально — бот консультировал и помогал оформлять заказы, даже продажи росли. А потом нашёлся 1 хитрец, который за час беседы выманил у искусственного интеллекта скидку 80% на заказ в £8000.