«Будь краток» — верный способ заставить чат-бот ошибаться чаще

Post Thumbnail

Оказывается, когда мы просим чат-бота дать краткий ответ, это может значительно повысить вероятность генерации ложной информации. Французская компания Giskard, занимающаяся тестированием систем искусственного интеллекта, провела детальное исследование на эту тему. Учёные установили, что запросы на короткие ответы, особенно по неоднозначным темам, могут существенно снизить фактическую точность ответов моделей искусственного интеллекта.

Как отмечают исследователи, даже простые изменения в инструкциях системе могут кардинально влиять на склонность модели к галлюцинациям. То есть к созданию информации, не соответствующей действительности. Это открытие имеет серьёзные последствия для практического применения, поскольку многие приложения специально настроены на краткие ответы с целью снижения использования данных, улучшения скорости работы и сокращения затрат.

Проблема галлюцинаций остаётся одной из самых трудноразрешимых в сфере искусственного интеллекта. Даже самые современные модели иногда выдают выдуманную информацию. Это особенность их вероятностной природы. И что интересно, более новые модели, основанные на алгоритмах рассуждения, такие как OpenAI o3, галлюцинируют даже чаще, чем их предшественники.

В своём исследовании Giskard выявила определённые запросы, усиливающие проблему галлюцинаций. Например, расплывчатые или содержащие ошибочные предпосылки вопросы с требованием краткого ответа.

Почему так происходит? По мнению исследователей Giskard, когда модели не разрешают отвечать подробно, у неё просто нет «пространства». Для того, чтобы признать ложные предпосылки и указать на ошибки. Другими словами, для убедительного опровержения требуются более развёрнутые объяснения.

Мне кажется, сейчас наблюдается некий конфликт между оптимизацией для пользовательского опыта и фактической точностью. И получается, когда модели вынуждены быть краткими, они последовательно выбирают краткость в ущерб точности.

Почитать из последнего
В Китае открыли школу, где гуманоидов учат как на уроках труда
В Китае заработал учебный центр для гуманоидов. И это выглядит как издевательство над понятием "быстрое обучение". 2 этажа с воссозданными производственными линиями и домашними интерьерами. Роботы учатся сортировать катушки, упаковывать посылки, готовить еду и убирать спальню. Как на уроках труда, только дороже.
Глава Microsoft AI предупредил, что борьба за ИИ обойдётся в сотни миллиардов
Гендиректор Microsoft по ИИ Мустафа Сулейман, выдал заявление, от которого у стартапов должна отвиснуть челюсть. По его словам, для конкуренции на переднем крае искусственного интеллекта в ближайшие 5-10 лет потребуется сотни миллиардов долларов. Не миллионов. Не 10 миллиардов. Сотни миллиардов. Вот вам и входной билет в эту весёлую игру.
YouTube запустил инструмент для генерации игр через промпты на Gemini 3
YouTube Gaming запустила закрытое бета-тестирование сервиса Playables Builder. И вот вам очередной гвоздь в крышку гроба традиционной геймдев-индустрии. Инструмент позволяет авторам создавать мини-игры на основе промптов. Система работает на базе Gemini 3: чтобы превратить идею в рабочий интерактивный проект, достаточно загрузить короткое текстовое описание, видеофрагмент или изображение.
Нейросети генерируют код с проблемами намного чаще людей-программистов
Платформа AI-ревью кода CodeRabbit опубликовала отчёт State of AI vs Human Code Generation. И вот вам суровая правда. Ассистенты на ИИ стали массовым инструментом, но сгенерированный ими код содержит в среднем в 1,5 раза больше проблем, чем человеческий. Исследование основано на анализе 470 реальных pull request'ов из открытых проектов на GitHub. 320 с участием искусственного интеллекта и 150 написанных только людьми.
Гуманоид повторил легендарную сцену, где продавец бесит покупателя упаковкой
Кто смотрел фильм "Реальная любовь", тот помнит сцену: персонаж Роуэна Аткинсона упаковывает подарок с такой въедливой тщательностью, что покупатель буквально сходит с ума от нетерпения. Звёздочки, шишки, ленточки — каждый элемент добавляется с невозмутимым спокойствием, пока клиент не готов убить продавца.