OpenAI, Anthropic и Google объединились против галлюцинаций ИИ

Компания Thomson Reuters через своё подразделение Labs создала Trust in AI Alliance. И туда вошли старшие инженеры Anthropic, OpenAI, Google и AWS. Цель звучит амбициозно. Разработать общие принципы для надёжных агентных систем ИИ. Проще говоря, заставить нейросети перестать нести чушь с уверенным видом.

Проблема в том что агентный искусственный интеллект не просто отвечает на вопросы, а автономно принимает решения и действует. Если обычная модель выдаёт галлюцинацию, пользователь получает разовую ошибку. Если галлюцинирует агент, он действует на основе ложной информации и накапливает ошибки в цепочке решений. Где каждый следующий шаг усугубляет предыдущий. Получается снежный ком из бреда.

Компании уже исследуют проблему по отдельности, но особо не преуспели. OpenAI выяснила, что модели галлюцинируют из-за системы оценки. Которая вознаграждает угадывание а не признание неуверенности. Anthropic обнаружила в Claude внутренние цепи отказа. Механизм который должен заставлять модель молчать если она не уверена. Но почему-то в некоторых случаях не срабатывает.

А Thomson Reuters зарабатывает на продуктах для юристов, налоговиков и финансистов. Профессий, где галлюцинации могут стоить карьеры или судебного иска. Участники альянса планируют делиться опытом и встраивать доверие в архитектуру систем. Результаты обещают публиковать открыто.

Ну что, пожелаем им удачи в этом непростом деле.