4 модели ИИ спорят между собой и выбирают лучший ответ

Post Thumbnail

Бывший директор по искусственному интеллекту в Tesla Андрей Карпаты, выложил на GitHub свой «проект выходного дня». Приложение llm-council. Это «совет ИИ», где несколько языковых моделей параллельно готовят ответы и выбирают лучший.

В конфигурации Карпаты работают GPT 5.1, Gemini 3 Pro, Claude Sonnet 4 и 5 и Grok 4. Подключение через единый шлюз OpenRouter и можно выбрать другие модели. Сам Андрей говорит, что собрал это, чтобы читать книги вместе с несколькими моделями и наблюдать, как они спорят между собой.

Процесс устроен в 3 шага. Сначала каждая модель независимо отвечает на запрос, и пользователь сравнивает варианты. Затем модели получают анонимные ответы друг друга без указания авторства. И должны оценить и ранжировать их по качеству. На 3-м шаге в игру вступает «председатель» совета, отдельная модель. Карпаты выбрал Gemini 3 Pro: она видит всё и собирает финальный, «коллективно выверенный» ответ.

Интересно, что совет почти всегда ставит GPT 5.1 на первое место как самую «глубокую и полезную» модель. Claude стабильно оказывается внизу, Gemini 3 Pro и Grok 4 где-то посередине. Но сам Карпаты не согласен с этим «голосованием»: ответы GPT 5 и 1 он считает слишком многословными, Gemini 3 Pro более собранной, а Claude — чрезмерно лаконичным.

Получается парадокс. Модели искусственного интеллекта выбирают лучшего среди себя, но человек с ними не согласен.

Почитать из последнего
Из-за ИИ клавиатуры исчезнут из офисов
Лондонская школа экономики совместно с Jabra выдала любопытный прогноз. К 28-му году голосовой ИИ станет стандартом в офисах. А поколение Альфа — рождённые после 2010 года — возможно, никогда не узнает, каково это писать email руками. Но пока мне не верится, что клавиатуры действительно исчезнут.
ChatGPT обогнал TikTok и Disney
ChatGPT заработал 3 миллиарда долларов на мобильных подписках. Цифра впечатляет, но ещё интереснее скорость, с которой её достигли.
Собаки-поводыри скоро станут робо-псами с ИИ
Инженеры из США и Южной Кореи превратили робо-пса Unitree Go2 в собаку-поводыря. Модель ИИ GuideNav использует одну обычную камеру вместо дорогих датчиков LiDAR. И это работает.
Американцы заваливают китайский ИИ деньгами
Американские инвесторы завалили китайских разработчиков ИИ деньгами. Несмотря на геополитическое противостояние. Получается, прибыль побеждает политику.
OpenAI и Anthropic внедряют распознавание детей
Компании OpenAI и Anthropic внедряют технологии распознавания несовершеннолетних пользователей чат-ботов. OpenAI обновила правила взаимодействия ChatGPT с пользователями от 13 до 17 лет. Anthropic работает над системой идентификации и блокировки пользователей младше 18.