4 модели ИИ спорят между собой и выбирают лучший ответ

Post Thumbnail

Бывший директор по искусственному интеллекту в Tesla Андрей Карпаты, выложил на GitHub свой «проект выходного дня». Приложение llm-council. Это «совет ИИ», где несколько языковых моделей параллельно готовят ответы и выбирают лучший.

В конфигурации Карпаты работают GPT 5 и 1, Gemini 3 Pro, Claude Sonnet 4 и 5 и Grok 4. Подключение через единый шлюз OpenRouter и можно выбрать другие модели. Сам Андрей говорит, что собрал это, чтобы читать книги вместе с несколькими моделями и наблюдать, как они спорят между собой.

Процесс устроен в 3 шага. Сначала каждая модель независимо отвечает на запрос, и пользователь сравнивает варианты. Затем модели получают анонимные ответы друг друга без указания авторства. И должны оценить и ранжировать их по качеству. На 3-м шаге в игру вступает «председатель» совета, отдельная модель. Карпаты выбрал Gemini 3 Pro: она видит всё и собирает финальный, «коллективно выверенный» ответ.

Интересно, что совет почти всегда ставит GPT 5 и 1 на первое место как самую «глубокую и полезную» модель. Claude стабильно оказывается внизу, Gemini 3 Pro и Grok 4 где-то посередине. Но сам Карпаты не согласен с этим «голосованием»: ответы GPT 5 и 1 он считает слишком многословными, Gemini 3 Pro более собранной, а Claude — чрезмерно лаконичным.

Получается парадокс. Модели искусственного интеллекта выбирают лучшего среди себя, но человек с ними не согласен.

Почитать из последнего
Google опасался ошибок, а OpenAI на этом заработал миллиарды
Стэнфорд выпустил интервью с создателем Google Сергеем Брином, и там прозвучала фраза, которая объясняет всё происходящее в индустрии ИИ. «Главной ошибкой Google было недооценить трансформеры». Не технология подвела - подвела вера в неё.
Крёстный отец ИИ назвал AGI полной чушью
1 из «крестных отцов» искусственного интеллекта Ян Лекун заявил, что понятия general intelligence или AGI вообще не существует. Это не просто провокация - это удар по основам всей дискуссии об ИИ. Потому что если нет понятия, то что мы вообще пытаемся создать?
Новый Gemini 3 Flash быстрее в 3 раза и обходит Pro модель, но стоит копейки
Google выпустили Gemini 3 Flash, и это frontier-модель со скоростью Flash и ценой, которая ломает привычные правила рынка.
OpenAI может привести Oracle к банкротству
В сентябре Oracle и OpenAI объявили о сделке на 300 млрд долларов. Крупнейшая в истории облачных вычислений. Контракт обещал расширение дата-центров на мощность 4,5 гигаватта. Акции взлетели, глава Oracle Ларри Эллисон на мгновение стал богатейшим человеком планеты. Казалось, Oracle сорвала джекпот. А потом всё рухнуло.
Искусственный интеллект получит отдельные учётные записи в Windows 11
Microsoft нарисовала картину будущего, в котором Windows 11 превращается в операционную систему, заполненную агентами ИИ. Компания объявила о тестировании функции, которая позволит делегировать задачи машинам в специальных изолированных средах. Не вмешиваясь в текущую работу пользователя.