4 модели ИИ спорят между собой и выбирают лучший ответ

Post Thumbnail

Бывший директор по искусственному интеллекту в Tesla Андрей Карпаты, выложил на GitHub свой «проект выходного дня». Приложение llm-council. Это «совет ИИ», где несколько языковых моделей параллельно готовят ответы и выбирают лучший.

В конфигурации Карпаты работают GPT 5.1, Gemini 3 Pro, Claude Sonnet 4 и 5 и Grok 4. Подключение через единый шлюз OpenRouter и можно выбрать другие модели. Сам Андрей говорит, что собрал это, чтобы читать книги вместе с несколькими моделями и наблюдать, как они спорят между собой.

Процесс устроен в 3 шага. Сначала каждая модель независимо отвечает на запрос, и пользователь сравнивает варианты. Затем модели получают анонимные ответы друг друга без указания авторства. И должны оценить и ранжировать их по качеству. На 3-м шаге в игру вступает «председатель» совета, отдельная модель. Карпаты выбрал Gemini 3 Pro: она видит всё и собирает финальный, «коллективно выверенный» ответ.

Интересно, что совет почти всегда ставит GPT 5.1 на первое место как самую «глубокую и полезную» модель. Claude стабильно оказывается внизу, Gemini 3 Pro и Grok 4 где-то посередине. Но сам Карпаты не согласен с этим «голосованием»: ответы GPT 5 и 1 он считает слишком многословными, Gemini 3 Pro более собранной, а Claude — чрезмерно лаконичным.

Получается парадокс. Модели искусственного интеллекта выбирают лучшего среди себя, но человек с ними не согласен.

Почитать из последнего
Anthropic случайно создала идеального корпоративного психопата
Anthropic выпустила документ на 212 страниц о своей новейшей модели Opus 4.6, и там творится настоящий детектив. Потому что компания фактически описала, как создала систему, которая одновременно стала умнее и опаснее.
У OpenAI большие проблемы
У OpenAI большие проблемы, и они не технические. Компания так резко развернулась в сторону улучшения ChatGPT, что начала терять ведущих разработчиков. Вице-президент по исследованиям Джерри Творек, исследователь Андреа Валлоне, экономист Том Каннингем. И список растёт. 10 нынешних и бывших сотрудников рассказали 1 и ту же историю. Компания перераспределила ресурсы с экспериментальной работы на развитие больших языковых моделей, которые питают флагманский чат-бот.
Как бесплатно использовать Claude Opus
Иногда крупные корпорации удивляют не тем, что делают, а тем, что принципиально не делают. Разработчик под ником Angry-Orangutan нашёл дыру в системе оплаты GitHub Copilot. Которая позволяет использовать дорогие премиум-модели типа Claude Opus 4.5, вообще не расходуя лимиты. И сообщил Microsoft. Они посмотрели, подумали и закрыли тикет со статусом "не планируется". Да-да, чинить не будут.
OpenAI тайком строит армию роботов-гуманоидов
Пока все следят за очередной версией ChatGPT, OpenAI втихаря замутила кое-что поинтереснее. Бизнес Инсайдер раскопал информацию о секретной лаборатории, где около 100 сотрудников корпят над созданием роботов-гуманоидов. И знаете, что самое показательное? Об этом никто не писал на презентациях.
Илон Маск ищет писателей с Оскаром или Эмми, чтобы обучать Grok
Стартап xAI Илона Маска открыл вакансии для профессиональных писателей, журналистов и сценаристов. Чтобы они занялись обучением моделей ИИ. Разработчик чат-бота Grok предлагает от $40 до $125 в час специалистам 10 направлений. Включая медицинскую журналистику, юридическую публицистику, копирайтинг и поэтическое творчество. Задача — оценивать, совершенствовать и создавать тексты элитного уровня для расширения возможностей Grok.