4 модели ИИ спорят между собой и выбирают лучший ответ

Post Thumbnail

Бывший директор по искусственному интеллекту в Tesla Андрей Карпаты, выложил на GitHub свой «проект выходного дня». Приложение llm-council. Это «совет ИИ», где несколько языковых моделей параллельно готовят ответы и выбирают лучший.

В конфигурации Карпаты работают GPT 5.1, Gemini 3 Pro, Claude Sonnet 4 и 5 и Grok 4. Подключение через единый шлюз OpenRouter и можно выбрать другие модели. Сам Андрей говорит, что собрал это, чтобы читать книги вместе с несколькими моделями и наблюдать, как они спорят между собой.

Процесс устроен в 3 шага. Сначала каждая модель независимо отвечает на запрос, и пользователь сравнивает варианты. Затем модели получают анонимные ответы друг друга без указания авторства. И должны оценить и ранжировать их по качеству. На 3-м шаге в игру вступает «председатель» совета, отдельная модель. Карпаты выбрал Gemini 3 Pro: она видит всё и собирает финальный, «коллективно выверенный» ответ.

Интересно, что совет почти всегда ставит GPT 5.1 на первое место как самую «глубокую и полезную» модель. Claude стабильно оказывается внизу, Gemini 3 Pro и Grok 4 где-то посередине. Но сам Карпаты не согласен с этим «голосованием»: ответы GPT 5 и 1 он считает слишком многословными, Gemini 3 Pro более собранной, а Claude — чрезмерно лаконичным.

Получается парадокс. Модели искусственного интеллекта выбирают лучшего среди себя, но человек с ними не согласен.

Почитать из последнего
ChatGPT обогнал Netflix по выручке в Южной Корее
В Южной Корее выбрали, на что тратить деньги. Аналитики из Aicel Technologies подсчитали, что ежемесячный объём платежей за подписки на ИИ достиг $60 миллионов. Для сравнения, средняя месячная выручка Netflix в стране составляет около $50 миллионов. Получается, искусственный интеллект обогнал стриминг. Который казался незыблемым чемпионом по монетизации подписок.
Claude работает по своей конституции
Anthropic выложила новую конституцию Claude. И это реальная инструкция, по которой нейросеть принимает решения в сложных ситуациях. Раньше всё было просто: вот тебе список запретов, не делай это и то, работай по инструкции. Но компания поняла, что такой подход ломается при 1 же нестандартном кейсе, потому что модель не понимает «почему так». Теперь идея радикально другая. Claude должен не следовать правилам слепо, а мыслить через систему ценностей.
Гуманоид вышел на пробежку, но бывший инженер предупреждает об опасности
Компания Figure AI решила показать миру, как её робот-гуманоид бегает наравне с людьми. Руководитель Бретт Эдкок выложил видео, где железный парень уверенно движется рядом с сотрудниками, не отставая ни на шаг. Издание Digital Trends уже фантазирует: представьте, робот как персональный тренер задаёт вам темп для подготовки к 1 марафону! Звучит круто, правда?
Победитель AI Film Award получил миллион долларов
Google вручил 1 кинопремию для фильмов созданных ИИ. Миллион долларов получил Зубейр Эль-Джласси из Туниса за короткометражку Лили. Парень работает графическим дизайнером и режиссёром, использовал генератор Veo для видео и Gemini для подготовки сцен.
Anthropic рассказал, как Claude меняет науку
Anthropic опубликовала отчёт о том, как исследователи из топовых университетов внедряют Claude в биомедицину.