Grok 4.1 от Илона Маска галлюцинирует в 3 раза реже предыдущей версии

Post Thumbnail

Вышел Grok 4.1 от Илона Маска это не просто очередное обновление. Модель прокачали в эмоциональном интеллекте и существенно уменьшили количество галлюцинаций. И она стала намного более эмпатичной и чуткой.

Показывают даже лучшие результаты на EQ-Bench. Это бенчмарк с задачками на всякие soft skills. Правда, с новой версией 5.1 сравнения нет.

Но главный результат, пожалуй, в другом. Модель галлюцинирует в 3 раза реже, чем предыдущая версия. Вот это действительно здорово. Потому что эмпатия эмпатией, а точность — это то, что определяет, можно ли доверять модели в реальных задачах.

По данным компании, Grok 4.1 значительно улучшает качество взаимодействия за счёт расширенных творческих, эмоциональных и совместных возможностей. Модель стала лучше воспринимать тонкие намерения пользователя, придерживается более целостного стиля общения и сохраняет «личность», при этом не теряя точности.

Для достижения результатов xAI применила масштабную инфраструктуру обучения с подкреплением, ранее использовавшуюся для Grok 4. И оптимизировала стиль, характер и полезность новой версии. Компания также разработала методы, позволяющие использовать передовые агентные модели рассуждений в качестве моделей вознаграждения.

В бенчмарке на написание творческих текстов новая модель уступила только версии GPT-5.1.

Получается, Grok научили чувствовать настроение и писать красиво. Но самое важное — модель стала в 3 раза меньше галлюцинировать.

Почитать из последнего
Беспилотный робомобиль Waymo сбил ребёнка у школы
Беспилотный автомобиль Waymo, принадлежащий Alphabet, сбил ребёнка возле начальной школы в Калифорнии. Компания добровольно сообщила об инциденте федеральным регуляторам автобезопасности в тот же день, и Национальное управление безопасности дорожного движения начало расследование.
Создатели ИИ-министра для борьбы с коррупцией украли 7 млн евро
Помните историю про ИИ-министра в Албании? Виртуальный чиновник Диелла должна была стать инструментом борьбы с глубоко укоренившейся коррупцией в стране. Звучало прогрессивно и технологично. Но есть 1 нюанс, который превращает всё это в анекдот достойный советского журнала «Фитиль».
OpenAI закрывает модель GPT-4o навсегда и уже очень скоро
OpenAI объявила, что 13 февраля этого года удалит несколько моделей из ChatGPT, включая GPT-4o. Которую обожают пользователи за тёплый разговорный стиль. Компания запустила GPT-4o в мае 24 года, и модель стала чрезвычайно популярна среди платных подписчиков.
Молчаливый тиктокер с покерфейсом продал свою компанию за 900 миллионов
Хаби Лейм – это такой молчаливый тиктокер с покерфейсом и 160 миллионами подписчиков. И вот он продал свою компанию за $900 миллионов. Сумма огромная, но нюанс в том, что это за продажа. Фишка в условиях контракта - это создание искусственного аватара, который будет вести стримы, сниматься в рекламе и продавать товары 24 часа в сутки. Пока настоящий Хаби спит или играет, его цифровая копия будет вкалывать в другом часовом поясе.
Гуманоиды работают в три раза хуже людей
Знаете, что объединяет хайп вокруг гуманоидов и реальность? Ничего. Но некоторые паникуют из-за того, что гуманоиды массово заменят людей на заводах. И тут директор китайской компании UBTech Майкл Там взял и честно признался Financial Times. Их новейшие человекоподобные роботы достигают производительности всего в 30-50% от человеческой. И это только в простейших операциях типа складывания коробок или контроля качества. Грубо говоря, 1 работник человек делает столько же, сколько 2-3 робота вместе взятых.