Новый Grok 3 от xAI превзошёл GPT-4 и Claude 3.5

Post Thumbnail

xAI, компания Илона Маска, представила революционную версию языковой модели Grok 3, которая установила новые стандарты производительности в области искусственного интеллекта, превзойдя ведущих конкурентов, включая OpenAI GPT-4, Claude 3.5, Deepseek V3 и Gemini 2 Pro.

Впервые в истории ИИ-модель преодолела барьер в 1400 баллов по шкале ELO в системе оценки LMArena, заняв первое место во всех категориях тестирования. Grok 3 продемонстрировал впечатляющие результаты в ключевых областях: 52% в стандартном режиме и 96% с включенным режимом рассуждений на тесте AIME 24, 75% (улучшается до 85%) в тесте GPQA, и от 57% до 80% в тестах на программирование LiveCodeBench.

Техническим фундаментом unprecedented производительности Grok 3 стал суперкомпьютер Colossus, оснащенный 100 000 графических процессоров NVIDIA H100. Вычислительная мощность новой версии в 10 раз превышает показатели предшественника Grok 2.

Модель получила ряд инновационных функций, включая режим «Big Brain» для повышенной производительности, улучшенные способности к рассуждению и скорое добавление голосового интерфейса. Пользователи смогут активировать расширенные возможности рассуждений для решения сложных задач в области математики, науки и программирования, используя команды «Think» и «Think harder».

«Модель достигла пугающе высокого уровня интеллекта», – прокомментировал Илон Маск, подчеркивая беспрецедентные творческие и эмергентные способности системы. Особо отмечается успех Grok 3 в создании креативного программного кода и генерации инновационных игр.

xAI планирует запустить веб-версию Grok 3 с множеством персонализированных ИИ-личностей для соответствия предпочтениям пользователей. Компания также анонсировала намерение сделать предыдущую версию, Grok 2, открытым исходным кодом в ближайшие месяцы.

Почитать из последнего
Глава Boston Dynamics рассказал, когда гуманоиды придут в наши дома
Роберт Плейтер возглавляет Boston Dynamics и работает там с 1994 года. Больше 30 лет в 1 компании занимается роботами. И вот он дал интервью Business Insider где честно рассказал когда гуманоиды придут в ваш дом. Спойлер – не скоро.
Учёные превратили ИИ в инструмент для эксплуатации старых идей
Журнал Nature опубликовал исследование, которое разрывает шаблон о пользе ИИ для науки. Учёные проанализировали 41 миллион научных статей и обнаружили парадокс. Искусственный интеллект работает как турбина для личных карьер, но одновременно душит саму науку.
В TSMC проверили, есть ли на самом деле ИИ-пузырь
Представьте. Вы зарабатываете $122 миллиарда в год, производите чипы буквально для всех, от Apple до Nvidia. А также бьёте рекорды квартал за кварталом. И вдруг публично заявляете – мы очень нервничаем. Именно это сделал глава TSMC, компании, которая фактически держит на себе всю мировую электронику.
Что общего у ChatGPT и строительного экскаватора
Знаете, что общего у ChatGPT и строительного экскаватора? Казалось бы, ничего. Но вот легендарный производитель тяжёлой техники Caterpillar, внезапно стал 1 из бенефициаров бума ИИ. И речь тут совсем не о бульдозерах.
Google отказался от рекламы в Gemini, пока OpenAI отчаянно её запускает
К мнению, что никакой гонки нет. Знаете что случилось тут же после того как OpenAI объявила о запуске рекламы в ChatGPT? Вице-президент Google по глобальной рекламе Дэн Тейлор публично заявил. Мол у нас нет планов по размещению рекламы в приложении Gemini. Совпадение? Не думаю.