Post Thumbnail

OpenAI представила GPT-4.1 — новый лидер в программировании и следовании задачам

OpenAI выпустила новую версию своей флагманской модели под названием GPT-4.1. Она позиционируется как специализированная модель, ориентированная на выполнение задач программирования и точное следование инструкциям. GPT-4.1 уже доступна в ChatGPT. Если вы её не видите — выйдите и зайдите в аккаунт. Помимо основной версии, OpenAI также представила GPT-4.1 mini, которая заменяет предыдущую GPT-4 o mini.

Ключевое преимущество новой модели заключается в высокой производительности при работе с программным кодом. В отраслевом бенчмарке SWE-bench Verified модель демонстрирует результат в 54,6%. Это превосходит показатели GPT-4 o на 21,4% и GPT-4.5 на 26,6% пунктов. Что делает её лидирующей моделью для задач кодирования среди доступных систем искусственного интеллекта.

В тестах на следование инструкциям, проведённых по методологии Scale’s MultiChallenge, новая GPT-4.1 достигала 38,3%. Что на 10,5% превосходит результаты GPT-4 o. Модель также устанавливает новый рекорд в понимании длинного мультимодального контекста согласно бенчмарку Video-MME. Набирая 72,0% в категории длинных видео без субтитров. Что на 6,7% процентных пункта лучше предыдущей версии.

Особое внимание следует обратить на работу с большими объёмами данных. GPT-4.1 поддерживает контекст до 1 миллиона токенов через программный интерфейс приложения. Однако для пользователей ChatGPT ограничения остаются прежними. 32 тысячи токенов для подписки Plus и 128 тысяч для подписки Pro.

Разработчики OpenAI отмечают, что при создании модели фокусировались не только на синтетических бенчмарках, но и на практической полезности для реальных задач.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Открытая модель RoboBrain 2.0 станет основой для гуманоидных роботов

Модель искусственного интеллекта RoboBrain 2.0 теперь может объединять восприятие окружения и управлять роботами в 1 компактной системе. Специалисты уже называют её основой для будущего поколения гуманоидных роботов.

Tinder запустил двойные свидания: ИИ подбирает команды из 4 человек

Приложение Tinder запустило функцию двойных свиданий, которая позволяет пользователям объединяться с друзьями для поиска пар. Теперь можно пригласить до 3 друзей и вместе просматривать профили других так называемых команд. У которых есть хотя бы 1 совпадение в индивидуальных предпочтениях.

Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию

Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.

Данные до 2022 года стали "доядерной сталью" для обучения ИИ

Искусственный интеллект, призванный стать локомотивом технологического прогресса, начинает тормозить собственное развитие. По данным издания The Register, генеративные модели заполнили интернет таким количеством синтетического контента, что это создаёт настоящий технологический тупик.

Сэм Альтман раскрыл попытки Meta переманить сотрудников за $100 млн

Сэм Альтман публично раскрыл беспрецедентную охоту за талантами, которую ведёт Марк Цукерберг. Глава Meta предлагает сотрудникам OpenAI поистине астрономические суммы. 100 млн долларов только в качестве входного бонуса!