Post Thumbnail

OpenAI решает задачи IMO лучше большинства людей

Математический мир стал свидетелем исторического события. Экспериментальная ризонинг-модель от OpenAI решила задачи международной олимпиады по математике IMO на золотую медаль. Ссылка в описании. Хотя точное название модели не раскрывается, известно, что она ещё не опубликована и это не GPT-5.

Система искусственного интеллекта успешно справилась с 5 задачами из 6. Оценка проводилась по тем же правилам, что применяются к участникам-людям. Модели дали 9 часов на размышления, ограничили доступ в интернет и принимали только полностью обоснованные доказательства на естественном языке.

В итоге искусственный интеллект набрал 35 из 42 возможных баллов. Что соответствует твёрдой золотой медали. До этого момента ни одной модели не удавалось достичь таких впечатляющих результатов на математической олимпиаде.

Самое интересное, что разработчики из Google DeepMind тоже готовы были объявить о победе своей модели, которая также решила эти же задачи на золотую медаль. Однако им пришлось ждать одобрения от отдела маркетинга, и поэтому официальное объявление от них выйдет на этой неделе. А тем временем глава OpenAI Сэм Альтман уже успел заявить о достижении своей компании и собрать респекты.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
USB-кабель за $200 превращается в автономного хакера с ИИ

Исследователи из Palisade Research создали новую угрозу кибербезопасности. Это модифицированный USB-кабель, который становится проводником автономного искусственного интеллекта в компьютерные системы. Устройство стоимостью $200 содержит программируемый микрочип, загружающий цифрового агента непосредственно на целевую машину. Принцип работы впечатляет своей эффективностью. Вы подключаете кабель, а он автоматически запускает проникновение искусственного интеллекта. Который анализирует систему и отправляет собранную информацию на удалённый сервер с большой языковой моделью типа GPT-4. А также получает инструкции и автономно выполняет действия по взлому. Агент способен просматривать файлы, изучать сетевые соединения, похищать пароли и личные данные, одновременно распространяясь через все доступные каналы. Ужасно, что стоимость 1 такой операции составляет менее $1. А на разработку проекта потребовалась всего 1 человеко-неделя. Принципиальное отличие от традиционных методов кибератак заключается в объединении скорости автоматизированных скриптов с адаптивностью человека-хакера. Что потенциально открывает эру демократизированного взлома, доступного практически каждому. И я не понимаю, для чего они вообще это сделали!? Это настоящий демон из USB кабеля.

xAI увольняет 500 аннотаторов ради экспертной специализации Grok

Намечается стратегический поворот от xAI. Компания кардинально меняет подход к обучению своей языковой модели Grok! И команда Илона Маска уволила за 1 день целых 500 универсальных людей аннотаторов. И вместо этого в 10 раз увеличивает число специализированных AI-туторов. Этот смелый шаг знаменует важнейшее изменение в философии развития искусственного интеллекта Илона Маска. Переход от широкой, но поверхностной разметки данных по всем темам к глубокой экспертной проработке критически важных областей знаний. И кажется, Grok будет эволюционировать от универсального чат-бота к высокоточному экспертному ассистенту. И эта трансформация обещает значительный рост качества в сферах, где ошибки недопустимы. Хотя потенциально может привести к снижению компетентности в бытовых темах. Подтверждая серьезность намерений, компания Илона Маска уже опубликовала объявление о масштабном найме тысяч специалистов. Цитирую объявление полностью.

Время проверки контента Gemini сократилось с 30 до 15 минут

Тревожные сигналы из внутренней кухни Google опубликовало издание The Guardian. Оценщики контента для модели Gemini поделились с ними интересной информацией о снижении стандартов проверки. Сотрудники подрядчика GlobalLogic, ответственные за оценку качества и безопасности ответов искусственного интеллекта перед выпуском, бьют тревогу. За последние полгода время на проверку 1 ответа сократилось вдвое. С 30 до 15 минут. За этот мизерный промежуток необходимо проанализировать текст в 500 слов, проверить фактическую точность и составить подробный отчёт. Ребекка Джексон-Артис, присоединившаяся к команде осенью прошлого года, рассказала, что после минимального обучения ей поручили не только оценку, но и загрузку в систему чувствительной информации. По здравоохранению, финансам и развитию детей. Первоначальная установка на качество быстро сменилась требованием "просто выполнять план". Другой сотрудник, Рэйчел Сойер, отметила существенное смягчение критериев в этом году. Материалы, ранее считавшиеся неприемлемыми, теперь получают зелёный свет. Возможно, Google осознал, что даже 30 минут недостаточно для тщательной проверки, и вместо имитации безопасности решила сосредоточиться на улучшении алгоритмических ограничений. Но всё равно. 15 минут на анализ 500 слов — это за гранью.

Золотистый корпус и контекстное понимание в новом поколении Tesla

Tesla представила нового человекоподобного робота Optimus с интегрированным Grok от xAI. Руководитель Salesforce Марк Бениофф лично протестировал прототип, попросив принести газировку. Робот продемонстрировал осмысленное понимание контекста и способность к диалогу. Хотя и потребовалось несколько уточняющих команд. Optimus использует языковую модель Grok для естественного общения. Робот не просто выполняет команды. Он объясняет, что не располагает актуальной информацией о местонахождении газировки и предлагает проводить гостя на кухню. И это уже уровень контекстного понимания, недоступный предыдущим поколениям. Визуальные изменения тоже говорят о серьёзной эволюции. Новый золотистый корпус заменил прежние светлые тона. Кисти рук полностью переработаны. Открытые сочленения скрыты, исполнительные механизмы перенесены в предплечья, управление пальцами через кабели. Маск подчёркивает сходство с человеческой анатомией. Также Илон Маск прогнозирует, что новые роботы Optimus будут формировать 80% выручки Tesla. И это его бизнес-стратегия. Компания хочет создавать не просто робота, а универсального помощника с искусственным интеллектом. Способного понимать и выполнять сложные задачи в реальном мире.

Microsoft диверсифицирует партнёрства: Claude Sonnet 4 в Office

Microsoft принял стратегическое решение о диверсификации своих партнёрств в сфере искусственного интеллекта. Компания заключила соглашение с Anthropic, создателем модели Claude. Для внедрения её технологий в свои приложения Office. Согласно данным издания The Information, теперь искусственный интеллект от Anthropic будет работать вместе с технологиями OpenAI в таких программах как Word, Excel, Outlook и PowerPoint. По сути, это окончание эпохи эксклюзивного сотрудничества Microsoft с создателем ChatGPT в сфере офисных приложений. Важно отметить, что руководство Microsoft считает последнюю модель Anthropic Claude Sonnet 4 более эффективной в некоторых функциях. Например, в создании визуально привлекательных презентаций PowerPoint. Одновременно с этим OpenAI предпринимает шаги к независимости от Microsoft. Компания недавно запустила платформу для поиска работы, которая может конкурировать с LinkedIn. А также планирует начать массовое производство собственных AI-чипов в партнёрстве с Broadcom в следующем году. Это позволит OpenAI потенциально проводить обучение и инференс моделей на собственном оборудовании. Уменьшая зависимость от инфраструктуры Microsoft Azure.