Post Thumbnail

Модель, создающая сайты и игры с 1-й попытки

OpenAI молча и без лишнего шума запустила тестирование новой модели под кодовым названием o3 Alpha на платформе WebArena. Это открытая площадка для сравнения моделей искусственного интеллекта через предпочтения пользователей. На самой платформе модель скрывается под именем «Anonymous-Chatbot-0717», но в коде можно увидеть настоящий идентификатор.

Что делает o3 Alpha особенной? По бенчмаркам она занимает 1-е место среди нейросетей для генерации кода и физики мира. Модель также значительно улучшила создание веб-сайтов с качественным пользовательским интерфейсом.

Издание BleepingComputer провело собственное тестирование и подтвердило, что o3 Alpha отлично справляется даже с расплывчатыми запросами. Пользователи отмечают, что она может создавать клоны популярных игр вроде Minecraft, GTA и Flappy Bird с 1-й попытки. Также она генерирует векторную графику лучшего качества среди других систем искусственного интеллекта.

Важно понимать, что это не открытое решение и не та модель с открытым исходным кодом, которую компания обещала выпустить. Также это не новая версия под названием o4. Такой модели пока не существует. Скорее всего, o3 Alpha – это внутренняя тестовая версия улучшенной модели o3, которая может включать наработки для будущей модели GPT-5.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
USB-кабель за $200 превращается в автономного хакера с ИИ

Исследователи из Palisade Research создали новую угрозу кибербезопасности. Это модифицированный USB-кабель, который становится проводником автономного искусственного интеллекта в компьютерные системы. Устройство стоимостью $200 содержит программируемый микрочип, загружающий цифрового агента непосредственно на целевую машину. Принцип работы впечатляет своей эффективностью. Вы подключаете кабель, а он автоматически запускает проникновение искусственного интеллекта. Который анализирует систему и отправляет собранную информацию на удалённый сервер с большой языковой моделью типа GPT-4. А также получает инструкции и автономно выполняет действия по взлому. Агент способен просматривать файлы, изучать сетевые соединения, похищать пароли и личные данные, одновременно распространяясь через все доступные каналы. Ужасно, что стоимость 1 такой операции составляет менее $1. А на разработку проекта потребовалась всего 1 человеко-неделя. Принципиальное отличие от традиционных методов кибератак заключается в объединении скорости автоматизированных скриптов с адаптивностью человека-хакера. Что потенциально открывает эру демократизированного взлома, доступного практически каждому. И я не понимаю, для чего они вообще это сделали!? Это настоящий демон из USB кабеля.

xAI увольняет 500 аннотаторов ради экспертной специализации Grok

Намечается стратегический поворот от xAI. Компания кардинально меняет подход к обучению своей языковой модели Grok! И команда Илона Маска уволила за 1 день целых 500 универсальных людей аннотаторов. И вместо этого в 10 раз увеличивает число специализированных AI-туторов. Этот смелый шаг знаменует важнейшее изменение в философии развития искусственного интеллекта Илона Маска. Переход от широкой, но поверхностной разметки данных по всем темам к глубокой экспертной проработке критически важных областей знаний. И кажется, Grok будет эволюционировать от универсального чат-бота к высокоточному экспертному ассистенту. И эта трансформация обещает значительный рост качества в сферах, где ошибки недопустимы. Хотя потенциально может привести к снижению компетентности в бытовых темах. Подтверждая серьезность намерений, компания Илона Маска уже опубликовала объявление о масштабном найме тысяч специалистов. Цитирую объявление полностью.

Время проверки контента Gemini сократилось с 30 до 15 минут

Тревожные сигналы из внутренней кухни Google опубликовало издание The Guardian. Оценщики контента для модели Gemini поделились с ними интересной информацией о снижении стандартов проверки. Сотрудники подрядчика GlobalLogic, ответственные за оценку качества и безопасности ответов искусственного интеллекта перед выпуском, бьют тревогу. За последние полгода время на проверку 1 ответа сократилось вдвое. С 30 до 15 минут. За этот мизерный промежуток необходимо проанализировать текст в 500 слов, проверить фактическую точность и составить подробный отчёт. Ребекка Джексон-Артис, присоединившаяся к команде осенью прошлого года, рассказала, что после минимального обучения ей поручили не только оценку, но и загрузку в систему чувствительной информации. По здравоохранению, финансам и развитию детей. Первоначальная установка на качество быстро сменилась требованием "просто выполнять план". Другой сотрудник, Рэйчел Сойер, отметила существенное смягчение критериев в этом году. Материалы, ранее считавшиеся неприемлемыми, теперь получают зелёный свет. Возможно, Google осознал, что даже 30 минут недостаточно для тщательной проверки, и вместо имитации безопасности решила сосредоточиться на улучшении алгоритмических ограничений. Но всё равно. 15 минут на анализ 500 слов — это за гранью.

Золотистый корпус и контекстное понимание в новом поколении Tesla

Tesla представила нового человекоподобного робота Optimus с интегрированным Grok от xAI. Руководитель Salesforce Марк Бениофф лично протестировал прототип, попросив принести газировку. Робот продемонстрировал осмысленное понимание контекста и способность к диалогу. Хотя и потребовалось несколько уточняющих команд. Optimus использует языковую модель Grok для естественного общения. Робот не просто выполняет команды. Он объясняет, что не располагает актуальной информацией о местонахождении газировки и предлагает проводить гостя на кухню. И это уже уровень контекстного понимания, недоступный предыдущим поколениям. Визуальные изменения тоже говорят о серьёзной эволюции. Новый золотистый корпус заменил прежние светлые тона. Кисти рук полностью переработаны. Открытые сочленения скрыты, исполнительные механизмы перенесены в предплечья, управление пальцами через кабели. Маск подчёркивает сходство с человеческой анатомией. Также Илон Маск прогнозирует, что новые роботы Optimus будут формировать 80% выручки Tesla. И это его бизнес-стратегия. Компания хочет создавать не просто робота, а универсального помощника с искусственным интеллектом. Способного понимать и выполнять сложные задачи в реальном мире.

Microsoft диверсифицирует партнёрства: Claude Sonnet 4 в Office

Microsoft принял стратегическое решение о диверсификации своих партнёрств в сфере искусственного интеллекта. Компания заключила соглашение с Anthropic, создателем модели Claude. Для внедрения её технологий в свои приложения Office. Согласно данным издания The Information, теперь искусственный интеллект от Anthropic будет работать вместе с технологиями OpenAI в таких программах как Word, Excel, Outlook и PowerPoint. По сути, это окончание эпохи эксклюзивного сотрудничества Microsoft с создателем ChatGPT в сфере офисных приложений. Важно отметить, что руководство Microsoft считает последнюю модель Anthropic Claude Sonnet 4 более эффективной в некоторых функциях. Например, в создании визуально привлекательных презентаций PowerPoint. Одновременно с этим OpenAI предпринимает шаги к независимости от Microsoft. Компания недавно запустила платформу для поиска работы, которая может конкурировать с LinkedIn. А также планирует начать массовое производство собственных AI-чипов в партнёрстве с Broadcom в следующем году. Это позволит OpenAI потенциально проводить обучение и инференс моделей на собственном оборудовании. Уменьшая зависимость от инфраструктуры Microsoft Azure.