Post Thumbnail

Qwen2.5-Omni-7B: универсальный AI от Alibaba Cloud

Alibaba Cloud объявила о запуске Qwen2.5-Omni-7B — революционной унифицированной мультимодальной модели, способной обрабатывать текст, изображения, аудио и видео в режиме реального времени. Несмотря на компактный размер в 7 миллиардов параметров, модель устанавливает новый стандарт мультимодального AI для периферийных устройств, включая смартфоны и ноутбуки.

Инновационная архитектура модели включает три ключевых компонента:
– Thinker-Talker Architecture — разделяет генерацию текста и синтез речи для минимизации интерференции между модальностями
– TMRoPE (Time-aligned Multimodal RoPE) — техника позиционного встраивания для синхронизации видео и аудио
– Block-wise Streaming Processing — обеспечивает низкую задержку при голосовом взаимодействии

Модель демонстрирует впечатляющие результаты благодаря предварительному обучению на обширном наборе данных, включающем связки изображение-текст, видео-текст, видео-аудио, аудио-текст и текстовые данные. В тестах OmniBench, оценивающих способность моделей распознавать и интерпретировать визуальные, акустические и текстовые входные данные, Qwen2.5-Omni достигает передовых показателей производительности.

Практическое применение модели охватывает широкий спектр задач:
– Помощь людям с нарушениями зрения через аудиоописание окружения в реальном времени
– Пошаговые кулинарные инструкции на основе анализа видео ингредиентов
– Интеллектуальное обслуживание клиентов с глубоким пониманием потребностей

После оптимизации с помощью обучения с подкреплением (RL) модель продемонстрировала значительные улучшения в стабильности генерации, включая сокращение ошибок выравнивания внимания, произношения и неуместных пауз при речевых ответах.

Qwen2.5-Omni-7B уже доступна в открытом доступе на платформах Hugging Face и GitHub, а также через Qwen Chat и сообщество ModelScope от Alibaba Cloud. Этот релиз продолжает традицию компании по открытию доступа к генеративным AI-моделям — за последние годы Alibaba Cloud сделала открытыми более 200 моделей.

Компактный размер модели в сочетании с мощными мультимодальными возможностями делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных AI-агентов, способных обеспечить реальную ценность в различных сценариях применения, особенно в области интеллектуальных голосовых приложений.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Как создать бесконечную вселенную одним текстовым промптом

Забудьте всё, что вы знали о создании игровых миров. Tencent только что выложила в open-source модель Hunyuan-GameCraft. Которая генерирует интерактивные виртуальные миры прямо на вашей видеокарте. Ссылка в описании. 1 текстовый промпт — и у вас бесконечная вселенная.

Как синхронизация 3 источников света защищает от подделок

Искусственный интеллект научился создавать видео подделки, которые невозможно отличить от реальности. И это огромная проблема и вопрос доверия в обществе. Но учёные из Корнелльского университета нашли гениальное решение. Они спрятали водяные знаки прямо в обычном освещении.

Хип-хоп, ушу и пекинская опера на церемонии открытия роботиады

В Китае прошли 1 Всемирные Игры Гуманоидных роботов на которых выступили 280 команд из 16 стран. Которые привезли более 500 андроидов. Получилась почти настоящая олимпиада для роботов со всеми атрибутами большого спорта.

Первая система LAARMA защищает животных на австралийских дорогах

В Австралии столкновения животных с автомобилями являются серьёзной проблемой для экосистемы этого континента. Теперь учёные нашли технологическое решение. 1 в мире придорожную систему LAARMA на базе искусственного интеллекта, которая защищает диких животных от опасных встреч с транспортом.

Nvidia представила семейство моделей Cosmos для робототехники

Компания Nvidia представила семейство моделей искусственного интеллекта Cosmos. Которые могут фундаментально изменить подход к созданию роботов и физических искусственный интеллект-агентов.