Qwen2.5-Omni-7B: универсальный AI от Alibaba Cloud

Post Thumbnail

Alibaba Cloud объявила о запуске Qwen2.5-Omni-7B — революционной унифицированной мультимодальной модели, способной обрабатывать текст, изображения, аудио и видео в режиме реального времени. Несмотря на компактный размер в 7 миллиардов параметров, модель устанавливает новый стандарт мультимодального AI для периферийных устройств, включая смартфоны и ноутбуки.

Инновационная архитектура модели включает три ключевых компонента:
— Thinker-Talker Architecture — разделяет генерацию текста и синтез речи для минимизации интерференции между модальностями
— TMRoPE (Time-aligned Multimodal RoPE) — техника позиционного встраивания для синхронизации видео и аудио
— Block-wise Streaming Processing — обеспечивает низкую задержку при голосовом взаимодействии

Модель демонстрирует впечатляющие результаты благодаря предварительному обучению на обширном наборе данных, включающем связки изображение-текст, видео-текст, видео-аудио, аудио-текст и текстовые данные. В тестах OmniBench, оценивающих способность моделей распознавать и интерпретировать визуальные, акустические и текстовые входные данные, Qwen2.5-Omni достигает передовых показателей производительности.

Практическое применение модели охватывает широкий спектр задач:
— Помощь людям с нарушениями зрения через аудиоописание окружения в реальном времени
— Пошаговые кулинарные инструкции на основе анализа видео ингредиентов
— Интеллектуальное обслуживание клиентов с глубоким пониманием потребностей

После оптимизации с помощью обучения с подкреплением (RL) модель продемонстрировала значительные улучшения в стабильности генерации, включая сокращение ошибок выравнивания внимания, произношения и неуместных пауз при речевых ответах.

Qwen2.5-Omni-7B уже доступна в открытом доступе на платформах Hugging Face и GitHub, а также через Qwen Chat и сообщество ModelScope от Alibaba Cloud. Этот релиз продолжает традицию компании по открытию доступа к генеративным AI-моделям — за последние годы Alibaba Cloud сделала открытыми более 200 моделей.

Компактный размер модели в сочетании с мощными мультимодальными возможностями делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных AI-агентов, способных обеспечить реальную ценность в различных сценариях применения, особенно в области интеллектуальных голосовых приложений.

Почитать из последнего
Из-за ИИ клавиатуры исчезнут из офисов
Лондонская школа экономики совместно с Jabra выдала любопытный прогноз. К 28-му году голосовой ИИ станет стандартом в офисах. А поколение Альфа — рождённые после 2010 года — возможно, никогда не узнает, каково это писать email руками. Но пока мне не верится, что клавиатуры действительно исчезнут.
ChatGPT обогнал TikTok и Disney
ChatGPT заработал 3 миллиарда долларов на мобильных подписках. Цифра впечатляет, но ещё интереснее скорость, с которой её достигли.
Собаки-поводыри скоро станут робо-псами с ИИ
Инженеры из США и Южной Кореи превратили робо-пса Unitree Go2 в собаку-поводыря. Модель ИИ GuideNav использует одну обычную камеру вместо дорогих датчиков LiDAR. И это работает.
Американцы заваливают китайский ИИ деньгами
Американские инвесторы завалили китайских разработчиков ИИ деньгами. Несмотря на геополитическое противостояние. Получается, прибыль побеждает политику.
OpenAI и Anthropic внедряют распознавание детей
Компании OpenAI и Anthropic внедряют технологии распознавания несовершеннолетних пользователей чат-ботов. OpenAI обновила правила взаимодействия ChatGPT с пользователями от 13 до 17 лет. Anthropic работает над системой идентификации и блокировки пользователей младше 18.