Post Thumbnail

Qwen2.5-Omni-7B: универсальный AI от Alibaba Cloud

Alibaba Cloud объявила о запуске Qwen2.5-Omni-7B — революционной унифицированной мультимодальной модели, способной обрабатывать текст, изображения, аудио и видео в режиме реального времени. Несмотря на компактный размер в 7 миллиардов параметров, модель устанавливает новый стандарт мультимодального AI для периферийных устройств, включая смартфоны и ноутбуки.

Инновационная архитектура модели включает три ключевых компонента:
– Thinker-Talker Architecture — разделяет генерацию текста и синтез речи для минимизации интерференции между модальностями
– TMRoPE (Time-aligned Multimodal RoPE) — техника позиционного встраивания для синхронизации видео и аудио
– Block-wise Streaming Processing — обеспечивает низкую задержку при голосовом взаимодействии

Модель демонстрирует впечатляющие результаты благодаря предварительному обучению на обширном наборе данных, включающем связки изображение-текст, видео-текст, видео-аудио, аудио-текст и текстовые данные. В тестах OmniBench, оценивающих способность моделей распознавать и интерпретировать визуальные, акустические и текстовые входные данные, Qwen2.5-Omni достигает передовых показателей производительности.

Практическое применение модели охватывает широкий спектр задач:
– Помощь людям с нарушениями зрения через аудиоописание окружения в реальном времени
– Пошаговые кулинарные инструкции на основе анализа видео ингредиентов
– Интеллектуальное обслуживание клиентов с глубоким пониманием потребностей

После оптимизации с помощью обучения с подкреплением (RL) модель продемонстрировала значительные улучшения в стабильности генерации, включая сокращение ошибок выравнивания внимания, произношения и неуместных пауз при речевых ответах.

Qwen2.5-Omni-7B уже доступна в открытом доступе на платформах Hugging Face и GitHub, а также через Qwen Chat и сообщество ModelScope от Alibaba Cloud. Этот релиз продолжает традицию компании по открытию доступа к генеративным AI-моделям — за последние годы Alibaba Cloud сделала открытыми более 200 моделей.

Компактный размер модели в сочетании с мощными мультимодальными возможностями делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных AI-агентов, способных обеспечить реальную ценность в различных сценариях применения, особенно в области интеллектуальных голосовых приложений.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Новое партнёрство Anthropic и Canva: дизайн без дизайнера

Компания Anthropic представила обновление для своего помощника Claude. Который теперь умеет создавать и редактировать проекты прямо в популярной платформе Canva.

Hertz внедрила ИИ для поиска царапин на арендованных автомобилях

Искусственный интеллект теперь фиксирует каждую царапину на арендованных в автопрокате машинах! Компания Hertz внедрила инновационную систему сканирования, разработанную UVeye, которая уже работает в 6 пунктах аэропортов США.

Как Meta борется за таланты в сфере искусственного интеллекта

Марк Цукерберг попытался опровергнуть распространённое мнение о том, что исследователи массово переходят в его новое подразделение Superintelligence Labs исключительно из-за высоких зарплат. Он считает, что медиа упускают главное в этой истории.

Как старая консоль Atari заставила современный ИИ сдаться без боя

Супермощная Google Gemini отказалась играть в шахматы с консолью Atari 1977 года выпуска. Испугавшись поражения от устаревшей техники.

Зарплата до $170 тыс.: что предлагает SpaceX разработчикам ИИ

SpaceX делает неожиданный поворот в своей технологической стратегии. Компания Илона Маска открыла вакансии для инженеров-программистов в сфере искусственного интеллекта. Формируя команду, которая займётся решением сложнейших задач обработки данных для ракет-носителей и космических аппаратов.