Qwen2.5-Omni-7B: универсальный AI от Alibaba Cloud

Post Thumbnail

Alibaba Cloud объявила о запуске Qwen2.5-Omni-7B — революционной унифицированной мультимодальной модели, способной обрабатывать текст, изображения, аудио и видео в режиме реального времени. Несмотря на компактный размер в 7 миллиардов параметров, модель устанавливает новый стандарт мультимодального AI для периферийных устройств, включая смартфоны и ноутбуки.

Инновационная архитектура модели включает три ключевых компонента:
— Thinker-Talker Architecture — разделяет генерацию текста и синтез речи для минимизации интерференции между модальностями
— TMRoPE (Time-aligned Multimodal RoPE) — техника позиционного встраивания для синхронизации видео и аудио
— Block-wise Streaming Processing — обеспечивает низкую задержку при голосовом взаимодействии

Модель демонстрирует впечатляющие результаты благодаря предварительному обучению на обширном наборе данных, включающем связки изображение-текст, видео-текст, видео-аудио, аудио-текст и текстовые данные. В тестах OmniBench, оценивающих способность моделей распознавать и интерпретировать визуальные, акустические и текстовые входные данные, Qwen2.5-Omni достигает передовых показателей производительности.

Практическое применение модели охватывает широкий спектр задач:
— Помощь людям с нарушениями зрения через аудиоописание окружения в реальном времени
— Пошаговые кулинарные инструкции на основе анализа видео ингредиентов
— Интеллектуальное обслуживание клиентов с глубоким пониманием потребностей

После оптимизации с помощью обучения с подкреплением (RL) модель продемонстрировала значительные улучшения в стабильности генерации, включая сокращение ошибок выравнивания внимания, произношения и неуместных пауз при речевых ответах.

Qwen2.5-Omni-7B уже доступна в открытом доступе на платформах Hugging Face и GitHub, а также через Qwen Chat и сообщество ModelScope от Alibaba Cloud. Этот релиз продолжает традицию компании по открытию доступа к генеративным AI-моделям — за последние годы Alibaba Cloud сделала открытыми более 200 моделей.

Компактный размер модели в сочетании с мощными мультимодальными возможностями делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных AI-агентов, способных обеспечить реальную ценность в различных сценариях применения, особенно в области интеллектуальных голосовых приложений.

Почитать из последнего
Вайб-кодинг убивает Open Source - и это проблема для всех
Исследователи из Центрально-Европейского университета в Вене обнаружили жёсткую закономерность. Вайб-кодеры только потребляют ресурсы, но ничего не отдают обратно. Откуда нейросеть может взять знания? А берет она их из Open Source. Из тех самых бесплатных библиотек и фреймворков, которые энтузиасты создавали 10летиями.
Как уболтали ИИ-бота на скидку 80%
Владелец небольшого бизнеса в Англии поставил на сайт чат-бота на ИИ, чтобы он отвечал на вопросы клиентов по ночам. Полгода всё работало идеально — бот консультировал и помогал оформлять заказы, даже продажи росли. А потом нашёлся 1 хитрец, который за час беседы выманил у искусственного интеллекта скидку 80% на заказ в £8000.
Как DeepSeek обманул Anthropic и что из этого вышло
Представьте: вы годами строите уникальную технологию, вкладываете миллиарды, а кто-то просто скачивает её через прокси. Именно это произошло с Anthropic. Компания раскрыла промышленный шпионаж 3 китайских лабораторий. DeepSeek, Moonshot и MiniMax.
Учёные сломали защиту ИИ обычным вопросом
Исследователи из Microsoft наткнулись на дыру размером с ворота. Оказалось, что всю защиту ИИ можно обойти на этапе обучения 1 безобидным запросом. И дальше модель превращается в послушную машину по производству любой гадости.
США обвинили Nvidia в помощи китайским военным через DeepSeek
Глава комитета Конгресса по Китаю Джон Муленаар направил письмо министру торговли Говарду Латнику с серьёзными обвинениями. По его словам, документы Nvidia свидетельствуют, что инженеры компании помогали китайскому стартапу DeepSeek оптимизировать обучение их моделей. Теперь эти модели развёрнуты в подразделениях планирования мобилизации Народно-освободительной армии Китая.