Qwen2.5-Omni-7B: универсальный AI от Alibaba Cloud

Post Thumbnail

Alibaba Cloud объявила о запуске Qwen2.5-Omni-7B — революционной унифицированной мультимодальной модели, способной обрабатывать текст, изображения, аудио и видео в режиме реального времени. Несмотря на компактный размер в 7 миллиардов параметров, модель устанавливает новый стандарт мультимодального AI для периферийных устройств, включая смартфоны и ноутбуки.

Инновационная архитектура модели включает три ключевых компонента:
— Thinker-Talker Architecture — разделяет генерацию текста и синтез речи для минимизации интерференции между модальностями
— TMRoPE (Time-aligned Multimodal RoPE) — техника позиционного встраивания для синхронизации видео и аудио
— Block-wise Streaming Processing — обеспечивает низкую задержку при голосовом взаимодействии

Модель демонстрирует впечатляющие результаты благодаря предварительному обучению на обширном наборе данных, включающем связки изображение-текст, видео-текст, видео-аудио, аудио-текст и текстовые данные. В тестах OmniBench, оценивающих способность моделей распознавать и интерпретировать визуальные, акустические и текстовые входные данные, Qwen2.5-Omni достигает передовых показателей производительности.

Практическое применение модели охватывает широкий спектр задач:
— Помощь людям с нарушениями зрения через аудиоописание окружения в реальном времени
— Пошаговые кулинарные инструкции на основе анализа видео ингредиентов
— Интеллектуальное обслуживание клиентов с глубоким пониманием потребностей

После оптимизации с помощью обучения с подкреплением (RL) модель продемонстрировала значительные улучшения в стабильности генерации, включая сокращение ошибок выравнивания внимания, произношения и неуместных пауз при речевых ответах.

Qwen2.5-Omni-7B уже доступна в открытом доступе на платформах Hugging Face и GitHub, а также через Qwen Chat и сообщество ModelScope от Alibaba Cloud. Этот релиз продолжает традицию компании по открытию доступа к генеративным AI-моделям — за последние годы Alibaba Cloud сделала открытыми более 200 моделей.

Компактный размер модели в сочетании с мощными мультимодальными возможностями делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных AI-агентов, способных обеспечить реальную ценность в различных сценариях применения, особенно в области интеллектуальных голосовых приложений.

Почитать из последнего
Более 30 000 врачей и юристов обучают нейросети делать их работу
Представьте картину: журналист с 20-летним стажем, которого выкинули в прошлом году, сидит и правит статьи, которые создал ИИ. 20-30 часов в неделю. За деньги. Чтобы машина научилась писать ещё лучше. Абсурд? Добро пожаловать в новую реальность белых воротничков.
Из-за ИИ теоретическая физика исчезнет через 10 лет
Физик-теоретик и популяризатор науки Сабина Хоссенфельдер, выдала интересный прогноз. Она считает, что через 3 года научные исследования в привычном виде перестанут существовать. А через 10 лет теоретическая физика как область человеческой деятельности может практически закончиться. Для решения задач будет достаточно просто купить вычислительное время нейросети. Звучит как антиутопия? Только вот процесс уже пошёл.
Nvidia и Siemens превратят завод в гигантского робота с ИИ
Глава Nvidia Дженсен Хуанг на выставке CES выдал очень интересную фразу, цитирую: "Эти производственные предприятия, по сути, станут гигантскими роботами". Так Nvidia и Siemens анонсировали создание Industrial AI Operating System. Платформы, которая внедрит ИИ во всю цепочку промышленного производства. От проектирования до логистики. Завод будущего не просто автоматизирован — он думает сам.
Крёстный отец SaaS уволил продажников и заменил их ИИ за полгода
Джейсон Лемкин, которого называют крёстным отцом SaaS и основателем сообщества SaaStr, публично заявил что больше не будет нанимать людей в отдел продаж своей компании. Вместо живых менеджеров теперь работают агенты на основе ИИ. По его словам, переход занял меньше года.
Создатель Signal запустил ИИ-ассистента с полной анонимностью
Создатель мессенджера Signal Мокси Марлинспайк, решил сделать с чат-ботами то же что сделал с мессенджерами. Добавить слой анонимности который не пробьёшь. Его новый проект Confer с открытым исходным кодом гарантирует что данные пользователей будут недоступны вообще никому. Ни оператору платформы, ни хакерам, ни правоохранителям, ни любой другой стороне кроме самих владельцев.