Post Thumbnail

Qwen2.5-Omni-7B: универсальный AI от Alibaba Cloud

Alibaba Cloud объявила о запуске Qwen2.5-Omni-7B — революционной унифицированной мультимодальной модели, способной обрабатывать текст, изображения, аудио и видео в режиме реального времени. Несмотря на компактный размер в 7 миллиардов параметров, модель устанавливает новый стандарт мультимодального AI для периферийных устройств, включая смартфоны и ноутбуки.

Инновационная архитектура модели включает три ключевых компонента:
– Thinker-Talker Architecture — разделяет генерацию текста и синтез речи для минимизации интерференции между модальностями
– TMRoPE (Time-aligned Multimodal RoPE) — техника позиционного встраивания для синхронизации видео и аудио
– Block-wise Streaming Processing — обеспечивает низкую задержку при голосовом взаимодействии

Модель демонстрирует впечатляющие результаты благодаря предварительному обучению на обширном наборе данных, включающем связки изображение-текст, видео-текст, видео-аудио, аудио-текст и текстовые данные. В тестах OmniBench, оценивающих способность моделей распознавать и интерпретировать визуальные, акустические и текстовые входные данные, Qwen2.5-Omni достигает передовых показателей производительности.

Практическое применение модели охватывает широкий спектр задач:
– Помощь людям с нарушениями зрения через аудиоописание окружения в реальном времени
– Пошаговые кулинарные инструкции на основе анализа видео ингредиентов
– Интеллектуальное обслуживание клиентов с глубоким пониманием потребностей

После оптимизации с помощью обучения с подкреплением (RL) модель продемонстрировала значительные улучшения в стабильности генерации, включая сокращение ошибок выравнивания внимания, произношения и неуместных пауз при речевых ответах.

Qwen2.5-Omni-7B уже доступна в открытом доступе на платформах Hugging Face и GitHub, а также через Qwen Chat и сообщество ModelScope от Alibaba Cloud. Этот релиз продолжает традицию компании по открытию доступа к генеративным AI-моделям — за последние годы Alibaba Cloud сделала открытыми более 200 моделей.

Компактный размер модели в сочетании с мощными мультимодальными возможностями делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных AI-агентов, способных обеспечить реальную ценность в различных сценариях применения, особенно в области интеллектуальных голосовых приложений.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Сэм Альтман обещает вернуть человечность в ChatGPT

Глава OpenAI Сэм Альтман сделал заявление после того, как прошли многочисленные оффлайн и онлайн протесты против отключения модели GPT-4о. А потом включение, но с диким маршрутизатором. Я рассказывал про это на прошлой неделе максимально подробно. Прямая цитата главы OpenAI.

ИИ оживает: почему сооснователь Anthropic боится своего творения

Сооснователь Anthropic Джек Кларк опубликовал эссе, от которого становится не по себе. Он написал про природу современного искусственного интеллекта, и его выводы звучат как предупреждение.

Скандал на форуме Cursor: агентный ИИ — это маркетинг, а не магия

На форуме Cursor разгорелся настоящий скандал. Пользователи массово жалуются: весь этот хайп вокруг агентного искусственного интеллекта — чистый маркетинг. А не магия, которую нам обещали.

Google похоронила идею всемогущего ИИ-доктора

Компания Google выпустила отчёт про Health AI Agents на 150 страниц. Это 7 тыс аннотаций, более 1100 часов работы экспертов. Ссылка в описании. Цифры впечатляющие, да. Но суть не в метриках. Суть в том, что они похоронили саму идею всемогущего доктора на искусственном интеллекте. И это, пожалуй, самое честное, что произошло в этой индустрии за последнее время.

Подростки в TikTok пугают родителей фейковыми бродягами из ИИ

Знаете, что сейчас считается весёлым розыгрышем у подростков? Отправить родителям фото бездомного бродяги в их собственной гостиной. Искусственный интеллект нарисует, TikTok одобрит, а родители пусть истерику бьют. Вот такая забава пошла гулять по соцсетям.