Post Thumbnail

Qwen2.5-Omni-7B: универсальный AI от Alibaba Cloud

Alibaba Cloud объявила о запуске Qwen2.5-Omni-7B — революционной унифицированной мультимодальной модели, способной обрабатывать текст, изображения, аудио и видео в режиме реального времени. Несмотря на компактный размер в 7 миллиардов параметров, модель устанавливает новый стандарт мультимодального AI для периферийных устройств, включая смартфоны и ноутбуки.

Инновационная архитектура модели включает три ключевых компонента:
— Thinker-Talker Architecture — разделяет генерацию текста и синтез речи для минимизации интерференции между модальностями
— TMRoPE (Time-aligned Multimodal RoPE) — техника позиционного встраивания для синхронизации видео и аудио
— Block-wise Streaming Processing — обеспечивает низкую задержку при голосовом взаимодействии

Модель демонстрирует впечатляющие результаты благодаря предварительному обучению на обширном наборе данных, включающем связки изображение-текст, видео-текст, видео-аудио, аудио-текст и текстовые данные. В тестах OmniBench, оценивающих способность моделей распознавать и интерпретировать визуальные, акустические и текстовые входные данные, Qwen2.5-Omni достигает передовых показателей производительности.

Практическое применение модели охватывает широкий спектр задач:
— Помощь людям с нарушениями зрения через аудиоописание окружения в реальном времени
— Пошаговые кулинарные инструкции на основе анализа видео ингредиентов
— Интеллектуальное обслуживание клиентов с глубоким пониманием потребностей

После оптимизации с помощью обучения с подкреплением (RL) модель продемонстрировала значительные улучшения в стабильности генерации, включая сокращение ошибок выравнивания внимания, произношения и неуместных пауз при речевых ответах.

Qwen2.5-Omni-7B уже доступна в открытом доступе на платформах Hugging Face и GitHub, а также через Qwen Chat и сообщество ModelScope от Alibaba Cloud. Этот релиз продолжает традицию компании по открытию доступа к генеративным AI-моделям — за последние годы Alibaba Cloud сделала открытыми более 200 моделей.

Компактный размер модели в сочетании с мощными мультимодальными возможностями делает Qwen2.5-Omni-7B идеальной основой для разработки гибких и экономически эффективных AI-агентов, способных обеспечить реальную ценность в различных сценариях применения, особенно в области интеллектуальных голосовых приложений.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

NVIDIA не могла продать ИИ-чипы, пока не появился OpenAI

Глава NVIDIA Дженсен Хуанг поделился интересной историей, которая сегодня выглядит как судьбоносный момент в развитии современных технологий.

Pudu Robotics выпустила CC1 Pro — робот убирает 8000 м² за цикл

Компания Pudu Robotics представила новое поколение автономных уборочных систем — CC1 Pro. Который поднимает стандарты чистоты в крупных коммерческих объектах на принципиально новый уровень.

Boston Dynamics выпустила Orbit 5.0 — ИИ сократил проверки на 70%

Вышло крутое обновление Orbit 5.0 для платформы управления роботами Spot от Boston Dynamics. Которое кардинально меняет подход к промышленной аналитике и мониторингу! Система теперь позволяет централизованно контролировать целые парки роботов на множестве объектов, предоставляя операторам детальную аналитику в реальном времени.

Абу-Даби потратит $2.5 млрд на город с ИИ-управлением к 2027 году

Представьте город, где искусственный интеллект заботится о каждом аспекте вашей жизни. Это не фантастика, а ближайшее будущее Абу-Даби! Компании BOLD Technologies и My Aion разрабатывают единую платформу Aion Sentia. Которая возьмёт под контроль все городские системы — от транспорта до здравоохранения и образования.

4 китайских инженера провезли 80 ТБ данных ИИ в рюкзаках в Малайзию

Невероятная технологическая одиссея разворачивается прямо сейчас! Китайские инженеры нашли поразительно аналоговый способ обойти цифровые ограничения. Представьте: 4 сотрудника китайского искусственного интеллект-стартапа летят из Пекина в Куала-Лумпур. И каждый несёт в рюкзаке по 15 жёстких дисков! В общей сложности — 80 терабайт данных для обучения нейросетей.