Post Thumbnail

Революция в создании контента: Veo 3 генерирует диалоги и звуковые эффекты

Google представил Veo 3 — новейшую модель генерации видео, которую заслуженно можно назвать настоящим прорывом в этой области. Главная особенность этой технологии — полноценная поддержка звука. Если раньше генеративные видео были преимущественно немыми или требовали отдельной обработки аудио, то теперь система создаёт видео со звуковыми эффектами, фоновыми шумами и даже полноценными диалогами между персонажами.

Пользователи могут давать Veo 3 запрос с описанием персонажей и окружения, а также предлагать диалоги с указанием, как именно они должны звучать. Как отметил во время пресс-брифинга Демис Хассабис, генеральный директор Google DeepMind, цитирую — «Впервые мы выходим из немой эры видеогенерации».

Я в приятном шоке! Уникальность Veo 3 заключается в его способности понимать исходные пиксели из сгенерированных видео и автоматически синхронизировать с ними созданные звуки. Хотя инструменты для генерации звука на основе искусственного интеллекта не новы, именно такая интеграция видео и аудио выделяет разработку Google среди конкурентов.

На рынке уже существует множество инструментов для генерации видео от таких компаний как Runway, Lightricks, Genmo, Pika, Higgsfield, Kling, Luma, а также OpenAI и Alibaba. Однако возможность автоматической генерации синхронизированного звука даёт Veo 3 серьёзное конкурентное преимущество.

Новая технология будет доступна пользователям через приложение Gemini, предположительно по подписке.

Кажется, что Veo 3 — это полноценный переход от разрозненного подхода к генерации медиаконтента, где видео и аудио создавались отдельно, к интегрированной модели создания полноценного аудиовизуального контента с синхронизированными звуками, диалогами и изображением. Что радикально упрощает рабочий процесс создания видео. Браво.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Китайский робот-сфера RT-G весом 150 кг развивает скорость до 35 км/ч

В Китае есть такое уникальное инженерное чудо — сферический робот Rotunbot RT-G. Который может кардинально поменять представление о полицейских технологиях будущего.

22% британских детей 8-12 лет используют ИИ, не зная что это такое

22% британских школьников от 8 до 12 лет уже активно используют инструменты искусственного интеллекта. Несмотря на то, что большинство из них даже не слышали термин "генеративный искусственный интеллект". Это данные исследования Института Алана Тьюринга и Lego Foundation.

Первая реклама на Google Veo 3 показана миллионам во время финала NBA

Миллионы зрителей финальной серии NBA стали свидетелями абсолютно нового этапа в креативной эволюции. Полностью сгенерированной компьютерными алгоритмами рекламы букмекерской платформы Kalshi, созданной с помощью Google Veo 3.

Китайская платформа QiMeng создает процессоры уровня Intel 486 и Arm

Китайские ученые разработали новый искусственный интеллект-платформу, способную самостоятельно проектировать процессоры на уровне человеческих экспертов. Исследователи из Государственной лаборатории по разработке процессоров и Исследовательского центра интеллектуального программного обеспечения представили проект с открытым исходным кодом под названием QiMeng.

Meta AI превращает личные чаты с ИИ в публичные посты без ведома

Приложение Meta AI оказалось настоящей катастрофой для конфиденциальности пользователей. Превращая их личные разговоры с искусственным интеллектом в публичный контент. Представьте себе современный фильм ужасов: вся ваша история запросов оказалась общедоступной, а вы даже не подозревали об этом.