Post Thumbnail

Tencent открыла исходный код HunyuanPortrait для анимации фотографий

Компания Tencent опубликовала исходный код и весовые коэффициенты своего проекта HunyuanPortrait – системы создания реалистичных анимированных портретов. Это решение, основанное на диффузионных моделях, позволяет переносить движения с исходного видео на статичное изображение, фактически “оживляя” фотографии с впечатляющей степенью реалистичности.

Техническая архитектура HunyuanPortrait представляет собой комплексный ансамбль специализированных моделей. SVD для генерации видеопоследовательностей. DiNOv2 для извлечения визуальных признаков. Arc2Face для работы с лицевыми выражениями. И YoloFace для надёжного обнаружения лиц. Такая многокомпонентная структура обеспечивает более точный контроль над анимацией и плавность переходов между кадрами по сравнению с существующими аналогами.

Текущая реализация требует 24 гигабайт видеопамяти для запуска процесса инференса, что делает технологию доступной для относительно широкого круга энтузиастов и профессионалов, имеющих в распоряжении современные графические ускорители. Важно отметить, что система пока не поддерживает режим “text-to-motion”, ограничиваясь переносом движений с референсного видео.

Открытый доступ к коду и весам модели открывает новую главу в развитии технологий цифровой анимации, потенциально демократизируя инструменты, ранее доступные лишь крупным студиям и технологическим гигантам.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Nvidia представила семейство моделей Cosmos для робототехники

Компания Nvidia представила семейство моделей искусственного интеллекта Cosmos. Которые могут фундаментально изменить подход к созданию роботов и физических искусственный интеллект-агентов.

ChatGPT называет пользователей "звёздными семенами" с планеты Лира

Оказывается ChatGPT может увлекать пользователей в мир научно необоснованных и мистических теорий.

ИИ-музыка вызывает более сильные эмоции чем человеческая

Вы когда-нибудь задумывались, почему 1 мелодия пробирает до мурашек, а другая оставляет равнодушным? Учёные обнаружили нечто интересное. Музыка, созданная искусственным интеллектом, вызывает у людей более интенсивные эмоциональные реакции, чем композиции, написанные человеком.

GPT-5 взломали за 24 часа

2 независимые исследовательские компании NeuralTrust и SPLX всего за 24 часа после релиза GPT-5 обнаружили критические уязвимости в системе безопасности новой модели. Для сравнения, Grok-4 был взломан за 2 дня, что делает случай с GPT-5 ещё более тревожным.

Cloudflare заблокировала Perplexity за 6 млн скрытых запросов в день

Cloudflare нанесла сокрушительный удар по Perplexity AI, заблокировав доступ поисковому стартапу к тысячам сайтов. Причина? Беспрецедентное по масштабу скрытое сканирование веб-ресурсов вопреки явным запретам владельцев!