NVIDIA выпустила голосовую модель, которая перебивает вас как живой человек

NVIDIA открыла доступ к модели PersonaPlex, и если вы думали, что голосовые ассистенты уже достаточно реалистичны, приготовьтесь пересмотреть свои взгляды. Это голосовая модель на 7 миллиардов параметров, созданная на базе архитектуры Moshi, и её главная фишка – режим полного дуплекса. Проще говоря, ИИ может слушать и говорить одновременно с задержкой всего около 170 миллисекунд. Это значит, что вы можете перебивать нейросеть на полуслове, и она отреагирует естественно, как живой собеседник. Не как тупой бот, который ждёт конца вашей фразы, а как человек в реальном диалоге.

Технология работает через два типа входных данных. Первый – голосовой образец, который захватывает характеристики голоса, стиль речи и интонации. Второй – текстовое описание роли, контекста разговора и фоновой информации. Эти данные обрабатываются вместе, создавая цельную персону. Чтобы научиться естественным междометиям, эмоциональным реакциям и выражениям, PersonaPlex тренировалась на 7000 реальных разговорах общей длительностью 1217 часов. По сути, нейросеть изучала живые диалоги и впитала их динамику.

Модель звучит очень человечно. И кажется нас ждёт новое поколение ассистентов, с которыми можно вести абсолютно естественную беседу. Где паузы, перебивания и эмоциональные реакции работают как у живого собеседника. И не каждый сможет отличить, разговаривает с человеком или с нейросетью по телефону.