25.10.2021

Голос искусственного разума Реалистичные voice-tech сервисы для серьезных задач

Текст Павел Иевлев

Одно из самых динамично развивающихся направлений в использовании нейросетей – так называемые «голосовые движки», системы, переводящие текст в речь. Качество их работы растет так быстро, что многие предрекают полное вытеснение людей из этого сектора занятости

Для чего используются voice-tech сервисы? Для самых разных задач, начиная от автоматических колл-центров и кончая озвучкой игр. Теоретически, алгоритм должен справляться с начиткой текстов лучше человека – у него нет проблем с дыханием, у него идеальная дикция, он не шепелявит, не заикается, не проглатывает окончания, не меняет тона при усталости. В общем, не имеет всех тех проблем, с которыми сталкивается любой решивший, что «начитать текст – плевое дело».

На практике пока что не все так радужно – человеческая речь куда сложнее, чем кажется, и передает огромное количество смыслов интонацией. В большинстве случаев люди различают искусственную и естественную речь даже при использовании самых совершенных алгоритмов – за нашими плечами тысячи лет опыта вербальной коммуникации. Умение различать в интонации собеседника тонкую грань, где заканчиваются шутки и начинается мордобой – важная часть эволюционных механизмов выживания и естественного отбора. Антропоиды, не умевшие различать тончайшие оттенки интонирования соплеменника-с-дубиной, не передали свои гены дальше еще в палеолите.

Разумеется, ИИ пока сложно перепрыгнуть исторический опыт и скопировать речь абсолютно достоверно, но для множества практических задач полное совершенство и не нужно. Предлагаем посмотреть на несколько интересных сервисов, показывающих, как далеко удалось продвинуться в этом вопросе нейросетям.

1. Replica

Сервис «Replica» – один из самых интересных, потому что предназначен для озвучки видеоигр. Это именно та область, где механический «бубнеж» большинства Text-to-Speech движков не годится. В игре персонажи должны достоверно передавать голосом эмоции, иначе игроку будет некомфортно, и он не сможет полностью погрузиться в сюжет.

Как пишут создатели сервиса: «Наша модель искусственного интеллекта учится играть, копируя уникальные речевые модели, произношение и эмоциональный диапазон».

На деморолике голоса персонажей звучат совершенно по-человечески:

Однако при начитке ими произвольного текста впечатление уже не такое хорошее – видимо, для ролика все-таки выбрали наилучшие образцы. Есть провалы и неестественное интонирование, некоторая шероховатость произношения окончаний и так далее. Тем не менее, качество в целом приемлемое – в этом каждый может убедиться, используя бесплатный демо-доступ, позволяющий озвучить получасовой ролик. К сожалению, только по-английски.

Поскольку сервис создан для игроделов, в нем есть некоторые специальные фишки – его можно напрямую подключить к проекту на Unreal Engine или Unity – самых массовых геймдев-движках. Есть даже визуальный редактор персонажей, показывающий артикуляцию речи мимикой. Впрочем, разумеется, можно использовать Replica и для других задач – например, озвучки мультфильмов или создания радиоспектаклей.

Подписка на сервис стоит $24 – 4 часа записи для индивидуальных пользователей, или $300 – бизнес-аккаунт (100 часов). Это настолько дешевле услуг профессиональных озвучивателей, что многие готовы мириться с неидеальным интонированием.

2. AWS Polly

Голосовой движок от гиганта Amazon. Его преимущества – довольно приличный бесплатный функционал (5 млн (!) символов в месяц) и поддержка русского языка. Для использования нужно иметь стандартный AWS-аккаунт, дающий доступ ко множеству сервисов для разработчиков.

Основное предназначение AWS Polly – приложения с поддержкой речевых интерфейсов и озвучка сайтов. Есть два стиля повествования – Newscaster, для новостных и журналистских текстов, и Conversational – для двусторонней связи, например, колл-центров.

Увы, россиянам доступно только «стандартное озвучение», которое скорее информационное, чем интересное. Это хотя и качественная, но «бубнилка», не умеющая читать эмоционально, практически не интонирующая речь и не угадывающая расстановку ударений в сложных предложениях.

Гораздо более качественные голоса, которые были созданы с помощью нейронного преобразования текста в речь (Neural Text-to-Speech), открыты не для всех регионов, и России в списке нет. Можно послушать только примеры на английском.

Тем не менее, богатые возможности встраиваемого API и большие бесплатные объемы делают AWS Polly привлекательным сервисом для тех, кому содержательность важнее эмоций.

3. Speechki

«Спички» - российский сервис, специально «заточенный» под создание аудиокниг или подкастов. Его интерфейс приспособлен для работы с большими тестовыми файлами. Сервис платный, но есть и триальная версия, позволяющая бесплатно озвучить десять предложений – на 73 языках, включая, разумеется, русский.

Для получения сколько-нибудь качественного результата придется проделать много работы вручную, в редакторе, – например, указывая интонационные паузы и неочевидные ударения. Если не полениться, то на выходе будет довольно приличный результат, не намного уступающий аудиокнигам, озвученным дешевым посредственным «начитщиком» – это примерно 90% рынка.

Стоимость озвучки – 20 рублей за каждые 1000 знаков, то есть 800 рублей за принятую в издательствах единицу измерения «авторский лист» (40 000 знаков с пробелами). Это примерно в десять раз меньше, чем услуги озвучки профессиональным чтецом. Однако некоторая неестественность речи, которая сохраняется несмотря на все усилия ручного редактирования, может создать дискомфорт для части слушателей.

4. Sonantic

Сервис создания реплик для кино и игр. В отличие от Replica, использует как базу для работы нейросети голоса профессиональных актеров. ИИ учится не просто на записях реальных актеров, а напрямую этими актерами обучается в специальных диалогах. Это позволяет добиться не только естественного звучания и интонирования, но и передавать эмоции с вызывающей мурашки достоверностью. Сервис использует, например, такая топовая игровая компания, как Obsidian.

Индивидуальный пользователь Sonantic не интересен, он ориентирован на работу с серьезным бизнесом за большие деньги. Обладая опытом в области речи и искусственного интеллекта, а также опытом озвучки фильмов в Голливуде, компания предоставляет «гиперреалистичные, завораживающие голоса ИИ».

***

В блоге компании Sonantic тщательно подчеркивается, что ИИ никогда не заменят актеров. И вообще, разработка голосовых моделей и использование этих голосов студиями приносят пользу не только студиям, но и актерам – потому что те, мол, получают возможность расширить свой список сотрудничества.

Насколько это искренне – время покажет.

Виртуальные сущности вытесняют с рынка не только актеров закадровой озвучки, но и видных звезд эстрады и кино. Читайте статью о виртуальных инфлюенсерах на "Цифровом океане":