ИИ в звукозаписи: как нейросети повлияли на рынок озвучки

Люди
основатель компании звукозаписи «Рексквер» Александр Татаринцев

Фото - © основатель компании звукозаписи «Рексквер» Александр Татаринцев

О том, как сейчас устроена индустрия современного звука и как в создании голосов участвуют ИИ и нейросети, РИАМО рассказал основатель компании звукозаписи «Рексквер» Александр Татаринцев.

Студия звукозаписи «Рексквер» – компания, основанная в 2008 году официальным голосом радио «Юмор ФМ» Александром Татаринцевым – занимается озвучкой кино, документальных и образовательных проектов, аудиогидов, IT-продуктов, аудиокниг и рекламы. Основные клиенты: государственный сектор, финтех, недвижимость, айти, рекламные агентства и видеопродакшены.

– Александр, что нового в озвучивании появилось в последние пару-тройку лет? Какие возникли новые направления, которых не было раньше?

– Безусловно, трендом последних лет стало обучение нейросетей озвучке и созданию голосовых моделей. Что это такое? Допустим, какой-то крупной компании потребовалось расширить свой бизнес, внедрив виртуальных ассистентов. Такие помощники консультируют клиентов по телефонной связи, а также в приложениях. По сути, с клиентом говорит робот. Голос этого робота и есть наш продукт. Мы подбираем голос, проводим кастинг людей, на основе голоса которого программисты будут обучать нейросеть и делать голосовую модель. В кастинге мы учитываем множество нюансов: пол, возраст, персональные голосовые характеристики, артистизм, владение речью, скорость работы, особенности произношения отдельных букв и слов и т.д.

– Как потом создается виртуальный ассистент?

– После того, как клиент выбрал подходящий голос, мы приступаем к записи дата-сетов. Обычно они состоят из нескольких тысяч (и даже десятков тысяч) слов, на основе в дальнейшем и будет обучаться речевая модель. В паре с нами работают лингвисты и программисты. Так рождается «голос компании». Или сервиса. В последние 3-4 года индустрия звукозаписи здорово переползла из своей индустрии в IT. «Рексквер» стали одними из первых, кто зашел в айти со своими продуктами.

– Нейросети вытеснят «живые» голоса из всех сфер?

– В озвучке нейросетями есть как плюсы, так и минусы. Из плюсов: скорость и дешевизна процесса. Из минусов: качество такой озвучки по-прежнему оставляет желать лучшего, прежде всего в нюансах артистизма и точности интонаций. Особенно если сервис предоставляют новички рынка, которые не могут дать высокий уровень голосовых моделей. Обучение одной голосовой модели – недешевое удовольствие со множеством нюансов. Женский голос – одна модель, мужской – другая, детский – третья, голос, владеющий иностранными языками – четвертая (причем, каждый язык, каждый диалект, каждый тембр и возраст голоса – отдельная модель).

Важно понимать, что те, кто выполняет свою работу у микрофона профессионально, ничего не теряют. Известные артисты озвучки сейчас нарасхват. А цены на услуги таких артистов растут. Люди понимают, что они востребованы и конкурируют с ИИ. Соответственно, живой, привычный нам голос становится дорогостоящим продуктом! Посмотрите, сколько открыто онлайн-школ, обучающих озвучке. Если есть спрос, значит есть и предложение! 

– В чем основная разница между озвучиванием, скажем, двадцатилетней давности и современным? Что изменилось?

– Студии «Рексквер» уже официально 17 лет. До того, как я все оформил юридически, я 3–4 года занимался бизнесом в формате «хочу все знать». Так что про два десятилетия – в точку. Изменилось все! Изменился весь мир. Он стал более технологичным. Изменилось профессиональное оборудование. Если раньше звук надо было крутить, рулить, то сейчас достаточно нажать нужную кнопку. Причем, кнопку виртуальную, не физическую.

Изменился софт. Например, звуковые редакторы (программы, используемые в записи и монтаже звука). От программ, устанавливаемых с диска, мы пришли к аккаунтам с логинами, паролями и ключами. Это позволяет входить в интерфейс программы из любой точки мира.

Если раньше айти-индустрия была параллельной нашей, то сейчас звук – часть айти. Все данные в облаках, все виртуально, для всего нужен интернет (это, кстати, минус). Изменилась скорость производства звуковых продуктов. Она выросла в десятки и сотни раз. Появилась глобальная конкуренция у отдельных участников рынка. Например, у артистов озвучки. Сейчас конкурент всякий, у кого дома есть микрофон.

– Качество звукового контента от этого улучшилось?

– Благодаря доступности информации и инструментов для создания звука развивается тренд перепроизводства медиапродуктов. Курсы, запуски, блоги, информационные и социально-политические повестки, онлайн-продукты и хайп-индустрия требуют сиюминутного маркетинга, озвучки, видеороликов, составной частью которого является тот же звук.

За счет этого снижается общая планка качества. Появилось много дилетантства, которое негативно влияет на устоявшиеся процессы профессиональной индустрии озвучивания. Скорость стала решающим фактором в принятии решения о сотрудничестве.

Вспомните какие раньше были аудиоспектакли, аудиокниги? Какая была озвучка иностранных фильмов? Какие артисты были заняты на этих проектах? Сейчас непрофессиональные игроки работают по принципу: «кто быстрее, того и проект». А быстрота – это неизбежное падение качества продукта, это всегда компромисс. Замечу, что я не про то, что «небо раньше было голубее, а трава зеленее». Я не ворчун, а прежде всего тот человек и семьянин, кто и сам является потребителем медиапродуктов. И сначала мои дети смотрят советское, качественное, глубокое. А потом уже все остальное.

– Что сложнее всего в озвучивании/сведении звука?

– Сложнее всего выбрать «тот самый голос». Это основа всего. Артистов много. Но билет выпадает одному. И задача наших продюсеров – сделать так, чтобы выбор этот порадовал клиента, аудиторию проекта и самого артиста или актрису.

– На Мосфильме работает студия шумового озвучивания, где воспроизводят различные нестандартные звуки с помощью подручных средств. А современные технологии позволяют на любой самый необычный запрос сгенерировать звук?

– Этот процесс называется «фоли» – создание шумов для оригинальных сцен в кадре. Некоторые компании и сейчас делают подобные звуки сами, но в основном все ушло в сервисы: такие звуки не проблема найти в специальных стоках. Это фонотеки, в которых собраны сотни тысяч разнообразных звуков – от стрекота кузнечика до воя волка, от звука упавшей болванки на заводе до гудка лайнера в океане. Все удобно структурировано и записано в очень высоком качестве, пригодном для использования, например, в кино. «Рексквер», например, имеет свой музыкальный сток. Там нет эффектов, но приобрести лицензионную музыку для своего проекта за приемлемые деньги можно буквально в один клик. Музыка уже написана, пользователю надо лишь выбрать ее по жанру, настроению или музыкальному инструменту.