Примеры и особенности синтеза текста
Всё начиналось как в анекдоте. Собрались как – то…
Отмотаем назад. Всегда симпатично пообщаться с писателем – женщиной, которая смирилась с тем, что её литературные труды никогда не попадут на полки книжных магазинов.
И в тоже время приходиться общаться ни о чём с тем, кто твёрд в убеждении получать хотя бы мизерную прибыль от некоммерческого и по тематике неуникального сайта, строящегося на энтузиазме одного человека.
Такие смешанные чувства и разнородные мнения соседствовали, когда Ж и М собрались вокруг меня одновременно.
У писательницы в планах создание аудио – книги.
Наш герой №2 запланировал себя на создание сайта о международном кино и его новинках, и несомненно музыки. Пустяковые темы. Что два пальца об интерфейс. Согласны? Но это не всё.
У мечтателей возникла загвоздка. Оба желаемых варианта упёрлись в действительное отсутствие денежных средств на оплату услуг озвучивания текстов. В общении с ними меня переполняли и язвительность, и отчаяние. С какой горы это ментальное суждение до сих пор возникает не у старшеклассников из СССР – любителей халявы, а у поколения до 40 лет: как построить дело так, чтобы никому ничего не платить, и оно у меня быстро отстроилось. После пальмы, виллы, яхты.
Тем не менее, мои амбициозные собеседники воспользовались поисковой машиной. Уже прогресс. Они даже протестировали разные площадки. Но поразмышляв, опять упёрлись теперь в вопрос: «Как лучше озвучивать ботом тексты, чтобы текстовое звучало как у живого, дышащего кислородом человека?».
«Я не специалист, я юзер» – хотел было им ответить, но меня вдруг стало ломать стать ещё одним лесорубом, вырубая молодую поросль современной публицистики. На раннем этапе нужно просто поддержать приятелей – не полить растение, так хотя бы плюнуть (в хорошем смысле).
Смотришь, станут расти.
Через пару дней для ненаплевательского отношения я пригласил Павла, и мы вчетвером стали разбираться в реальных возможностях нереальных дикторов.
Ира и Дмитрий выбрали площадку «Yandex.Cloud».
Если я не ошибаюсь, три года назад это был просто «Yandex SpeechKit». Хотя с 2014 года она уже была в позиции динамично развивающейся облачной платформы. По качеству синтез текста в речь был скромнее, да и вообще складывалось впечатление – Яндекс в очередной раз пытается объять необъятное.
Быстрый захват ниш рынка, что не съем то надкушу, лично у меня всегда вызывал своеобразную улыбку.
В данном проекте команда Яндекса основалась прочно.
Машинное обучение, голосовой помощник «Алиса», ну не мне вам рассказывать о том, что скоро будет реально поговорить не с кем. Проект в положительном развитии, о нём и пойдёт дальнейшее повествование.
Синтез текста в речь.
Определимся со стилистикой проекта.
Аудио – книга писателя или обычный аудио – тизер тематического сайта о музыке и кино должны содержать в себе стиль. Важно! Ваш собственный неповторимый авторский стиль.
Издавна стилистику проекта формировали сами дикторы с их неповторимой интонацией, тембром голоса.
Часто аудитория слушателей складывалась не только из–за предложенной тематики, но и восприятия слушателя. Умиротворение, отвлечение от реальности, если хотите позитивный шумовой фон. Только так можно удержать аудиторию, даже когда в общем и рассказать нечего.
Стилистика синтеза текста в речь бедна на эмоциональные человеческие интонационные нотки.
Вам нужно для себя понять и принять то, что в ваших художественных или публицистических текстах, в определённых абзацах (там, где вы бы хотели услышать необходимые эмоции) или их не будет вовсе, или они зазвучат не так эмоционально глубоко.
Про иносказательность интонационного смысла в исполнении робота пока и мечтать не приходится.
На интонации иронии, самолюбования, горделивости, сарказма и далее по списку аж до стёба не надейтесь.
Смирились с потенциальными потерями озвученного синтезированного произведения? Тогда продолжим.
Синтез текста в речь.
Выразительное чтение.
«Читайте стих с выражением!» – учила нас учитель литературы. Одно из самых сложных выражений мыслей – это стихосложение. Порою не блещущей рифмой текст легко прочесть с выражением так, словно рифма слов удачно сложилось. Для примера мы взяли несколько стихов.
Вывод о синтезе оказался субъективным.
Скорее всего Яндекс взял средне – арифметическое выражение с выдержанными паузами и изменением интонаций перед знаками орфографии, что в общем, надо признать на слух звучит живо.
Павел даже вспомнил некую студентку – однокурсницу из своего плей – бойского прошлого и на минуты две взгрустнул. Синтез «Алёна» удался.
ПРИМЕР: Александр Сергеевич Пушкин (отрывок).
Синтез текста в речь.
Словарный запас.
Пока кто–то пребывал в меланхолии, Ира с Димой сумбурно волновались.
Не надо ханжества! Язык – живой человек.
Он выражает свои мысли в меняющемся Мире, переосмысливая старое и добавляя новое.
Синтез речи, с включённым в него словарным запасом, обязан быть гибким и прогрессивным.
Мы выбрали своё направление, и на наш непрезентативный взгляд это самое сложное.
Синтезировать современное с вплетением жаргонных слов. Выхватили смысл из рассказа Иры о свихнувшимся учителе, затем оформили его в аудио – тизер вымышленного фильма.
Как раз для ушей Иры и Димы.
Павел добавил в него эффекты, отредактировав в речи лишь паузы между словами, и мы получили следующий результат. По–моему, синтез трёх роботов – дикторов не подкачал. Дмитрию особенно понравилось исполнение синтеза «Ермил».
Но вместо «Ермила» он привязался к Павлу, у которого почти один в один схожий с «Ермилом» голос.
Инстинктивно такое случается, когда с виртуального на живое потянуло.
Павел умеет отвязывать то, что привязали, и мы продолжили.
ПРИМЕР: Аудио - тизер.
Войдя во вкус, мы решили начать тестирование самых распространённых речевых оборотов одебиливания нашего общества. Надо учесть всё. От книжных отрицательных героев, до интервью с представителем субкультуры.
После некоторых смешанных попыток Ирина вспомнила о речитативе.
Чтобы не нарушать авторских прав, мы взяли напрокат текст вот этого автора и поверх пародии на лексикон быдломасс, брякнули снизу стерео–дорожку музыки Павла.
Согласитесь, что для синтеза речи это вызов!
ПРИМЕР: Речь и музыка.
Синтеза текста в речь.
Впечатление от совмещения речи и музыки.
Заставить синтезированный текст петь без кропотливой дополнительной программной обработки невозможно.
Читать РЭП или Хип–Хоп более – менее вероятно. Хотя на мой слух получилось нечто схожее с сольным альбомом Евгения Гишковца и группы «Бигуди».
Но это впечатление пришло намного позже. Дело в следующем. Чем ёмче (по длине) текст мы загружали для синтеза, тем на выходе больше получалось в речи искажений и звуковых «артефактов».
Выход есть. Делить текст на абзацы и синтезировать, но тогда в некоторых продолжениях теряется интонация, связанная с предыдущими предложениями.
Значит? Работаем сначала с абзацами, нумеруем, синтезируем, переводим из формата OGG в WAV, после грузим эти фрагменты – абзацы в программу, убираем артефакты и только после этого накладываем музыкальный трек.
И кроме того, пытаемся подогнать речь под музыку. Отдельная строка трудовых затрат — это вообще подборка музыки для синтеза.
Трудоёмко? Да!
Теперь представим, что же нам понадобилось для живой озвучки (с реальным диктором).
Студия с оборудованием человека – часы. Ну конечно, на чтении такого объёма текста мы сэкономили время.
Живенький диктор нам живёхонько его бы зачитал, да ещё в нескольких интонационных вариантах.
После выпил с нами кофе и пощебетал за жизнь.
Что бы мы затратили?
Денежную сумму, несоизмеримую с той суммой, которую бы затратили на синтез текста в речь.
У Ирины и Дмитрия стало проясняться то, что выбор технологий производства аудио – контента это вопрос не только времени и денег, но и качества конечного продукта. Как воспримет слушатель ваше творчество — это отдельная статья эмоциональных расходов любого автора.
Скорее всего самая затратная!
Думаю, синтез текста в речь вполне подходит для озвучивания новостей, досужего видео – контента, но для художественной литературы он сгодится лишь в качестве «читалки» для неискушённого слушателя.
Однако время вместе с технологиями упрямо стремится опередить индивидуальные свойства человека.
Мне хочется верить, что я и мои правнуки будут продолжать слушать человека, а не машину.
_______________________________
© Василий Яринин, для www.asreda.com
Музыкальная композиция и обработка: © Павел Голицын.