Примеры и особенности синтеза текста

04/07/2023 16:37

Yandex.Cloud

Всё начиналось как в анекдоте. Собрались как – то…

Отмотаем назад. Всегда симпатично пообщаться с писателем – женщиной, которая смирилась с тем, что её литературные труды никогда не попадут на полки книжных магазинов.

И в тоже время приходиться общаться ни о чём с тем, кто твёрд в убеждении получать хотя бы мизерную прибыль от некоммерческого и по тематике неуникального сайта, строящегося на энтузиазме одного человека.

Такие смешанные чувства и разнородные мнения соседствовали, когда Ж и М собрались вокруг меня одновременно.

У писательницы в планах создание аудио – книги.

Наш герой №2 запланировал себя на создание сайта о международном кино и его новинках, и несомненно музыки. Пустяковые темы. Что два пальца об интерфейс. Согласны? Но это не всё.

У мечтателей возникла загвоздка. Оба желаемых варианта упёрлись в действительное отсутствие денежных средств на оплату услуг озвучивания текстов. В общении с ними меня переполняли и язвительность, и отчаяние. С какой горы это ментальное суждение до сих пор возникает не у старшеклассников из СССР – любителей халявы, а у поколения до 40 лет: как построить дело так, чтобы никому ничего не платить, и оно у меня быстро отстроилось. После пальмы, виллы, яхты.

Тем не менее, мои амбициозные собеседники воспользовались поисковой машиной. Уже прогресс. Они даже протестировали разные площадки. Но поразмышляв, опять упёрлись теперь в вопрос: «Как лучше озвучивать ботом тексты, чтобы текстовое звучало как у живого, дышащего кислородом человека?».

«Я не специалист, я юзер» – хотел было им ответить, но меня вдруг стало ломать стать ещё одним лесорубом, вырубая молодую поросль современной публицистики. На раннем этапе нужно просто поддержать приятелей – не полить растение, так хотя бы плюнуть (в хорошем смысле).

Смотришь, станут расти.

Через пару дней для ненаплевательского отношения я пригласил Павла, и мы вчетвером стали разбираться в реальных возможностях нереальных дикторов.

Синтез текста в речь

Ира и Дмитрий выбрали площадку «Yandex.Cloud».

Если я не ошибаюсь, три года назад это был просто «Yandex SpeechKit». Хотя с 2014 года она уже была в позиции динамично развивающейся облачной платформы. По качеству синтез текста в речь был скромнее, да и вообще складывалось впечатление – Яндекс в очередной раз пытается объять необъятное.

Быстрый захват ниш рынка, что не съем то надкушу, лично у меня всегда вызывал своеобразную улыбку.

В данном проекте команда Яндекса основалась прочно.

Машинное обучение, голосовой помощник «Алиса», ну не мне вам рассказывать о том, что скоро будет реально поговорить не с кем. Проект в положительном развитии, о нём и пойдёт дальнейшее повествование.

Синтез текста в речь.

Определимся со стилистикой проекта.

Аудио – книга писателя или обычный аудио – тизер тематического сайта о музыке и кино должны содержать в себе стиль. Важно! Ваш собственный неповторимый авторский стиль.

Издавна стилистику проекта формировали сами дикторы с их неповторимой интонацией, тембром голоса.

Часто аудитория слушателей складывалась не только из–за предложенной тематики, но и восприятия слушателя. Умиротворение, отвлечение от реальности, если хотите позитивный шумовой фон. Только так можно удержать аудиторию, даже когда в общем и рассказать нечего.

Стилистика синтеза текста в речь бедна на эмоциональные человеческие интонационные нотки.

Вам нужно для себя понять и принять то, что в ваших художественных или публицистических текстах, в определённых абзацах (там, где вы бы хотели услышать необходимые эмоции) или их не будет вовсе, или они зазвучат не так эмоционально глубоко.

Про иносказательность интонационного смысла в исполнении робота пока и мечтать не приходится.

На интонации иронии, самолюбования, горделивости, сарказма и далее по списку аж до стёба не надейтесь.

Смирились с потенциальными потерями озвученного синтезированного произведения? Тогда продолжим.

Синтез текста в речь.

Выразительное чтение.

«Читайте стих с выражением!» – учила нас учитель литературы. Одно из самых сложных выражений мыслей – это стихосложение. Порою не блещущей рифмой текст легко прочесть с выражением так, словно рифма слов удачно сложилось. Для примера мы взяли несколько стихов.

Вывод о синтезе оказался субъективным.

Скорее всего Яндекс взял средне – арифметическое выражение с выдержанными паузами и изменением интонаций перед знаками орфографии, что в общем, надо признать на слух звучит живо.

Павел даже вспомнил некую студентку – однокурсницу из своего плей – бойского прошлого и на минуты две взгрустнул. Синтез «Алёна» удался.

ПРИМЕР: Александр Сергеевич Пушкин (отрывок).

Синтез текста в речь.

Словарный запас.

Пока кто–то пребывал в меланхолии, Ира с Димой сумбурно волновались.

Не надо ханжества! Язык – живой человек.

Он выражает свои мысли в меняющемся Мире, переосмысливая старое и добавляя новое.

Синтез речи, с включённым в него словарным запасом, обязан быть гибким и прогрессивным.

Мы выбрали своё направление, и на наш непрезентативный взгляд это самое сложное.

Синтезировать современное с вплетением жаргонных слов. Выхватили смысл из рассказа Иры о свихнувшимся учителе, затем оформили его в аудио – тизер вымышленного фильма.

Как раз для ушей Иры и Димы.

Павел добавил в него эффекты, отредактировав в речи лишь паузы между словами, и мы получили следующий результат. По–моему, синтез трёх роботов – дикторов не подкачал. Дмитрию особенно понравилось исполнение синтеза «Ермил».

Но вместо «Ермила» он привязался к Павлу, у которого почти один в один схожий с «Ермилом» голос.

Инстинктивно такое случается, когда с виртуального на живое потянуло.

Павел умеет отвязывать то, что привязали, и мы продолжили.

ПРИМЕР: Аудио - тизер.

Войдя во вкус, мы решили начать тестирование самых распространённых речевых оборотов одебиливания нашего общества. Надо учесть всё. От книжных отрицательных героев, до интервью с представителем субкультуры.

После некоторых смешанных попыток Ирина вспомнила о речитативе.

Чтобы не нарушать авторских прав, мы взяли напрокат текст этого автора и поверх пародии на лексикон, брякнули снизу стерео–дорожку музыки Павла.

Согласитесь, что для синтеза речи это вызов!

ПРИМЕР: Речь и музыка.

Синтеза текста в речь.

Впечатление от совмещения речи и музыки.

Заставить синтезированный текст петь без кропотливой дополнительной программной обработки невозможно.

Читать РЭП или Хип–Хоп более – менее вероятно. Хотя на мой слух получилось нечто схожее с сольным альбомом Евгения Гишковца и группы «Бигуди».

Но это впечатление пришло намного позже. Дело в следующем. Чем ёмче (по длине) текст мы загружали для синтеза, тем на выходе больше получалось в речи искажений и звуковых «артефактов».

Выход есть. Делить текст на абзацы и синтезировать, но тогда в некоторых продолжениях теряется интонация, связанная с предыдущими предложениями.

Значит? Работаем сначала с абзацами, нумеруем, синтезируем, переводим из формата OGG в WAV, после грузим эти фрагменты – абзацы в программу, убираем артефакты и только после этого накладываем музыкальный трек.

И кроме того, пытаемся подогнать речь под музыку. Отдельная строка трудовых затрат — это вообще подборка музыки для синтеза.

Трудоёмко? Да!

Теперь представим, что же нам понадобилось для живой озвучки (с реальным диктором).

Студия с оборудованием человека – часы. Ну конечно, на чтении такого объёма текста мы сэкономили время.

Живенький диктор нам живёхонько его бы зачитал, да ещё в нескольких интонационных вариантах.

После выпил с нами кофе и пощебетал за жизнь.

Что бы мы затратили?

Денежную сумму, несоизмеримую с той суммой, которую бы затратили на синтез текста в речь.

У Ирины и Дмитрия стало проясняться то, что выбор технологий производства аудио – контента это вопрос не только времени и денег, но и качества конечного продукта. Как воспримет слушатель ваше творчество — это отдельная статья эмоциональных расходов любого автора.

Скорее всего самая затратная!

Думаю, синтез текста в речь вполне подходит для озвучивания новостей, досужего видео – контента, но для художественной литературы он сгодится лишь в качестве «читалки» для неискушённого слушателя.

Однако время вместе с технологиями упрямо стремится опередить индивидуальные свойства человека.

Мне хочется верить, что я и мои правнуки будут продолжать слушать человека, а не машину.

_______________________________

ВЗРИЛИЩЕ

◄✉► Василий | ОТЗЫВ
330