Что такое синтез речи? Как собрать данные TTS для синтеза речи?

В предыдущей статье мы упоминали , что сбор голосовых данных делится на два распространенных типа сбора голосовых данных: один — данные распознавания речи (ASR), а другой — синтез речи (TTS). В этом выпуске мы познакомим вас с тем, что такое технология синтеза речи, как собирать и создавать данные синтеза речи, а также поможем вам быстро понять суть и основные принципы синтеза речи.  

 

Что такое преобразование текста в речь (TTS)

Поскольку режим взаимодействия человека с компьютером становится все более популярным в нашей жизни, в качестве основного средства передачи звука используются динамики и звуковые волны, а непрерывное развитие технологии преобразования текста в речь обогатило наши методы общения, а возможности машин речь стала более гибкой и естественной, и все это неотделимо от развития технологии синтеза речи. 

Как собрать данные синтеза речи

Предыстория технологии синтеза речи

Синтез речи — это технология преобразования текста в речь (text to voice) , которая представляет собой компьютерный голос, формируемый из текста. Самое раннее известное устройство в истории, имитирующее человеческую речь, было построено Вольфгангом фон Кемпеленом более 200 лет назад. Машины, которые он построил, состояли из элементов, которые можно было использовать для имитации различных органов, которые люди используют для произнесения речи: мехов легких, трубок речевого тракта, боковых ветвей ноздрей и так далее. Интерес к этому механическому аналогу голосового органа человека продолжался и в двадцатом веке. Во второй половине XIX века Гельмгольц и др. начали синтезировать гласные и другие начальные согласные путем наложения гармонических волн с соответствующей амплитудой. Традиционный TTS в основном реализуется путем объединения нескольких модулей в конвейер, и всю систему можно грубо разделить на интерфейсную и серверную части.

Принцип технологии синтеза речи (TTS)

Мы можем думать о TTS как о проблеме последовательного преобразования, которая включает в себя два основных этапа: анализ текста и синтез речи. Анализ текста очень похож на общие этапы обработки естественного языка (НЛП) (хотя предварительная обработка Heave может не потребоваться при использовании глубоких нейронных сетей). Например, сегментация предложений, сегментация слов, части речи (POS). Результатом первого этапа является преобразование графемы в фонему (G2P), которое является входом второго этапа. При синтезе речи он генерирует сигнал на выходе первого этапа.  

Системы преобразования текста в речь (TTS) и производство данных

Обработка естественного языка НЛП, которая преобразует необработанный текст (включая знаки препинания, сокращения, цифры и символы) в транскрипцию речи. Транскрипты включают фонемы (части речи) и интонацию (интонацию, ритм, темп) на основе реплик в тексте. Цифровая обработка сигналов (DSP), которая преобразует речевые представления в текст через аудиовыход компьютера или другого устройства. DSP необходимо создать фонетический словарь (то есть ряд фраз, которые люди вводят в систему, пытаясь уловить каждую комбинацию фонем языка). Система строит речь на основе этого фонетического шрифта путем объединения аудиосэмплов. Затем он применяет алгоритмы для сглаживания завершенной фразы и настройки таких аспектов, как громкость и скорость речи. Хотя машины в прошлом могли нормально издавать звук, с развитием времени и увеличением спроса на взаимодействие человека с компьютером звук машины кажется бледным и жестким, неспособным предоставить людям наиболее яркий интерактивный опыт. . В настоящее время современная система синтеза речи уделяет больше внимания в первую очередь персонализированному техническому выводу опыта, который делится на: общий TTS, персонализированный TTS и эмоциональный TTS.

  • Общие TTS: Он может удовлетворить потребности коммерциализации.Производственный процесс включает в себя: предварительную подготовку персонала, определение места записи, запись (сбор данных), пост-очистку данных и маркировку данных для получения полного набора «коммерческой базы данных».
  • Персонализированный TTS: в зависимости от характеристик информационных продуктов предоставляются различные типы голосов для настройки голосовой библиотеки.
  • Эмоциональный TTS: просодические параметры посредством XML-тегирования. Эта предварительная обработка помогает системе TTS генерировать синтетическую речь, содержащую эмоциональные сигналы. Распознавание эмоциональных намерений — одна из важных технологий эмоционального TTS, которая также тесно связана с обработкой естественного языка . Хотите быть ближе к реальному языку людей, позвольте машине быть наделенной эмоциями, а не просто холодным ретранслятором, — это тот эффект, которого предприятия хотят достичь с помощью своей продукции. Чтобы такая машина могла говорить живо, база данных, лежащая в основе технологии эмоционального синтеза речи, также будет богаче и разнообразнее.

Двумя распространенными методами синтеза речи являются сращивание и параметрические методы.

  • Метод сращивания: извлечение подходящих единиц склейки из предварительно записанного корпуса. Высокие требования к качеству звука не способствуют коммерческому использованию, а высокий спрос на масштабируемость данных приводит к высоким коммерческим затратам.
  • Параметрический метод: Параметрическое моделирование корпуса разделено на три модуля: фронтальная обработка, моделирование и вокодер. Требование к базе данных невелико, но качество звука будет плохим.

 

Общие сценарии применения синтеза речи

Наконец, как можно применить технологию синтеза речи как исходную технологию к последующим сценариям искусственного интеллекта? Помощники по синтезу речи, интеллектуальная служба поддержки клиентов, аудиокниги, колл-центры, автомобильные развлекательные устройства и т. д. — все это распространенные сценарии применения технологии синтеза речи. Чтобы сделать пользовательский опыт более реальным и насыщенным, многие компании по сбору данных будут напрямую сотрудничать с актерами озвучивания, позволяя клиентам выбирать голоса в соответствии с потребностями своих конечных пользователей. Представьте себе, когда вы ворочаетесь по ночам от бессонницы, когда открываете блог и слышите голос Хироши Камии, что бы вы почувствовали?  

 

Supongo que te gusta

Origin blog.csdn.net/Appen_China/article/details/132064303
Recomendado
Clasificación