Uso de Redes neurais generativas para síntese de voz: Estudo e revisão de literatura

Estudante: Lucy Anne de Omena Evangelista (lucy.omena@usp.br)

Orientador: Carlos Eduardo Elmadjian

Proposta resumida do trabalho de conclusão de curso:

Este TCC tem como objetivo oferecer base para a compreensão do que é uma rede neural generativa que síntese voz, de forma a exemplificar aplicações e a caracterizar pilares teóricos necessáriara estudar redes neurais para síntese de voz. Síntese de voz é um ramo do estudo computacional que teve início registrado nos anos 20 e maior desenvolvimento a partir do final dos anos 70. Entretanto, seu maior avanço em termos de naturalidade de fala e reprodutibilidade se deu a partir da utilização de redes neurais para geração de voz, estado da arte atual do ramo de pesquisa e desenvolvimento.

Resumo:

Resultante a partir de estudos de Interação Humano-Computador (IHC) do projeto ADA (Assistente Distribuída Avançada) do grupo de extensão USP Code Lab do Instituto de Matemática e Estatística da Universidade de São Paulo, o objetivo deste trabalho de conclusão de curso é documentar o processo de escolha, implementação e avaliação de uma rede neural para síntese de voz a partir de texto em linguagem natural para que seja possível a reprodução de testes de IHC para a formulação de uma assistente virtual de código aberto. Desta forma, o trabalho é dividido em introdução do ramo de estudo, aplicações e breve introdução teórica de redes neurais; estudo bibliográfico comparativo entre as arquiteturas para síntese de voz Char2Wav, ClariNet, Tacotron ,Tacotron 2 e Deep Voice 3, realizado a partir dos artigos das arquiteturas, de forma a sistematizar informações quanto a recursos e capacidade das arquitetura; testes de treinamento com a rede mais adequada, partindo-se de implementações em repositórios abertos e uso da técnica de \textit{transfer learning}, de acordo com as limitações de quantidade de dados em português disponíveis para treino; e avaliação dos áudios gerados pela rede, utilizando-se a escala MOS de naturalidade e compreensão. Os áudios produzidos pela rede e o repositório da implementação são disponibilizados ao longo do trabalho. Ao final, são discutidas dificuldades e descobertas ao longo do estudo, e também são sugeridos alguns tipos de informações que podem ser relevantes ao se comparar arquiteturas para síntese de voz e medidas para melhoria no áudio sintetizado.

Proposta

Monografia final