O que é o Text-to-Speech (TTS)?

Escrito por

Ben Luks

Linguista computacional, investigador de IA e mestrado em tecnologia de voz com IA

Índice

Etapa 1. o título da etapa aparece aqui, como previsto

Principais conclusões

ChatGPT holandêsfala com sotaque alemão (por vezes). Se for de propósito, é mau. Se não for, então é fascinante.

De qualquer forma, é seguro dizer que os assistentes de voz com IA percorreram um longo caminho desde o Sam da Microsoft. De facto, percorreram um longo caminho desde que estudei a tecnologia da fala há alguns anos.

E estou aqui para vos contar onde chegámos.

Temos andado a mitificar a fala sintetizada desde pelo menos 1968, desde o aparecimento do robô HAL em 2001: Uma Odisseia no Espaço.

grande plano do HAL-9000 em 2001 — De 2001: Uma Odisseia no Espaço

Longe de ser prestigiante e futurista, tornou-se desde então uma norma: 89% dos consumidores condicionam a escolha do seu aparelho ao facto de este ter ou não suporte de voz.

Por outras palavras, "Não me ajudes apenas, fala comigo".

Neste artigo, vou falar de conversão de texto em voz - a conversão de texto em áudio falado. Falarei sobre o que se passa nos bastidores e as diferentes formas como esta tecnologia é utilizada nos vários sectores.

Criar agentes de IA

Criar agentes autónomos personalizados

Começar agora

Não é necessário cartão de crédito

O que é Text-to-Speech?

O TTS é o processo de conversão de texto em áudio falado sintetizado. As primeiras versões baseavam-se na aproximação mecânica do trato vocal humano e na junção de gravações de áudio. Atualmente, os sistemas TTS utilizam algoritmos de redes neuronais profundas para produzir enunciados dinâmicos e semelhantes aos humanos.

Existem diferentes modelos consoante o caso de utilização, como a geração em tempo real para modelos de conversação, a expressão controlável e a capacidade de replicar uma voz.

Como é que a conversão de texto em voz funciona?

O TTS tem 3 etapas principais: primeiro, o texto de entrada é processado para soletrar símbolos, expressões e abreviaturas. O texto processado passa depois por redes neuronais que o convertem numa representação acústica (espetrograma). Finalmente, a representação é transformada em fala.

Como já referi, os investigadores passaram por uma série de abordagens ao TTS. A que nos levou (e onde penso que vamos ficar durante algum tempo) utiliza a síntese de voz baseada em redes neuronais.

Modelar as camadas de fenómenos linguísticos que influenciam um enunciado - pronúncia, velocidade, entoação - é uma tarefa complexa.

Diagrama de setas dos componentes do TTS

Mesmo com as capacidades quase mágicas de caixa negra das redes neuronais, um sistema TTS depende de uma série de componentes para aproximar o discurso.

É difícil definir uma conduta exacta; novas tecnologias estão a surgir a torto e a direito, ameaçando tornar obsoletas as suas antecessoras.

Existem alguns componentes gerais que, de uma forma ou de outra, estão presentes na maioria dos sistemas TTS.

1. Processamento de texto

O processamento de texto é o passo em que o sistema TTS determina as palavras que serão pronunciadas. As abreviaturas, datas e símbolos monetários são soletrados e a pontuação é eliminada.

Isto nem sempre é trivial. "Dr." significa médico ou condutor? E CAD? Dólar canadiano ou desenho assistido por computador?

O processamento de linguagem natural(PNL) pode ser utilizado no processamento de texto para ajudar a prever a interpretação correta com base no contexto envolvente. Avalia a forma como o termo ambíguo (por exemplo, "Dr.") se enquadra na frase como um todo, pelo que, na frase "O Dr. Perron desaconselhou-o", o PNL resolveria dr. para médico.

2. Análise linguística

Quando o texto é processado, o modelo muda de "O que devo dizer?" para "Como devo dizê-lo?"

A análise linguística é a parte do TTS responsável pela interpretação da forma como uma frase deve ser proferida em termos de altura, tom e duração. Por outras palavras:

Qual deve ser a duração de cada som, sílaba ou palavra?
A entoação deve subir? Diminuir?
Que palavra está a ser realçada?
Como é que a mudança de volume pode refletir a emoção pretendida?

Porque é que a prosódia é importante

Hora da história: Tive um breve trabalho de consultoria para uma equipa que estava a construir modelos TTS. Tornou-se evidente o quanto a prosódia faz ou quebra a inteligibilidade de uma frase. Vou mostrar-vos o que quero dizer.

Seguem-se 3 entregas da frase "Uau, estavas à espera disto?

A primeira é óptima. A pausa depois de "Whoa", a inflexão para cima na segunda sílaba de "expecting" (ex-PEC-ting). 10/10.

A segunda capta por pouco a qualidade de pergunta ao infletir para cima na última palavra ("... expecting THAT"). Para além disso, o resto das sílabas têm mais ou menos o mesmo comprimento, sem variação de volume ou tom. Eu diria aos meus clientes para "irem para a prancheta de desenho".

A última é um caso interessante: O "whoah" é ótimo - alto, longo e com um contorno descendente. A inflexão ascendente da pergunta acontece ao longo de "were you", e basicamente mantém um tom estável durante todo o tempo.

É aqui que muitos sistemas TTS intermédios param: suficientemente simples com uma entrega plausível. O problema é que não é como se diria - pelo menos não na maioria dos contextos.

Nos sistemas mais antigos, estas qualidades eram previstas por componentes separados: um modelo calculava a duração de cada som, outro mapeava a forma como o tom subia e descia.

Atualmente, as coisas são mais confusas.

As redes neuronais tendem a aprender estes padrões por si próprias, interiorizando as subtilezas dos conjuntos de dados de treino massivos.

3. Modelação acústica

A modelação acústica consiste em passar o texto normalizado (e as caraterísticas linguísticas previstas, caso existam) por uma rede neuronal que produz uma representação intermédia.

Espectrogramas e representações de fala

A representação intermédia é normalmente um espetrograma - a representação da frequência sobre o tempo de um sinal de áudio - embora isso esteja a mudar.

Eis a representação gerada por um modelo TTS a partir do nosso texto de entrada "Whoa, were you expecting that?":

Espectrograma de Mel com indicadores de eixo e dimensionalidade — Uma representação mel-espectrográfica de um enunciado gerado pelo modelo Tacotron TTS

‍

Esta imagem bidimensional é, na verdade, 146 cortes verticais, cada um contendo 80 frequências. As frequências mais fortes são mais brilhantes e as mais fracas são mais escuras.

Eis o aspeto do décimo passo de tempo (ou coluna), rodado 90 graus para a direita:

Energias de frequência do espetrograma num determinado corte — Uma fatia vertical (ou coluna) de um espetrograma, virada de lado por conveniência

É possível ver as frequências individuais e as suas energias.

À primeira vista, o espetrograma não parece grande coisa, mas estão aqui presentes alguns fenómenos linguísticos claros:

As ondas com linhas bem definidas são vogais ou sons semelhantes a vogais, como /w/, /r/ e /l/.
As manchas escuras representam o silêncio. Podem ser pausas para pontuação.
Os aglomerados de energia no alto representam ruído, como o ruído que se ouve em /s/, /sh/ e /f/

De facto, se olharmos com atenção, podemos até alinhar as palavras no espetrograma.

Espectrograma com linhas tracejadas que indicam os limites das palavras e as respectivas transcrições por baixo. — O espetrograma acima, alinhado com as palavras (ou sons) individuais.

Os espectrogramas, nas suas várias formas, são representações amplamente utilizadas na tecnologia da fala porque são um ótimo intermediário entre a fala em bruto e o texto.

Duas gravações da mesma frase ditas por oradores diferentes terão formas de onda muito diferentes, mas espectrogramas muito semelhantes.

4. Sintetização de áudio (Vocoding)

A fase de síntese é onde o espetrograma é convertido em áudio.

A tecnologia que faz esta conversão chama-se vocoder. São modelos de redes neurais treinados para reconstruir sinais de fala com base nas suas representações de espetrograma.

A razão para dividir a representação e a modelação do sinal de voz em módulos separados prende-se com o controlo: o primeiro tem a ver com a modelação exacta da pronúncia e da emissão das palavras e o segundo com o estilo e o realismo da emissão.

Com um espetrograma podemos distinguir entre /s/ vs /sh/, ou /ee/ (como em heat) vs. /ih/ (como em hit), mas o estilo e a personalidade vêm dos detalhes finos produzidos pelo vocoder.

Aqui está uma comparação de combinações entre diferentes modelos acústicos e vocoders. Ilustra como os investigadores misturam e combinam modelos acústicos e vocoders e optimizam para obter o melhor resultado global.

Mas, mais uma vez, tal como acontece com todos os outros componentes, estamos a ver os espectrogramas a serem gradualmente eliminados em favor de modelos tudo-em-um.

Quais são os casos de utilização do TTS?

A capacidade de gerar linguagem falada dinâmica é uma ferramenta essencial em todos os sectores.

Não se trata apenas de robôs sofisticados - ajuda-nos a alcançar eficiência, acessibilidade e segurança.

Chatbots e assistentes de voz

Sabias que eu ia dizer isso 😉

Entre a compreensão dos seus comandos, a atualização das suas listas de compras e a marcação de compromissos, é fácil dar por garantida a sofisticação - e a importância - do discurso sintetizado nos agentes de IA.

Um bom agente (ou seja, um agente utilizável ) tem de ter uma voz que se enquadre no perfil: suficientemente acolhedora para solicitar comandos e suficientemente humana para fazer o utilizador acreditar que pode cumpri-los.

É necessária muita investigação e engenharia para conquistar os utilizadores na fração de segundo que demora a decidir se um assistente de IA soa ou não "bem".

Do ponto de vista comercial: o chatbot representa a sua marca. As melhorias na tecnologia TTS significam opções para uma melhor marca de voz e um serviço ao cliente mais eficaz.

Navegação e transporte

Nada o fará perceber a importância de um bom TTS como ter o seu GPS a pronunciar de forma ininteligível o nome de uma rua enquanto conduz.

A navegação GPS é um ótimo exemplo de como o TTS brilha: os nossos olhos estão ocupados, e fornecer informações audíveis não é apenas uma questão de conveniência, mas também de segurança.

Isto também se aplica a aeroportos e sistemas de transportes públicos. Para sistemas de grande volume e de conceção complexa, como estações de comboio e terminais de aeroportos, a fala sintetizada é crucial.

Sem o TTS, dependemos de anúncios em direto, muitas vezes apressados e ininteligíveis, ou de gravações de nomes, terminais, horários, etc., que são francamente difíceis de ouvir.

Com estudos que demonstram uma forte ligação entre naturalidade e inteligibilidade, o TTS de alta qualidade é uma necessidade para uma indústria de transportes robusta.

Entretenimento e Media

A narração e os meios de comunicação multilingues tornaram-se mais disponíveis com as melhorias introduzidas na tecnologia da fala sintética.

Em vez de substituir o talento, a tecnologia da fala ajuda a aumentar os desempenhos dramáticos.

Val Kilmer, que perdeu a voz devido a um cancro na garganta, fez uma atuação sentida com a sua voz original em Top Gun: Maverick (2022) graças à IA.

O TTS também permite que os criadores de jogos dêem expressões diversas e expressivas a personagens não jogáveis (NPCs), um feito que de outra forma seria inviável.

Cuidados de saúde

As melhorias no TTS significam melhorias na acessibilidade em todos os domínios.

As tecnologias de assistência a idosos abordam a questão da companhia e da assistência em simultâneo. Esta tecnologia baseia-se na capacidade de personalização que o TTS oferece: tons compassivos, velocidades variáveis e entoação cuidadosa fazem parte da oferta de uma assistência eficaz e digna.

O TTS também está a ser utilizado para melhorar a acessibilidade entre os jovens.

O Grupo Acapela desenvolve, entre outras coisas, tecnologias para crianças com perturbações da produção da fala. A fala sintética aumenta as suas capacidades de expressão e independência, preservando as suas caraterísticas vocais.

Educação e aprendizagem inclusiva

Já nos deparámos com discurso sintético em aplicações de aprendizagem de línguas. Mas isso é apenas a ponta do icebergue.

Por exemplo, uma barreira de entrada na aprendizagem autónoma é a capacidade de ler. Para as crianças, as pessoas com deficiências visuais e certas dificuldades de aprendizagem, isso não é necessariamente possível. Este facto coloca um grande ónus sobre os professores sobrecarregados de trabalho em salas de aula sobrelotadas.

Um distrito escolar na Califórnia implementou o TTS para criar um ambiente de aprendizagem mais inclusivo para alunos com necessidades especiais.

Tal como no caso dos cuidados a idosos, a tecnologia educativa baseia-se em vozes compassivas que se exprimem com uma clareza e ênfase imaculadas. Os parâmetros modificáveis permitem aos professores integrar estas tecnologias nas suas aulas, ajudando os alunos a sentirem-se mais incluídos.

Obtenha o melhor TTS para as suas necessidades

Independentemente do seu sector, é seguro dizer que a IA de voz é relevante. E o TTS que implementar fala literalmente pela sua empresa, pelo que tem de ser fiável e personalizável.

Botpress permite-lhe criar bots poderosos e altamente personalizáveis com um conjunto de integrações e implementação em todos os canais de comunicação comuns. Seu agente de voz não apenas impressionará, mas também funcionará.

Comece a construir hoje. É grátis.

Criar agentes de IA

Criar agentes autónomos personalizados

Começar agora

Não é necessário cartão de crédito