Quais são os tipos de vozes que podemos implementar?
a) Gravada: Na versão original do VOICE você pode usar uma voz humana gravada por um locutor, sendo uma opção mais cara e menos escalável, já que o conteúdo é personalizado e deve ser atualizado pelo mesmo locutor para manter a mesma voz ao adicionar novos conhecimentos no bot.
️Neste caso, o uso do SSML (Speech Synech Synthesis Markup Language) deve ser suportado.
Em breve a alternativa SSML será incluído no VOICE2.0, para permitir a funcionalidade das vozes gravadas.
b) Dinâmica: Esta é uma voz gerada por um sintetizador de voz (usando voz Google, Amazon ou Microsoft). É a alternativa de voz padrão, sendo uma opção simples e escalável, pois permite que o conteúdo seja facilmente atualizado.
Dentro das vozes dinâmicas existem vozes neurais, que são implementadas na versão 2.0 da solução Voice. As vozes neurais permitem uma experiência de interação de áudio muito mais clara, de maior qualidade e som natural através do uso de múltiplas Redes Neurais Profundas, ou DNNs, para abreviar.
Essas vozes são treinadas com base em como as pessoas se expressam oralmente e geram áudio ao prever o tom, a prosódia, a estrutura espectral e a onda sonora da fala. Nesta opção, você poderá escolher uma voz de diferentes bancos de voz disponíveis. Na Aivo, trabalhamos com a Amazon Polly, IBM Watson, Google WaveNet e Microsoft Azure.