Los investigadores de Google acaban de hacer que las computadoras suenen mucho más como personas

Un equipo de investigadores de Google ha encontrado una manera de mejorar drásticamente el habla generada por computadora, mejorando sustancialmente su cadencia y entonación. Es un paso hacia el tipo de síntesis de voz sofisticada que, hasta la fecha, ha existido completamente dentro del ámbito de la ciencia ficción.

Las computadoras, incluso cuando hablan, no suenan humanas. Incluso en la ciencia ficción, donde no es necesario que existan tales limitaciones, las computadoras, los androides y los robots comúnmente usan una gramática forzada, una pronunciación inexacta o hablan en tonos duros y mecánicos. En programas de televisión y películas donde las formas de vida artificiales hablan de forma natural (los modelos avanzados de Cylon en 2004 Battlestar Galactica reiniciar, por ejemplo), esta capacidad se usa a menudo para resaltar por qué las formas de vida artificiales representan una amenaza. La capacidad de hablar con naturalidad a menudo se considera un componente vital de la humanidad. Formas de vida mecánicas en Star Trek: la próxima generación y sus diversos derivados casi siempre hablan con gestos destinados a transmitir su artificialidad, incluso cuando sus intenciones son perfectamente benignas.

En el mundo real, los programas como Dr. Sbaitso eran a menudo la primera introducción que los usuarios de computadoras tenían a la tecnología de conversión de texto a voz. Puede escuchar cómo sonaba la tecnología de conversión de texto a voz de Creative Labs a continuación, alrededor de 1990.



La tecnología moderna ha mejorado drásticamente en esto, pero tecnologías como Alexa, Cortana, Google Assistant o Siri nunca se confundirían con una salvación humana en casos muy específicos. Una parte importante del motivo por qué Podemos decir cuando una computadora está hablando en comparación con un individuo se debe al (mal) uso de la prosodia. La prosodia se define como el patrón de entonación, tono, ritmo y acentuación dentro de un idioma.

Hay un viejo chiste sobre la importancia de las comas que compara dos oraciones simples para hacer su punto: 'Es hora de comer a la abuela' transmite un significado bastante diferente a 'Es hora de comer, abuela'. En este caso, la coma se utiliza para transmitir información sobre cómo se debe pronunciar e interpretar la oración. Sin embargo, no toda la información prosódica está codificada a través de la gramática, y enseñar a las computadoras cómo interpretar y usar estos datos ha sido un gran obstáculo. Ahora, investigadores de varios equipos de Google he encontrado una manera para codificar la información de la prosodia en el Tacotron sistema de texto a voz (TTS).

Tacotron

Desafortunadamente, no podemos insertar las muestras de voz de Google directamente, pero vale la pena visitar la página para escuchar cómo la nueva información afecta la pronunciación y la dicción. Así es como Google describe este trabajo:

Aumentamos la arquitectura Tacotron con un codificador de prosodia adicional que calcula una incrustación de baja dimensión a partir de un clip de habla humana (el audio de referencia). Esta incrustación captura características del audio que son independientes de la información fonética y los rasgos idiosincrásicos del hablante; estos son atributos como el acento, la entonación y la sincronización. En el momento de la inferencia, podemos usar esta incrustación para realizar la transferencia de prosodia, generando el habla en la voz de un hablante completamente diferente, pero exhibiendo la prosodia de la referencia. La incrustación también puede transferir una fina prosodia alineada en el tiempo de una frase a una frase ligeramente diferente, aunque esta técnica funciona mejor cuando las frases de referencia y objetivo son similares en longitud y estructura.

Hay muestras y clips que puede reproducir para ver cómo Tacotron maneja varias tareas. Los investigadores señalan que pueden transferir prosodia incluso cuando el audio de referencia usa un acento que no está en los datos de entrenamiento de Tacotron. Y lo que es más importante, han encontrado una manera de modelar lo que llaman 'factores' latentes del habla, lo que permite que la prosodia dentro de cualquier clip de voz se represente sin necesidad de un clip de audio de referencia. Este modelo ampliado puede obligar a Tacotron a utilizar estilos específicos de habla para hacer que varias declaraciones suenen felices, enojadas o tristes.

Ninguno de los clips suena completamente humanos: todavía hay un grado de artificialidad en la presentación subyacente, pero son una mejora sustancial con respecto a lo anterior. Quizás el próximo juego de Elder Scrolls no tenga que presentar a los mismos ocho actores de voz en aproximadamente 40,000 roles diferentes.

Copyright © Todos Los Derechos Reservados | 2007es.com