¡Las últimas noticias!

Una nueva IA puede imitar nuestra voz después de analizar una muestra de 3 segundos

Comparte este post

Microsoft ha anunciado un nuevo modelo de inteligencia artificial de texto a voz llamado VALL-E que puede simular la voz de una persona cuando se le da una muestra de audio de tres segundos. Una vez que lo ha escuchado hablar durante tres segundos, VALL-E puede sintetizar el audio diciendo cualquier cosa e imitar su tono emocional.

Volish Boffins afirma que VALL-E podría usarse para aplicaciones de texto a voz de alta calidad, edición de voz donde la grabación de una persona podría editarse y cambiarse de una transcripción de texto (haciéndola decir algo que nunca dijo) y audio creación de contenido cuando se combina con otros modelos generativos de IA como GPT-3.

Microsoft llama a VALL-E un «modelo de lenguaje de códec neuronal» y utiliza una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. VALL-E genera códigos de códec de audio discretos a partir de mensajes de texto y auditivos, a diferencia de otros métodos de texto a voz.

Analiza cómo suena una persona, divide esa información en componentes discretos (llamados «tokens») gracias a EnCodec y usa datos de entrenamiento para hacer coincidir lo que «sabe» sobre cómo sonaría esa voz si pronunciara otras frases fuera de los tres segundos. muestra. O, como dice Microsoft en el documento de VALL-E:

Para sintetizar voz personalizada (p. ej., TTS de tiro cero), VALL-E genera los tokens acústicos correspondientes condicionados por los tokens acústicos de la grabación inscrita de tres segundos y el indicador de fonema, que restringen la información del hablante y el contenido. Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neuronal correspondiente.

Microsoft entrenó las capacidades de síntesis de voz de VALL-E en una biblioteca de audio ensamblada por Meta llamada LibriLight. Contiene 60 000 horas de habla en inglés de más de 7000 hablantes, en su mayoría extraídos de audiolibros de dominio público de LibriVox. Para que VALL-E genere un buen resultado, la voz en la muestra de tres segundos debe coincidir estrechamente con una voz en los datos de entrenamiento.

Videojuegos y películas: una relación de inspiración mutua
La industria del entretenimiento siempre nos brinda un notable catálogo...
¿Quién es el fabricante de nuestra fuente de poder?
La mayoría lo sabe, pero todavía hay muchas personas que...
Recopilación: Teclas para acceder a la BIOS/UEFI
El otro día nos tocó acceder a la BIOS de...
Review Remo Recover – Programa para recuperar archivos eliminados en SSD’s
Introducción La perdida de datos es un problema muy importante...

Telegram de Info Cero

Únete a nuestro Telegram para estar al tanto de todas las noticias