Redacción.- Whisper es una nueva inteligencia artificial de OpenAI que planea revolucionar los traductores y las tecnologías de voz a texto. De acuerdo a ArsTechnica, esta IA es capaz de transcribir y traducir entrevistas, podcasts, conversaciones y mucho más.
Según comentan desde OpenAI, su inteligencia artificial se ha entrenado con más de 680.000 horas de audio. Pero, además de escuchar, Whisper también ha tenido que hacer coincidir dichas palabras con texto escrito.
Gracias a la red neuronal de la inteligencia artificial, puede utilizar contexto a partir de los datos de entrada, para posteriormente aprender asociaciones que pueden traducirse en la salida del modelo.
«El audio de entrada se divide en trozos de 30 segundos», describe OpenAI en la publicación oficial. De esta forma, «se convierte en un espectrograma… y se pasa al codificador».
Pero no es todo. Posteriormente, se entrena al codificador para predecir el texto correspondiente. ¿Cómo se hace? Se entremezclan tokens especiales que orientan al modelo a llevar a cabo una sola tarea, como la de identificación de idioma. Después se añaden a la ecuación otras variables, como la identificación de las marcas de tiempo a nivel de frase, la transcripción del habla multilingüe y la traducción al inglés.
Recibe las últimas noticias en tu casilla de email