-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Probar la transcripción automática de audio #9
Comments
Hago una prueba siguiendo esto de Dan Nguyen. Primero instalo las cosas que dice, y uso aws configure para configurar AWS. Hay que elegir una "default region" para que la transcripción funcione, yo he elegido "eu-west-3" (París), y he creado un cubo para guardar estas pruebas. Estoy usando -al azar- el Telediario de las 15h del día que Aznar va a declarar al Congreso por la Gürtel.
El proceso tardó bastante, unos 25 minutos si entiendo bien los metadatos, y me encaja con lo que yo noté en directo. Cuesta, por cierto, 0.0004$ por segundo, o sea que una hora de telediario son 1.5$ o así. |
El resultado final es de muy buena calidad, excepto en algún nombres propio (e.g. "Gürtel"), que le confunden bastante. Se puede subir un diccionario personalizado, si quisiéramos. El JSON generado es extremadamente detallado: tiene timing ¡a nivel de palabra! Tampoco creo que eso sea la solución a la segmentación (#7), que en realidad debe operar a nivel semántico. Pero es curioso, y permitiría hacer cortes muy precisos. Ejemplo del principio:
Ponerse a transcribir todo de nuevo no parece tener mucho sentido, y tiene un coste no despreciable (700 programas / año => ~1200$). Pero es interesante para uso interno. |
Por comparar con otras alternativas, Google Cloud, la versión gratuita, sin login (<1 minuto), es bastante patetero, solo mejora que pilla "Gürtel", pero pierde a Correa y la puntación no existe:
Watson, de IBM, es de puto chiste:
Quería probar alguna otra app comercial, pero me daba pereza andar registrándome. La única que me dejaba probar así de forma sencilla era Temi, aunque luego resulta que pedía el correo igualmente. Bah. El resultado era una mierda horrenda: no me han preguntado el idioma en ningún momento y claro, no daba una. Se supone que otros servicios comerciales son mejores (tengo notas de recomendaciones por ahí), pero por coste y modo de uso se salen del ámbito de Verba. |
La gente de AWS monta unas demos bastante flipantes, donde combinan un porrón de componentes para generar transcripciones y subtítulos en tiempo real en varios idiomas, todo sin usar servidores. Yo no necesito este tinglado, pero dejo aquí un par de demos por curiosidad:
|
Estamos empezando a trabajar con el ejemplo de los Telediarios de RTVE, que vienen ya subtitulados, pero es interesante en cualquier caso probar los servicios que existen para transcribir audio, por varios motivos:
Algunos días no publican los subtítulos. En particular, hay varias semanas de julio de 2018 donde no lo hacen, no sé por qué.
Hay algunos errores, sobre todo cuando conectan con corresponsales. Podría ser que la transcripción automática fuera de mejor calidad, aunque en principio sería raro.
Lo de transcribir audio es algo útil para nuestros otros proyectos, así que ya que nos ponemos a trabajar con estas cosas...
The text was updated successfully, but these errors were encountered: