Las mejores herramientas libres de reconocimiento de voz de GNU/Linux

Last Updated on June 13, 2019

El habla es un método cada vez más popular para interactuar con dispositivos electrónicos como computadoras, teléfonos, tabletas y televisores. El habla es probabilística, y los motores de voz nunca son 100% precisos. Pero los avances tecnológicos han significado que los motores de reconocimiento de voz ofrecen una mayor precisión para entender el habla. Mientras mejor sea la precisión, mayor será la probabilidad de que los clientes interactúen con este método de control. Y, de acuerdo con un estudio reciente de la Universidad de Stanford, la Universidad de Washington y el gigante de búsqueda chino Baidu, el habla de un teléfono inteligente es tres veces más rápido que escribir una consulta de búsqueda en una interfaz de pantalla.

Se estima que el mercado de reconocimiento de voz tendrá un valor de aproximadamente 10 mil millones de dólares al año en los próximos cuatro años. Se testigo del aumento de asistentes personales inteligentes, como Siri para Apple, Cortana para Microsoft y Mycroft para Linux. Los asistentes usan consultas de voz y una interfaz de usuario de lenguaje natural para intentar responder preguntas, hacer recomendaciones y realizar acciones sin la necesidad de ingresar el teclado. Y la popularidad de la voz para controlar dispositivos es testimonio de productos dedicados que han disminuido en grandes cantidades, como Amazon Echo, Google Home y Apple HomePod. El reconocimiento de voz también se usa en relojes inteligentes, electrodomésticos y asistentes en el automóvil. Las aplicaciones en el automóvil tienen mucho kilometraje (perdón por el juego de palabras). Algunas de las aplicaciones en el automóvil incluyen navegación, preguntar por las previsiones meteorológicas, conocer la situación del tráfico y controlar los elementos del automóvil, como el techo solar, las ventanas y el reproductor de música.

El desafío clave para desarrollar software de reconocimiento de voz, ya sea que se use en una computadora u otro dispositivo, es que el habla humana es extremadamente compleja. El software tiene que hacer frente a los diversos patrones de discurso y a los acentos de las personas. Y el habla es un proceso dinámico sin partes claramente diferenciadas. Afortunadamente, los avances técnicos han significado que es más fácil crear herramientas de reconocimiento de voz. Herramientas potentes como el aprendizaje automático y la inteligencia artificial, junto con algoritmos de voz mejorados, han alterado la forma en que se desarrollan estas herramientas. No necesitas diccionarios de fonemas. En cambio, los motores de voz pueden emplear técnicas de aprendizaje profundo para hacer frente a las complejidades del habla humana.

No hay muchos kits de herramientas de reconocimiento de voz disponibles, y algunos de ellos son software propietario. Afortunadamente, hay algunos kits de herramientas de reconocimiento de voz de código abierto muy interesantes disponibles. Estos kits de herramientas están destinados a ser la base para construir un motor de reconocimiento de voz.

Este artículo destaca el mejor software de reconocimiento de voz de código abierto para Linux. Ten en cuenta que parte del software se encuentra en un estado inicial de desarrollo y, por lo tanto, no está listo para su adopción generalizada.

Antes de examinar nuestras recomendaciones, Jasper merece una mención especial. Es una excelente plataforma de código abierto para desarrollar aplicaciones siempre controladas por voz. Es posible que te preguntes por qué HTK no aparece a continuación. Por supuesto, HTK es un kit de herramientas populares de reconocimiento de voz. Pero HTK no es elegible para figurar en las soluciones recomendadas. No porque sus derechos de autor sean propiedad de Microsoft, sino simplemente porque es un software propietario.

Exploremos las 6 herramientas de reconocimiento de la libertad de expresión disponibles. Para cada título, hemos compilado su propia página de portal con una descripción completa y un análisis en profundidad de sus características.

Herramientas de reconocimiento de voz de código abierto
DeepSpeechImplementación TensorFlow de la arquitectura DeepSpeech de Baidu.
JuliusMotor de reconocimiento de voz continuo de vocabulario grande de dos pasos
SimonSoftware de reconocimiento de voz flexible
CMUSphinxSistema de reconocimiento de voz para aplicaciones móviles y de servidor
deepspeech.pytorchImplementación de DeepSpeech2 utilizando Baidu Warp-CTC.
KaldiKit de herramientas C++ diseñado para investigadores de reconocimiento de voz.

Leer en inglés