• info@moldeointeractive.com.ar
  • +54-911-25601603

Sobre el proyecto Common Voice de Mozilla

¿Por qué es importante? ¿Por qué te afecta?

Ignacio Buioli
- 26/07/2019

En la actualidad la batalla del software Libre vs. Privado ha decantado en un modelo de software que permite la libre competencia, el desarrollo independiente, la comunidad open source presente y la remuneración de dichas actividades: el modelo Mixto. Consiste en liberar gran parte de los desarrollos a la comunidad (como los cores de determinados proyectos) y mantener desarrollos privados que han sido costeados por clientes o que poseen una complejidad tal que deseamos venderlos como features. Este modelo ha logrado el concenzo entre dos modalidades aparentemente opuestas pero que no dejaban avanzar todos los desarrollos del área. Sin embargo, aún existen muchos sistemas (o cores) que deberíamos tener liberados y no se está dando. Tal es el caso de librerías de voz en distintos idiomas para poder entrenar redes neurales en reconocimiento de voz.

No culpemos a las empresas, es muy costoso armar estas librerías. Se necesitan horas enteras de grabación de distintas frases (con lo cual es necesario una buena librería de frases primero) y diversas voces. De hecho, las mejores librerías son aquellas que clasifican las voces en sexo, edad e incluso acento. A esto hay que sumarle la obtención de posibles voluntarios (que no suelen serlos, ya que se los compensa económicamente de alguna forma) y también hace falta supervisores de las grabaciones, ya que el registro de voz debe coincidir con la frase a la que hace referencia. Es lógico que tras semejante inversión, la empresa no desee dar la librería de forma gratuita a otra empresa para que esta última desarrolle. Se puede entender hasta cierto punto, pero en la actualidad se hace dificil aceptar que no exista, al menos, un intento de librería de audios Open Source. A esto me refería previamente con lo de "core libre"; uno puede tener liberado el core de Odoo (como de hecho Odoo hace) pero sus funcionalidades más complejas o "atractivas" se encuentran en un modelo al cual se accede mediante el pago de una licencia. Y esto a Odoo le funciona porque los desarrolladores vendemos ambas versiones: en una gana publicidad y posibles empresas que en el futuro escalen para poder comprar la licencia; y en la otra ganan el dinero. Los desarrolladores ganamos en ambas formas porque el core en sí es Open Source, asi que no necesitamos invertir más que tiempo para aprender. ¿Por qué no hay algo así para las librerías de audio? A lo mejor sea porque la inversión inicial es altísima por la necesidad de usuarios grabando audios siendo supervisados (sin contar la necesidad de actualizar las librerías, ya que el lenguaje tiende a mutar). Pero, ¿Y sí los usuarios utilizaran internet para grabar sus audios en cualquier parte del mundo? ¿Y si fueran esos mismos usuarios los que validen los audios? ¿Y si pudieran hacerlo incluso de forma anónima? Mozilla parece tener la respuesta con el proyecto Common Voice.

¿Qué es Common Voice?

Un proyecto de la fundación Mozilla, Open Source, que permite a usuarios registrados o anónimos grabar audios y/o validar los que ya están grabados. El proceso es sencillo, se debe ingresar a voice.mozilla.org y saldrán dos opciones: Hablar y Escuchar. Si le damos a Hablar nos saldrá una sencilla interfaz con una frase, la frase no tiene que tener sentido. Habrá un botón con el clásico signo del micrófono que al oprimirlo nos dará la función de grabar la frase. Lo ideal es decirlo con voz natural, leer exactamente lo que está escrito con el acento natural de cada uno. Al finalizar, oprimimos el botón de Detener y nos dará otra frase. Así hasta completar 5. Nos dará entonces la opción de volver a escucharlas (si lo deseamos) y regrabar alguna que no nos convenza. Cuando estemos listos le daremos a "Enviar" y nuestros audios pasaran a formar parte de la Base de Datos No validada. Por otro lado, la opción Escuchar es para escuchar audios ya grabados y seleccionar Si, en caso de que se escuche bien la frase o No en caso de errores de audio, palabras que no se entiendan o palabras mal leidas (es común encontrarse audios donde una persona lee "que" como "de que", la idea es localizar esos errores). Cualquiera de las dos opciones (Hablar o Escuchar) sirve para completar la meta de 1200 fragmentos por día (mientras más, mejor).

El Español como idioma ha sido implementado hace poco (menos de un mes) y por lo tanto a penas se está sumando gente. A día de hoy, llevamos unas 45 horas validadas y el objetivo es tener unas 1200 horas para considerar a la librería de audio como "completa".  La comunidad de hispanohablantes es, claramente, inmensa; así que esperemos cumplir esta meta pronto. Considero, además, que es muy beneficioso registrarse en el sitio y mandar los audios desde la cuenta creada. La cuenta en sí es anonima (y hasta pueden hacer su nick anónimo), pero la librería gana mucha calidad ya que los audios que envíen, a parte de estar asociados a una frase, también tendrán datos de la voz (sexo, edad, acento, etc) lo cual hará que la librería sea de muy buena calidad una vez este terminada.

Por último comentar que la interfaz es muy ingeniosa, muy al estilo "gamification"; lograron hacer que sea muy entretenido y hasta adictivo enviar audios. Además, hay un Top de aquellos que más contribuyen (para quienes disfruten de ver su nick en un Top) y hasta objetivos a cumplir. En otro orden de cosas, es interesante escuchar los distintos acentos al momento de validar (y en español tenemos una buena cantidad de acentos además); casi como algo lúdico de adivinar la procedencia de la voz, e incluso reconocerla ya que es muy probable encontrarnos con más de una frase grabada por la misma persona. Toda una experiencia, que además busca contribuir a un objetivo más grande. Con esta difusión, en Moldeo Interactive hacemos nuestro pequeño aporte al proyecto.

Common Voice: https://voice.mozilla.org