Etiquetado fonético automático al nivel palabra usando la dinámica de cambio de los vectores del libro código

Autores/as

  • Sergio Suárez Guerra Instituto Politécnico Nacional, Centro de Investigación en Computación
  • José Luis Oropeza Rodríguez Instituto Politécnico Nacional, Centro de Investigación en Computación

DOI:

https://doi.org/10.13053/cys-24-2-3229

Palabras clave:

Etiquetado fonético, reconocimiento de voz

Resumen

Se describe una solución alternativa referente al etiquetado fonético sobre un conjunto de palabras pronunciadas por un locutor, susceptible de utilizarse en cualquier idioma, según se cumplan las características de la propuesta. El procedimiento se basa en el seguimiento de la dinámica de cambio de los vectores cepstrales asociados a la frecuencia de Mel (MFCCs) que se utilizan para conformar un Libro de Código (LC), extraído a partir de la palabra a etiquetar. Esta dinámica de cambio analiza dónde ocurre una transición de un vector (MFCC) del LC a otro, así como las perturbaciones que ocurren en la zona de cambio debido a la concatenación fonética. Se establecen métricas para considerar el ruido de coarticulación y definir la ubicación de la frontera de separación fonética. Se proponen dos métodos para evaluar la dinámica de cambio de los vectores y entregar el etiquetado más adecuado. Para comprobar si la tarea de etiquetado fue correcta, se hace uso de una tarea de reconocimiento del corpus considerado. Se creó un diccionario de palabras que contiene todos los fonemas considerados, etiquetándose de forma tanto manual como automática; ésta última se obtuvo mediante la propuesta que se presenta en este trabajo. El porciento de reconocimiento obtenido con esta aplicación es del 97.9%; inferior en un 1.06% con respecto al porcentaje de reconocimiento obtenido sobre el mismo corpus de palabras, pero haciendo uso de etiquetado manual, esto es para ambos casos, superior al 90%. Sin embargo, el tiempo utilizado en el etiquetado del corpus de voz de forma automática, es significativamente menor que el estimado de hacerse manualmente, además de eliminar la subjetividad personal en el trabajo de etiquetado. Con lo que se pone de manifiesto la importancia de la propuesta.

Biografía del autor/a

Sergio Suárez Guerra, Instituto Politécnico Nacional, Centro de Investigación en Computación

Profesor-investigador del CIC-IPN desde 1998, Dr. en Ciencias Técnicas de la Informática graduado en Rusia en 1979. Jefe del Laboratorio de Procesamiento Digital de Señales en el CIC-IPN

Descargas

Publicado

2020-06-23