Clasificación automática de la legibilidad de datos de fuentes múltiples basada en características lingüísticas y de la teoría de información

Autores/as

  • Zahurul Islam AG Texttechnology, Institut für Informatik
  • Alexander Mehler Goethe-Universität, Frankfurt, Germany

DOI:

https://doi.org/10.13053/cys-17-2-1516

Palabras clave:

Legibilidad de textos, Wikipedia, entropía, transmisión de información, evaluación de características.

Resumen

En este trabajo se presenta un clasificador de la legibilidad de textos basado en las características de la teoríıa de información.El clasificador ha sido desarrollado en base del enfoque lingüístico a la legibilidad usando las características léxicas, sintácticas y y semánticas. Para esta evaluación se extrajo un corpus de 645 artículos de Wikipedia, junto con sus evaluaciones de calidad. Se demuestra que las características mencionadas tienen buen desempeño, incluso en el caso cuando se exploran varios niveles lingüísticos a la vez.

Biografía del autor/a

Zahurul Islam, AG Texttechnology, Institut für Informatik

Alexander Mehler, Goethe-Universität, Frankfurt, Germany

Descargas

Publicado

2013-06-29