Eliminación de frases y decisiones de división basadas en corpus para simplificación de textos en español

Autores/as

  • Sanja Štajner Research Group in Computational Linguistics, University of Wolverhampton, United Kingdom
  • Biljana Drndarevic TALN, Department of Information and Communication Technology, Universitat Pompeu Fabra, Spain
  • Horacio Saggion TALN, Department of Information and Communication Technology, Universitat Pompeu Fabra, Spain

DOI:

https://doi.org/10.13053/cys-17-2-1530

Palabras clave:

Simplificación de textos en español, aprendizaje supervisado, clasificación de frases.

Resumen

Este estudio aborda el problema desimplificación automática de textos en español conel fin de hacerlos más accesible a las personascon discapacidades cognitivas. Análisis de corpusde artículos originales y artículos simplificadosmanualmente se ha realizado para identificar ycalificar relevantes operaciones que tienen que serimplementadas en el sistema de simplificación detextos. Luego los artículos se han comparado al nivelde frase y texto mediante extracción automática decaracterísticas y diversos algoritmos de aprendizajede máquina para clasificación usando tres distintosgrupos de características (frecuencias de partes deoración (POS), información sintáctica y medidas de lacomplejidad de textos) con el propósito de identificar lascaracterísticas que ayuden a distinguir los documentosoriginales de sus simples equivalentes. Finalmente, seha investigado la posibilidad de usar esas característicasen operaciones de simplificación a nivel de frase (dividir,eliminar y reducir). Clasificación automática de frasesoriginales en las que deben preservarse y las quedeben eliminarse ha superado la clasificación anteriorsobre el mismo corpus. Las frases guardadas luego seclasificaron en las que se dividen o reducen de manerasignificativa en su longitud y las que se quedan sincambios mayores con la F-medida de 0.92. Ambosexperimentos se realizaron y compararon sobre dosdistintos conjuntos de características: el de todascaracterísticas y el mejor subconjunto recuperado por elalgoritmo de selección de atributos.

Biografía del autor/a

Sanja Štajner, Research Group in Computational Linguistics, University of Wolverhampton, United Kingdom

Biljana Drndarevic, TALN, Department of Information and Communication Technology, Universitat Pompeu Fabra, Spain

Horacio Saggion, TALN, Department of Information and Communication Technology, Universitat Pompeu Fabra, Spain

Descargas

Publicado

2013-06-29