Corpus-based Sentence Deletion and Split Decisions for Spanish Text Simplification

Sanja Štajner; Biljana Drndarevic; Horacio Saggion

doi:10.13053/cys-17-2-1530

Eliminación de frases y decisiones de división basadas en corpus para simplificación de textos en español

Autores/as

Sanja Štajner Research Group in Computational Linguistics, University of Wolverhampton, United Kingdom
Biljana Drndarevic TALN, Department of Information and Communication Technology, Universitat Pompeu Fabra, Spain
Horacio Saggion TALN, Department of Information and Communication Technology, Universitat Pompeu Fabra, Spain

DOI:

https://doi.org/10.13053/cys-17-2-1530

Palabras clave:

Simplificación de textos en español, aprendizaje supervisado, clasificación de frases.

Resumen

Este estudio aborda el problema desimplificación automática de textos en español conel fin de hacerlos más accesible a las personascon discapacidades cognitivas. Análisis de corpusde artículos originales y artículos simplificadosmanualmente se ha realizado para identificar ycalificar relevantes operaciones que tienen que serimplementadas en el sistema de simplificación detextos. Luego los artículos se han comparado al nivelde frase y texto mediante extracción automática decaracterísticas y diversos algoritmos de aprendizajede máquina para clasificación usando tres distintosgrupos de características (frecuencias de partes deoración (POS), información sintáctica y medidas de lacomplejidad de textos) con el propósito de identificar lascaracterísticas que ayuden a distinguir los documentosoriginales de sus simples equivalentes. Finalmente, seha investigado la posibilidad de usar esas característicasen operaciones de simplificación a nivel de frase (dividir,eliminar y reducir). Clasificación automática de frasesoriginales en las que deben preservarse y las quedeben eliminarse ha superado la clasificación anteriorsobre el mismo corpus. Las frases guardadas luego seclasificaron en las que se dividen o reducen de manerasignificativa en su longitud y las que se quedan sincambios mayores con la F-medida de 0.92. Ambosexperimentos se realizaron y compararon sobre dosdistintos conjuntos de características: el de todascaracterísticas y el mejor subconjunto recuperado por elalgoritmo de selección de atributos.

Biografía del autor/a

Sanja Štajner, Research Group in Computational Linguistics, University of Wolverhampton, United Kingdom

Biljana Drndarevic, TALN, Department of Information and Communication Technology, Universitat Pompeu Fabra, Spain

Horacio Saggion, TALN, Department of Information and Communication Technology, Universitat Pompeu Fabra, Spain

Descargas

PDF (English)

Publicado

2013-06-29

Número

Vol. 17 Núm. 2 (2013): 17(2) abril-junio 2013

Sección

Artículos

Licencia

Transfiero exclusivamente a la revista “Computación y Sistemas”, editada por el Centro de Investigación en Computación (CIC), los Derechos de Autor del artículo antes mencionado, asimismo acepto que no serán transferidos a ninguna otra publicación, en cualquier formato, idioma, medio existente (incluyendo los electrónicos y multimedios) o por desarrollar.

Certifico que el artículo, no ha sido divulgado previamente o sometido simultáneamente a otra publicación y que no contiene materiales cuya publicación violaría los Derechos de Autor u otros derechos de propiedad de cualquier persona, empresa o institución. Certifico además que tengo autorización de la institución o empresa donde trabajo o estudio para publicar este Trabajo.

El autor, representante acepta la responsabilidad por la publicación del Trabajo en nombre de todos y cada uno de los autores.

Esta Transferencia está sujeta a las siguientes reservas:

Los autores conservan todos los derechos de propiedad (tales como derechos de patente) de este Trabajo, con excepción de los derechos de publicación transferidos al CIC, mediante este documento.
Los autores conservan el derecho de publicar el Trabajo total o parcialmente en cualquier libro del que ellos sean autores o editores y hacer uso personal de este trabajo en conferencias, cursos, páginas web personal, etc.