Eliminación de frases y decisiones de división basadas en corpus para simplificación de textos en español
DOI:
https://doi.org/10.13053/cys-17-2-1530Palabras clave:
Simplificación de textos en español, aprendizaje supervisado, clasificación de frases.Resumen
Este estudio aborda el problema desimplificación automática de textos en español conel fin de hacerlos más accesible a las personascon discapacidades cognitivas. Análisis de corpusde artículos originales y artículos simplificadosmanualmente se ha realizado para identificar ycalificar relevantes operaciones que tienen que serimplementadas en el sistema de simplificación detextos. Luego los artículos se han comparado al nivelde frase y texto mediante extracción automática decaracterísticas y diversos algoritmos de aprendizajede máquina para clasificación usando tres distintosgrupos de características (frecuencias de partes deoración (POS), información sintáctica y medidas de lacomplejidad de textos) con el propósito de identificar lascaracterísticas que ayuden a distinguir los documentosoriginales de sus simples equivalentes. Finalmente, seha investigado la posibilidad de usar esas característicasen operaciones de simplificación a nivel de frase (dividir,eliminar y reducir). Clasificación automática de frasesoriginales en las que deben preservarse y las quedeben eliminarse ha superado la clasificación anteriorsobre el mismo corpus. Las frases guardadas luego seclasificaron en las que se dividen o reducen de manerasignificativa en su longitud y las que se quedan sincambios mayores con la F-medida de 0.92. Ambosexperimentos se realizaron y compararon sobre dosdistintos conjuntos de características: el de todascaracterísticas y el mejor subconjunto recuperado por elalgoritmo de selección de atributos.Descargas
Publicado
Número
Sección
Licencia
Transfiero exclusivamente a la revista “Computación y Sistemas”, editada por el Centro de Investigación en Computación (CIC), los Derechos de Autor del artículo antes mencionado, asimismo acepto que no serán transferidos a ninguna otra publicación, en cualquier formato, idioma, medio existente (incluyendo los electrónicos y multimedios) o por desarrollar.
Certifico que el artículo, no ha sido divulgado previamente o sometido simultáneamente a otra publicación y que no contiene materiales cuya publicación violaría los Derechos de Autor u otros derechos de propiedad de cualquier persona, empresa o institución. Certifico además que tengo autorización de la institución o empresa donde trabajo o estudio para publicar este Trabajo.
El autor, representante acepta la responsabilidad por la publicación del Trabajo en nombre de todos y cada uno de los autores.
Esta Transferencia está sujeta a las siguientes reservas:
- Los autores conservan todos los derechos de propiedad (tales como derechos de patente) de este Trabajo, con excepción de los derechos de publicación transferidos al CIC, mediante este documento.
- Los autores conservan el derecho de publicar el Trabajo total o parcialmente en cualquier libro del que ellos sean autores o editores y hacer uso personal de este trabajo en conferencias, cursos, páginas web personal, etc.