A Comparative Study on Text Representation Models for Topic Detection in Arabic

Rim Koulali; Abdelouafi Meziane

doi:10.13053/cys-23-3-3251

A Comparative Study on Text Representation Models For Arabic Topic Detection

Autores/as

Rim Koulali Hassan II University, Faculty of Sciences Ain Chock, LIMSAD Laboratory
Abdelouafi Meziane Mohammed I University, Oujda, Sciences Faculty, LARI Laboratory

DOI:

https://doi.org/10.13053/cys-23-3-3251

Palabras clave:

Natural language processing, topic detection, text representation, multi-word terms, named entities

Resumen

Topic Detection (TD) plays a major role in Natural Language Processing (NLP). Its applications range from Question Answering to Speech Recognition. In order to correctly detect document’s topic, wes hall first proceed with a text representation phase to transform the electronic documents contents into an efficiently software handled form. Significant efforts have been deployed to construct effective text representation models, mainly for English documents. In this paper, we realize a comparative study to investigate the impact of using stems, multi-word terms and named entities as text representation models on Topic Detection for Arabic unvowelized documents. Our experiments indicate that using named entities as text representation model is the most effective approach for Arabic Topic Detection. The performances of the two other approaches are heavily dependent on the considered topic. In order to enhance the Topic Detection results, we use combined vocabulary vectors based on stems and named entities (respectively stems and multi-word terms) association to model topics more accurately. This approach effectiveness has been endorsed by the enhancement of the system performances.

Descargas

PDF (English)

Publicado

2019-09-25

Número

Vol. 23 Núm. 3 (2019): Thematic issue: Computational Linguistics (Guest Editor A. Gelbukh)

Sección

Articles of the Thematic Issue

Licencia

Transfiero exclusivamente a la revista “Computación y Sistemas”, editada por el Centro de Investigación en Computación (CIC), los Derechos de Autor del artículo antes mencionado, asimismo acepto que no serán transferidos a ninguna otra publicación, en cualquier formato, idioma, medio existente (incluyendo los electrónicos y multimedios) o por desarrollar.

Certifico que el artículo, no ha sido divulgado previamente o sometido simultáneamente a otra publicación y que no contiene materiales cuya publicación violaría los Derechos de Autor u otros derechos de propiedad de cualquier persona, empresa o institución. Certifico además que tengo autorización de la institución o empresa donde trabajo o estudio para publicar este Trabajo.

El autor, representante acepta la responsabilidad por la publicación del Trabajo en nombre de todos y cada uno de los autores.

Esta Transferencia está sujeta a las siguientes reservas:

Los autores conservan todos los derechos de propiedad (tales como derechos de patente) de este Trabajo, con excepción de los derechos de publicación transferidos al CIC, mediante este documento.
Los autores conservan el derecho de publicar el Trabajo total o parcialmente en cualquier libro del que ellos sean autores o editores y hacer uso personal de este trabajo en conferencias, cursos, páginas web personal, etc.