QtNLP-Diff: Comparador de casos de corpus lingüísticos y resultados de algoritmo de similitud

Fecha

2016-06-25

Autores

Sardiñas Morales, Javier

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El presente trabajo propone el módulo QtNLP-Diff para la herramienta QtNLP, que permite estudiar los casos del XML de resultados de un algoritmo de detección de texto reusado, comparándolos con los del XML del corpus lingüístico original. El documento comprende la elaboración de un diseño de fácil uso por lingüistas con poco conocimiento en informática y por especialistas informáticos que trabajan en el área del Procesamiento del Lenguaje Natural (NLP) en las universidades cubanas. La comparación en pares de casos, provenientes de los XML del corpus y los resultados del algoritmo, es actualmente un proceso complejo e ineficiente. El módulo implementado facilita la caracterización de casos, para la validación de nuevos algoritmos de similitud. Para la gestión y análisis de la herramienta propuesta se utiliza la metodología ágil SXP, un híbrido de SCRUM y XP, poniendo énfasis en el diseño de la arquitectura del software, y la validación mediante pruebas de aceptación. Los resultados muestran que, con la utilización del corpus TNLP y resultados de algoritmos en idioma español, la herramienta permite a los investigadores construir fácilmente nuevos XMLs con casos de interés posteriormente a la revisión de casos.
The work involves the development of QtNLP-Diff module for QtNLP tool, which allows to study cases XML files containing results of a detection algorithm applied to reused text with XML containing the original linguistic corpus. The document includes the development of a user-friendly design to facilitate the work of linguists with little knowledge in computer science and computer specialists working in the area of Natural Language Processing (NLP) in Cuban universities. The pairwise comparison of cases from the XML corpus and the results of the algorithm is currently a complex and inefficient process. The implemented module facilitates the characterization of cases for validation of new similarity algorithms. The SXP agile methodology was used for the management and analysis of the proposed tool. This methodology is a hybrid of SCRUM and XP, with an emphasis on the design of software architecture and validation through acceptance testing. The results show that use of the corpus TNLP and the results of Spanish language algorithms allow researchers to build new XMLs cases of interest easily, after reviewing cases.

Descripción

Palabras clave

QtNLP, Texto Reusado, Corpus Lingüístico, SXP, Re-used Text, Linguistic Corpus, SXP

Citación