Segmentación por tópicos en textos científicos-técnicos usando una ventana de párrafos inferiores para medir la cohesión léxica

dc.contributor.advisorMedina Pagola, José Eladio
dc.contributor.authorHernández Rojas, Laritza
dc.coverage.spatial1016432en_US
dc.date.accessioned2016-06-08T14:17:26Z
dc.date.available2016-06-08T14:17:26Z
dc.date.issued2008-07-08
dc.description.abstractLa presente investigación se realizó en el departamento de Minería de Datos del CENATAV, responsable del procesamiento y la extracción de información en documentos digitales en esta institución. De ahí que su propósito fuese la elaboración de un método para segmentar automáticamente textos por tópicos sobre colecciones de documentos científicos-técnicos, logrando una cohesión léxica considerable de los segmentos que se obtengan y evitando la innecesaria interrupción de los mismos, con similar o superior eficacia a otros métodos existentes. Para ello fue necesaria la elaboración del Marco Teórico de la investigación, estudiando y analizando de forma critica el estado actual de los métodos de segmentación por tópicos, luego se diseño un nuevo método de segmentación por tópicos, nombrado TextLec, que resultara más adecuado que las anteriores propuestas y finalmente se validó el método propuesto a partir de corpus textuales representativos del universo investigado y su comparación con algunos de los métodos encontrados. El trabajo se justificó porque posee valor teórico, novedad científica, relevancia práctica y social, y por su utilidad metodológica. Se sustentó en el uso de la cohesión léxica como señal de cambio de tópico, del Modelo de Espacio Vectorial como forma de representación de las unidades textuales, de la medida del coseno para determinar la similitud entre dos unidades textuales, de la teoría computacional de Skorochod’ko sobre la estructura lineal del discurso y en el uso de una ventana de párrafos inferiores (por debajo) a cada párrafo, con vista a localizar el párrafo cohesionado más lejano a cada párrafo y evitar la interrupción de los tópicos. Concluyéndose con la satisfacción del objetivo propuesto.en_US
dc.description.abstractThis research was carried out at CENATAV, particularly at the Data Mining department which is the one in charge of processing and extracting information from digital documents. Thus the objective was to develop a method to automatically segment texts by topics for the scientific and technical collections and trying to achieve a strong lexical cohesion of the segments that are obtained and avoiding the unnecessary interruption with a similar or higher accuracy to other existing methods. For this aim it was necessary the elaboration of the Theoretical Framework of the research, by studying and critically analyzing the related works on thematic of segmentation by topic. Later it was designed a new methods of segmentation by topic called TextLec, which aiming at outperforming the other proposals and then the method was validated using text from the universe studied and we compared it with some of the methods we found. This work was justified because of its theoretical value as well as its novelty its social and practical relevance and its methodological usefulness. It was supported by the use of lexical cohesion as a cue of topic change of the Vector Space Model as a way to represent text units, the cosine measure to determine the similarity between two textual units, the Skorochod ‘ko computational theory about the linear structure of discourse and the use, for each paragraph of a paragraphs lower window (paragraph below) to find the farthest cohesive paragraph inside the window and to avoid topic interruptions. Hence, we have complied with the proposed goals.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/5754
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectSegmentación por Tópicosen_US
dc.subjectTextos Científicos-Técnicosen_US
dc.subjectVentana de Párrafos Inferioresen_US
dc.subjectMediciónen_US
dc.subjectCohesión Léxicaen_US
dc.subjectMétodo TextLecen_US
dc.titleSegmentación por tópicos en textos científicos-técnicos usando una ventana de párrafos inferiores para medir la cohesión léxicaen_US
dc.typeThesisen_US
dc.type.thesismasteren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Segmentación por Tópicos en Textos Científicos-Técnicos.pdf
Tamaño:
688.12 KB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: