Detección de tópicos
Fecha
2015
Autores
Torres López, Carmen
Arco García, Leticia
Título de la revista
ISSN de la revista
Título del volumen
Editor
Feijóo
Resumen
El acceso a los datos de forma efectiva y rápida es de gran importancia hoy en día; sin embargo, manejar eficientemente tales cantidades de datos constituye un desafío. Por ejemplo, resulta muy difícil que alguna persona posea el tiempo para leer toda la información disponible sobre un tema dado, por tal motivo, podría ser mucho más efectivo leer y buscar por temas específicos. De ahí que uno de los campos de investigación que ha tomado la iniciativa en el procesamiento de datos textuales es la Detección y Seguimiento de Tópicos (Topic Detection and Tracking; TDT); referido de forma general como “las técnicas automáticas para encontrar material relacionado tópicamente en flujos de datos” [1] o como “un tema importante cuando grandes volúmenes de datos son enviados continuamente al usuario” [2]. De esta forma, “un tópico es un conjunto coherente de términos relacionados semánticamente que expresan un único argumento” [3].
Para crear algoritmos en el contexto de TDT se propusieron cinco tareas, cada una es vista como un componente cuya solución ayuda a guiar el problema de organizar los documentos por tópicos [4] [5]. Las tareas consisten en la segmentación de historias (encontrar regiones homogéneas en el texto tópicamente); el seguimiento (encontrar historias adicionales sobre un tópico dado); la detección de la primera historia (reconocer el comienzo de un nuevo tópico en el flujo de historias); la detección de grupos (detectar y agrupar nuevos tópicos, es decir, agrupar todas las historias tal como llegan, basándose en los tópicos que ellas presentan) y la detección de enlaces de historias (decidir si dos historias seleccionadas aleatoriamente pertenecen al mismo tópico).
La detección de tópicos inicialmente fue declarada como una tarea dependiente de la segmentación, debido a que la entrada de los algoritmos de detección estaba representada por segmentos [4]. Sin embargo, varias han sido las propuestas que utilizan como entrada el corpus textual sin segmentar, es decir, aplican técnicas que extraen los términos de los documentos, los agrupan y estos grupos representan los tópicos. De esta forma se define a la detección de tópicos como: “la tarea que automáticamente encuentra nuevos tópicos en datos textuales” [6], “el descubrimiento de rasgos de palabras y fragmentos correspondientes a un tópico en los datos textuales, considerando a un tópico como un tema específico” [2] o “el proceso de agrupar documentos con tópicos similares en el mismo grupo” [7].
La presente monografía brinda el resultado de una revisión de la literatura dispersa sobre los métodos propuestos para la tarea de detección de tópicos. La primera sección se divide en dos partes: la primera expone las distintas clasificaciones que caracterizan a los métodos de detección, y la segunda describe los métodos desde distintos enfoques, de acuerdo al mecanismo que emplean para obtener los tópicos y luego se presentan varios ejemplos. Para concluir, se declaran algunas consideraciones finales sobre los métodos descritos, reflejando sus ventajas y desventajas, así como elementos que sugieren cuándo aplicar uno u otro en dependencia del dominio de aplicación. Finalmente, se presentan los anexos que facilitan la comprensión de los métodos que aquí se exponen, así como las principales referencias consultadas sobre el tema
Descripción
Palabras clave
Métodos para la detección de tópicos