Firman
Ignacio Vidal Liy (autor)
Ana García García (autora)
Pablo Calleja Ibáñez (autor)
Resumen
A menudo es necesario clasificar documentos asignándoles un tema de entre una serie de opciones predefinidas. Esta labor suele ser realizada manualmente, mediante la lectura del documento por parte de un especialista. Este proceso manual es tedioso, requiere tiempo y recursos, y es propenso a sesgos y preferencias de cada especialista.Como alternativa, en este artículo presentamos un sistema de clasificación temática automática, capaz de clasificar cientos de documentos en pocos segundos, altamente parametrizable, y que no requiere de la intervención de especialistas. El sistema se basa en vocabularios temáticos predefinidos y frecuencias de uso de formas léxicas, y asigna a cada documento uno o más temas priorizados. El enfoque sugerido se ha desarrollado y probado en el contexto de artículos de divulgación científica en español.Utilizando este enfoque, es posible clasificar temáticamente grandes cantidades de documentos de forma sistemática, usando menos recursos que si se hiciese de forma manual, y evitando sesgos desconocidos. El enfoque ha demostrado una efectividad comparable a la de otras propuestas, pero requiriendo menos recursos computacionales.
Palabras clave
Clasificación de documentos. Clasificación temática. Algoritmo. Vocabularios. Frecuencias léxicas. Divulgación científica.
Revista o serie
Revista Española de Documentación Científica