Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos

Actualmente, los datos textuales constituyen una parte fundamental de las bases de datos de todo el mundo y uno de los mayores desafíos ha sido la extracción de información útil a partir de conjuntos grandes de documentos de texto. La literatura existente sobre métodos para resolver este problema es...

Full description

Saved in:
Bibliographic Details
Format: Article
Language:English
Published: Instituto Tecnológico de Costa Rica 2020-02-01
Series:Tecnología en Marcha
Subjects:
Online Access:https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/5022
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1849471047894564864
collection DOAJ
description Actualmente, los datos textuales constituyen una parte fundamental de las bases de datos de todo el mundo y uno de los mayores desafíos ha sido la extracción de información útil a partir de conjuntos grandes de documentos de texto. La literatura existente sobre métodos para resolver este problema es muy extensa, sin embargo, los métodos estadísticos (que utilizan métricas de similitud sobre vectores de palabras) han mostrado resultados muy favorables en el campo de la minería de texto durante los últimos 25 años. Adicionalmente, otros modelos han surgido como una prometedora alternativa para lograr reducción dimensional e incorporación de la semántica en la clasificación de documentos, tal como el modelado de temas. Este proyecto se enfoca en la evaluación de técnicas de representación y medidas de similitud de texto (Coseno, Jaccard y Kullback-Leibler) usando el algoritmo de Vecinos más Cercanos (KNN por sus siglas en inglés), con el fin de medir la efectividad del modelado de temas para reducción dimensional al clasificar texto. Los resultados muestran que la versión más tradicional del vector de palabras y la similitud Jaccard superaron al resto de las combinaciones en la mayoría de los casos de uso. Sin embargo, el análisis estadístico mostró que no hubo una diferencia significativa entre la exactitud obtenida al usar representaciones generadas por la Asignación de Dirichlet Latente (técnica de modelado de temas más conocida como LDA por sus siglas en inglés), y la obtenida usando técnicas tradicionales de clasificación de texto. LDA logró abstraer miles de palabras en menos de 60 temas para el primer conjunto de pruebas. Experimentos adicionales sugieren que el modelado de temas puede llegar a lograr un mejor rendimiento al ser usado para clasificar textos cortos y al incrementar el número de temas permitidos al momento de generar el modelo.
format Article
id doaj-art-e63a0d29f7ab41df8c79f3a4e5e9dadf
institution Kabale University
issn 0379-3982
2215-3241
language English
publishDate 2020-02-01
publisher Instituto Tecnológico de Costa Rica
record_format Article
series Tecnología en Marcha
spelling doaj-art-e63a0d29f7ab41df8c79f3a4e5e9dadf2025-08-20T03:24:58ZengInstituto Tecnológico de Costa RicaTecnología en Marcha0379-39822215-32412020-02-01ág. 647910.18845/tm.v33i1.50224295Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentosActualmente, los datos textuales constituyen una parte fundamental de las bases de datos de todo el mundo y uno de los mayores desafíos ha sido la extracción de información útil a partir de conjuntos grandes de documentos de texto. La literatura existente sobre métodos para resolver este problema es muy extensa, sin embargo, los métodos estadísticos (que utilizan métricas de similitud sobre vectores de palabras) han mostrado resultados muy favorables en el campo de la minería de texto durante los últimos 25 años. Adicionalmente, otros modelos han surgido como una prometedora alternativa para lograr reducción dimensional e incorporación de la semántica en la clasificación de documentos, tal como el modelado de temas. Este proyecto se enfoca en la evaluación de técnicas de representación y medidas de similitud de texto (Coseno, Jaccard y Kullback-Leibler) usando el algoritmo de Vecinos más Cercanos (KNN por sus siglas en inglés), con el fin de medir la efectividad del modelado de temas para reducción dimensional al clasificar texto. Los resultados muestran que la versión más tradicional del vector de palabras y la similitud Jaccard superaron al resto de las combinaciones en la mayoría de los casos de uso. Sin embargo, el análisis estadístico mostró que no hubo una diferencia significativa entre la exactitud obtenida al usar representaciones generadas por la Asignación de Dirichlet Latente (técnica de modelado de temas más conocida como LDA por sus siglas en inglés), y la obtenida usando técnicas tradicionales de clasificación de texto. LDA logró abstraer miles de palabras en menos de 60 temas para el primer conjunto de pruebas. Experimentos adicionales sugieren que el modelado de temas puede llegar a lograr un mejor rendimiento al ser usado para clasificar textos cortos y al incrementar el número de temas permitidos al momento de generar el modelo.https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/5022similitud de textoclasificación de textoknnmodelado de temas
spellingShingle Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos
Tecnología en Marcha
similitud de texto
clasificación de texto
knn
modelado de temas
title Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos
title_full Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos
title_fullStr Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos
title_full_unstemmed Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos
title_short Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos
title_sort evaluacion de distintas tecnicas de representacion de texto y medidas de distancia de texto usando knn para clasificacion de documentos
topic similitud de texto
clasificación de texto
knn
modelado de temas
url https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/5022