Modelagem de tópicos: resumir e organizar corpus de dados por meio de algoritmos de aprendizagem de máquina

Autores

  • Marcos de Souza UNIVERSIDADE FEDERAL DE MINAS GERAIS
  • Renato Rocha Souza UNIVERSIDADE FEDERAL DE MINAS GERAIS

Resumo

A pesquisa compara os resultados e desempenho dos modelos Latent Semantic Indexing (LSI) e Latent Dirichlet Allocation (LDA) de Machine Learning quando aplicado Modelagem de Tópicos em documentos dos canais formais da comunicação científica, constituído por 2006 artigos científicos e resumos expandidos do XIII ao XVII Encontro Nacional de Pesquisa em Ciência da Informação (ENANCIB). Constituem as etapas da pesquisa empírica a coleta dos dados para constituição, limpeza, manipulação, combinação, normalização, tratamento e transformação dos dados do corpus para conectar aos modelos de aprendizagem de máquina. Os modelos resumiram e organizaram o corpus de dados em tópicos que são constituídos por termos e pesos. O modelo LSI apresentou uma maior variedade entre os termos e pesos contidos em cada tópico, diferente do modelo LDA que apresentou uma maior similaridade nos resultados, facilitando, assim, para o especialista de domínio, criar a suposição para os nomes dos tópicos.

Palavras-chave: Modelagem de tópicos. Aprendizagem de máquina. Alocação de Dirichlet Latente. Indexação semântica latente.

Link: https://periodicos.ufmg.br/index.php/moci/article/view/19138

Downloads

Não há dados estatísticos.

Publicado

2020-06-21

Edição

Seção

Resumos de artigos científicos