Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português

Autores

  • Lúcia Helena de Magalhães UNIVERSIDADE FEDERAL DE MINAS GERAIS
  • Renato Rocha Souza UNIVERSIDADE FEDERAL DE MINAS GERAIS

Resumo

Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.

Palavras-chave: Agrupamento de notícias. Processamento de linguagem natural. Aprendizado de Máquina. Análise de textos.

Link: https://periodicos.ufmg.br/index.php/moci/article/view/19170

Downloads

Não há dados estatísticos.

Biografia do Autor

Lúcia Helena de Magalhães, UNIVERSIDADE FEDERAL DE MINAS GERAIS

Escola de Ciência da Informação da UFMG    

Publicado

2020-06-21

Como Citar

Magalhães, L. H. de ., & Souza, R. R. . (2020). Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português. Pesquisa Brasileira Em Ciência Da Informação E Biblioteconomia, 15(2). Recuperado de https://pbcib.com/index.php/pbcib/article/view/53412

Edição

Seção

Resumos de artigos científicos