Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”

Visualizações: 14

Autores

Kamila de Andrade Moura Universidade Federal do Rio Grande do Sul
Ananda Fernanda de Jesus https://orcid.org/0000-0001-7873-6040
Maria Lígia Triques https://orcid.org/0000-0002-0450-7138
José Eduardo Santarem Segundo https://orcid.org/0000-0003-3360-7872
Ana Cristina de Albuquerque https://orcid.org/0000-0003-3506-0479

Palavras-chave:

Aprendizagem de máquina, Processamento de linguagem natural, Patrimônio cultural

Resumo

Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.

Link: https://periodicos.unb.br/index.php/RICI/article/view/47537

Downloads

Não há dados estatísticos.

Publicado

2024-04-13

Como Citar

de Andrade Moura, K., de Jesus, A. F., Triques, M. L., Santarem Segundo, J. E., & de Albuquerque, A. C. (2024). Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”. Pesquisa Brasileira Em Ciência Da Informação E Biblioteconomia, 18(4). Recuperado de https://pbcib.com/index.php/pbcib/article/view/61813

Baixar Citação

Edição

v. 18 n. 4 (2023)

Seção

Resumos de artigos científicos