Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos

Autores

  • Fabiane dos Reis Braga Centro de Informações Nucleares da Comissão Nacional de Energia Nuclear (CNEN)

Resumo

Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.

Palavras-chave: Gestão do conhecimento. Agrupamento de documentos. Agrupamento por conjunto de itens frequentes.

Link: http://revista.ibict.br/ciinf/article/view/4056/3577

Downloads

Não há dados estatísticos.

Biografia do Autor

Fabiane dos Reis Braga, Centro de Informações Nucleares da Comissão Nacional de Energia Nuclear (CNEN)

Chefe do Centro de Informações Nucleares da Comissão Nacional de Energia Nuclear (CNEN), Doutorado em Sistemas Computacionais de Alto Desempenho pela COPPE/UFRJ

Publicado

2018-05-07

Como Citar

Braga, F. dos R. (2018). Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos. Pesquisa Brasileira Em Ciência Da Informação E Biblioteconomia, 13(1). Recuperado de https://pbcib.com/index.php/pbcib/article/view/39275

Edição

Seção

Resumos de artigos científicos