Metodologia de Avaliação de Qualidade para Dados Conectados
Resumo
A Web Semântica sugere a utilização de padrões e tecnologias que atribuem estrutura e semântica aos dados, de modo que agentes computacionais possam fazer um processamento inteligente, automático, para cumprir tarefas específicas. Neste contexto, foi criado o projeto Linked Open Data (LOD), que consiste em uma iniciativa para promover a publicação de dados conectados. Com o evidente crescimento da publicação de dados conectados, a qualidade tornou-se essencial para que tais conjuntos atendam os objetivos básicos da Web Semântica. Isso porque problemas de qualidade nos conjuntos publicados constituem em um empecilho não somente para a sua utilização, mas também para aplicações que fazem uso de tais dados. Considerando que os dados conectados possibilitam um ambiente favorável para aplicações inteligentes, problemas de qualidade podem dificultar ou impedir a integração dos dados provenientes de diferentes conjuntos de dados. A literatura apresenta a aplicação de diversas dimensões de qualidade para dados conectados, porém, indaga-se a aplicabilidade de tais dimensões para avaliação de qualidade de dados conectados. Deste modo, esta pesquisa tem como objetivo propor uma metodologia para avaliação de qualidade nos conjuntos de dados conectados, bem como estabelecer um modelo do que pode ser considerado qualidade de dados no contexto da Web Semântica. Para isso, adotou-se uma abordagem exploratória e descritiva a fim de se estabelecer problemas, dimensões, requisitos de qualidade e métodos quantitativos na metodologia de avaliação, a fim de realizar a atribuição de índices de qualidade. O trabalho resultou na definição de 7 dimensões de qualidade e 14 fórmulas diferentes avaliar conjuntos de dados sobre publicações científicas. Acredita-se que a metodologia proposta consiste em um meio viável para quantificação dos problemas de qualidade em dados conectados, e que apesar dos diversos requisitos, podem existir conjuntos que não atendam determinados requisitos de qualidade, e por sua vez, não deveriam estar inclusos no diagrama do projeto LOD.
Palavras-chave: Dados Conectados. Gestão de Qualidade de Dados. Metodologia de Avaliação de Qualidade de Dados. Web Semântica.