Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/18362
Title: Uma estratégia para seleção de atributos relevantes no processo de resolução de entidades
Authors: CANALLE, Gabrielle Karine
Keywords: Integraçãode Dados;Resolução de Entidades;Seleção de Atributos;Data Integration;Entity Resolution;Attribute Selection
Issue Date: 22-Aug-2016
Publisher: Universidade Federal de Pernambuco
Abstract: Integração de Dados é um processo essencial quando deseja-se obter uma visão unificada de dados armazenados em fontes de dados autônomas, heterogêneas e distribuídas. Uma etapa crucialdesseprocessoéaResoluçãodeEntidades,queconsisteemidentificarinstânciasquese referemàmesmaentidadedomundoreal. AResoluçãodeEntidadessesubdivideemvárias fases, incluindoumafasedecomparaçãoentreparesdeinstâncias. Nestafase, sãoutilizadas funçõesqueavaliamasimilaridadeentreosvaloresdosatributosquedescrevemasinstâncias. É importante notar que a qualidade do resultado do processo de Resolução de Entidades é diretamente afetada pelo conjunto de atributos selecionados para a fase de comparação de instâncias. Contudo, selecionar tais atributos pode ser um grande desafio, devido ao grande númerodeatributosquedescrevemasinstânciasouàbaixarelevânciadealgunsatributospara o processo de Resolução de Entidades. Na literatura existem alguns trabalhos que abordam esse problema. Em sua maioria, as abordagens propostas para seleção de atributos utilizam aprendizagemdemáquina. Noentanto, alémdanecessidadedeumconjuntodetreinamento, cujadefiniçãoéumatarefadifícil,principalmenteemcenáriosdegrandesvolumesdedados, aaprendizagemdemáquinaéumprocessocustoso. Nestecontexto,estetrabalhopropõeuma estratégiaparaseleçãodeatributosrelevantesaseremconsideradosnafasedecomparaçãode instâncias do processo de Resolução de Entidades. A estratégia proposta considera critérios relacionadosaosdados,taiscomoadensidadeerepetiçãodevaloresdecadaatributo,ecritérios relacionados às fontes, tal como a confiabilidade, para avaliar a relevância de um atributo para a fase de comparação de instâncias. Um atributo é considerado relevante se contribui positivamenteparaaidentificaçãodecorrespondênciasverdadeiras,eirrelevantesecontribuina identificaçãodecorrespondênciaserradas(falsospositivosefalsosnegativos). Emexperimentos realizados,utilizandoaestratégiaproposta,foipossívelalcançarbonsresultadosnacomparação deinstânciasdoprocessodeResoluçãodeEntidades,ouseja,osatributosdadoscomorelevantes foramaquelesquecontribuíramparaencontraromaiornúmerodecorrespondênciasverdadeiras, comomenornúmerodecorrespondênciaserradas.
URI: https://repositorio.ufpe.br/handle/123456789/18362
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
Dissertacao_versao_final.pdf2.26 MBAdobe PDFView/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons