Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/18362
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorSALGADO, Ana Carolina-
dc.contributor.authorCANALLE, Gabrielle Karine-
dc.date.accessioned2017-03-02T12:07:34Z-
dc.date.available2017-03-02T12:07:34Z-
dc.date.issued2016-08-22-
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/18362-
dc.description.abstractIntegração de Dados é um processo essencial quando deseja-se obter uma visão unificada de dados armazenados em fontes de dados autônomas, heterogêneas e distribuídas. Uma etapa crucialdesseprocessoéaResoluçãodeEntidades,queconsisteemidentificarinstânciasquese referemàmesmaentidadedomundoreal. AResoluçãodeEntidadessesubdivideemvárias fases, incluindoumafasedecomparaçãoentreparesdeinstâncias. Nestafase, sãoutilizadas funçõesqueavaliamasimilaridadeentreosvaloresdosatributosquedescrevemasinstâncias. É importante notar que a qualidade do resultado do processo de Resolução de Entidades é diretamente afetada pelo conjunto de atributos selecionados para a fase de comparação de instâncias. Contudo, selecionar tais atributos pode ser um grande desafio, devido ao grande númerodeatributosquedescrevemasinstânciasouàbaixarelevânciadealgunsatributospara o processo de Resolução de Entidades. Na literatura existem alguns trabalhos que abordam esse problema. Em sua maioria, as abordagens propostas para seleção de atributos utilizam aprendizagemdemáquina. Noentanto, alémdanecessidadedeumconjuntodetreinamento, cujadefiniçãoéumatarefadifícil,principalmenteemcenáriosdegrandesvolumesdedados, aaprendizagemdemáquinaéumprocessocustoso. Nestecontexto,estetrabalhopropõeuma estratégiaparaseleçãodeatributosrelevantesaseremconsideradosnafasedecomparaçãode instâncias do processo de Resolução de Entidades. A estratégia proposta considera critérios relacionadosaosdados,taiscomoadensidadeerepetiçãodevaloresdecadaatributo,ecritérios relacionados às fontes, tal como a confiabilidade, para avaliar a relevância de um atributo para a fase de comparação de instâncias. Um atributo é considerado relevante se contribui positivamenteparaaidentificaçãodecorrespondênciasverdadeiras,eirrelevantesecontribuina identificaçãodecorrespondênciaserradas(falsospositivosefalsosnegativos). Emexperimentos realizados,utilizandoaestratégiaproposta,foipossívelalcançarbonsresultadosnacomparação deinstânciasdoprocessodeResoluçãodeEntidades,ouseja,osatributosdadoscomorelevantes foramaquelesquecontribuíramparaencontraromaiornúmerodecorrespondênciasverdadeiras, comomenornúmerodecorrespondênciaserradas.pt_BR
dc.language.isobrpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectIntegraçãode Dadospt_BR
dc.subjectResolução de Entidadespt_BR
dc.subjectSeleção de Atributospt_BR
dc.subjectData Integrationpt_BR
dc.subjectEntity Resolutionpt_BR
dc.subjectAttribute Selectionpt_BR
dc.titleUma estratégia para seleção de atributos relevantes no processo de resolução de entidadespt_BR
dc.typeDissertacaopt_BR
dc.contributor.advisor-coLÓSCIO, Bernadette Farias-
dc.contributor.authorLatteshttp://lattes.cnpq.br/1427504410131717pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1095193209251351pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxData integration is an essential task for achieving a unified view of data stored in autonomous, heterogeneous and distributed sources. A key step in this process is Entity Resolution, which consistsofidentifyinginstancesthatrefertothesamereal-worldentity. EntityResolutioncanbe subdivided into several stages, including a comparison step between instance pairs. In this step, functions that check the similarity between values of attributes are used to discover equivalent instances. It is important to note that the quality of the result of the entity resolution process is directly affected by the set of selected attributes used to compare the instances. However, selecting such attributes can be challenging, due to either the large number of attributes that describes an instance or to the low relevance of some attributes regarding to the entity resolution process. In the literature, there are some approaches that investigated this problem. Most of them employ machine learning techniques for selecting relevant attributes. Usually, these techniques are computationally costly and also have the necessity of defining a training set, which requirements are non-trivial, mainly in large volumes of data scenarios. In this context, this work proposes a strategy for selecting relevant attributes to be considered in the instance comparison phase of the process of Entity Resolution. The proposed strategy considers criteria related to data, such as density and repetition of values of each attribute, and related to sources, such as reliability, to evaluate the relevance of the attributes. An attribute is considered relevant if contributes positively for the identification of true matches, and irrelevant if contributes for the identification of incorrect matches (false positives and false negatives). In our experiments, the proposed strategy achieved good results for the Entity Resolution process. That is, the attributes classified as relevant were the ones that contributed to find the greatest number of true matches with a few incorrect matches.pt_BR
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
Dissertacao_versao_final.pdf2.26 MBAdobe PDFView/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons