Um processo incremental e orientado à consulta para resolução de entidades em sistemas de integração de dados

AZEVÊDO, Priscilla Kelly Machado Vieira

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/29695

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	SALGADO, Ana Carolina	-
dc.contributor.author	AZEVÊDO, Priscilla Kelly Machado Vieira	-
dc.date.accessioned	2019-03-13T22:17:32Z	-
dc.date.available	2019-03-13T22:17:32Z	-
dc.date.issued	2017-11-27	-
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/29695	-
dc.description.abstract	A Resolução de Entidades (RE) é o problema de identificar grupos de tuplas (registros ou instâncias), em uma única ou múltiplas fontes de dados, que representam a mesma entidade do mundo real. Esta é uma etapa crucial do processo de integração de dados, que muitas vezes necessita integrar dados em tempo de consulta (online). Esta tarefa torna-se ainda mais onerosa quando são consideradas fontes dinâmicas e com grandes volumes de dados. Além disso, tais características, tornam o processo de RE mais desafiador, uma vez que a maioria das técnicas de RE (tradicional), processa todas as tuplas de uma única vez, ao invés de processar apenas as tuplas importantes para o usuário. Portanto, novas soluções são necessárias para contornar este problema. Neste trabalho é proposto um processo incremental e orientado à consulta para RE. O processo é considerado incremental porque a cada iteração um conjunto de novas tuplas é processado e adicionado às demais tuplas processadas previamente. O termo orientado à consulta é proveniente do fato do processo proposto ser aplicado apenas sobre resultados de consultas. As contribuições deste trabalho são: especificação, implementação e avaliação do processo proposto. O processo foi avaliado com diferentes algoritmos e sobre diferentes fontes de dados. Foram utilizadas medidas de qualidade e desempenho do processo. Observou-se que o processo proposto tem qualidade muito similar aos processos tradicionais de RE, contudo tem um desempenho melhor.	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Resolução de entidades	pt_BR
dc.subject	Integração de dados	pt_BR
dc.subject	Duplicação de dados	pt_BR
dc.title	Um processo incremental e orientado à consulta para resolução de entidades em sistemas de integração de dados	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.advisor-co	LÓSCIO, Bernadette Farias	-
dc.contributor.authorLattes	http://lattes.cnpq.br/6410600495701632	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/1095193209251351	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	The Entity Resolution (ER) is the problem of identifying groups of tuples (records or instances) from single or multiple data sources which represent the same real-world entities. ER is an essential step in data integration tasks, and it often demands to obtain results at query-time (online). Especially in settings containing dynamic data sources with large volumes of data, the ER process can be still more challenging. However, most traditional ER techniques process all tuples at once, instead of considering tuples based on a query. This lead to a need for solutions to get around this problem. This work proposes a query-driven incremental process for ER. In this case, incremental means that in each iteration phase, the currently processed tuples will increase the set of previous tuples. The term query-driven means that the process in each iteration considers only tuples regarding the query result. The contributions of this work are the specification, development, and evaluation of the proposed process. Regarding the evaluation, we have used it in existing algorithms on different data sources. We conclude that the use of previous results in ER tasks turns the process more efficient than comparing all pairs of tuples at query-time, without reducing the quality of results.	pt_BR
Aparece nas coleções:	Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TESE Priscilla Kelly Machado Vieira.pdf		3,1 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons