Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/45866

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorFIDALGO, Robson do Nascimento-
dc.contributor.authorMAGALHÃES, Mateus Nunes de Barros-
dc.date.accessioned2022-08-22T17:02:50Z-
dc.date.available2022-08-22T17:02:50Z-
dc.date.issued2022-02-24-
dc.identifier.citationMAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/45866-
dc.description.abstractA crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa.pt_BR
dc.description.sponsorshipCAPESpt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsembargoedAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectBanco de dadospt_BR
dc.subjectData-warehousept_BR
dc.titleUma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunaspt_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/6250764038732153pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/6390018491925933pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxThe growing demand for analytical query processing and the multiplication of big data environments challenged the capabilities of relational databases to serve these purposes without worsening their performances or increasing financial costs significantly. NoSQL databases emerged as candidates to solve these issues given that they do not enforce consistency, integrity and transactional constraints in order to offer better availability, parallel computing power and horizontal scalability. Researchers found that column-oriented NoSQL databases are a better choice than row-oriented databases for the implementation of data warehouses due to the fact that they can read and aggregate data faster since columns are physically separated from each other on disk. The development of schemas for this kind of databases were the subject of multiples researchs that studied normalized approaches and denormalized approaches as well as the most optimized ways to distribute data among column families. However, they didn't investigate and evaluate scenarios involving geospatial data and the execution queries that had geospatial predicates. Observing this blank space in the literature, our work investigates the influence of data partitioning and redundancy of conventional and geospatial data in GDW built on top of column-oriented NoSQL databases. We conceived 40 different schemas that present distinct approaches for the implementation of the relationships between conventional dimensions and geospatial dimensões along with approaches for designing relationships between two geospatial dimensions. We used the Spadawan benchmark to create synthetic data that could be modeled according to our proposed schemas using scale factors equivalent to 1 and 10 times the standard size. Then, we used geospatial queries to evaluate them on a cluster running Hadoop, HBase, and also Spark. We’ve collected the schema size, loading time and running time of all our queries. The results indicated that denormalizing conventional dimensions was the best approach to reduce queries execution time, despite increasing the overall space needed. The normalization of low-selectivity geospatial data also contributed to lower execution times and, regarding high-selectivity geospatial data, the normalization or denormalization did not show significant positive or negative impacts.pt_BR
Aparece en las colecciones: Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
DISSERTAÇÃO Mateus Nunes de Barros Magalhães.pdf3,84 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons