Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/45866

Comparte esta pagina

Título : Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas
Autor : MAGALHÃES, Mateus Nunes de Barros
Palabras clave : Banco de dados; Data-warehouse
Fecha de publicación : 24-feb-2022
Editorial : Universidade Federal de Pernambuco
Citación : MAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022.
Resumen : A crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa.
URI : https://repositorio.ufpe.br/handle/123456789/45866
Aparece en las colecciones: Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
DISSERTAÇÃO Mateus Nunes de Barros Magalhães.pdf3,84 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons