Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/45866
Comparte esta pagina
Título : | Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas |
Autor : | MAGALHÃES, Mateus Nunes de Barros |
Palabras clave : | Banco de dados; Data-warehouse |
Fecha de publicación : | 24-feb-2022 |
Editorial : | Universidade Federal de Pernambuco |
Citación : | MAGALHÃES, Mateus Nunes de Barros. Uma avaliação da redundância e do particionamento de dados convencionais e geoespaciais em data warehouses orientados a colunas. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022. |
Resumen : | A crescente demanda por processamento analítico alinhada à expansão dos casos de uso envolvendo Big Data colocou em xeque a capacidade dos bancos de dados relacionais de atenderem essas aplicações sem comprometerem o desempenho das mesmas ou incorrerem em elevados custos financeiros. Assim, os bancos NoSQL se mostraram uma alternativa promissora em razão de relaxarem muitos dos controles de consistência, integridade e transacionais em troca de disponibilidade, capacidade de processamento paralelo e escalabilidade horizontal. Estudos mostraram que os bancos NoSQL orientados a colunas são boas opções para aplicações analíticas em razão do particionamento vertical onde dados são armazenados de forma contígua e com separação física. O planejamento de esquemas para tais bancos foi objeto de diversos trabalhos acadêmicos, os quais, avaliaram os impactos de abordagens ditas normalizadas e desnormalizadas, bem como, a distribuição dos dados entre famílias de colunas, com o intuito de identificar as boas práticas no projeto esquemático. No entanto, não avaliaram cenários envolvendo o armazenamento e a consulta de dados geoespaciais. Vislumbrando tal lacuna, nós investigamos o projeto esquemático bem como a redundância de dados convencionais e geoespaciais em GDWs construídas sob bancos NoSQL orientados a colunas para finalidades analíticas. Propusemos 40 esquemas criados a partir de abordagens para a implementação dos relacionamentos entre a tabela de fatos e as dimensões convencionais, dimensões convencionais e as geoespaciais e entre as próprias geoespaciais. Adoramos o benchmark geográfico denominado Spadawan para geração de bases em conformidade com os esquemas propostos, e para fatores de escala equivalentes a 1 e 10 vezes o tamanho padrão do benchmark. Os esquemas foram avaliados em um cluster computacional rodando o Hadoop, HBase e Spark de acordo com os tempos demandados para a execução de uma carga de consultas, tempos de ingestão dos dados e os volumes ocupados por cada uma deles. Os resultados experimentais mostraram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu para a redução dos tempos de execução, apesar de incorrer em bases maiores. A normalização das dimensões geográficas de menor seletividade trouxe impactos positivos, enquanto as mais seletivas não influenciaram significativamente de forma positiva ou negativa. |
URI : | https://repositorio.ufpe.br/handle/123456789/45866 |
Aparece en las colecciones: | Dissertações de Mestrado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Mateus Nunes de Barros Magalhães.pdf | 3,84 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons