Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição

AZEVEDO, Alesanco Andrade

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/40912

Compartilhe esta página

Título:	Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
Autor(es):	AZEVEDO, Alesanco Andrade
Palavras-chave:	Banco de dados; Data warehouse; Desempenho
Data do documento:	26-Fev-2021
Editor:	Universidade Federal de Pernambuco
Citação:	AZEVEDO, Alesanco Andrade. Data warehouse newSQL: uma análise de desempenho explorando estratégias de armazenamento e distribuição. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2021.
Abstract:	Data Warehouses (DWs) são bancos de dados projetados para favorecer o processamento ana- lítico de grandes volumes de dados. Com o intuito de prover melhor desempenho de armazena- mento e processamento analítico em DWs, sistemas de bancos de dados NewSQL surgem como uma alternativa promissora. Essa classe de banco de dados oferece facilidades para suportar es- calabilidade horizontal, linguagem SQL e armazenamento principal em memória RAM. Existem estudos que analisam o desempenho de distribuições NewSQL em processamento transacional e analítico de dados, contudo, até onde sabemos, não há estudo que analise o impacto do uso de diferentes esquemas de dados, métodos de distribuição e formas de armazenamento no desempenho de um DW implementado em NewSQL. Dessa forma, usando diferentes volumes de dados, propomos uma análise de desempenho em DWs NewSQL comparando diferentes esquemas de dados (esquema estrela e tabela flat), formas de armazenamento (rowstore e columnstore) e métodos de distribuição (replicação e particionamento por round-robin ou por hash). Para alcançar esse objetivo, realizamos uma avaliação experimental de desempenho em DWs, utilizando o Star Schema Benchmark (SSB) e o Sistema Gerenciador de Banco de Dados (SGBD) MemSQL, em estrutura de cluster de 3 computadores. Para a avaliação experimental, utilizamos métricas de volume e desempenho de tempo em tarefas de carga e consultas de dados. A partir dos dados coletados, verificamos que o uso de tabelas flat, armazenamento columnstore e particionamento por chave hash gerou os melhores resultados no tempo médio de consultas, apresentando, contudo, desvantagens no tempo de carga e no volume de dados armazenado. Destacamos ainda que o uso de columnstore, realizado em disco, conseguiu obter melhores resultados em tarefas de consulta, quando comparado rowstore realizado em RAM, diante todos os cenários avaliados.
URI:	https://repositorio.ufpe.br/handle/123456789/40912
Aparece nas coleções:	Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO Alesanco Andrade Azevedo.pdf		2.97 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons