Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição

AZEVEDO, Alesanco Andrade

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/40912

Share on

Title:	Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
Authors:	AZEVEDO, Alesanco Andrade
Keywords:	Banco de dados; Data warehouse; Desempenho
Issue Date:	26-Feb-2021
Publisher:	Universidade Federal de Pernambuco
Citation:	AZEVEDO, Alesanco Andrade. Data warehouse newSQL: uma análise de desempenho explorando estratégias de armazenamento e distribuição. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2021.
Abstract:	Data Warehouses (DWs) são bancos de dados projetados para favorecer o processamento ana- lítico de grandes volumes de dados. Com o intuito de prover melhor desempenho de armazena- mento e processamento analítico em DWs, sistemas de bancos de dados NewSQL surgem como uma alternativa promissora. Essa classe de banco de dados oferece facilidades para suportar es- calabilidade horizontal, linguagem SQL e armazenamento principal em memória RAM. Existem estudos que analisam o desempenho de distribuições NewSQL em processamento transacional e analítico de dados, contudo, até onde sabemos, não há estudo que analise o impacto do uso de diferentes esquemas de dados, métodos de distribuição e formas de armazenamento no desempenho de um DW implementado em NewSQL. Dessa forma, usando diferentes volumes de dados, propomos uma análise de desempenho em DWs NewSQL comparando diferentes esquemas de dados (esquema estrela e tabela flat), formas de armazenamento (rowstore e columnstore) e métodos de distribuição (replicação e particionamento por round-robin ou por hash). Para alcançar esse objetivo, realizamos uma avaliação experimental de desempenho em DWs, utilizando o Star Schema Benchmark (SSB) e o Sistema Gerenciador de Banco de Dados (SGBD) MemSQL, em estrutura de cluster de 3 computadores. Para a avaliação experimental, utilizamos métricas de volume e desempenho de tempo em tarefas de carga e consultas de dados. A partir dos dados coletados, verificamos que o uso de tabelas flat, armazenamento columnstore e particionamento por chave hash gerou os melhores resultados no tempo médio de consultas, apresentando, contudo, desvantagens no tempo de carga e no volume de dados armazenado. Destacamos ainda que o uso de columnstore, realizado em disco, conseguiu obter melhores resultados em tarefas de consulta, quando comparado rowstore realizado em RAM, diante todos os cenários avaliados.
URI:	https://repositorio.ufpe.br/handle/123456789/40912
Appears in Collections:	Dissertações de Mestrado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO Alesanco Andrade Azevedo.pdf		2.97 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show full item record Recommend this item

This item is licensed under a Creative Commons License