Análise de fatores relevantes no desempenho de plataformas para processamento de Big Data : uma abordagem baseada em projeto de experimentos

RODRIGUES, Jairson Barbosa

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/39207

Compartilhe esta página

Título:	Análise de fatores relevantes no desempenho de plataformas para processamento de Big Data : uma abordagem baseada em projeto de experimentos
Autor(es):	RODRIGUES, Jairson Barbosa
Palavras-chave:	Redes de Computadores e Sistemas Distribuídos; Projeto de Experimentos (DoE); Aprendizagem de Máquina
Data do documento:	30-Out-2020
Editor:	Universidade Federal de Pernambuco
Citação:	RODRIGUES, Jairson Barbosa. Análise de fatores relevantes no desempenho de plataformas para processamento de Big Data: uma abordagem baseada em projeto de experimentos. 2020. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.
Abstract:	Uma série de fenômenos tecnológicos, sociais e de mercado originaram um paradigma comumente referenciado pelo termo Big Data: grandes conjuntos de dados, criados a taxas muito altas, em formatos diversos e adquiridos de variadas fontes. Tais circunstâncias demandam tecnologias escaláveis, redundantes e tolerantes a falhas; normalmente obtidas por modelos de computação nas nuvens. O desempenho das tarefas em termos de tempo e custo depende de fatores como hardware, volume de dados e tipo de algoritmo. Escolher a configuração mais adequada é um problema de notória dificuldade devido ao número de soluções possíveis e inviabilidade de investigação de todos os cenários. Esta Tese se concentra na análise experimental de algoritmos de aprendizagem de máquina em plataformas de processamento para Big Data e se justifica ao auxiliar o adequado aprovisionamento de recursos em nuvem. É proposta uma metodologia baseada nas técnicas 2k fatorial, fundamentadas na abordagem de Projeto de Experimentos (DoE — Design of Experiments) para avaliação da influência de fatores sobre tempo e custo, a ordenação daqueles mais relevantes e a derivação de modelos preditores. O desempenho de 288 clusters reais foi avaliado através de seis projetos com 48 unidades experimentais, cada uma composta por arranjos de 8 e 28 máquinas, e cada máquina variando entre 12 e 32 núcleos, 1, 7 e 8 discos, 3x e 6x RAM por núcleo, totalizando um poder computacional de até 896 núcleos e 5.25 TB de RAM. Os experimentos foram conduzidos sobre duas bases de dados. Primeiramente foram construídos 1.06 TB de dados sintéticos estruturados em 3.65 milhões de instâncias e 40 mil dimensões para classificação através de Florestas Aleatórias. Posteriormente, foi construído um Corpus com 249 GB de dados não estruturados de 16 milhões de páginas web de sete países de língua portuguesa. A tarefa computacional consistiu na classificação de texto para distinguir o português brasileiro de outras variações. Foram examinados os algoritmos Regressão Logística, Florestas Aleatórias, Máquinas de Vetores de Suporte, Naïve Bayes e Perceptron de Múltiplas Camadas. Análises de regressão foram aplicadas para quantificar a influência dos fatores. Os resultados incluem modelos lineares para estimar tempo e custo e uma ferramenta de análise visual baseada em coordenadas paralelas. Por fim, o trabalho evidencia a relevância dos métodos de DoE como abordagem para estimar desempenho em ambientes de processamento para Big Data.
URI:	https://repositorio.ufpe.br/handle/123456789/39207
Aparece nas coleções:	Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TESE Jairson Barbosa Rodrigues.pdf		3,68 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons