Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/39207
Compartilhe esta página
Título: | Análise de fatores relevantes no desempenho de plataformas para processamento de Big Data : uma abordagem baseada em projeto de experimentos |
Autor(es): | RODRIGUES, Jairson Barbosa |
Palavras-chave: | Redes de Computadores e Sistemas Distribuídos; Projeto de Experimentos (DoE); Aprendizagem de Máquina |
Data do documento: | 30-Out-2020 |
Editor: | Universidade Federal de Pernambuco |
Citação: | RODRIGUES, Jairson Barbosa. Análise de fatores relevantes no desempenho de plataformas para processamento de Big Data: uma abordagem baseada em projeto de experimentos. 2020. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020. |
Abstract: | Uma série de fenômenos tecnológicos, sociais e de mercado originaram um paradigma comumente referenciado pelo termo Big Data: grandes conjuntos de dados, criados a taxas muito altas, em formatos diversos e adquiridos de variadas fontes. Tais circunstâncias demandam tecnologias escaláveis, redundantes e tolerantes a falhas; normalmente obtidas por modelos de computação nas nuvens. O desempenho das tarefas em termos de tempo e custo depende de fatores como hardware, volume de dados e tipo de algoritmo. Escolher a configuração mais adequada é um problema de notória dificuldade devido ao número de soluções possíveis e inviabilidade de investigação de todos os cenários. Esta Tese se concentra na análise experimental de algoritmos de aprendizagem de máquina em plataformas de processamento para Big Data e se justifica ao auxiliar o adequado aprovisionamento de recursos em nuvem. É proposta uma metodologia baseada nas técnicas 2k fatorial, fundamentadas na abordagem de Projeto de Experimentos (DoE — Design of Experiments) para avaliação da influência de fatores sobre tempo e custo, a ordenação daqueles mais relevantes e a derivação de modelos preditores. O desempenho de 288 clusters reais foi avaliado através de seis projetos com 48 unidades experimentais, cada uma composta por arranjos de 8 e 28 máquinas, e cada máquina variando entre 12 e 32 núcleos, 1, 7 e 8 discos, 3x e 6x RAM por núcleo, totalizando um poder computacional de até 896 núcleos e 5.25 TB de RAM. Os experimentos foram conduzidos sobre duas bases de dados. Primeiramente foram construídos 1.06 TB de dados sintéticos estruturados em 3.65 milhões de instâncias e 40 mil dimensões para classificação através de Florestas Aleatórias. Posteriormente, foi construído um Corpus com 249 GB de dados não estruturados de 16 milhões de páginas web de sete países de língua portuguesa. A tarefa computacional consistiu na classificação de texto para distinguir o português brasileiro de outras variações. Foram examinados os algoritmos Regressão Logística, Florestas Aleatórias, Máquinas de Vetores de Suporte, Naïve Bayes e Perceptron de Múltiplas Camadas. Análises de regressão foram aplicadas para quantificar a influência dos fatores. Os resultados incluem modelos lineares para estimar tempo e custo e uma ferramenta de análise visual baseada em coordenadas paralelas. Por fim, o trabalho evidencia a relevância dos métodos de DoE como abordagem para estimar desempenho em ambientes de processamento para Big Data. |
URI: | https://repositorio.ufpe.br/handle/123456789/39207 |
Aparece nas coleções: | Teses de Doutorado - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TESE Jairson Barbosa Rodrigues.pdf | 3,68 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons