Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/39207

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorVASCONCELOS, Germano Crispim-
dc.contributor.authorRODRIGUES, Jairson Barbosa-
dc.date.accessioned2021-02-11T23:51:32Z-
dc.date.available2021-02-11T23:51:32Z-
dc.date.issued2020-10-30-
dc.identifier.citationRODRIGUES, Jairson Barbosa. Análise de fatores relevantes no desempenho de plataformas para processamento de Big Data: uma abordagem baseada em projeto de experimentos. 2020. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/39207-
dc.description.abstractUma série de fenômenos tecnológicos, sociais e de mercado originaram um paradigma comumente referenciado pelo termo Big Data: grandes conjuntos de dados, criados a taxas muito altas, em formatos diversos e adquiridos de variadas fontes. Tais circunstâncias demandam tecnologias escaláveis, redundantes e tolerantes a falhas; normalmente obtidas por modelos de computação nas nuvens. O desempenho das tarefas em termos de tempo e custo depende de fatores como hardware, volume de dados e tipo de algoritmo. Escolher a configuração mais adequada é um problema de notória dificuldade devido ao número de soluções possíveis e inviabilidade de investigação de todos os cenários. Esta Tese se concentra na análise experimental de algoritmos de aprendizagem de máquina em plataformas de processamento para Big Data e se justifica ao auxiliar o adequado aprovisionamento de recursos em nuvem. É proposta uma metodologia baseada nas técnicas 2k fatorial, fundamentadas na abordagem de Projeto de Experimentos (DoE — Design of Experiments) para avaliação da influência de fatores sobre tempo e custo, a ordenação daqueles mais relevantes e a derivação de modelos preditores. O desempenho de 288 clusters reais foi avaliado através de seis projetos com 48 unidades experimentais, cada uma composta por arranjos de 8 e 28 máquinas, e cada máquina variando entre 12 e 32 núcleos, 1, 7 e 8 discos, 3x e 6x RAM por núcleo, totalizando um poder computacional de até 896 núcleos e 5.25 TB de RAM. Os experimentos foram conduzidos sobre duas bases de dados. Primeiramente foram construídos 1.06 TB de dados sintéticos estruturados em 3.65 milhões de instâncias e 40 mil dimensões para classificação através de Florestas Aleatórias. Posteriormente, foi construído um Corpus com 249 GB de dados não estruturados de 16 milhões de páginas web de sete países de língua portuguesa. A tarefa computacional consistiu na classificação de texto para distinguir o português brasileiro de outras variações. Foram examinados os algoritmos Regressão Logística, Florestas Aleatórias, Máquinas de Vetores de Suporte, Naïve Bayes e Perceptron de Múltiplas Camadas. Análises de regressão foram aplicadas para quantificar a influência dos fatores. Os resultados incluem modelos lineares para estimar tempo e custo e uma ferramenta de análise visual baseada em coordenadas paralelas. Por fim, o trabalho evidencia a relevância dos métodos de DoE como abordagem para estimar desempenho em ambientes de processamento para Big Data.pt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectRedes de Computadores e Sistemas Distribuídospt_BR
dc.subjectProjeto de Experimentos (DoE)pt_BR
dc.subjectAprendizagem de Máquinapt_BR
dc.titleAnálise de fatores relevantes no desempenho de plataformas para processamento de Big Data : uma abordagem baseada em projeto de experimentospt_BR
dc.typedoctoralThesispt_BR
dc.contributor.advisor-coMACIEL, Paulo Romero Martins-
dc.contributor.authorLatteshttp://lattes.cnpq.br/0036738410783279pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.leveldoutoradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/5943634209341438pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxA series of technological, social, and market phenomena originated a paradigm commonly referred to as Big Data: large data sets, created at very high rates, in different formats, and acquired from different sources. Such circumstances demand scalable, redundant, and fault-tolerant technologies, often achieved on clusters in the cloud computing model. The performance of tasks concerning time and cost depends on factors such as hardware, data volume and the type of algorithm. Choosing the most appropriate configuration regarding computational power or software parameters is a problem of notorious difficulty due to the number of possible solutions and the unfeasibility of investigating all scenarios. This thesis focuses on the experimental analysis of machine learning algorithms on processing platforms for Big Data, being justified by assisting the adequate provisioning of cloud resources. It is proposed a methodology based on 2k factorial techniques, reasoned on the Design of Experiments (DoE), to evaluate the influence of factors on time and cost, ranking the most relevant ones, and derivate predictive models. The performance of 288 real clusters was evaluated through six designs with 48 experimental units, each composed of arrangements of 8 and 28 machines, and each machine varying between 12 and 32 cores, 1, 7, and 8 disks, 3x and 6x RAM per core, totaling a computational power of up to 896 cores and 5.25 TB of RAM. The experiments were conducted on two databases. First, 1.06 TB of synthetic data was built, structured in 3.65 million instances, and 40 thousand dimensions for classification through the Random Forest algorithm. Subsequently, a Corpus was built with 249 GB of unstructured data from 16 million web pages from seven Portuguese-speaking countries. The computational task consisted of classifying text to distinguish Brazilian Portuguese from other variations. Five different machine learning algorithms were then examined: Logistic Regression, Random Forest, Support Vector Machines, Naïve Bayes, and Multilayer Perceptron. Regression analyzes were applied to quantify the influence of the factors. The results include linear models to estimate time and cost, quantify the effects of factors on the response, and a visual analysis tool based on parallel coordinates. Finally, the work provides consistent evidence of the relevance of DoE methods as an approach to estimate performance in Big Data processing environments.pt_BR
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/8382158780043575pt_BR
Aparece en las colecciones: Teses de Doutorado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TESE Jairson Barbosa Rodrigues.pdf3,68 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons