Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/65494

Comparte esta pagina

Título : Análise comparativa qualitativa de Ferramentas de Manipulação de Dados em Workflows de ETL
Autor : SANTANA, Sandro Victor Rosevel de
Palabras clave : ETL; Star Schema; Pandas; PySpark; Desempenho de Pipelines; Polars
Fecha de publicación : 8-ago-2025
Citación : SANTANA, Sandro Victor Rosevel de. Análise comparativa qualitativa de Ferramentas de Manipulação de Dados em Workflows de ETL. 2025. Trabalho de Conclusão de Curso (Ciências da computação) - Universidade Federal de Pernambuco,Recife, 2025.
Resumen : Na era da informação, a capacidade de transformar grandes volumes de dados em insights acionáveis é um diferencial estratégico para organizações de todos os setores. Os processos de ETL (Extract, Transform, Load) ocupam papel central na Engenharia de Dados, permitindo integrar informações de múltiplas fontes, aplicar regras de negócio e disponibilizar resultados em ambientes analíticos como data warehouses ou data lakes. Este trabalho apresenta uma análise comparativa entre quatro ferramentas amplamente utilizadas na construção de pipelines ETL, Pandas, PySpark, Polars e SQL, avaliadas a partir de critérios como desempenho, consumo de recursos, tempo de execução, capacidade de paralelização e adequação a diferentes cenários de volume e infraestrutura. A base de dados utilizada é o Brazilian E-Commerce Public Dataset da Olist, modelada segundo o Star Schema, composto por uma tabela fato de transações e tabelas de dimensão associadas, padrão amplamente adotado em ambientes de Business Intelligence (KIMBALL; ROSS, 2008). A arquitetura do pipeline foi estruturada em três camadas, Bronze, Silver e Gold, que representam estágios progressivos de refinamento e enriquecimento dos dados (GONZALEZ; XIN; TEAM, 2020). Os experimentos revelaram diferenças significativas entre as ferramentas: o Polars apresentou o melhor desempenho em termos de tempo de execução, o SQL obteve bom equilíbrio entre performance e simplicidade, o Pandas se destacou em cenários com menor volume de dados, e o PySpark mostrou maior potencial em ambientes distribuídos de alta escala. Esses resultados oferecem subsídios práticos para que profissionais e organizações selecionem a tecnologia mais adequada às suas necessidades, considerando restrições de tempo, custo e recursos computacionais disponíveis.
URI : https://repositorio.ufpe.br/handle/123456789/65494
Aparece en las colecciones: (TCC) - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TCC Sandro Victor Rosevel de Santana.pdf362,92 kBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons