Análise comparativa qualitativa de Ferramentas de Manipulação de Dados em Workflows de ETL

SANTANA, Sandro Victor Rosevel de

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/65494

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	OLIVEIRA, Adriano Lorena Inácio de	-
dc.contributor.author	SANTANA, Sandro Victor Rosevel de	-
dc.date.accessioned	2025-08-27T15:08:18Z	-
dc.date.available	2025-08-27T15:08:18Z	-
dc.date.issued	2025-08-08	-
dc.date.submitted	2025-08-22	-
dc.identifier.citation	SANTANA, Sandro Victor Rosevel de. Análise comparativa qualitativa de Ferramentas de Manipulação de Dados em Workflows de ETL. 2025. Trabalho de Conclusão de Curso (Ciências da computação) - Universidade Federal de Pernambuco,Recife, 2025.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/65494	-
dc.description.abstract	Na era da informação, a capacidade de transformar grandes volumes de dados em insights acionáveis é um diferencial estratégico para organizações de todos os setores. Os processos de ETL (Extract, Transform, Load) ocupam papel central na Engenharia de Dados, permitindo integrar informações de múltiplas fontes, aplicar regras de negócio e disponibilizar resultados em ambientes analíticos como data warehouses ou data lakes. Este trabalho apresenta uma análise comparativa entre quatro ferramentas amplamente utilizadas na construção de pipelines ETL, Pandas, PySpark, Polars e SQL, avaliadas a partir de critérios como desempenho, consumo de recursos, tempo de execução, capacidade de paralelização e adequação a diferentes cenários de volume e infraestrutura. A base de dados utilizada é o Brazilian E-Commerce Public Dataset da Olist, modelada segundo o Star Schema, composto por uma tabela fato de transações e tabelas de dimensão associadas, padrão amplamente adotado em ambientes de Business Intelligence (KIMBALL; ROSS, 2008). A arquitetura do pipeline foi estruturada em três camadas, Bronze, Silver e Gold, que representam estágios progressivos de refinamento e enriquecimento dos dados (GONZALEZ; XIN; TEAM, 2020). Os experimentos revelaram diferenças significativas entre as ferramentas: o Polars apresentou o melhor desempenho em termos de tempo de execução, o SQL obteve bom equilíbrio entre performance e simplicidade, o Pandas se destacou em cenários com menor volume de dados, e o PySpark mostrou maior potencial em ambientes distribuídos de alta escala. Esses resultados oferecem subsídios práticos para que profissionais e organizações selecionem a tecnologia mais adequada às suas necessidades, considerando restrições de tempo, custo e recursos computacionais disponíveis.	pt_BR
dc.format.extent	44p.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject	ETL	pt_BR
dc.subject	Star Schema	pt_BR
dc.subject	Pandas	pt_BR
dc.subject	PySpark	pt_BR
dc.subject	Desempenho de Pipelines	pt_BR
dc.subject	Polars	pt_BR
dc.title	Análise comparativa qualitativa de Ferramentas de Manipulação de Dados em Workflows de ETL	pt_BR
dc.type	bachelorThesis	pt_BR
dc.contributor.authorLattes	https://buscatextual.cnpq.br/buscatextual/visualizacv.do?metodo=apresentar&id=K1704489Y6	pt_BR
dc.degree.level	Graduacao	pt_BR
dc.contributor.advisorLattes	https://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723783Z8&tokenCaptchar=0cAFcWeA79TAvzM--Z5A_sm2gymKiOD_iZPSWmPWxMcDAYnIuc_gvsBbMMzaPJ0YQL19oPXXRkIe79W-F5UAYvzrHRcp-5eJBPUHmWskyCY1eVAtqur1r8j6cUf9lLY4Z2Ujrdhpi1oBovEMamyfgm6pYGwFkNAL5AC3WTkP71pdGPgA7g93pOvR8mRf40XwT3h6_Ap8QuRyc6DlzV4LeoTxaeGkUE6DNojzKJOZ2Q3gLjLO9MxgoSQn-vXeSihJwnpuPvzr3FnvPU_2T2nhFCCs2G6yhY_CtUsUKvBA67ASxsmil41gX5hGtMphKOGmA7_BNZ3cht6sGhnKTHjN9UIVGk3u6BZLOq0VYIX7jsY014lVwQLEYHgh1rL9QltEW7lN_npsnFxbtKB7gkn9xpuBrj9T_VI6sKtyGkg5-H9rVXR-F06A5THHTprK6Y7b00r9Q6y70qhlPyIcWRU6XeMfmB9gZGA6_SHLJTzw8osVx8vuBJ5OKgDUOYJ95X4rdPsetqXO35adIBT918r2XabTcL4bw32tNMAUA9FMXr780jvmYohPTkvHGGD-qN58j_0ToW_nLbCHIAn373-iw_tsfaWf3LseHtJKY50am_K1Vl3-g540a5YYSFwWqY8rpLKms75M8A9h796iQ1_Pbnpui56XdVnZ1crDj3YLW5mnjbfJfkQXFdZTHEogvBbjh5ESjK4WCYMSEvL5HFIANI5-ocZuFQBF9apnL5bFpK4FGSvUl-PHQwCL5zl1dYoUuHz1AskObqUAqMaIT-Dl4QMj6ooKygBuM6powKRioUWG47xQTrNbXjkLkbSSj-blwa-R5OsIAKEs72	pt_BR
dc.description.abstractx	In the information age, the ability to transform large volumes of data into actionable insights is a strategic differentiator for organizations across all sectors. ETL (Extract, Transform, Load) processes play a central role in Data Engineering, enabling the integration of information from multiple sources, the application of business rules, and the delivery of results to analytical environments such as data warehouses or data lakes. This work presents a comparative analysis of four widely used tools for building ETL pipelines — Pandas, PySpark, Polars, and SQL — evaluated according to criteria such as performance, resource consumption, execution time, parallelization capabilities, and suitability for different volume and infrastructure scenarios. The dataset used is the Brazilian E-Commerce Public Dataset from Olist, modeled according to the Star Schema, consisting of a fact table of transactions and associated dimension tables, a pattern widely adopted in Business Intelligence environments (KIMBALL; ROSS, 2008). The pipeline architecture was structured into three layers — Bronze, Silver, and Gold — representing progressive stages of data refinement and enrichment (GONZALEZ; XIN; TEAM, 2020). The experiments revealed significant differences between the tools: Polars showed the best performance in terms of execution time, SQL achieved a good balance between performance and simplicity, Pandas stood out in scenarios with smaller data volumes, and PySpark demonstrated greater potential in distributed, large-scale environments. These results provide practical insights for professionals and organizations to select the most suitable technology for their needs, considering time, cost, and available computational resources.	pt_BR
dc.subject.cnpq	Áreas::Ciências Exatas e da Terra	pt_BR
dc.degree.departament	::(CIN-DCC) - Departamento de Ciência da Computação	pt_BR
dc.degree.graduation	::CIn-Curso de Ciência da Computação	pt_BR
dc.degree.grantor	Universidade Federal de Pernambuco	pt_BR
dc.degree.local	Recife	pt_BR
Appears in Collections:	(TCC) - Ciência da Computação

Files in This Item:

File	Description	Size	Format
TCC Sandro Victor Rosevel de Santana.pdf		362.92 kB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record Recommend this item

This item is licensed under a Creative Commons License