Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/67847
Comparte esta pagina
Registro completo de metadatos
| Campo DC | Valor | Lengua/Idioma |
|---|---|---|
| dc.contributor.advisor | DANTAS, Jamilson Ramalho | - |
| dc.contributor.author | DANTAS, Camila de Sousa | - |
| dc.date.accessioned | 2026-01-23T15:04:29Z | - |
| dc.date.available | 2026-01-23T15:04:29Z | - |
| dc.date.issued | 2025-08-28 | - |
| dc.identifier.citation | DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025. | pt_BR |
| dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/67847 | - |
| dc.description.abstract | A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes. | pt_BR |
| dc.language.iso | por | pt_BR |
| dc.publisher | Universidade Federal de Pernambuco | pt_BR |
| dc.rights | openAccess | pt_BR |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | pt_BR |
| dc.subject | Seleção de atributos | pt_BR |
| dc.subject | Técnicas não paramétricas | pt_BR |
| dc.subject | Redução de dimensionalidade | pt_BR |
| dc.title | Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina | pt_BR |
| dc.type | masterThesis | pt_BR |
| dc.contributor.advisor-co | SILVA JUNIOR, João Ferreira da | - |
| dc.contributor.authorLattes | http://lattes.cnpq.br/5512384796762058 | pt_BR |
| dc.publisher.initials | UFPE | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.degree.level | mestrado | pt_BR |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/5655706091153128 | pt_BR |
| dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
| dc.description.abstractx | The analysis of non-parametric, imbalanced, and high-dimensional data remains a recurring challenge in numerous Machine Learning (ML) applications, where traditional feature selection (FS) methods often fail dubito restrictive assumptions (e.g., data normality) or high computa-tional costs. This work proposes a comprehensive FS strategy for ML-based systems through a non-parametric, robust, and scalable approach. The model is structured in three stages: filter-ing, clustering, and ranking, employing adapted metrics such as Shannon entropy, Spearman correlation, modified Bhattacharyya distance, and adjusted mutual information (AMI), which eliminate rigid assumptions about data distribution. Implemented in Python, the algorithm was experimentally validated across multiple scenarios, including cybersecurity case studies with real-world network traffic and cyberattack datasets, using classifiers such as Random Forest, 10-fold cross-validation, and non-parametric statistical tests (Friedman and Nemenyi). Results showed an average dimensionality reduction of 81.5% without compromising accuracy, achieving statistical superiority (p-value < 0.05) in metrics such as accuracy, Fl-score, and AUC-ROC compared to traditional methods, while reducing processing time by up to 3.8x. The stability of the selections exceeded 90% agreement, demonstrating the reliability of the model. The proposed strategy not only enhances computational efficiency and predictive per-formance in complex problems but also improves explainability and adaptability to domains with heterogeneous data, providing an effective alternative for feature selection in scenarios dominated by non-parametric data. | pt_BR |
| dc.contributor.advisor-coLattes | http://lattes.cnpq.br/0524469251291943 | pt_BR |
| dc.contributor.authorORCID | https://orcid.org/0000-0003-0610-6925 | pt_BR |
| dc.contributor.advisorORCID | https://orcid.org/0000-0001-9009-7659 | pt_BR |
| Aparece en las colecciones: | Dissertações de Mestrado - Ciência da Computação | |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| DISSERTAÇÃO Camila de Sousa Dantas.pdf | 7.18 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

