Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/62451
Comparte esta pagina
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | QUEIROZ, Sergio Ricardo de Melo | - |
dc.contributor.author | OLIVEIRA, Marcos de Souza | - |
dc.date.accessioned | 2025-04-22T17:43:45Z | - |
dc.date.available | 2025-04-22T17:43:45Z | - |
dc.date.issued | 2025-02-03 | - |
dc.identifier.citation | OLIVEIRA, Marcos de Souza. Unsupervised Feature Selection and Deep Subspace Clustering for Exploratory High-Dimensional Cluster Analysis. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2024. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/62451 | - |
dc.description.abstract | With the advancement of information technology, data volume is rapidly increasing, po- sing significant challenges for storage and processing. This growth occurs both in the number of samples and in the number of features, making initial exploratory small data analysis crucial to reducing computational demands and improving data quality for ma- chine learning (ML) training. However, simply reducing the number of samples can in- tensify the “curse of dimensionality,” complicating analysis when a small dataset contains many features. Dimensionality reduction techniques are therefore essential for enabling more efficient and interpretable analyses. Unlike methods such as PCA, which transform the original data, unsupervised feature selection techniques identify the most relevant va- riables without requiring labels, enhancing the interpretability of natural data patterns. However, patterns may emerge only within specific feature subsets, known as subspaces. In some cases, the original features may not be sufficient, requiring the generation of new ones to identify these subspaces. This research explores two strategies for handling high- dimensional data with few samples: (i) a novel unsupervised feature selection method and (ii) a clustering approach based on subspaces. Experiments on real and synthetic datasets showed that the proposed methods outperform state-of-the-art approaches, as evidenced by clustering evaluation metrics and statistical tests. | pt_BR |
dc.language.iso | eng | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | embargoedAccess | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Small Data Analysis | pt_BR |
dc.subject | Unsupervised feature selection | pt_BR |
dc.subject | Subspace clustering. | pt_BR |
dc.title | Unsupervised Feature Selection and Deep Subspace Clustering for Exploratory High-Dimensional Cluster Analysis | pt_BR |
dc.type | doctoralThesis | pt_BR |
dc.contributor.advisor-co | CARVALHO, Francisco de Assis Tenório de | - |
dc.contributor.authorLattes | http://lattes.cnpq.br/6137784444858483 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | doutorado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/9263224550858823 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | Com o avanço das tecnologias da informação, o volume de dados cresce rapidamente, au- mentando os desafios de armazenamento e processamento. Esse crescimento ocorre tanto no número de exemplos quanto na quantidade de características, tornando essencial a análise exploratória inicial em small data para reduzir a carga computacional e melhorar a qualidade dos dados no treinamento de algoritmos de aprendizado de máquina (AM). No entanto, a simples redução de exemplos pode acentuar a “maldição da dimensionali- dade”, dificultando a análise quando há um número limitado de exemplos descritos por muitas características. Técnicas de redução de dimensionalidade tornam-se, assim, essen- ciais para viabilizar análises mais eficientes e interpretáveis. Diferente de métodos como PCA, que transformam os dados originais, abordagens não supervisionadas de seleção de características identificam as variáveis mais relevantes sem necessidade de rótulos, favo- recendo a interpretabilidade dos padrões naturais dos dados. Entretanto, padrões podem emergir apenas em subconjuntos específicos de características, os chamados subespaços. Em alguns casos, as características originais podem não ser suficientes, exigindo a gera- ção de novas para identificar esses subespaços. Diante disso, esta pesquisa propõe duas estratégias para lidar com dados de alta dimensionalidade e poucos exemplos: (i) um novo método não supervisionado de seleção de características e (ii) um modelo de agru- pamento baseado em subespaços. Experimentos em conjuntos de dados reais e sintéticos demonstraram que os métodos propostos superam abordagens do estado da arte, conforme evidenciado por métricas de análise de cluster e testes estatísticos. | pt_BR |
dc.contributor.advisor-coLattes | http://lattes.cnpq.br/3909162572623711 | pt_BR |
Aparece en las colecciones: | Teses de Doutorado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TESE Marcos de Souza Oliveira.pdf Artículo embargado hasta 2026-04-18 | 7,98 MB | Adobe PDF | Visualizar/Abrir Item embargoed |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons