Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/33642

Share on

Title: Metodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidade
Authors: OLIVEIRA, Marcos de Souza
Keywords: Inteligência artificial; Aprendizagem de máquina
Issue Date: 30-Aug-2018
Publisher: Universidade Federal de Pernambuco
Abstract: Em mineração de dados, a seleção de features é uma tarefa importante na eliminação de features irrelevantes/redundantes do conjunto de dados. Na aprendizagem de máquina não-supervisionada, a seleção de features é considerada ainda mais difícil do que na aprendizagem supervisionada, por não possuir a informação de classe, que possa ser utilizada para a avaliação das features. Muitos métodos de seleção de features na aprendizagem não-supervisionada são propostos na literatura, porém a avaliação do melhor conjunto de features é realizada através de critérios supervisionados, onde as classes são exigidas, o que nem sempre ocorre em um cenário real. Outro problema é que os métodos atribuem scores para cada feature e utilizam números mágicos para escolher as 𝑚-melhores features. Assim, neste trabalho é proposta uma metodologia que tentará ajudar especialistas de dados a responder questões simples, mas importantes, como: (1) os métodos de seleção de features existentes possuem um resultado similar? (2) Existe um método consistentemente “melhor” ? Geralmente, esses métodos ordenam os atributos baseando-se em um score. Portanto, em relação aos resultados obtidos pelos métodos surgem algumas questões importantes: (3) Se selecionarmos 𝑚-melhores features, qual 𝑚 será considerado o melhor? Além disso, muitos desses métodos não são totalmente livres de parâmetros, nos remetendo a uma outra questão: (4) Como selecionar bons parâmetros para os métodos em um cenário não-supervisionado? Outra questão interessante é: (5) Assumindo que nós temos diferentes opções para os métodos de seleção de features, poderíamos obter melhores resultados se selecionarmos as features usando uma combinação de métodos? Se sim, então como podemos combinar os métodos? Neste trabalho nós analisamos essas questões e propomos uma metodologia que irá realizar a seleção de features não-supervisionada para clustering em conjunto de dados de alta dimensionalidade. Nós avaliamos a metodologia proposta em vários conjuntos de dados de domínios como processamento de imagens e bioinformática. Os resultados mostraram que através do subconjunto de features sugerido ela metodologia é possível obter resultados melhores para os indicadores de acurácia, NMI e Corrected Rand, do que quando utilizado o conjunto original de features. Ao final também elencamos melhorias a serem realizadas em trabalhos futuros com potencial de melhorar o desempenho já obtido.
URI: https://repositorio.ufpe.br/handle/123456789/33642
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
DISSERTAÇÃO Marcos de Souza Oliveira.pdf2,85 MBAdobe PDFThumbnail
View/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons