Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/33642

Compartilhe esta página

Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorQUEIROZ, Sérgio Ricardo de Melo-
dc.contributor.authorOLIVEIRA, Marcos de Souza-
dc.date.accessioned2019-09-25T20:16:52Z-
dc.date.available2019-09-25T20:16:52Z-
dc.date.issued2018-08-30-
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/33642-
dc.description.abstractEm mineração de dados, a seleção de features é uma tarefa importante na eliminação de features irrelevantes/redundantes do conjunto de dados. Na aprendizagem de máquina não-supervisionada, a seleção de features é considerada ainda mais difícil do que na aprendizagem supervisionada, por não possuir a informação de classe, que possa ser utilizada para a avaliação das features. Muitos métodos de seleção de features na aprendizagem não-supervisionada são propostos na literatura, porém a avaliação do melhor conjunto de features é realizada através de critérios supervisionados, onde as classes são exigidas, o que nem sempre ocorre em um cenário real. Outro problema é que os métodos atribuem scores para cada feature e utilizam números mágicos para escolher as 𝑚-melhores features. Assim, neste trabalho é proposta uma metodologia que tentará ajudar especialistas de dados a responder questões simples, mas importantes, como: (1) os métodos de seleção de features existentes possuem um resultado similar? (2) Existe um método consistentemente “melhor” ? Geralmente, esses métodos ordenam os atributos baseando-se em um score. Portanto, em relação aos resultados obtidos pelos métodos surgem algumas questões importantes: (3) Se selecionarmos 𝑚-melhores features, qual 𝑚 será considerado o melhor? Além disso, muitos desses métodos não são totalmente livres de parâmetros, nos remetendo a uma outra questão: (4) Como selecionar bons parâmetros para os métodos em um cenário não-supervisionado? Outra questão interessante é: (5) Assumindo que nós temos diferentes opções para os métodos de seleção de features, poderíamos obter melhores resultados se selecionarmos as features usando uma combinação de métodos? Se sim, então como podemos combinar os métodos? Neste trabalho nós analisamos essas questões e propomos uma metodologia que irá realizar a seleção de features não-supervisionada para clustering em conjunto de dados de alta dimensionalidade. Nós avaliamos a metodologia proposta em vários conjuntos de dados de domínios como processamento de imagens e bioinformática. Os resultados mostraram que através do subconjunto de features sugerido ela metodologia é possível obter resultados melhores para os indicadores de acurácia, NMI e Corrected Rand, do que quando utilizado o conjunto original de features. Ao final também elencamos melhorias a serem realizadas em trabalhos futuros com potencial de melhorar o desempenho já obtido.pt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectInteligência artificialpt_BR
dc.subjectAprendizagem de máquinapt_BR
dc.titleMetodologia de seleção de features não supervisionada para clustering em conjunto de dados de alta dimensionalidadept_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/6137784444858483pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/9263224550858823pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxIn Data Mining, feature selection is an important task to eliminate uninformative features from datasets. In unsupervised learning, the selection of features is considered even more difficult than in supervised learning, we do not have any class information, that can be used to evaluate the features. Many feature selection methods in unsupervised learning are proposed in the literature, but the evaluation of the best subset of features is performed through supervised criteria, where class labels are required, which does not always occur in a real scenario. Another problem is that the methods assign scores for each feature nd use magic numbers to choose the 𝑚-better features. Thus, in this work is proposed a methodology that will try to help data specialists to answersimple but important questions, such as: (1) do the existing features selection methods have a similar result? (2) Is there a consistently "better" method? Generally, these methods rank attributes based on a score. Therefore, in relation to the obtained results by the methods, some important questions arise: (3) If we select 𝑚-better features, what 𝑚 will be considered the best? In addition, many of these methods are not fully parameter-free, referring to another question: (4) How to select good parameters for the methods in an unsupervised scenario? Another interesting question is: (5) Assuming we have different options for feature selection methods, could we get better results if we select features using a combination of methods? If yes, then how can we combine the methods? In this work we analyze these questions and propose a methodology that will perform the unsupervised feature selection for clustering in high dimensional data sets. We have evaluated the methodology proposed in several data sets from bioinformatics and image processing domains. The results showed that by using subsets of features suggested by the methodology it is possible to obtain better results for the indicators of accuracy, NMI and Corrected Rand, that when using the original set of features. However, it seens that there are future improvements to be made with potential to increase the performance already obtained.pt_BR
Aparece nas coleções:Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO Marcos de Souza Oliveira.pdf2,85 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons