Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/2797
Title: Dissimilarity fuctions analysis based on dynamic clustering for symbolic data
Authors: Cléa Gomes da Silva, Alzennyr
Keywords: Dynamic clustering; Dissimilarity functions; Symbolic data analysis
Issue Date: 2005
Publisher: Universidade Federal de Pernambuco
Citation: Cléa Gomes da Silva, Alzennyr; de Assis Tenório Carvalho, Francisco. Dissimilarity fuctions analysis based on dynamic clustering for symbolic data. 2005. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2005.
Abstract: A análise de dados simbólicos (Symbolic Data Analysis) é um novo domínio na área de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos por variáveis que podem assumir como valor conjuntos de categorias, intervalos ou distribuições de probabilidade. Essas novas variáveis permitem levar em conta a variabilidade e/ou a incerteza presente nos dados. O tratamento de dados simbólicos através de técnicas estatísticas e de aprendizagem de máquina necessita da introdução de medidas de distância capazes de manipular tal tipo de dado. Com esse objetivo, diversas funções de dissimilaridade têm sido propostas na literatura. Entretanto, nenhum estudo comparativo acerca do desempenho de tais funções em problemas que envolvem simultaneamente dados simbólicos booleanos e modais foi realizado. A principal contribuição dessa dissertação é realizar uma análise comparativa e uma avaliação empírica sobre funções de dissimilaridade para dados simbólicos, uma vez que esse tipo de estudo, apesar de muito relevante, é quase inexistente na literatura. Além disso, este trabalho também introduz novas funções de dissimilaridade que podem ser usadas no agrupamento dinâmico de dados simbólicos. Os algoritmos de agrupamento dinâmico consistem em obter, simultaneamente, uma partição em um número fixo de classes e a identificação de um representante para cada classe, minimizando localmente um critério que mede a adequação entre as classes e os seus representantes. Para validar esse estudo, foram realizados experimentos com bases de dados de referência na literatura e dois conjuntos de dados artificiais de intervalos com diferentes graus de dificuldade de classificação, objetivando a comparação das funções avaliadas. A precisão dos resultados foi mensurada por um índice externo de agrupamento aplicado na validação cruzada não supervisionada, para as bases de dados reais, e também no quadro de uma experiência Monte Carlo, para as bases de dados artificiais. Com os resultados alcançados é possível verificar a adequação das diversas funções de dissimilaridade aos diferentes tipos de dados simbólicos (multivalorado, multivalorado ordinal, intervalar, e modal de mesmo suporte e de suportes diferentes), bem como identificar as melhores configurações de funções. Testes estatísticos validam as conclusões
URI: https://repositorio.ufpe.br/handle/123456789/2797
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
arquivo7274_1.pdf1.69 MBAdobe PDFView/Open


This item is protected by original copyright



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.