Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/17314

Comparte esta pagina

Título : Algoritmos para determinação do número de grupos em estudos de formas planas
Autor : OLIVEIRA, Rodrigo Alves de
Palabras clave : Análise multivariada; Estatística aplicada; Análise de agrupamento
Fecha de publicación : 5-feb-2016
Editorial : Universidade Federal de Pernambuco
Resumen : Análise de formas planas é uma área de conhecimento bastante útil e sólida para lidar com estudos de estruturas de objetos e informação geométrica. A fim de descrever objetos bidimensionais é necessário especificar um sistema de coordenadas a qual deve ser invariante sob locação, escala e rotação da configuração tal como as coordenadas de Kendall. E uma versão linearizada do espaço de formas são as coordenadas tangentes, esta pertence ao espaço Euclidiano, portanto, toda literatura de análise multivariada pode ser utilizada. Em diversas ocasiões é necessário agrupar conjuntos de dados de tal maneira que se tenha grupos com características mais homogêneos entre si. Para tanto Amaral et al. (2010a) desenvolveu o algoritmo K-médias para lidar com análise de formas. Devido as desvantagens deste algoritmo, Jayasumana et al. (2013) propôs o algoritmo Kernel K-médias. Estes dois algoritmos dependem da escolha do número de grupos, K. E para o segundo, deve-se estimar o parâmetro de largura de banda. Em situações em que não se conhecem os rótulos dos grupos, a escolha de um valor apropriado para K é difícil. Para resolver esse desafio, medidas de validade tentam determinar como precisamente se retratam os grupos dos dados. No entanto, diversas medidas de validade surgem, e diferentes medidas geralmente produzem resultados discrepantes. Esta dissertação introduz métodos para computar o número de grupos em um determinado conjunto de dados que lidam com a natureza das estruturas planas. Os métodos propostos são baseados nas medidas de validade Silhoueta, Davies-Bouldin e os Resíduos Procrustes. Gerou-se amostras de duas populações da distribuição Bingham complexa a qual possui suporte na esfera unitária; e também amostras de duas populações com espaço nos marcos. Considera-se vários cenários com alta e baixa concentração dos dados. Percebe-se que os índices para coordenadas tangentes encontram corretamente o número de grupos para dados de alta concentração assim como os índices modificados para coordenadas de Kendall. Já em situações com baixa concentração os índices para coordenadas tangentes não funcionam bem, portanto, não identificam o número correto de grupos, ao contrário, os índices com natureza própria de formas planas conseguem estimar o verdadeiro número de grupos para os dados simulados. Os índices mais apropriados são o Procruste Residual e o Davies-Bouldin ajustado pela segunda vez. Análise de dados reais mostra que os índices existentes para coordenadas tangentes e os índices modificados para coordenadas de Kendall estimam o número correto de grupos.
URI : https://repositorio.ufpe.br/handle/123456789/17314
Aparece en las colecciones: Dissertações de Mestrado - Estatística

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Rodrigo_CD.pdf1,91 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons