Batch som algorithms for dissimilarity data

PALOMINO MARIÑO, Laura María

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/54097

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	CARVALHO, Francisco de Assis Tenorio de	-
dc.contributor.author	PALOMINO MARIÑO, Laura María	-
dc.date.accessioned	2023-12-14T16:56:27Z	-
dc.date.available	2023-12-14T16:56:27Z	-
dc.date.issued	2023-09-01	-
dc.identifier.citation	PALOMINO MARIÑO, Laura María. Batch som algorithms for dissimilarity data. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/54097	-
dc.description.abstract	The Self-Organizing Maps (SOM) are unsupervised neural network methods that have both clustering and visualization properties. Originally, the SOM algorithm was defined for numerical data. However, complex data, require differentiated analysis and treatment that are consis- tent with their structures. Some kinds of data are known only through relational measures of resemblance or dissemblance such as DNA sequences. Currently, despite their usefulness, rela- tively few SOM models can manage relational data. This research proposes four new families of batch SOM algorithms for relational data represented by one dissimilarity matrix (single- view) or several dissimilarity matrices (multi-view). The algorithms are designed to give a crisp partition and to preserve the topological properties of the data on the map. The algorithms implemented the following four cluster representation approaches: the first family are SOM methods that consider the cluster representatives as vectors of weights whose components measure how objects are weighted as a medoid in a given cluster. Moreover, in the second family, each cluster representative is a normalized linear combination of the objects represented in the description space. In the third family, the cluster representative is a set of weighted ob- jects whose cardinality is fixed. Finally, in the fourth family, the representative is a vector of weighted objects selected according to their relevance to the referred cluster. Additionally, the multi-view methods are designed to learn the weight of each dissimilarity matrix. The weight represents the relevance of each dissimilarity matrix being computed either locally for each cluster or globally for the whole partition. All the proposed algorithms were compared with the most related benchmark methods available to handle one or several dissimilarity matrices. Experiments on 12 single-view and 14 multi-view datasets are performed by means of a simi- lar parametrization regarding the Normalized Mutual Information (NMI), Topographical Error (TE), and Silhouette Coefficient (SIL) metrics. In most cases, the fourth family of algorithms performed the best concerning NMI and SIL whereas the second family of algorithms are the best in terms of TE. The statistical significance of the results provided by the experiments was assessed using the non-parametric Friedman test and the Nemenyi post-test. The experiments on the multi-view dataset showed the importance of considering the weights of the relevance of dissimilarity matrices.	pt_BR
dc.description.sponsorship	FACEPE	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	embargoedAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Mapas auto-organizáveis	pt_BR
dc.subject	SOM em lotes	pt_BR
dc.subject	Dados de dissimilaridade	pt_BR
dc.subject	Medoides ponderados	pt_BR
dc.title	Batch som algorithms for dissimilarity data	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/4050952327940886	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3909162572623711	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Os mapas auto-organizáveis (SOM) são redes neurais não supervisionadas usadas para o agru- pamento e visualização de dados. Originalmente, o algoritmo SOM foi definido para dados numéricos. No entanto, dados complexos exigem análise e tratamento diferenciados que sejam consistentes com suas estruturas. Alguns tipos de dados são expressos somente por meio de medidas de semelhança ou dissemelhançaco como as sequências de DNA. Atualmente, re- lativamente poucos algoritmos SOM são capazes de gerenciar dados relacionais, apesar da sua utilidade. Esta Tese propõe quatro novas famílias de algoritmos para dados relacionais representados por uma matriz de dissimilaridade (visão única) ou por várias matrizes de dissi- milaridade (múltiplas visões). Os algoritmos são projetados para fornecer partições exclusivas (crisp) preservando as propriedades topológicas dos dados no mapa. Os algoritmos implemen- taram quatro enfoques de representantes de clusters: a primeira família apresenta métodos SOM que consideram os representantes do cluster como vetores de pesos cujos componentes medem como os objetos são ponderados como medoid em um determinado cluster. Na se- gunda família, cada representante de cluster é uma combinação linear normalizada dos objetos representados no espaço de descrição. Já na terça família, o representante do cluster é um conjunto de objetos ponderados cuja cardinalidade é fixa. Finalmente, na quarta família, o re- presentante é um vetor de objetos ponderados selecionados de acordo com sua relevância para o referido cluster. Além disso, os algoritmos de múltiplas visões são projetados para aprender o peso de cada matriz de dissimilaridade. Estes pesos representam a relevância de cada matriz de dissimilaridade, sendo calculados localmente para cada cluster, ou globalmente para a partição toda. Todos os algoritmos propostos foram comparados com os métodos mais relacionados que lidam com uma ou várias matrizes de dissimilaridade. Experimentos com 12 conjuntos de dados de visão única e 14 de múltiplas visões foram realizados por meio de uma parametriza- ção semelhante levando em consideração às métricas Informação Mútua Normalizada (NMI), Erro Topográfico (TE) e Silhueta (SIL). Na maioria dos casos, os algoritmos da quarta família tiveram o melhor desempenho em relação à NMI e SIL, enquanto os algoritmos da segunda família são os melhores em termos de TE. A significância estatística dos resultados fornecidos pelos experimentos foi avaliada usando o teste não paramétrico de Friedman em conjunto com o pós-teste de Nemenyi. Os experimentos nos dados de múltiplas visões mostraram a importância de levar em conta os pesos de relevância das matrizes de dissimilaridade.	pt_BR
Aparece en las colecciones:	Teses de Doutorado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TESE Laura María Palomino Mariño.pdf		4.28 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons