Clusterwise regression para dados tipo-intervalo

SILVA, Kássio Camelo Ferreira da

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/34148

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	CARVALHO, Francisco de Assis Tenório de	-
dc.contributor.author	SILVA, Kássio Camelo Ferreira da	-
dc.date.accessioned	2019-10-03T18:25:44Z	-
dc.date.available	2019-10-03T18:25:44Z	-
dc.date.issued	2019-04-17	-
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/34148	-
dc.description.abstract	Em diversas aplicações, conjuntos de dados podem ser agrupados de modo a formar intervalos, histogramas, distribuições e outras formas de representação de dados. Para esta categoria de dados, conhecida como Dados Simbólicos, apresenta-se a necessidade de técnicas estatísticas adaptadas da análise de dados clássicos. O modelo de Regressão Clusterwise tem como objetivo lidar com a heterogeneidade dos dados, isto é, a presença de subgrupos onde a relação entre os regressores e a variável resposta é diferente do resto da amostra. Este trabalho apresenta um modelo de Regressão Clusterwise Não Linear para o Centro e Amplitude para dados tipo-intervalo (Interval Center and Range Clusterwise Non-Linear Regression - iCRCNLR), baseado no algoritmo de agrupamento dinâmico (DIDAY; SIMON, 1980) e nos modelos de regressão linear e não-linear para dados tipo-intervalo (NETO; CARVALHO, 2008; NETO; CARVALHO, 2017). O método expande o caso linear de regressão clusterwise para, automaticamente, selecionar o melhor par de modelos (linear e/ou não linear) para centro e meia amplitude dos intervalos, baseado em um critério de otimização. Foram realizados estudos de simulação objetivando avaliar o desempenho do método para estimação e predição considerando 24 cenários, com diferentes estruturas de grupos para centro e amplitude dos intervalos. O estudo sobre estimação avaliou a precisão das estimativas dos parâmetros em um modelo dado, ajustados pelo algoritmo iCRCNLR. No que diz respeito à predição, um esquema de validação cruzada K-folds foi utilizado para avaliar a acurácia do iCRCNLR considerando a estimação para 1, 2 e 3 clusters. Três métodos foram comparados para alocar observações de teste a apenas um cluster: k-nearest neighbors (KNN) com distância de Hausdorff, Stacked Regressions e alocação aleatória. Por fim, foram feitas aplicações em seis conjuntos de dados reais para comparar a acurácia do iCRCNLR com a regressão clusterwise linear para dados tipo-intervalo, iCRCLR. Os resultados obtidos sugerem que o método iCRCNLR é adequado para uso tanto nos dados simulados quanto nos dados reais.	pt_BR
dc.description.sponsorship	FACEPE	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Regressão não-linear	pt_BR
dc.subject	Regressão clusterwise	pt_BR
dc.title	Clusterwise regression para dados tipo-intervalo	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.advisor-co	LIMA NETO, Eufrásio de Andrade	-
dc.contributor.authorLattes	http://lattes.cnpq.br/6862029298578422	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3909162572623711	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	In several applications, data sets can be grouped together to form intervals, histograms, distributions, and other forms of data representation. For this category of data, known as Symbolic Data, the need for statistical techniques adapted from the analysis of classical data is presented. The Clusterwise Regression model is intended to deal with data heterogeneity ie the presence of subgroups where the relationship between the regressors and the response variable is different from the rest of the sample. This dissertation presents a Non-Linear Center and Range Clusterwise Regressions for interval-valued data, Interval Center and Range Clusterwise Non-Linear Regression (iCRCNLR) , based on the dynamic grouping algorithm (DIDAY; SIMON, 1980) and linear and nonlinear regression models for interval-valued data (NETO; CARVALHO, 2008; NETO; CARVALHO, 2017). The method expands the linear clusterwise regression case to automatically select the best pair of models (linear and/or nonlinear) for center and half range, based on an optimization criterion. Simulation studies were performed aiming to evaluate the performance of the method for estimation and prediction considering 24 scenarios, with different structures of groups for center and range amplitude. The estimation study evaluated the accuracy of the parameter estimates of the models adjusted by the iCRCNLR algorithm. With respect to prediction, a K-folds crossvalidation scheme was used to evaluate the accuracy of the iCRCNLR considering the estimation for 1, 2 and 3 clusters. Three methods were compared to allocate test observations to only one cluster: k-nearest neighbors (KNN) with Hausdorff distance, Stacked Regressions and random allocation. Finally, applications were made in six real datasets to compare the accuracy of iCRCNLR with the linear case, iCRCLR. The results obtained suggest that the iCRCNLR method is suitable for use in both simulated and real data.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/5580004940091667	pt_BR
Aparece nas coleções:	Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO Kássio Camelo Ferreira da Silva.pdf		1,1 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons