Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/45586

Compartilhe esta página

Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorMARTÍN RODRÍGUEZ, Pablo-
dc.contributor.authorSANTOS, Diego da Silva-
dc.date.accessioned2022-08-10T12:16:18Z-
dc.date.available2022-08-10T12:16:18Z-
dc.date.issued2022-02-22-
dc.identifier.citationSANTOS, Diego da Silva. Modelos de regularização com imputação e curvas de decisão aplicados a dados de medicina. 2022. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2022.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/45586-
dc.description.abstractNa análise estatística é comum a presença de dados faltantes em muitas aplicações e estudos em inúmeras áreas com especial enfase a área da saúde. Estudos foram sendo de- senvolvidos ao longo da segunda metade do século XX para contornar o problema de dados faltantes dos quais destacam-se os trabalhos de RUBIN (1988) e SCHAFER (1997) para imputa- ção de darubin1988overviewos. Além do tratamento do banco de dados e preenchimento dos dados faltantes para utilização das técnicas estatísticas de modelagem, que em sua grande maioria são restritas a dados completos, outra questão que se levanta após a imputação é a técnica estatística mais adequada a ser utilizada para o determinado objetivo inferencial. Na área de regressão os modelos com regularização vem sendo cada vez mais utilizados em pro- blemas de alta dimensão onde tem-se muitas covariáveis a serem estimadas ou em problemas envolvendo multicolinearidade. Esta dissertação aborda o problema da modelagem de regres- são regularizada aplicada aos dados imputados, em especial ao modelo de regressão LASSO adaptativo para dados multi-imputados conhecido como GALASSO (DU et al., 2020), também utiliza-se a técnica de validação cruzada aninhada (BATES; HASTIE; TIBSHIRANI, 2021) para obtenção da variância empírica de validação cruzada e intervalos de confiança mais largos para o erro de validação dentro da amostra envolvidos nos modelos de regularização. Desta forma, é proposta uma abordagem utilizando a imputação múltipla através do Bootstrap Bayesiano atrelado ao modelo LASSO logístico com validação cruzada aninhada para correção da esti- mativa de variância e intervalo de confiança da validação cruzada usual, buscando-se o melhor poder de classificação. Por fim, utiliza-se da metodologia de curvas de decisão proposta por VICKERS; ELKIN (2006) para a aplicação em dados de COVID-19 com o intuito de propor uma abordagem correta na tomada de decisões de profissionais da saúde em problemas de diagnóstico clínico na presença de dados faltantes.pt_BR
dc.description.sponsorshipCAPESpt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectEstatística aplicadapt_BR
dc.subjectImputação múltiplapt_BR
dc.subjectRegressão regularizadapt_BR
dc.subjectValidação cruzada aninhadapt_BR
dc.subjectCurvas de decisãopt_BR
dc.titleModelos de regularização com imputação e curvas de decisão aplicados a dados de medicinapt_BR
dc.typemasterThesispt_BR
dc.contributor.advisor-coGÓMEZ, Luz Marina Gómez-
dc.contributor.authorLatteshttp://lattes.cnpq.br/5030520742156057pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/6412853511887386pt_BR
dc.publisher.programPrograma de Pos Graduacao em Estatisticapt_BR
dc.description.abstractxIn statistical analysis, the presence of missing data is common in many applications and studies in numerous areas, with special emphasis on health. Studies were developed throughout the second half of the XX century to overcome the problem of missing data, of which the works of RUBIN (1988) and SCHAFER (1997) for data imputation stand out. In addition to processing the database and filling in the data for the use of statistical modeling techniques, which are mostly restricted to complete data, another issue that arises after processing the data is the most appropriate statistical technique to be used for the given inferential objective. In the area of regression, models with regularization have been increasingly used in high-dimensional problems where there are many covariates to be estimated or multicollinearity problems. This dissertation addresses the problem of regularized regression modeling applied to imputed data, especially to the adaptative LASSO regression model for multi-atput data known as GALASSO (DU et al., 2020), also using the nested cross-validation technique (BATES; HASTIE; TIBSHIRANI, 2021) to obtain the empirical variance of cross-validation and wider confidence intervals for the in-sample validation error involved in the regularization models. Thus, an approach is proposed using multiple imputation through Bayesian Bootstrap linked to the logistic LASSO model with nested cross-validation to correct the variance estimate and confidence interval of the usual cross-validation, seeking the best classification power. Finally, the methodology of decision curves proposed by VICKERS; ELKIN (2006) is applied to COVID-19 data in order to propose a correct approach to decision-making by health professionals in clinical diagnosis problems in the presence of missing data.pt_BR
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/6793239460581049pt_BR
Aparece nas coleções:Dissertações de Mestrado - Estatística

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO Diego da Silva Santos.pdf836,21 kBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons