Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/45586
Compartilhe esta página
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor | MARTÍN RODRÍGUEZ, Pablo | - |
dc.contributor.author | SANTOS, Diego da Silva | - |
dc.date.accessioned | 2022-08-10T12:16:18Z | - |
dc.date.available | 2022-08-10T12:16:18Z | - |
dc.date.issued | 2022-02-22 | - |
dc.identifier.citation | SANTOS, Diego da Silva. Modelos de regularização com imputação e curvas de decisão aplicados a dados de medicina. 2022. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2022. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/45586 | - |
dc.description.abstract | Na análise estatística é comum a presença de dados faltantes em muitas aplicações e estudos em inúmeras áreas com especial enfase a área da saúde. Estudos foram sendo de- senvolvidos ao longo da segunda metade do século XX para contornar o problema de dados faltantes dos quais destacam-se os trabalhos de RUBIN (1988) e SCHAFER (1997) para imputa- ção de darubin1988overviewos. Além do tratamento do banco de dados e preenchimento dos dados faltantes para utilização das técnicas estatísticas de modelagem, que em sua grande maioria são restritas a dados completos, outra questão que se levanta após a imputação é a técnica estatística mais adequada a ser utilizada para o determinado objetivo inferencial. Na área de regressão os modelos com regularização vem sendo cada vez mais utilizados em pro- blemas de alta dimensão onde tem-se muitas covariáveis a serem estimadas ou em problemas envolvendo multicolinearidade. Esta dissertação aborda o problema da modelagem de regres- são regularizada aplicada aos dados imputados, em especial ao modelo de regressão LASSO adaptativo para dados multi-imputados conhecido como GALASSO (DU et al., 2020), também utiliza-se a técnica de validação cruzada aninhada (BATES; HASTIE; TIBSHIRANI, 2021) para obtenção da variância empírica de validação cruzada e intervalos de confiança mais largos para o erro de validação dentro da amostra envolvidos nos modelos de regularização. Desta forma, é proposta uma abordagem utilizando a imputação múltipla através do Bootstrap Bayesiano atrelado ao modelo LASSO logístico com validação cruzada aninhada para correção da esti- mativa de variância e intervalo de confiança da validação cruzada usual, buscando-se o melhor poder de classificação. Por fim, utiliza-se da metodologia de curvas de decisão proposta por VICKERS; ELKIN (2006) para a aplicação em dados de COVID-19 com o intuito de propor uma abordagem correta na tomada de decisões de profissionais da saúde em problemas de diagnóstico clínico na presença de dados faltantes. | pt_BR |
dc.description.sponsorship | CAPES | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Estatística aplicada | pt_BR |
dc.subject | Imputação múltipla | pt_BR |
dc.subject | Regressão regularizada | pt_BR |
dc.subject | Validação cruzada aninhada | pt_BR |
dc.subject | Curvas de decisão | pt_BR |
dc.title | Modelos de regularização com imputação e curvas de decisão aplicados a dados de medicina | pt_BR |
dc.type | masterThesis | pt_BR |
dc.contributor.advisor-co | GÓMEZ, Luz Marina Gómez | - |
dc.contributor.authorLattes | http://lattes.cnpq.br/5030520742156057 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | mestrado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/6412853511887386 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Estatistica | pt_BR |
dc.description.abstractx | In statistical analysis, the presence of missing data is common in many applications and studies in numerous areas, with special emphasis on health. Studies were developed throughout the second half of the XX century to overcome the problem of missing data, of which the works of RUBIN (1988) and SCHAFER (1997) for data imputation stand out. In addition to processing the database and filling in the data for the use of statistical modeling techniques, which are mostly restricted to complete data, another issue that arises after processing the data is the most appropriate statistical technique to be used for the given inferential objective. In the area of regression, models with regularization have been increasingly used in high-dimensional problems where there are many covariates to be estimated or multicollinearity problems. This dissertation addresses the problem of regularized regression modeling applied to imputed data, especially to the adaptative LASSO regression model for multi-atput data known as GALASSO (DU et al., 2020), also using the nested cross-validation technique (BATES; HASTIE; TIBSHIRANI, 2021) to obtain the empirical variance of cross-validation and wider confidence intervals for the in-sample validation error involved in the regularization models. Thus, an approach is proposed using multiple imputation through Bayesian Bootstrap linked to the logistic LASSO model with nested cross-validation to correct the variance estimate and confidence interval of the usual cross-validation, seeking the best classification power. Finally, the methodology of decision curves proposed by VICKERS; ELKIN (2006) is applied to COVID-19 data in order to propose a correct approach to decision-making by health professionals in clinical diagnosis problems in the presence of missing data. | pt_BR |
dc.contributor.advisor-coLattes | http://lattes.cnpq.br/6793239460581049 | pt_BR |
Aparece nas coleções: | Dissertações de Mestrado - Estatística |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Diego da Silva Santos.pdf | 836,21 kB | Adobe PDF | ![]() Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons