Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/47025
Comparte esta pagina
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | SILVA, Adenilton José da | - |
dc.contributor.author | SOUSA, Karl Vandesman de Matos | - |
dc.date.accessioned | 2022-10-13T12:35:49Z | - |
dc.date.available | 2022-10-13T12:35:49Z | - |
dc.date.issued | 2022-06-02 | - |
dc.identifier.citation | SOUSA, Karl Vandesman de Matos. Desenvolvimento de base de dados e algoritmo de classificação antecipada de exames RT-qPCR para Covid-19. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/47025 | - |
dc.description.abstract | A doença denominada COVID-19, causada pelo vírus SARS-CoV-2 foi a responsável por gerar uma pandemia, preocupando diversos órgãos e instituições ao redor do mundo de forma a combatê-la e reduzir o seu impacto. Um dos fatores importantes para esse combate é o diagnóstico da doença, que deve considerar a assertividade e o tempo levado para sua conclu- são. Este trabalho atuou nos dados quantitativos gerados pelo exame RT-qPCR, obtidos pela disponibilização feita pelo Núcleo de Pesquisa em Inovação Terapêutica (NUPIT) da Univer- sidade Federal de Pernambuco. Os arquivos de saída do exame foram ajustados de forma a se ter uma base de dados disponível para treinamento de algoritmos de aprendizagem supervisio- nada, totalizando 75.716 linhas com 45 características temporais e um alvo classificado como positivo ou negativo. Esses dados formam uma série temporal, sendo cada característica um valor de fluorescência do processo da reação química do RT-qPCR, para detectar genes do SARS-CoV-2. Foram elencados diferentes algoritmos da literatura, desde mais genéricos a mais complexos, com comitês, e considerando ordenação temporal. Primeiramente, esses algoritmos foram treinados com a totalidade dos ciclos, para se ter uma referência do desempenho que poderia ser obtido. Posteriormente, foram realizados treinamentos com uma redução desse número de ciclos, com o intuito de antecipar o exame e consequentemente diminuir o tempo necessário para sua conclusão. Para comparar os desempenhos, foram analisadas as métricas AUROC (do inglês, Area Under the Receiver Operating Characteristic), acurácia, especifici- dade e sensibilidade, com média e desvio padrão calculadas em cima de cem reamostragens da base de dados. Para o cenário de redução de 30 ciclos, foi realizada a otimização de hiperparâ- metros dos três algoritmos que se destacaram na etapa anterior: um baseado em redes neurais, MLP (Multilayer Perceptron) e dois comitês de classificadores, o XGBoost e o Time Series Forest (TSF), sendo que este último considera a relação temporal das características. Testes estatísticos realizados indicaram um maior desempenho do TSF (AUROC 98, 98 ± 0, 07%) e do MLP (98, 94 ± 0, 19%) para 30 ciclos, uma melhoria de desempenho graças à otimização, mas ainda com desempenho inferior ao algoritmo treinado com 35 ciclos com valores padrões de hiperparâmetros. Com isso, este trabalho fornece respaldo para a redução do tempo do RT-qPCR aplicado para COVID-19, por meio de algoritmos de aprendizagem de máquina. | pt_BR |
dc.description.sponsorship | CAPES | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência computacional | pt_BR |
dc.subject | Aprendizagem de máquina | pt_BR |
dc.title | Desenvolvimento de base de dados e algoritmo de classificação antecipada de exames RT-qPCR para Covid-19 | pt_BR |
dc.type | masterThesis | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/8331159937824999 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | mestrado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/0314035098884256 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | The disease named COVID-19, caused by the SARS-CoV-2 virus, has led to a pandemic, challenging several bodies and institutions around the world in order to combat it and reduce its impact. One important element for this combat is the disease diagnosis, that should consider both the assertiveness and the time spent to its conclusion. This work deals with quantitative data generated by RT-qPCR exam, provided by the Núcleo de Pesquisa em Inovação Terapêu- tica (NUPIT) of Universidade Federal de Pernambuco. The output files from this exam were filtered and adjusted in a way that they can be used in supervised learning algorithms, forming a dataset with a total of 75.716 rows and 45 temporal features (machine cycles), and a target to be classified as positive or negative. These data form a temporal series, each feature being a fluorescence value of a chemical reaction process from the RT-qPCR, that detects the genes of SARS-Cov-2. Different algorithms from the literature were chosen, from generic ones to others more complex, that use ensembles and consider temporal relation between features. At first, these algorithms were trained with all machine cycles, in order to have a benchmark. Then, the training was made reducing the number of cycles, to anticipate the exam and consequently decrease the time needed to conclude it. To compare the performances, the metrics used were AUROC (Area Under the Receiver Operating Characteristic), accuracy, specificity and sensitiv- ity, with mean and standard deviation calculated on one hundred resamplings of the dataset. In the 30-cycle scenario, the hyperparameter optimization was made for the top three algorithms in the previous stage: one based on neural networks, MLP (Multilayer Percepton), and two ensemble classifiers, XGBoost and Time Series Forest (TSF), with the last one considering the relationship between features. Statistical tests performed indicated a higher performance of TSF (AUROC 98, 98±0, 07%) and MLP (98, 94±0, 19%) using 30 cycles and an improve- ment made by the optimization, but still underperforming the algorithm trained with 35 cycles using default hyperparameter values. Therefore, this work provides support for the reduction of cycles of RT-qPCR applied to COVID-19, through machine learning algorithms. | pt_BR |
Aparece en las colecciones: | Dissertações de Mestrado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Karl Vandesman de Matos Sousa.pdf | 3,89 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons