Desenvolvimento de base de dados e algoritmo de classificação antecipada de exames RT-qPCR para Covid-19

SOUSA, Karl Vandesman de Matos

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/47025

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	SILVA, Adenilton José da	-
dc.contributor.author	SOUSA, Karl Vandesman de Matos	-
dc.date.accessioned	2022-10-13T12:35:49Z	-
dc.date.available	2022-10-13T12:35:49Z	-
dc.date.issued	2022-06-02	-
dc.identifier.citation	SOUSA, Karl Vandesman de Matos. Desenvolvimento de base de dados e algoritmo de classificação antecipada de exames RT-qPCR para Covid-19. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/47025	-
dc.description.abstract	A doença denominada COVID-19, causada pelo vírus SARS-CoV-2 foi a responsável por gerar uma pandemia, preocupando diversos órgãos e instituições ao redor do mundo de forma a combatê-la e reduzir o seu impacto. Um dos fatores importantes para esse combate é o diagnóstico da doença, que deve considerar a assertividade e o tempo levado para sua conclu- são. Este trabalho atuou nos dados quantitativos gerados pelo exame RT-qPCR, obtidos pela disponibilização feita pelo Núcleo de Pesquisa em Inovação Terapêutica (NUPIT) da Univer- sidade Federal de Pernambuco. Os arquivos de saída do exame foram ajustados de forma a se ter uma base de dados disponível para treinamento de algoritmos de aprendizagem supervisio- nada, totalizando 75.716 linhas com 45 características temporais e um alvo classificado como positivo ou negativo. Esses dados formam uma série temporal, sendo cada característica um valor de fluorescência do processo da reação química do RT-qPCR, para detectar genes do SARS-CoV-2. Foram elencados diferentes algoritmos da literatura, desde mais genéricos a mais complexos, com comitês, e considerando ordenação temporal. Primeiramente, esses algoritmos foram treinados com a totalidade dos ciclos, para se ter uma referência do desempenho que poderia ser obtido. Posteriormente, foram realizados treinamentos com uma redução desse número de ciclos, com o intuito de antecipar o exame e consequentemente diminuir o tempo necessário para sua conclusão. Para comparar os desempenhos, foram analisadas as métricas AUROC (do inglês, Area Under the Receiver Operating Characteristic), acurácia, especifici- dade e sensibilidade, com média e desvio padrão calculadas em cima de cem reamostragens da base de dados. Para o cenário de redução de 30 ciclos, foi realizada a otimização de hiperparâ- metros dos três algoritmos que se destacaram na etapa anterior: um baseado em redes neurais, MLP (Multilayer Perceptron) e dois comitês de classificadores, o XGBoost e o Time Series Forest (TSF), sendo que este último considera a relação temporal das características. Testes estatísticos realizados indicaram um maior desempenho do TSF (AUROC 98, 98 ± 0, 07%) e do MLP (98, 94 ± 0, 19%) para 30 ciclos, uma melhoria de desempenho graças à otimização, mas ainda com desempenho inferior ao algoritmo treinado com 35 ciclos com valores padrões de hiperparâmetros. Com isso, este trabalho fornece respaldo para a redução do tempo do RT-qPCR aplicado para COVID-19, por meio de algoritmos de aprendizagem de máquina.	pt_BR
dc.description.sponsorship	CAPES	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Aprendizagem de máquina	pt_BR
dc.title	Desenvolvimento de base de dados e algoritmo de classificação antecipada de exames RT-qPCR para Covid-19	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/8331159937824999	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/0314035098884256	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	The disease named COVID-19, caused by the SARS-CoV-2 virus, has led to a pandemic, challenging several bodies and institutions around the world in order to combat it and reduce its impact. One important element for this combat is the disease diagnosis, that should consider both the assertiveness and the time spent to its conclusion. This work deals with quantitative data generated by RT-qPCR exam, provided by the Núcleo de Pesquisa em Inovação Terapêu- tica (NUPIT) of Universidade Federal de Pernambuco. The output files from this exam were filtered and adjusted in a way that they can be used in supervised learning algorithms, forming a dataset with a total of 75.716 rows and 45 temporal features (machine cycles), and a target to be classified as positive or negative. These data form a temporal series, each feature being a fluorescence value of a chemical reaction process from the RT-qPCR, that detects the genes of SARS-Cov-2. Different algorithms from the literature were chosen, from generic ones to others more complex, that use ensembles and consider temporal relation between features. At first, these algorithms were trained with all machine cycles, in order to have a benchmark. Then, the training was made reducing the number of cycles, to anticipate the exam and consequently decrease the time needed to conclude it. To compare the performances, the metrics used were AUROC (Area Under the Receiver Operating Characteristic), accuracy, specificity and sensitiv- ity, with mean and standard deviation calculated on one hundred resamplings of the dataset. In the 30-cycle scenario, the hyperparameter optimization was made for the top three algorithms in the previous stage: one based on neural networks, MLP (Multilayer Percepton), and two ensemble classifiers, XGBoost and Time Series Forest (TSF), with the last one considering the relationship between features. Statistical tests performed indicated a higher performance of TSF (AUROC 98, 98±0, 07%) and MLP (98, 94±0, 19%) using 30 cycles and an improve- ment made by the optimization, but still underperforming the algorithm trained with 35 cycles using default hyperparameter values. Therefore, this work provides support for the reduction of cycles of RT-qPCR applied to COVID-19, through machine learning algorithms.	pt_BR
Aparece en las colecciones:	Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
DISSERTAÇÃO Karl Vandesman de Matos Sousa.pdf		3,89 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons