Avaliação dos algoritmos de aprendizagem para predição da  energia livre de gibbs de interações proteína-proteína

NASCIMENTO FILHO, Manassés Francisco do

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/66620

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	LINS NETO, Roberto Dias	-
dc.contributor.author	NASCIMENTO FILHO, Manassés Francisco do	-
dc.date.accessioned	2025-10-20T14:05:35Z	-
dc.date.available	2025-10-20T14:05:35Z	-
dc.date.issued	2025-06-26	-
dc.identifier.citation	NASCIMENTO FILHO, Manassés Francisco do. Avaliação dos algoritmos de aprendizagem para predição da energia livre de gibbs de interações proteína-proteína. 2025. Dissertação (Mestrado em Química) - Universidade Federal de Pernambuco, Recife, 2025.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/66620	-
dc.description.abstract	Neste trabalho, contribuiu-se com a avaliação sistemática dos modelos de regressão utilizados na construção de um metamodelo capaz de predizer a afinidade de ligação de complexos proteína-proteína, o qual apresentou correlação de Pearson (r) igual a 0,70. A predição da variação de energia livre de ligação (∆G) durante a formação desses complexos constitui um desafio na bioinformática estrutural, em virtude da complexidade dessas interações e da influência de diversos fatores físico-químicos. Tal predição é essencial para a compreensão de mecanismos biomoleculares, bem como para o desenvolvimento de fármacos e o projeto de terapias baseadas em proteínas, como anticorpos e vacinas. Os métodos computacionais tradicionais, como simulações baseadas em Dinâmica Molecular e Monte Carlo, embora altamente precisos, apresentam elevado custo computacional, o que limita sua aplicabilidade na triagem de grandes quantidades de proteínas. Como alternativa, métodos baseados em redes neurais, grafos e técnicas de Deep Learning, fundamentados em dados de sequência ou estrutura proteica, têm sido amplamente explorados e aprimorados. Diante desse cenário, avaliou-se o desempenho de dez algoritmos de regressão distintos, majoritariamente métodos de Machine Learning (ML), utilizados como base na arquitetura de um metamodelo de regressão com abordagem Super Learner (SL), cujo objetivo é predizer valores de ∆G a partir de descritores de interface calculados por meio do software Rosetta. Os modelos foram treinados com 526 estruturas no formato .pdb e seus respectivos valores experimentais de ∆G, considerando-se apenas dados de alta resolução (≤ 3,5 Å). Como melhor desempenho, obteve-se o modelo SL_MLP (Super Learner acoplado ao metamodelo Multilayer Perceptron), com r = 0,70, RMSE = 1,91 kcal/mol e R² = 0,48, com tempo de execução para o cálculo de energia inferior a cinco minutos em um computador de uso pessoal, equipado com 8 GB de memória RAM e processador Intel(R) Core(TM) i5-7300HQ (quatro núcleos, frequência base de 2,50 GHz, 6 MB de cache L3. O desempenho dos modelos foi comparado ao de ferramentas consolidadas com a mesma proposta, como Prodigy e Area Affinity, amplamente utilizadas para estimativas de ∆G com baixo custo computacional. Nesse teste, foi observado que, mesmo uma regressão linear simples aplicada aos descritores utilizados foi capaz de superar significativamente essas ferramentas. Além disso, os avanços obtidos neste trabalho contribuíram diretamente para a publicação do artigo "Estimating Absolute Protein–Protein Binding Free Energies by a Super Learner Model", na revista Journal of Chemical Information and Modeling, reconhecendo a relevância da abordagem proposta no contexto internacional da bioinformática estrutural. Os resultados obtidos reforçam o potencial dessa abordagem como ferramenta de triagem molecular, com baixo custo computacional e aplicabilidade prática. A avaliação realizada neste estudo contribui para o aprimoramento e a escolha criteriosa dos modelos que compõem o SL, visando sua aplicação em ambientes de triagem e análise de interação molecular	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject	Aprendizado de Máquina	pt_BR
dc.subject	Super Learner	pt_BR
dc.subject	Interface de Interações	pt_BR
dc.subject	Proteína-Proteína	pt_BR
dc.subject	Energia Livre de Gibbs	pt_BR
dc.title	Avaliação dos algoritmos de aprendizagem para predição da energia livre de gibbs de interações proteína-proteína	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.advisor-co	CHAVES, Elton José Ferreira	-
dc.contributor.authorLattes	http://lattes.cnpq.br/6652472529116026	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/0935712216945804	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Quimica	pt_BR
dc.description.abstractx	In this study, a systematic evaluation of regression models was carried out to construct a metamodel capable of predicting the binding affinity of protein–protein complexes, which achieved a Pearson correlation coefficient (r) of 0.70. Predicting the variation in binding free energy (∆G) during the formation of such complexes remains a major challenge in structural bioinformatics due to the complexity of these interactions and the influence of various physicochemical factors. Such predictions are essential for understanding biomolecular mechanisms as well as for drug development and the design of protein-based therapies, including antibodies and vaccines. Traditional computational methods, such as Molecular Dynamics and Monte Carlo simulations, although highly accurate, are computationally expensive, limiting their applicability in large-scale protein screening. As an alternative, methods based on neural networks, graphs, and Deep Learning techniques—using protein sequence or structure data—have been widely explored and refined. In this context, the performance of ten different regression algorithms—primarily Machine Learning (ML) approaches—was evaluated as the foundation for the architecture of a regression metamodel using the Super Learner (SL) framework. The objective was to predict ∆G values based on interface descriptors computed via the Rosetta software. The models were trained using 526 structures in .pdb format along with their respective experimental ∆G values, considering only high-resolution data (≤ 3.5 Å). The best-performing model was the SL_MLP (Super Learner coupled with a Multilayer Perceptron metamodel), which achieved r = 0.70, RMSE = 1.91 kcal/mol, and R² = 0.48, with a computation time of less than five minutes on a personal computer equipped with 8 GB of RAM and an Intel(R) Core(TM) i5-7300HQ processor (four cores, base frequency of 2.50 GHz, 6 MB L3 cache). The performance of the models was compared with that of well-established tools with similar goals, such as Prodigy and Area Affinity, which are widely used for low-cost ∆G estimation. In this comparison, even a simple linear regression applied to the same descriptors significantly outperformed these tools. Furthermore, the advances achieved in this study directly contributed to the publication of the article "Estimating Absolute Protein–Protein Binding Free Energies by a Super Learner Model" in the Journal of Chemical Information and Modeling, highlighting the relevance of the proposed approach within the international structural bioinformatics community. The results obtained reinforce the potential of this strategy as a molecular screening tool, offering low computational cost and practical applicability. The evaluation conducted in this work supports the improvement and careful selection of the models comprising the SL, aiming at its application in molecular interaction screening and analysis environments.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/2525218702047201	pt_BR
Aparece en las colecciones:	Dissertações de Mestrado - Química

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
DISSERTAÇÃO Manasses Francisco do Nascimento Filho.pdf		4,77 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons