Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/66620

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorLINS NETO, Roberto Dias-
dc.contributor.authorNASCIMENTO FILHO, Manassés Francisco do-
dc.date.accessioned2025-10-20T14:05:35Z-
dc.date.available2025-10-20T14:05:35Z-
dc.date.issued2025-06-26-
dc.identifier.citationNASCIMENTO FILHO, Manassés Francisco do. Avaliação dos algoritmos de aprendizagem para predição da energia livre de gibbs de interações proteína-proteína. 2025. Dissertação (Mestrado em Química) - Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/66620-
dc.description.abstractNeste trabalho, contribuiu-se com a avaliação sistemática dos modelos de regressão utilizados na construção de um metamodelo capaz de predizer a afinidade de ligação de complexos proteína-proteína, o qual apresentou correlação de Pearson (r) igual a 0,70. A predição da variação de energia livre de ligação (∆G) durante a formação desses complexos constitui um desafio na bioinformática estrutural, em virtude da complexidade dessas interações e da influência de diversos fatores físico-químicos. Tal predição é essencial para a compreensão de mecanismos biomoleculares, bem como para o desenvolvimento de fármacos e o projeto de terapias baseadas em proteínas, como anticorpos e vacinas. Os métodos computacionais tradicionais, como simulações baseadas em Dinâmica Molecular e Monte Carlo, embora altamente precisos, apresentam elevado custo computacional, o que limita sua aplicabilidade na triagem de grandes quantidades de proteínas. Como alternativa, métodos baseados em redes neurais, grafos e técnicas de Deep Learning, fundamentados em dados de sequência ou estrutura proteica, têm sido amplamente explorados e aprimorados. Diante desse cenário, avaliou-se o desempenho de dez algoritmos de regressão distintos, majoritariamente métodos de Machine Learning (ML), utilizados como base na arquitetura de um metamodelo de regressão com abordagem Super Learner (SL), cujo objetivo é predizer valores de ∆G a partir de descritores de interface calculados por meio do software Rosetta. Os modelos foram treinados com 526 estruturas no formato .pdb e seus respectivos valores experimentais de ∆G, considerando-se apenas dados de alta resolução (≤ 3,5 Å). Como melhor desempenho, obteve-se o modelo SL_MLP (Super Learner acoplado ao metamodelo Multilayer Perceptron), com r = 0,70, RMSE = 1,91 kcal/mol e R² = 0,48, com tempo de execução para o cálculo de energia inferior a cinco minutos em um computador de uso pessoal, equipado com 8 GB de memória RAM e processador Intel(R) Core(TM) i5-7300HQ (quatro núcleos, frequência base de 2,50 GHz, 6 MB de cache L3. O desempenho dos modelos foi comparado ao de ferramentas consolidadas com a mesma proposta, como Prodigy e Area Affinity, amplamente utilizadas para estimativas de ∆G com baixo custo computacional. Nesse teste, foi observado que, mesmo uma regressão linear simples aplicada aos descritores utilizados foi capaz de superar significativamente essas ferramentas. Além disso, os avanços obtidos neste trabalho contribuíram diretamente para a publicação do artigo "Estimating Absolute Protein–Protein Binding Free Energies by a Super Learner Model", na revista Journal of Chemical Information and Modeling, reconhecendo a relevância da abordagem proposta no contexto internacional da bioinformática estrutural. Os resultados obtidos reforçam o potencial dessa abordagem como ferramenta de triagem molecular, com baixo custo computacional e aplicabilidade prática. A avaliação realizada neste estudo contribui para o aprimoramento e a escolha criteriosa dos modelos que compõem o SL, visando sua aplicação em ambientes de triagem e análise de interação molecularpt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectAprendizado de Máquinapt_BR
dc.subjectSuper Learnerpt_BR
dc.subjectInterface de Interaçõespt_BR
dc.subjectProteína-Proteínapt_BR
dc.subjectEnergia Livre de Gibbspt_BR
dc.titleAvaliação dos algoritmos de aprendizagem para predição da energia livre de gibbs de interações proteína-proteínapt_BR
dc.typemasterThesispt_BR
dc.contributor.advisor-coCHAVES, Elton José Ferreira-
dc.contributor.authorLatteshttp://lattes.cnpq.br/6652472529116026pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/0935712216945804pt_BR
dc.publisher.programPrograma de Pos Graduacao em Quimicapt_BR
dc.description.abstractxIn this study, a systematic evaluation of regression models was carried out to construct a metamodel capable of predicting the binding affinity of protein–protein complexes, which achieved a Pearson correlation coefficient (r) of 0.70. Predicting the variation in binding free energy (∆G) during the formation of such complexes remains a major challenge in structural bioinformatics due to the complexity of these interactions and the influence of various physicochemical factors. Such predictions are essential for understanding biomolecular mechanisms as well as for drug development and the design of protein-based therapies, including antibodies and vaccines. Traditional computational methods, such as Molecular Dynamics and Monte Carlo simulations, although highly accurate, are computationally expensive, limiting their applicability in large-scale protein screening. As an alternative, methods based on neural networks, graphs, and Deep Learning techniques—using protein sequence or structure data—have been widely explored and refined. In this context, the performance of ten different regression algorithms—primarily Machine Learning (ML) approaches—was evaluated as the foundation for the architecture of a regression metamodel using the Super Learner (SL) framework. The objective was to predict ∆G values based on interface descriptors computed via the Rosetta software. The models were trained using 526 structures in .pdb format along with their respective experimental ∆G values, considering only high-resolution data (≤ 3.5 Å). The best-performing model was the SL_MLP (Super Learner coupled with a Multilayer Perceptron metamodel), which achieved r = 0.70, RMSE = 1.91 kcal/mol, and R² = 0.48, with a computation time of less than five minutes on a personal computer equipped with 8 GB of RAM and an Intel(R) Core(TM) i5-7300HQ processor (four cores, base frequency of 2.50 GHz, 6 MB L3 cache). The performance of the models was compared with that of well-established tools with similar goals, such as Prodigy and Area Affinity, which are widely used for low-cost ∆G estimation. In this comparison, even a simple linear regression applied to the same descriptors significantly outperformed these tools. Furthermore, the advances achieved in this study directly contributed to the publication of the article "Estimating Absolute Protein–Protein Binding Free Energies by a Super Learner Model" in the Journal of Chemical Information and Modeling, highlighting the relevance of the proposed approach within the international structural bioinformatics community. The results obtained reinforce the potential of this strategy as a molecular screening tool, offering low computational cost and practical applicability. The evaluation conducted in this work supports the improvement and careful selection of the models comprising the SL, aiming at its application in molecular interaction screening and analysis environments.pt_BR
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/2525218702047201pt_BR
Aparece en las colecciones: Dissertações de Mestrado - Química

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
DISSERTAÇÃO Manasses Francisco do Nascimento Filho.pdf4,77 MBAdobe PDFVisualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons