Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/66620
Comparte esta pagina
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | LINS NETO, Roberto Dias | - |
dc.contributor.author | NASCIMENTO FILHO, Manassés Francisco do | - |
dc.date.accessioned | 2025-10-20T14:05:35Z | - |
dc.date.available | 2025-10-20T14:05:35Z | - |
dc.date.issued | 2025-06-26 | - |
dc.identifier.citation | NASCIMENTO FILHO, Manassés Francisco do. Avaliação dos algoritmos de aprendizagem para predição da energia livre de gibbs de interações proteína-proteína. 2025. Dissertação (Mestrado em Química) - Universidade Federal de Pernambuco, Recife, 2025. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/66620 | - |
dc.description.abstract | Neste trabalho, contribuiu-se com a avaliação sistemática dos modelos de regressão utilizados na construção de um metamodelo capaz de predizer a afinidade de ligação de complexos proteína-proteína, o qual apresentou correlação de Pearson (r) igual a 0,70. A predição da variação de energia livre de ligação (∆G) durante a formação desses complexos constitui um desafio na bioinformática estrutural, em virtude da complexidade dessas interações e da influência de diversos fatores físico-químicos. Tal predição é essencial para a compreensão de mecanismos biomoleculares, bem como para o desenvolvimento de fármacos e o projeto de terapias baseadas em proteínas, como anticorpos e vacinas. Os métodos computacionais tradicionais, como simulações baseadas em Dinâmica Molecular e Monte Carlo, embora altamente precisos, apresentam elevado custo computacional, o que limita sua aplicabilidade na triagem de grandes quantidades de proteínas. Como alternativa, métodos baseados em redes neurais, grafos e técnicas de Deep Learning, fundamentados em dados de sequência ou estrutura proteica, têm sido amplamente explorados e aprimorados. Diante desse cenário, avaliou-se o desempenho de dez algoritmos de regressão distintos, majoritariamente métodos de Machine Learning (ML), utilizados como base na arquitetura de um metamodelo de regressão com abordagem Super Learner (SL), cujo objetivo é predizer valores de ∆G a partir de descritores de interface calculados por meio do software Rosetta. Os modelos foram treinados com 526 estruturas no formato .pdb e seus respectivos valores experimentais de ∆G, considerando-se apenas dados de alta resolução (≤ 3,5 Å). Como melhor desempenho, obteve-se o modelo SL_MLP (Super Learner acoplado ao metamodelo Multilayer Perceptron), com r = 0,70, RMSE = 1,91 kcal/mol e R² = 0,48, com tempo de execução para o cálculo de energia inferior a cinco minutos em um computador de uso pessoal, equipado com 8 GB de memória RAM e processador Intel(R) Core(TM) i5-7300HQ (quatro núcleos, frequência base de 2,50 GHz, 6 MB de cache L3. O desempenho dos modelos foi comparado ao de ferramentas consolidadas com a mesma proposta, como Prodigy e Area Affinity, amplamente utilizadas para estimativas de ∆G com baixo custo computacional. Nesse teste, foi observado que, mesmo uma regressão linear simples aplicada aos descritores utilizados foi capaz de superar significativamente essas ferramentas. Além disso, os avanços obtidos neste trabalho contribuíram diretamente para a publicação do artigo "Estimating Absolute Protein–Protein Binding Free Energies by a Super Learner Model", na revista Journal of Chemical Information and Modeling, reconhecendo a relevância da abordagem proposta no contexto internacional da bioinformática estrutural. Os resultados obtidos reforçam o potencial dessa abordagem como ferramenta de triagem molecular, com baixo custo computacional e aplicabilidade prática. A avaliação realizada neste estudo contribui para o aprimoramento e a escolha criteriosa dos modelos que compõem o SL, visando sua aplicação em ambientes de triagem e análise de interação molecular | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | pt_BR |
dc.subject | Aprendizado de Máquina | pt_BR |
dc.subject | Super Learner | pt_BR |
dc.subject | Interface de Interações | pt_BR |
dc.subject | Proteína-Proteína | pt_BR |
dc.subject | Energia Livre de Gibbs | pt_BR |
dc.title | Avaliação dos algoritmos de aprendizagem para predição da energia livre de gibbs de interações proteína-proteína | pt_BR |
dc.type | masterThesis | pt_BR |
dc.contributor.advisor-co | CHAVES, Elton José Ferreira | - |
dc.contributor.authorLattes | http://lattes.cnpq.br/6652472529116026 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | mestrado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/0935712216945804 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Quimica | pt_BR |
dc.description.abstractx | In this study, a systematic evaluation of regression models was carried out to construct a metamodel capable of predicting the binding affinity of protein–protein complexes, which achieved a Pearson correlation coefficient (r) of 0.70. Predicting the variation in binding free energy (∆G) during the formation of such complexes remains a major challenge in structural bioinformatics due to the complexity of these interactions and the influence of various physicochemical factors. Such predictions are essential for understanding biomolecular mechanisms as well as for drug development and the design of protein-based therapies, including antibodies and vaccines. Traditional computational methods, such as Molecular Dynamics and Monte Carlo simulations, although highly accurate, are computationally expensive, limiting their applicability in large-scale protein screening. As an alternative, methods based on neural networks, graphs, and Deep Learning techniques—using protein sequence or structure data—have been widely explored and refined. In this context, the performance of ten different regression algorithms—primarily Machine Learning (ML) approaches—was evaluated as the foundation for the architecture of a regression metamodel using the Super Learner (SL) framework. The objective was to predict ∆G values based on interface descriptors computed via the Rosetta software. The models were trained using 526 structures in .pdb format along with their respective experimental ∆G values, considering only high-resolution data (≤ 3.5 Å). The best-performing model was the SL_MLP (Super Learner coupled with a Multilayer Perceptron metamodel), which achieved r = 0.70, RMSE = 1.91 kcal/mol, and R² = 0.48, with a computation time of less than five minutes on a personal computer equipped with 8 GB of RAM and an Intel(R) Core(TM) i5-7300HQ processor (four cores, base frequency of 2.50 GHz, 6 MB L3 cache). The performance of the models was compared with that of well-established tools with similar goals, such as Prodigy and Area Affinity, which are widely used for low-cost ∆G estimation. In this comparison, even a simple linear regression applied to the same descriptors significantly outperformed these tools. Furthermore, the advances achieved in this study directly contributed to the publication of the article "Estimating Absolute Protein–Protein Binding Free Energies by a Super Learner Model" in the Journal of Chemical Information and Modeling, highlighting the relevance of the proposed approach within the international structural bioinformatics community. The results obtained reinforce the potential of this strategy as a molecular screening tool, offering low computational cost and practical applicability. The evaluation conducted in this work supports the improvement and careful selection of the models comprising the SL, aiming at its application in molecular interaction screening and analysis environments. | pt_BR |
dc.contributor.advisor-coLattes | http://lattes.cnpq.br/2525218702047201 | pt_BR |
Aparece en las colecciones: | Dissertações de Mestrado - Química |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Manasses Francisco do Nascimento Filho.pdf | 4,77 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons