Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/62479

Share on

Title: Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs
Authors: SANTOS, Artur Carvalho dos
Keywords: IA Generativa; Agentes Autônomos; Grandes Modelos de Linguagem (LLM); Avaliação de Agentes
Issue Date: 9-Apr-2025
Citation: SANTOS, Artur Carvalho dos. Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs. 2025. Trabalho de Conclusão de Curso de Ciência da Computação - Universidade Federal de Pernambuco, Recife, 2025.
Abstract: Este trabalho apresenta uma análise comparativa de ferramentas de avaliação desenvolvidas para agentes autônomos baseados em grandes modelos de linguagem (LLMs), com foco em sistemas de agente único. O estudo revisou e caracterizou seis frameworks, sendo eles Langsmith, Arize Phoenix, Vertex AI GenAI Evaluation, Agent-as-a-Judge, Agent-Eval-Refine e AgentBench. Essas ferramentas foram avaliadas de acordo com critérios de observabilidade, avaliação da saída e da trajetória, uso de recursos, versatilidade, compatibilidade externa, explicabilidade e usabilidade. Os resultados indicam que, embora plataformas como Langsmith e Arize Phoenix ofereçam ambientes abrangentes que integram observabilidade com diversas metodologias de avaliação, outras soluções fornecem abordagens inovadoras e eficazes, embora específicas para determinados contextos. De modo geral, os achados contribuem para o mapeamento do estado da arte atual em ferramentas de avaliação para agentes baseados em LLMs e sugerem direções promissoras para pesquisas futuras, especialmente no desenvolvimento de frameworks flexíveis e escaláveis que possam se adaptar às demandas rapidamente evolutivas da IA generativa.
URI: https://repositorio.ufpe.br/handle/123456789/62479
Appears in Collections:(TCC) - Ciência da Computação

Files in This Item:
File Description SizeFormat 
TCC Artur Carvalho dos Santos.pdf393,8 kBAdobe PDFThumbnail
View/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons