Please use this identifier to cite or link to this item:
https://repositorio.ufpe.br/handle/123456789/62479
Share on
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | CALEGARIO, Filipe Carlos de Albuquerque | - |
dc.contributor.author | SANTOS, Artur Carvalho dos | - |
dc.date.accessioned | 2025-04-23T13:24:33Z | - |
dc.date.available | 2025-04-23T13:24:33Z | - |
dc.date.issued | 2025-04-09 | - |
dc.date.submitted | 2025-04-18 | - |
dc.identifier.citation | SANTOS, Artur Carvalho dos. Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs. 2025. Trabalho de Conclusão de Curso de Ciência da Computação - Universidade Federal de Pernambuco, Recife, 2025. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/62479 | - |
dc.description.abstract | Este trabalho apresenta uma análise comparativa de ferramentas de avaliação desenvolvidas para agentes autônomos baseados em grandes modelos de linguagem (LLMs), com foco em sistemas de agente único. O estudo revisou e caracterizou seis frameworks, sendo eles Langsmith, Arize Phoenix, Vertex AI GenAI Evaluation, Agent-as-a-Judge, Agent-Eval-Refine e AgentBench. Essas ferramentas foram avaliadas de acordo com critérios de observabilidade, avaliação da saída e da trajetória, uso de recursos, versatilidade, compatibilidade externa, explicabilidade e usabilidade. Os resultados indicam que, embora plataformas como Langsmith e Arize Phoenix ofereçam ambientes abrangentes que integram observabilidade com diversas metodologias de avaliação, outras soluções fornecem abordagens inovadoras e eficazes, embora específicas para determinados contextos. De modo geral, os achados contribuem para o mapeamento do estado da arte atual em ferramentas de avaliação para agentes baseados em LLMs e sugerem direções promissoras para pesquisas futuras, especialmente no desenvolvimento de frameworks flexíveis e escaláveis que possam se adaptar às demandas rapidamente evolutivas da IA generativa. | pt_BR |
dc.format.extent | 43p. | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | IA Generativa | pt_BR |
dc.subject | Agentes Autônomos | pt_BR |
dc.subject | Grandes Modelos de Linguagem (LLM) | pt_BR |
dc.subject | Avaliação de Agentes | pt_BR |
dc.title | Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs | pt_BR |
dc.type | bachelorThesis | pt_BR |
dc.degree.level | Graduacao | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/7709859860474826 | pt_BR |
dc.description.abstractx | This work presents a comparative analysis of evaluation tools developed for autonomous agents based on large language models (LLMs), with a focus on single-agent systems. The study reviewed and characterized several frameworks, namely Langsmith, Arize Phoenix, Vertex AI GenAI Evaluation, Agent-as-a-Judge, Agent-Eval-Refine, and AgentBench. These tools were evaluated according to criteria such as observability, evaluation of output and trajectory, resource usage, versatility, external compatibility, explainability, and usability. The results indicate that, although platforms like Langsmith and Arize Phoenix offer comprehensive environments that integrate observability with diverse evaluation methodologies, other solutions provide innovative and effective approaches, albeit specific to certain contexts. Overall, the findings contribute to mapping the current state-of-the-art in evaluation tools for LLM-based agents and suggest promising directions for future research, especially in the development of flexible and scalable frameworks that can adapt to the rapidly evolving demands of generative AI. | pt_BR |
dc.subject.cnpq | Áreas::Ciências Exatas e da Terra | pt_BR |
dc.degree.departament | ::(CIN-DCC) - Departamento de Ciência da Computação | pt_BR |
dc.degree.graduation | ::CIn-Curso de Ciência da Computação | pt_BR |
dc.degree.grantor | Universidade Federal de Pernambuco | pt_BR |
dc.degree.local | Recife | pt_BR |
Appears in Collections: | (TCC) - Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
TCC Artur Carvalho dos Santos.pdf | 393,8 kB | Adobe PDF | ![]() View/Open |
This item is protected by original copyright |
This item is licensed under a Creative Commons License