Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/62479
Compartilhe esta página
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor | CALEGARIO, Filipe Carlos de Albuquerque | - |
dc.contributor.author | SANTOS, Artur Carvalho dos | - |
dc.date.accessioned | 2025-04-23T13:24:33Z | - |
dc.date.available | 2025-04-23T13:24:33Z | - |
dc.date.issued | 2025-04-09 | - |
dc.date.submitted | 2025-04-18 | - |
dc.identifier.citation | SANTOS, Artur Carvalho dos. Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs. 2025. Trabalho de Conclusão de Curso de Ciência da Computação - Universidade Federal de Pernambuco, Recife, 2025. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/62479 | - |
dc.description.abstract | Este trabalho apresenta uma análise comparativa de ferramentas de avaliação desenvolvidas para agentes autônomos baseados em grandes modelos de linguagem (LLMs), com foco em sistemas de agente único. O estudo revisou e caracterizou seis frameworks, sendo eles Langsmith, Arize Phoenix, Vertex AI GenAI Evaluation, Agent-as-a-Judge, Agent-Eval-Refine e AgentBench. Essas ferramentas foram avaliadas de acordo com critérios de observabilidade, avaliação da saída e da trajetória, uso de recursos, versatilidade, compatibilidade externa, explicabilidade e usabilidade. Os resultados indicam que, embora plataformas como Langsmith e Arize Phoenix ofereçam ambientes abrangentes que integram observabilidade com diversas metodologias de avaliação, outras soluções fornecem abordagens inovadoras e eficazes, embora específicas para determinados contextos. De modo geral, os achados contribuem para o mapeamento do estado da arte atual em ferramentas de avaliação para agentes baseados em LLMs e sugerem direções promissoras para pesquisas futuras, especialmente no desenvolvimento de frameworks flexíveis e escaláveis que possam se adaptar às demandas rapidamente evolutivas da IA generativa. | pt_BR |
dc.format.extent | 43p. | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | IA Generativa | pt_BR |
dc.subject | Agentes Autônomos | pt_BR |
dc.subject | Grandes Modelos de Linguagem (LLM) | pt_BR |
dc.subject | Avaliação de Agentes | pt_BR |
dc.title | Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs | pt_BR |
dc.type | bachelorThesis | pt_BR |
dc.degree.level | Graduacao | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/7709859860474826 | pt_BR |
dc.description.abstractx | This work presents a comparative analysis of evaluation tools developed for autonomous agents based on large language models (LLMs), with a focus on single-agent systems. The study reviewed and characterized several frameworks, namely Langsmith, Arize Phoenix, Vertex AI GenAI Evaluation, Agent-as-a-Judge, Agent-Eval-Refine, and AgentBench. These tools were evaluated according to criteria such as observability, evaluation of output and trajectory, resource usage, versatility, external compatibility, explainability, and usability. The results indicate that, although platforms like Langsmith and Arize Phoenix offer comprehensive environments that integrate observability with diverse evaluation methodologies, other solutions provide innovative and effective approaches, albeit specific to certain contexts. Overall, the findings contribute to mapping the current state-of-the-art in evaluation tools for LLM-based agents and suggest promising directions for future research, especially in the development of flexible and scalable frameworks that can adapt to the rapidly evolving demands of generative AI. | pt_BR |
dc.subject.cnpq | Áreas::Ciências Exatas e da Terra | pt_BR |
dc.degree.departament | ::(CIN-DCC) - Departamento de Ciência da Computação | pt_BR |
dc.degree.graduation | ::CIn-Curso de Ciência da Computação | pt_BR |
dc.degree.grantor | Universidade Federal de Pernambuco | pt_BR |
dc.degree.local | Recife | pt_BR |
Aparece nas coleções: | (TCC) - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TCC Artur Carvalho dos Santos.pdf | 393,8 kB | Adobe PDF | ![]() Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons