Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs

SANTOS, Artur Carvalho dos

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/62479

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	CALEGARIO, Filipe Carlos de Albuquerque	-
dc.contributor.author	SANTOS, Artur Carvalho dos	-
dc.date.accessioned	2025-04-23T13:24:33Z	-
dc.date.available	2025-04-23T13:24:33Z	-
dc.date.issued	2025-04-09	-
dc.date.submitted	2025-04-18	-
dc.identifier.citation	SANTOS, Artur Carvalho dos. Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs. 2025. Trabalho de Conclusão de Curso de Ciência da Computação - Universidade Federal de Pernambuco, Recife, 2025.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/62479	-
dc.description.abstract	Este trabalho apresenta uma análise comparativa de ferramentas de avaliação desenvolvidas para agentes autônomos baseados em grandes modelos de linguagem (LLMs), com foco em sistemas de agente único. O estudo revisou e caracterizou seis frameworks, sendo eles Langsmith, Arize Phoenix, Vertex AI GenAI Evaluation, Agent-as-a-Judge, Agent-Eval-Refine e AgentBench. Essas ferramentas foram avaliadas de acordo com critérios de observabilidade, avaliação da saída e da trajetória, uso de recursos, versatilidade, compatibilidade externa, explicabilidade e usabilidade. Os resultados indicam que, embora plataformas como Langsmith e Arize Phoenix ofereçam ambientes abrangentes que integram observabilidade com diversas metodologias de avaliação, outras soluções fornecem abordagens inovadoras e eficazes, embora específicas para determinados contextos. De modo geral, os achados contribuem para o mapeamento do estado da arte atual em ferramentas de avaliação para agentes baseados em LLMs e sugerem direções promissoras para pesquisas futuras, especialmente no desenvolvimento de frameworks flexíveis e escaláveis que possam se adaptar às demandas rapidamente evolutivas da IA generativa.	pt_BR
dc.format.extent	43p.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	IA Generativa	pt_BR
dc.subject	Agentes Autônomos	pt_BR
dc.subject	Grandes Modelos de Linguagem (LLM)	pt_BR
dc.subject	Avaliação de Agentes	pt_BR
dc.title	Análise comparativa de ferramentas para avaliação de agentes autônomos baseados em LLMs	pt_BR
dc.type	bachelorThesis	pt_BR
dc.degree.level	Graduacao	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/7709859860474826	pt_BR
dc.description.abstractx	This work presents a comparative analysis of evaluation tools developed for autonomous agents based on large language models (LLMs), with a focus on single-agent systems. The study reviewed and characterized several frameworks, namely Langsmith, Arize Phoenix, Vertex AI GenAI Evaluation, Agent-as-a-Judge, Agent-Eval-Refine, and AgentBench. These tools were evaluated according to criteria such as observability, evaluation of output and trajectory, resource usage, versatility, external compatibility, explainability, and usability. The results indicate that, although platforms like Langsmith and Arize Phoenix offer comprehensive environments that integrate observability with diverse evaluation methodologies, other solutions provide innovative and effective approaches, albeit specific to certain contexts. Overall, the findings contribute to mapping the current state-of-the-art in evaluation tools for LLM-based agents and suggest promising directions for future research, especially in the development of flexible and scalable frameworks that can adapt to the rapidly evolving demands of generative AI.	pt_BR
dc.subject.cnpq	Áreas::Ciências Exatas e da Terra	pt_BR
dc.degree.departament	::(CIN-DCC) - Departamento de Ciência da Computação	pt_BR
dc.degree.graduation	::CIn-Curso de Ciência da Computação	pt_BR
dc.degree.grantor	Universidade Federal de Pernambuco	pt_BR
dc.degree.local	Recife	pt_BR
Aparece en las colecciones:	(TCC) - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TCC Artur Carvalho dos Santos.pdf		393.8 kB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons