Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/67663

Share on

Full metadata record
DC FieldValueLanguage
dc.contributor.advisorVILELA, Jéssyka Flavyanne Ferreira-
dc.contributor.authorSILVA, Carolina Carneiro Reis e-
dc.date.accessioned2026-01-15T14:49:20Z-
dc.date.available2026-01-15T14:49:20Z-
dc.date.issued2025-07-31-
dc.identifier.citationSILVA, Carolina Carneiro Reis e. Validação de critérios de aceitação usando LLM: uma análise baseada em Guidelines de UX. 2025. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal d Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/67663-
dc.description.abstract[Contexto] A crescente complexidade dos projetos digitais têm motivado o uso de recursos autônomos baseados em Inteligência Artificial Generativa para apoiar equipes de tecnologia, sobretudo em atividades de Engenharia de Requisitos. [Problema] Nesse contexto, os aspectos de Experiência do Usuário (UX) permanecem como uma dimensão crítica e ainda pouco explorada na documentação ágil de requisitos, especialmente na redação de Acceptance Criteria (AC). [Método] Essa pesquisa investiga se Large Language Models (LLMs) podem apoiar a revisão de ACs com base em diretrizes de UX e, assim, contribuir para a validação de requisitos por meio de tutoria automatizada. Para isso, foi conduzido um estudo empírico em duas fases: exploratória, composta por survey com 31 profissionais de TI sobre a influência de Definition of Ready (DoR) em requisitos endereçados a UX, que serviu de inspiração para, além de uma análise de conteúdo de 20 ACs escritos no formato Behavior-Driven Development (BDD) por alunos de graduação e analisados por um avaliador humano, elaborar a fase seguinte, uma análise comparativa entre dois LLMs, ChatGPT-4o e Gemini 2.5 Flash, configurados por meio de um modelo de prompting instrucional denominado ACUX Tutor 1.0. As respostas geradas pelos LLMs foram avaliadas por Concordância (alinhamento com o avaliador humano), Precisão Técnica (recomendações de guidelines de UX tecnicamente corretas e aplicáveis ao contexto do AC) e Explicabilidade (clareza e fundamentação das justificativas sobre a guideline recomendada). [Resultados] Ambos os LLMs foram capazes de identificar oportunidades de aprimoramento de UX nos trechos dos ACs, com padrões distintos de comportamento. O ChatGPT-4o apresentou maior precisão técnica (89,29%), alinhamento pontual às avaliações humanas, e aderência às restrições do prompt, enquanto o Gemini 2.5 Flash destacou-se pela explicabilidade (78,95%) e concordância com o avaliador humano (58,60%), demonstrando amplo repertório semântico sobre elementos de UX, embora, por vezes, extrapolasse recomendações além do contexto imediato dos ACs. [Conclusão] Conclui-se que abordagens baseadas em LLMs, quando orientadas por prompts estruturados e guiadas por diretrizes de domínio, possuem potencial para complementar a análise humana no apoio à validação de requisitos, promovendo especificações mais consistentes, rastreáveis e orientadas à UX. Contudo, não substituem a validação humana. A supervisão sobre as respostas dos LLMs permanece indispensável para garantir a profundidade interpretativa e o julgamento contextual necessários em projetos reais, devendo ser consideradas, portanto, como ferramentas assistivas.pt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectExperiência do Usuáriopt_BR
dc.subjectHistórias de Usuáriopt_BR
dc.subjectCritérios de Aceitaçãopt_BR
dc.subjectGrandes Modelos de Linguagempt_BR
dc.subjectEngenharia de Requisitospt_BR
dc.titleValidação de critérios de aceitação usando LLM: uma análise baseada em Guidelines de UXpt_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/0673415793657438pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/7665018774077845pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractx[Context] The increasing complexity of digital projects has driven the adoption of autonomous resources based on Generative Artificial Intelligence to support technology teams, particularly in activities related to Requirements Engineering. [Problem] In this context, User Experience (UX) aspects remain a critical yet underexplored dimension within agile requirements documentation, especially in the writing of Acceptance Criteria (AC). [Method] This research investigates whether Large Language Models (LLMs) can support the revision of ACs based on UX guidelines and, consequently, contribute to requirements validation through automated tutoring. To this end, an empirical study was conducted in two phases: an exploratory phase, consisting of a survey with 31 IT professionals about the influence of Definition of Ready (DoR) on UX-related requirements, which inspired, in addition to a content analysis of 20 ACs written in Behavior-Driven Development (BDD) format by undergraduate students and analyzed by a human evaluator, the design of the following phase, a comparative analysis between two LLMs, ChatGPT-4o and Gemini 2.5 Flash, configured through an instructional prompting model called ACUX Tutor 1.0. The responses generated by the LLMs were evaluated based on Agreement (alignment with the human evaluator), Technical Accuracy (technically correct UX guideline recommendations applicable to the AC context), and Explainability (clarity and justification of the recommended guideline). [Results] Both LLMs were able to identify opportunities for UX improvement in the AC excerpts, exhibiting distinct behavioral patterns. ChatGPT-4o demonstrated higher technical accuracy (89.29%), punctual alignment with human evaluations, and strong adherence to prompt constraints, while Gemini 2.5 Flash stood out for its explainability (78.95%) and concordance with the human evaluator (58.60%), displaying a broader semantic repertoire on UX elements, although it occasionally extended recommendations beyond the immediate context of the ACs. [Conclusion] The study concludes that LLM-based approaches, when guided by structured prompts and domain-specific guidelines, have the potential to complement human analysis in supporting requirements validation, fostering more consistent, traceable, and UX-oriented specifications. However, they do not replace human validation. Oversight of LLM-generated responses remains essential to ensure the interpretative depth and contextual judgment required in real-world projects; thus, such models should be regarded as assistive tools.pt_BR
dc.contributor.advisorORCIDhttps://orcid.org/0000-0002-5541-5188pt_BR
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
DISSERTAÇÃO Carolina Carneiro Reis e Silva.pdf3.06 MBAdobe PDFThumbnail
View/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons