Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/65400

Compartilhe esta página

Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorZANCHETTIN, Cleber-
dc.contributor.authorAMORIM, Eduardo Alexandre de-
dc.date.accessioned2025-08-25T15:54:56Z-
dc.date.available2025-08-25T15:54:56Z-
dc.date.issued2025-08-05-
dc.date.submitted2025-08-21-
dc.identifier.citationAMORIM, Eduardo Alexandre de. SecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Prompts. 2025. Trabalho de Conclusão de Curso(Ciência da computação) - Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/65400-
dc.description.abstractO crescimento dos Modelos de Linguagem de Grande Escala (LLMs) traz desafios à segurança, sobretudo diante do uso de jailbreak prompts, instruções criadas para burlar salvaguardas. Embora o tema esteja em debate na literatura internacional, há escassez de soluções voltadas à língua portuguesa. Este trabalho propõe o SecBERT, um classifica- dor treinado para detectar jailbreaks em português. Para isso, adaptou-se o WildJailbreak Dataset via tradução automatizada, resultando em 29.432 exemplos rotulados em quatro categorias. Foram conduzidos alguns experimentos com modelos BERT (e.g. BERTim- bau, RoBERTa), testando diferentes estratégias de fine-tuning. Os resultados evidenciam que modelos ajustados ao idioma superam abordagens multilíngues ou generalistas. O SecBERT representa, portanto, um avanço na segurança de LLMs em português.pt_BR
dc.format.extent40p.pt_BR
dc.language.isoporpt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectSegurança em LLMspt_BR
dc.subjectJailbreak Promptspt_BR
dc.subjectPLNpt_BR
dc.subjectClassificação de Textopt_BR
dc.titleSecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Promptspt_BR
dc.typebachelorThesispt_BR
dc.contributor.authorLatteshttps://lattes.cnpq.br/8790662285088894pt_BR
dc.degree.levelGraduacaopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1244195230407619pt_BR
dc.description.abstractxThe rise of Large Language Models (LLMs) poses security challenges, especially in the face of jailbreak prompts—crafted instructions designed to bypass safeguards. While the topic is under discussion in the international literature, there is a lack of solutions tailored to the Portuguese language. This work proposes SecBERT, a classifier trained to detect jailbreaks in Portuguese. To this end, the WildJailbreak Dataset was adapted via auto- mated translation, resulting in 29,432 labeled examples across four categories. Several experiments were conducted using BERT-based models (e.g., BERTimbau, RoBERTa), testing different fine-tuning strategies. Results show that language-specific models out- perform multilingual or general-purpose approaches. SecBERT thus represents a step forward in securing LLMs in Portuguese.pt_BR
dc.subject.cnpqÁreas::Ciências Exatas e da Terra::Ciência da Computaçãopt_BR
dc.degree.departament::(CIN-DCC) - Departamento de Ciência da Computaçãopt_BR
dc.degree.graduation::CIn-Curso de Ciência da Computaçãopt_BR
dc.degree.grantorUniversidade Federal de Pernambucopt_BR
dc.degree.localRecifept_BR
dc.identifier.orcid0009-0003-3862-3246pt_BR
Aparece nas coleções:(TCC) - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC Eduardo Alexandre de Amorim.pdf1,19 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons