SecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Prompts

AMORIM, Eduardo Alexandre de

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/65400

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	ZANCHETTIN, Cleber	-
dc.contributor.author	AMORIM, Eduardo Alexandre de	-
dc.date.accessioned	2025-08-25T15:54:56Z	-
dc.date.available	2025-08-25T15:54:56Z	-
dc.date.issued	2025-08-05	-
dc.date.submitted	2025-08-21	-
dc.identifier.citation	AMORIM, Eduardo Alexandre de. SecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Prompts. 2025. Trabalho de Conclusão de Curso(Ciência da computação) - Universidade Federal de Pernambuco, Recife, 2025.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/65400	-
dc.description.abstract	O crescimento dos Modelos de Linguagem de Grande Escala (LLMs) traz desafios à segurança, sobretudo diante do uso de jailbreak prompts, instruções criadas para burlar salvaguardas. Embora o tema esteja em debate na literatura internacional, há escassez de soluções voltadas à língua portuguesa. Este trabalho propõe o SecBERT, um classifica- dor treinado para detectar jailbreaks em português. Para isso, adaptou-se o WildJailbreak Dataset via tradução automatizada, resultando em 29.432 exemplos rotulados em quatro categorias. Foram conduzidos alguns experimentos com modelos BERT (e.g. BERTim- bau, RoBERTa), testando diferentes estratégias de fine-tuning. Os resultados evidenciam que modelos ajustados ao idioma superam abordagens multilíngues ou generalistas. O SecBERT representa, portanto, um avanço na segurança de LLMs em português.	pt_BR
dc.format.extent	40p.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject	Segurança em LLMs	pt_BR
dc.subject	Jailbreak Prompts	pt_BR
dc.subject	PLN	pt_BR
dc.subject	Classificação de Texto	pt_BR
dc.title	SecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Prompts	pt_BR
dc.type	bachelorThesis	pt_BR
dc.contributor.authorLattes	https://lattes.cnpq.br/8790662285088894	pt_BR
dc.degree.level	Graduacao	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/1244195230407619	pt_BR
dc.description.abstractx	The rise of Large Language Models (LLMs) poses security challenges, especially in the face of jailbreak prompts—crafted instructions designed to bypass safeguards. While the topic is under discussion in the international literature, there is a lack of solutions tailored to the Portuguese language. This work proposes SecBERT, a classifier trained to detect jailbreaks in Portuguese. To this end, the WildJailbreak Dataset was adapted via auto- mated translation, resulting in 29,432 labeled examples across four categories. Several experiments were conducted using BERT-based models (e.g., BERTimbau, RoBERTa), testing different fine-tuning strategies. Results show that language-specific models out- perform multilingual or general-purpose approaches. SecBERT thus represents a step forward in securing LLMs in Portuguese.	pt_BR
dc.subject.cnpq	Áreas::Ciências Exatas e da Terra::Ciência da Computação	pt_BR
dc.degree.departament	::(CIN-DCC) - Departamento de Ciência da Computação	pt_BR
dc.degree.graduation	::CIn-Curso de Ciência da Computação	pt_BR
dc.degree.grantor	Universidade Federal de Pernambuco	pt_BR
dc.degree.local	Recife	pt_BR
dc.identifier.orcid	0009-0003-3862-3246	pt_BR
Aparece nas coleções:	(TCC) - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TCC Eduardo Alexandre de Amorim.pdf		1,19 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons