Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/65400
Comparte esta pagina
Título : | SecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Prompts |
Autor : | AMORIM, Eduardo Alexandre de |
Palabras clave : | Segurança em LLMs; Jailbreak Prompts; PLN; Classificação de Texto |
Fecha de publicación : | 5-ago-2025 |
Citación : | AMORIM, Eduardo Alexandre de. SecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Prompts. 2025. Trabalho de Conclusão de Curso(Ciência da computação) - Universidade Federal de Pernambuco, Recife, 2025. |
Resumen : | O crescimento dos Modelos de Linguagem de Grande Escala (LLMs) traz desafios à segurança, sobretudo diante do uso de jailbreak prompts, instruções criadas para burlar salvaguardas. Embora o tema esteja em debate na literatura internacional, há escassez de soluções voltadas à língua portuguesa. Este trabalho propõe o SecBERT, um classifica- dor treinado para detectar jailbreaks em português. Para isso, adaptou-se o WildJailbreak Dataset via tradução automatizada, resultando em 29.432 exemplos rotulados em quatro categorias. Foram conduzidos alguns experimentos com modelos BERT (e.g. BERTim- bau, RoBERTa), testando diferentes estratégias de fine-tuning. Os resultados evidenciam que modelos ajustados ao idioma superam abordagens multilíngues ou generalistas. O SecBERT representa, portanto, um avanço na segurança de LLMs em português. |
URI : | https://repositorio.ufpe.br/handle/123456789/65400 |
Aparece en las colecciones: | (TCC) - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TCC Eduardo Alexandre de Amorim.pdf | 1,19 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons