Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/65859

Compartilhe esta página

Título: Quantifying explanation sensitivity in CLIP: a benchmark of interpretability robustness under perturbations
Autor(es): CALIXTO, Diego Henrique Vilaça
Palavras-chave: IA Explicável; Modelos de Linguagem Visual; CLIP; Interpretabilidade
Data do documento: 5-Ago-2025
Citação: CALIXTO, Diego Henrique Vilaça . Quantifying explanation sensitivity in CLIP: a benchmark of interpretability robustness under perturbations. 2025. Trabalho de Conclusão de Curso (Sistemas de Informação) - Universidade Federal de Pernambuco, Recife, 2025.
Abstract: Modelos de Linguagem Visual (VLMs), como o CLIP, são amplamente utilizados em aplicações de inteligência artificial multimodal por integrarem representações de imagens e textos por meio de codificadores de diferentes arquiteturas. Apesar do desempenho robusto, a complexidade desses modelos impõe desafios à compreensão e confiabilidade de suas decisões. Pensando em mitigar esse aspecto, métodos de interpretabilidade têm sido desenvolvidos para poder extrair mapas de atribuição visando entender quais regiões da imagem o modelo está utilizando para inferência. Entretanto, muitos desses métodos de interpretabilidade alteram seu resultado diante de uma pequena alteração na imagem de entrada. Este trabalho se propõe a investigar a robustez de métodos de interpretabilidade aplicados ao CLIP, com ênfase na sensibilidade dessas técnicas a pequenas perturbações nas entradas, aspecto que pode comprometer a confiabilidade das explicações geradas. Para isso, foi proposto um pipeline de avaliação baseado em perturbações controladas, além de um conjunto de métricas que inclui correlação de postos de Spearman, Índice de Similaridade Estrutural (SSIM), Interseção Top-K e Diferença de Similaridade. Foram avaliados nove métodos de interpretabilidade, observando-se variabilidade significativa em termos de estabilidade. Técnicas de interpretação como Grad-ECLIP e CLIP Surgery apresentaram maior robustez e coerência semântica frente às perturbações, enquanto abordagens como RISE e Self-Attention demonstraram instabilidade considerável. Os resultados indicam a importância de se considerar não apenas a capacidade informativa das explicações, mas também sua robustez em diferentes condições.
URI: https://repositorio.ufpe.br/handle/123456789/65859
Aparece nas coleções:(TCC) - Sistemas da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC Diego Henrique Vilaça Calixto.pdf16,95 MBAdobe PDFVisualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons