Please use this identifier to cite or link to this item:
https://repositorio.ufpe.br/handle/123456789/65859
Share on
Title: | Quantifying explanation sensitivity in CLIP: a benchmark of interpretability robustness under perturbations |
Authors: | CALIXTO, Diego Henrique Vilaça |
Keywords: | IA Explicável; Modelos de Linguagem Visual; CLIP; Interpretabilidade |
Issue Date: | 5-Aug-2025 |
Citation: | CALIXTO, Diego Henrique Vilaça . Quantifying explanation sensitivity in CLIP: a benchmark of interpretability robustness under perturbations. 2025. Trabalho de Conclusão de Curso (Sistemas de Informação) - Universidade Federal de Pernambuco, Recife, 2025. |
Abstract: | Modelos de Linguagem Visual (VLMs), como o CLIP, são amplamente utilizados em aplicações de inteligência artificial multimodal por integrarem representações de imagens e textos por meio de codificadores de diferentes arquiteturas. Apesar do desempenho robusto, a complexidade desses modelos impõe desafios à compreensão e confiabilidade de suas decisões. Pensando em mitigar esse aspecto, métodos de interpretabilidade têm sido desenvolvidos para poder extrair mapas de atribuição visando entender quais regiões da imagem o modelo está utilizando para inferência. Entretanto, muitos desses métodos de interpretabilidade alteram seu resultado diante de uma pequena alteração na imagem de entrada. Este trabalho se propõe a investigar a robustez de métodos de interpretabilidade aplicados ao CLIP, com ênfase na sensibilidade dessas técnicas a pequenas perturbações nas entradas, aspecto que pode comprometer a confiabilidade das explicações geradas. Para isso, foi proposto um pipeline de avaliação baseado em perturbações controladas, além de um conjunto de métricas que inclui correlação de postos de Spearman, Índice de Similaridade Estrutural (SSIM), Interseção Top-K e Diferença de Similaridade. Foram avaliados nove métodos de interpretabilidade, observando-se variabilidade significativa em termos de estabilidade. Técnicas de interpretação como Grad-ECLIP e CLIP Surgery apresentaram maior robustez e coerência semântica frente às perturbações, enquanto abordagens como RISE e Self-Attention demonstraram instabilidade considerável. Os resultados indicam a importância de se considerar não apenas a capacidade informativa das explicações, mas também sua robustez em diferentes condições. |
URI: | https://repositorio.ufpe.br/handle/123456789/65859 |
Appears in Collections: | (TCC) - Sistemas da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
TCC Diego Henrique Vilaça Calixto.pdf | 16,95 MB | Adobe PDF | ![]() View/Open |
This item is protected by original copyright |
This item is licensed under a Creative Commons License