Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/65859
Compartilhe esta página
Título: | Quantifying explanation sensitivity in CLIP: a benchmark of interpretability robustness under perturbations |
Autor(es): | CALIXTO, Diego Henrique Vilaça |
Palavras-chave: | IA Explicável; Modelos de Linguagem Visual; CLIP; Interpretabilidade |
Data do documento: | 5-Ago-2025 |
Citação: | CALIXTO, Diego Henrique Vilaça . Quantifying explanation sensitivity in CLIP: a benchmark of interpretability robustness under perturbations. 2025. Trabalho de Conclusão de Curso (Sistemas de Informação) - Universidade Federal de Pernambuco, Recife, 2025. |
Abstract: | Modelos de Linguagem Visual (VLMs), como o CLIP, são amplamente utilizados em aplicações de inteligência artificial multimodal por integrarem representações de imagens e textos por meio de codificadores de diferentes arquiteturas. Apesar do desempenho robusto, a complexidade desses modelos impõe desafios à compreensão e confiabilidade de suas decisões. Pensando em mitigar esse aspecto, métodos de interpretabilidade têm sido desenvolvidos para poder extrair mapas de atribuição visando entender quais regiões da imagem o modelo está utilizando para inferência. Entretanto, muitos desses métodos de interpretabilidade alteram seu resultado diante de uma pequena alteração na imagem de entrada. Este trabalho se propõe a investigar a robustez de métodos de interpretabilidade aplicados ao CLIP, com ênfase na sensibilidade dessas técnicas a pequenas perturbações nas entradas, aspecto que pode comprometer a confiabilidade das explicações geradas. Para isso, foi proposto um pipeline de avaliação baseado em perturbações controladas, além de um conjunto de métricas que inclui correlação de postos de Spearman, Índice de Similaridade Estrutural (SSIM), Interseção Top-K e Diferença de Similaridade. Foram avaliados nove métodos de interpretabilidade, observando-se variabilidade significativa em termos de estabilidade. Técnicas de interpretação como Grad-ECLIP e CLIP Surgery apresentaram maior robustez e coerência semântica frente às perturbações, enquanto abordagens como RISE e Self-Attention demonstraram instabilidade considerável. Os resultados indicam a importância de se considerar não apenas a capacidade informativa das explicações, mas também sua robustez em diferentes condições. |
URI: | https://repositorio.ufpe.br/handle/123456789/65859 |
Aparece nas coleções: | (TCC) - Sistemas da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TCC Diego Henrique Vilaça Calixto.pdf | 16,95 MB | Adobe PDF | Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons