Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/65859
Compartilhe esta página
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor | SANTOS, Flávio Arthur Oliveira | - |
dc.contributor.author | CALIXTO, Diego Henrique Vilaça | - |
dc.date.accessioned | 2025-09-09T15:48:05Z | - |
dc.date.available | 2025-09-09T15:48:05Z | - |
dc.date.issued | 2025-08-05 | - |
dc.date.submitted | 2025-09-03 | - |
dc.identifier.citation | CALIXTO, Diego Henrique Vilaça . Quantifying explanation sensitivity in CLIP: a benchmark of interpretability robustness under perturbations. 2025. Trabalho de Conclusão de Curso (Sistemas de Informação) - Universidade Federal de Pernambuco, Recife, 2025. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/65859 | - |
dc.description.abstract | Modelos de Linguagem Visual (VLMs), como o CLIP, são amplamente utilizados em aplicações de inteligência artificial multimodal por integrarem representações de imagens e textos por meio de codificadores de diferentes arquiteturas. Apesar do desempenho robusto, a complexidade desses modelos impõe desafios à compreensão e confiabilidade de suas decisões. Pensando em mitigar esse aspecto, métodos de interpretabilidade têm sido desenvolvidos para poder extrair mapas de atribuição visando entender quais regiões da imagem o modelo está utilizando para inferência. Entretanto, muitos desses métodos de interpretabilidade alteram seu resultado diante de uma pequena alteração na imagem de entrada. Este trabalho se propõe a investigar a robustez de métodos de interpretabilidade aplicados ao CLIP, com ênfase na sensibilidade dessas técnicas a pequenas perturbações nas entradas, aspecto que pode comprometer a confiabilidade das explicações geradas. Para isso, foi proposto um pipeline de avaliação baseado em perturbações controladas, além de um conjunto de métricas que inclui correlação de postos de Spearman, Índice de Similaridade Estrutural (SSIM), Interseção Top-K e Diferença de Similaridade. Foram avaliados nove métodos de interpretabilidade, observando-se variabilidade significativa em termos de estabilidade. Técnicas de interpretação como Grad-ECLIP e CLIP Surgery apresentaram maior robustez e coerência semântica frente às perturbações, enquanto abordagens como RISE e Self-Attention demonstraram instabilidade considerável. Os resultados indicam a importância de se considerar não apenas a capacidade informativa das explicações, mas também sua robustez em diferentes condições. | pt_BR |
dc.format.extent | 49p. | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | pt_BR |
dc.subject | IA Explicável | pt_BR |
dc.subject | Modelos de Linguagem Visual | pt_BR |
dc.subject | CLIP | pt_BR |
dc.subject | Interpretabilidade | pt_BR |
dc.title | Quantifying explanation sensitivity in CLIP: a benchmark of interpretability robustness under perturbations | pt_BR |
dc.type | bachelorThesis | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/2759501873560460 | pt_BR |
dc.degree.level | Graduacao | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/4086648712225670 | pt_BR |
dc.description.abstractx | Visual Language Models (VLMs), such as CLIP, are widely used in multimodal artificial intelligence applications due to their ability to integrate image and text representations through encoders with different architectures. Despite their strong performance, the complexity of these models presents challenges to understanding and trusting their decisions. To mitigate this issue, interpretability methods have been developed to extract attribution maps in order to understand which regions of the image the model is using for inference. However, many of these interpretability methods produce different results when the input image is slightly altered. This work aims to investigate the robustness of interpretability methods applied to CLIP, with an emphasis on the sensitivity of these techniques to small input perturbations, an aspect that can undermine the reliability of the generated explanations. To this end, an evaluation pipeline based on controlled perturbations was proposed, along with a set of metrics including Spearman’s rank correlation, Structural Similarity Index (SSIM), and Top-K Intersection. Nine interpretability methods were evaluated, revealing significant variability in terms of stability. Interpretation techniques such as Grad-ECLIP and CLIP Surgery showed greater robustness and semantic coherence in the face of perturbations, while approaches like RISE and Self-Attention demonstrated considerable instability. The results highlight the importance of considering not only the informativeness of the explanations, but also their robustness under different conditions. | pt_BR |
dc.subject.cnpq | Áreas::Ciências Exatas e da Terra::Ciência da Computação | pt_BR |
dc.degree.departament | ::(CIN-DIS) - Departamento de Informação e Sistemas | pt_BR |
dc.degree.graduation | ::CIn-Curso de Sistemas de Informação | pt_BR |
dc.degree.grantor | Universidade Federal de Pernambuco | pt_BR |
dc.degree.local | Recife | pt_BR |
dc.identifier.orcid | 0009-0005-5334-2818 | pt_BR |
Aparece nas coleções: | (TCC) - Sistemas da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TCC Diego Henrique Vilaça Calixto.pdf | 16,95 MB | Adobe PDF | Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons