Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/67233

Compartilhe esta página

Título: Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
Autor(es): BRASILEIRO, Natacha Targino Rodrigues Simões
Palavras-chave: Aprendizado de máquina; Dados de proveniência; Seleção de atributos; Ontologias
Data do documento: 27-Fev-2025
Editor: Universidade Federal de Pernambuco
Citação: BRASILEIRO, Natacha Targino Rodrigues Simões. Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025.
Abstract: Com o aumento exponencial dos dados e o desenvolvimento de sistemas inteligentes baseados em Aprendizado de Máquina (AM), surgem novas oportunidades e desafios. A eficácia desses sistemas depende da compreensão dos princípios do AM, principalmente na utilização de algoritmos supervisionados, que aprendem a partir de dados rotulados para realizar tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma oportunidade de rastrear e entender decisões feitas durante as execuções anteriores de pipelines de AM, promovendo a transparência e rastreabilidade desses processos. Embora a literatura explore o uso de dados de proveniência em AM, sua aplicação em atividades de seleção de atributos ainda é pouco explorada, apesar do potencial para automatizar ajustes e melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem focada em dados de proveniência de execuções de pipelines de AM, com o objetivo de explorar o papel desses dados na reexecução e ajuste de atividades de seleção de atributos em pipelines de AM. Especificamente, investigam-se duas questões de pesquisa: (1) como dados de proveniência capturados durante a execução de um pipeline de AM podem ser utilizados para registrar e viabilizar a reexecução consistente de atividades específicas em momentos futuros, e (2) como as informações obtidas a partir dos dados de proveniência de execuções anteriores de pipelines de AM podem auxiliar na realização de ajustes na seleção de atributos, de forma a contribuir para a melhoria da avaliação dos modelos de AM. A solução apresentada envolve a captura de dados de proveniência durante a execução de pipelines e a estruturação semântica desses dados usando uma extensão da Ontologia PROV (W3C). A estruturação visa otimizar a reutilização das informações para ajustar e melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a seleção de atributos com base em execuções anteriores, promovendo o aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido um protótipo que automatiza esse processo. Em experimentos com diferentes tarefas de treinamento de modelos de AM, foi observado que os ajustes baseados em dados de proveniência resultaram em melhorias nas métricas de acurácia e F1-score dos modelos de AM gerados. Os resultados indicam que o uso de dados de proveniência contribui para otimizar o processo de treinamento, especialmente ao considerar a reexecução e o ajuste das atividades. As principais contribuições deste trabalho incluem a definição da ontologia PROVX, a qual permite modelar e gerenciar os dados de proveniência dos pipelines de AM, e a proposta de uma estratégia de seleção de atributos que facilita o aprimoramento dos modelos com base nesses dados.
URI: https://repositorio.ufpe.br/handle/123456789/67233
Aparece nas coleções:Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TESE Natacha Targino Rodrigues Simoes Brasileiro.pdf4.21 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons