Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/67233
Comparte esta pagina
Registro completo de metadatos
| Campo DC | Valor | Lengua/Idioma |
|---|---|---|
| dc.contributor.advisor | SALGADO, Ana Carolina Brandão | - |
| dc.contributor.author | BRASILEIRO, Natacha Targino Rodrigues Simões | - |
| dc.date.accessioned | 2025-12-17T14:23:38Z | - |
| dc.date.available | 2025-12-17T14:23:38Z | - |
| dc.date.issued | 2025-02-27 | - |
| dc.identifier.citation | BRASILEIRO, Natacha Targino Rodrigues Simões. Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025. | pt_BR |
| dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/67233 | - |
| dc.description.abstract | Com o aumento exponencial dos dados e o desenvolvimento de sistemas inteligentes baseados em Aprendizado de Máquina (AM), surgem novas oportunidades e desafios. A eficácia desses sistemas depende da compreensão dos princípios do AM, principalmente na utilização de algoritmos supervisionados, que aprendem a partir de dados rotulados para realizar tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma oportunidade de rastrear e entender decisões feitas durante as execuções anteriores de pipelines de AM, promovendo a transparência e rastreabilidade desses processos. Embora a literatura explore o uso de dados de proveniência em AM, sua aplicação em atividades de seleção de atributos ainda é pouco explorada, apesar do potencial para automatizar ajustes e melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem focada em dados de proveniência de execuções de pipelines de AM, com o objetivo de explorar o papel desses dados na reexecução e ajuste de atividades de seleção de atributos em pipelines de AM. Especificamente, investigam-se duas questões de pesquisa: (1) como dados de proveniência capturados durante a execução de um pipeline de AM podem ser utilizados para registrar e viabilizar a reexecução consistente de atividades específicas em momentos futuros, e (2) como as informações obtidas a partir dos dados de proveniência de execuções anteriores de pipelines de AM podem auxiliar na realização de ajustes na seleção de atributos, de forma a contribuir para a melhoria da avaliação dos modelos de AM. A solução apresentada envolve a captura de dados de proveniência durante a execução de pipelines e a estruturação semântica desses dados usando uma extensão da Ontologia PROV (W3C). A estruturação visa otimizar a reutilização das informações para ajustar e melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a seleção de atributos com base em execuções anteriores, promovendo o aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido um protótipo que automatiza esse processo. Em experimentos com diferentes tarefas de treinamento de modelos de AM, foi observado que os ajustes baseados em dados de proveniência resultaram em melhorias nas métricas de acurácia e F1-score dos modelos de AM gerados. Os resultados indicam que o uso de dados de proveniência contribui para otimizar o processo de treinamento, especialmente ao considerar a reexecução e o ajuste das atividades. As principais contribuições deste trabalho incluem a definição da ontologia PROVX, a qual permite modelar e gerenciar os dados de proveniência dos pipelines de AM, e a proposta de uma estratégia de seleção de atributos que facilita o aprimoramento dos modelos com base nesses dados. | pt_BR |
| dc.language.iso | por | pt_BR |
| dc.publisher | Universidade Federal de Pernambuco | pt_BR |
| dc.rights | openAccess | pt_BR |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | pt_BR |
| dc.subject | Aprendizado de máquina | pt_BR |
| dc.subject | Dados de proveniência | pt_BR |
| dc.subject | Seleção de atributos | pt_BR |
| dc.subject | Ontologias | pt_BR |
| dc.title | Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos | pt_BR |
| dc.type | doctoralThesis | pt_BR |
| dc.contributor.advisor-co | FERNANDES, Damires Yluska de Souza | - |
| dc.contributor.authorLattes | http://lattes.cnpq.br/0335852124621004 | pt_BR |
| dc.publisher.initials | UFPE | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.degree.level | doutorado | pt_BR |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/1095193209251351 | pt_BR |
| dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
| dc.description.abstractx | With the exponential growth of data and the development of intelligent systems based on Machine Learning (ML), new opportunities and challenges have emerged. The effectiveness of these systems depends on a comprehensive understanding of ML principles, particularly the use of supervised algorithms that learn from labeled data to perform predictive tasks. In this context, provenance data offers a valuable opportunity to trace and understand decisions made during previous executions of ML pipelines, thereby promoting transparency and traceability in these processes. Although the literature explores the use of provenance data in ML, its application to feature selection activities remains underexplored, despite its potential to automate tuning processes and improve model evaluation. This study proposes an approach focused on provenance data derived from ML pipeline executions, aiming to investigate the role of such data in the reexecution and adjustment of feature selection activities within ML pipelines. Specifically, two research questions are addressed: (1) how provenance data captured during the execution of an ML pipeline can be used to record and enable the consistent re-execution of specific activities at later stages, and (2) how information obtained from provenance data of previous ML pipeline executions can support adjustments to feature selection in order to enhance ML model evaluation. The proposed solution involves the capture of provenance data during pipeline executions and the semantic structuring of this data using an extension of the PROV Ontology (W3C). This structuring aims to optimize the reuse of information to refine and improve ML model evaluation. The approach enables feature selection adjustments based on prior executions, thereby supporting the continuous enhancement of the model. To evaluate the proposal, a prototype was developed to automate the process. In experiments involving different ML model training tasks, it was observed that adjustments based on provenance data led to improvements in accuracy and F1-score metrics of the resulting models. The results indicate that the use of provenance data contributes to the optimization of the training process, particularly when considering the re-execution and adjustment of specific activities. The main contributions of this work include the definition of the PROVX ontology, which enables the modeling and management of provenance data from ML pipelines, and the proposal of a feature selection strategy that facilitates model enhancement based on such data. | pt_BR |
| dc.contributor.advisor-coLattes | http://lattes.cnpq.br/9411293540915384 | pt_BR |
| Aparece en las colecciones: | Teses de Doutorado - Ciência da Computação | |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| TESE Natacha Targino Rodrigues Simoes Brasileiro.pdf | 4.21 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

