Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/64778

Compartilhe esta página

Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorBARROS, Roberto Souto Maior de-
dc.contributor.authorPÉREZ, José Luis Martínez-
dc.date.accessioned2025-08-01T12:23:48Z-
dc.date.available2025-08-01T12:23:48Z-
dc.date.issued2025-02-25-
dc.identifier.citationPÉREZ, José Luis Martínez. Estratégias para aprimorar técnicas supervisionadas de classificação para contextos semi-supervisionados. 2025.Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/64778-
dc.description.abstractOs algoritmos de aprendizado de máquina estão se tornando cruciais, e quando ex- postos a uma quantidade maior e mais relevante de dados de treinamento, tendem a apresentar melhor desempenho. No entanto, a disponibilidade de dados rotulados sem a intervenção de humanos é uma tarefa desafiadora, especialmente no aprendizado em fluxo de dados com mudanças de conceito, em que os dados são gerados rapidamente, em tempo real e com a possibilidade de alterações na distribuição de probabilidade. As mudanças de conceito ocorrem em ambientes de aprendizado supervisionado, semi-supervisionado e não supervisionado. Atualmente, o uso de mecanismos de detecção de mudanças em aprendizado semi-supervisionado é incomum, e a adição desses mecanismos aumenta o custo computacional. Além disso, a classificação em ambientes semi-supervisionados pode levar a problemas relacionados à rotulagem de dados para treinamento. Um erro nesse processo pode impactar negativamente o desempenho do modelo. Esta tese explora os seguintes pontos: 1) o uso de detectores de mudanças de conceito supervisionados em pro- blemas de aprendizado semi-supervisionado; 2) a influência da diversidade nos comitês de classificadores em cenários com mudanças de conceito; 3) introduz uma abordagem de self-training (auto-treinamento) para otimizar o aprendizado; e, por fim, 4) detalha as modificações realizadas no framework Massive Online Analysis (MOA) para a simulação de cenários semi-supervisionados. Os experimentos realizados utilizaram os classificadores Hoeffding Tree (HT) e Naïve Bayes (NB), individualmente ou como membros de comitê, sempre combinados com detectores e testados em 84 bases de dados artificiais e 11 reais. Os experimentos foram conduzidos com 15% e 30% de dados rotulados. Os resultados indicam que detectores desenvolvidos para aprendizado supervisionado podem ser utiliza- dos de forma eficaz em ambientes semi-supervisionados. Além disso, os testes com a nova abordagem de self-training demonstram que a inclusão de rótulos adicionais melhora sig- nificativamente o desempenho dos classificadores. Essas descobertas podem levar a uma mudança de paradigma em pesquisas futuras, uma vez que muitos pesquisadores não con- sideram os detectores de mudanças de conceito como uma alternativa viável devido à disponibilidade limitada de rótulos na maioria dos fluxos de dados do mundo real.pt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectInteligência computacionalpt_BR
dc.subjectAprendizado semi- supervisionadopt_BR
dc.subjectDetectores de mudanças de conceitopt_BR
dc.subjectAutoaprendizadopt_BR
dc.subjectComitê de classificadorespt_BR
dc.subjectFluxo de dadospt_BR
dc.titleEstratégias para aprimorar técnicas supervisionadas de classificação para contextos semi-supervisionadospt_BR
dc.typedoctoralThesispt_BR
dc.contributor.advisor-coSANTOS, Silas Garrido Teixeira de Carvalho-
dc.contributor.authorLatteshttp://lattes.cnpq.br/8314525910631589pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.leveldoutoradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/2153962690732683pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxMachine learning algorithms are becoming crucial, and when exposed to a larger and more relevant amount of training data, they tend to perform better. However, the availability of labeled data without human intervention is a challenging task, especially in data stream learning with concept drifts, where data is generated rapidly, in real-time and with the possibility of changes in the probability distribution. Concept drift occurs in supervised, semi-supervised, and unsupervised learning environments. Currently, the use of drift detectors with base classifiers in semi-supervised learning is uncommon, and the addition of a detection mechanism increases the computational cost. Furthermore, classi- fication in semi-supervised environments can lead to problems related to labeling data to training. An error in this process can negatively impact model performance. This thesis explores and contributes to the following points: 1) the use of supervised concept drift detectors in semi-supervised learning problems; 2) the influence of diversity on classifier ensembles in concept drift scenarios; 3) it introduces a self-training approach to optimize learning; and, finally, 4) it details the modifications made to the Massive Online Analysis (MOA) framework to simulation in semi-supervised scenarios. The experiments employed Hoeffding Tree (HT) and Naïve Bayes (NB) classifiers, either individually or as members of the ensembles, always combined with drift detectors and evaluated on 84 synthetic and 11 real datasets. The experiments were conducted with 15% and 30% labeled data. The results indicate that detectors developed for supervised learning can be effectively used in semi-supervised environments. Additionally, the tests with the new self-training ap- proach demonstrate that the inclusion of additional labels significantly improves classifier performance. These findings may lead to a paradigm shift in future research, as many researchers do not consider concept drift detectors a viable alternative due to the limited availability of labels in most real-world data streams.pt_BR
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/9125082586431097pt_BR
Aparece nas coleções:Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TESE José Luis Martínez Pérez.pdf2,13 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons