Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/49433
Comparte esta pagina
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | BARROS, Roberto Souto Maior de | - |
dc.contributor.author | MONTEIRO, Paulo Martins | - |
dc.date.accessioned | 2023-03-22T14:38:22Z | - |
dc.date.available | 2023-03-22T14:38:22Z | - |
dc.date.issued | 2022-10-28 | - |
dc.identifier.citation | MONTEIRO, Paulo Martins. Propostas de métodos baseados em Co-op training para aprendizado semi- supervisionado em fluxos contínuos de dados. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/49433 | - |
dc.description.abstract | No contexto de fluxo contínuo de dados, no qual os dados são gerados em tempo real, é comum a existência de dados sem rótulos, por exemplo, devido ao alto custo para rotulá-los. Para lidar com estes dados, estão sendo propostas estratégias de aprendizagem semi-supervisionada em que são utilizados dados rotulados e não rotulados ao mesmo tempo. Outro desafio típico dos fluxos contínuos de dados é a presença das chamadas mudanças de conceito (concept drift): neste cenário, a distribuição de probabilidade dos dados muda com o tempo, o que causa uma diminuição da precisão das classificações. Essa dissertação apresenta três novos métodos baseados na técnica de nossa autoria o Co-op Training, nos quais são utilizados dois classificadores que cooperam entre si para realizar predições em fluxo contínuos de dados. Estes algoritmos foram adaptados com o objetivo de obter uma melhor acurácia de classificação quando comparados ao método original e aos seus concorrentes. O primeiro método proposto é o Co-op Training V2, uma versão menos rigorosa do método original; o segundo é o Co- op Training V3, que utiliza apenas o nível de confiança de ambos os classificadores para rotular dados sem rótulo; e o último é o Co-op Training V4, que também utiliza apenas o nível de confiança na rotulação de dados, tendo o treinamento de ambos os classificadores como principal diferença para o V3. Os métodos propostos foram comparados aos algoritmos disponíveis no MOA-SS, a extensão do Massive Online Analysis (MOA) framework que foi utilizada para realizar os testes. Os experimentos utilizaram bases de dados artificiais e reais, tanto em conjuntos de dados sem mudanças de conceito quanto em cenários com mudanças de conceito. Finalmente, analisamos quais algoritmos se saíram melhor em cada um dos cenários testados utilizando como métrica a acurácia e o teste pos-hoc Bonferroni-Dunn, tendo o Co-op Training como a melhor opção para ser utilizado sem detector de mudança de conceito. | pt_BR |
dc.description.sponsorship | CAPES | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência computacional | pt_BR |
dc.subject | Fluxo contínuo de dados | pt_BR |
dc.title | Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados | pt_BR |
dc.type | masterThesis | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/5335921616330986 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | mestrado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/2153962690732683 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | In the context of continuous data flow, in which data is generated in real time, it is common to have unlabeled data, for example, due to the high cost of labeling it. To deal with such data, semi-supervised learning strategies are being proposed in which labeled and unlabeled data are used at the same time. Another typical challenge of continuous data stream is the presence of so-called concept drift: in this scenario, the probability distribution of the data changes over time, which causes a decrease in classification accuracy. This paper presents three new methods based on our technique, Co-op Training, in which two cooperating classifiers are used to make predictions on a continuous data stream. These algorithms have been adapted with the goal of obtaining better classification accuracy when compared to the original method and its competitors. The first proposed method is Co-op Training V2, a less rigorous version of the original method; the second is Co-op Training V3, which uses only the confidence threshold of both classifiers to label unlabeled data; and the last is Co-op Training V4, which also uses only the confidence threshold in labeling data, with the training of both classifiers as the main difference to V3. The proposed methods were compared to the algorithms available in MOA-SS, the extension of the Massive Online Analysis (MOA) framework that was used to perform the tests. The experiments used artificial and real databases, both in datasets without concept changes and in scenarios with concept changes. Finally, we analyze which algorithms did better in each of the tested scenarios using accuracy metrics and the Bonferroni-Dunn post hoc test, with Co-op Training as the best option to be used without a concept change detector. | pt_BR |
Aparece en las colecciones: | Dissertações de Mestrado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Paulo Martins Monteiro.pdf | 1,21 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons