Please use this identifier to cite or link to this item:
https://repositorio.ufpe.br/handle/123456789/38119
Share on
Title: | Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados |
Authors: | VITÓRIO, Douglas Álisson Marques de Sá |
Keywords: | Inteligência computaciona; Mineração de opinião |
Issue Date: | 20-Feb-2020 |
Publisher: | Universidade Federal de Pernambuco |
Citation: | VITÓRIO, Douglas Álisson Marques de Sá. Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020. |
Abstract: | Mineração de Opinião, também conhecida como Análise de Sentimento, é a área de estudo que analisa computacionalmente os sentimentos e opiniões das pessoas acerca de entidades, como produtos e serviços, expressos de forma não estruturada, como em texto, por exemplo. Entretanto, as abordagens mais comuns de Mineração de Opinião não estão aptas a lidar com as características e os desafios trazidos pelo processamento de fluxos contínuos de dados (data streams), devido, principalmente, ao fato de estes terem uma natureza evolutiva, requerendo atualizações constantes do modelo, e aquelas serem fortemente baseadas em Aprendizagem Supervisionada; dessa forma, uma alternativa é a utilização de técnicas Semi-supervisionadas, como a de Active Learning, a qual visa rotular apenas dados selecionados, em vez de rotular todo o conjunto de dados. A abordagem de Active Learning requer a escolha de uma estratégia para selecionar as instâncias mais relevantes para atualização do modelo de aprendizagem; contudo, nenhum estudo realizou uma análise com o objetivo de identificar as melhores estratégias para Mineração de Opinião. Nesta pesquisa, portanto, essa análise é realizada com base em oito estratégias de seleção: seis delas encontradas na literatura e duas propostas pelo autor; e utilizando 20 conjuntos de dados oriundos de quatro corpora com data streams: dois deles construídos especificamente para esta pesquisa e contendo dados do Facebook e do Twitter acerca da Eleição Presidencial no Brasil em 2018. As estratégias foram avaliadas em três cenários diferentes e com três tipos de classificadores. Com base nos resultados e considerando os 20 conjuntos de dados utilizados, pôde-se perceber que a técnica Entropy é a mais indicada, em termos de f-measure, para o maior número de situações; porém, esta estratégia seleciona um número muito grande de documentos, na maioria dos casos selecionando o dobro das outras, não sendo recomendável para casos nos quais não há a possibilidade de rotular um grande volume de dados. Nestes cenários, a estratégia Variable Entropy, proposta neste trabalho, se mostrou uma opção mais viável |
URI: | https://repositorio.ufpe.br/handle/123456789/38119 |
Appears in Collections: | Dissertações de Mestrado - Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
DISSERTAÇÃO Douglas Álisson Marques de Sá Vitório.pdf | 1,36 MB | Adobe PDF | ![]() View/Open |
This item is protected by original copyright |
This item is licensed under a Creative Commons License