Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/38119

Share on

Title: Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
Authors: VITÓRIO, Douglas Álisson Marques de Sá
Keywords: Inteligência computaciona; Mineração de opinião
Issue Date: 20-Feb-2020
Publisher: Universidade Federal de Pernambuco
Citation: VITÓRIO, Douglas Álisson Marques de Sá. Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
Abstract: Mineração de Opinião, também conhecida como Análise de Sentimento, é a área de estudo que analisa computacionalmente os sentimentos e opiniões das pessoas acerca de entidades, como produtos e serviços, expressos de forma não estruturada, como em texto, por exemplo. Entretanto, as abordagens mais comuns de Mineração de Opinião não estão aptas a lidar com as características e os desafios trazidos pelo processamento de fluxos contínuos de dados (data streams), devido, principalmente, ao fato de estes terem uma natureza evolutiva, requerendo atualizações constantes do modelo, e aquelas serem fortemente baseadas em Aprendizagem Supervisionada; dessa forma, uma alternativa é a utilização de técnicas Semi-supervisionadas, como a de Active Learning, a qual visa rotular apenas dados selecionados, em vez de rotular todo o conjunto de dados. A abordagem de Active Learning requer a escolha de uma estratégia para selecionar as instâncias mais relevantes para atualização do modelo de aprendizagem; contudo, nenhum estudo realizou uma análise com o objetivo de identificar as melhores estratégias para Mineração de Opinião. Nesta pesquisa, portanto, essa análise é realizada com base em oito estratégias de seleção: seis delas encontradas na literatura e duas propostas pelo autor; e utilizando 20 conjuntos de dados oriundos de quatro corpora com data streams: dois deles construídos especificamente para esta pesquisa e contendo dados do Facebook e do Twitter acerca da Eleição Presidencial no Brasil em 2018. As estratégias foram avaliadas em três cenários diferentes e com três tipos de classificadores. Com base nos resultados e considerando os 20 conjuntos de dados utilizados, pôde-se perceber que a técnica Entropy é a mais indicada, em termos de f-measure, para o maior número de situações; porém, esta estratégia seleciona um número muito grande de documentos, na maioria dos casos selecionando o dobro das outras, não sendo recomendável para casos nos quais não há a possibilidade de rotular um grande volume de dados. Nestes cenários, a estratégia Variable Entropy, proposta neste trabalho, se mostrou uma opção mais viável
URI: https://repositorio.ufpe.br/handle/123456789/38119
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
DISSERTAÇÃO Douglas Álisson Marques de Sá Vitório.pdf1,36 MBAdobe PDFThumbnail
View/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons