Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados

VITÓRIO, Douglas Álisson Marques de Sá

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/38119

Share on

Title:	Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados
Authors:	VITÓRIO, Douglas Álisson Marques de Sá
Keywords:	Inteligência computaciona; Mineração de opinião
Issue Date:	20-Feb-2020
Publisher:	Universidade Federal de Pernambuco
Citation:	VITÓRIO, Douglas Álisson Marques de Sá. Avaliando estratégias de seleção de active learning para mineração de opinião com fluxos contínuos de dados. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
Abstract:	Mineração de Opinião, também conhecida como Análise de Sentimento, é a área de estudo que analisa computacionalmente os sentimentos e opiniões das pessoas acerca de entidades, como produtos e serviços, expressos de forma não estruturada, como em texto, por exemplo. Entretanto, as abordagens mais comuns de Mineração de Opinião não estão aptas a lidar com as características e os desafios trazidos pelo processamento de fluxos contínuos de dados (data streams), devido, principalmente, ao fato de estes terem uma natureza evolutiva, requerendo atualizações constantes do modelo, e aquelas serem fortemente baseadas em Aprendizagem Supervisionada; dessa forma, uma alternativa é a utilização de técnicas Semi-supervisionadas, como a de Active Learning, a qual visa rotular apenas dados selecionados, em vez de rotular todo o conjunto de dados. A abordagem de Active Learning requer a escolha de uma estratégia para selecionar as instâncias mais relevantes para atualização do modelo de aprendizagem; contudo, nenhum estudo realizou uma análise com o objetivo de identificar as melhores estratégias para Mineração de Opinião. Nesta pesquisa, portanto, essa análise é realizada com base em oito estratégias de seleção: seis delas encontradas na literatura e duas propostas pelo autor; e utilizando 20 conjuntos de dados oriundos de quatro corpora com data streams: dois deles construídos especificamente para esta pesquisa e contendo dados do Facebook e do Twitter acerca da Eleição Presidencial no Brasil em 2018. As estratégias foram avaliadas em três cenários diferentes e com três tipos de classificadores. Com base nos resultados e considerando os 20 conjuntos de dados utilizados, pôde-se perceber que a técnica Entropy é a mais indicada, em termos de f-measure, para o maior número de situações; porém, esta estratégia seleciona um número muito grande de documentos, na maioria dos casos selecionando o dobro das outras, não sendo recomendável para casos nos quais não há a possibilidade de rotular um grande volume de dados. Nestes cenários, a estratégia Variable Entropy, proposta neste trabalho, se mostrou uma opção mais viável
URI:	https://repositorio.ufpe.br/handle/123456789/38119
Appears in Collections:	Dissertações de Mestrado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO Douglas Álisson Marques de Sá Vitório.pdf		1.36 MB	Adobe PDF	View/Open

This item is protected by original copyright

Ver licença

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons