Aplicando Ensemble para classificação de textos curtos em português do Brasil

NASCIMENTO, Paulo de Assis

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/35860

Comparte esta pagina

Título :	Aplicando Ensemble para classificação de textos curtos em português do Brasil
Autor :	NASCIMENTO, Paulo de Assis
Palabras clave :	Inteligência computacional; Sentimentos; Aprendizagem de máquinas; Ensemble
Fecha de publicación :	29-ago-2019
Editorial :	universidade Federal de Pernambuco
Citación :	NASCIMENTO, Paulo de Assis. Aplicando Ensemble para classificação de textos curtos em português do Brasil. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
Resumen :	A popularização da internet no Brasil e o vasto uso das redes sociais permitem às pessoas a ter voz ativa onde suas opiniões não estão mais restritas a ambientes familiares. O constante uso da internet desencadeia a criação de conteúdos diversos e muito valiosos para negócios e tomadas de decisão. Estima-se que no Brasil haverá 99,4 milhões de usuários acessando a internet até o final do ano 2019. O conteúdo lançado na web desperta o interesse das empresas que desejam melhorar seus produtos e serviços. Reunir esses dados, processá-los e transformá-los em informação útil, é essencial para mapear os perfis de consumo dos usuários na web. Para isso, é necessário lançar mão de recursos automáticos de processamento de textos. O processamento automático desse tipo de informação está ligado à atividade de Análise de Sentimentos (AS), que trata do processamento automático de textos opinativos na web classificando-os em sentimentos. A aplicação dessa técnica em português do Brasil ainda é bastante modesta. Neste sentido, este trabalho explora a aplicação da técnica de ensemble para classificar textos curtos em português do Brasil, sobre o problema de múltiplas classes, utilizando a abordagem de Aprendizagem de Máquina (AM). Ensembles, em Aprendizagem de Máquina, são utilizados quando se deseja unir em um comitê os pontos fortes de cada algoritmo. Dessa forma eles atuam como algoritmos complementares para atingir melhores resultados em relação às suas capacidades de forma isolada. Para tal, sete classificadores clássicos de Aprendizagem de Máquina (AM) foram selecionados. Para os experimentos, os corpora 2000-tweets-BR e o TweetSentBR disponíveis na literatura recente foram utilizados, ambos contém três classes. Nos experimentos, os classificadores foram treinados e testados de forma isolada a fim de obter seus resultados médios em acurácia, F-Measure, Brier Score e tempo de execução por meio da técnica de validação cruzada para posterior comparação com os ensembles. O teste de Shapiro-Wilk foi utilizado sobre os dados a fim de verificar a normalidade, e assim decidir o tipo de teste de hipótese a ser aplicado. Todos os classificadores isolados foram combinados entre si formando oito ensembles dos quais uma combinação foi baseada na métrica Brier Score. Os testes com algoritmos clássicos obtiveram os resultados médios de 71% de acurácia, 46% F-Measure, e 93 segundos de tempo de execução sobre o córpus TweetSentBR. E sobre o córpus 2000-tweets-BR foram obtidos 68% de acurácia, 57% de F-Measure e 0,430 segundos de tempo de execução. Os resultados obtidos em valores médios nos testes combinando classificadores em ensemble juntamente com o voto majoritário foram de 71% de acurácia, 50% de F-Measure, e 189 segundos em tempo de execução sobre o corpus TweetSentBR. Sobre o córpus 2000-tweets-BR os resultados médios obtidos foram de 69% de acurácia, 52% F-Measure e 163 segundos de tempo de execução.
URI :	https://repositorio.ufpe.br/handle/123456789/35860
Aparece en las colecciones:	Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
DISSERTAÇÃO Paulo de Assis Nascimento.pdf		1,58 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro Dublin Core completo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons