Avaliação de técnicas de combinação de embeddings para a análise de sentimentos de produtos escritos em português-BR

COUTINHO, Jéssica Feliciano

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/48620

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	ALMEIDA, Leandro Maciel	-
dc.contributor.author	COUTINHO, Jéssica Feliciano	-
dc.date.accessioned	2023-01-13T16:35:39Z	-
dc.date.available	2023-01-13T16:35:39Z	-
dc.date.issued	2022-05-26	-
dc.identifier.citation	COUTINHO, Jéssica Feliciano. Avaliação de técnicas de combinação de embeddings para a análise de sentimentos de produtos escritos em português-BR. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/48620	-
dc.description.abstract	A Análise de Sentimentos é uma área de pesquisa voltada para a determinação da polaridade do sentimento presente em um texto, buscando identificar se a informação é de caráter positivo, negativo ou neutro, dentre outras formas de classificação. Com o expressivo volume de informações textuais que circulam na web diariamente, o processo de análises automáticas dos sentimentos torna-se ainda mais necessário. Para conteúdos relacionados à avaliação de produtos e serviços, a detecção de sentimentos é de grande relevância, uma vez que entender a mensagem que um consumidor está querendo passar sobre um produto é essencial para as empresas por diversos fatores, dentre eles campanhas de marketing e melhoria no relacionamento com seus clientes. Nesse cenário, o estudo das formas de melhorar a representação das informações textuais, de modo que elas sejam processadas através de modelos de aprendizagem de máquina, é de extrema importância para contribuir com o aumento de performance na classificação dos sentimentos presentes nos textos. Diante disto, o presente trabalho realiza um estudo experimental do comportamento de diferentes técnicas de vetorização de textos, com foco nos embeddings: vetores representativos compostos por valores reais capazes de armazenar informações sintáticas e semânticas das palavras. Para isso, são avaliados diferentes tipos de vetores de embeddings e três formas de combinação desses vetores, que são utilizados no processo de classificação de cinco diferentes algoritmos de aprendizagem de máquina. Além disso, também é utilizado um algoritmo de aprendizagem profundo onde a etapa de embedding é realizada pela própria camada da rede neural. Com o intuito de contribuir com a Análise de Sentimentos de textos em Português-BR, foram estudadas quatro bases de dados neste idioma: Buscapé, B2W, Olist e UTL Movies. Essas bases são compostas por avaliações de usuários reais da web sobre produtos e serviços. Os resultados encontrados nessa pesquisa mostraram que nem todos os algoritmos de aprendizagem de máquina sofrem impacto diante da mudança na técnica de vetorização, porém quando pelo menos duas técnicas são combinadas a partir da concatenação entre seus vetores de pesos, é possível obter melhoria na performance de algoritmos comumente utilizados na área de aprendizagem de máquina, como a MLP e o XGBoost.	pt_BR
dc.description.sponsorship	CNPq	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	*
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Análise de sentimentos	pt_BR
dc.subject	Word embeddings	pt_BR
dc.subject	Aprendizagem de máquina	pt_BR
dc.subject	Aprendizagem profunda	pt_BR
dc.title	Avaliação de técnicas de combinação de embeddings para a análise de sentimentos de produtos escritos em português-BR	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/2143344708319162	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/8513145553846486	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Sentiment Sentiment Analysis is a field of research that aims to find the polarity of a sentiment in a text, in order to identify whether the information is positive, negative or neutral, among other forms of classification. With The expressive amount of textual information that is spread around the web every day, the process of automatic sentiment analysis becomes even more necessary. For contents related to products and services reviews, the detection of feelings is of great importance, since understanding the message that consumers want to pass about a product is essential for companies due to several factors, including marketin campaigns and the improviment of the relationship between companies and their customers. In this scenario, the study of ways to improve the representation of textual information in order to be processed by machine learning models is extremely important to contribute with the increasement of performance in the sentiment classification tasks. Thus, the present work carries out an experimental study of the behavior of different text vectorization techniques, with focus on embeddings: representative vectors composed by real values and capable of preserve syntactic and semantic information from words. For this, different types of embeddings vectors and three types of combination for these vectors are evaluated, which are used in the classification process of five different machine learning algorithms. Furthermore, a deep learning model is also used where the embedding step is performed by the embedding layer. In order to contribute with Sentiment Analysis of texts in Portuguese-BR, four databases in this language were studied: Buscapé, B2W, Olist and UTL Movies. These bases are composed by reviews from real web users about products and services. The results found in this research showed that not all machine learning algorithms are impacted by the change in the embedding technique, but when at least two techniques are combined by concatenation of their vectors, it brought an improvement in the performance of algorithms commonly used in machine learning problems, such as MLP and XGBoost.	pt_BR
Aparece en las colecciones:	Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
DISSERTAÇÃO Jéssica Feliciano Coutinho.pdf		4,25 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons