Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation

VIEIRA, Arthur Caíque Bezerra

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/34142

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	PRUDENCIO, Ricardo Bastos Cavalcante	-
dc.contributor.author	VIEIRA, Arthur Caíque Bezerra	-
dc.date.accessioned	2019-10-03T18:18:13Z	-
dc.date.available	2019-10-03T18:18:13Z	-
dc.date.issued	2018-08-27	-
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/34142	-
dc.description.abstract	A popularização de fóruns online e do e-commerce favoreceu o aumento do número de comentários/avaliações na Web sobre produtos e serviços, sendo impraticável analisar manualmente essa enorme quantidade de comentários. Para vencer esse desafio, lançamos mão de uma área da computação denominada de Mineração deOpinião (MO) – também conhecida como Análise de Sentimento. A MO busca extrair de textos em linguagem natural opiniões sobre entidades (produtos, serviços, pessoas, marcas, eventos, etc) e seus aspectos (características detalhadas de cada entidade - e.g., tamanho e peso de um celular). O objetivo final é classificar as opiniões extraídas entre positivas ou negativas, a fim de identificar como cada entidade e seus aspectos estão sendo avaliados pelos usuários. Este trabalho de mestrado investigou a MO a partir de resenhas em Português sobre produtos, com foco principal na primeira etapa da MO, isto é, na extração de termos referentes a entidades e seus aspectos. Devido à escassez de dados (comentários/resenhas) rotulados com informações de termos de aspecto na língua portuguesa, torna-se difícil a utilização de técnicas supervisionadas para a extração de termos de aspectos. Assim, este trabalho foi desenvolvido dentro da abordagem não supervisionada (baseadas em conhecimento - regras explícitas considerando informações estatísticas e/ou linguísticas, ontologias, etc), que tem obtido desempenho comparável à abordagem supervisionada pra a língua portuguesa. Este trabalho utilizou como ponto de partida um algoritmo originalmente construído para a língua inglesa que apresenta altas taxas de cobertura na tarefa de extração: o Double Propagation (DP). Esse algoritmo se baseia na classe gramatical das palavras nas frases, e em relações de dependência sintática entre as palavras nas frases para realizar a extração de termos de aspectos. Como contribuição principal deste trabalho, o algoritmo DP original foi adaptado para a língua portuguesa. A seguir, foram propostos mais tipos de relações de dependência sintática no processo de extração considerando mais classes gramaticais do que o algoritmo base. Como contribuição secundária, este trabalho também investigou a efetividade do uso de normalizadores de texto no processamento de resenhas oriundas da Web (que geralmente contêm erros ortográficos e gramaticais, e também erros de pontuação). Os experimentos realizados compararam diversas configurações do processo de extração, variando tanto o algoritmo de extração (o original e o ampliado com novas regras) quanto os recursos externos (e.g., normalizadores de texto, configurações dos métodos de poda/pruning e léxicos de sentimento). Os resultados obtidos foram bastante promissores, sendo comparáveis a outras abordagens já utilizadas em trabalhos com foco na língua portuguesa.	pt_BR
dc.description.sponsorship	FACEPE	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Mineração de opinião	pt_BR
dc.title	Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.advisor-co	BARROS, Flávia de Almeida	-
dc.contributor.authorLattes	http://lattes.cnpq.br/1521869500050398	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/2984888073123287	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	The popularization of online forums and e-commerce benefited the increase of the number of comments/evaluations about products and services on the Web, making impratical to manually analyze the huge amount of comments. To overcome this challenge, we use an area of computing named Opinion Mining - also known as Sentiment Analysis. The Opinion Mining aims to extract opinions about entities (products, services, people, brands, events, etc) and their aspects (attributes of each entity - e.g., size and weigth of a smartphone) from texts in natural language. The ultimate goal is to classify the extracted opinions between positive or negative, in order to identify how each entity and their aspects are evaluated by the users. This Master’s thesis investigated the Opinion Mining from portuguese reviews of products, focusing in the first stage of Opinion Mining, which means, in the terms extraction of entities and their aspects. Given the lack of data (comments/reviews) labaled with information of aspect terms in portuguese, it becomes difficult to apply a supervised approach for the aspect term extraction of reviews written in brazilian portuguese. Thus, this work was developed in a unsupervised manner (based on knowledge - explicit rules taking into account statistics and/or linguistics information, ontologies, etc.), which have been getting comparable performance to the supervised approach for the portuguese language. In this work, we used as a starting point an algorithm originally constructed for the english language, which presented high recall on the task of aspect term extraction: the Double Propagation. This algorithm uses the Part-of-speech tagging and dependency relations of words in sentences to accomplish the extraction process. As the main contribution of this work, we adapted the original Double Propagation algorithm for the portuguese language. Next, we proposed the addition of more types of dependency relations in the process of extraction, and we considered more Part-of Speech tags than the base algorithm. Another core contribution of this work was the investigation of the effectiveness of text normalizers in the processing of reviews from the Web (which, in its nature comes with spelling, grammatical and punctuation errors). The conducted experiments compared several configurations of the extraction process, varying the extraction algorithm (original and the proposed - with the additional rules), the external resources (text normalizers, sentiment lexicons and configuration of the pruning methods). The obtained results were very promising, being comparable to others approachs used in works with a focus on the portuguese language.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/5390541720896559	pt_BR
Aparece en las colecciones:	Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
DISSERTAÇÃO Arthur Caíque Bezerra Vieira.pdf		790,36 kB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons