Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/34142
Comparte esta pagina
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | PRUDENCIO, Ricardo Bastos Cavalcante | - |
dc.contributor.author | VIEIRA, Arthur Caíque Bezerra | - |
dc.date.accessioned | 2019-10-03T18:18:13Z | - |
dc.date.available | 2019-10-03T18:18:13Z | - |
dc.date.issued | 2018-08-27 | - |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/34142 | - |
dc.description.abstract | A popularização de fóruns online e do e-commerce favoreceu o aumento do número de comentários/avaliações na Web sobre produtos e serviços, sendo impraticável analisar manualmente essa enorme quantidade de comentários. Para vencer esse desafio, lançamos mão de uma área da computação denominada de Mineração deOpinião (MO) – também conhecida como Análise de Sentimento. A MO busca extrair de textos em linguagem natural opiniões sobre entidades (produtos, serviços, pessoas, marcas, eventos, etc) e seus aspectos (características detalhadas de cada entidade - e.g., tamanho e peso de um celular). O objetivo final é classificar as opiniões extraídas entre positivas ou negativas, a fim de identificar como cada entidade e seus aspectos estão sendo avaliados pelos usuários. Este trabalho de mestrado investigou a MO a partir de resenhas em Português sobre produtos, com foco principal na primeira etapa da MO, isto é, na extração de termos referentes a entidades e seus aspectos. Devido à escassez de dados (comentários/resenhas) rotulados com informações de termos de aspecto na língua portuguesa, torna-se difícil a utilização de técnicas supervisionadas para a extração de termos de aspectos. Assim, este trabalho foi desenvolvido dentro da abordagem não supervisionada (baseadas em conhecimento - regras explícitas considerando informações estatísticas e/ou linguísticas, ontologias, etc), que tem obtido desempenho comparável à abordagem supervisionada pra a língua portuguesa. Este trabalho utilizou como ponto de partida um algoritmo originalmente construído para a língua inglesa que apresenta altas taxas de cobertura na tarefa de extração: o Double Propagation (DP). Esse algoritmo se baseia na classe gramatical das palavras nas frases, e em relações de dependência sintática entre as palavras nas frases para realizar a extração de termos de aspectos. Como contribuição principal deste trabalho, o algoritmo DP original foi adaptado para a língua portuguesa. A seguir, foram propostos mais tipos de relações de dependência sintática no processo de extração considerando mais classes gramaticais do que o algoritmo base. Como contribuição secundária, este trabalho também investigou a efetividade do uso de normalizadores de texto no processamento de resenhas oriundas da Web (que geralmente contêm erros ortográficos e gramaticais, e também erros de pontuação). Os experimentos realizados compararam diversas configurações do processo de extração, variando tanto o algoritmo de extração (o original e o ampliado com novas regras) quanto os recursos externos (e.g., normalizadores de texto, configurações dos métodos de poda/pruning e léxicos de sentimento). Os resultados obtidos foram bastante promissores, sendo comparáveis a outras abordagens já utilizadas em trabalhos com foco na língua portuguesa. | pt_BR |
dc.description.sponsorship | FACEPE | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência computacional | pt_BR |
dc.subject | Mineração de opinião | pt_BR |
dc.title | Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation | pt_BR |
dc.type | masterThesis | pt_BR |
dc.contributor.advisor-co | BARROS, Flávia de Almeida | - |
dc.contributor.authorLattes | http://lattes.cnpq.br/1521869500050398 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | mestrado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/2984888073123287 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | The popularization of online forums and e-commerce benefited the increase of the number of comments/evaluations about products and services on the Web, making impratical to manually analyze the huge amount of comments. To overcome this challenge, we use an area of computing named Opinion Mining - also known as Sentiment Analysis. The Opinion Mining aims to extract opinions about entities (products, services, people, brands, events, etc) and their aspects (attributes of each entity - e.g., size and weigth of a smartphone) from texts in natural language. The ultimate goal is to classify the extracted opinions between positive or negative, in order to identify how each entity and their aspects are evaluated by the users. This Master’s thesis investigated the Opinion Mining from portuguese reviews of products, focusing in the first stage of Opinion Mining, which means, in the terms extraction of entities and their aspects. Given the lack of data (comments/reviews) labaled with information of aspect terms in portuguese, it becomes difficult to apply a supervised approach for the aspect term extraction of reviews written in brazilian portuguese. Thus, this work was developed in a unsupervised manner (based on knowledge - explicit rules taking into account statistics and/or linguistics information, ontologies, etc.), which have been getting comparable performance to the supervised approach for the portuguese language. In this work, we used as a starting point an algorithm originally constructed for the english language, which presented high recall on the task of aspect term extraction: the Double Propagation. This algorithm uses the Part-of-speech tagging and dependency relations of words in sentences to accomplish the extraction process. As the main contribution of this work, we adapted the original Double Propagation algorithm for the portuguese language. Next, we proposed the addition of more types of dependency relations in the process of extraction, and we considered more Part-of Speech tags than the base algorithm. Another core contribution of this work was the investigation of the effectiveness of text normalizers in the processing of reviews from the Web (which, in its nature comes with spelling, grammatical and punctuation errors). The conducted experiments compared several configurations of the extraction process, varying the extraction algorithm (original and the proposed - with the additional rules), the external resources (text normalizers, sentiment lexicons and configuration of the pruning methods). The obtained results were very promising, being comparable to others approachs used in works with a focus on the portuguese language. | pt_BR |
dc.contributor.advisor-coLattes | http://lattes.cnpq.br/5390541720896559 | pt_BR |
Aparece en las colecciones: | Dissertações de Mestrado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Arthur Caíque Bezerra Vieira.pdf | 790,36 kB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons