Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/54273

Compartilhe esta página

Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorALMEIDA, Leandro Maciel-
dc.contributor.authorMELO, Carlos Henrique do Nascimento-
dc.date.accessioned2023-12-21T12:43:02Z-
dc.date.available2023-12-21T12:43:02Z-
dc.date.issued2023-07-19-
dc.identifier.citationMELO, Carlos Henrique do Nascimento. Análise de sentimentos de postagens em português na pandemia de COVID-19 utilizando redes de codificadores automáticos. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/54273-
dc.description.abstractA pandemia da Corona Virus Disease 2019 (COVID-19) impulsionou um aumento no número de interações em redes sociais, através de postagens, em virtude das medidas não farmacológicas implementadas durante o período de 2020 e 2021. Essa maior conexão da população com as diversas plataformas propiciaram uma grande quantidade de conteúdos textuais relacionados à vivência dos usuários nos períodos de surto da doença. Muitas dessas postagens apresentam um caráter opinativo, no qual indica a possibilidade de um estudo acerca dos sentimentos expressados pelos usuários das redes sociais. Desse modo, a utilização de técnicas da área de Processamento de Linguagem Natural (PLN) em conjunto com modelos da Aprendizagem de Máquina (AM) fornecem uma análise de sentimentos através de classificadores automáticos. Porém, é visto em estudos anteriores que a tarefa de Análise de Sentimentos (AS) sofre da maldição da dimensionalidade (CHEN, 2009), pois os métodos principais de transformar conteúdo textual em informação útil recaem sobre vetores de grande dimensionalidade. Em pesquisas mais recentes, o uso de técnicas de redes neurais têm sido utilizadas como método de redução da dimensionalidade para a classificação de sentimentos (GHOSH; RAVI; RAVI, 2016; KIM; LEE, 2020; YILDIRIM, 2020). Dentre as técnicas, os Codificadores Automáticos (CA) (do inglês autoencoders) surgem como uma proposta já utilizada para redução de dados de imagem e áudio, pois processa vetores desses conteúdos e os reduz para diferentes propósitos. A utilização das RNN para redução possibilita construir um novo vetor contendo uma grande proporção da informa- ção contida no vetor original para realizar o treinamento dos modelos. Portanto, este trabalho apresenta como objetivo explorar a técnica de CA para redução da dimensiona- lidade de vetores produzidos por técnicas de incorporação de palavras sobre dois corpus textuais na língua portuguesa, coletados através da rede social Twitter. Baseado nisso foi visto que os codificadores conseguem manter até 90% da informação e qualidade contida no treinamento, podendo ser observado uma diferença de pouco menos de 10% na acurácia dos modelos treinados sem a técnica. Além disso, é observado que custo computacional envolvido no treinamento dos modelos apresentaram uma redução em comparação aos classificadores treinados com o vetor original e aos modelos mais recentes, como LSTM e BERT, apresentando uma diferença de tempo de até 96%. Assim, mostra que a partir dos resultados obtidos através da técnica de redução por codificadores automáticos são pro- duzidas qualidades equiparáveis aos modelos mais utilizados que realizam essa codificação de forma conjunta para a língua portuguesa. Desse modo, possibilita o uso de modelos mais custosos para a validação de resultados e uso de predição.pt_BR
dc.description.sponsorshipCAPESpt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectInteligência computacionalpt_BR
dc.subjectCodificadores automáticospt_BR
dc.titleAnálise de sentimentos de postagens em português na pandemia de COVID-19 utilizando redes de codificadores automáticospt_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/1750992202417555pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/8513145553846486pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxThe pandemic of Corona Virus Disease 2019 (COVID-19) stimulates an increase in the interactions on social media through posts, due to measures not pharmacological that were implemented during the period 2020 and 2021. This increase in the connection of the population with the various platforms provided a large amount of textual content related to the experience of users in periods of outbreak of the disease. Many of these posts have a tone of opinion, which indicates the possibility of a study about the feelings expressed by users of social media. Thus, the use of techniques of Natural Language Processing (NLP) in conjunction with Machine Learning (ML) models provide a sentiment analysis through automatic classifiers. However, it is seen in previous studies that the Sentiment Analysis (SA) task suffers from the curse of dimensionality (CHEN, 2009), as the main methods of transforming textual content into useful information are attributed to high- dimensional vectors. In the latest researches, the use of neural network techniques has been used as a dimensionality reduction method for classifying feelings (GHOSH; RAVI; RAVI, 2016; KIM; LEE, 2020; YILDIRIM, 2020). Among the techniques, the Automatic Encoders (AC), also known as autoencoders, emerge as a proposal already used for image and audio data reduction, as it processes vectors of these contents and reduces them for different purposes. The use of RNN for reduction makes it possible to build a new vector containing a large proportion of the information found in the original vector to perform the training of the models. Therefore, this work aims to explore the CA technique to reduce the dimensionality of vectors produced by techniques of word incorporation on two textual corpus in Portuguese, collected through the social network Twitter. Based on this, it was seen that the coders manage to maintain up to 90% of the information and quality contained in the training, and a difference of just under 10% can be observed in the accuracy of the models trained without the technique. Beyond that, it is observed that the computational cost involved in training the models showed a reduction in comparison to the classifiers trained with the original vector and to the most recent models, such as LSTM and BERT, presenting a time difference of up to 96%. Thus, this demonstrates that from the results obtained through the technique of reduction by automatic coders, the qualities comparable to the most used models that carry out this coding together for the Portuguese language are produced. Thus, it enables the use of more costly models for validating results and using prediction.pt_BR
Aparece nas coleções:Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO Carlos Henrique do Nascimento Melo.pdf13,54 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons