Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/52699
Compartilhe esta página
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor | ZANCHETTIN, Cleber | - |
dc.contributor.author | OLIVEIRA, Rodrigo Ludermir de | - |
dc.date.accessioned | 2023-10-09T13:13:54Z | - |
dc.date.available | 2023-10-09T13:13:54Z | - |
dc.date.issued | 2022-03-10 | - |
dc.identifier.citation | OLIVEIRA, Rodrigo Ludermir de. Detecção de posicionamento em tweets sobre Covid-19 no Brasil utilizando métodos de aprendizagem de máquina. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/52699 | - |
dc.description.abstract | A onipresença da pandemia de Covid-19 durante os últimos dois anos acarretou na urgência de ações responsivas contra o avanço da contaminação do novo coronavírus e em estratégias de imunização da população, através de políticas de saúde pública e medidas sanitárias pre- ventivas por parte das autoridades responsáveis e também da sociedade civil. No Brasil, esse processo foi profundamente politizado, suscitando discussões polarizadas que inundaram as redes sociais com opiniões e posicionamentos acerca das medidas adotadas contra a Covid-19 e suas repercussões. Enquanto um paradigma emergente no campo de mineração de opiniões nas redes sociais, sistemas de detecção de posicionamento têm produzido resultados frutíferos, principalmente quando os objetos de classificação estão segmentados por um tópico alvo sobre o qual o posicionamento é realizado. Desse modo, esta dissertação investiga a utilização de métodos de aprendizagem de máquina no desenvolvimento de sistemas de detecção de posici- onamento em tweets - publicações na rede social Twitter - de usuários brasileiros comentando as medidas relacionadas à Covid-19, exercidas por eles próprios e pelo governo brasileiro em seus diferentes órgãos e níveis de atuação. O trabalho envolve três partes principais: (1) Cons- trução da base de dados, na qual houve o levantamento de mais de 6 milhões de tweets e retweets em português que mencionam palavras relacionadas à Covid-19 entre Janeiro de 2020 e Outubro de 2021, das quais mais de 350 mil tweets foram rotulados (pseudo-labels), através de métodos de anotação fraca (weak supervision), em “favoráveis” ou “contrários” às medidas do governo federal frente à pandemia. (2) Limpeza, análise exploratória e segmentação da base rotulada por tópicos mais relevantes e frequentes. (3) Avaliação de modelos de Aprendizagem de Máquina tradicionais e de aprendizagem profunda - sobretudo Transformers, na detecção de posicionamentos. Utilizando o modelo de linguagem de domínio geral em português-brasileiro BERTimbau, que segue a arquitetura base do BERT, foram realizados experimentos com: (1) adaptação de domínio, usando os dados não rotulados; (2) uso de dados relacionais dos usuários (rede de interações - retweets, mentions e replies); (3) Aprendizado via Multi-tasking, realizando o ajuste-fino em todos os tópicos ao mesmo tempo. Os experimentos realizados demonstraram que os modelos inicializados usando BERTimbau e treinados combinando as três abordagens citadas acima se sobressaem sobre os demais em seu desempenho diante da variedade de tópicos relacionados à Covid-19 no contexto brasileiro. | pt_BR |
dc.description.sponsorship | CNPq | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência computacional | pt_BR |
dc.subject | Detecção de posicionamento | pt_BR |
dc.subject | Covid-19 | pt_BR |
dc.subject | Tweets | pt_BR |
dc.subject | Aprendizado de máquina | pt_BR |
dc.title | Detecção de posicionamento em tweets sobre Covid-19 no Brasil utilizando métodos de aprendizagem de máquina | pt_BR |
dc.type | masterThesis | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/1672339941179246 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | mestrado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/1244195230407619 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | The ubiquity of the Covid-19 pandemic has resulted in the urgency of responsive actions against the advance of the contamination of the new coronavirus and in strategies to immunize the population, through public health policies and preventive health measures by the authorities in charge and also civil society. In Brazil, this process was deeply politicized, giving rise to polar- ized discussions that overflowed social media with opinions, views, and stances regarding these measures taken against Covid-19 and its repercussions. As an emerging paradigm of opinion mining in social media, stance detection has yielded accurate and fruitful results, especially when classification objects are segmented by a target topic on which the stance positioning is performed. Thus, this dissertation investigates the use of machine learning methods in the de- velopment of stance detection systems in Tweets - publications on the social network Twitter - of Brazilian users commenting on measures related to Covid-19, taken by themselves and their government in its different bodies and levels of action. The work involves three main parts: (1) Construction of the database, in which there was a survey of more than 6 millions Tweets and Retweets in Portuguese that mention words related to Covid-19 between January 2020 and October 2021, of which more than 350,000 Tweets were labeled (pseudo-labels), through weak annotation methods (weak supervision), as ’favorable’ or ’contrary’ to the federal government’s measures against the pandemic. (2) Cleaning, exploratory analysis and segmentation of the base labeled by the most relevant and frequent topics. (3) Evaluation of traditional and deep learning Machine Learning models - especially Transformers, in stance detection. Using the Brazilian-Portuguese domain-general language model BERTimbau experiments were carried out with: (1) domain adaptation, using unlabeled data; (2) use of users’ relational data (inter- action network - retweets, mentions and replies); (3) Learning via Multi-tasking, fine-tuning all topics at the same time. The experiments carried out showed that the models initialized using BERTimbau and trained by combining the three approaches mentioned above stand out from the others in their performance in the face of the variety of topics related to Covid-19 in the Brazilian context. | pt_BR |
Aparece nas coleções: | Dissertações de Mestrado - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Rodrigo Ludermir de Oliveira.pdf | 3,14 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons