An NLP and clustering approach for information retrieval and sentiment analysis in textual documents

SANTILLO, Caio Hordonho

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/63478

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	LINS, Isis Didier	-
dc.contributor.author	SANTILLO, Caio Hordonho	-
dc.date.accessioned	2025-05-29T21:19:01Z	-
dc.date.available	2025-05-29T21:19:01Z	-
dc.date.issued	2025-04-04	-
dc.date.submitted	2025-05-11	-
dc.identifier.citation	SANTILLO, Caio Hordonho. An NLP and clustering approach for information retrieval and sentiment analysis in textual documents. 2025. 50f. Trabalho de Conclusão de Curso (Graduação) - Curso de Engenharia de Produção, Departamento de Engenharia de Produção, Centro de Tecnologia e Geociências, Universidade Federal de Pernambuco, Recife, 2025.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/63478	-
dc.description.abstract	In recent years, information has been overloaded and widely available because of the rapid growth of the internet, and that is not different with scientific papers. An NLP and clustering approach can be used to deal with an increased amount of documents for information retrieval, creating the most relevant clusters for a user and answering questions about the specific papers being analyzed. Information retrieval needs to scan all documents found in a database, give scores according to relevance degree to the user, then rank all results and present them to the user. Thus, information retrieval requires a long runtime to scan all documents. The cluster analysis tool plays the primary role in information retrieval to improve its performance by reducing the search time and preventing results from being irrelevant. In this paper, a K-means clustering approach is proposed using a TF-IDF sentence embedding, and it is also proposed a Question Answering model, fine-tuned with a dataset composed of the abstracts of scientific papers, using an SBERT sentence embedding, to answer questions to researchers and help them retrieve relevant information in a more efficient manner. Additionally, this work includes a practical case study applying FinBERT, to analyze earnings call transcripts. Through this analysis, the study explores the effectiveness and limitations of textual sentiment analysis for predicting short-term stock market reactions, providing important insights into the complexities of financial communication and market behavior.	pt_BR
dc.description.sponsorship	CNPq	pt_BR
dc.format.extent	51p.	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Processamento de Linguagem Natural	pt_BR
dc.subject	Recuperação de Informação	pt_BR
dc.subject	Clustering	pt_BR
dc.subject	Revisão Bibliográfica	pt_BR
dc.subject	Question Answering	pt_BR
dc.subject	Análise de Sentimento	pt_BR
dc.title	An NLP and clustering approach for information retrieval and sentiment analysis in textual documents	pt_BR
dc.type	bachelorThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/0629530984272517	pt_BR
dc.degree.level	Graduacao	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/5632602851077460	pt_BR
dc.description.abstractx	Nos últimos anos, a informação tem se tornado abundante e amplamente disponível devido ao crescimento acelerado da internet, e isso não é diferente com artigos científicos. Uma abordagem combinando Processamento de Linguagem Natural (NLP) e técnicas de agrupamento (Clustering) pode ser utilizada para lidar com o aumento na quantidade de documentos, facilitando a recuperação de informações, criando clusters mais relevantes para o usuário e respondendo perguntas específicas sobre os artigos analisados. A recuperação de informações tradicionalmente envolve escanear todos os documentos em uma base de dados, atribuir pontuações segundo o grau de relevância para o usuário, classificar os resultados e apresentá-los. Dessa forma, requer um tempo de execução longo para percorrer todos os documentos. As técnicas de Clustering desempenham um papel fundamental na recuperação de informações, pois melhoram o desempenho ao reduzir o tempo de busca e evitar resultados irrelevantes. Neste trabalho, propõe-se uma abordagem de Clustering com K-means utilizando Embeddings TF-IDF para frases e um modelo de Question Answering ajustado com um conjunto de dados composto por resumos de artigos científicos, utilizando Embeddings de frases gerados pelo SBERT. Essa abordagem visa responder perguntas feitas por pesquisadores e auxiliar na recuperação eficiente de informações relevantes. Além disso, este estudo inclui um caso prático aplicando o modelo FinBERT para analisar transcrições de teleconferências de resultados financeiros. Por meio dessa análise, o estudo explora a eficácia e as limitações da análise textual de sentimentos para prever reações de curto prazo no mercado de ações, oferecendo importantes insights sobre as complexidades da comunicação financeira e do comportamento do mercado.	pt_BR
dc.subject.cnpq	Áreas::Engenharias	pt_BR
dc.degree.departament	::(CTG-DEP) - Departamento de Engenharia de Produção	pt_BR
dc.degree.graduation	::CTG-Curso de Engenharia de Produção	pt_BR
dc.degree.grantor	Universidade Federal de Pernambuco	pt_BR
dc.degree.local	Recife	pt_BR
Appears in Collections:	(TCC) - Engenharia de Produção

Files in This Item:

File	Description	Size	Format
TCC Caio Hordonho Santillo.pdf		1.22 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record Recommend this item

This item is licensed under a Creative Commons License