Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/65586

Compartilhe esta página

Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorCALEGARIO, Filiipe Carlos de Albuquerque-
dc.contributor.authorVIEIRA, João Marcos Lyra-
dc.date.accessioned2025-08-29T13:35:49Z-
dc.date.available2025-08-29T13:35:49Z-
dc.date.issued2025-08-05-
dc.date.submitted2025-08-08-
dc.identifier.citationVIEIRA, João Marcos Lyra. Restauração automática de hierarquias em documentos corporativos: uma comparação entre métodos de vetorização e similaridade. 2025. Trabalho de Conclusão de Curso Ciência da Computação – Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/65586-
dc.description.abstractO crescimento acelerado da documentação digital nas empresas tem aumentado significativamente o desafio de organizar e recuperar informações. Um exemplo comum dessa dificuldade é a perda das relações hierárquicas entre documentos corporativos devido à fragmentação do armazenamento em múltiplas bases de dados. Neste trabalho, investigou-se o problema da restauração automática das relações hierárquicas de pai–filho entre documentos corporativos, a partir de seus títulos e resumos. Inicialmente, implementou-se uma abordagem baseada em Bag of Words e similaridade de cosseno (limiar = 0,60), que apresentou alta precisão, porém baixa cobertura. Em seguida, conduziram-se experimentos comparativos envolvendo cinco técnicas de vetorização (TF-IDF, Word2Vec, FastText, SBert e OpenAI embeddings) combinadas com três métricas de similaridade (cosseno, distância euclidiana e Jaccard) sobre uma base de aproximadamente 9 000 artigos científicos. Os resultados mostram que os embeddings SBert com similaridade de cosseno alcançaram a maior média de Similaridade Temática (0,8619), seguidos pelos embeddings OpenAI (0,8537). A comparação com a versão inicial do projeto evidenciou que SBert duplicou ou triplicou a cobertura de pares pai–filho, mantendo mais de 85% de correspondência com os pares originais. Conclui-se que a combinação SBert + similaridade de cosseno oferece o melhor equilíbrio entre cobertura, consistência e custo, sendo recomendada para aplicações práticas.pt_BR
dc.format.extent49p.pt_BR
dc.language.isoporpt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectRestauração de documentospt_BR
dc.subjectSBertpt_BR
dc.subjectSimilaridade de cossenopt_BR
dc.subjectEmbeddingspt_BR
dc.titleRestauração automática de hierarquias em documentos corporativos: uma comparação entre métodos de vetorização e similaridadept_BR
dc.typebachelorThesispt_BR
dc.degree.levelGraduacaopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/7709859860474826pt_BR
dc.subject.cnpqÁreas::Ciências Exatas e da Terrapt_BR
dc.degree.departament::(CIN-DCC) - Departamento de Ciência da Computaçãopt_BR
dc.degree.graduation::CIn-Curso de Ciência da Computaçãopt_BR
dc.degree.grantorUniversidade Federal de Pernambucopt_BR
dc.degree.localRecifept_BR
Aparece nas coleções:(TCC) - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC Joao Marcos Lyra Vieira.pdf411,93 kBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons