Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/1948
Título: Seleção local de características em agrupamento hierárquico de documentos
Autor(es): RIBEIRO, Marcelo Nunes
Palavras-chave: Agrupamento de documentos; seleção de características
Data do documento: 31-Jan-2009
Editor: Universidade Federal de Pernambuco
Citação: Nunes Ribeiro, Marcelo; Bastos Cavalcante Prudêncio, Ricardo. Seleção local de características em agrupamento hierárquico de documentos. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
Resumo: O agrupamento hierárquico de documentos é utilizado para prover interface de navegação em coleções de documentos, ajudando na atividade de recuperação de informação. Como os vetores que representam os documentos possuem uma alta dimensionalidade, a presença de termos irrelevantes confunde o algoritmo de agrupamento. O uso da seleção de características em agrupamento de documentos é capaz de melhorar a precisão e o tempo de execução do agrupamento. Esta dissertação discute vários métodos de seleção de características já aplicados e aborda a forma como a seleção de características interage com o algoritmo de agrupamento, que pode ser classificada de forma global, quando um único subconjunto de características é considerado, ou local, quando cada grupo é descrito por subconjuntos de características distintas. Por conta da diversidade de visões das características proporcionada pela seleção local, o algoritmo de agrupamento é capaz de revelar grupos ocultos nos dados. Nesta dissertação, é aplicado o mesmo princípio de seleção local para o caso de agrupamento hierárquico divisivo de documentos, com a realização de uma nova seleção de características a cada passo de divisão dos grupos. Este método foi batizado de ZOOM-IN. Foram feitos experimentos com as bases de documentos Reuters-21578 e RCV2 e foi comprovado um ganho de precisão no resultado do agrupamento quando a heurística de escolha do número de termos do método ZOOM-IN é capaz de eliminar os termos irrelevantes. Também é desenvolvida uma aplicação dos métodos discutidos para agrupar documentos do resultado de uma consulta ao Google, com etiquetagem e escolha do número de grupos usando amostragem e o conceito de estabilidade do agrupamento. Os resultados mostraram que a execução do algoritmo com diferentes parâmetros é capaz de descobrir diferentes grupos interessantes, o que motiva a pesquisa de uma interface de acesso aos documentos que combine os resultados de diferentes execuções dos algoritmos. Por fim, são apresentadas vantagens e limitações do uso do método ZOOM-IN, além de indicações de trabalhos futuros
URI: https://repositorio.ufpe.br/handle/123456789/1948
Aparece na(s) coleção(ções):Dissertações de Mestrado - Ciência da Computação

Arquivos deste item:
Arquivo Descrição TamanhoFormato 
arquivo1911_1.pdf1,67 MBAdobe PDFVer/Abrir


Este arquivo é protegido por direitos autorais



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.