Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/2459
Compartilhe esta página
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor | Darmiton da Cunha Cavalcanti, George | pt_BR |
dc.contributor.author | Hugo Wanderley Pinheiro, Roberto | pt_BR |
dc.date.accessioned | 2014-06-12T15:58:24Z | - |
dc.date.available | 2014-06-12T15:58:24Z | - |
dc.date.issued | 2011-01-31 | pt_BR |
dc.identifier.citation | Hugo Wanderley Pinheiro, Roberto; Darmiton da Cunha Cavalcanti, George. Seleção de características para problemas de classificação de documentos. 2011. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2011. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/2459 | - |
dc.description.abstract | Os sistemas de classificação de documentos servem, de modo geral, para facilitar o acesso do usuário a uma base de documentos. Esses sistemas podem ser utilizados para detectar spams; recomendar notícias de uma revista, artigos científicos ou produtos de uma loja virtual; refinar buscas e direcioná-las por assunto. Uma das maiores dificuldades na classificação de documentos é sua alta dimensionalidade. A abordagem bag of words, utilizada para extrair as características e obter os vetores que representam os documentos, gera dezenas de milhares de características. Vetores dessa dimensão demandam elevado custo computacional, além de possuir informações irrelevantes e redundantes. Técnicas de seleção de características reduzem a dimensionalidade da representação, de modo a acelerar o processamento do sistema e a facilitar a classificação. Entretanto, a seleção de características utilizada em problemas de classificação de documentos requer um parâmetro m que define quantas características serão selecionadas. Encontrar um bom valor para m é um procedimento complicado e custoso. A idéia introduzida neste trabalho visa remover a necessidade do parâmetro m e garantir que as características selecionadas cubram todos os documentos do conjunto de treinamento. Para atingir esse objetivo, o algoritmo proposto itera sobre os documentos do conjunto de treinamento e, para cada documento, escolhe a característica mais relevante. Se a característica escolhida já tiver sido selecionada, ela é ignorada, caso contrário, ela é selecionada. Deste modo, a quantidade de características é conhecida no final da execução do algoritmo, sem a necessidade de declarar um valor prévio para m. Os métodos propostos seguem essa ideia inicial com certas variações: inserção do parâmetro f para selecionar várias características por documento; utilização de informação local das classes; restrição de quais documentos serão usados no processo de seleção. Os novos algoritmos são comparados com um método clássico (Variable Ranking). Nos experimentos, foram usadas três bases de dados e cinco funções de avaliação de característica. Os resultados mostram que os métodos propostos conseguem melhores taxas de acerto | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Classificação de Documentos | pt_BR |
dc.subject | Seleção de Características | pt_BR |
dc.subject | K vizinhos mais próximos | pt_BR |
dc.subject | Naïve Bayes | pt_BR |
dc.subject | Recuperação de Informação | pt_BR |
dc.title | Seleção de características para problemas de classificação de documentos | pt_BR |
dc.type | masterThesis | pt_BR |
Aparece nas coleções: | Dissertações de Mestrado - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
arquivo4097_1.pdf | 867,65 kB | Adobe PDF | ![]() Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons