Combinação de classificadores em diferentes espaços de características para classificação de documentos

PINHEIRO, Roberto Hugo Wanderley

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/24893

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	CAVALCANTI, George Darmiton da Cunha	-
dc.contributor.author	PINHEIRO, Roberto Hugo Wanderley	-
dc.date.accessioned	2018-06-25T22:35:53Z	-
dc.date.available	2018-06-25T22:35:53Z	-
dc.date.issued	2017-02-17	-
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/24893	-
dc.description.abstract	Classiﬁcação de Documentos é um problema no qual um documento em linguagem natural deve ser designado como pertencente à uma das classes pré-estabelecidas. A Classiﬁcação de Documentos, com vetores de características gerados pela Bag-of-Words, possui duas diﬁculdades notáveis: alta dimensionalidade e matriz de dados esparsa. Seleção de características reduzem essas diﬁculdades, mas descarta informação no processo. Uma alternativa é realizar transformações sobre as características, pois ao alterar as características é possível trabalhar sem descartar informações, possibilitando uma melhoria nas taxas de reconhecimento e, em alguns casos, redução da dimensionalidade e esparsidade. Dentre essas transformações, duas pouco utilizadas na literatura são: Dissimilarity Representation (DR), no qual cada documento é representado por um vetor composto de distâncias calculadas com relação a um conjunto de documentos referência; e Dichotomy Transformation (DT), no qual o problema original é transformado em um problema binário e cada documento é transformado em vários vetores com características obtidas pelo valor absoluto da diferença para os documentos de um subconjunto do conjunto original. A utilização da DR pode reduzir tanto a alta dimensionalidade quanto a esparsidade. Enquanto que a utilização da DT, apesar de não reduzir a dimensionalidade ou esparsidade, melhora as taxas de reconhecimento do classiﬁcador, pois trabalha com uma quantidade maior de documentos sobre um problema transformado para duas classes. Neste trabalho, são propostos dois sistemas de múltiplos classiﬁcadores para Classiﬁcação de Documentos: Combined Dissimilarity Spaces (CoDiS) e Combined Dichotomy Transformations (CoDiT), cada um baseado em uma das transformações citadas acima. Os múltiplos classiﬁcadores se beneﬁciam da necessidade de encontrar um conjunto para as transformações, pois utilizando diferentes conjuntos possibilita a criação de um sistema diverso e robusto. Experimentos foram realizados comparando as arquiteturas propostas com métodos da literatura usando até 47 bancos de dados públicos e os resultados mostram que as propostas atingem desempenho superior na maioria dos casos.	pt_BR
dc.description.sponsorship	FACEPE	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência artificial	pt_BR
dc.subject	Recuperação da informação	pt_BR
dc.title	Combinação de classificadores em diferentes espaços de características para classificação de documentos	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.advisor-co	REN, Tsang Ing	-
dc.contributor.authorLattes	http://lattes.cnpq.br/9378863653048055	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/8577312109146354	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Text Classiﬁcation is a problem in which a natural language document is assigned to oneof the pre-establishedclasses. TextClassiﬁcation, with featurevectorsgenerated byBagof-Words, has two notable difﬁculties: high dimensionality and sparse data matrix. Feature selection reduces these difﬁculties, but discards information in the process. An alternative is to perform transformations over the features, because by altering the features it is possible to work without discarding information, allowing improvement of recognition rates and, in some cases, reduction of dimensionality and sparseness. Among these transformations, two underused in literature are: Dissimilarity Representation (DR), where each document is represented by a vector composed of distances calculated relative to a set of reference documents; and Dichotomy Transformation (DT), where the original problem is transformed into a binary problem and each document is transformed into several vectors with features obtained by the absolute value of the difference for the documents of a subset of the original set. The use of DR can reduce both the high dimensionality and sparseness. Whereas the use of DT, despite not reducing dimensionality or sparseness, improves the recognition rates of the classiﬁer, since it works with a larger amount of documents on a problem transformed into two classes. In this work, two multiple classiﬁers systems for Text Classiﬁcationa reproposed: Combined Dissimilarity Spaces (CoDiS) and Combined Dichotomy Transformations (CoDiT), each one based on the transformations mentioned above. The multiple classiﬁers beneﬁts from the need to ﬁnd a set for the transformations, because using different sets allows the creation of a diverse and robust system. Experiments were performed comparing the proposed architectures with literature methods using up to 47 public data bases and the results show that the proposals achieve superior performance in most cases.	pt_BR
Aparece en las colecciones:	Teses de Doutorado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TESE Roberto Hugo Wanderley Pinheiro.pdf		6,14 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons