Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/2780
Title: Um framework para extração de informações: uma abordagem baseada em XML
Authors: Medeiros Cabral, Davi
Keywords: Framework;Engenharia de Software;Documentos;XML;Inteligência Artificial;Aprendizagem de Máquina;Extração de Informação
Issue Date: 2005
Publisher: Universidade Federal de Pernambuco
Citation: Medeiros Cabral, Davi; Souto Maior de Barros, Roberto. Um framework para extração de informações: uma abordagem baseada em XML. 2005. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2005.
Abstract: Com o crescimento da Internet, muitas informações vêm se tornando rapidamente disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco eficientes, deixando a obtenção das informações contidas no documento a cargo da atividade humana. Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para obtenção de informações encontradas em documentos-texto, visando à realização de um processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e extensibilidade desses sistemas. Esta dissertação propõe um framework, baseado em XML, para o desenvolvimento de sistemas de extração capazes de lidar com diferentes formatos de entrada e saída. Esses formatos representam as funcionalidades específicas, implementadas para cada uma de suas instâncias, enquanto as funcionalidades reutilizadas no domínio do problema são definidas pelo algoritmo de extração empregado. Dentre as diversas técnicas de extração de informações e aprendizagem de máquinas existentes, foi usada uma abordagem semi-automática baseada no algoritmo de indução definido no STALKER. Experimentos efetuados sobre artigos científicos mostram que o framework proposto é aplicável aos formatos de entrada PDF, PS, DOC, RTF e HTML; obtendo-se resultados satisfatórios quando comparados aos de sistemas já consolidados
URI: https://repositorio.ufpe.br/handle/123456789/2780
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
arquivo7169_1.pdf1.37 MBAdobe PDFView/Open


This item is protected by original copyright



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.