Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/2665
Title: Um framework para transformação automática de documentos e extração de informações baseado em XML
Authors: Roberto Bechert Schmitz, Lucas
Keywords: Extração de Informação, Aprendizagem de Máquina, Inteligência Artificial, XML, Formatos de Documentos, Framework, Web Services, Engenharia de Software.
Issue Date: 2007
Publisher: Universidade Federal de Pernambuco
Citation: Roberto Bechert Schmitz, Lucas; da Fonseca de Souza, Fernando. Um framework para transformação automática de documentos e extração de informações baseado em XML. 2007. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2007.
Abstract: Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.). Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando assim o acesso às informações contidas no documento. Tendo em vista esse problema, surge a necessidade de se ter formas para a conversão entre formatos específicos. Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas possibilidades de conversão, um ou dois formatos em média. Outro problema gerado pela grande quantidade de informações disponíveis na Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma busca sobre determinado assunto. Os atuais buscadores trazem como resultados documentos completos com diversas informações além das necessárias ao usuário. A análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um trabalho manual. A extração automática de informações nos documentos dispostos na Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de forma estruturada, mas sim, muitos deles apresentam conteúdos semi-estruturados ou ainda, não-estruturados. Na tentativa de amenizar alguns desses problemas foi proposta a construção de um Framework para conversão entre formatos de documentos e extração de informações dos mesmos. Esse Framework é constituído de dois módulos que utilizam o formato XML como intermediador na conversão requerida. Esses módulos são: (1) o de conversão de formatos de entrada específicos para XML, que também é responsável pela extração de informação dos documentos; e (2) o de conversão de XML para formatos de saída específicos. Com a utilização do XML, os documentos convertidos tornam-se estruturados, facilitando assim o processo automático de extração de informações. Esta dissertação abrange o primeiro módulo descrito acima e parte de resultados alcançados por outro trabalho previamente realizado, onde foram construídas funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As contribuições propostas a partir deste trabalho são: adição do formato TEX (LaTeX) como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework previamente desenvolvido, para que este seja acessado como um serviço Web, utilizando os conceitos de Web Services
URI: https://repositorio.ufpe.br/handle/123456789/2665
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
arquivo5835_1.pdf1.31 MBAdobe PDFView/Open


This item is protected by original copyright



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.