Um framework para transformação automática  de documentos e extração de informações  baseado em XML

Roberto Bechert  Schmitz, Lucas

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/2665

Compartilhe esta página

Título:	Um framework para transformação automática de documentos e extração de informações baseado em XML
Autor(es):	Roberto Bechert Schmitz, Lucas
Palavras-chave:	Extração de Informação, Aprendizagem de Máquina, Inteligência Artificial, XML, Formatos de Documentos, Framework, Web Services, Engenharia de Software.
Data do documento:	2007
Editor:	Universidade Federal de Pernambuco
Citação:	Roberto Bechert Schmitz, Lucas; da Fonseca de Souza, Fernando. Um framework para transformação automática de documentos e extração de informações baseado em XML. 2007. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2007.
Abstract:	Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.). Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando assim o acesso às informações contidas no documento. Tendo em vista esse problema, surge a necessidade de se ter formas para a conversão entre formatos específicos. Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas possibilidades de conversão, um ou dois formatos em média. Outro problema gerado pela grande quantidade de informações disponíveis na Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma busca sobre determinado assunto. Os atuais buscadores trazem como resultados documentos completos com diversas informações além das necessárias ao usuário. A análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um trabalho manual. A extração automática de informações nos documentos dispostos na Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de forma estruturada, mas sim, muitos deles apresentam conteúdos semi-estruturados ou ainda, não-estruturados. Na tentativa de amenizar alguns desses problemas foi proposta a construção de um Framework para conversão entre formatos de documentos e extração de informações dos mesmos. Esse Framework é constituído de dois módulos que utilizam o formato XML como intermediador na conversão requerida. Esses módulos são: (1) o de conversão de formatos de entrada específicos para XML, que também é responsável pela extração de informação dos documentos; e (2) o de conversão de XML para formatos de saída específicos. Com a utilização do XML, os documentos convertidos tornam-se estruturados, facilitando assim o processo automático de extração de informações. Esta dissertação abrange o primeiro módulo descrito acima e parte de resultados alcançados por outro trabalho previamente realizado, onde foram construídas funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As contribuições propostas a partir deste trabalho são: adição do formato TEX (LaTeX) como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework previamente desenvolvido, para que este seja acessado como um serviço Web, utilizando os conceitos de Web Services
URI:	https://repositorio.ufpe.br/handle/123456789/2665
Aparece nas coleções:	Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
arquivo5835_1.pdf		1,31 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons