Um framework para transformação automática  de documentos e extração de informações  baseado em XML

Roberto Bechert  Schmitz, Lucas

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/2665

Comparte esta pagina

Título :	Um framework para transformação automática de documentos e extração de informações baseado em XML
Autor :	Roberto Bechert Schmitz, Lucas
Palabras clave :	Extração de Informação, Aprendizagem de Máquina, Inteligência Artificial, XML, Formatos de Documentos, Framework, Web Services, Engenharia de Software.
Fecha de publicación :	2007
Editorial :	Universidade Federal de Pernambuco
Citación :	Roberto Bechert Schmitz, Lucas; da Fonseca de Souza, Fernando. Um framework para transformação automática de documentos e extração de informações baseado em XML. 2007. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2007.
Resumen :	Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.). Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando assim o acesso às informações contidas no documento. Tendo em vista esse problema, surge a necessidade de se ter formas para a conversão entre formatos específicos. Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas possibilidades de conversão, um ou dois formatos em média. Outro problema gerado pela grande quantidade de informações disponíveis na Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma busca sobre determinado assunto. Os atuais buscadores trazem como resultados documentos completos com diversas informações além das necessárias ao usuário. A análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um trabalho manual. A extração automática de informações nos documentos dispostos na Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de forma estruturada, mas sim, muitos deles apresentam conteúdos semi-estruturados ou ainda, não-estruturados. Na tentativa de amenizar alguns desses problemas foi proposta a construção de um Framework para conversão entre formatos de documentos e extração de informações dos mesmos. Esse Framework é constituído de dois módulos que utilizam o formato XML como intermediador na conversão requerida. Esses módulos são: (1) o de conversão de formatos de entrada específicos para XML, que também é responsável pela extração de informação dos documentos; e (2) o de conversão de XML para formatos de saída específicos. Com a utilização do XML, os documentos convertidos tornam-se estruturados, facilitando assim o processo automático de extração de informações. Esta dissertação abrange o primeiro módulo descrito acima e parte de resultados alcançados por outro trabalho previamente realizado, onde foram construídas funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As contribuições propostas a partir deste trabalho são: adição do formato TEX (LaTeX) como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework previamente desenvolvido, para que este seja acessado como um serviço Web, utilizando os conceitos de Web Services
URI :	https://repositorio.ufpe.br/handle/123456789/2665
Aparece en las colecciones:	Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
arquivo5835_1.pdf		1,31 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro Dublin Core completo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons