Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/2000
Title: Extraction d information adaptative de pages web par induction supervisée d extracteurs
Authors: José de Lima, Rinaldo
Keywords: Extraction d'information;Induction d'extracteurs;Classification Supervisée;Parties du Discours;Apprentissage Machine
Issue Date: 31-Jan-2009
Publisher: Universidade Federal de Pernambuco
Citation: José de Lima, Rinaldo; Luiz Goncalves de Freitas, Frederico. Extraction d information adaptative de pages web par induction supervisée d extracteurs. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
Abstract: A Extração de Informação (EI) compreende técnicas e algoritmos que realisam duas tarefas importantes: a identificação de informações desejadas a partir de documentos estruturados e não-estruturados, e o armazenamento dessas informações em um formato apropriado para uso futuro. Este trabalho concentrase nos sistemas d'EI adaptativos que podem ser customizados para novos domínios através de um processo de treinamento (Machine Learning) usando coleções de documentos anotados como entrada. Particularmente, técnicas de induçao automática de wrappers são estudadas para extração de informação que se baseiam na exploração de regularidades estruturais encontradas em documentos Web. Wrappers são procedimentos para extrair dados de documentos. A indução de wrappers é definida como uma técnica de extração de informação que usa algoritmos de aprendizado de máquina para automaticamente construir wrappers a partir de um corpus previamente anotado e que tem mostrado bons resultados quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de extração que combina, no final do processo, um conjunto de wrapers específicos por voto ponderado. Alguns autores tem estudado como as técnicas de boosting contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando a direção desafiadora de usá-lo como um método de extração de informação para documentos não-estruturados em linguaguem natural. Este fato foi a principal motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento do sistema d'EI ora proposto. Afim de se avaliar o desempenho do sistema, vários experimentos foram executados usando-se três corpora como testbed para a tarefa de extração de informação no preenchimento de esquemas de extração (template filling task). Outros experimentos foram também conduzidos usando-se diversas combinações de atributos para sistematicamente avaliar os efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os resultados obtidos experimentalmente mostraram que o desempenho geral do sistema proposto é comparável a outros sistemas de EI do estado da arte
URI: https://repositorio.ufpe.br/handle/123456789/2000
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
arquivo1927_1.pdf1.52 MBAdobe PDFView/Open


This item is protected by original copyright



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.