Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/2000
Compartilhe esta página
Título: | Extraction d information adaptative de pages web par induction supervisée d extracteurs |
Autor(es): | José de Lima, Rinaldo |
Palavras-chave: | Extraction d'information; Induction d'extracteurs; Classification Supervisée; Parties du Discours; Apprentissage Machine |
Data do documento: | 31-Jan-2009 |
Editor: | Universidade Federal de Pernambuco |
Citação: | José de Lima, Rinaldo; Luiz Goncalves de Freitas, Frederico. Extraction d information adaptative de pages web par induction supervisée d extracteurs. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009. |
Abstract: | A Extração de Informação (EI) compreende técnicas e algoritmos que realisam duas tarefas importantes: a identificação de informações desejadas a partir de documentos estruturados e não-estruturados, e o armazenamento dessas informações em um formato apropriado para uso futuro. Este trabalho concentrase nos sistemas d'EI adaptativos que podem ser customizados para novos domínios através de um processo de treinamento (Machine Learning) usando coleções de documentos anotados como entrada. Particularmente, técnicas de induçao automática de wrappers são estudadas para extração de informação que se baseiam na exploração de regularidades estruturais encontradas em documentos Web. Wrappers são procedimentos para extrair dados de documentos. A indução de wrappers é definida como uma técnica de extração de informação que usa algoritmos de aprendizado de máquina para automaticamente construir wrappers a partir de um corpus previamente anotado e que tem mostrado bons resultados quando aplicada em textos estruturados, semi-estruturados e livres (em linguagem natural). Este trabalho propõe um sistema d'EI baseado em Boosted Wrapper Induction (BWI), um algoritmo de indução de wrappers supervisionado no qual um outro algoritmo, o AdaBoost, é usado para gerar um procedimento genérico de extração que combina, no final do processo, um conjunto de wrapers específicos por voto ponderado. Alguns autores tem estudado como as técnicas de boosting contribuem ao sucesso do algorithmo BWI e examinado sua perfomance tomando a direção desafiadora de usá-lo como um método de extração de informação para documentos não-estruturados em linguaguem natural. Este fato foi a principal motivação para se incluir Parts-of-Speech (POS) tagging na fase de préprocessamento do sistema d'EI ora proposto. Afim de se avaliar o desempenho do sistema, vários experimentos foram executados usando-se três corpora como testbed para a tarefa de extração de informação no preenchimento de esquemas de extração (template filling task). Outros experimentos foram também conduzidos usando-se diversas combinações de atributos para sistematicamente avaliar os efeitos que esses últimos têm no desempenho do algoritmo de aprendizado. Os resultados obtidos experimentalmente mostraram que o desempenho geral do sistema proposto é comparável a outros sistemas de EI do estado da arte |
URI: | https://repositorio.ufpe.br/handle/123456789/2000 |
Aparece nas coleções: | Dissertações de Mestrado - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
arquivo1927_1.pdf | 1,52 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons