Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/12425
Comparte esta pagina
Título : | Ontoilper: an ontology- and inductive logic programming-based method to extract instances of entities and relations from texts |
Autor : | Lima, Rinaldo José de Freitas, Frederico Luiz Gonçalves de |
Palabras clave : | Named entity recognition; Relation extraction; Ontology population; Ontologybased information extraction; Inductive logic programming; Reconhecimento de entidades nomeadas; Extração de relação; Povoamento de ontologias; Extração de informação baseada em ontologias; Programação em lógica indutiva |
Fecha de publicación : | 31-ene-2014 |
Editorial : | Universidade Federal de Pernambuco |
Citación : | LIMA, Rinaldo José de. OntoILPER: an ontology - and inductive logic programming-based method to extract instances of entities and relations from texts. Recife, 2014. 240 f. Tese (doutorado) - UFPE, Centro de Informática, Programa de Pós-graduação em Ciência da Computação, 2014.. |
Resumen : | A área de Extração de Informação (IE) visa descobrir e estruturar informações dispostas em
documentos semi-estruturados ou desestruturados. O Reconhecimento de Entidades Nomeadas
(REN) e a Extração de Relações (ER) são duas subtarefas importantes em EI. A primeira visa
encontrar entidades nomeadas, incluindo nome de pessoas e lugares, entre outros; enquanto
que a segunda, consiste na detecção e caracterização de relações que envolvem as entidades
nomeadas presentes no texto. Como a tarefa de criar manualmente as regras de extração para
realizar REN e ER é muito trabalhosa e onerosa, pesquisadores têm voltado suas atenções na
investigação de como as técnicas de aprendizado de máquina podem ser aplicadas à EI a fim de
tornar os sistemas de ER mais adaptáveis às mudanças de domínios. Como resultado, muitos
métodos do estado-da-arte em REN e ER, baseados em técnicas estatísticas de aprendizado de
máquina, têm sido propostos na literatura. Tais sistemas normalmente empregam um espaço
de hipóteses com expressividade propositional para representar os exemplos, ou seja, eles são
baseado na tradicional representação atributo-valor. Em aprendizado de máquina, a representação
proposicional apresenta algums fatores limitantes, principalmente na extração de relações binárias
que exigem não somente informações contextuais e estruturais (relacionais) sobre as instâncias,
mas também outras formas de como adicionar conhecimento prévio do problema durante o
processo de aprendizado. Esta tese visa atenuar as limitações acima mencionadas, tendo como
hipótese de trabalho que, para ser eficiente e mais facilmente adaptável às mudanças de domínio,
os sistemas de EI devem explorar ontologias e recursos semânticos no contexto de um arcabouço
para EI que permita a indução automática de regras de extração de informação através do
emprego de técnicas de aprendizado de máquina. Neste contexto, a presente tese propõe um
método supervisionado capaz de extrair instâncias de entidades (ou classes de ontologias) e de
relações a partir de textos apoiando-se na Programação em Lógica Indutiva (PLI), uma técnica de
aprendizado de máquina supervisionada capaz de induzir regras simbólicas de classificação. O
método proposto, chamado OntoILPER, não só se beneficia de ontologias e recursos semânticos,
mas também se baseia em um expressivo espaço de hipóteses, sob a forma de predicados
lógicos, capaz de representar exemplos cuja estrutura é relevante para a tarefa de EI consideradas
nesta tese. OntoILPER automaticamente induz regras simbólicas para classificar exemplos de
instâncias de entidades e relações a partir de um modelo de representação de frases baseado
em grafos. Tal modelo de representação é uma das constribuições desta tese. Além disso, o
modelo baseado em grafos para representação de frases e exemplos (instâncias de classes e
relações) favorece a integração de conhecimento prévio do problema na forma de um conjunto
reduzido de atributos léxicos, sintáticos, semânticos e estruturais. Diferentemente da maioria dos
métodos de EI (uma pesquisa abrangente é apresentada nesta tese, incluindo aqueles que também
se aplicam a PLI), OntoILPER faz uso de várias subtarefas do Processamento de Linguagem Information Extraction (IE) consists in the task of discovering and structuring information found in a semi-structured or unstructured textual corpus. Named Entity Recognition (NER) and Relation Extraction (RE) are two important subtasks in IE. The former aims at finding named entities, including the name of people, locations, among others, whereas the latter consists in detecting and characterizing relations involving such named entities in text. Since the approach of manually creating extraction rules for performing NER and RE is an intensive and time-consuming task, researchers have turned their attention to how machine learning techniques can be applied to IE in order to make IE systems more adaptive to domain changes. As a result, a myriad of state-of-the-art methods for NER and RE relying on statistical machine learning techniques have been proposed in the literature. Such systems typically use a propositional hypothesis space for representing examples, i.e., an attribute-value representation. In machine learning, the propositional representation of examples presents some limitations, particularly in the extraction of binary relations, which mainly demands not only contextual and relational information about the involving instances, but also more expressive semantic resources as background knowledge. This thesis attempts to mitigate the aforementioned limitations based on the hypothesis that, to be efficient and more adaptable to domain changes, an IE system should exploit ontologies and semantic resources in a framework for IE that enables the automatic induction of extraction rules by employing machine learning techniques. In this context, this thesis proposes a supervised method to extract both entity and relation instances from textual corpora based on Inductive Logic Programming, a symbolic machine learning technique. The proposed method, called OntoILPER, benefits not only from ontologies and semantic resources, but also relies on a highly expressive relational hypothesis space, in the form of logical predicates, for representing examples whose structure is relevant to the information extraction task. OntoILPER automatically induces symbolic extraction rules that subsume examples of entity and relation instances from a tailored graph-based model of sentence representation, another contribution of this thesis. Moreover, this graph-based model for representing sentences also enables the exploitation of domain ontologies and additional background knowledge in the form of a condensed set of features including lexical, syntactic, semantic, and relational ones. Differently from most of the IE methods (a comprehensive survey is presented in this thesis, including the ones that also apply ILP), OntoILPER takes advantage of a rich text preprocessing stage which encompasses various shallow and deep natural language processing subtasks, including dependency parsing, coreference resolution, word sense disambiguation, and semantic role labeling. Further mappings of nouns and verbs to (formal) semantic resources are also considered. OntoILPER Framework, the OntoILPER implementation, was experimentally evaluated on both NER and RE tasks. This thesis reports the results of several assessments conducted using six standard evaluationcorpora from two distinct domains: news and biomedical. The obtained results demonstrated the effectiveness of OntoILPER on both NER and RE tasks. Actually, the proposed framework outperforms some of the state-of-the-art IE systems compared in this thesis. |
URI : | https://repositorio.ufpe.br/handle/123456789/12425 |
Aparece en las colecciones: | Teses de Doutorado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TESE Rinaldo José de Lima.pdf | 8,48 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons