Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/38965

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorVIMIEIRO, Renato-
dc.contributor.authorSOUSA, Luís Fred Gonçalves de-
dc.date.accessioned2021-01-06T18:29:39Z-
dc.date.available2021-01-06T18:29:39Z-
dc.date.issued2020-08-20-
dc.identifier.citationSOUSA, Luís Fred Gonçalves de. Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/38965-
dc.description.abstractAtribuição de autoria é o problema de identificar o autor de um ou mais textos com base no estilo de escrita do autor. Normalmente, a tarefa assume que o estilo de escrita dos autores conserva traços que são inacessíveis à manipulação consciente. Dessarte, tal poderia ser seguramente usado para identificar o autor de um texto. Os pesquisadores têm investigado um grande número de características textuais com o objetivo de validar a habilidade destas de revelar mecanismos subconscientes de variação de linguagem, os quais podem, consequentemente, refletir autoria. Muitos marcadores de estilo autorial já foram propostos na literatura. Não obstante, permanece a falta de consenso sobre qual é o melhor para representar as escolhas dos autores. Esta dissertação assume um ponto de vista neutro na disputa pelo melhor conjunto de características de texto capaz de representar estilos de escrita. No lugar disso, é investigado como diferentes fontes de informação podem relevar diferentes aspectos do estilo de um autor, complementando-se, assim, para aprimorar o processo geral de atribuição de autoria. Com esse propósito, o problema de atribuição de autoria é modelado nesse estudo como uma tarefa de aprendizado de máquina multivisão. A eficácia da abordagem proposta é avaliada em quatro conjuntos de dados com número variado de autores e obras. A performance do método é comparada ao estado da arte em abordagens de aprendizado de máquina para atribuição de autoria. No decorrer do estudo, foi analisado como o método multivisão aprimora as abordagens tradicionais que usam uma única fonte de informação para atribuir autoria, os quais foram chamados de métodos univisão. Os resultados confirmam a relevância de algumas características individuais de texto para a tarefa, mas também mostram como essas características se complementam com outros tipos de recursos linguísticos para melhorar a consistência e a precisão da atribuição de autoria. Ademais, foi verificado que os classificadores treinados com dados multivisão consistentemente concordam sobre os rótulos verdadeiros dos textos. O estudo ainda discute como essas melhorias, tanto na acurácia quanto na concordância de classificação, são benéficas para linguistas e outros especialistas.pt_BR
dc.description.sponsorshipCAPESpt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsembargoedAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectInteligência computacionalpt_BR
dc.subjectAprendizagem de máquinapt_BR
dc.titleUso de aprendizado supervisionado multivisão para atribuição automática de autoria de textospt_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/2004244088757573pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/5736183954752317pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxAuthorship attribution is the problem of identifying the author of texts based on the author’s writing style. Usually, in this task it is assumed that the authors’ writing style contains traits inaccessible to conscious manipulation and can thus be safely used to identify the author of a text. Researchers have investigated a large number of text characteristics to assess their ability to reveal subconscious mechanisms of language variation, which may consequently reflect authorship. Several author style markers have been proposed in the literature, nevertheless, there is still no consensus on which best represent the choices of authors. This work assume an agnostic viewpoint on the dispute for the best set of features that represent an author’s writing style. Rather is investigated how these different sources of information may unveil different aspects of an author’s style, thus complementing each other to improve the overall process of authorship attribution. For this purpose, the problem of authorship attribution is modeled as a multi-view/multimodal supervised machine learning task. The effectiveness of the proposal is assessed in four corpora with different number of authors. The performance of the proposal is compared to the state-of-the-art supervised machine learning approaches for authorship attribution. In the study is thoroughly analyzed how the multi-view approach improves on traditional methods that use a single source of data (single-view) for assigning authorship. The results confirms the relevance of some features for the task, but also show how they are complemented with other types of features to improve both on consistency and accuracy. Moreover, it was verified that classifiers trained with multi-view data consistently agree on the labels of texts. The study discusses how these improvements in both accuracy and agreement are beneficial for linguists and domain specialists.pt_BR
Aparece en las colecciones: Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
DISSERTAÇÃO Luís Fred Gonçalves de Sousa.pdf2,36 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons