Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/42036

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorZANCHETTIN, Cleber-
dc.contributor.authorSANTOS, Daniel Cirne Vilas-Boas dos-
dc.date.accessioned2021-12-09T18:27:00Z-
dc.date.available2021-12-09T18:27:00Z-
dc.date.issued2021-08-13-
dc.identifier.citationSANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/42036-
dc.description.abstractO aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley.pt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectInteligência computacionalpt_BR
dc.subjectEstilometriapt_BR
dc.subjectAtribuição de autoriapt_BR
dc.subjectClassificação de atividades pedagógicaspt_BR
dc.titleEstudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolarespt_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/8742274201842447pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1244195230407619pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxThe growth of digital documents, associated with their usage in several knowledge areas requires computational resources for its comprehension and analysis. In authorship attribution and verification cases, it is crucial to verify or identify the documents’ authors. The literature proposes promissing approaches that associate machine learning and natural language processing to distinguish the authors by their writing style. Those studies mainly involve literary and journalistic contextS, and texts in English. On the other hand, in the educational context, small amount of research explored authorship analysis to support learning checks within the Portuguese language. Such scenario is challenging, because it has a lower volume of documents per author, a set of homogeneous authors, and restrictions in the formatting, theme, and idiom. This work explored known techniques and approaches from the literature, such as ML models, document representation techniques, and stylometric feature extraction to help authorship analysis in a dataset derived from this research composed of pedagogical activities done by undergraduate students. Due to the sample volume, we used more robust journalistic datasets as references. Throughout the experiments, we verified that stylometric representations overcome merely textual representations in restricted domains, who suffer greater impacts from the document subject in broader corpora. This study reveals that Extremely Randomized Trees are superior to the others models (Naive Bayes, SVM, Random Forest, Logistic Regression, Neural networks) for all the datasets used, reaching an average of 70% of accuracy and 0.81 AUC. Furthermore, this survey describes methodological steps for stylometric feature extraction through natural language processing, and which features were highlighted during the experiments according to Shapley values.pt_BR
Aparece en las colecciones: Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
DISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf12,34 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons