Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/42036

Compartilhe esta página

Título: Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
Autor(es): SANTOS, Daniel Cirne Vilas-Boas dos
Palavras-chave: Inteligência computacional; Estilometria; Atribuição de autoria; Classificação de atividades pedagógicas
Data do documento: 13-Ago-2021
Editor: Universidade Federal de Pernambuco
Citação: SANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.
Abstract: O aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley.
URI: https://repositorio.ufpe.br/handle/123456789/42036
Aparece nas coleções:Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf12,34 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons