Learning to detect text-code inconsistencies with weak and manual supervision

SOUZA, Beatriz Bezerra de

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/49318

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	D'AMORIM, Marcelo Bezerra	-
dc.contributor.author	SOUZA, Beatriz Bezerra de	-
dc.date.accessioned	2023-03-10T13:08:35Z	-
dc.date.available	2023-03-10T13:08:35Z	-
dc.date.issued	2023-02-15	-
dc.identifier.citation	SOUZA, Beatriz Bezerra de. Learning to detect text-code inconsistencies with weak and manual supervision. 2023. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/49318	-
dc.description.abstract	Source code often is associated with a natural language summary, enabling developers to understand the behavior and intent of the code. For example, method-level comments summarize the behavior of a method and test descriptions summarize the intent of a test case. Unfortunately, the text and its corresponding code sometimes are inconsistent, which may hinder code understanding, code reuse, and code maintenance. We propose TCID, an approach for Text-Code Inconsistency Detection, which trains a neural model to distinguish consistent from inconsistent text-code pairs. Our key contribution is to combine two ways of training such a model. First, TCID performs weakly supervised pre-training based on large amounts of consistent examples extracted from code as-is and inconsistent examples created by randomly recombining text-code pairs. Then, TCID fine-tunes the model based on a small and curated set of manually labeled examples. This combination is motivated by the observation that weak supervision alone leads to models that generalize poorly to real-world inconsistencies. Our evaluation applies the two-step training procedure to four state-of-the-art models and evaluates it on two text-vs-code problems: 40.7K method-level comments checked against the corresponding Java method body, and—as a problem not considered in prior work— 338.8K test case descriptions checked against corresponding JavaScript implementations. Our results show that a small amount of manual labeling enables the approach to significantly improve effectiveness, outperforming the current state of the art and improving the F1 score by 5% in Java and by 17% in JavaScript. We validate the usefulness of TCID’s predictions by submitting pull requests, of which 10 have been accepted so far.	pt_BR
dc.description.sponsorship	CNPq	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Engenharia de software	pt_BR
dc.subject	Detecção de inconsistência	pt_BR
dc.title	Learning to detect text-code inconsistencies with weak and manual supervision	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/2008820285345452	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3762670242328435	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	O código-fonte geralmente está associado a um resumo em linguagem natural, permitindo que os desenvolvedores entendam o comportamento e a intenção do código. Por exemplo, co- mentários em nível de método resumem o comportamento de um método e descrições de teste resumem a intenção de um caso de teste. Infelizmente, o texto e seu código correspondente às vezes são inconsistentes, o que pode atrapalhar a compreensão do código, a reutilização do código e a manutenção do código. Propomos TCID, uma abordagem para Detecção de Inconsistência de Código e Texto, que treina um modelo neural para distinguir pares de texto- código consistentes de inconsistentes. Nossa principal contribuição é combinar duas formas de treinar tal modelo. Primeiro, o TCID executa pré-treinamento fracamente supervisionado com base em grandes quantidades de exemplos consistentes extraídos do código como está e exem- plos inconsistentes criados pela recombinação aleatória de pares texto-código. Em seguida, o TCID faz o ajuste fino no modelo baseado em um conjunto pequeno e curado de exemplos ro- tulados manualmente. Esta combinação é motivada pela observação de que a supervisão fraca por si só leva a modelos que generalizam mal a inconsistências do mundo real. Nossa avaliação aplica o procedimento de treinamento em duas etapas a quatro modelos de última geração e avalia-os em dois problemas de texto versus código: 40.7K comentários em nível de método verificados em relação ao corpo do método Java correspondente e—como um problema não considerado em trabalhos anteriores—338.8K as descrições dos casos de teste são verificadas em relação às implementações JavaScript correspondentes. Nossos resultados mostram que uma pequena quantidade de rotulagem manual permite que a eficácia da abordagem melhore significativamente, superando o estado da arte atual e melhorando a pontuação de F1 em 5% em Java e em 17% em JavaScript. Validamos a utilidade das previsões do TCID por envio de pull requests, dos quais 10 foram aceitos até o momento.	pt_BR
Aparece nas coleções:	Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO Beatriz Bezerra de Souza.pdf		668,67 kB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons