Improving binary classifiers on imbalanced data using large language models

BARBOSA, José Matheus Lacerda

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/53563

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	BARBOSA, Luciano de Andrade	-
dc.contributor.author	BARBOSA, José Matheus Lacerda	-
dc.date.accessioned	2023-11-13T13:45:05Z	-
dc.date.available	2023-11-13T13:45:05Z	-
dc.date.issued	2023-07-12	-
dc.identifier.citation	BARBOSA, José Matheus Lacerda. Improving binary classifiers on imbalanced data using large language models. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/53563	-
dc.description.abstract	In the realm of real-world classification tasks, the challenge of imbalanced data fre- quently hinders the efficacy of machine learning models in performing accurate binary classifications. To address this issue directly, this study introduces "BALANCE," a novel framework designed to rectify data imbalance in text datasets for binary classification. BALANCE leverages prompt-based learning to efficiently generate synthetic data that mimics the characteristics of the minority class. This is achieved by optimizing the de- coding parameters of a specific natural language generation model and tailoring text gen- eration to the minority class. A customized prompt is subsequently employed to generate instances using the fine-tuned language model. We conducted a comprehensive experimen- tal evaluation using three imbalanced real-world text classification datasets. The findings of our study reveal that BALANCE consistently outperforms existing methods for data creation and imbalance correction in the majority of scenarios. These results underscore the high quality of the generated instances and the potential of BALANCE to significantly enhance the performance of text classification models when dealing with imbalanced data.	pt_BR
dc.description.sponsorship	CAPES	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Banco de dados	pt_BR
dc.subject	Aprendizado por indução	pt_BR
dc.title	Improving binary classifiers on imbalanced data using large language models	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/7807110643339284	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/7113249247656195	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	No âmbito das tarefas de classificação do mundo real, o desafio de dados desequili- brados frequentemente prejudica a eficácia dos modelos de aprendizado de máquina na realização de classificações binárias precisas. Para abordar esse problema diretamente, este estudo introduz "BALANCE", um novo framework projetado para corrigir o desequilíbrio de dados em conjuntos de dados de texto para classificação binária. O BALANCE utiliza a aprendizagem baseada em prompt para gerar eficientemente dados sintéticos que imitam as características da classe minoritária. Isso é alcançado otimizando os parâmetros de de- codificação de um modelo de geração de linguagem natural específico, adaptando a geração de texto à classe minoritária. Em seguida, é empregado um prompt personalizado para gerar instâncias usando o modelo de linguagem ajustado. Realizamos uma avaliação ex- perimental abrangente usando três conjuntos de dados de classificação de texto do mundo real desequilibrados. Os resultados de nosso estudo revelam que o BALANCE supera con- sistentemente os métodos existentes para criação de dados e correção de desequilíbrio na maioria dos cenários. Esses resultados destacam a alta qualidade das instâncias geradas e o potencial do BALANCE para melhorar significativamente o desempenho de modelos de classificação de texto ao lidar com dados desequilibrados.	pt_BR
Appears in Collections:	Dissertações de Mestrado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO José Matheus Lacerda Barbosa.pdf		1.69 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record Recommend this item

This item is licensed under a Creative Commons License