Additive margin softmax e funções sinc para reconhecimento de locutor

NUNES, João Antônio Chagas

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/38295

Share on

Title:	Additive margin softmax e funções sinc para reconhecimento de locutor
Authors:	NUNES, João Antônio Chagas
Keywords:	Inteligência computacional; Reconhecimento de locutor
Issue Date:	2-Mar-2020
Publisher:	Universidade Federal de Pernambuco
Citation:	NUNES, João Antônio Chagas. Additive margin softmax e funções sinc para reconhecimento de locutor. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
Abstract:	Reconhecimento de locutor é uma tarefa desafiante com aplicações em diversas áreas, como autenticação, automação e segurança. O SincNet é um novo modelo baseado em aprendizado profundo (deep learning) com resultados promissores para tarefa de reconhecimento de locutor. Um fator crucial no treinamento de modelos de deep learning é a função de ativação utilizada, que possui impacto direto no desempenho do modelo treinado. A função de ativação Softmax é amplamente utilizada neste contexto, principalmente em problemas de classificação. Entretando, em alguns tipos de problemas, como por exemplo o reconhecimento facial, a amsoftmax tem apresentado resultados significativos quando comparados à versão tradicional do Softmax. A amsoftmax é uma nova função de ativação baseada na Softmax que introduz uma margem de separação aditiva entre as classes mapeadas. A margem de separação aditiva força as amostras da mesma classe a ficarem mais próximas umas das outras enquanto maximiza a distância de amostras de classes distintas. Neste trabalho foram propostas variações de modelos tradicionais considerando componentes como amsoftmax e as camadas sinc do modelo SincNet para o problema de reconhecimento de locutor. Dentre os modelos propostos se destacam o amsincnet e o AM-MobileNet1D. O amsincnet é um modelo baseado no SincNet que usa a função de ativação amsoftmax, e com isso foi possível obter um erro de classificação 55% menor que o obtido pelo SincNet tradicional nas bases de dados TIMIT e MIT, sem aumento significativo na complexidade do modelo. O AM-MobileNet1D é uma versão da rede MobileNet V2 adaptada para trabalhar com sinais de áudio, que apresentou resultados até sete vezes mais rápidos que o modelo base SincNet, sem prejuízo no desempenho do modelo.
URI:	https://repositorio.ufpe.br/handle/123456789/38295
Appears in Collections:	Dissertações de Mestrado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO João Antônio Chagas Nunes.pdf		3,51 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show full item record Recommend this item

This item is licensed under a Creative Commons License