Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/38295

Share on

Title: Additive margin softmax e funções sinc para reconhecimento de locutor
Authors: NUNES, João Antônio Chagas
Keywords: Inteligência computacional; Reconhecimento de locutor
Issue Date: 2-Mar-2020
Publisher: Universidade Federal de Pernambuco
Citation: NUNES, João Antônio Chagas. Additive margin softmax e funções sinc para reconhecimento de locutor. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
Abstract: Reconhecimento de locutor é uma tarefa desafiante com aplicações em diversas áreas, como autenticação, automação e segurança. O SincNet é um novo modelo baseado em aprendizado profundo (deep learning) com resultados promissores para tarefa de reconhecimento de locutor. Um fator crucial no treinamento de modelos de deep learning é a função de ativação utilizada, que possui impacto direto no desempenho do modelo treinado. A função de ativação Softmax é amplamente utilizada neste contexto, principalmente em problemas de classificação. Entretando, em alguns tipos de problemas, como por exemplo o reconhecimento facial, a amsoftmax tem apresentado resultados significativos quando comparados à versão tradicional do Softmax. A amsoftmax é uma nova função de ativação baseada na Softmax que introduz uma margem de separação aditiva entre as classes mapeadas. A margem de separação aditiva força as amostras da mesma classe a ficarem mais próximas umas das outras enquanto maximiza a distância de amostras de classes distintas. Neste trabalho foram propostas variações de modelos tradicionais considerando componentes como amsoftmax e as camadas sinc do modelo SincNet para o problema de reconhecimento de locutor. Dentre os modelos propostos se destacam o amsincnet e o AM-MobileNet1D. O amsincnet é um modelo baseado no SincNet que usa a função de ativação amsoftmax, e com isso foi possível obter um erro de classificação 55% menor que o obtido pelo SincNet tradicional nas bases de dados TIMIT e MIT, sem aumento significativo na complexidade do modelo. O AM-MobileNet1D é uma versão da rede MobileNet V2 adaptada para trabalhar com sinais de áudio, que apresentou resultados até sete vezes mais rápidos que o modelo base SincNet, sem prejuízo no desempenho do modelo.
URI: https://repositorio.ufpe.br/handle/123456789/38295
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
DISSERTAÇÃO João Antônio Chagas Nunes.pdf3,51 MBAdobe PDFThumbnail
View/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons