Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/38295

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorZANCHETTIN, Cleber-
dc.contributor.authorNUNES, João Antônio Chagas-
dc.date.accessioned2020-10-07T22:19:51Z-
dc.date.available2020-10-07T22:19:51Z-
dc.date.issued2020-03-02-
dc.identifier.citationNUNES, João Antônio Chagas. Additive margin softmax e funções sinc para reconhecimento de locutor. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/38295-
dc.description.abstractReconhecimento de locutor é uma tarefa desafiante com aplicações em diversas áreas, como autenticação, automação e segurança. O SincNet é um novo modelo baseado em aprendizado profundo (deep learning) com resultados promissores para tarefa de reconhecimento de locutor. Um fator crucial no treinamento de modelos de deep learning é a função de ativação utilizada, que possui impacto direto no desempenho do modelo treinado. A função de ativação Softmax é amplamente utilizada neste contexto, principalmente em problemas de classificação. Entretando, em alguns tipos de problemas, como por exemplo o reconhecimento facial, a amsoftmax tem apresentado resultados significativos quando comparados à versão tradicional do Softmax. A amsoftmax é uma nova função de ativação baseada na Softmax que introduz uma margem de separação aditiva entre as classes mapeadas. A margem de separação aditiva força as amostras da mesma classe a ficarem mais próximas umas das outras enquanto maximiza a distância de amostras de classes distintas. Neste trabalho foram propostas variações de modelos tradicionais considerando componentes como amsoftmax e as camadas sinc do modelo SincNet para o problema de reconhecimento de locutor. Dentre os modelos propostos se destacam o amsincnet e o AM-MobileNet1D. O amsincnet é um modelo baseado no SincNet que usa a função de ativação amsoftmax, e com isso foi possível obter um erro de classificação 55% menor que o obtido pelo SincNet tradicional nas bases de dados TIMIT e MIT, sem aumento significativo na complexidade do modelo. O AM-MobileNet1D é uma versão da rede MobileNet V2 adaptada para trabalhar com sinais de áudio, que apresentou resultados até sete vezes mais rápidos que o modelo base SincNet, sem prejuízo no desempenho do modelo.pt_BR
dc.description.sponsorshipCNPqpt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectInteligência computacionalpt_BR
dc.subjectReconhecimento de locutorpt_BR
dc.titleAdditive margin softmax e funções sinc para reconhecimento de locutorpt_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/5134397331258110pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1244195230407619pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxSpeaker Recognition is a challenging task with essential applications such as authentication, automation, and security. SincNet is a new deep learning based model which has produced promising results to tackle the mentioned task. To train deep learning systems, the activation function on the final layer is essential to the network performance. The Softmax activation function is a widely used function in deep learning methods, but it is not the best choice for all kind of problems. For distance-based problems, one new Softmax based activation function called Additive Margin Softmax (AM-Softmax) is proving to be a better choice than the traditional Softmax. The AM-Softmax introduces a margin of separation between the classes that forces the samples from the same class to be closer to each other and also maximizes the distance between classes. In this paper, we proposed several deep learning models to tackle the speaker recognition problem. In addition, it was made several experiments to analyse the influence of the AM-Softmax function and the Sinc layer on the speaker recognition problem. Among the proposed models, the AM-SincNet and the AM-MobileNet1D had promissing results. The proposed AMSincNet model is based on the SincNet but uses an improved AM-Softmax layer, it had shown a classification error about 55% smaller than the tradicional SincNet model on the datasets TIMIT and MIT. On the other hand, the AM-MobileNet1D is an adapted version of MobileNet V2 built to deal with audio signals, it had shown results up to 7 times faster than the SincNet, while keeping low error rates.pt_BR
Aparece en las colecciones: Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
DISSERTAÇÃO João Antônio Chagas Nunes.pdf3,51 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons