Representações profundas para verificação de locutores independente de texto

PINHEIRO, Hector Natan Batista

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/38105

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	REN, Tsang Ing	-
dc.contributor.author	PINHEIRO, Hector Natan Batista	-
dc.date.accessioned	2020-09-25T23:45:19Z	-
dc.date.available	2020-09-25T23:45:19Z	-
dc.date.issued	2020-02-28	-
dc.identifier.citation	PINHEIRO, Hector Natan Batista. Representações profundas para verificação de locutores independente de texto. 2020. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/38105	-
dc.description.abstract	O desafio no desenvolvimento de sistemas de reconhecimento de locutores consiste em extrair das locuções representações robustas, capazes de distinguir os locutores diante dos mais diversos fatores que podem influenciar na geração dos sinais de voz, como a presença de ruído acústico do ambiente ou as condições físicas do locutor. Este trabalho foca no desenvolvimento de tais representações, levando em consideração a tarefa de verificação independente de texto. Nos últimos anos, diversas abordagens utilizando redes neurais profundas vêm sendo propostas para a geração de representações cada vez mais robustas. Dentre elas, a que mais se destacou consiste nos x-vectors, onde uma rede neural supervisionada é treinada para discriminar locuções, inicialmente descritas através de características espectrais de tempo curto. Uma representação vetorial para a locução é gerada através de uma camada de pooling que agrega os diversos vetores da locução. A partir dessa camada, a rede neural discrimina locuções inteiras utilizando as classes dos locutores que as produziram. A autenticação é realizada ao decidir se dois x-vectors foram produzidos pelo mesmo locutor ou não, através de uma análise probabilística de discriminantes lineares (Gaussian Probabilistic Linear Discriminant Analysis – G-PLDA). Neste trabalho, propomos um conjunto de abordagens capazes de melhorar a qualidade das representações baseadas nos x-vectors. As abordagens possuem o objetivo de tornar as representações geradas pela rede mais apropriadas para o método de comparação GPLDA, que, por sua vez, segue a premissa que as representações dos locutores seguem distribuições condicionais e a priori gaussianas. Primeiramente, propomos camadas de classificação e pooling gaussianos para a geração de representações gaussianas. Em seguida, desenvolvemos um método de regularização variacional para o controle da distribuição a priori dos x-vectors. A função de regularização minimiza a divergência entre a distribuição das representações geradas e uma determinada distribuição desejada, que no nosso caso é a distribuição normal padronizada. Nessa abordagem, uma amostra da distribuição desejada é apresentada à rede e a função de regularização computa uma medida de divergência não paramétrica entre as amostras. As abordagens propostas foram avaliadas utilizando a base de dados Fisher English Training, em um total de oito condições de avaliação, considerando o gênero dos locutores e as durações das locuções de teste. Os métodos foram comparados com a modelagem convencional dos x-vectors e outros métodos presentes na literatura para controle do espaço das representações. Nos resultados obtidos, pôde-se observar que as abordagens propostas geram representações mais adequadas à modelagem G-PLDA, proporcionando ganhos de desempenho de, em média, 11,63% e 15,52% nos valores de Equal Error Rate (EER) e Minimum Detection Cost Function (minDCF), respectivamente.	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Reconhecimento de locutores	pt_BR
dc.title	Representações profundas para verificação de locutores independente de texto	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.advisor-co	CAVALCANTI, George Darmiton da Cunha	-
dc.contributor.authorLattes	http://lattes.cnpq.br/6983523991146060	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3084134533707587	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	The challenge in the development of speaker recognition systems is to extract robust representations from the speech segments, capable of distinguishing the speakers in the presence of factors that can influence the generation of speech signals, such as the presence of environmental acoustic noise or the speakers’ physical conditions. This work focuses on the development of such representations, taking into account the task of text-independent verification. In recent years, several approaches using deep neural networks have been proposed for the generation of robust representations. Among them, the one that stood out the most consists of the x-vectors, where a supervised network is trained to discriminate speech segments, initially described through a set of short-term spectral features. A pooling layer aggregates the set of feature vectors to generate a fixed-length representation for the speech segment. From this layer, the network discriminates entire utterances using the classes of the speakers who produced them. The authentication task consists of deciding whether two x-vectors were produced by the same speaker or not, using a Gaussian Probabilistic Linear Discriminant Analysis (G-PLDA) model. In this work, we propose a set of approaches capable of improving the quality of the representations based on x-vectors. The approaches aim to produce representations more appropriate for the G-PLDA backend modeling, which assumes that speakers’ representations follow conditional and a priori distributions. Firstly, we propose Gaussian classification and pooling layers for the generation of Gaussian representations. Then, we developed a variational regularization method to control the representations prior distributions. The regularization function minimizes the divergence between the distribution of the generated representations and a given desired distribution, which, in our case, is the standard normal distribution. In this approach, a sample of the desired distribution is presented to the network, and the regularization function computes a non-parametric divergence measure between the samples. We evaluated the proposed approaches using the Fisher English Training database, in a total of eight evaluation conditions, considering the gender of the speakers and the duration of the test utterances. We compared the methods with the conventional x-vectors modeling and other methods previously proposed to control the space of the representations. In the results obtained, we observed that the proposed approaches generate representations better suited to the G-PLDA modelling, providing performance gains of, on average, 11.63% and 15.52% in the values of Equal Error Rate (EER) and Minimum Detection Cost Function (minDCF), respectively.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/8577312109146354	pt_BR
Aparece nas coleções:	Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TESE Hector Natan Batista Pinheiro.pdf		5,05 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons