Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/38105
Comparte esta pagina
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | REN, Tsang Ing | - |
dc.contributor.author | PINHEIRO, Hector Natan Batista | - |
dc.date.accessioned | 2020-09-25T23:45:19Z | - |
dc.date.available | 2020-09-25T23:45:19Z | - |
dc.date.issued | 2020-02-28 | - |
dc.identifier.citation | PINHEIRO, Hector Natan Batista. Representações profundas para verificação de locutores independente de texto. 2020. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/38105 | - |
dc.description.abstract | O desafio no desenvolvimento de sistemas de reconhecimento de locutores consiste em extrair das locuções representações robustas, capazes de distinguir os locutores diante dos mais diversos fatores que podem influenciar na geração dos sinais de voz, como a presença de ruído acústico do ambiente ou as condições físicas do locutor. Este trabalho foca no desenvolvimento de tais representações, levando em consideração a tarefa de verificação independente de texto. Nos últimos anos, diversas abordagens utilizando redes neurais profundas vêm sendo propostas para a geração de representações cada vez mais robustas. Dentre elas, a que mais se destacou consiste nos x-vectors, onde uma rede neural supervisionada é treinada para discriminar locuções, inicialmente descritas através de características espectrais de tempo curto. Uma representação vetorial para a locução é gerada através de uma camada de pooling que agrega os diversos vetores da locução. A partir dessa camada, a rede neural discrimina locuções inteiras utilizando as classes dos locutores que as produziram. A autenticação é realizada ao decidir se dois x-vectors foram produzidos pelo mesmo locutor ou não, através de uma análise probabilística de discriminantes lineares (Gaussian Probabilistic Linear Discriminant Analysis – G-PLDA). Neste trabalho, propomos um conjunto de abordagens capazes de melhorar a qualidade das representações baseadas nos x-vectors. As abordagens possuem o objetivo de tornar as representações geradas pela rede mais apropriadas para o método de comparação GPLDA, que, por sua vez, segue a premissa que as representações dos locutores seguem distribuições condicionais e a priori gaussianas. Primeiramente, propomos camadas de classificação e pooling gaussianos para a geração de representações gaussianas. Em seguida, desenvolvemos um método de regularização variacional para o controle da distribuição a priori dos x-vectors. A função de regularização minimiza a divergência entre a distribuição das representações geradas e uma determinada distribuição desejada, que no nosso caso é a distribuição normal padronizada. Nessa abordagem, uma amostra da distribuição desejada é apresentada à rede e a função de regularização computa uma medida de divergência não paramétrica entre as amostras. As abordagens propostas foram avaliadas utilizando a base de dados Fisher English Training, em um total de oito condições de avaliação, considerando o gênero dos locutores e as durações das locuções de teste. Os métodos foram comparados com a modelagem convencional dos x-vectors e outros métodos presentes na literatura para controle do espaço das representações. Nos resultados obtidos, pôde-se observar que as abordagens propostas geram representações mais adequadas à modelagem G-PLDA, proporcionando ganhos de desempenho de, em média, 11,63% e 15,52% nos valores de Equal Error Rate (EER) e Minimum Detection Cost Function (minDCF), respectivamente. | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência computacional | pt_BR |
dc.subject | Reconhecimento de locutores | pt_BR |
dc.title | Representações profundas para verificação de locutores independente de texto | pt_BR |
dc.type | doctoralThesis | pt_BR |
dc.contributor.advisor-co | CAVALCANTI, George Darmiton da Cunha | - |
dc.contributor.authorLattes | http://lattes.cnpq.br/6983523991146060 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | doutorado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/3084134533707587 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | The challenge in the development of speaker recognition systems is to extract robust representations from the speech segments, capable of distinguishing the speakers in the presence of factors that can influence the generation of speech signals, such as the presence of environmental acoustic noise or the speakers’ physical conditions. This work focuses on the development of such representations, taking into account the task of text-independent verification. In recent years, several approaches using deep neural networks have been proposed for the generation of robust representations. Among them, the one that stood out the most consists of the x-vectors, where a supervised network is trained to discriminate speech segments, initially described through a set of short-term spectral features. A pooling layer aggregates the set of feature vectors to generate a fixed-length representation for the speech segment. From this layer, the network discriminates entire utterances using the classes of the speakers who produced them. The authentication task consists of deciding whether two x-vectors were produced by the same speaker or not, using a Gaussian Probabilistic Linear Discriminant Analysis (G-PLDA) model. In this work, we propose a set of approaches capable of improving the quality of the representations based on x-vectors. The approaches aim to produce representations more appropriate for the G-PLDA backend modeling, which assumes that speakers’ representations follow conditional and a priori distributions. Firstly, we propose Gaussian classification and pooling layers for the generation of Gaussian representations. Then, we developed a variational regularization method to control the representations prior distributions. The regularization function minimizes the divergence between the distribution of the generated representations and a given desired distribution, which, in our case, is the standard normal distribution. In this approach, a sample of the desired distribution is presented to the network, and the regularization function computes a non-parametric divergence measure between the samples. We evaluated the proposed approaches using the Fisher English Training database, in a total of eight evaluation conditions, considering the gender of the speakers and the duration of the test utterances. We compared the methods with the conventional x-vectors modeling and other methods previously proposed to control the space of the representations. In the results obtained, we observed that the proposed approaches generate representations better suited to the G-PLDA modelling, providing performance gains of, on average, 11.63% and 15.52% in the values of Equal Error Rate (EER) and Minimum Detection Cost Function (minDCF), respectively. | pt_BR |
dc.contributor.advisor-coLattes | http://lattes.cnpq.br/8577312109146354 | pt_BR |
Aparece en las colecciones: | Teses de Doutorado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TESE Hector Natan Batista Pinheiro.pdf | 5,05 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons