Dynamic translation between sign languages : a deep learning approach

NEIVA, Davi Hirafuji

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/49415

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	ZANCHETTIN, Cleber	-
dc.contributor.author	NEIVA, Davi Hirafuji	-
dc.date.accessioned	2023-03-21T17:00:59Z	-
dc.date.available	2023-03-21T17:00:59Z	-
dc.date.issued	2022-03-11	-
dc.identifier.citation	NEIVA, Davi Hirafuji. Dynamic translation between sign languages: a deep learning approach. 2022. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/49415	-
dc.description.abstract	Língua de sinais são usadas por pessoas surdas ao redor do mundo para se comunicar com outras pessoas surdas. Ao usar movimentos do corpo, especificamente as mãos, uma pessoa surda consegue se expressar. Contudo, língua de sinais não são universais o que significa que uma pessoa surda americana pode não conseguir se comunicar apropriadamente com uma pessoa surda brasileira. Soluções baseadas em software usam algorítmos de aprendizagem de máquina para reconhecer os sinais em uma língua de sinais e tranduzir uma língua falada ou escrita para uma língua de sinais, mas até a escrita desta tese, não identificamos nenhum trabalho que tenha proposto uma tradução entre língua de sinais. Para isto, nós propomos uma aplicação móvel integrada a um servidor que utiliza a sua câmera para capturar vídeos de uma língua de sinais, enviar este vídeo para um servidor e mostrar sua tradução em outra língua de sinais. Nós usamos uma combinação do estado-da-arte em aprendizado profundo como Mask-RCNN, CNN e Transformers para realizar as tarefas de remoção de plano de fundo, extração de características, reconhecimento e tradução de sinais. Também propomos uma base de dados composta somente de palavras para reconhecer sentenças em língua de sinais. Além disso, nós propomos uma página web para hospedar diferentes língua de sinais para visualizar sinais individualmente ou em sentenças e criar máscaras customizadas das mãos. Utilizando dois datasets públicos (PHOENIX14-T, uma base alemã de língua de sinais e V-Librasil, uma base brasileira), nossa proposta melhorou a taxa de erro de palavra (WER) em 4% na base alemã enquanto que na V-Librasil nós atingimos um WER de 21.7% e 5% para palavras e sentenças utilizando nossa base de palavras.	pt_BR
dc.description.sponsorship	FACEPE	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Aprendizagem profunda	pt_BR
dc.subject	Redes neurais	pt_BR
dc.title	Dynamic translation between sign languages : a deep learning approach	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/3463997354620120	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/1244195230407619	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Sign languages are used by deaf people worldwide to communicate with others. By using body movements, especially the hands, a deaf person can express him/herself. However, Sign language is not universal, which means that an American deaf person may not be able to communicate with a Brazilian deaf person properly. Software-based solutions use machine learning algorithms to recognize Sign language gestures and translate the oral and written language to Sign language, but to our knowledge, no works tackle translation between Sign languages. We propose a mobile application integrated with a server to translate Sign languages that use a smartphone’s camera to capture Sign language gestures through video, send to the server, and display the translation back to the user. We use a combination of state-of-the-art Deep learning algorithms such as Mask-RCNN, CNN, and Transformers to perform background removal, feature extraction, Sign language gesture recognition, and translation. We also propose a word-based sentence dataset to recognize continuous Sign language videos. Moreover, we present a webpage to host different sign languages, view gestures individually or in sentences, and create customized hand masks. Using two publicly available Sign language datasets (PHOENIX14-T German Sign language and V-Librasil Brazilian Sign language), our approach improved Word Error Rate (WER) accuracy result by 4% on the PHOENIX14-T while on the V-Librasil dataset, and we achieved a 21.7% WER and a 5% WER using our word-based sentence dataset.	pt_BR
Aparece nas coleções:	Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TESE Davi Hirafuji Neiva.pdf		14,95 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons