Dynamic translation between sign languages : a deep learning approach

NEIVA, Davi Hirafuji

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/49415

Compartilhe esta página

Título:	Dynamic translation between sign languages : a deep learning approach
Autor(es):	NEIVA, Davi Hirafuji
Palavras-chave:	Inteligência computacional; Aprendizagem profunda; Redes neurais
Data do documento:	11-Mar-2022
Editor:	Universidade Federal de Pernambuco
Citação:	NEIVA, Davi Hirafuji. Dynamic translation between sign languages: a deep learning approach. 2022. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.
Abstract:	Língua de sinais são usadas por pessoas surdas ao redor do mundo para se comunicar com outras pessoas surdas. Ao usar movimentos do corpo, especificamente as mãos, uma pessoa surda consegue se expressar. Contudo, língua de sinais não são universais o que significa que uma pessoa surda americana pode não conseguir se comunicar apropriadamente com uma pessoa surda brasileira. Soluções baseadas em software usam algorítmos de aprendizagem de máquina para reconhecer os sinais em uma língua de sinais e tranduzir uma língua falada ou escrita para uma língua de sinais, mas até a escrita desta tese, não identificamos nenhum trabalho que tenha proposto uma tradução entre língua de sinais. Para isto, nós propomos uma aplicação móvel integrada a um servidor que utiliza a sua câmera para capturar vídeos de uma língua de sinais, enviar este vídeo para um servidor e mostrar sua tradução em outra língua de sinais. Nós usamos uma combinação do estado-da-arte em aprendizado profundo como Mask-RCNN, CNN e Transformers para realizar as tarefas de remoção de plano de fundo, extração de características, reconhecimento e tradução de sinais. Também propomos uma base de dados composta somente de palavras para reconhecer sentenças em língua de sinais. Além disso, nós propomos uma página web para hospedar diferentes língua de sinais para visualizar sinais individualmente ou em sentenças e criar máscaras customizadas das mãos. Utilizando dois datasets públicos (PHOENIX14-T, uma base alemã de língua de sinais e V-Librasil, uma base brasileira), nossa proposta melhorou a taxa de erro de palavra (WER) em 4% na base alemã enquanto que na V-Librasil nós atingimos um WER de 21.7% e 5% para palavras e sentenças utilizando nossa base de palavras.
URI:	https://repositorio.ufpe.br/handle/123456789/49415
Aparece nas coleções:	Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TESE Davi Hirafuji Neiva.pdf		14.95 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons