Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/49415
Compartilhe esta página
Título: | Dynamic translation between sign languages : a deep learning approach |
Autor(es): | NEIVA, Davi Hirafuji |
Palavras-chave: | Inteligência computacional; Aprendizagem profunda; Redes neurais |
Data do documento: | 11-Mar-2022 |
Editor: | Universidade Federal de Pernambuco |
Citação: | NEIVA, Davi Hirafuji. Dynamic translation between sign languages: a deep learning approach. 2022. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022. |
Abstract: | Língua de sinais são usadas por pessoas surdas ao redor do mundo para se comunicar com outras pessoas surdas. Ao usar movimentos do corpo, especificamente as mãos, uma pessoa surda consegue se expressar. Contudo, língua de sinais não são universais o que significa que uma pessoa surda americana pode não conseguir se comunicar apropriadamente com uma pessoa surda brasileira. Soluções baseadas em software usam algorítmos de aprendizagem de máquina para reconhecer os sinais em uma língua de sinais e tranduzir uma língua falada ou escrita para uma língua de sinais, mas até a escrita desta tese, não identificamos nenhum trabalho que tenha proposto uma tradução entre língua de sinais. Para isto, nós propomos uma aplicação móvel integrada a um servidor que utiliza a sua câmera para capturar vídeos de uma língua de sinais, enviar este vídeo para um servidor e mostrar sua tradução em outra língua de sinais. Nós usamos uma combinação do estado-da-arte em aprendizado profundo como Mask-RCNN, CNN e Transformers para realizar as tarefas de remoção de plano de fundo, extração de características, reconhecimento e tradução de sinais. Também propomos uma base de dados composta somente de palavras para reconhecer sentenças em língua de sinais. Além disso, nós propomos uma página web para hospedar diferentes língua de sinais para visualizar sinais individualmente ou em sentenças e criar máscaras customizadas das mãos. Utilizando dois datasets públicos (PHOENIX14-T, uma base alemã de língua de sinais e V-Librasil, uma base brasileira), nossa proposta melhorou a taxa de erro de palavra (WER) em 4% na base alemã enquanto que na V-Librasil nós atingimos um WER de 21.7% e 5% para palavras e sentenças utilizando nossa base de palavras. |
URI: | https://repositorio.ufpe.br/handle/123456789/49415 |
Aparece nas coleções: | Teses de Doutorado - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TESE Davi Hirafuji Neiva.pdf | 14,95 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons