Domain adaptation using randomized knowledge for monocular 6DoF pose estimation

CUNHA, Kelvin Batista da

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/58501

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	TEICHRIEB, Veronica	-
dc.contributor.author	CUNHA, Kelvin Batista da	-
dc.date.accessioned	2024-11-05T16:43:31Z	-
dc.date.available	2024-11-05T16:43:31Z	-
dc.date.issued	2024-06-06	-
dc.identifier.citation	CUNHA, Kelvin Batista da. Domain adaptation using randomized knowledge for monocular 6DoF pose estimation. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2024.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/58501	-
dc.description.abstract	The 6DoF (six-degrees-of-freedom) pose of rigid objects is pivotal in solving various tasks within computer vision, facilitating seamless interaction between physical and virtual elements. Recent advancements in vision-based pose estimation, particularly through deep learning (DL), have significantly enhanced accuracy. DL models are adept at extracting intricate scene de- tails, empowering them to discern and adapt to diverse scenarios with efficiency. Still, DL methodologies demonstrate exceptional versatility, capable of assimilating various input types. Noteworthy is their ability to distill object features exclusively from RGB data, fitting mod- els that exhibit real-time performance across a spectrum of devices. This capability not only streamlines computational requirements but also broadens the applicability of such models in real-world settings. However, DL often requires extensive datasets tailored to specific tar- get distributions. Acquiring, annotating, and maintaining such datasets is not only costly and time-consuming but also susceptible to inaccuracies, failing to fully encapsulate the application domain. Our initial studies analyzed the impact of distribution shifts on 6DoF pose estimation, revealing models’ reliance on training data and their susceptibility to real-world challenges (i.e., generalization on test set). Variations rarely encountered during training, such as changes in object appearance (e.g., size, color, geometry), environmental conditions (e.g., illumination, motion speed, occlusion), and camera hardware (i.e., when the model is trained with one camera but tested with a different one), can drastically affect model accuracy. To address this challenge, we propose a pipeline that generates a diverse array of synthetic sequences using CAD models of objects. By randomizing scene elements in each frame, even if conditions ap- pear incoherent or surrealistic, we can train supervised models using simulated data, thereby reducing the dependency on labeled real data and enabling adaptation to continuous trans- formations in the target distribution. Furthermore, we extended our pipeline by introducing a novel strategy based on a photo-realistic randomized synthetic generation to mitigate target domain variations within monocular deep 6DoF pose estimation while preserving source fea- tures to reduce the domain gap. Leveraging a combination of NeRF (Neural Radiance Fields) reconstruction and domain randomization techniques, our approach demonstrates the feasibil- ity of achieving accurate pose estimation models with reduced reliance on real data. Finally, we propose a CAD-free 6DoF pose estimation pipeline using randomized frames for object tracking, seamlessly integrating object detection and optical flow. As an additional contribu- tion, we propose C3PO, a cross-device dataset organized for each device according to different challenges in pose estimation. The dataset includes more than 100000 full RGB images with pose annotations for three 3D printed objects and three different cameras, addressing issues such as occlusion, illumination changes, motion blur, color variation, and scale variation. Using C3PO, we can assess the method’s performance in the face of different isolated challenges to analyze the impact of randomized data in each variation. Comprehensive experiments against state-of-the-art methods on publicly available datasets, including linemod, linemod-Occlusion, C3PO, and HomebrewedDB, indicate the validity of our approach. Emphasizing the impact of randomization in addressing challenges associated with domain variations, such as changes in environmental lighting, motion blur, and object occlusion, underscores the significance of our contributions.	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Estimação de pose	pt_BR
dc.subject	Detecção de objetos	pt_BR
dc.subject	Randomização de domínio	pt_BR
dc.title	Domain adaptation using randomized knowledge for monocular 6DoF pose estimation	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.advisor-co	SIMÕES, Francisco Paulo Magalhães	-
dc.contributor.authorLattes	http://lattes.cnpq.br/6273055129358941	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3355338790654065	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	A pose 6DoF (seis graus de liberdade) de objetos rígidos é fundamental para resolver várias tarefas na visão computacional, facilitando a interação entre elementos físicos e virtuais. Recentes avanços em visão computacional, particularmente através de aprendizado profundo (DL), aumentaram significativamente a precisão das técnicas de estimação de pose. Modelos de DL são capazes de extrair detalhes intrinsecos da cena, capacitando-os a discernir e se adaptar a diversos cenários com eficiência. Além disso, as metodologias de DL demonstram versatilidade excepcional, sendo capazes de assimilar vários tipos de entrada. Ainda, é notável a capacidade deestes métodos em extrair características de objetos exclusivamente a partir de dados RGB, ajustando modelos que apresentam desempenho em tempo real em uma var- iedade de dispositivos. Essa capacidade não só simplifica os requisitos computacionais, mas também amplia a aplicabilidade desses modelos em configurações do mundo real. No entanto, algoritmos de DL muitas vezes requerem grandes bases de dados, adaptadas a distribuições específicas. Adquirir, anotar e manter tais bases não é apenas caro e demorado, mas também suscetível a imprecisões, falhando em encapsular completamente o domínio de aplicação. Nos- sos estudos iniciais analisaram o impacto das mudanças de distribuição dos dados na estimativa de pose 6DoF, revelando a dependência dos modelos aos dados de treinamento e sua suscep- tibilidade aos desafios do mundo real (ou seja, generalização no conjunto de teste). Variações raramente encontradas durante o treinamento, como mudanças na aparência do objeto (por exemplo, tamanho, cor, geometria), condições do ambiente (por exemplo, iluminação, veloci- dade de movimento, oclusão) e hardware da câmera (ou seja, quando o modelo é treinado com uma câmera, mas testado com outra), podem afetar drasticamente a precisão do modelo. Para enfrentar esse desafio, propomos uma pipeline que gera uma variedade diversificada de sequências sintéticas usando modelos CAD de objetos. Ao randomizar elementos da cena em cada quadro, mesmo que as condições pareçam incoerentes ou surrealistas, podemos treinar modelos supervisionados usando dados simulados, reduzindo assim a dependência de dados reais rotulados e permitindo adaptação a transformações contínuas. Além disso, estendemos nossa pipeline introduzindo uma nova estratégia baseada em geração sintética randomizada foto-realista para mitigar variações de domínio na estimativa de pose monocular 6DoF, en- quanto são preservadas características originais da cena para reduzir a lacuna entre o domínio real e simulado. Aproveitando uma combinação de técnicas de reconstrução NeRF (Neural Radiance Fields) e randomização de domínio, nossa abordagem demonstra a viabilidade de alcançar modelos precisos de estimativa de pose com menor dependência de dados reais. Fi- nalmente, propomos uma pipeline de estimativa de pose 6DoF sem CAD usando imagens randomizadas para rastreamento de objetos. Como contribuição adicional, propomos o C3PO, uma base de dados cross-device organizada para diferentes dispositivos de acordo com difer- entes desafios da estimativa de pose. O conjunto de dados inclui mais de 100000 imagens RGB completas com anotações de pose para três objetos impressos em 3D e três câmeras difer- entes, abordando questões como oclusão, mudanças de iluminação, desfoque de movimento, variação de cor e variação de escala. Usando o C3PO, podemos avaliar o desempenho do método diante de diferentes desafios para analisar o impacto dos dados randomizados. Exper- imentos comparativos com o estado-da-arte em conjuntos de dados publicamente disponíveis, incluindo linemod, linemod-Occlusion, C3PO e HomebrewedDB, indicam a validade de nossa abordagem. Destacamos a importância de nossas contribuições enfatizando o impacto da ran- domização nos desafios associados a variações de domínio, como mudanças na iluminação, desfoque de movimento e oclusão de objetos.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/4321649532287831	pt_BR
Aparece nas coleções:	Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
TESE Kelvin Batista Da Cunha.pdf		13,72 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons