Multi-view 3D Reconstruction with Transformer

less than 1 minute read

Published: April 02, 2021

3D reconstruction as a seq2seq prediction

image -> pretrained CNN -> feature -> transformer -> 3D QK, 3D V from learnable 3D volumee -> 3D transformer -> 3D volumes, grouped to a single 3D output
30% parmeters than CNN

Human Object Interaction

2 minute read

Published: June 18, 2022

3 minute read

Published: September 24, 2021

5 minute read

Published: September 22, 2021

2 minute read

Published: September 21, 2021