ICRA 2023 - 포스터 (Day 3)
Convolutional Bayesian Kernel Inference for 3D Semantic Mapping
- 3D mapping의 트렌드에는 2가지 방식이 있었다: Probabilistic과 Deep Learning 방식이다.
- Probabilistic 방식은 uncertainty 기반으로 백트랙킹이 가능하지만, 느리고 핸드 튜닝이 필요했다.
- Deep Learning 방식은 빠르게 동작하고 데이터셋에 맞춰서 잘 동작하지만, 동작 방식이 블랙박스였다.
- 이 둘을 합할 수 없을까?
- Probabilistic 방식의 Gaussian process (GP)에서 영감을 얻어, 각각의 semantic class마다 geometric probability distribution을 Deep Learning 방식으로 학습하는 Convolutional bayesian Kernel Inference (ConvBKI) layer를 만든다.
- Semantic point cloud가 있을 때 ConvBKI layer를 통해 geometric uncertainty를 추론하고, 이 값을 기반으로 mapping을 하면 DL 방식의 추론과 Probabilistic 방식의 reconstruction 방식을 둘 다 취할 수 있다는게 이 논문의 contribution이다.
SHINE-Mapping: Large-Scale 3D Mapping using Sparse Hierarchical Implicit Neural Represetations
- 기존의 large-scale 3D mapping 방식은 mapping의 정확도와 memory 사용의 trade-off가 있었다.
- Memory를 적게 쓰면 정확도가 낮아지고, 반대로 정확도를 높이면 memory도 많이 써야했다.
- Octree 구조와 뉴럴네트워크를 함께 사용해서 정확도는 유지하나 메모리 사용량을 획기적으로 낮추는 방법을 제안한다.
- 뉴럴네트워크가 implicit하게 geometric 정보를 담게 될 것이다.
- Octree의 각각의 level마다 node에 대해 1D feature vector를 생성한다. 그리고 이 feature vector를 모두 더해서, 크기가 작은 뉴럴네트워크에 넣었을 때 Signed distance function (SDF)가 나오도록 학습을 한다. 전체 프로세스는 differentiable하기 때문에 backprop을 통해 뉴럴네트워크와 feature octree를 둘 다 최적화 할 수 있다.
- 특정 scene에서 어떤 octree의 형태가 어떤 sdf를 만드는지 추정하는 작은 네트워크만 사용는거다보니, 메모리 사용량은 뉴럴넷의 크기로 한정된다. 즉, scene의 크기는 훨씬 커도 된다는 뜻.
- 내 질문: Scene이 어느정도까지 커도 되나요? Scene이 커지면 뉴럴넷 크기도 커져야하는게 아닐까요?
- 답변: 꽤 작은 뉴럴넷으로도 왠만한 large dataset은 다 될거다. 뉴럴넷의 크기를 키울 필요를 느끼지 못했다.
- 질문 2: 예를 들어서, 중국 전체를 다 스캐닝한 지도가 있다고하면 이게 잘 될까요?
- 답변: (당황) 그러면 아마 뉴럴넷 크기를 키워야할거다.
Inverse Perspective Mapping-Based Neural Occupancy Grid Map for Visual Parking
- 주차 시나리오에서 버드아이뷰를 이용해 occupancy grid map을 만드는 연구 (라이다를 카메라로 대체한다고 보면 됨)
- Inverse projection mapping을 수행해 BEV를 만든 후, 16x16 m 공간에서 나타나는 LiDAR 정보를 같이 모아 학습을 진행한다. 네트워크는 BiSeNet을 백본으로 사용한다. 이 백본은 lane, marker, stop line과 같은 정보를 segmentation하는 multi-task framework로도 사용될 수 있다.
- Local occupancy grid map을 추론한다면, 이는 probabilistic 방식으로 쌓아가면서 global occupancy grid map을 생성할 수 있다.
- 즉, 카메라만을 이용해서 라이다 SLAM의 occupancy grid map을 생성할 수 있다는 것이다.
Cross Modality Time-Variant Relation Learning for Generative Dynamic Scene Graph
- 비디오로부터 dynamic scene graph를 표현하는 기술인 Time-variant Relation-aware TRansformer (TR2)를 소개함.
- Dynamic scene graph는 물체들 사이의 다양한 interaction/action을 소개하는 표현 방법임.
- Kimera와 같은 방법에서 소개하는 dynamic scene graph와는 조금 다름.
- 영상으로부터 text embedding을 추출해서, 해당 text embedding이 시간에 따라 변화하는 것을 감지해 dynamic scene graph를 업데이트 함.
- Action genome이라는 데이터셋에서 실험을 수행함.
3D-VSG: Long-Term Semantic Scene Change Prediction through 3D Variable Scene Graphs
- 3D dynamic scene graph가 존재할 때, 이동할 수 있는 물체가 어떤 것인지 graph neural network로 학습함으로써 ‘이동할 확률’을 prediction하는 내용.
- 이 Dynamic scene graph에서 node는 object class instance이고 edge는 두 물체간의 euclidean distance임.
- 물체를 여러번 옮기면서 매번 scene capture를 통해 데이터를 생성해서 뉴럴넷을 학습함.
- Scene graph는 graph이기 때문에, 분석 용도로 graph neural network를 사용하기 좋다는 점을 보여줌.
The Reflectance Field Map: Mapping Glass and Specular Surfaces in Dynamic Environments
Efficient Bundle Adjustment for Coplanar Points and Lines
- 무려 Guoquan Huang 교수님께서 직접 포스터 발표를 하신 ㄷㄷ,,
Detecting Spatio-Temporal Relations by Combining a Semantic Map with a Stream Processing Engine
Feature-Realistic Neural Fusion for Real-Time, Open Set Scene Understanding
- 엄청나게 큰 데이터셋에서 pre-trained된 feature detector (e.g. EfficientNet, DINO)와 같은 feature map들을 NeRF를 통해서 3D fusion을 하면 어떨까?
- color 값이 아닌, feature 값을 가진 neural implicit feature-field가 생성될 것이다.
- 이 feature field는 segmentation과 같은 downstream task를 하기에 아주 적합한 구조를 가졌다.
- Human interaction (e.g. 클릭 한번)을 통해 새로운 sub-class를 생성하고 곧바로 실시간으로 scene에서 모든 feature에 해당 class를 부여하여 open-set interactive labelling을 할 수 있다.
SceneCalib: Automatic Targetless Calibration of Cameras and LiDARs in Autonomous Driving
Mask3D: Mask Transformer for 3D Instance Segmentation