ICRA 2023 - 포스터 (Day 4)

Posted on 2023-06-02 Edited on 2023-06-16 In 1. Spatial AI , 1.1 SLAM , 학회 발표 리뷰 Views:

Energy-Based Models for Cross-Modal Localization using Covolutional Transformers

SAMLoc: Structure-Aware Constraints With Multi-Trask Distillation for Long-Term Visual Localization

Paul Eduard Sarlin의 HLoc (Hierarchical Localization) 방식을 teacher-student 방식으로 distillation해서 훨씬 더 가벼운 visual localization 방식을 만들었다.
- 이 때, global structure-aware constraint와 local structure-aware constraint를 추출해서 학습에 사용함으로써 안정성을 추구했다.

Implicit Map Representation and Localization with Invertible Neural Network

LiDAR Mapping과 Localization을 둘 다 할 수 있는 뉴럴네트워크를 만듬.
- 특이한 점이라면, Invertible neural network를 사용했다는 점.
  - Invertible neural network는 양방향으로 사용할 수 있는 네트워크를 의미함. 즉, 네트워크를 정방향으로 쓸 때의 input과 output은, 역방향으로 사용할 때는 output과 input이 된다는 점.
  - 이 논문에서는 정방향 사용 시 Pose를 input으로 사용하면 LiDAR scan이 output으로 나오고 (i.e. Mapping), 역방향 사용 시 LiDAR scan이 input이 되고 Pose가 output이 된다 (i.e. Localization).
어떤 scene에 대해서 이 invertible neural network 를 학습하면 다음과 같은 방법으로 사용할 수 있다.
- Pose가 주어졌을 때, 주변은 어떻게 생길 것인가? (이 때, pose는 실제로 취득한 데이터가 아닌 novel pose도 가능하다 -> LiDAR novel view synthesis)
- Scan이 주어졌을 때, 로봇은 어디에 위치해있을까? (이 때, pose에 대한 값은 확률적으로 나타난다. 그렇기 때문에 LiDAR로 헷갈리기 쉬운 scene에서도 여러 확률의 값이 나타나게 된다. 확률값이 주어진다면 추후 보정을 하기에 아주 유용하다는 얘기다.)
이를 통해 꽤 큰 공간에서도 큰 용량의 point cloud map 파일을 저장하고 있을 필요가 없다. 뉴럴넷 weight만 저장하고 있으면 된다.
뉴럴넷 자체도 상당히 가벼운 편이라 Jetson NX에서도 270Hz로 돌아간다.
ROS2 코드도 준비되어있다.

Combining Scene Coordinate Regression and Absolute Pose Regression for Visual Localization

A Graph-Based Optimization Framework for Hand-Eye Calibration for Multi-Camera Setups

다수의 카메라가 벽에 설치되어있고, 로봇의 위치를 알아내기 위한 hand-eye calibration을 할 때, 문제 자체를 factor graph로 표현한 후 캘리브레이션을 하는 방법을 소개한다.
단순히 다중 카메라간의 extrinsic calib을 수행한 후, 각각의 카메라에서 mono_view -> robot hand-eye calib을 하는 것보다 훨씬 정확하다.

Online Hand-Eye Calibration with Decoupling by 3D Textureless Object Tracking

Open-vocabulary Queryable Scene Representations or Real World Planning

Everyday robots와 Robotics at Google에서 진행한 연구.
Open vocabulary와 CLIP을 함께 사용함으로써 object에 대한 novel prompt를 생성한 후, 각각 물체에 대한 task를 만들어내는 연구이다.

Energy-Based Models for Cross-Modal Localization using Covolutional Transformers

SAMLoc: Structure-Aware Constraints With Multi-Trask Distillation for Long-Term Visual Localization

Implicit Map Representation and Localization with Invertible Neural Network

Combining Scene Coordinate Regression and Absolute Pose Regression for Visual Localization

A Graph-Based Optimization Framework for Hand-Eye Calibration for Multi-Camera Setups

Online Hand-Eye Calibration with Decoupling by 3D Textureless Object Tracking

Open-vocabulary Queryable Scene Representations or Real World Planning