ICRA 2023 - Pretraining in robotics 워크샵 (Day 1)

Pretraining in Robotics

Brown 대학에서 박사과정 중인 Ifrah Idrees의 Building Long-term Spatial Temporal Semantic Map 스포트라이트 토크를 보았다.

기본적인 SLAM 알고리즘을 기반으로 지도를 만들면서 object detection을 수행할 때, 해당 지도에 특정 object에 대해 누적된 view를 저장해준다는 아이디어이다.

어떤 물체에 대해 object detection을 성공했을 때, temporal window 내부에 정보를 저장하고 비슷한 정보끼리 clustering 함으로써 물체를 바라보고 있을 때의 view를 모을 수 있다.

어떤 물체가 어디에 있는지 query를 할 수 있는데, 이는 CLIP 기반 visual language model을 사용해서 language 기반 쿼리를 통해 지도에서 어디에 object view에 대한 temporal window가 존재하는지 찾아낼 수 있다.