오랜만이네요 진짜,, 그동안은 엔지니어링 쪽에 집중하다보니 논문 팔로우를 잘 못했네요
논문 이름 누르면 자세한 정보가 열립니다!
이번 달 내가 관심가지는 논문들 (키노트/랜드마크 급)
VPR-Bench : An Open-Source Visual Place Recognition Evaluation Framework with Quantifiable Viewpoint and Appearance Change.
- [논문 링크](https://scholar.google.com/scholar_url?url=https://intelligent-vehicles.org/wp-content/uploads/2022/03/ZaffarIJCV2021_VPRBench_arxiv_preprint2005.08135_reducedFileSize.pdf&hl=en&sa=X&d=10597095070382889953&ei=wulNYrOWOpaM6rQP7qGk6AM&scisig=AAGBfm32xMzqb8aTdLc2Vtg0qrm3UDwyRA&oi=scholaralrt&hist=g4sYyGIAAAAJ:5738330177508580963:AAGBfm2I641rQOaJZiG_WLLjAD9Nn_HOTw&html=&pos=0&folt=cit)
- 다양한 Visual Place recognition 기술들을 벤치마킹하는 소프트웨어 공개
- 벤치마크 결과:
- 은탄환은 없다.
- 각각의 데이터셋에서 SOTA를 찍은 알고리즘들이 여러개가 있다.
- 모든 VPR 방식들이 perceptually-aliased 환경과 less-structured한 환경에서 잘 작동하지 못한다.
- 모든 VPR 방식들이 viewpoint change에 약하다. 그래도 좌/우로 움직인거는 잘 받아칠 수 있는데, 3D change는 심각하다.
- 특정 방향에서 조명이 오는 경우 난이도가 급격하게 상승한다.
GTP-SLAM: Game-Theoretic Priors for Simultaneous Localization and Mapping in Multi-Agent Scenarios
- [논문 링크](https://arxiv.org/pdf/2203.16690.pdf)
- 기존의 SLAM을 multi-player interaction을 고려하지 않는다.
- 새로 제안하는 방법은 multi-robot 시나리오에서 motion planning을 dynamic game theory로 푸는 방법이 있는데 (i.e. IBR - iterative best responsnse), 이 방식을 SLAM에 넣어서 하나의 player의 시점에서 모든 player들의 dynamic state, control inputs, 그리고 landmark position 까지 joint estimation을 하는 방법을 제안한다.
실내자율주행로봇을위한3차원다층정밀지도구축및 위치 추정 알고리즘
- [논문 링크](https://www.koreascience.or.kr/article/JAKO202209065709448.pdf)
- LiDAR + IMU 센서와 LOAM 기반의 알고리즘을 이용하여 1개 층의 맵을 획득하고, 이것을 반복하여 여러개의 층의 맵을 모은 다음, 맵에서 겹치는 부분들을 global registration해서 다층 맵을 만드는 방법
Supervised semantic segmentation based on deep learning: a survey
- [논문 링크](https://link.springer.com/article/10.1007/s11042-022-12842-y)
- Semantic segmentation 기법들에 대한 survey. 특정 시각으로 바라보며 평가를 수행한다.
- 1. Reduced feature map으로 계산을 해놓고, high-resolution map으로 다시 폈을 때 정확하게 계산해내기를 바랄 수는 없다. 근데 많은 알고리즘들이 이런 방식을 계속 사용한다.
- 2. Target이 multi-scale로 나타날 수 있을 때, 또 background에 무엇이 있냐에 따라서 문제가 어려워질 수 있다.
- 3. Intra-class difference, inter-class similarities 때문에 잘못된 classification이 나타날 수 있다.
SLAM-Supported Self-Training for 6D Object Pose Estimation
- [논문 링크](https://arxiv.org/pdf/2203.04424.pdf)
- John Leonard 교수님 랩실 연구
- 6DOF 딥러닝 pose estimator를 개발할 때, 직접 라벨링한 부정확한 데이터로 하지 말고, SLAM을 돌려 얻은 pose 정보를 사용함으로써 pose estimation network를 fine-tuning할 수 있는 방법을 제안.
MonoDETR: Depth-aware Transformer for Monocular 3D Object Detection
- [논문 링크](https://arxiv.org/pdf/2203.13310.pdf)
- DETR 기반의 monocular 3D detetor이다. Depth supervision도 필요 없고, anchor나 NMS도 사요하지 않는다고 한다.
- Transformer 쪽을 공부하고 한번 봐야겠다.
Tune your Place Recognition: Self-Supervised
Domain Calibration via Robust SLAM
- [논문 링크](https://arxiv.org/pdf/2203.04446.pdf)
- Visual place recognition 모듈들은 보통 학습된 모델에 오버핏하기 마련이라 새로운 환경에서는 (i.e. 새로운 domain) 잘 작동하지 않는다. 그래서 새로운 환경에서는 보통 fine-tuning을 통해 성능을 높혀줘야한다. 이 연구에서는 새로운 환경의 데이터로 fine-tuning을 하는데, 그 때 필요한 pose 데이터를 SLAM으로 뽑아줘서 self-supervised learning을 할 수 있다.
IMOT: General-Purpose, Fast and Robust Estimation for Spatial Perception Problems with Outliers
- [논문 링크](https://arxiv.org/pdf/2204.01324.pdf)
- 범용적인 outlier-rejection 프레임워크이다. 마치 RANSAC 같은 용도로 사용된다고 보면 된다. 저자는 rotation averaging, rotation search, point cloud registration, SLAM 등에 쓸 수 있다고 한다. GNC나 ADAPT와 같은 robust estimator 보다 3-125배 빠르다고 한다 (근데 난 이거 처음 들어보는데...)
- 작동 방식은 간단하다. 모든 데이터에 non-minial estimation을 적용해서 inlier들이 나오면, 그 데이터에 otsu's threshold를 적용한다. 거기서 살아남은 데이터에 한번 더 otsu's threshold를 적용한다. 그제서야 살아남은 데이터들이 '진짜배기 inlier'가 되어, 다음 iteration으로 들어간다. Converge 할 때 까지 iteration을 돌리면 된다.
- 감상: 신박하다 ㅋㅋ
Online panoptic 3D reconstruction as a Linear Assignment Problem
- [논문 링크](https://arxiv.org/pdf/2204.00231.pdf)
- Panoptic image segmentation 결과를 가지고 3D reconstruction을 빠르게 하는 방법을 소개한다. 실시간으로 돌면서, 꽤 큰 환경까지 커버하기 위해 개발되었다.
- 기존의 data association 알고리즘을 개선하는것 만으로도 이게 가능해졌다고 한다.
- [GitHub Page](https://tutvision.github.io/Online-Panoptic-3D/) 쩐다
Leveraging Equivariant Features for Absolute Pose Regression
- [논문 링크](https://arxiv.org/pdf/2204.02163.pdf)
- 저자들은 기존의 CNN은 absolute pose regression과 같이 geomtric 문제를 풀수 있을 정도의 geometric information을 충분히 담지 못한다고 판단하였다.
- 그래서 저자들은 Rotation과 translation 정보를 담는 equivariant CNN을 사용하여 camera motion 정보를 feature space에 직접 담는 방식을 사용한다.
GPS-Denied Global Visual-Inertial Ground Vehicle State Estimation via Image Registration
- [논문 링크](https://www.cs.cmu.edu/~kaess/pub/Litman22icra.pdf)
- Michael Kaess 교수님 랩실 연구
- GPS가 없는 곳에서 위성 이미지를 이용해서 로봇의 위치를 찾는 방법
- Multi-stereo visual inertial odometry (MSVIO)로 local tracking 수행.
- 로봇이 움직이면서 probabilistic occupancy model을 이용하여 synthetic orthographic 이미지 생성. 이후, scan match를 통해서 위성이미지와 비교함으로써 위치 추정. 초기 위치는 GPS로 찾지만, GPS 신호가 끊기는 순간 위 방법을 사용함.
Semantic scan context: a novel semantic-based loop-closure method for LiDAR SLAM
- [논문 링크](https://link.springer.com/article/10.1007/s10514-022-10037-w)
- 아직 scihub 안열림...
- 2-step global ICP와 semantic-based descriptor를 소개한다!
- https://github.com/lilin-hitcrt/SSC
</details>
Multi-Robot Active Mapping via Neural Bipartite Graph Matching
- [논문 링크](https://arxiv.org/pdf/2203.16319.pdf)
- Multi-robot active mapping 문제: 최소한의 시간 안에 multi-robot을 사용하여 맵 스캐닝을 끝내는 최적화 문제
- 효율적이게 문제를 해결하기 위해서는 정확하게 position estimation을 하는 것이 중요하다.
- 기존의 방법은 굉장히 근시안적이라서 time efficiency가 별로거나, 또는 최종 목적지를 direct regression하지만 맵의 구석구석 모두를 스캐닝을 한다는 확신이 없었다.
- 이 논문에서는 NeuralCoMapping이라는 방식을 제안한다. 위 두가지 방식의 장점만을 따왔다.
- 문제를 bipartite graph matching으로 해결한다.
- Multiplex graph neural network (mGNN)으로 만들어 효과적인 graph matching을 한다.
Neural RF SLAM for unsupervised positioning and mapping with channel state information
- [논문 링크](https://arxiv.org/pdf/2203.08264.pdf)
- 퀄컴 형님들의 RF (radio frequency)를 이용한 슬램
- RF 송신기와 수신기들의 정보를 이용해서 실내 위치 추정 및 송수신기 맵핑 가능
Point and Line Feature-based VIO for Mobile Devices
- [논문 링크](https://books.google.co.kr/books?hl=en&lr=lang_en&id=OkdnEAAAQBAJ&oi=fnd&pg=PA284&ots=FVs9WZOL8g&sig=Z7qgL_kOirveleXrJaWVZhVt3Gg&redir_esc=y#v=onepage&q&f=false)
- Sliding window 기반의 point & line VIO 기법. 모바일에서 돌아감! VINS-Mobile을 참고해서 만듬.
Event-driven Feature Detection and Tracking for Visual SLAM (PhD Thesis)
- [논문 링크](https://scholar.google.com/scholar_url?url=https://www.research-collection.ethz.ch/bitstream/handle/20.500.11850/541700/ignacio_alzugaray_doctoral_thesis.pdf%3Fsequence%3D5&hl=en&sa=X&d=9366722190428454140&ei=IbNXYr68JsS4ywTtzb_QDA&scisig=AAGBfm2da5ItASH0gXlYMKWRqpem0LjONA&oi=scholaralrt&hist=g4sYyGIAAAAJ:5738330177508580963:AAGBfm2I641rQOaJZiG_WLLjAD9Nn_HOTw&html=&pos=1&folt=cit)
- Event camera의 고수인 Ignacio Alzugaray의 박사 졸업 논문
- 4 개의 논문 발표
- Asynchronous Corner Detection and Tracking for Event Cameras
in Real-Time
- ACE: An Efficient Asynchronous Corner Tracker for Event Cameras
- Asynchronous Multi-Hypothesis Tracking of Features with Event Cameras
- HASTE: multi-Hypothesis Asynchronous Speeded-up Tracking of Events
Cascaded Keypoint Detection and Description for Object Recognition
- [논문 링크](https://www.researchgate.net/profile/Abdulmalik-Mohammed-2/publication/359733332_Cascaded_Keypoint_Detection_and_Description_for_Object_Recognition/links/624c28b585d141677f41add2/Cascaded-Keypoint-Detection-and-Description-for-Object-Recognition.pdf)
- Upright FAST-Harris Filter and Binary Robust Independent Elementary Feature descriptor를 사용한다 (UFAHB)
NeRFusion: Fusing Radiance Fields for Large-Scale Scene Reconstruction
- [논문 링크](https://arxiv.org/pdf/2203.11283.pdf)
- 기존의 방법들
- NeRF는 reconstruction/rendering 쪽에 엄청 잘되지만, 한 scene을 렌더링하는데에 엄청 오래 걸리고 MLP의 크기에 제한이 걸려서 큰 scene을 렌더링하기 어렵다.
- 그에 비해 3D recon은 이쁘게 안나온다.
- NeRFusion은 NeRF와 TSDF 기반 fusion 방식을 섞어서 효율적인 large-scale reconstruction + photorealistic rendering을 만든다.
- Direct network inference를 통해 per-frame local radiance field를 예측한다.
- 이 정보를 기반으로 새롭게 제안되는 GRU를 (RNN계열) 사용해 global + sparse한 recon을 22FPS로 수행한다.
A Real World Dataset for Multi-view 3D Reconstruction
- [논문 링크](https://arxiv.org/pdf/2203.11397.pdf)
- RGB + Depth 이미지 페어로 371개의 3D 오브젝트 모델 데이터셋을 공개한다.
AutoSDF: Shape Priors for 3D Completion, Reconstruction and Generation
- [논문 링크](https://arxiv.org/pdf/2203.09516.pdf)
- Multimodal 3D task (e.g. shape completion, reconstruction, generation)에 쓸 수 있는 autoregressive prior for 3D shape을 제안한다.
Improving Monocular Visual Odometry Using Learned Depthx
- [논문 링크](https://arxiv.org/pdf/2204.01268.pdf)
- Sparse depth map과 RGB input을 사용해서 Dense mapping을 위한 scale-consistent depth을 만들 수 있다.
- 기존의 Learning-based VO 보다 더 다양한 환경에서 generalization이 잘 되는 것을 볼 수 있다.
- 그리고 기존의 Geometry-based VO의 성능을 더 좋게 만들 수 있다.
A Self-Supervised, Differentiable Kalman Filter for Uncertainty-Aware Visual-Inertial Odometry
- [논문 링크](https://arxiv.org/pdf/2203.07207.pdf)
- VO/VIO의 방식들.
- 기존의 Filter/Optimizaztion 기반의 VIO는 보통 잘 되는 편이지만 조명변화, 급격한 카메라 움직임, 텍스처가 없는 환경에서 잘 작동하지 않는다.
- Learning-based VO/VIO는 이러한 환경에서 기존의 방법보다는 더 잘 작동할 수 있지만, 보통 평균 성능이 더 떨어지는 편이다.
- Hybrid VO/VIO는 위 두가지 방식을 합치는 방식이다.
- 우리가 만든 hybrid VIO를 소개한다.
- Differentiable Kalman filter를 사용한다. IMU 모델과 뉴럴넷을 사용한 relative pose measurement 모델을 사용한다.
- Self-supervised learning을 사용하여 비슷한 방식의 supervised learning 방식보다 더 효율적이다.
- 기존의 filter/optimization 기반의 VIO가 실패하는 부분에서 우리의 hybrid VIO는 잘 된다.
Efficient Large-scale Localization by Global Instance Recognition
- [논문 링크](http://mi.eng.cam.ac.uk/~cipolla/publications/inproceedings/2022-CVPR-large-scale-localisation-global-instances.pdf)
- Large-scale visual localization에서는 hierarchical localization 기법을 많이 사용한다.
- Hierarchical localiazation = Coarse하게 한번, fine하게 한번
- 간단한 환경에서는 잘 되지만, 복잡하고 큰 환경에서는 잘 안되는 편이다.
- 이번 연구에서는 빌딩을 인식하여 coarse localization을 강화하고, fine localization의 성능도 높이는 ㅂ아법을 소개한다.
- 우선, 각가의 빌딩들마다 global ID를 부여하고, pixel-wise recognition이 가능하게 만든다.
- Coarse localization 단계에서 효율적인 reference search 전략을 사용한다. 데이터베이스 전체를 탐색하는 것이 아닌, local map에서 탐색하는 방법이다.
- Fine localization 단계에서는 ID를 이용하여 instance-wise feature detection과 matching을 수행한다. 이를 통해 더욱 robust한 feature correspondence를 구할 수 있다.
Bi-directional Loop Closure for Visual SLAM
- [논문 링크](https://arxiv.org/pdf/2204.01524.pdf)
- 자율주행 상황에서 많은 visual navigation 시스템들이 '아직도' 단방향 loop closure를 사용한다.
- 그러다보니, 데이터베이스에서 모든 방향에 대한 데이터가 쌓이지 않는 이상 + 충분히 오버랩이 있지 않는 이상 잘 작동하지 못한다.
- 이번 연구에서는 쌍방향 loop closure (bi-directional loop closure) 방식을 소개한다.
- 반대방향에서 옴에도 불구하고 loop closure를 성공시켜 효과적으로 drift를 줄이는 방식을 소개한다.
- 또, 큰 데이터셋에서 bi-directional 한 케이스를 골라내게 해주는 데이터 선정 방법도 제안한다.
- 이 데이터를 이용하여 2개의 다른 CNN 네트워크를 학습하여 loop closure를 수행하고 6-DOF camera pose regression도 할 수 있다.
EDPLVO: Efficient Direct Point-Line Visual Odometry
- [논문 링크](https://www.cs.cmu.edu/~kaess/pub/Zhou22icra.pdf)
- Guoquan Huang 교수님, Michael Kaess 교수님 연구.
- 기존의 Line에 direct방식을 적용하는 방식들은 대부분 line 위에 올라가있는 픽셀 값들에 대해 photometric error를 구했다.
- 하지만 이 방식은 사실 point에 대해 적용하는 방식이지, line에 적용하려고 만든 방식이 아니였다.
- 예를 들어, DSO도 이 방식을 사용하는데, 이는 line 위에 올라가있는 픽셀들은 전부 collinear constraint가 적용된다는 점을 완전히 무시하는 것이였다.
- 이전에는 이 문제를 풀려고 [DPLVO](https://ieeexplore.ieee.org/document/9484792)라는 연구를 내놨다. 하지만 제대로 된 optimization이 안되어서 프로그램이 너무 무거웠다.
- 이번 연구에서는 line에 대한 photometric error를 구하는 방법을 추가하여 point+line VO를 제안한다.
- 이미지 위에 line을 그리는 3D points (i.e. 선분의 끝점들)을 inverse depth로 표현하였을 때 closed-form solution을 구할 수 있다는 점을 이용한다.
- 이를 통해 optimization에 필요한 변수를 획기적으로 줄여 속도를 가속하고, 또 collinear constraint도 동시에 적용한다.
- 이에 더불어 optimization을 가속하는 2-step 알고리즘도 제안한다.
IMU Preintegrated Features for Efficient Deep Inertial Odometry
- [논문 링크](https://cms.tinyml.org/wp-content/uploads/talks2022/2007.02929.pdf)
- IMU는 센서의 특징을 모델링하기 어렵고, 노이즈가 심한편인 센서이기 때문에 사용하기가 쉽지 않다.
- 이를 딥러닝으로 풀어내는 deep inertial odometry (end-to-end learning) 기법에 대해 많은 연구가 진행된 적이 있었다.
- 보통 agent의 움직임 패턴을 학습하여 더욱 정확한 odometry를 추정하려고 했는데, 이 방식은 계산량과 메모리 점유율이 높아 low-power / edge application에 쓰기 어렵다는 단점이 있었다.
- 이번 연구는 raw IMU 데이터가 아닌 Preintegrated IMU feature를 사용함으로써 계산량과 메모리 점유율을 획기적으로 줄였다.
- IMU motion model의 매니폴드 구조를 이용하여, 기존의 preintegrated IMU와 같이 수많은 시간의 정보를 단 하나의 값으로 압축하는 결과를 낼 수 있다.
- 이 기법은 리소스가 부족한 microcontroller에서도 사용할 수 있다.
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-
- [논문 링크]()
-