2021년 9월 SLAM 뉴스

Posted on 2021-09-10 Edited on 2026-03-05 In 1. Spatial AI , 1.1 SLAM , 월간 SLAM 뉴스 Views:

논문 이름 누르면 자세한 정보가 열립니다!

이번 달 내가 관심가지는 논문들 (키노트/랜드마크 급)

DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes

- NAVER LABS 연구 - [논문 링크](https://arxiv.org/pdf/2108.05615.pdf) - 사람들이 많이 돌아다니는 환경에서도 정확하게 depth를 추정할 수 있는 네트워크를 제안 - 3D reconstruction으로 미리 생성해둔 3D 모델로부터 추출한 sparse depth map과 RGB 이미지를 사용

A Comprehensive Review of Coverage Path Planning in Robotics Using Classical and Heuristic Algorithms

- [논문 링크](https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9523743) - Coverage path planning에 대한 서베이 논문 - Classical -> Heuristic -> DL 방법까지!

The Hilti SLAM Challenge Dataset

- [논문 링크](https://arxiv.org/pdf/2109.11316.pdf) - 짱짱맨 데이터셋은 언제나 환영합니다~~~~ - IROS 2021의 SLAM 워크샵 챌린지 데이터셋입니다

그 외

A stereo matching algorithm based on the improved PSMNet

- [논문 링크](https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0251657) - 기존의 PSMNet (Pyramid Stereo Matching Network)를 개선해서 weak texture가 있는 곳에서도 잘 작동하게 만들었다. - ResNeXt를 사용해서 feature를 뽑고, ASPP (Atrous Spatial Pyramid Pooling)을 사용해서 multiscale spatial feature 정보를 뽑는다. - Feature fusion 모델을 사용해서 여러 스케일의 feature 정보를 퓨전하고 matching cost volume을 생성한다. - Stacked encoding / decoding 구조를 사용하는 개선된 3D CNN를 통해 다양한 parallax 환경에서도 correspondence를 찾는다. - 마지막으로, regression을 통해 disparity map을 생성한다.

Category-Level 6D Object Pose Estimation via Cascaded Relation and Recurrent Reconstruction Networks

- [논문 링크](https://arxiv.org/pdf/2108.08755.pdf) - Cascaded relation 네트워크와 recurrent reconstruction 네트워크를 사용해서 정확한 category-level 6D pose estimation을 한다. - Cascaded relation 네트워크는 RGB 이미지 <-> 3D point cloud <-> 카테고리의 shape prior를 학습한다. - Recurrent reconstruction 네트워크는 coarse-to-fne 방식으로 correspondence를 추정하고, 이후 iterative하게 reconstruction을 수행하는 네트워크이다. - 6D pose는 추정된 3D point cloud와 reconstruction된 3D model의 dense correspondence를 구함으로써 추정할 수 있다. - [코드 링크](https://wangjiaze.cn/projects/6DPoseEstimation.html)

Semantic Reinforced Attention Learning for Visual Place Recognition

- [논문 링크](https://arxiv.org/pdf/2108.08443.pdf) - Place recognition을 할 때 모든 픽셀의 정보가 중요한 것은 아니다. - 중요한 semantic 정보를 추출하는 Semantic reinforced attention learning network (SRALNet)을 제안한다. - Semantic prior를 이용해서 local attention에 weight를 더 줄 수 있다.

A Hybrid Sparse-Dense Monocular SLAM System for Autonomous Driving

- [논문 링크](https://arxiv.org/pdf/2108.07736.pdf) - UnRectDepthNet을 사용해서 dense depth map을 추론 - ORB-SLAM2 프레임워크를 사용해서 Feature extraction + RGBD Camera tracking + Keyframe 추출 - 추정된 모션 정보를 기반으로 dense surfel map 생성 - RGB-D pose refinement 수행 (Joint photometric + geometric alignment) - 추정된 모션 정보를 기반으로 dense surfel map 생성 - Joint photometric + geometric alignment (synthetic + live RGB-D 이미지) - Loop closure는 surface-to-surface constraint를 사용해서 deformation graph 생성 후 최적화

Is Pseudo-Lidar needed for Monocular 3D Object detection?

- [논문 링크](https://arxiv.org/pdf/2108.06417.pdf) - DD3D라는 End-to-end single stage monocular 3D object detector를 제안함. - Pseudo-LiDAR와 같은 기법을 통해 depth pre-training을 정보를 얻어낼 수 있음

A Benchmark Comparison of Visual Place Recognition Techniques for Resource-Constrained Embedded Platforms

- [논문 링크](https://arxiv.org/pdf/2109.11002.pdf) - 최신 Visual Place Recognition 기법들을 임베디드->데탑 보드까지 컴퓨팅 파워/메모리 순서대로 돌려보면서 성능을 비교한 논문 - 비교한 보드들은 라즈베리파이3 (ARM), ODROID (ARM), UP (x86_64 아키텍처), 노트북 (하이엔드 노트북), 데스크탑 - 비교한 기술들은 HOG, CoHOG, HybridNet, CALC, RegionVLAD - 전반적인 트렌드: 임베디드 보드의 정확도와 데스크탑의 정확도는 그렇게 크게 차이나지 않았다 - 좋은 보드: 라즈베리파이 3 (UP, ODROID와 비교해서) - 파워를 제일 적게 먹고, 정확도도 데탑과 비슷, 속도도 괜찮은 편 - 임베디드 보드 트렌드: descriptor size 때문에 메모리를 많이 먹는건 어쩔 수 없음... swap space를 추가하기 전까지는 성능이 안나옴 - 알고리즘 트렌드: 파이와 ODROID에서는 CALC가 제일 전력을 많이 소비하고 RegionVLAD가 제일 적게 소비함. UP에서는 CoHOG가 전력을 제일 많이 소비하는데 아무래도 x86_64 아키텍처에서는 모든 코어를 다 돌리느라 그런 듯. - 저자의 의견: 여러 플랫폼에 올라가는 SDK를 만들 때에는 사용하는 하드웨어에 적절한 알고리즘을 고를 수 있는 로직을 넣어두는게 좋을 것 같다. 새로운 보드가 나올 때에는 RAM의 크기가 커졌는지 보는게 리얼타임을 구현하는데에 중요할 것이다 (라즈베리파이4가 그런면에서 굉장히 좋다).

RGB-D DSO: Direct Sparse Odometry with RGB-D Cameras for Indoor Scenes

- [논문 링크](https://ieeexplore.ieee.org/abstract/document/9546534) - 기존의 DSO 모듈에 RGB-D 카메라로부터 얻은 depth 값을 이용해서 occlusion removal과 depth refinement를 추가해서 성능을 더 높인 논문 - Occlusion removal을 함으로써 energy function 최적화 할 때 생길 수 있는 문제를 회피함 - Depth refinement를 함으로써 keyframe에 골고루 depth 값이 분포할 수 있도록 함 - Monocular에서는 불안정하게 얻는 depth 값을 그냥 센서 값으로 대체함으로써 훨씬 안정적으로 만든 것 (조금 뻔한?)

Semantic Segmentation in the Task of Long-Term Visual Localization

- [논문 링크](https://link.springer.com/chapter/10.1007/978-3-030-87725-5_3) - [Hierarchical Localization (hloc)](https://github.com/cvg/Hierarchical-Localization) 을 실행할 때 fine-tuning으로 성능이 더 올라갈 수 있는 것을 확인 - 그리고, 이미지 속 어떤 부분이 localization에 전혀 도움이 안되는 부분인지 semantic segmentation 학습을 통해 분석 가능 (데이터셋 분석용으로 좋을듯?)

Infrastructure Node-based Vehicle Localization for Autonomous Driving

- [논문 링크](https://arxiv.org/pdf/2109.10457.pdf)

- [논문 링크]()