PReMVOS: Proposal-generation, Refinement and Merging for Video Object Segmentation

Jonathon Luiten et al., ACCV, 2018


191018-premvos-fig1

Approach

  1. coarse object proposal 생성: object detection network로 물체가 있을만한 곳을 추려낸다.
  2. predict accurate masks: cropped, resized bounding box를 이용한다.
  3. proposal merging algorithm: video 시간축으로 더욱 안정된 결과를 얻도록 디자인한다. 먼저 프레임마다 각자 proposal을 만들고 각 프레임의 proposal끼리 연결시킨다. 이때 다섯 개의 스코어(ReID, Optical flow 등)를 적절히 조합하여 사용한다.

여기서 주목할 것은, 다른 방법들 처럼 이를 위해 이전 프레임의 mask를 optical flow로 warp해서 현재 프레임 마스크를 직접적으로 생성하는 것이 아니라 단순히 하나의 key로만 사용했다는 점이다.

1. Image Augmentation

191018-premvos-luciddatadreaming

2. Proposal generation

3. Proposal refinement

191022-table-3

4. Mask Propagation using Optical Flow

5. ReID Embedding Vector

6. Proposal Merging

191018-premvos-fig2

1) Objectness score

2) ReID score

where $r(\cdot)$:ReID network, $||\cdot||$: L2 norm, $f_j$: bounding box of j-th GT object in 1st frame.

3) Mask Propagation score

4) Inverse ReID score

5) Inverse Mask Propagation score

=> All five scores are combined together by

where $\sum_q\alpha_q=1$ and all $\alpha_q \geq0$.

191022-table4 각 score에 대한 ablation study. Oracle Merging 은 평가하기 위한 지표로써, algorithm이 가장 잘 찾았을 때 merging performance의 상한선이다. bold 는 best, italic 은 worst 결과이다.

Experiments and Results

본 실험 결과는 직접 코드를 돌려서 구한 출력입니다.

Ground Truth

OSVOS, 2017 CVPR

PReMVOS, 2018 ACCV

RGMP, 2018 CVPR

실험 결과를 보면, OSVOS에 비해 multi-object proposal이 가능하다는 점, 사람 mask가 temporal consistency를 더욱 잘 보존한다는 점이 특징이다. 특히 자전거가 회전하면서 형태 변화가 매우 심한데, 이를 굉장히 잘 catch하는 모습을 볼 수 있다. 이는 저자가 디자인한 loss의 강점이라고 보여진다. 먼저 object가 있을 만한 곳을 제안하고, 이를 이전의 mask proposal등으로 연결시키는 방법의 강점은 물체의 appearance 변화가 크더라도 연속적인 움직임을 잘 캐치할 수 있다는 장점이 있다. 하지만 같은 시기에 나온 RGMP에 비해서는 자전거의 temporal consistency는 다소 떨어지는 모습을 볼 수 있다.

191022-premvos-table2

Runtime evaluation

191022-runtime-evl

Conclusion

장점: 물체를 잘 추적하고 Multi-object에 강인한 성능을 보인다. 한계: Computational cost가 너무 비싸다. 프레임 하나에 약 37초나 걸린다.

Comments

Eungbean Lee's Picture

About Eungbean Lee

Lee is a Student, Programmer, Engineer, Designer and a DJ

Seoul, South Korea https://eungbean.github.io