0. Brief

在以往都是傳統方法(SIFT、ORB)來做特徵點偵測與匹配的時代,這篇 L2-Net 成為了 Deep Learning 時代的開山之作,從現在的角度來看這篇論文會覺得裡面每一個模組的設計都很合理,且也蠻簡潔的。

1. Introduction

這篇論文主要想要解決的是,在給定一張圖片 patch (32*32)當作輸入後,輸出一個描述該 patch 的 descriptor (128 維)。當然可以想像說在同一個場景下,同一個 3D 點在不同角度中所拍攝的兩張 patch 的 descriptor 要盡量越接近越好,這也是後面設計 loss 的主要想法。

2. Methodology

這篇論文可以主要拆成好幾個模組來討論,包含如何抽樣資料集(因為 dataset 中的正樣本可能遠遠少於負樣本)、模型的架構設計、以及 loss 設計

2.1 Central-surround (CS design)

2.2 Progressive Sampling of Training Data

2.3 Loss design

3. Experiment

3.1 Setting

Brown Dataset

實驗設定遵循 [3] 使用 100000 組 pair 當作測試資料集(正負樣本各一半),輸入兩張 patch 後計算兩個 descriptor 間的距離,接著在不同的距離設 threshold 畫出 ROC 圖,比較最終的 FPR @0.95 recall。

alt text

Terminology 正負樣本: 正樣本指的是描述同一個 3D point 的兩個 patch,負樣本指的就是所有樣本-正樣本的集合。

References 1 SIFT 2 ORB 3 M. Brown, G. Hua and S.A.G. Winder. Discriminative learning of local image descriptors. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010. 1, 2, 3, 5