物体検出の話Up用

物体検出（顔、歩行者）の話
株式会社Preferred Infrastructure
阿部厳

自己紹介
 阿部厳（あべたかし）
 Twitter: @tabe2314
 インターン→新入社員
 コンピュータビジョン
2

あらまし
 物体検出の基本的な枠組を紹介
 顔検出手法としてメジャーなViola-Jonesの手法を紹介
 Integral Channel Featuresによる歩行者検出紹介
3

物体検出とは？
 画像中から対象の物体を見つける（位置を特定）
 顔、歩行者、車両……
5
歩行者検出

物体検出どうやる？
 入力画像から決まったサイズの部分領域（ウィンドウ）を切り出し
て、それぞれを二値分類（対象物体であるか否か）
 ウィンドウを入力画像上でスライドさせて対象物体を探す
 いろんなスケールの物体を見つけるためにウィンドウか入力画像を
リサイズして同様の手順を繰り返す
 数万〜数十万回の分類が必要なので高速化のための工夫が必要
 ウィンドウからどんな特徴をとるか、どうやって分類するか
6

Viola-Jonesの物体検出手法
8

Viola-Jonesの物体検出 [Viola04]
 顔検出のエポックメイキングな手法として有名
 OpenCVにもすぐ使える実装有り
 主な構成要素
 Haar-like特徴
 AdaBoostによる特徴選択と学習
 カスケード型分類器による高速化
9
[Viola04] P. Viola and M. Jones. Robust real-time object detection. IJCV, 57(2):137–154, 2004.

Haar-like特徴 (1)
 正負の矩形領域の組み合わせパターン
 あるパターンを、ある位置に適用した
際の出力がひとつの特徴量
 顔を認識する際の手がかりを捉える
 例: 目の周りが暗い
 特徴ひとつひとつの識別力は弱い
 → たくさん組み合わせる
10
正領域輝度値合計–負領域輝度値合計
− ＋ −
http://iplimage.com/blog/haarlike-features-face-detection/
ウィンドウ

Haar-like特徴 (2) 積分画像による高速化
 ナイーブに計算すると矩形領域の面積と同じ回数の加算が必要
 → 積分画像による高速化
 積分画像S: 画素値S(x, y)が元画像の矩形領域(0, 0)-(x, y)の画素値合
計となる画像
 事前計算しておくと任意の矩形領域内の合計を数回の加減算で計算
可能（下図）
11

AdaBoostによる特徴選択 (1)
 Haar-like特徴の候補は膨大
 ウィンドウのどこに、どのパターンを、どのスケールで適用するか
 顔かどうかを判断する手がかりになる特徴を選んで組み合わせたい
 → AdaBoost (with 決定株)で特徴選択
 決定株: 特徴1つを閾値処理して0/1分類
 AdaBoost
 Input: 正例（顔画像）と負例（非顔画像）
 基本的な考え:
 正しく分類できるHaar-like特徴（と決定株の閾値）を反復的に選ぶ
 反復の過程でサンプルに重み付けを行い、これまで選択した特徴で
間違うサンプルを正しく分類できる特徴が選択される
 選ばれた特徴の組み合わせで分類
12

AdaBoostによる特徴選択 (2)
 アルゴリズム詳しく (http://en.wikipedia.org/wiki/AdaBoost)
13

カスケード型分類器による高速化
 大抵の画像は全然顔っぽくない
 → 少数の特徴で顔じゃないとわかるはず → カスケード型分類器
 一列に分類器がつながったもの
 はじめは少数の特徴で、後半はたくさんの特徴で複雑な分類
 Negativeと分類された時点でReject（非顔とみなす）
14[Viola04]より

VJまとめ
 Haar-like特徴で濃淡のパターンをみる
 AdaBoostで特徴選択
 積分画像とカスケード型分類器で高速化
15

Integral Channel Featuresによる歩行者検出
16

歩行者検出についての一般的なこと
 顔検出実用化のメドがたった頃（Viola-Jones）から研究が活発に
 基本的な問題設定は顔検出と同じだけどより難しい問題
 姿勢変化が大きい、オクルージョンがおこりやすい、髪型や服装等
に多様性がある
 よく使われる特徴は、勾配方向のヒストグラム (Histograms of
Oriented Gradients, HoG) [Dalal05]
 網羅的なサーベイ
 http://www.vision.cs.chubu.ac.jp/
04/Tutorial_Survey/TS04.html
 http://vision.ucsd.edu/~pdollar/files/
papers/DollarPAMI12peds.pdf
17
[Dalal05] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
[http://people.seas.harvard.edu/~ely/faceparts/serial.html

Integral Channel Featuresによる歩行者検出 [Dollár09]
 Beyond Viola-Jones, Beyond HoG
 VJを非常にシンプルに拡張した、シンプルだけど強力な手法
 Haar-like特徴 →
 輝度だけでなく入力画像に色々な変換処理をかけて複数チャンネル
画像を生成
 各チャンネル画像に対してHaar-like特徴を単純化したものを計算
 パターンを使わず単純な矩形領域をみる
 特定方向の勾配を計算したチャンネルを加えればHoG同等のことが
できる
 積分画像を使うことは同じ
18
[Dollár09] P. Dollár, Z. Tu, P. Perona, and S. Belongie. Integral channel features. In BMVC, 2009.

画像変換処理
(a)輝度画像 (b)表色系を変換 (c)ガボールフィルタをたたみ込んで特定
方向の勾配画像 (d)DoGフィルタ (e)勾配強度 (f)エッジ検出
(g)直線のフィルタ（ガボールフィルタとほとんど同じ） (h)閾値処理
で二値化
 入力画像を同サイズの画像にマップする変換なら何でも
 対象物体に応じた情報をとれる
19
[Dollár09]より

Integral Channel Featuresによる歩行者検出 (2)
 AdaBoost → 同じ
 どのチャンネルの、ウィンドウのどこに、どんな矩形を適用するか
 深さ２の決定木を使うのが実験的には良い
 カスケード
 カスケード毎に独立に特徴を取っていて非効率
 → Soft cascade [Zhang07]
20
[Zhang07] C. Zhang and P. Viola. Multiple-instance pruning for learning efficient cascade
detectors. In NIPS, 2007.
[Zhang07]より

Integral Channel Featuresによる歩行者検出 (3)
 実験的には勾配方向（6方向）と勾配強度、LUV表色系の各チャン
ネルの計10チャンネルを使うのがよい
 AdaBoostで選択された特徴がどのチャンネルのどの領域をみるも
のが多かったかを可視化
21
[Dollár09]より

高速化: FPDW
 異なるスケールで検出するのが重い
 → [Dollár10] スケールを変換した際の特徴量の変化をシミュレート
すれば実際に画像をスケーリングしなくてもよい
 画像を2倍に拡大したとき → 領域内の値合計は単純に2倍になる
 画像を半分に縮小したとき
 エッジがつぶれるので単純に半分にはならない→実験的に係数をも
とめる
 GPU使えばリアルタイムで検出可能
 ステレオを使って100fpsでる手法も
22
[Dollár10] P. Dollár, S. Belongie, and P. Perona. The fastest pedestrian detector in the west. In BMVC, 2010.

Integral Channel Featuresまとめ
 様々なチャンネル画像に対してVJとほぼ同じ手法を適用する
 高速かつ単純で実装も複雑にならない
 チャンネルの選び方次第で様々な物体に適用できうる
 よい！
23

まとめ
 Viola-Jonesの物体検出手法紹介
 Integral Channel Features紹介
 話さなかったこと
 Non-Maximum Suppression
25

26
画像に対して仕掛けていきたい

物体検出の話Up用

Recommended

More Related Content

What's hot (20)

物体検出の話Up用