[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
SlideShare a Scribd company logo
ネット広告で機械学習
Hivemallの活用例
2015/05/12(火)19:00
第一回Hivemall Meetup
アジェンダ
• 自己紹介
• FreakOut
• 分析チームの紹介
• 機械学習 – Hivemallの活用例
自己紹介
• 佐野正和(さのまさかず, @Masa_S3)
• FreakOutのデータマイニングエンジニア
• 5年くらいネット広告分野で分析業務を担当
• バックグラウンドは素粒子物理学
• FreakOut
FreakOut
• ネット広告の会社です。
• 広告入札システムを提供しています。
ネット広告売買の世界:Real Time Bidding(RTB)
• SSP(Supply-Side Platform)がimpressionのオークションを仕切って、
それに複数のDSP(Demand-Side Platform )がセリに参加するイメー
ジ。
DSP1
DSP2
DSP3
SSP
いくらで
配信す
るの?
¥10
¥30
¥20
DSP2を配信
ユーザID, 広告サイズ等
を開示
6
DSP (Demand-Side Platform)とは
7
これまで 現在
広告枠
広告主
広告枠
メディア
ユーザ
広告枠
?
広告主のロジックでの買い付けが可能に
ネット広告のパラダイムシフト
取引対象が、「広告枠」から「人」へ変化
手売りでの
広告販売
RTBによる
自動買い付け
広告枠
50ms or die.
フリークアウトのTechチームが掲げるミッション。
月間2200億のリクエスト、
その1つ1つに対して50msでレスポンスを返さないと、
事業そのものが成り立たない
50msでやっていること
広告主側のロジックで、
必要な枠、必要な人、必要な瞬間だけ
をリアルタイムに判定して入札
↓
入札ロジックの洗練が利益に直
結
分析チームの紹介
分析チームの紹介
• 5名+3名アルバイト(現時点)
• FreakOutとM.T.Burn(スマホ向けアドネットワーク)の
プロダクト改善
• 広告配信アルゴリズム改善のための分析に関わること全般
を担当
• メンバーは実装できることが必須。
分析チームの紹介
• 使用言語は自由:よく使われているのは Python, Perl,
C++
• 集計にはHiveを活用
• 機械学習などの論文を参考にモデルを実装
• 検証(オンライン・オフライン)を繰り返す
• 必要に応じて集計ベースの仮説検証も実施
• 機械学習 – Hivemallの活用例
• FreakOutでは常時複数のアルゴリズムが実行・
検証されています
• 使用されているアルゴリズムの一例としてクリッ
ク予測モデルを例にHivemallの活用例を紹介し
ます
ロジックの一例:クリック予測モデル
Hivemallのロジスティック回帰を活用
• 操作がとても簡単。 jarを読み込んですぐ使える
• Hueからも使えるので、コーディングが得意ではない人も簡単
に使える
• 大規模データに対して学習可能
• Hiveで学習から検証まで実行することができるようになり作業
効率が良い
• 学習用のログは直近数日分のimpression & click
log
• 学習時間は数時間程度
学習器
Impression log
click log
Hivemallで学習
(ロジスティ回帰)
Clickする確率
ユーザ
入札価格の決定
Feature -
weight
実配信
Hiveの操作
学習器
Impression log
click log
Hivemallで学習
(ロジスティ回帰)
Clickする確率
検証
Hiveの操作
評価
ロジックの一例:クリック予測モデル
工夫した点
• amplifyを使うと処理の途中過程で学習データが10倍程度に
なる(設定による)。
• オンプレ環境ではデータ容量を大きくできない
• 使用容量が多いと特徴量の種類を増やすことも容易ではな
い
• 精度を落とさず容量を減らしたい
ロジックの一例:クリック予測モデル
Subsamplingの導入
Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
Negative
Samples
(impresion log)Positive
Samples
(click log)
ロジックの一例:クリック予測モデル
Subsamplingの導入
Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
Negative
samples
Positive
samples
Subsampling rate r(<1)でnegative
sampleからサンプリング。
subsampling
学習器
Impression log
click log
Hivemallで学習
(ロジスティ回帰)
Clickする確率
ユーザ
入札価格の決定
Feature -
weight
実配信
Hiveの操作
subsampling
ロジックの一例:クリック予測モデル
• 学習データを作る部分でSubsamplingの導入
• Hive内の処理で完結するのでHivemallと合わせ
て簡単に使うことができる
精度をほぼ変えずに消費リソースの削減を実現
• r=0.2
• 60-80%の消費リソース減少
• 学習時間も半分以下に
まとめ
• Hivemallの利用は簡単
• 大規模データに対して機械学習が簡単にできます
• Hive queryが使えれば複雑な実装をしなくてもよい

More Related Content

Sano hmm 20150512