[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
SlideShare a Scribd company logo
一般化線形モデル基礎
1
2
一般化線形モデルをマスターしよう
予測と確率分布
尤度と最尤法
一般化線形モデル基礎
Devianceと尤度比検定
一般化線形モデル色々
是非!!
ゼロ切断・過剰モデル、 一般化線形混合モデル
3
GLM やります
一般化線形モデル
[Generalized Linear Model]
4
GLMとは?
昨日やった正規線形モデルのパワーアップVer
正規分布以外の確率分布も使える統計モデル
• ブレーキを踏んでもバックしない
• ゾンビ猫が存在しない
一般化線形モデル(GLM)
5
GLMとは?
昨日やった正規線形モデルのパワーアップVer
正規分布以外の確率分布も使える統計モデル
パラメタは最尤法で推定する
一般化線形モデル(GLM)
ただし線形に限る
非線形にしたいなら
一般化加法モデルなどを使う(サイト参照)
6
今回の内容
一般化線形モデル(GLM)の雰囲気をつかもう
1.GLMの構成要素を知る
• 線形予測子
• リンク関数
• 誤差構造
2.GLMの一種、ポアソン回帰を実装する
7
GLMの構成要素
1.線形予測子
2.リンク関数
3.誤差構造
8
線形予測子
方程式
𝑌 = 𝑎𝑋 + 𝑏
例)
ビールの売り上げ=a×気温+b
9
リンク関数
例えばデータが0以上しかとらないならば、
予測の方程式も0以上になっていてほしい
𝑌 = 𝑒 𝑎𝑋+𝑏
log 𝑌 = 𝑎𝑋 + 𝑏
リンク関数=ログ
方程式を変換する関数のこと
線形予測子
応答変数
10
リンク関数いろいろ
1
𝑌
= 𝑎𝑋 + 𝑏
log 𝑌 = 𝑎𝑋 + 𝑏
log
𝑝
1 − 𝑝
= 𝑎𝑋 + 𝑏
ログ (log)
逆関数 (inverse)
ロジット (logit)
11
リンク関数いろいろ
log 𝑌 = 𝑎𝑋 + 𝑏
ログ (log)
𝑌 = 𝑒 𝑎𝑋+𝑏
𝑌 = 𝑒 𝑎𝑋
× 𝑒 𝑏
掛け算になっている!
Xが1増えると、Yは𝒆 𝒂
倍になる
12
リンク関数いろいろ
log 𝑌 = 𝑎𝑋 + 𝑏
リンク関数:ログ (log)
係数の解釈が変わるので注意!
Xが1増えると、Yは𝒆 𝒂
倍になる
𝑌 = 𝑎𝑋 + 𝑏
Xが1増えると、Yはa増える
リンク関数:なし (identity)
13
誤差構造
統計モデルの従う確率分布のこと
正規線形モデルでは「正規分布」
二項分布
コインの裏表・あるなしデータ
ポアソン分布
個体数データ(群れない)
→ 群れるなら負の二項分布
ガンマ分布
0以上の連続データ
14
まとめ
1.線形予測子
2.リンク関数
3.誤差構造
𝑌 = 𝑎𝑋 + 𝑏のような方程式
log 𝑌 = 𝑎𝑋 + 𝑏のような変換
正規・ポアソン分布のような確率分布
15
おまけ
正規線形モデルとは?
リンク関数=そのまま(identity)
誤差構造=正規分布(gaussian)
であるGLMのこと
質問どうぞ!
16
ポアソン回帰 やります
リンク関数=ログ(log)
誤差構造=ポアソン分布(poisson)
であるGLMのこと
17
ポアソン分布の特徴
○個売れた・○匹居た
→個数のデータが与えられたら、
まずはポアソン分布を疑う
群れない
○たまたま人が来てたまたま売れた個数
×団体客が来て、どさっと売れる個数
18
ポアソン分布とは
ポアソン分布
平均
分散
のパラメタ
データ
● 分母は階乗、分子は「何とか乗」の形になっている
→ λが0以上なら、確率も常に0以上
● データの階乗をとっているので、
データは0か正の整数しか定義できない
● 平均値も分散も λというパラメタに等しい(証明略)
𝑒−𝜆
𝜆 𝑥
𝑥!
19
ポアソン分布の特徴
○個売れた・○匹居た
→個数のデータが与えられたら、
まずはポアソン分布を疑う
群れない
○たまたま人が来てたまたま売れた個数
×団体客が来て、どさっと売れる個数
平均も分散もパラメタλで表される
こいつ(λ)を最尤推定する
20
ポアソン回帰の実装
実装…の前に
確率・尤度のおさらい
21
確率
○○かつ○○になる確率
→ 掛け算!!
偶数になる確率: 1/2
3の倍数になる確率: 1/3
偶数かつ3の倍数になる確率: 1/2×1/3=1/6
22
尤度とは
1
3
× 1 −
1
3
=
1
3
×
2
3
=
2
9
表の確率 裏の確率 今回のデータが生じる確率
パラメタを指定したときに、
今手持ちのデータが再現できる確率
尤度!!
表になる確率は1/3だ!!
23
最尤法とは
尤度が最大になるようにパラメタを決めること
パラメタは1/3だ!!
1
3
× 1 −
1
3 =
1
3
×
2
3
=
2
9
パラメタは1/2だ!!
1
2
× 1 −
1
2 =
1
2
×
1
2
=
1
4
こっちの方がデカい!
こっちを採用!!
24
ポアソン回帰
データが4セットあります(サンプルサイズ4)
Y : 7, 9, 8, 11
Yはポアソン分布に従います。
平均はλで一定とします。
λを最尤推定しなさい
25
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説1 パラメタλは5だ!
データ 「7」 が出る確率は?
𝑒−5
57
7!
≒ 0.10
λ=5
y=7
Y : 7, 9, 8, 11
26
ポアソン回帰
Y : 7, 9, 8, 11
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説1 パラメタλは5だ!
データ 「9」 が出る確率は?
𝑒−5
59
9!
≒ 0.04
λ=5
y=9
27
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説1 パラメタλは5だ!
データ 「8」 が出る確率は?
𝑒−5
58
8!
≒ 0.07
λ=5
y=8
Y : 7, 9, 8, 11
28
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説1 パラメタλは5だ!
データ 「11」 が出る確率は?
𝑒−5
511
11!
≒ 0.01
λ=5
y=11
Y : 7, 9, 8, 11
29
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説1 パラメタλは5だ!
Y : 7, 9, 8, 11
尤度
≒ 0.10 × 0.04 × 0.07 × 0.01
≒ 0.0000028
30
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!Y : 7, 9, 8, 11
尤度
≒ 0.12 × 0.13 × 0.13 × 0.10
≒ 0.0002028
仮説2 パラメタλは9だ!
31
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!Y : 7, 9, 8, 11
尤度
≒ 0.12 × 0.13 × 0.13 × 0.10
≒ 0.0002028
仮説2 パラメタλは9だ!
仮説1 パラメタλは5だ!
尤度
≒ 0.10 × 0.04 × 0.07 × 0.01
≒ 0.0000028
こっちの方がデカい!
こっちを採用!!
32
パラメタ(λ)をもっと細かく変化させよう
0 5 10 15
0.000000.000050.000100.000150.00020
λ
確率
λを変化させた時の尤度
λ
最大
8.75
最尤推定値
33
実演
質問どうぞ!
34
ポアソン回帰
データが4セットあります(サンプルサイズ4)
Y : 5, 7, 10, 15
Yはポアソン分布に従います。
平均はXによって変化するとします。
log(λ) = aX + b
a、bを最尤推定しなさい
X : 1, 2, 3, 4
35
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説 log(λ) = 0.2 X + 1 だ!
X=1の時に
データ 「5」 が出る確率は?
𝑒−3.33.35
5!
≒ 0.12
λ=3.3
y=5
Y : 5, 7, 10, 15
X : 1, 2, 3, 4
𝜆 = 𝑒0.2×1+1
≒ 3.3
36
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
X=1の時に
データ 「5」 が出る確率は?
𝑒−3.33.35
5!
≒ 0.12
λ=3.3
y=5
Y : 5, 7, 10, 15
X : 1, 2, 3, 4
𝜆 = 𝑒0.2×1+1
≒ 3.3
仮説 log(λ) = 0.2 X + 1 だ!
37
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説 log(λ) = 0.2 X + 1 だ!
X=2の時に
データ 「7」 が出る確率は?
𝑒−4.14.17
7!
≒ 0.06
λ=4.1
y=7
Y : 5, 7, 10, 15
X : 1, 2, 3, 4
𝜆 = 𝑒0.2×2+1
≒ 4.1
38
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説 log(λ) = 0.2 X + 1 だ!
X=3の時に
データ 「10」 が出る確率は?
𝑒−5.05.010
10!
≒ 0.02
λ=4.1
y=10
Y : 5, 7, 10, 15
X : 1, 2, 3, 4
𝜆 = 𝑒0.2×3+1
≒ 5.0
39
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
仮説 log(λ) = 0.2 X + 1 だ!
X=4の時に
データ 「15」 が出る確率は?
𝑒−6.06.015
15!
≒ 0.001
λ=6.0
y=15
Y : 5, 7, 10, 15
X : 1, 2, 3, 4
𝜆 = 𝑒0.2×4+1
≒ 6.0
40
ポアソン回帰
𝑒−𝜆
𝜆 𝑦
𝑦!
尤度
≒ 0.12 × 0.06 × 0.02 × 0.001
≒ 0.000000144
Y : 5, 7, 10, 15
X : 1, 2, 3, 4
仮説 log(λ) = 0.2 X + 1 だ!
41
実演
質問どうぞ!
42
予測 とは何か?
統計モデルにおける
確率分布を予測すること
43
1.0 1.5 2.0 2.5 3.0 3.5 4.0
68101214
x
y
引っ張られた線の意味は?!
λ
Y
X
44
1.0 1.5 2.0 2.5 3.0 3.5 4.0
68101214
x
y
引っ張られた線の意味は?!
x=1の時
λ=4.88
𝑒−𝜆
𝜆 𝑦
𝑦!
𝑒−4.88
4.88 𝑦
𝑦!
x=1の時の
Yの確率分布 Y
X
450 5 10 15
0.000.050.100.15
dpois(y,best.lambda[1])
引っ張られた線の意味は?!
λ=4.88
の確率分布
x=1の時…
y=0の確率:0.0076
y=1の確率:0.0371
y=5の確率:0.1752
y=10の確率:0.0160
Y
46
Yの確率分布を予測する
0 5 10 15 20
0.000.050.100.15
x=1の時の確率分布
0 5 10 15 20
0.000.050.100.15
x=2の時の確率分布
0 5 10 15 20
0.000.040.080.12
x=3の時の確率分布
0 5 10 15 20
0.000.040.08
x=4の時の確率分布
Y
確
率
47
1.0 1.5 2.0 2.5 3.0 3.5 4.0
68101214
x
y
引っ張られた線の意味は?!
質問どうぞ!
Y
X
確率分布の期待値λ
予測値を「一つ」出せと言われたら期待値になる
でも、実際予測しているのはその期待値をとる確率分布

More Related Content

2 3.GLMの基礎