データサイエンティスト勉強メモ_仮説検定のP値って何?
統計は奥が深い、、、だからこそかなりとっつきにくい!
専門用語が多く、感覚的な理解とは異なる「お作法」が多いのも原因な気がする。
今後、特によくわからなった単語について自分なりの勉強した内容と、その理解内容についてのメモを書くようにする。
今回は仮説検定のP値について。いきなりとっつきにくい。
P値の説明に入る前に、データサイエンティストとは何かをさらりと書く。
データサイエンティストは、たくさんの数字データを読み取り、
そこから有用な情報を読み取ることができる人というイメージ。
今勉強している例も、ホテルの経営者という例。
「ホテルの利用客を増やす」という目的のために、ホテル利用者のアンケートデータをもっている場合に、このデータからホテルの利用客を増やすための重要な情報を読み取る、という感じ。
学問として「統計学」の力を借りるのがデータサイエンティスト。
科学的に数字を読み解く人、という意味なのだろう!
ホテルのアンケート結果で、ホテル満足度1~5という情報と
アンケート回答者の性別に男女があったため、
満足度とともに男女ごとの情報もグラフ化したデータがあったとして、
そこにぱっと見、男女で差があったとする。
なんとなく、主観的には男女の違いになにかあるのか?
という気づきがでる。
でもこのままだと「なんとなく」なので、これを客観的に、統計的に
たまたまではない、男女差があるのか、ということを検証する必要がある!!検証!!数学者!!数学!!すごいね。厳密だね。
ここで出てくるのが有意水準。
要するに、基準。5%というのが基準になるらしい。
まあ確かに、5%を超えれば、そこそこ起きるといえるし、5%にも満たないのであれば、さすがに、ほぼ起こらない確率というのはなんとなくわかる。
ここがすごいややこしいところ。
数学の背理法がでてくる。
さっきの例だと、「男女間における満足度の差異というのは、統計学的に意味がある」ということを証明するために、あえて反対の「男女間における満足度の差異というのは、たまたまで統計学的に意味なし」という反対の仮説を立てて、この仮説が誤っていることを確認する、というプロセスを踏む!
何たることだ、、、!!
ここで出てくるのが、P値!!(反対の仮説というの帰無仮説という。キムチでも食べてろ!!
P値とは、反対の仮説における、起こる確率
このP値が0.05より高いのであれば、有意水準をみたしており、反対仮説を明確に否定することは難しいとなる。。。ややこしい!
つまり背理法で、あえて、逆の仮説をたてて、それを否定したかったのに、否定できないということ。。。
逆にP値が0.05より小さく、5%未満ということは反対の仮説の起こる可能性は低いとなり、反対の仮説(今回の例でいうと、男女の差には意味がない、あえての反対の説の方)を否定できるため、本来しめしたかった、男女の差異はたまたまではなく、統計的に意味がありそうという道が開ける。。。
P値と有意水準を比較して、統計学的に偶然ではないことを確認している!!
ながい、、、。
厳密なステップがすごい。
今回はP値について中心に、仮説検定のメモでした。
まとめとしては、なんとなくの差がでたときに統計的に偶然な差なのか
を確認する手続きということでした。
また書きます。