[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
見出し画像

データサイエンティスト勉強メモ_仮説検定のP値って何?

統計は奥が深い、、、だからこそかなりとっつきにくい!
専門用語が多く、感覚的な理解とは異なる「お作法」が多いのも原因な気がする。

今後、特によくわからなった単語について自分なりの勉強した内容と、その理解内容についてのメモを書くようにする。


今回は仮説検定のP値について。いきなりとっつきにくい。
P値の説明に入る前に、データサイエンティストとは何かをさらりと書く。

データサイエンティストは、たくさんの数字データを読み取り、
そこから有用な情報を読み取ることができる人というイメージ。
今勉強している例も、ホテルの経営者という例。
「ホテルの利用客を増やす」という目的のために、ホテル利用者のアンケートデータをもっている場合に、このデータからホテルの利用客を増やすための重要な情報を読み取る、という感じ。

学問として「統計学」の力を借りるのがデータサイエンティスト。
科学的に数字を読み解く人、という意味なのだろう!

ホテルのアンケート結果で、ホテル満足度1~5という情報と
アンケート回答者の性別に男女があったため、
満足度とともに男女ごとの情報もグラフ化したデータがあったとして、
そこにぱっと見、男女で差があったとする。

なんとなく、主観的には男女の違いになにかあるのか?
という気づきがでる。
でもこのままだと「なんとなく」なので、これを客観的に、統計的に
たまたまではない、男女差があるのか、ということを検証する必要がある!!検証!!数学者!!数学!!すごいね。厳密だね。

ここで出てくるのが有意水準。
要するに、基準。5%というのが基準になるらしい。
まあ確かに、5%を超えれば、そこそこ起きるといえるし、5%にも満たないのであれば、さすがに、ほぼ起こらない確率というのはなんとなくわかる。


ここがすごいややこしいところ。
数学の背理法がでてくる。

🌟 背理法とは何ちゃむ?

背理法(reductio ad absurdum)は、数学や論理学で使われる証明方法の一つちゃむ!「仮にある主張が間違っているとしたら、おかしなことが起きる」 という矛盾を使って、その主張が正しいと証明する方法ちゃむ!


背理法の流れちゃむ
1証明したい主張を「間違っている」と仮定するちゃむ。
2その仮定をもとに論理的に考えていくちゃむ。
3結果として矛盾が生じるちゃむ!
4矛盾があるから、最初の仮定が間違い → つまり元の主張が正しいと結論するちゃむ!

全部chatGPTより(んぽちゃむ風の口調)

さっきの例だと、「男女間における満足度の差異というのは、統計学的に意味がある」ということを証明するために、あえて反対の「男女間における満足度の差異というのは、たまたまで統計学的に意味なし」という反対の仮説を立てて、この仮説が誤っていることを確認する、というプロセスを踏む!
何たることだ、、、!!

ここで出てくるのが、P値!!(反対の仮説というの帰無仮説という。キムチでも食べてろ!!

P値とは、反対の仮説における、起こる確率

このP値が0.05より高いのであれば、有意水準をみたしており、反対仮説を明確に否定することは難しいとなる。。。ややこしい!
つまり背理法で、あえて、逆の仮説をたてて、それを否定したかったのに、否定できないということ。。。


逆にP値が0.05より小さく、5%未満ということは反対の仮説の起こる可能性は低いとなり、反対の仮説(今回の例でいうと、男女の差には意味がない、あえての反対の説の方)を否定できるため、本来しめしたかった、男女の差異はたまたまではなく、統計的に意味がありそうという道が開ける。。。

P値と有意水準を比較して、統計学的に偶然ではないことを確認している!!

ながい、、、。
厳密なステップがすごい。

今回はP値について中心に、仮説検定のメモでした。
まとめとしては、なんとなくの差がでたときに統計的に偶然な差なのか
を確認する手続きということでした。
また書きます。


いいなと思ったら応援しよう!