サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大そうじへの備え
logics-of-blue.com
帝京大学経済学部で用いた講義資料です。 2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 目次 本資料について 統計学の講義資料 1.本資料について 帝京大学経済学部で用いた講義資料です。 2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 もとの講義資料とは異なる点もあるのでご注意ください。 万が一何か問題があれば、当ブログにコメントをいただけますと幸いです。 スライドにも記載の通り、以下の利用を想定しています。 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する 基本的には想定①ですが、文系の学生をメインターゲットとした統計学の本格的入門資料は少ない印象です。 未受講者の方にも役に立つかもしれないと思いWeb上で公開することにしました。 本資料は1年間にわたる講義資料となっています。数回
ここでは、統計学の教科書を読み進める際に有用だと思う計算ノートを公開しています。 統計学の教科書を読み進める際に、難しい数式が出てきて困ったり、逆に数式が少なくてもう少し数理的な議論を読みたいと思うことがあるかもしれません。 この計算ノートだけで統計学を勉強することは難しいですが、統計学を勉強する際の副読本としてお使いいただければと思います。 お気づきの点がございましたら、ブログにコメントをいただけますと幸いです。 初等的な統計学入門レベルの内容 (平均・分散の性質や単回帰分析の推定量の性質など) ・統計学計算ノート 更新履歴 2022年06月11日:新規作成 FacebookXHatenaPocketCopyThe post 統計学 計算ノート first appeared on Logics of Blue.
本記事では、意思決定の手続きについて、ビジネス適用を念頭において解説します。 意思決定の方法としては、期待値最大化に基づく方法を中心に解説します。 本記事は『機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察』の内容を受けたものです。「先のブログ記事」と表現したら、それは常にこの記事を指します。 なお、当方は「期待値最大化の原理は、唯一絶対の意思決定の原理というわけではない」と考えています。それと同時に「期待値最大化の原理をもっと広めたい。これをスタート地点として、もっと多くの工夫を生みだしたい」とも思っています。 本記事においては、期待値最大化の原理を適用する際の諸課題について言及しますが、これは「期待値最大化という意思決定の原理を使うべきではない」ということを意味しません。「期待値最大化という意思決定の原
2021年2月25日発売の書籍「意思決定分析と予測の活用 基礎理論からPython実装まで」の第1部を、全文公開します。 本書の略称は「決定分析本」です。 本書の内容を含む、決定分析について、管理人Twitterでハッシュタグ「#決定分析」をつけてつぶやくので、こちらも参考にして下さい。 意思決定分析と予測の活用 基礎理論からPython実装まで 2021年2月25日より順次発売予定。 サポートページはこちらです。 出版社の書籍紹介ページはこちらです。 出版社の書籍紹介ページには、詳細目次が掲載されています。 第1部「序論」の詳細目次 意思決定における予測の活用 意思決定 意思決定の結果と選好関係 意思決定と不確実性 不確実性との付き合い方 予測 予測を意思決定に活用する 予測の評価 情報の価値 本書の解説の流れ 本書で扱う問題と扱わない問題 決定分析の役割 意思決定理論の役割 意思決定の
『意思決定分析と予測の活用 基礎理論からPython実装まで』のサポートページです。 本書の略称は「決定分析本」です。 本書の内容を含む、決定分析について、管理人Twitterでハッシュタグ「#決定分析」をつけてつぶやくので、こちらも参考にして下さい。 この記事では、書籍の特徴などの紹介をしています。 本書に使用したサンプルデータと実装コードは、すべてGitHubから参照できます。 なお、書籍情報は2021年1月9日現在の内容です。出版されるまでに変更される可能性があります 意思決定分析と予測の活用 基礎理論からPython実装まで 2021年2月25日より順次発売予定。 第1部は全文を公開しています。 出版社の書籍紹介ページはこちらです。 →詳細目次はこちらを参照してください。 大変ありがたいことに、書評をいただきました。ありがとうございます! 【書評】意思決定分析と予測の活用 基礎理論
この記事では、状態空間モデルをStanで推定するときの収束を良くするコツを説明します。 コードはGitHubから参照できます。 状態空間モデルは説明能力が高く、データに合わせて柔軟に構造を変えることができます。しかし、あまりに複雑な構造を指定すると、結果が収束しないこともしばしばあります。 収束が悪い時には、弱情報事前分布を指定したり、MCMC実行時の設定を変える(iterやwarmupを増やす等)で対応することが多いと思います。こちらの方法で多くの場合は解決しますが、複雑なモデルですと、そもそものStanコードの実装の方法から変えた方が良いかもしれません。 この記事では、状態空間モデルの収束を良くするために、Stanコードの書き方を工夫するやり方を紹介します。 良いやり方は無いかなと調べていたところ『Bayesian structural time series modeling』という
『RとStanではじめる ベイズ統計モデリングによるデータ分析入門』のサポートページです。 この記事では、書籍の特徴などの紹介をしています。 本書に使用したサンプルデータとR,Stanのコードは、すべてGitHubから参照できます。 ソフトウェアのインストール方法や実行方法の補足事項なども記しています。 パッケージのバージョンが上がったことによる変更点などは『発行後の補足情報』を参照してください。 RとStanではじめる ベイズ統計モデリングによるデータ分析入門 2019年07月:初版第1刷発行 2019年10月:初版第2刷発行 2020年02月:初版第3刷発行 2020年04月:初版第4刷発行 2020年07月:初版第5刷発行 ・・・中略・・・ 2023年07月:初版第10刷発行 出版社の書籍紹介ページはこちらです。 (2020年7月14日追記)正誤表は出版社の書籍紹介ページにあります。
意思決定理論は色々の解釈の仕方があるでしょうが、ここでは平たく「何をするのかを決める方法」について考える理論とみなすことにします。 この記事ではなるべく数式を使わずに意思決定問題を整理し、意思決定理論の概観を述べます。 この記事では個人の意思決定を中心に説明します。 ゲーム理論や組織・社会の意思決定理論は扱いません。確率の定義や(哲学的な議論を含む)その解釈に関しても立ち入りません。 理論的な厳密さよりも、直感的な解釈を優先している点には留意してください。 『著者名(出版年)』で、参考にした本を示しています。参考文献は記事の末尾に入れてあります。 誤りや不備などありましたら、ご連絡いただけますと大変幸いです。 スポンサードリンク 目次 意思決定理論と向き合う 意思決定問題 選択肢の集合 状態の集合 結果の集合 「選択肢×状態」から「結果」への写像 「結果」の選好構造(好き嫌い) 状態の確率
この記事では、複数の観測値があるが、状態は1つしかないモデルを推定します。状態空間モデルを用いてこれを達成します。RとStanという2つのソフトウェアの組み合わせを使ってモデルを推定します。コードはGitHubから参照できます。 以前にも『VARモデル』という多変量時系列モデルを紹介しましたが、それとは異なる状況のモデル化となります。先述のように状態空間モデルを用います。このモデルの基本的なことは『状態空間モデル』などの記事も参照してください。 この記事の例題はやや簡単すぎるきらいがあるため、最後により複雑なモデルを、文献を挙げて紹介します。 この記事はStan Advent Calendar 2018の10日目の記事となります。 詳細は「Stan Advent Calendar 2018」を参照してください。このリンクをたどると、Stanに関する様々な記事を読むことができます。 この記事
FlaskはPythonにおけるマイクロなWebフレームワークの1つです。同じWebフレームワークであるDjangoと比べるとできることは小さいですが、逆に言えば小さいアプリを作るのは簡単になったかと思います。 この一連の記事はVisual StudioとFlaskを使って簡単なアプリ開発をしてみようのコーナーです。この記事ではFlaskアプリ記事の一覧とお互いの関係性を記しました。 この記事ではWebアプリの開発を何も知らない人を対象とします。といっても、この記事の著者もWebアプリ開発に明るくありません。自分の勉強の意味も込めて書きました。 誤りが含まれるかもしれませんが、ご容赦ください。何かあれば、ご指摘いただけますと幸いです。 スポンサードリンク 目次 Visual Studioで作ってみたFlaskアプリ 関連記事一覧 1.Visual Studioで作ってみたFlaskアプリ
最終更新:2017年7月6日 R言語を用いた、Webからのデータ取得方法、及びxts形式にデータを変換する方法、そしてquantmodパッケージを使った図示の方法までを説明します。 株式データに限らず、Webからデータが取得できるようになるとなかなか便利です。また、時系列分析では必須となるxtsパッケージの使い方もぜひ覚えておいてください。 ソースコードはまとめてこちらに置いておきます。 スポンサードリンク 目次 Webからの株価のデータの取得 xts形式への変換 ローソク足のグラフの描画 様々なローソク足 1.Webからの株価のデータの取得 Yahoo!ファイナンス様は、データの自動収集(スクレイピング)を禁止されているようですので、『株価データサイト k-db.com』様からデータを取得します。 データの取得方法は『ことばにならないなにか』様を参考にさせていただきました。 ただ、今後も
時系列データへのクロスバリデーション法を用いて、予測精度の評価を行う方法を説明します。 R言語のforecastパッケージのtsCV関数を用いると、効率的な短いコードで実装が可能です。 この記事では、時系列データの前処理~モデル化~予測~予測の評価、といった一連の流れをすべて通して解説します。 今回は標準的な時系列モデルであるSARIMAモデルを用いますが、このモデル以外でもおおよその手順は変わらないと思います。 予測の評価における基本的な事項は『予測の評価方法:誤差の指標とナイーブな予測』も合わせて参照してください。 コードはGitHubから参照することができます。 スポンサードリンク 目次 分析の準備と前処理 SARIMAモデルの構築 SARIMAによる予測 テストデータを使った予測の評価 クロスバリデーション法による予測の評価 スライド型のクロスバリデーション法の実行 後記 1.分析
Pythonで学べる統計学の入門書を執筆しました。 「Pythonで学ぶあたらしい統計学の教科書」というタイトルです。 この記事では「Pythonで学ぶあたらしい統計学の教科書」の紹介をします。 サンプルコードやデータは出版社さんのサイトからダウンロードできます。 Pythonで学ぶあたらしい統計学の教科書 出版社さんへのリンク (詳細な情報はこちらを参照してください) 2018年 4月:初版第1刷発行 2018年 5月:初版第2刷発行 2018年10月:初版第3刷発行 2020年11月:初版第4刷発行 2019年11月:韓国語版が刊行されました 基本情報 出版社 : 翔泳社 著者 : 馬場真哉(このサイト、Logics of Blueの管理人です) タイトル : Pythonで学ぶあたらしい統計学の教科書 発売日 : 2018年4月19日 2018年10月19日追記 目次などは出
新規作成:2018年2月7日 最終更新:2018年2月7日 ローカルレベルモデルの推定を通して、KFASパッケージの使い方を説明します。 この記事は、書籍「時系列分析と状態空間モデルの基礎:RとStanで学ぶ理論と実装」の一部を公開したものです。 この書籍は時系列分析の基礎の基礎から始めて、Box-Jenkins法や一般化状態空間モデルまでを解説した、初学者のための時系列分析の入門書です。 類書と比べると難易度は低めだと思っておりますので、これから時系列分析を始めてみたいと考えている方にお勧めします。 スポンサードリンク 目次 この章で使うパッケージ 分析の対象となるデータ KFASによる線形ガウス状態空間モデルの推定 推定結果の図示 KFASによる状態の推定と信頼・予測区間 KFASによる予測 補足:ローカルレベルモデルにおける予測 補足:補間と予測の関係 この章で使うパッケージ この章
新規作成:2018年03月05日 最終更新:2018年03月06日 この記事は、時系列分析をこれから学ぼうとされる方のためのブックガイドです。 書籍によってカバーされている範囲、R言語などのプログラミング言語を援用しているかしていないか、そして書籍の難易度などをまとめています。 また、私自身、「時系列分析と状態空間モデルの基礎」という時系列分析の入門書を執筆しており、この本がどのような立ち位置にあるのかも説明しています。 目次 書籍紹介 時系列分析のトピック 状態空間モデルの分類 古典的な時系列モデルを学ぶことの意義 書籍で扱われている内容の比較 隼時系列本の立ち位置 1.書籍紹介 Rによる実装なし 沖本(2010)『計量時系列分析』 以下「沖本本」と略します。 実用的でバランスも良く、当サイトでも強く推している書籍です。 ARIMA・GARCH・見せかけの回帰などが丁寧に説明されています
『時系列分析と状態空間モデルの基礎:RとStanで学ぶ理論と実装』のサポートページです。 本書に使用したサンプルデータとR,StanのコードはすべてGitHubから参照できます。 緑色の「Clone or download」というボタンをクリックしてから「Download ZIP」をクリックすると、すべてのファイルをZIP形式でダウンロードできます。 書籍のサンプルコードとデータ 注意事項(2019年7月14日追記) Nipponパッケージが使えなくなってしまったため、p273の「is.jholiday」関数が使えなくなってしまいました。 同様の機能を持つ関数を当方が作成しました。Nipponパッケージを読み込む『library(Nippon)』の代わりに、以下のコードを実行してください。祝日判定が可能になります。 詳細は『R言語における日本の祝日判定』を参照してください。 # 関数の読み
新規作成:2017年12月2日 最終更新:2017年12月2日 StanとRを用いた統計モデル構築の基本について説明します。 統計学の初歩からベイズ推論、Stanというソフトウェアの概要といった基本事項から時系列モデルの推定の方法まで、順を追って説明します。 この記事はStan Advent Calendar 2017の2日目の記事となります。 詳細は「Stan Advent Calendar 2017」を参照してください。このリンクをたどると、Stanに関する様々な記事を読むことができます。 スポンサードリンク 目次 推測統計学の基本 ベイズ推論の基本 StanとMCMC法の基本 Stanによる平均と分散の推定 データ生成過程 Stanによる自己回帰モデル Stanによる一般化自己回帰モデル モデルを組む時に考えていること 1.推測統計学の基本 たとえば「3」というデータが私たちの手元に
最終更新:2017年7月20日 主成分分析は、多種類のデータを要約するための強力なツールです。 この記事では、主成分分析の考え方・計算の方法、そしてR言語を用いた実装方法について説明します。 まずは、主成分分析とは何者で、計算結果をどのように解釈したらよいのかを学んでください。 そのうえで、ggplot2を使った美麗なグラフの作り方についても合わせて覚えていただければと思います。 コードはまとめてこちらに置いてあります。 スポンサードリンク 目次 主成分分析の考え方 主成分分析とは何をするものか 主成分分析ができると何が嬉しいか 主成分分析の結果はどのように解釈すればよいか 寄与率 主成分得点 Rによる主成分分析 主成分の計算方法 アヤメデータの分析例 1.主成分分析の考え方 主成分分析とは何をするものか 主成分分析とは何をするものでしょうか。 一言でいうと、下の図のように「散布図にそれっ
4.χ二乗値を求める χ二乗値は、単に、先ほど計算した表の中身を足し合わせるだけで計算できます。 $$0.9+0.3+1.5+0.5= 3.2$$ というわけで、3.2となりました。 この値が大きければ大きいほど、期待度数と元データが大きく異なっていることになります。 期待度数は「もし関係が無かったら、きっとこうなるだろうという回数」のことです。 なので、χ二乗値が大きければ「ボタンの色と押されやすさには関係がありそうだ」とみなすことができるわけです。 この考え方はぜひ覚えておいてください。 5.χ二乗値をp値に変換する χ二乗値が大きければ「ボタンの色と押されやすさには関係がありそうだ」とみなすことができることがわかりました。 次の問題は「χ二乗値がいくらになれば『大きい』と判断できるか」という基準を定めることです。 3を超えれば大きいとみなせるのか、4を超えなきゃダメなのか、難しいとこ
最終更新:2017年7月26日 機械学習法を用いた時系列データの予測方法について説明します。 R言語を使えば、機械学習も時系列データのデータ操作も簡単にできます。 両者を組み合わせて、時系列データへの予測モデルを作成してみました。 ソースコードはこちらに置いてあります。 スポンサードリンク 目次 解析の準備 機械学習とは 今回予測するデータ caretパッケージを使う準備 Rによる機械学習 予測モデルの概要 ハイパーパラメタのチューニング 機械学習による時系列予測 最適な次数を選ぶ 当てはめ精度の評価 将来の予測 1.解析の準備 機械学習とは 機械学習とは、次にどのようなデータが来るのかを、決まった手順を踏んで予測する技術、あるいは手法のことです。 機械学習の良いところは、予測のための「手順」を、過去のデータからほとんど自動で見つけられることです。 昔は人間が勘と経験そして度胸で予測を出し
予測には過去のデータを使います。しかし、外れ値のような余計なデータまで使ってしまうと、予測精度が下がるかもしれません。 そこで「本当に予測に必要となる一部のデータ」だけを使います。 「本当に予測に必要となる一部のデータ」のことをサポートベクトルと呼び、サポートベクトルを用いた機械学習法がサポートベクトルマシン(Sapport vector machine:SVM)です。 ここでは、分類・回帰に分けたサポートベクトルマシンの概要と、R言語を用いた実装方法について説明します。 ソースコードはこちらに置いてあります。 スポンサードリンク 目次 サポートベクトル分類の考え方 マージン最大化とサポートベクトル ハードマージンとソフトマージン Rによる計算例:線形データ 非線形データへの対応とカーネル関数 Rによる計算例:非線形データ 補足:パラメタ推定の工夫とカーネルトリック サポートベクトル回帰の
t検定について、その考え方や計算の仕組みについて説明します。 マニュアルとして手順を覚えるのではなく「なぜその指標を計算するのか」という理由を理解するようにして下さい。マニュアルとして覚えてしまうと、応用がききません。 ExcelやR言語を使ったt検定の実施方法についても併せて理解してください。 なお、ここに書かれていることでわからない用語があれば『記述統計の基礎』を参照するようにしてください。 2018年4月19日追記 拙著「Pythonで学ぶあたらしい統計学の教科書」の発売に合わせて、Pythonでの実行方法を加筆しました。 スポンサードリンク 目次 t検定の目的 t検定の種類 1群のt検定 対応のあるt検定 平均値の差の検定:分散が等しい場合 平均値の差の検定:分散が異なる場合 分散が異なるかどうかの検定 1群のt検定の考え方 p値の計算とその解釈 対応のあるt検定の考え方 平均値の
最終更新:2017年7月14日 標準的な時系列解析手法であるARIMAモデルを用いた、株価の予測とその評価の方法について説明します。 ARIMAモデルは、R言語を使うととても簡単に推定することができます。 簡単である割には、予測精度は高く、時系列予測における標準的な手法となっています。 この記事では、株価のデータに対して、ARIMAモデルを推定し、株価を予測することを試みます。 株価を予測することはとても難しいので、この手法を使えばすぐに利益が出るということはあり得ません。 しかし、時系列データの取り扱いとARIMAモデルの推定、そして予測の評価という一連の流れを学ぶことで、ほかのデータなどに対して応用する能力が身につくかと思います。 コードはまとめてこちらに置いてあります。 スポンサードリンク 目次 時系列解析とARIMAモデル 株価の取得 ARIMAモデルの推定と予測の評価 一期先の予
最終更新:2017年7月12日 ニューラルネットワークの考え方ついて説明します。 応用例としては時系列データを扱いますが、基本的な考え方は変わりませんので、ニューラルネットワークの仕組みを学びたいというだけの方でも読む意味はあるかと思います。 この記事ではニューラルネットワークの基本について説明したのちに、nnetやforecastパッケージを用いた、時系列データへのニューラルネットワークの適用を試みます。 なお、特に断りがない限り、定量データを予測する「回帰」問題のみを扱うことに注意してください。 コードはこちらに置いてあります。 スポンサードリンク 目次 ニューラルネットワークの考え方 nnetの使い方 飛行機乗客数のモデル化 ヤマネコ個体数データのモデル化 発展的な話題 リミットサイクル 予測区間の計算と図示 1.ニューラルネットワークの考え方 モデルの概要 ニューラルネットワークは
Pythonを開発するツールとしての「Visual Studio」を紹介します。 Visual StudioはWindowsで有名なMicroSoftさんが作った統合開発環境です。大変に高機能であり、入力補完やエラーのチェック、デバッグ起動がとても簡単にできます。もちろん無料で使うことができます。 また、OSがWindowsである点も評価できます。いちいちMacに買い替える必要がありません。プログラミング初心者の方にとってとてもありがたいツールかと思います。 この記事では、Anaconda + Visual StudioでPythonアプリ開発をするための環境構築の方法と簡単なコンソールアプリの開発例について記載しています。 この組み合わせならば、単純なアプリの作成ができるのはもちろん、データ分析を絡めたアプリの開発もできるのではないかと思います。 この記事では簡単なデータ分析アプリを作成
最終更新:2017年6月12日 この記事では「情報量をどのように定義するか」という問題への回答としての、情報エントロピー、そして、相対エントロピー(別名:カルバック・ライブラーの情報量)や相互情報量の導入とその解釈の仕方を説明します。 統計学や機械学習を学ぶ際に、どうしても必要となる考え方ですので、ある程度まとまった知識、解釈の仕方を持っておくと、少し難しい書籍を読んだ時にも対応ができるようになるかと思います。 スポンサードリンク 目次 情報理論とは 情報量を定義する 情報エントロピーと平均情報量 相対エントロピー 相互情報量 1.情報理論とは 情報理論とは、文字通り「情報とは何かを定義し、より良い扱い方を考える学問」といえます。 その中でも大きく3つのジャンルに分けることができます。 1つ目は、そもそも情報量をどのように定義するか、という問題を解決するジャンル。 2つ目は、情報を、いかに
Pythonを使った時系列解析の方法について説明します。 時系列データの読み込みから、図示、自己相関などの統計量の計算といった基礎から始めて、自動SARIMAモデル推定までを説明します。 この記事を読めば、簡単なBox-Jenkins法についてはPythonで実装する方法が身につくかと思います。 JupyterNotebookでの実行結果はリンク先から確認できます。 目次 時系列分析とは 時系列データの読み込み 時系列データの取り扱い 自己相関係数の推定 ARIMAモデルの推定 SARIMAモデルの推定 総当たり法によるSARIMAモデル次数の決定 1.時系列分析とは 時系列分析とは、その名の通り、時系列データを解析する手法です。 時系列データとは、例えば「毎日の売り上げデータ」や「日々の気温のデータ」、「月ごとの飛行機乗客数」など、毎日(あるいは毎週・毎月・毎年)増えていくデータのことで
最終更新:2017年06月06日 Pythonを用いた、状態空間モデルの実装方法について説明します。 なお、正規線形状態空間モデル(動的線形モデル)のみをここでは扱います。 Pythonを使えば、カルマンフィルタや最尤法によるパラメタ推定を短いコードで簡潔に実装することができます。 なお、この記事ではOSはWindows。Pythonは『Python 3.6.0 :: Anaconda custom (64-bit)』を使用して、JupyterNotebook上で計算を実行しました。 JupyterNotebookの出力はリンク先を参照してください。 目次 状態空間モデルとPython時系列分析 データの読み込み ローカルレベルモデルの推定 ローカル線形トレンドモデルの推定 季節変動の取り込み 推定するパラメタの数を減らす モデルの比較と将来予測 1.状態空間モデルとPython時系列分析
次のページ
このページを最初にブックマークしてみませんか?
『Logics of Blue』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く