[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

統計学に関するk_yonのブックマーク (10)

  • Small Data Scientist Memorandum 

    2013/6/12にtwitter上の#tokyorで面白い質問がありました(●Q1と●Q2)。辛抱できず自分で解決したついでに、今後も役に立ちそうな確率変数の変数変換について少しまとめてみました。 ●Q1. 以下は1.00…が出力されます。なぜですか? sum 10000回を十分大きな数とみなせば、これは変数の平均値が出力されると解釈できます。ここでは平均0, 標準偏差1の正規分布からランダムに抽出された5サンプルであることに注意して式変形すると、 となります。式の変形の途中にあるは母集団の標準偏差を表します。今回は1です。ここで、は教科書に載っているように自由度4のカイ2乗分布に従います(この証明もそんなに難しくなく重要ですが今回はパスします)。また、自由度4のカイ2乗分布の平均値は4です。よっての平均値は、 となります。Q1.の最終的な出力は1となります。 ●Q2. 以下は0.94…

    Small Data Scientist Memorandum 
  • 指数分布とポアソン分布のいけない関係

    指数分布とポアソン分布について簡単に説明した後、それらは同じ事象を別々の視点から見たものであることを説明。さらにR言語を用いて実際にそれを確認。第20回R勉強会@東京(#TokyoR)(http://atnd.org/events/24629)でのトーク資料。Read less

    指数分布とポアソン分布のいけない関係
  • Welcome to a Little Book of R for Multivariate Analysis! — Multivariate Analysis 0.1 documentation

    Welcome to a Little Book of R for Multivariate Analysis!¶ By Avril Coghlan, Wellcome Trust Sanger Institute, Cambridge, U.K. Email: alc@sanger.ac.uk This is a simple introduction to multivariate analysis using the R statistics software. There is a pdf version of this booklet available at: https://media.readthedocs.org/pdf/little-book-of-r-for-multivariate-analysis/latest/little-book-of-r-for-multi

  • 時系列データの解析(厚労省公開の医療費データ) - データサイエンティスト上がりのDX参謀・起業家

    このに沿って時系列データの解析方法をまとめました。 Rによる時系列分析入門 作者: 田中孝文出版社/メーカー: シーエーピー出版発売日: 2008/06/01メディア: 単行購入: 12人 クリック: 113回この商品を含むブログ (19件) を見る サンプルデータを使っても面白くないので、厚労省が公開している医療費のデータを使いました。 厚労省の医療費データベース 例によってこのデータはエクセルで公開されていて、そのまま解析できる状態じゃありません。 今回は入院の総医療費だけを扱ったので、その部分だけ加工してcsvにしました。 一応、加工したデータはダウンロードのページに置いてます。 それでは、解析していきます。 まずはデータ読み込みと加工。 Iryouhi <- read.csv("医療費.csv", as.is = T) Nyuin <- ts(Iryouhi[, 2], fre

    時系列データの解析(厚労省公開の医療費データ) - データサイエンティスト上がりのDX参謀・起業家
  • Rで多変量解析(一般化線形モデル)〜タイタニックのデータも分析しました〜 - Issei’s Analysis 〜おとうさんの解析日記〜

    今回は多変量解析についてです。その前にそもそもですが、「多変量解析」という言葉は様々な意味で使えるので、なるべく使うのを止めましょう。私が経験してきた中で、このような意味で使われていました。重回帰、一般線形モデル一般化線形モデル変数選択(ステップワイズ法)変数縮小(主成分分析) どの手法も目的がまったく違っています。「多変量解析をやりたいのですが、、、」と相談されると、こちらとしては「多変量解析」が何を意味するのかを探るところから始めます。 具体的には、解析手法はこのように使い分けます。何かの結果変数を説明するモデルを作る→重回帰同じ目的で説明変数が連続値以外→一般化線形モデル(GLIM、ぐりむと発音) 実は「重回帰」も「GLIM」もほとんど同じ意味ですが、ニュアンスとして重回帰は一般線形モデル(GLM、じーえるえむ)を指す事が多いです。正確には「重回帰」は「単回帰」と対になる言葉で、説明

  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • Polytomous (Multinomial) Logistic Regression

    Content Preview Arcu felis bibendum ut tristique et egestas quis: Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris Duis aute irure dolor in reprehenderit in voluptate Excepteur sint occaecat cupidatat non proident Lorem ipsum dolor sit amet, consectetur adipisicing elit. Odit molestiae mollitia laudantium assumenda nam eaque, excepturi, soluta, perspiciatis cupiditate sapiente, a

    k_yon
    k_yon 2013/05/10
    Identifying Seasonal Models and R Code
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • TIMSAC for R package

    1. はじめに TIMSAC(TIMe Series Analysis and Control program)は,統計数理研究所で開発された時系列データの解析,予測,制御のための 総合的プログラムパッケージである.オリジナルTIMSAC(TIMSAC-72)は1972年に発表され,その後,TIMSACシリーズとしてTIMSAC-74,TIMSAC-78,TIMSAC-84が Computer Science Monograph に発表された.工業プロセスの最適制御,経済変動の分析等広い分野で実際に利用されている.TIMSACの特徴としては,情報量規準の考え方を用いた時系列解析プログラムであることが挙げられる.TIMSAC-72ではFPE (Final Prediction Error),TIMSAC-74以降ではAIC (Akaike Information Criterion),TIM

  • 1