[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

studyとRに関するs-fengのブックマーク (8)

  • Random Forestで計算できる特徴量の重要度 - なにメモ

    (pixabay.comより) 1.背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと(追記注釈1)などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。 最近、Random Forestをカジュアルに使う例が多く(特にうちの研究室)、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。 それで、いろいろな日語の資料をいくら読んでも、Random Forestがもつ特徴の1つである、特徴量の重要度の詳細に関してはほとんどノータッ

    Random Forestで計算できる特徴量の重要度 - なにメモ
    s-feng
    s-feng 2019/09/17
    >>本来はエントロピーが最大最小となるようにサンプルを分割できるよう閾値を決めます。 ただし、この手法にが特許があり(c.f. See 5.0など)このままでは公開できません。 そこで、その代替として一般にジニ係数を用います
  • グラフ・ネットワーク分析で遊ぶ(3):中心性(PageRank, betweeness, closeness, etc.) - 渋谷駅前で働くデータサイエンティストのブログ

    ビジネス的に重要度が高いのがこの辺の話題ではないかな?ということで、今回は中心性(centrality)の話題を取り上げてみようと思います。参考文献はいつも通りこちら。 ネットワーク分析 (Rで学ぶデータサイエンス 8) 作者: 鈴木努,金明哲出版社/メーカー: 共立出版発売日: 2009/09/25メディア: 単行購入: 5人 クリック: 62回この商品を含むブログ (9件) を見る データセットはこれまで通り前々回適当に生成したグラフのものと、C elegansと、さらに以前使った『レ・ミゼラブル』の人物相関図を対比のために併用しようと思います。 そもそも中心性とは 『ネットワーク分析』p.41にはこんなことが書いてあります。 中心性は、ネットワークにおける各頂点の重要性を評価したり、比較したりするための指標である。例えば、交通ネットワークでは、ある地点から他の地点へ移動するための道

    グラフ・ネットワーク分析で遊ぶ(3):中心性(PageRank, betweeness, closeness, etc.) - 渋谷駅前で働くデータサイエンティストのブログ
  • Rでシーケンス クラスタリング - Qiita

    Rでシーケンスなクラスタリングをする必要がでてきたので勉強して、まとめておく。 用途としては状態があり、時間によって遷移するものをクラスタリング出来る。例としては、天気予報(前日に晴れ、今日は曇り)でいろんな地域をクラスタリングしたいといった用途やwebページの人の訪れをクラスタリング(LP→カテゴリー1→広告)に行くパターン等々・・・。 ・使うパッケージTraMineR・cluser library(TraMineR) library(cluster) # データの読み込み data("mvad") # 状態の定義 mvad_alphab <- c("employment", "FE", "HE", "joblessness","school", "training") # パターンフォーマット変換 mvad_seq <- seqdef(mvad, 17:86, xtstep = 6,

    Rでシーケンス クラスタリング - Qiita
  • Rと多次元尺度法

    多次元尺度法(MDS: multi-dimensional scaling)は、個体間の親近性データを、2次元あるいは3次元空間に類似したものを近く、そうでないものを遠くに配置する方法で、データの構造を考察する方法である。 多次元尺度法は計量多次元尺度法と非計量多次元尺度法に大別される。計量多次元尺度法とは距離データを低次元に配置する方法で、非計量多次元尺度法は、順序尺度のデータの類似度あるいは距離に変換可能な親近性データを低次元に配置する方法である。 MDSにも多くのアルゴリズムが提案されているが、古典的多次元尺度法としては1950年代Torgersonの貢献が大きい[4]。 多次元尺度法をイメージ的に説明のため、近畿地方の地図を図1に示す。図1では兵庫から和歌山、大阪、奈良、滋賀、京都の距離を点線で示している。このような任意の2点間の距離を表1に示す。 計量多次元の尺度法では、

  • アルゴリズム論の講義資料

  • 10 R packages I wish I knew about earlier - Yhat

    I started using R about 3 years ago. It was slow going at first. R had tricky and less intuitive syntax than languages I was used to, and it took a while to get accustomed to the nuances. It wasn't immediately clear to me that the power of the language was bound up with the community and the diverse packages available. R can be more prickly and obscure than other languages like Python or Java. The

    10 R packages I wish I knew about earlier - Yhat
    s-feng
    s-feng 2013/02/20
  • R による統計処理

    「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ

  • RでSOM(自己組織化マップ) - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですデータ入力 コホネンのSOM_PAKのサンプル・データ ex.dat を使う この ex.dat は、som_pak パッケージに含まれている。 ex.dat の構成は以下ようになっている。 5 13.575570 12.656892 -1.424328 -2.302774 404.921600 13.844373 12.610620 -1.435429 -1.964423 404.978180 13.996934 12.669785 -1.384147 -1.830788 405.187378 14.060876 12.755087 -1.378407 -2.020230 404.892548 (以下中略) 24.066832 22.776152 -0.371480 1.382585 4

  • 1