決定木の決定版みたいなやつ。 もうランダムフォレストしてもう全部これでいいんじゃないでしょうか。 https://t.co/RoOABtsxZ9 https://t.co/25vDMao8Ye
はじめに IOI 2013 オーストラリア大会に Art Class という問題があります。 この問題は、画像データが与えられるのでその画像が 様式1(新造形主義の現代芸術) 様式2(印象派の風景画) 様式3(表現派のアクション・ペインティング) 様式4(カラーフィールド・ペインティング) のいずれであるかを判定する問題です。 正答率が 0.9 以上になると満点が得られます。 IOI にしては珍しい機械学習的な問題であることと、ジャッジが壊れて結果が返ってこなくなったことなどで有名なので、知っている人も多いかもしれません。 問題文やデータは、 http://www.ioinformatics.org/locations/ioi13/contest/ から手に入ります。 普通の解法 例えば 3x3 と 65x65 の大きさの窓を作って分散を計算して、それらを使って手で決定木を作るなどすると解
モデルフリー系の深層強化学習の手法を用いてスマブラDXのゲームAIを作ったという論文が出ていたので読んだ。以下はそのメモ。 概要 論文URL : https://arxiv.org/abs/1702.06230 著者のグループは github でコードを公開しており、そのデモ動画が twitch や youtube に上がっている。 www.youtube.com 上の動画はその一例。明記されていないが、動きからして 2P のキャプテン・ファルコンが強化学習 AI で、1P が人間だと思われる。スマブラの素人が見てもあまりピンと来ないのだが、人間側は世界ランキングでトップ50相当のプレイヤー(二人いて、途中で交代している)らしい。 reddit や hacker news でも活発に議論されている模様。 内容 環境の定義について Atari のゲーム環境などとは異なり、画像ではなくエミュレ
I ran a grad seminar in reinforcement learning this past semester, which was a lot of fun and also gave me an opportunity to catch up on some stuff I'd been meaning to learn but haven't had a chance and old stuff I'd largely forgotten about. It's hard to believe, but my first RL paper was eleven years ago at a NIPS workshop where Daniel Marcu, John Langford and I had a first paper on reducing stru
最近Rにおけるランダムフォレストの高速な実装としてrangerパッケージが発表された。 開発者が既存のランダムフォレスト実装パッケージと比較した論文をarxivに掲載している。 http://arxiv.org/pdf/1508.04409v1.pdf rangerは速い…のか? 既存のランダムフォレスト実装としてrandomForest、randomForest、bigrf、randomForestSRC、Random Jungle、Rboristが比較されている。 私が扱うデータはほとんどがサンプルサイズ>>特徴量数というデータなので、Table2とFigure4が比較結果として参考になる。 Table2ではサンプルサイズ100,000、特徴量数100というデータに対して各パッケージの処理速度とメモリ消費量を比較している。 ざっとみた感じ高速なのは二値型の特徴量(dichotomous
2. 1. Random Forests 2. 学習を用いたキーポイントマッチングの高速化 - Random Forestsを用いたキーポイントマッチング 2段階Random Forestsによる高精度化 3. Random Forestsを用いた物体検出 4. Random Forestsを用いた人体姿勢推定 5. Regression Forests 6. その他の問題設定への応用 1. Density Forests 2. Semi-Supervised Forests 2 3. Random Forests [Breiman, 2001] • アイデア ‒ 決定木学習 + アンサンブル学習 + ランダム学習 • 別名 ‒ Randomized Trees ‒ Randomized Forests ‒ Randomized Decision Forests • できること ‒ マルチ
特徴選択(とくちょうせんたく、英: feature selection)とは、機械学習と統計学の用語であり、頑健な学習モデルの構築のため、特徴集合のうち意味のある部分集合だけを選択する手法のことを指す。特徴量選択、変数選択、特徴削減、属性選択、素性選択、変数部分集合選択などとも呼ばれる。生物学の文脈では、DNAマイクロアレイの実験に基づいて影響力のある遺伝子を検出する手法を指す場合もある。不要で冗長な特徴量をデータから除去することによって、特徴選択は学習モデルを次の点で改善する: 次元の呪いの効果を緩和する。 汎化性能を向上させる。 学習を高速化する。 モデルの可読性を改善する。 特徴選択を行うと、データのうちどの特徴量が重要でありどのようにそれらが関係しているかなどといった点について、人間が理解しやすくなるという効果もある。 単純な特徴選択アルゴリズムは場当たり的なものだが、より系統だっ
今回は集団学習(アンサンブル学習)で良く出てくる、バッギング、ランダムフォレスト、ブースティングについてメモしておきます。参考にしている教科書はこちらです。貼りつけている数式もこの教科書から抜粋しています。 The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics) 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman出版社/メーカー: Springer発売日: 2008/12/01メディア: ハードカバー購入: 1人 クリック: 222回この商品を含むブログ (16件) を見る どの手法も、「弱い学習器」をたくさん集めて良い予測値を得ることを目指してい
Random Forestを用いた欠測 デ タの補完とその応用 データの補完とその応用 2010年11月16日 大学入試センター 研究開発部 石岡 恒憲 研究開発部 石岡 恒憲 1 欠測デ タの取り扱い 欠測データの取り扱い � 欠測データの補完(impute);欠測値を埋める � 欠測データの補完(impute);欠測値を埋める � 欠測の確率をモデル化(Rubin,1976) � Missing completely at random, MCAR; 欠測するかどうかはモデリングに用いている変 数に依存しない � Missing at random, MAR;欠測するかどう g , ;欠測する う かは欠測値に依存せずに観測値に依存する � Not missing at random NMAR;欠測値は � Not missing at random, NMAR;欠測値は 観測していな
• – • – • • • – – • – • – – – • • • – • – • – • – – – • – – – – • • • • • • • • – – • ℎ∗( , ∗) • ℎ∗ • – • • • – – • ℎ∗( , ∗) • ℎ∗ • – • • – – • • • • – – • ℎ∗( , ∗) • ℎ∗ • – • ∗ ∗ ∗ ℎ∗ = arg max = = • ∈ • ∈{ , } • • ∗ ∗ ∗ ℎ∗ = arg max = = • • – – • ℎ∗( , ∗) • ℎ∗ • – • • – – – • – – – – • • • • • – • ∗ – – • – – • • – • – – – • – – – – • • – – • • • • – – ( , ∈ 1, … , ) • • – – • Input depth image
はじめに 簡単だけど性能がよく、様々な実装が公開されていてマジでパナいと噂の、ランダムフォレストで遊んでみる。 ランダムフォレストとは Breimanによって発展改良された、複数の相関の低い決定木を組み合わせる集団学習の一つ 詳細な紹介や内容は「参考」を参照 これ自体は、枠組み(フレームワーク)的な感じが強い 単純な場合、以下のようなパラメータがある 決定木の個数 決定木で使用する学習データの割合 決定木の種類 決定木の深さの制限 決定木の各ノードで使用する判別関数・基準 決定木で使用する素性の割合 など 各決定木間の相関が低くなるよう、いろんなところにランダム性を取り入れている 逆に相関が高い場合は、みんな同じような結果を出力しやすいので、みんな間違えてると意味がない また、各決定木は独立しているので、並列処理できる いろんな実装 本家Breimanによる実装(Fortran)、Open
統計学の主な目的の1つは、標本データを用いて母集団の性質を推測することである。同じ母集団から抽出した標本であっても、無作為であるため標本を構成する要素、標本のサイズが異なると、それらの統計量(比率、平均、分散など)は異なる。従って、標本データを用いて母集団の性質を推測する際には常に誤差が伴う。 正規分布N(μ,σ2)の母集団から抽出した大きさnの無作為標本の平均はN(μ,σ2/n)に従うことが知られている。σは一定の条件のもとでは標本の不偏標準偏差を用いることも可能である。このように正規分布、t分布、x2分布などの確率分布を用いて母数やモデルの推定およびその推定の誤差を計算することができる。しかし、問題によっては確率分布を仮定できないケースも少なくない。そこで、1970年代にエフロン(Efron)は確率分布の性質に頼らないブートストラップ(bootstrap)という方法を提唱した。ブート
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く