[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

LDAに関するa_kimuraのブックマーク (5)

  • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 - SmartNews Engineering Blog

    ハイパーパラメータは自由に設定する値です。 確率分布 $ \theta_{ik} $ などをまとめて$ {bf \Theta} $などと書くと、 ハイパーパラメータを$ {\bf \alpha}$, ${\bf \beta}$と設定したとき、 トピック混合率が$ {\bf \Theta} $で、単語生成率が$ {\bf \Phi} $で、各単語の背景トピックが$ {\bf Z} $であるような文章群$ {\bf W} $が得られる確率$P({\bf \Theta}, {\bf \Phi}, {\bf Z},{\bf W} |\alpha,\beta)$は以下のような図(グラフィカルモデル)によって表現され、 実体は、 $$ P({\bf \Theta}, {\bf \Phi}, {\bf Z},{\bf W} |\alpha,\beta) = \left( \frac{prod_{k}\G

    Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 - SmartNews Engineering Blog
    a_kimura
    a_kimura 2015/04/22
  • トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)

    このシリーズのメインともいうべきLDA([Blei+ 2003])を説明します。前回のUMの不満点は、ある文書に1つのトピックだけを割り当てるのが明らかにもったいない場合や厳しい場合があります。そこでLDAでは文書を色々なトピックを混ぜあわせたものと考えましょーというのが大きな進歩です。さてこの記事の表記法は以下になります。前回のUMの場合と同一です。 右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。データは前の記事参照。 グラフィカルモデルは以下になります(左: LDA, 右(参考): 前回のUM)。   見ると四角のプレートがまで伸びてきただけです。しかしながらこれが曲者でUMからかなりのギャップがあります。以下の吹き出しの順に説明していきます。 ① ここではハイパーパラメータからディリクレ分布に従って『文書の数だけ』が生成されます。このは以下のような

    トピックモデルシリーズ 4 LDA (Latent Dirichlet Allocation)
  • トピックモデルシリーズ 2 NB(Naive Bayes)

    このシリーズははじめの2ステップ(NB→UM→LDA)がとっつきにくいですがそこまで理解すれば後のモデルの拡張はそんなに難しくは感じませんでした。そのためNBから順にしっかり理解することが重要と思います。またNBとUMは文書のトピックが与えられているかそうでないかの違いしかなく、BUGSコードは全く同一のまま動きます(Stanでは離散パラメータを含みますので多少面倒になります)。今回はNBの分かりやすい説明を試みたのち、実際にStanでの実装と結果を見ていきたいと思います。 はじめにこの記事の表記から。以下になっています。 右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。与えられているデータ(前回の記事の data1 の w.1)は以下の図のようになっています。 文書が1-100(M)まであり、その各文書に144(V)種類の単語のいずれかが出現しています。

    トピックモデルシリーズ 2 NB(Naive Bayes)
  • 第二回機械学習アルゴリズム実装会 - LDA

    2. 自己紹介 • 礒部正幸(いそべ まさゆき) • 職業: ソフトウェアエンジニア • 現在: アドファイブ(株) 代表 http://www.adfive.net – 今のところ代表1名の会社です – アドテク、データドリブンマーケティング事業 • ソフトウェアコンサルティング及び受託開発 • 理系大学院卒 • インターネット活動 – TwitterID: @chiral – (ブログ:アドファイブ日記) http://d.hatena.ne.jp/isobe1978/ • 最近実装したアルゴリズム – カルマンフィルタ、粒子フィルタ、Restricted Boltzmann Machine、ベイズロジスティック回帰、uplift modeling, SCW, LDA 3. Topic Modelingとは • 主に文書データを想定したクラスタリング – クラスタリング = 教師なし分

    第二回機械学習アルゴリズム実装会 - LDA
  • Clustering - RDD-based API - Spark 3.5.3 Documentation

  • 1