2008-03-13
Singular Value Decomposition
応用:
- 擬似逆行列, linear least square を解く
- range, rank, null space を求める : range とか null space ってなんだっけ?
- モデルの分離 (よくわからん.)
- 天気予報 (よくわからん)
- Principal Component Analysis
- latent Semantic Indexing (しらね)
証明はパス.
- 幾何的な解釈 : おもろい
計算:
- LAMPACK とか. 素朴な実装は unstable
ほか:
- 色々な省略バージョンがある
- 高次への拡張がある
歴史:
- 百年以上前: 1874 年とか.
- アルゴリズムも昔: 1954, 1965
よし. だいたいわかった気がする.
ユニタリ行列
- http://oshiete1.goo.ne.jp/qa1205869.html
- http://en.wikipedia.org/wiki/Unitary_matrix
- 内積(エルミート内積)を保つ変換
- 量子力学とかはパス...
しかしぐぐって日本語の教えて goo がひっかかるのはいいな. 自分の数学レベルがいかに低いかってことだけど, そりゃ仕方ない.
Dimension reduction
- Feature Selection
- Reature Extraction
ようわからん. PCA を先に読んだ方が良さそう.
PCA
- bisforest あっさりすぎ.
- Wikipedia は紛争中なのでパス: http://en.wikipedia.org/wiki/Principal_components_analysis
- 解説記事リンク from wikipedia
- LSA が類似の概念. http://en.wikipedia.org/wiki/Latent_semantic_analysis
- Bishop の本では下巻の範囲だった...
とりあえず Wikipedia の LSA を読んで, わからんかったら PDF をあたろう....
とりあえず(教師なし)次元縮約の一種ではあるらしい. まず教師がいるのか...
しごとしよ...
[Book] Data Mining: Concepts and Techniques@朱鷺の杜Wiki
Database 寄りかー. やっぱしいずれは読まんとね. しかし統計寄り, DB 寄り, 機械学習寄りと派閥があるのか. 当然 DB 寄りが love だよな.
目次とか.
Slope-One
読み中. 論文は式をノートに書き写しながら読んだ方がいいのではないか, と思いたち, ためしてる. 写経だね. しばらくやってみる.
Slope-One
- Update が速い. user vector (evaluation vector) を参照しないから.
- 実装が simple
- indiscover.net で使われている(た)
- weighed slope-one というのもある. ちょっといい.
Bi-polar Slope-One
deviation を求めるとき, アイテム i,j "両方" が好きか, "両方" が嫌いな人のみを使う. どうしてこれが良いのか? 書いてない.
結果は pearson よりちょっと悪いくらい. Bi-polar なら同じくらい.
LSA
- term-document の ocurrence matrix を term-concept-document の関連に変換する.
- occurent matrix の low-rank approx をつくる
- でかすぎると計算機で扱えない
- ノイズ除去になる
- 元は sparse すぎる
- synonim: 同義語
- polysemy: 多義性
- SVD キターー!
- SVD の実装についても. (何故か SVD の項より詳しい...)
- 近年インクリメタルな実装があらわれた. メモリ食わなくてよいらしい.そのうち読んだ方がいいかも.
制限
- 解釈がむずかしい.
- LSA の確率モデルのはなし. よくわからん.
- ただ問題を解決するのに pLSA (probabilistic LSA)というのを使えと書いてる. むずかしそうなので必要になるまでパス.
よむ?
- DONE: Vectorial semantics : ざっと読んだ. tf-idf みたいな doc-term model のこと.
- Latent Semantic mapping
- Spamdexing
行列
正方行列じゃない行列って慣れない... なんかこう, 行列の次数に関して根本的に間違った視覚的印象を 自分の中に持っちゃってるなー. これがトラブルのひとつだな.
今日はこう, 線形代数の基本的なところの理解が進んだなあ... 右からかけるとき...横長の行列は, "圧縮して" 出してくる. 縦長の行列は "薄めて" 出してくる.
うおー比喩を身につけた! 線形代数レベルが上がった気がする! lv.1 -> lv.2 みたいな水準だけど, 妙にうれしい.
ねる
明日は PCA かなー. まず wikipedia みて, clutter ぽかったらリンク先の PDF みる.