統計的かな漢字変換において、系列ラベリングの枠組みを利用したクラスバイグラムやCRFでは、系列のマルコフ性を仮定して計算量を下げている。しかし文中の2つ以上離れた単語の間には関連性があると考えられるので、共起情報を利用して変換精度を上げるという工夫が行われている。ここでは、かな漢字変換における共起情報の利用について考える。 非局所素性を用いたかな漢字変換NLP2011でジャストシステムの高岡さんらの発表を聞いた。NLP2011 programCRFで文中の共起を素性として取り込むために、ラティス中のパスを展開したりして実装するというもの。実際には展開する長さを制限しないと計算量が爆発してしまうとのことで、完全な大域的素性を取り入れるのは難しいようだ。CRFではなくStructured PerceptronやStructured SVMを使えば、ViterbiだけでForward-Backw