MS の TechNet には MS-IME チームのブログがあり、ときどき更新されているので、興味ある人は RSS で購読するといいと思う。 たとえばIMEチームの日本語分析を紹介しますでは、実際に MS に送られた変換ログをどう利用しているか、どういう特徴があるか紹介されている。 単に「この単語をよく使う人はこの単語もよく使う」くらいなら、ブログをクロールしたデータとか、もしくは書いたメールや論文から頻度を計算するだけでいいのだが、生の入力を扱える場合に少し違うのは、読みもついている点。 「市場(しじょう)」をよく使う人は、「投資」「戦略」「金融」をよく使う。「市場(いちば)」をよく使う人は、「生花」「陶器」「青果」をよく使う。 なので、こういうデータを集めておけば、「投資」とか「戦略」を使っている新しいユーザが初めて「しじょう」と入れたとき、「紙上」や「四条」より「市場」を上に出した