Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。 データの詳細については付属のREADMEも参照のこと。
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
グーグルは2007年11月1日、「N-gramデータ」と呼ばれる、語と語のつながりやすさを示すデータを公開した。例えば「グーグルで」という言葉の後には、「検索」という語が使われることが最も多い、といったことが分かるデータだ。インターネットで収集した膨大な日本語データを解析することで作成した。勤務時間の20%を自分の好きなことに使える同社のルール(いわゆる「20%ルール」)によって生まれた成果だという。 N-gram言語モデルとは、N-1個の語のつながりから、N個目に来る語を予測する手法。例えば「グーグル」と「で」という2つの語に続く、3語目の言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから正しい漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識などの処理において、有効に活用されている。今回グーグルは、この手法で使われるデータを作成、公開した。 どの語とど
Everex Green gPC TC2502 米Wal-Martが199ドルの低価格デスクトップPC「Everex Green gPC TC2502」の販売を開始した。Googleのオンラインアプリケーションを日々利用しているユーザーを想定してデザインされた「gOS」を搭載しており、Google PCと呼べそうな内容となっている。 gPC TC2502は、CPUが1.5GHzのVIA C7-D、512MBのDDR2メモリ、80GBのHDD、10/100Mbps Ethernet、DVD-ROM/ CD-RWドライブというハードウエア構成だ。最大の特徴はUbuntuベースのgOSを搭載している点だ。gOSは「Google appsおよび他のWeb 2.0 appsを利用するための新たな選択肢となるように開発された」という。gPCはSkype、Gimp、OpenOfficeなどのローカルアプ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く