要約技術と検索技術 (特集 インターネット検索技術と日本語研究) 山本 和英 日本語学 Vol.23, No.2, pp.60-68 (2004.2) (明治書院) 一 はじめに 計算機による要約処理について述べる機会をいただいた。本稿では、現在の要 約技術や研究の動向について日本語学関係者向けに分かりやすく解説すると共 に、本特集の主題であるインターネット検索との関係について述べる。 情報の洪水という言葉を耳にするようになって久しい。計算機の高度化とネッ トワーク化に伴ってありとあらゆる情報が電子化されてきており、特に言語情 報は画像や音声よりも以前からより多くが電子化されてきた。情報が大量にな ると、今度はその中から自分のほしい情報を探す技術が必要になる。これが情 報検索技術である。検索は検索で重要だが、少し考えると我々が本当に求めて いるのは情報を効率的に入手する技術、つまり知り
自然言語処理関連で見つけた出来事を追加していきます。なお、リンクは時間経過と共に切れるかもしれませんが、チェックはしていません。ご了承ください。 [編集] 2008年11月 言語工学研究所、Blog や口コミサイトの評判を解析する「うわさ」ソフトを販売 1ライセンス42万円。 [編集] 2008年10月 米Microsoft、自社開発の機械翻訳サービスを公開 ずっと前から翻訳エンジンを持っていたのにやっと自社技術を公開したのね、という感じがします。性能はどうでしょうか。 [編集] 2008年9月 コンピューターの言語認識向上、セマンティック技術で検索性アップ 時代が意味処理に回帰してきたということでしょうか。 「検索技術で解決したのは易しい90%の問題、残りはタフ」GoogleバイスプレジデントのMarissa Mayer氏がコメント 「Mayer氏は今後解決しなければならない種々の
ティーエフアイディーエフ TF・IDF 索引語の重み付け方法のひとつ。 TF(Term Frequency)は文書dに置ける検索語tの頻度 IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数 文書数Nと索引語tが一回以上出現する文書の数df(t)よって次式のように定義される。 IDF(t) = log10 (N / DF(t)) この両者の積を取ることで、索引語の重み付けを行う。 ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きくなる。 また、多くの文書に索引語が出現すれば、値は小さくなる。 [編集] TF・IDF による重要度 文書を特徴付けるキーワードになるようなタームの性質として、その文書に数多く、つまり高い頻度で現れる(TF)、少ない数の文書にしか現れない(IDF)、というふたつを考える。これはシンプルだが、
[編集] ここでの説明 基本的にPerlを少し使った事のある人がPythonを勉強した時に作ったメモを整理した物です。 文字を取り扱う処理におけるよく利用する基本的な処理をまとめてあります。 [編集] オブジェクト(変数) Pythonでも変数の型定義のような原則行いません。Perlでいう「use strict」を使わない状態と考えてください。 変数の定義は、以下のように行います。 変数名=""#文字列 変数名=[]#リスト 変数名={}#ディクショナリ 代入例 >>>mojirestu="文字列" >>>list=[0,1,2,3,4] >>>dic={"key1":"content1","久保木":"武承"} 実行例 >>>print mojiretsu 文字列 >>>print list [0,1,2,3,4] >>>print list[0] 0 >>>dic {'key1
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く