You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン
2013-12-24: お知らせ 本ソフトウェアの所作がプログラム開発時の意図とは異なるケースをこの間に何件かご報告頂いています。本ソフトウェアは公開以来ご好評を頂いており、最新の環境へ追従すべく可能な限りの保守を継続してきましたが、現時点では新たに調査・改訂を行う目処が立っておりません。そのため、大変残念ですが本ソフトウェアの公開を一時的に停止させて頂きます。ご利用者の皆様におかれましては何卒宜しくご理解・ご了承下さいますようお願い致します。 2012-11-15: お知らせ 以下の問題に対応したテスト版パッチモジュールを公開します。 HttpLogger を有効にした状態で Windows 8 (32bit / 64bit) 初出の Internet Explorer 10 を起動するとエラーが発生する。 この版には先日パッチを公開した「Firefox 12 以降での動作不良に関する修
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
2007.03.01 Thursday ●クエリーの解析 クエリーを解析してみると、なかなか面白い。 googleやmsnでは、普通に「q=」の次に検索ワードが入っているのだが、 国内では最大手の検索サイトYahooのクエリーストリングを見てみると、なんと・・・ -- Yahooからのクエリーストリングを見てみると、いくつかのパターンに分類される。 http://search.yahoo.co.jp/search?p=%E5%A4%A7%E5%A1%9A%E6%84%9B %E3%83%99%E3%82%B9%E3%83%88%E3%82%A2%E3%83%AB%E3%83%90%E3%83%A0 %E3%83%AC%E3%83%B3%E3%82%BF%E3%83%AB%E3%80%80TSUTAYA&ei=UTF-8&fr=top_v2&x=wrt http://
More than 5,000 companies count on our digital courses and more to guide their teams through the tools and technologies that drive business outcomes. We can help yours too. New AI policy for O’Reilly authors and talent O’Reilly president Laura Baldwin shares the company’s ethical approach to leveraging GenAI tools and ensuring O’Reilly experts are compensated for their work. See it now It’s time t
llameradaの日記 - JavaScriptによる全文検索エンジン JavaScriptでインデクス型の全文検索エンジンを作ってみた。全文検索エンジンを作る際に問題となるのは、インデクスデータを部分的に読み込む方法である。 JavaScript による全文検索エンジン。 JavaScriptによる、とはいってもインデックス作成部分はRubyによって作成されているらしいです。 検索を行う部分がJavaScriptによって構築されていて、1gramによる検索を行うようです。 クライアントサイドのJavaScriptによってこういったことをやってしまうというのはなかなか面白く、興味深いですね。 こういったソフトウェアがオープンソースなんかで発展していって欲しいですね。 関連エントリ JavaScriptオンリーで動く高速サーチエンジン&タグクラウド
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く