[B! algorithm] tettsyunのブックマーク

grn_dat - 参照ロックフリーなダブル配列

grn_dat - 参照ロックフリーなダブル配列注意: トライやダブル配列に関する知識があっても何のことやらサッパリ分からないかもしれません． written by Susumu Yata. はじめに grn_dat は，キーと ID の関連付けに用いるモジュール grn_pat, grn_hash の新しい仲間です．Common prefix search と Predictive search をサポートしつつ，高速な参照を実現します．その代わり，メモリ消費が大きいという欠点があります．特性を簡単にまとめると以下のようになります．モジュール名データ構造検索機能時間効率空間効率 grn_pat パトリシアトライ ◎ △ ◎ grn_hash ハッシュ表 △ ◎ ○ grn_dat ダブル配列 ○ ○ △ grn_dat の役割は，grn_pat, grn_hash の隙間を埋

tettsyun 2011/12/05

trie

algorithm

リンク

定兼邦彦 (Kunihiko Sadakane) - 簡潔データ構造講義資料 - researchmap

researchmapは、日本の研究者情報を収集・公開するとともに、研究者等による情報発信の場や研究者等の間の情報交換の場を提供することを目的として、国立研究開発法人科学技術振興機構（JST）が運営するサービスです。

tettsyun 2011/12/05

algorithm

リンク

私のブックマーク：簡潔データ構造

田部井靖生（科学技術振興機構 ERATO湊離散構造処理系プロジェクト研究員) はじめに近年、Web技術や計測技術の発展により言語やゲノムデータは大規模化しています。従来のデータ構造は大規模データを扱うにはサイズが大きくメモリに載らない、しかし、圧縮するとランダムアクセスをすることができないという欠点があります。簡潔データ構造とはデータを小さく保存かつ高速な操作が可能なデータ構造です。近年、集合、文字列、木、グラフデータを扱うための簡潔データ構造が提案され注目を集めています。私たちの身近なアプリケーションとして、Google日本語入力では簡潔木LOUDSの実装が使われ、実際に使われはじめています。また、有志によるそれらを解説したサイトやライブラリなども利用可能になりつつあります。そこで、このページでは簡潔データ構造を用いた研究開発のためのいろいろなリソースを紹介します。解説記

tettsyun 2011/09/22

algorithm

リンク

mots quotidiens.

研究上必要があって, 前々からずっと気になっていた, SleatorとTarjanのスプレー木(Splay Tree) [LINK] を実装した。スプレー木は「自己調整(自己組織化)二分木」ともいわれる通り, 頻度の高いアイテムをアクセスの際に木の上の方に自動的に持ってくることで, 高頻度なアイテムへの高速なアクセスを実現する順序木。自然言語の文字列や単語列の頻度は偏りや Power law の固まりなので, 非常に適していると思う。かつ, 最悪の場合でもスプレー木は全体を通して, O(log n) のアクセスを提供することがわかっている。トライを表現するデータ構造としては, 松本研的には Double Array やその実装である Darts がすぐ思い浮かぶと思いますが, Double Array は既に固定されたトライには高速にアクセスできるものの, 新しいノードの

tettsyun 2011/06/02

splay tree

algorithm

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

tettsyun 2011/06/02

algorithm

リンク

最近のDoubleArrayの性能 - 射撃しつつ前転改

DoubleArrayの性能に関して、最近は少し改善されているかも知れませんとあるので、具体的にどれぐらい改善されているのか、少し書いてみます。もちろん、現実逃避です。まず、DoubleArrayがなんなのかというところから説明をします。DoubleArrayは、簡単に言うとTrieを実現するためのデータ構造の一種です。日本語ではダブル配列と呼ばれているようです。Trieに関しては横着プログラミング第6回: chatty: 小うるさい端末あたりを読めば良いでしょうか。要するにTreeを表現するためのデータ構造です。使い道はいろいろありますが、辞書的なものに使われることが多いでしょうか。 Trieを単純に実現しようとすると、すごくたくさんメモリを使ってすごく速い実装をするか、速度を多少犠牲にしてメモリ消費量を削減するかの選択を迫られます。多くの場合はメモリを節約しないと使いものにならない

tettsyun 2011/06/02

algorithm

リンク

Double-Array

ダブル配列（ Double-Array ）は，トライ（ Trie ）のデータ構造の一種であり，小さい辞書で高速に検索できるという特長を持っています．実際に，茶筌（ ChaSen ）や和布蕪（ MeCab ）などの形態素解析器で利用されているという実績があります．ダブル配列では，配列を使ってトライを表現します．配列の各要素が BASE, CHECK という二つの整数を持つので，頭文字をとって配列 BC と呼ぶことにします．以降の説明では，配列 BC の要素 x の BASE, CHECK をそれぞれ BC[x].BASE, BC[x].CHECK と記述します．通常，BASE, CHECK は個別の配列として紹介されますが，特に分割して考える必要がないので，このような説明にしました．基本的に，配列 BC の各要素はトライの節と一対一で対応します．そのため，対応する

tettsyun 2011/06/02

algorithm

リンク

最近のtrieの話（xbwなど） - Preferred Networks Research & Development

ブログの更新がとまっていましたが、また少しずつ更新してきたいと思います。今回はtrie（トライ）の最近の話をしたいと思います。 trieはキー集合を扱うためのデータ構造の一種です。例えば、単語集合からなる辞書であったり、クロールしたURL情報を扱ったり、最近だと、KVS（Key Value Store)のようにキーを介してデータを保存、読み込みをしたりと様々な場面で利用されます。同じようにキー集合を格納するデータ構造としてハッシュを利用する方法があります。キーからハッシュ値を計算し、その場所に文字列へのポインタを格納しておくデータ構造です。ハッシュを利用した場合とtrieを利用した場合の一番の大きな違いは、trieの場合だと、ある文字列から始まるキーを全て列挙する、いわゆる接頭辞探索ができることです。例えば”te”で始まる文字列を網羅的に調べることができます。木をたどって、”te”の下

tettsyun 2011/05/21

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

tettsyun 2011/03/31

algorithm

リンク

Sign in - Google Accounts

Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

tettsyun 2011/03/25

FSA

algorithm

リンク

MinHashによる高速な類似検索 - Preferred Networks Research & Development

年が明けてもう一ヶ月経ちましたね．岡野原です．今日はMinHashと呼ばれる手法を紹介します．これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている）．今や世の中のあらゆる種類のデータが，高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました．例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル（Bag of Words）で表し，画像データも，SIFTをはじめとした局所特徴量を並べた特徴ベクトル（とそれをSkecth化したもの）として表せます．行動情報や時系列データも特徴量をうまく抽出する．グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ，グラフの特徴をよく捉えることができるのが最近わかっ

tettsyun 2011/02/28

algorithm

リンク

Marpa is now O(n) for Right Recursions | Ocean of Awareness [blogs.perl.org]

tettsyun 2011/02/13

algorithm

リンク

話題のwat-arrayを使ってBurrows-Wheeler変換(BWT)してみた - EchizenBlog-Zwei

先日PFIの岡野原氏によってwat-arrayというライブラリが公開された。 wat-array : wavelet木を利用した高速配列処理ライブラリ : Preferred Research Blog このライブラリは内部でウェーブレット木(wavelet tree)という簡潔データ構造(succinct data structure)を使っている。このため文字列に対するrank()やselect()などの操作が効率的にできるようになっている。・・・といっても馴染みのない人にとっては何が嬉しいのかピンと来ないかもしれない。そこでBurrows-Wheeler変換(BWT, Burrows-Wheeler Transf orm)を例にとってwat-arrayの使いみちを説明してみる。 Burrows-Wheeler変換というのはテキストを同じ文字が並びやすいように変換したもので、通常ランレ

tettsyun 2011/01/03

リンク

wat-array : wavelet木を利用した高速配列処理ライブラリ - Preferred Networks Research & Development

こんにちは岡野原です。もう年末になりましたが、私の今年はこれからです。 wat-arrayというC++ライブラリを公開しました。 google code:wat-array wat-arrayはフリーソフトウェアであり、修正BSDライセンスに基づいて利用できます． wat-arrayはwavelet木と呼ばれるデータ構造を利用することにより、配列上の様々な処理を効率的に行うことができるC++ライブラリです。例えば、 – 任意の連続した範囲内にある最大値 /最小値 / k番目に大きい値, またそれらの出現位置、頻度 – 任意の連続した範囲内にある指定した文字cの出現回数、c未満/より大きい文字の出現回数 – 任意の文字のi番目の出現位置といったものを求めることが全て範囲長、入力長に対して定数時間で行うことができます。例えば長さ10億、値の範囲が0から1000万であるような配列A中のA[

tettsyun 2010/12/18

リンク

大規模データで単語の数を数える - ny23の日記

大規模データから one-pass で it em（n-gram など）の頻度を数える手法に関するメモ．ここ数年，毎年のように超大規模な n-gram の統計情報を空間／時間効率良く利用するための手法が提案されている．最近だと， Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EM NLP 2010) とか．この論文では，最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など，細かい技術を丁寧に組み上げており，これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象（ちょうど論文を読む直前に，この論文の7節の

tettsyun 2010/11/19

リンク

生物情報科学科　情報基礎実験　３年生冬学期水曜日　（森下研究室担当）

tettsyun 2010/11/13

algorithm

リンク

開発メモ: ローカルMapReduceの性能

Kyoto CabinetにMapReduceを実装したという話は前回書いたが、そのLuaバインディングでもMapReduceをサポートした。また、Kyoto Tycoonとそのスクリプト言語拡張でもMapReduceをサポートした。今回はその性能について解説する。ローカルMapReduceのツボ世に言うMapReduceは分散処理のフレームワークだけれども、KC/KTの「ローカルMapReduce」は分散処理を行わない。分散処理をしなかったらデータ処理能力が上がらないじゃないかと思うかもしれないけれども、そうとも限らないのだ。前回も書いたけども、MapReduceフレームワーク部分をうまく実装すると、時間効率と空間効率の双方を向上させることができる。特にキャッシュとソートの部分に工夫がある。 MapReduceは、リポジトリ内（KCではデータベースファイル内）の各レコードからキーと値

tettsyun 2010/11/08

リンク

mots quotidiens.

θ = [0.4, 0.3, 0.2, 0.1] のような離散分布をランダムに初期化したいということは, 自然言語処理や混合モデルの学習でよくある状況だと思う。下で書くようにこれはガンマ分布からのサンプリングに還元できるので, MCMCなどのベイズ学習一般にもよくある問題。さて, θは適当に [0,1] の一様乱数で初期化してもいいのだが, 値がかなりバラバラになってしまうので, 例えば [0.2609, 0.2836, 0.1974, 0.2581] のように「ある値を中心としてそこから少しずれた」ように初期化したい時は, θ ~ Dir(α) とディリクレ分布からサンプリングすればよい。ディリクレ分布 Dir([α1,α2,..,αK])からのサンプルを取るには, ガンマ分布に従う独立なサンプル γk ~ Ga(αk, 1) (k = 1 .. K) を発生させて, それを

tettsyun 2010/11/08

algorithm

リンク

計算機シミュレーションのための確率分布乱数生成法を買った - 射撃しつつ前転改

Dirichlet分布からのサンプリングを実装するときに使おうと思って、echizen_tmさんのところで大プッシュされていた計算機シミュレーションのための確率分布乱数生成法を買った。結局、Diriclet分布からのサンプリングについてはガンマ分布からのサンプリングに還元でき、ガンマ分布からのサンプリングはこちらの調査資料の方に詳しく載ってた(pdf)ので、この本が届く前に実装は終わってしまったのだが、600ページ近くあって、いろいろな分布からのサンプリング法が載っているので、これからきっと、役に立つ日がくるだろう。とりあえず、正規分布からのサンプリングで、Box-Muller法よりも速い方法を探していたのだが、Ziggurat法というのがBox-Mullerの5倍ぐらい速いらしい。Wikipediaと違って正規分布の場合に特化した場合の実装方法が載っているので、後で実装してみようと思

tettsyun 2010/11/08

リンク

Spaghetti Source - 各種アルゴリズムの C++ による実装

ACM/ICPC（プログラミングコンテスト）系列の問題を解くことを目標にして，各種アルゴリズムを C++ で実装してみた．極めて意地が悪い類の問題には対応していないし，特定の入力に対して高速に動くということもない．計算量も最良とは限らない．これらを参考にする方への注意とお願い：これらの記述は正確とは限りません．参考文献を参照することを強く推奨します．間違っている場合は是非教えてください．これらのプログラムは間違っているかもしれません．各人で検証することを強く推奨します．バグがあれば是非教えてください．分類が怪しいので，これはこっちだろう，ということがあればコメントを下さると助かります．注意！現在書き換え中 TODO 分類を正しく行う．全体的に説明と使い方を詳しく． Verify していないものを Verify．ボロノイ図（いつになることやら……）基本テンプレートグラフ

tettsyun 2010/11/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (40)

algorithmに関するtettsyunのブックマーク (199)

お知らせ

今週のはてなブックマーク数ランキング（2025年3月第2週）

月間はてなブックマーク数ランキング（2025年2月）

旧バージョンのChrome拡張機能についてのお知らせと新バージョンご利用のお願い

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス