一つに結合された住所文字列から、『都道府県』、『市区町村』、『町域名以降』を高速に分割したい。 簡単に思いつく方法としては、日本郵便で公開されている住所データを元に1行づつ比較していく方法が考えられますが、生成に時間が掛かってしまいます。 こんな時にmecabを使うと簡単且つ高速に分割できます。 住所辞書の作成 まずは住所辞書を作成します。 そのために住所辞書の元になるデータ用意する必要がありますが、今回は日本郵便で公開されている郵便番号データを使いました。 公開されているデータファイルはlzh形式となっているので、lhaで解凍します。 CentOSでのlhaのインストールは『CentOSでlhaを使う - 理想未来はどうなった?』を参考にしてください。 wget http://www.post.japanpost.jp/zipcode/dl/kogaki/lzh/ken_all.lzh