[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

ブックマーク / odz.hatenablog.com (4)

  • Wikipedia コーパス - odz buffer

    Wikipedia はそのダンプデータを公開しているので、自然言語処理の研究で利用するひとが結構いたりする。 なので、ためしに英語Wikipedia のダンプデータのXMLをパースしながら、適当に書式情報を削除して1項目1ファイルにして HyperEstraier の文書ドラフト形式で出力してみた。 日語版で、抽出に 13 分、インデキシングに 75 分。英語版で、抽出に 60 分、インデキシングに 3 時間というところ。(CPU: Intel Xeon 2.66GHz) #!/usr/bin/env python # -*- coding: utf-8 -*- import sys import os import codecs import re from itertools import izip, count from xml.etree import ElementTree

    Wikipedia コーパス - odz buffer
  • shell のちょっとしたテクニック - odz buffer

    後輩が cat README | tr ' ' '\n' | sort | uniq -c | sort -nr | head てなテクニックを見て、びっくりしたみたいな話をしていたのだが、こういうパイプラインを利用するテクニックを学んでいないのは色々損な気がする。 ていうか、サーバで丸一日以上かかるような処理を実行するのもしょっちゅうなのに、GNU screen も nohup も知らないってのはいろいろ支障があるような気もするのだが、だれも教えないものかなぁ。 ということで、bash or zsh のちょっとしたテクニックとか*1。リダイレクトとかパイプラインは略。 連続実行 単純に連続実行。 % foo; barfoo が正常終了したときだけ bar を実行 % foo && barfoo が正常終了しなかったときだけ bar を実行 % foo || bar&&、||は来は論理演

    shell のちょっとしたテクニック - odz buffer
  • UTF-8N - odz buffer

    ref:某日記(中期) via:ときどきの雑記帖 リターンズ 2006年11月 ちょっと気になったので調べてみたらこんなんが出てきた。 UTF-8N? XMLと文字メーリングリスト メッセージ閲覧 大元は「Forms of Unicode」という、Unicode Consortium の President である Mark Davis が書いた文章。以下、Unicode メーリングリスト で Mark Davis が書いた文章から引用 "Note: The italicized names are not yet registered, but are useful for reference." and "UTF-8N" is italicized. It is not a registered name, and should not be used outside of a clo

    UTF-8N - odz buffer
  • odz buffer - Hatena Bookmark AutoPager お気に入り対応版

    はてブオートページャー < 19 < June < 2006 < nulog, NULL::something : out of the headphone 勝手にお気に入りに対応させてみた。ついでにページ切り替え用のリンクも削除。 hatenabookmarkautopager.user.js // ==UserScript== // @name Hateba Bookmark, autopager // @description work on bookmark list or favorite list (not entry list) // @namespace http://lowreal.net/ // @include http://b.hatena.ne.jp/*/* // ==/UserScript== (function () { var loaded = 20; va

    odz buffer - Hatena Bookmark AutoPager お気に入り対応版
  • 1