[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

nlpに関するsotarokのブックマーク (7)

  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

    sotarok
    sotarok 2016/02/01
  • 日本語入力について - アスペ日記

    私が日本語入力について思っていることを書いてみる。 自分としては、デフォルト以外の日本語入力システムとして、ATOKGoogle 日本語入力ぐらい(まあ、Baidu IME とかもあるが)しかないのが心の底から残念でたまらない。 雑誌の特集などで、Google 日本語入力ATOK に単語や文章を変換させて精度を比較しているものを見かける。まあ総合的には同じぐらいの結果になっている。だが、実際に長い間使っているとわかるのだが、Google 日本語入力の間違え方のほうが「理不尽」なのだ。どうしてこれがこうなる? と思わず言いたくなるような。その点、ATOK は弱い部分が前もってわかる。アニメやゲームなど、マニアックな変換には弱い。しかし、ATOK である程度日語の文章を打ち慣れた人にとっては、そういう「難しいだろうな」と思うようなところは、打つ前からそのことがわかるものだ。 ATO

    日本語入力について - アスペ日記
    sotarok
    sotarok 2012/05/12
  • スタンフォード大学の自然言語処理(NLP)の授業公開っぷりがとてつもない件 - Unchained Life

    以前からMITのOCWを中心にアメリカの大学の授業のビデオや資料などが公開されているのは知っていたが、今日知ったスタンフォード大学の授業公開っぷりがものすごい。 http://see.stanford.edu/SEE/lecturelist.aspx?coll=63480b48-8819-4efd-8412-263f1a472f5a 授業のビデオだけではなく、なんと授業のtranscript、つまり授業中に先生がしゃべったことがテキストに書き起こされているのだ。 MITなどでも授業のビデオは公開されていたが、当然授業の内容を理解するには授業資料がある場合にせよ、何をしゃべっているかを自分で聞き取るほか無く、リスニング力が低い僕には結構ネックだった。 それが今回しゃべる内容がテキストになっているということで聞き取れなくてもテキストを見ればよいし、リスニングの勉強にもなる。 しかも公開されてい

    スタンフォード大学の自然言語処理(NLP)の授業公開っぷりがとてつもない件 - Unchained Life
  • The Porter Stemming Algorithm

    This page was completely revised Jan 2006. The earlier edition is here. This is the ‘official’ home page for distribution of the Porter Stemming Algorithm, written and maintained by its author, Martin Porter. The Porter stemming algorithm (or ‘Porter stemmer’) is a process for removing the commoner morphological and inflexional endings from words in English. Its main use is as part of a term norma

    sotarok
    sotarok 2009/08/08
    ステミング / 英単語の正規化とか.ライブラリ.phpとかもある
  • はてなブログ | 無料ブログを作成しよう

    バンドを脱退した理由は「唐揚げ定」だった 最近、Twitterでmixiのことがやたらと取り上げられていた。今更mixi復活するの?といった感じである。mixiは今から20年くらい前にやたらと流行っていたSNSである。俺も一時、アカウントは持っていた。その話は後述する。 俺はSNSはFacebookとInstagramをやっている。In…

    はてなブログ | 無料ブログを作成しよう
    sotarok
    sotarok 2009/05/17
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • Programming Language of Choice

    my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) Some of you know that I (at least used to be) a bit of a programming language snob. In fact, on several occasions, I've met (in NLP or ML land) someone who recognizes my name from PL land and is surprised that I'm not actually a PL person.

    sotarok
    sotarok 2009/03/23
    C/C#/C++/Objective-C はいっしょくたなのか
  • 1