[B! nlp] tokadaのブックマーク

ヽ( ・∀・)ノくまくまー(2010-01-03)

● [Ruby] chawan chasen (形態素解析システム)を Ruby から使うには、yu-yan 作の gyokuro ライブラリが便利でずっと愛用していたのだが、最近の UTF-8 な chasen だと相性が悪いみたい。困ってても仕方ないので、とりあえず自作。chasen の受け皿として chawan と命名。 http://github.com/maiha/chawan インストール

tokada 2010/01/04

ruby
nlp

リンク

はてなブログ | 無料ブログを作成しよう

オーベルジーヌ実食レポ食べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか都内にあるデリバリー専門のカレー屋で、ロケ弁などで大人気の本格欧風カレーが楽しめるらしいいいな〜いいな〜オブザイヤー都内の奴らはこんな良いモン食ってんのか許せねえよ………

tokada 2009/12/05

リンク

思いどおりの日本語入力 - Google 日本語入力

本日、Google 日本語入力 (ベータ) をリリースしました。 Google 日本語入力は Windows (現時点では 32 ビットのみ) および Mac に対応した日本語入力ソフトウェア (インプットメソッド) です。豊富な語彙と強力なサジェスト機能で思いどおりの日本語入力をサポートします。 Google 日本語入力は桁違いの語彙力を持っています。Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています。現在の Web のありのままを反映したインプットメソッドと言えます (この辞書および統計的言語モデルの作成は Google の大規模分散処理システム MapReduce を用いて、数千台規模

tokada 2009/12/04

リンク

はてなブックマーク開発ブログ

はてなブックマークのブックマーク数が多い順に記事を紹介する「はてなブックマーク数ランキング」。12月9日（月）～12月15日（日）〔2024年12月第2週〕のトップ30です*1。順位タイトル 1位無自覚にメンバーの心理的安全性を奪っていた経験から得た学び - Speaker Deck 2位重度知的障害の女性が活躍する仕事川崎 “あるシステム”が決め手に職場全体にメリットも | NHK 3位犬とおばあちゃん助けたら最近かなりいい感じ 4位セロトニンを補う薬がびっくりするほど効く人たち | Books&Apps 5位コワーキングスーパー銭湯ランキング（東京近郊） 6位あるXユーザーの「娘が4～5歳の頃にハマったボドゲ」全26種の紹介ツリーが参考になる→クリスマスに子どもからボドゲを所望された親御さんは必見 - Togetter [トゥギャッター] 7位一つ嫌なことがあると

tokada 2009/10/08

リンク

はてなのようなキーワードリンクをRubyで付与する実例 - グニャラくんのグニャグニャ備忘録@はてな

hrjn: はてなとかニコニコ大百科のキーワードリンクってどうやってんのかなぁ。正規表現だと死んでしまうので、専用のパーサ作ったりしてんのかな。 http://twitter.com/hrjn/status/2926407314 ニコニコ大百科では、キーワードリンク専用のRubyモジュールを書いています。「SENNA」というキーワードがあったら、「senna」とか「ＳＥＮＮＡ」とかにリンクさせたりとかもできます。 Senna 1.1.4 + Ruby 1.8.6で、UTF-8専用ですが、使いたい人はどぞー。あと、いつもどおりいい加減な書き方なので気をつけて。とりあえず、以下のtest.rb, wordsym.rb, extconf.rb, sen_np_api.cをどこかに放りこんで ruby extconf.rb make sudo make install ruby test.rb 的

tokada 2009/08/10

リンク

RubyForge: Clustering Library for Text data: Project Info

tokada 2009/07/31

リンク

AI Ruby Plugins

AI Related Ruby Extensions This page will maintain list of AI related libraries for the Ruby programming language. Please contact me if you know something I missed. (I plan to migrate this to a wiki soon). While maintaining this list, I have induced* a theory: If a project's first public appearance is documentation without code, code will not appear before the heat death of the universe. * Induc

tokada 2009/07/31

リンク

Googleのページランクにも使われているマルコフ連鎖を利用して文章を要約、もしくは意味不明にする「マルコフ連鎖ジェネレーター」

かの有名な検索エンジン「Google」にはページランクという概念がありますが、そのページランクを支える理論の一つがこの「マルコフ連鎖」というもの。さまざまなジャンルに応用されていることでも有名で、人工知能ならぬ「人工無能（いわゆるチャットボット、会話ボットなど）」にも使われることがあります。で、このマルコフ連鎖を利用して文章を要約、もしくは意味不明にしてくれるのが「マルコフ連鎖ジェネレーター」というわけです。詳細は以下から。マルコフ連鎖ジェネレーター http://itog.sakura.ne.jp/markov/ 意味不明モードか要約モードのいずれかを選び、文章を貼り付けて「ジェネレート」をクリックするだけです吉野家コピペの場合、こうなりました。そんな事より１５０円だよ、ちょいと問いたいだけちゃうんです。女子供は、お前、１５０円やるから店員に来てあるんです。もう見てない、１５０

tokada 2009/07/10

リンク

ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得 - 武蔵野日記

5月21-22日に開催される情報処理学会第191回自然言語処理研究会報告の発表原稿 PDF。小町守, 牧本慎平 (Yahoo!), 内海慶 (Yahoo!), 颯々野学 (Yahoo!). ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得. 情報処理学会第191回自然言語処理研究会. Vol.2009-NL-191, No.9, May 2009. 情報処理学会の bookpark から先週木曜日にダウンロードできるようになったようだが、数カ所式に誤りがある(〆切以降一切修正できない模様)ので、参照される方はこちらを参照されたく。実際の発表前にそんな読む人はいないだろうと思ってのんびりしていたのだが、bookpark 公開バージョンをすでに読まれた方もいるみたいで、みなさまにはご迷惑をおかけしている次第であるが……。ちなみに電子化されたせいかどうか分からないが、ページ数が分からない

tokada 2009/06/15

nlp
research

リンク

NAACL/HLT 2009報告 - DO++

コロラド・ボルドーで開催されたNAACL/HLT 2009に行ってきました。 NAACLは自分の中での分類では自然言語処理の学会で統計的な手法とかが多い学会に思える（それに対しヨーロッパではEACLでは文法とか言語理論とかが多い）。比較的自分にあう学会。開催地となったコロラド大ボルダー校はとてもきれいなキャンパスで（、「全米で最も美しいキャンパス」の4位にランキング）、宇宙飛行士をたくさん輩出してたり、ノーベル物理学賞を４名輩出するなど、研究レベルも高いそうです。で、学会は適当に休みながらまったり聞いていたのですが全体的に教師無学習に関する話が多かったような気がします。教師有学習による言語処理がある程度成熟してきているのに対し、教師無の方はまだまだ伸びしろが多いので研究がしやすいのでしょう。教師無に利用するモデルも、単純な混合分布から、様々な分布が入り乱れる複雑なグラフィカルモデルにな

tokada 2009/06/07

nlp
research

リンク

キーフレーズ抽出API の紹介

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、日本語処理技術部の阿久津剛之です。 Yahoo!デベロッパーネットワークにて、キーフレーズ抽出APIを公開しましたので紹介します。キーフレーズ抽出APIとは、与えられた文章から、その文章を特徴づける重要な部分（キーフレーズ）を抽出し、独自の算出方法により点数付けを行って返すAPIです。例えば、「東京ミッドタウンから青山一丁目駅まで歩いて15分かかります」という文章をキーフレーズ抽出APIに与えると、「東京ミッドタウン」「青山一丁目駅」「15分」という結果が返ってきます。ここで、「青山一丁目駅」に注目してみましょう。「青山一丁目駅」は、日本語形態素解析 APIを用いて解析すると、青山 / 一 / 丁目 / 駅

tokada 2009/06/05

リンク

NEC(Japan)

NECグループ 2024ダイジェスト動画 Purpose実現に向けて歩んだこの1年を2分の動画で振り返ります。

tokada 2009/05/27

リンク

テキストからの評判分析と機械学習

テキストからの評判分析と機械学習鍜治伸裕東京大学生産技術研究所講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習（ML）の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介評判分析を概観する評判分析はこんな技術 • 例： Yahoo!ブログ検索における「VAIO」の検索結果肯定的評判と否定的評判の書き込み数を集計して表示肯定的な書き込みと否定的な書き込みを分類して提示背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成，発信するコンテンツである点がポイン

tokada 2009/05/27

nlp
pdf

リンク

E320 – メタデータ自動生成の可能性−AMeGAレポート

メタデータ自動生成の可能性−AMeGAレポートノース・カロライナ大学図書館情報学大学院メタデータ研究センターは，米国議会図書館（LC）の「ウェブ情報資源の書誌コントロールに関するアクションプラン」（CA1431参照）の一環として，メタデータ自動生成に関するプロジェクトAMeGA（Automatic Metadata Generation Applications）を進めてきたが，2月17日，1年間の調査をまとめた最終レポートを発表した。レポートでは，まず，マイクロソフト社のWordなど数種類のコンテンツ作成ソフトに備えられているメタデータ自動生成の機能について，どの要素を生成するのか，生成する方法はどのようなものかといった点を調査している。次に，カタロガーなど専門家約200人にメタデータのどの部分を自動生成するのが適切かアンケートを行っている。その結果，ダブリンコアでいう言語（lang

tokada 2009/05/27

nlp
semantic

リンク

2ちゃんねるのテレビ番組実況レスを分析・解析することも可能な「情報環流システム」 in 技研公開2009

スポーツ中継やバラエティ、アニメなどのテレビ番組などに対してリアルタイムにみんなが「キタ━━━(゜∀゜)━━━!!」などのコメント（要するにレス）をつけている様子が2ちゃんねるの「実況板」ではよく見られます。この行為は「実況」と呼ばれていて、たとえばプロ野球の中継を見ながら応援の書き込みをしたり、バラエティ番組を見ながら思わずツッコミを入れたり、推理ドラマなら作中の探偵よりも先に犯人を考えたりと、いろいろな使われ方をしています。そこに書き込まれる内容は雑多ですが、番組に対しての視聴者の反応であるということは間違いありません。ここにNHKが目を付けないわけがなく、現在「情報環流システム(Intelligence Circulation System)」というものが考えられているそうです。これはリアルタイムに書き込まれたコメントを分析・解析して今後の番組作りに活かしたり、視聴者のコミュニティ

tokada 2009/05/27

リンク

出現頻度と連接頻度に基づく専門用語抽出 - yasuhisa's blog

この前の続き。先週の週末にやるつもりだったけど、暇がなかった。 MeCabで区切った単語を再びつなげる - yasuhisa's blog 前回の流れとしては専門用語を一つの単語として取ってくるのは難しい MeCabを使うと細かくなりすぎる専門用語には名詞のsequenceが多そうじゃあ、名詞つなげてみればいいんじゃね? ということで名詞を繋げてみるだけというところをやりました(それだけ。。。)。id:niamさんがコメントしてくださったように"出現頻度と連接頻度に基づく専門用語抽出",自然言語処理, 2003を使うと専門用語らしさ(?)のようなスコア付けができるようなので、それをやってみることにしました。とりあえずp6のLR(CN)のところまでを実装。あとはスコア付けの関数を2つくらい用意して、評価指標の関数を用意すれば、という感じです。 # -*- coding: utf-8 -

tokada 2009/05/27

nlp
ruby

リンク

http://db-event.jpn.org/deim2009/proceedings/files/A7-2.pdf

tokada 2009/05/27

リンク

自然言語処理は Python がいちばん - 武蔵野日記

現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

tokada 2009/05/22

python
nlp

リンク

コーパス紹介 - コーパス日本語学のための情報館

はじめに現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。主に現代語の研究を想定したものです．書き言葉青空文庫内容:ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。入手方法2:『インターネット図書館　青空文庫』を購入するとＤＶＤ-ＲＯＭ（青空文庫4843作品ほか収録）が付いてきます。関連文章:夷石寿賀子, 千葉庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日本語用例・コロケーション抽出システム『茶漉』によ

tokada 2009/05/21

nlp
data

リンク

Not found | Nomura Research Institute (NRI)

tokada 2009/05/21

リンク

はてなブックマーク

タグ

関連タグで絞り込む (73)

nlpに関するtokadaのブックマーク (286)

お知らせ

今週のはてなブックマーク数ランキング（2024年12月第4週）

「あとで読む」タグで振り返る2024年〜今年の「あとで読む」、今年のうちに〜

今週のはてなブックマーク数ランキング（2024年12月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (73)

nlpに関するtokadaのブックマーク (286)

お知らせ

今週のはてなブックマーク数ランキング（2024年12月第4週）

「あとで読む」タグで振り返る2024年 〜今年の「あとで読む」、今年のうちに〜

今週のはてなブックマーク数ランキング（2024年12月第3週）

公式Twitter

キーボードショートカット一覧

公式Twitter

はてなのサービス

「あとで読む」タグで振り返る2024年〜今年の「あとで読む」、今年のうちに〜