● [Ruby] chawan chasen (形態素解析システム)を Ruby から使うには、yu-yan 作の gyokuro ライブラリが便利でずっと愛用していたのだが、最近の UTF-8 な chasen だと相性が悪いみたい。困ってても仕方ないので、とりあえず自作。chasen の受け皿として chawan と命名。 http://github.com/maiha/chawan インストール
本日、Google 日本語入力 (ベータ) をリリースしました。 Google 日本語入力は Windows (現時点では 32 ビットのみ) および Mac に対応した日本語入力ソフトウェア (インプットメソッド) です。豊富な語彙と強力なサジェスト機能で思いどおりの日本語入力をサポートします。 Google 日本語入力は桁違いの語彙力を持っています。Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています。現在の Web のありのままを反映したインプットメソッドと言えます (この辞書および統計的言語モデルの作成は Google の大規模分散処理システム MapReduce を用いて、数千台規模
はてなブックマークのブックマーク数が多い順に記事を紹介する「はてなブックマーク数ランキング」。12月9日(月)~12月15日(日)〔2024年12月第2週〕のトップ30です*1。 順位 タイトル 1位 無自覚にメンバーの心理的安全性を奪っていた経験から得た学び - Speaker Deck 2位 重度知的障害の女性が活躍する仕事 川崎 “あるシステム”が決め手に 職場全体にメリットも | NHK 3位 犬とおばあちゃん助けたら最近かなりいい感じ 4位 セロトニンを補う薬がびっくりするほど効く人たち | Books&Apps 5位 コワーキングスーパー銭湯ランキング(東京近郊) 6位 あるXユーザーの「娘が4~5歳の頃にハマったボドゲ」全26種の紹介ツリーが参考になる→クリスマスに子どもからボドゲを所望された親御さんは必見 - Togetter [トゥギャッター] 7位 一つ嫌なことがあると
hrjn: はてなとかニコニコ大百科のキーワードリンクってどうやってんのかなぁ。正規表現だと死んでしまうので、専用のパーサ作ったりしてんのかな。 http://twitter.com/hrjn/status/2926407314 ニコニコ大百科では、キーワードリンク専用のRubyモジュールを書いています。「SENNA」というキーワードがあったら、「senna」とか「SENNA」とかにリンクさせたりとかもできます。 Senna 1.1.4 + Ruby 1.8.6で、UTF-8専用ですが、使いたい人はどぞー。あと、いつもどおりいい加減な書き方なので気をつけて。とりあえず、以下のtest.rb, wordsym.rb, extconf.rb, sen_np_api.cをどこかに放りこんで ruby extconf.rb make sudo make install ruby test.rb 的
AI Related Ruby Extensions This page will maintain list of AI related libraries for the Ruby programming language. Please contact me if you know something I missed. (I plan to migrate this to a wiki soon). While maintaining this list, I have induced* a theory: If a project's first public appearance is documentation without code, code will not appear before the heat death of the universe. * Induc
かの有名な検索エンジン「Google」にはページランクという概念がありますが、そのページランクを支える理論の一つがこの「マルコフ連鎖」というもの。さまざまなジャンルに応用されていることでも有名で、人工知能ならぬ「人工無能(いわゆるチャットボット、会話ボットなど)」にも使われることがあります。 で、このマルコフ連鎖を利用して文章を要約、もしくは意味不明にしてくれるのが「マルコフ連鎖ジェネレーター」というわけです。 詳細は以下から。 マルコフ連鎖ジェネレーター http://itog.sakura.ne.jp/markov/ 意味不明モードか要約モードのいずれかを選び、文章を貼り付けて「ジェネレート」をクリックするだけです 吉野家コピペの場合、こうなりました。 そんな事より150円だよ、ちょいと問いたいだけちゃうんです。女子供は、お前、150円やるから店員に来てあるんです。もう見てない、150
5月21-22日に開催される情報処理学会第191回自然言語処理研究会報告の発表原稿 PDF。 小町守, 牧本慎平 (Yahoo!), 内海慶 (Yahoo!), 颯々野学 (Yahoo!). ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得. 情報処理学会第191回自然言語処理研究会. Vol.2009-NL-191, No.9, May 2009. 情報処理学会の bookpark から先週木曜日にダウンロードできるようになったようだが、数カ所式に誤りがある(〆切以降一切修正できない模様)ので、参照される方はこちらを参照されたく。実際の発表前にそんな読む人はいないだろうと思ってのんびりしていたのだが、bookpark 公開バージョンをすでに読まれた方もいるみたいで、みなさまにはご迷惑をおかけしている次第であるが……。ちなみに電子化されたせいかどうか分からないが、ページ数が分からない
コロラド・ボルドーで開催されたNAACL/HLT 2009に行ってきました。 NAACLは自分の中での分類では自然言語処理の学会で統計的な手法とかが多い学会に思える(それに対しヨーロッパではEACLでは文法とか言語理論とかが多い)。比較的自分にあう学会。 開催地となったコロラド大ボルダー校はとてもきれいなキャンパスで(、「全米で最も美しいキャンパス」の4位にランキング)、宇宙飛行士をたくさん輩出してたり、ノーベル物理学賞を4名輩出するなど、研究レベルも高いそうです。 で、学会は適当に休みながらまったり聞いていたのですが全体的に教師無学習に関する話が多かったような気がします。教師有学習による言語処理がある程度成熟してきているのに対し、教師無の方はまだまだ伸びしろが多いので研究がしやすいのでしょう。教師無に利用するモデルも、単純な混合分布から、様々な分布が入り乱れる複雑なグラフィカルモデルにな
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、日本語処理技術部の阿久津剛之です。 Yahoo!デベロッパーネットワークにて、キーフレーズ抽出APIを公開しましたので紹介します。 キーフレーズ抽出APIとは、与えられた文章から、その文章を特徴づける重要な部分(キーフレーズ)を抽出し、独自の算出方法により点数付けを行って返すAPIです。 例えば、「東京ミッドタウンから青山一丁目駅まで歩いて15分かかります」という文章をキーフレーズ抽出APIに与えると、 「東京ミッドタウン」「青山一丁目駅」「15分」 という結果が返ってきます。 ここで、「青山一丁目駅」に注目してみましょう。 「青山一丁目駅」は、日本語形態素解析APIを用いて解析すると、 青山 / 一 / 丁目 / 駅
テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン
メタデータ自動生成の可能性−AMeGAレポート ノース・カロライナ大学図書館情報学大学院メタデータ研究センターは,米国議会図書館(LC)の「ウェブ情報資源の書誌コントロールに関するアクションプラン」(CA1431参照)の一環として,メタデータ自動生成に関するプロジェクトAMeGA(Automatic Metadata Generation Applications)を進めてきたが,2月17日,1年間の調査をまとめた最終レポートを発表した。 レポートでは,まず,マイクロソフト社のWordなど数種類のコンテンツ作成ソフトに備えられているメタデータ自動生成の機能について,どの要素を生成するのか,生成する方法はどのようなものかといった点を調査している。次に,カタロガーなど専門家約200人にメタデータのどの部分を自動生成するのが適切かアンケートを行っている。その結果,ダブリンコアでいう言語(lang
スポーツ中継やバラエティ、アニメなどのテレビ番組などに対してリアルタイムにみんなが「キタ━━━(゜∀゜)━━━!!」などのコメント(要するにレス)をつけている様子が2ちゃんねるの「実況板」ではよく見られます。この行為は「実況」と呼ばれていて、たとえばプロ野球の中継を見ながら応援の書き込みをしたり、バラエティ番組を見ながら思わずツッコミを入れたり、推理ドラマなら作中の探偵よりも先に犯人を考えたりと、いろいろな使われ方をしています。そこに書き込まれる内容は雑多ですが、番組に対しての視聴者の反応であるということは間違いありません。 ここにNHKが目を付けないわけがなく、現在「情報環流システム(Intelligence Circulation System)」というものが考えられているそうです。これはリアルタイムに書き込まれたコメントを分析・解析して今後の番組作りに活かしたり、視聴者のコミュニティ
この前の続き。先週の週末にやるつもりだったけど、暇がなかった。 MeCabで区切った単語を再びつなげる - yasuhisa's blog 前回の流れとしては 専門用語を一つの単語として取ってくるのは難しい MeCabを使うと細かくなりすぎる 専門用語には名詞のsequenceが多そう じゃあ、名詞つなげてみればいいんじゃね? ということで名詞を繋げてみるだけというところをやりました(それだけ。。。)。id:niamさんがコメントしてくださったように"出現頻度と連接頻度に基づく専門用語抽出",自然言語処理, 2003を使うと専門用語らしさ(?)のようなスコア付けができるようなので、それをやってみることにしました。とりあえずp6のLR(CN)のところまでを実装。あとはスコア付けの関数を2つくらい用意して、評価指標の関数を用意すれば、という感じです。 # -*- coding: utf-8 -
現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出
はじめに 現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。 主に現代語の研究を想定したものです. 書き言葉 青空文庫 内容:ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918) 茶漉による青空文庫の検索: 日本語用例・コロケーション抽出システム『茶漉』によ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く