[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

nlpに関するhiromarkのブックマーク (106)

  • ジャストシステムの形態素解析技術

    3. 統計的手法による形態素解析 表記 品詞 にわ 一般名詞 に 助詞 わに 一般名詞 にわとり 一般名詞 が 助詞 い 上一段動詞 る 活用語尾:終止 。 句点 区切って、品詞を選ぶ 系列ラベリング問題 隣接する要素の情報を利用 (n-gram) 必要なリソース • 辞書 • 教師データ(学習コーパス) (ほかのやり方もあります) 3

    ジャストシステムの形態素解析技術
    hiromark
    hiromark 2015/05/08
  • はてなブックマークのトピックページの裏側 - Hatena Developer Blog

    こんにちは、はてなアプリケーションエンジニアの id:skozawa です。現在は、ブックマークチーム、及び、プラットフォームチームで開発をしています。 先日リリースされたはてなブックマークの新機能「トピック」の裏側について、Hatena Enginner Seminar #4で紹介しました。 Hatena Enginner Seminar #4で紹介した資料に少し加筆・修正を加えたものを公開します。 内容 「トピック」機能は、はてなブックマーク開発ブログにもある通り、これまで何人かのエンジニアが挑戦してきましたが、実現できていませんでした。その主な要因として、 トピック生成の精度が低い トピックタイトル生成が難しい という問題があり、これらを検索技術と自然言語処理技術によって解決することによりベータリリースへとこぎつけました。 トピック生成 これまでキーワードなどを用いて記事をクラスタリ

    はてなブックマークのトピックページの裏側 - Hatena Developer Blog
  • GitHub - rakuten-nlp/rakutenma: Rakuten MA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript.

    Rakuten MA (morphological analyzer) is a morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript. Rakuten MA has the following unique features: Pure JavaScript implementation. Works both on modern browsers and node.js. Implements a language independent character tagging model. Outputs word segmentation and PoS tags for Chinese/Japanese. Supports i

    GitHub - rakuten-nlp/rakutenma: Rakuten MA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript.
    hiromark
    hiromark 2014/08/06
    すげぇ
  • 都立大 自然言語処理研究室 - 自然言語処理が学べる研究室

    2023年3月をもちましてこちらのページの更新を停止します。ご活用いただき、ありがとうございました。 自然言語処理を学ぶことができる研究室をリストアップします。自然言語処理の研究をしている(= 国内では言語処理学会を主な研究発表の場所としている)教員が2名以上いる大学が対象です(私立大学は早稲田大学と法政大学と豊田工業大学です)。うち、教員が1研究室で3人以上いるのは北大荒木研、東北大乾研、筑波大山研、東工大奥村研、名大外山研、京大黒橋研、NAIST中村研(ただし中村先生定年のため2022年現在募集停止)、NAIST渡辺研、NAIST荒牧研です。教員が1人だけしかいない研究室と、3人以上いる研究室(特に博士後期課程の在学生が多いところと)は質的にも量的にも違うと思いますので、博士後期課程に進学するつもりの人は、少なくとも1カ所はそれらの研究室を見学したほうがよいでしょう。博士前期課程から

  • https://alaginrc.nict.go.jp/rasc/

  • 教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ

    ※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す

    教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
  • PPDB:Japanese - 日本語言い換えデータベース

    The Paraphrase Database : Japaneseは日英対訳コーパスから学習された日語の言い換えデータ集です。 ダウンロード 最新版:PPDB:Japanese 0.0.1 仕様情報 一行につき一つの言い換えを示す。 SOURCE:j ||| TARGET:j' ||| (FEATURE=VALUE)* ||| ALIGNMENT フレーズは形態素ごとに半角スペースで区切られ、また言い換え確率もそれぞれP(j'|j)とP(j|j')が半角スペース区切りで与えられます。 翻訳 さ れ た ||| 翻訳 ||| 0.0125435775455 0.00034585476357 ||| 37435 2 56 論文情報 以下の情報をご利用ください。 水上 雅博,Graham Neubig,Sakriani Sakti,戸田 智基,中村 哲. 日語言い換えデータベースの構築と

  • 形態素解析の過去・現在・未来

    2. ⾃自⼰己紹介 l  海野  裕也  (@unnonouno) l  unno/no/uno l  研究開発部⾨門  リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日アイ・ビー・エム(株)東京 基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3

    形態素解析の過去・現在・未来
    hiromark
    hiromark 2011/10/23
  • 予測単位の変更による n-gram モデルの改善 | CiNii Research

    JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログ ムーンショット型研究開発事業

    hiromark
    hiromark 2011/06/16
    この論文は読んでみようかな。
  • LIBLINEARを用いた機械学習入門(単語分割)

    このページでは機械学習のツール(LIBLINEAR)を利用して、実際に分類問題を解くにはどういう手順を経るかということについて解説します。つまり、Kytea(京都テキスト解析ツールキット)における簡易版の単語分割モデルを作ってみようということです。 なお今回はプログラミング言語としてRubyを用いますが、Rubyの知識がなくても実装ができるように解説するよう心がけます。また、必要以上に細かく書いてあるかもしれませんが、不要な方は適宜読み飛ばして下さい。 細かい説明はすっとばしてやり方を見る 機械学習って? 朱鷺の杜Wiki 「機械学習」がわかりやすいかと思います。 ひとことで言うと、「訓練データを与えてそこから機械に問題の解き方を学んでもらい、別の問題を解いてもらうこと」です。 教師あり学習・教師なし学習 機械学習は大きく「教師あり」と「教師なし」に分かれます。 「教師あり学習」とは

  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

  • JUMAN - LANGUAGE MEDIA PROCESSING LAB

    形態素解析システム JUMAN † システムは,計算機による日語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました.その際, 学校文法が計算機向きではないという問題を考慮し,使用者によって文法の定義,単語間の接続関係の定義などを容易に変更できるように配慮しました. 新バージョン7.0の拡張点は以下の通りです. 非反復形オノマトペ,長音記号による非標準表記,長音記号・小書き文字を用いた長音化の自動認識 Wikipediaから抽出した辞書の追加 自動辞書(Webテキストから自動獲得した辞書)の改良 UTF-8化 たとえば,次のようなテキストを入力すると, % cat sample.txt カサつく ビミョーだ がんがる アジャイルだ 爽健美茶 ThinkPad 上海ガニ ぺっちゃりしてる ありがとー 行きたぁぁぁい 以下の解析結果が得られます

  • Sign in - Google Accounts

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    hiromark
    hiromark 2011/05/21
  • 異なる「しょうぶ」 を見分けるGoogle の同義語システム

    Google は、検索を使いやすくするために、日々改善を続けています。昨年は、検索結果ページのリニューアルやレシピ検索等、ユーザーの皆さんに見える機能を含め、500 以上の改善を施しています。今日は「見えにくい」改善のひとつとして、同義語システムについてご紹介します。 日語には、ひらがな、カタカナ、漢字、アルファベット等、多様な種類の文字があり、同じ言葉でも、さまざまな書き方があります。文字種違いの同義語への取り組みについては、以前の記事でもご紹介しましたが、これは、一見簡単そうで実は奥の深い問題です。一見すると、日本語入力に使っている辞書のようなものがあればよいように思いますが、人手を介さずに正しい同義語を見つけるのは単純ではありません。 たとえば、「しょうぶ」という言葉は「勝負」「菖蒲」「尚武」などさまざまな漢字を当てることができますが、それぞれ異なる意味を持っていて、探している情報

    異なる「しょうぶ」 を見分けるGoogle の同義語システム
    hiromark
    hiromark 2011/05/18
    簡単なようで実際やると意外と難しいとおもふ。
  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    hiromark
    hiromark 2011/05/15
    これなにげにすごいとおもう。
  • overlasting.net

    overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

  • 冪乗則と一様分布と遷移キャッシュ - やた@はてな日記

    これまでキーの参照頻度が一様分布に従うという無茶な仮定の下で実験をすることが多かったのですが,遷移キャッシュを導入したということもあり,冪乗則だとどうなるのかを調べてみました.実験に用いたデータは,日語ウェブコーパスにおける頻度 1000 以上の単語 N-gram です. N-gram コーパス - 日語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/ngrams/ 単語 N-gram コーパスの頻度情報を利用すれば,冪乗則が成立する状況を再現できます.すなわち,一部の高頻度な N-gram が全体に対して大きな割合を占め,ほとんどの N-gram は稀に出現するのみとなります. 遷移キャッシュの効果は高頻度の遷移を高速化することであり,参照頻度が冪乗則に従う状況であれば,より高い効果が期待できます. 実験結果(Google Document)

    冪乗則と一様分布と遷移キャッシュ - やた@はてな日記
    hiromark
    hiromark 2011/05/07
  • TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ

    TokyoNLP#5に参加して「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」というタイトルで発表しました.発表資料 (検閲後) をuploadしました. なお,2種類のAveraged Perceptronというものがあるというような発表をしてしまいましたが,実は両方とも実質同じアルゴリズムでした.片方はVoted Perceptronの近似 [Carvalho+ 06] という文脈.もう一方は構造学習を行うStructured Perceptron [Collins 02]の文脈で提案されています.その部分を修正しました.@uchumikさんのコメントで気が付きました.どうもありがとうございます. TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ〜ん View more presentations from sleepy_yoshi 音声付きで用意したネタ.どうやら徹夜明けの妙な

    TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ
  • 本文中のキーワード抽出精度が向上しました - はてなダイアリー日記

    日、はてなダイアリー文中のキーワード抽出方法を変更しました。これにより、キーワード抽出精度が向上しました。 はてなダイアリーはこれまで、ある正規表現で文内のキーワードを抽出し、はてなキーワードへのリンクを生成していました。下記の例では「はてなダイアリー」「ブログ」「コンピュータ」「インターネット」のキーワードに対して自動的にリンクを生成しています。 このとき、単語の境界判定の誤りなどから、意図しないキーワードへリンクする場合がありました。これまで、こうしたキーワードはリンクスコアを下げることによって対応しており、はてなダイアリーの「キーワードの自動リンク設定」内の「スコアの閾値」を上げることで大部分を回避できました。 今回、キーワード抽出アルゴリズムを、形態素解析エンジン「MeCab」を使った方法に変更しました。これにより、単語の境界判定の精度が向上し、スコアの閾値を0に設定している

    本文中のキーワード抽出精度が向上しました - はてなダイアリー日記
  • 自然言語処理における企業と大学と学生の関係

    @ceekz 併設ワークショップ「自然言語処理における企業と大学と学生の関係」のハッシュタグは #gengo2011ws になりました。なお、諸般の事情で ust や映像保存を行いません。 http://bit.ly/h6aVby #nlp2011 2011-03-11 01:05:56 上村崇 @t_uemura 例えば企業側が「こんな技術を探しています」という投稿をする。対して登録研究者達が「それならこの研究者(室)の専門分野だよ」と投票する。結果企業と研究者がマッチングされる。推薦者にお礼が支払われる。こんなサイト作ろうよ。国益だよ #gengo2011ws #nlp2011 2011-03-11 01:12:43 上村崇 @t_uemura 例えばALBERTの場合徳島大学の北研究室にいきなりメールして画像解析の共同研究をした。テレビにも取り上げられる内容になった。でもこれってご縁

    自然言語処理における企業と大学と学生の関係