[B! nlp] webmarksjpのブックマーク

webmarksjp id:webmarksjp

nlpに関するwebmarksjpのブックマーク (39)

英語例文検索 EReK
英語で書かれたウェブ上のテキストを巨大な例文集（コーパス）とみなし、それを検索します。Web Service by Yahoo! Developer Network / 連絡先
webmarksjp 2008/07/15
English

learning

search

nlp

webサービス

#

英語

study

*****
リンク
ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan
ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日本語の文章を解析できるAPI「日本語形態素解析 Webサービス」を公開した。日本語形態素解析 Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。このAPIを利用することで、開発者は解析対象となる日本語の文章を形態素に分割し、品詞や読み、基本形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。また、すでに公開済みのAPIから取得したデータを解析することもでき
webmarksjp 2008/07/14
- 自然言語処理

*webservice

webサービス63

あとで読む47

@API

@形態素解析

nlp

programming

検索

Yahoo!
リンク
livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog（ブログ）
こんにちは。検索グループ解析チームの nabokov7 です。今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。ウィキペディア日本語版の解説
webmarksjp 2008/07/14
- 自然言語処理

- アルゴリズム

*perl

cpan

perl

自然言語処理

nlp

ライブラリ

programming

web
リンク
大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe
第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク
webmarksjp 2008/07/14
自然言語処理

google

mecab

形態素解析

nlp

programming

tech

search
リンク
辞書不要の形態素解析エンジン「マリモ」とは − ＠IT
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
webmarksjp 2008/07/14
け形態素解析

nlp

技術

ゲ・言語処理

*あとで

interview

algorithm

language

形態素解析

search
リンク
英文校正サイト [NativeChecker]
キットが販売されているのでチャレンジしやすい近頃では、ホームセンターに電気機器を製作するための道具がそろっています。そのため、DIY感覚で電気製品の自作を始めるのは難しくありません。「回路図や図面が読めなければ電気製品なんて作れない」と思う人もいるでしょう。たしかに、電気製品にはさまざまな部品が使わ…
webmarksjp 2008/07/14
810 eng 英語

webサービス

英語

webservice

tool

nlp

service

english

corpus

check
リンク
認知症ケアにおける回想法のメリット
認知症ケアに回想法を用いることで、さまざまなメリットが得られるということが、研究によって明らかになってきました。例えば、回想法を用いることで高齢者の認知機能の回復が期待できるといいます。高齢者は、最近のことについては忘れがちになる傾向が多く見られます。しかし、過去の思い出や出来事に関しては鮮明に思い出せる場合が多く、その記憶を回想法によって思い出し、自ら語るという行為をすることで認知機能の改善が図られるとされています。それは、認知症の高齢者についても同じことが言えるため、認知症ケアに回想法を取り入れて過去の記憶を掘り起こすことで、脳の働きを活性化する効果が期待できます。また、回想法には高齢者の精神面を安定させる効果も期待されることから、認知症ケアとしてのメリットは大きいです。認知症をはじめとする記憶障害のある高齢者であっても、昔の出来事などについては鮮明に覚えていて記憶として残っているこ
webmarksjp 2008/07/14
Joke

web

service

要約

nlp

まとめ

tool.ws

webservice
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
webmarksjp 2008/07/14
mecab

perl

nlp

形態素解析器

programming

search

形態素解析
リンク
「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記
Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ
webmarksjp 2008/07/14
Google

NLP

programming

search

algorithm

searchengine

tech

technology
リンク
http://stone.dialog.jp/archives/extract/index.cgi
webmarksjp 2008/07/14
ライティング

webサービス

要約

web

nlp

ツール

perl

選考候補

読み物
リンク
Perlで入門テキストマイニング » SlideShare (share powerpoint...
2. テキストマイニング（１）評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○？ • クラスタリング。グルーピング。 •
webmarksjp 2008/07/14
形態素解析

データマイニング

keygraph

algorithm

textmining

nlp

perl

programming

mining

テキストマイニング
リンク
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
webmarksjp 2008/07/14
*webservice

分かち書き

形態素解析

javascript

nlp
リンク
404 - gooラボ
お探しの情報は見つかりませんでした。 gooラボ gooトップ同じ状態が続く場合はお手数をおかけしますが、goo事務局までお問い合わせください。 goo事務局
webmarksjp 2008/07/14
サービス

検索エンジン

goo

search

*あとで試す

******watch

nlp
リンク
マイクロソフトも参入、広告分野で注目される人工「無脳」の魅力とは:コラム - CNET Japan
コンピュータに1980年代以前から親しんでいる人は、「人工無脳」と聞くと、ある種のノスタルジーと共に思い起こすものがあるんじゃないかな。「何それ？」という人のために少し解説すると、人工無脳というのは一種のお遊びプログラムのことで、チャットで人間と会話をしてくれるロボットのこと。海外ではChatter Botと呼ぶのが一般的みたいだね。もちろん、会話の精度は高くなくて、「何言ってんだコイツ」とか、「会話が全然なりたってないじゃん」なんて場合がほとんどなんだけど、たまに「おっ！」と思わせるようなことを言ったりして、チャット参加者を楽しませてくれる。そもそも人工無脳（人工「無能」と表記される場合も多いが筆者は「無脳」という表記で統一している）というのは、開発者たちが「こんなもの人工知能と呼べるレベルじゃなくて、人工無脳だよね（笑）」という謙遜から使われだした言葉なんだ。「あー、昔よく遊ん
webmarksjp 2008/07/14
business

web

technology

技術

nlp

人工無能

人工知能

読んだ

人工無脳
リンク
[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード
webmarksjp 2008/07/14
search

nlp

api

algorithm

キーワード抽出

形態素解析

自然言語処理

tf-idf
リンク
Introduction to Information Retrieval
This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co
webmarksjp 2008/07/14
algorithm

book

web

検索

programming

あとで読む

nlp

search

勉強
リンク
統計的確率論で言語を解析--Sematicsが世界初の日本語解析エンジンを開発
日本語意味解析エンジンを開発するSematicsは6月15日、統計的確率論を用いた言語解析エンジン「Perceptron Engine」を開発したと発表した。統計的確率論を用いた日本語解析エンジンは「世界初」（同社）という。 Perceptron Engineは「形態素解析」、「構文解析」、「文脈解析」、「意味解析」の4つの解析処理によって構成される。従来の言語解析技術は、辞書によるデータのマッチングにより処理されていたため、データ容量が膨大で、その処理に多大な時間を要した。一方、Perceptron Enginesは大規模な辞書を用いないため、少ないメモリやディスク容量でも高速処理が可能で、500文を1秒で解析できるという。形態素解析とは、文章を形態素と呼ばれる、意味を持つ語句の最小単位まで分割して解析するもの。各語句を品詞単位、動詞や形容詞といった活用語句の場合はその活用形ごとに解析
webmarksjp 2008/07/14
技術

nlp

関心

言語

4.ことばの問題系

言語処理

形態素解析

データ解析

群論
リンク
テキスト解析:かな漢字変換API - Yahoo!デベロッパーネットワーク
指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。
webmarksjp 2008/07/14
api

japanese

yahoo

nlp

webサービス

自然言語処理
リンク
mixi Engineers’ Blog » mixi日記キーワードランキングの秘密
皆さん、先月の半ば頃からmixiのトップページの3列目に「日記キーワードランキング」というコーナーが登場していたのをご存じでしょうか。手前味噌ながら、これはとても面白い機能で、毎日ランキングが更新される度に素敵なランキングが作られていて悦に入っているmikioです。今回は日記キーワードランキングの秘密についてお話します。日記キーワードランキングとは、日記に書かれた言葉の使用頻度を統計的に処理して、今話題になっている度合を算出し、その上位をランキング形式で表示する機能です。トップページには5位までが表示されるので、それをチェックするだけで最新の流行を把握することができます。さらに「30位までを読む」に進むと30位までのキーワードとその関連日記が表示されます。詳細を知りたい場合はキーワードをクリックすると、そのキーワードで日記検索をした結果を見ることができます。一通り見るのに10分くらいでし
webmarksjp 2008/07/14
atode

nlp

mixi

analytics

marketing

technology

web

自然言語処理
リンク
”専門用語（キーワード）自動抽出システム”のページ
1.専門用語（キーワード）自動抽出システムとは？当サイトでは、専門用語（キーワード）自動抽出システムの基本システムおよび応用システムを提供しています。専門用語（キーワード）自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、（１）形態素解析プログラムによる単語分割、（２）複合語の作成、（３）文章中における重要度の計算、という３つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。自作の文章からキーワードを抽出したい！メタデータ作成のためにウェッブサイト
webmarksjp 2008/07/14
形態素解析

nlp

web

-

textmining

自然言語処理

日本語処理

テキストマイニング

webサービス
リンク
1 2 次のページ