This domain may be for sale!
Get things done spaCy is designed to help you do real work — to build real products, or gather real insights. The library respects your time, and tries to avoid wasting it. It's easy to install, and its API is simple and productive. Blazing fast spaCy excels at large-scale information extraction tasks. It's written from the ground up in carefully memory-managed Cython. If your application needs to
研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前(以下、材料名)の正規化があります。 クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。 さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。 これは異表記同義(いわゆる表記揺れ)の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。
IT系勉強会ウォッチャーの川崎です。2016年4月26日(火)に開催された NEologd Casual Talks #neologd に参加してきたのでイベントの様子をご紹介いたします。 イベント内容 NEologdは、形態素解析のための新語辞書で、作者が新語の定期更新をされています。今回のイベントはNEologdの公開から1年を機に開催されました。 MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました NEologd Casual Talks 会場は渋谷ヒカリエのLINEさんでした。 NEologdをどう使うと便利なのか ークエリ拡張における活用 by @Quasi_quant2010 LT2本から本イベントが始まりました。最初は@Quasi_quant2010さんの「NElogdをどう使うと便利なのか ー クエリ拡張における活用」というLTでした。NEo
エイプリルフールも一段落したので、退職&入社エントリを書こうと思います。 これまで 3/31付けで前職のNTT CS研を退職しました。CS研には(インターン期間も含め)4年間お世話になりました。 CS研はとても研究する上でよい環境 CS研は研究をする上でかなりよい環境であったと思っていて 世界で活躍しているトップの研究者がわらわらいて、日々ディスカッションできる (全くないわけではないですが)雑用が少なく、研究に集中できる 研究をする上で必要なリソース(計算機、データなど)が十分にある 足りないものやデータ等を新しく作りたい場合は、上長をちゃんと説得すればお金をかけて作ることができる 自然言語処理の研究をする上でかなり重要 などなど、とても研究しやすい環境です。AAAIやEMNLP、CoNLLなどに行くことができたのもこうしたCS研の環境なしではありえなかったと思います。ここで4年間働けた
自然言語処理を本当にほんの少しだけかじったエンジニアが書いている内容であり、個人の主観が大いに入っているため、正しくない可能性が大いにあります。 待ちに待ち望んだ内容だった 少し前に流行ったword2vecやトピックモデリング、最近の岩波データサイエンス Vol.2の盛り上がりなどもあり、この頃自然言語処理の分野に興味をもっていた。 ただ、この本を読む前は、自然言語処理というものが漠然としていて、自分の中で体系立てて整理しきれなかった印象がある。学生の頃や、新卒の頃にmecabとRをつかってテキストマイニングみたいなことをやってみたり、word2vecを動かしてみたりしたことはあったりしたので、「形態素解析」とか、「word2vec」とか、「n-gram」とかそういった個々の領域についてはイメージがついていた。 しかし、「自然言語処理=mecabで形態素解析やって、カウントするもの」という
GREE Advent Calendar 2015の1日目担当のふじもとです、グリー株式会社でCTOをしてます、もう10年目です。 今年もChristmasに向けてみんなで毎日更新していきますので、ぜひぜひよろしくおねがいします。 わりとどうでもよい序 去年、一昨年は25日担当だったんですが、今年は (なんでかは知らないけど) 1日目書くことになったので、ちょっと趣向を変えて技術的な内容にしてみたいと思います。 なおタイトルに、Deep Learningだの自然言語処理 (以下NLP) だの書いてますが、ぼくは機械学習やNLP、はたまたDeep Learningの専門家でもなくって、たしなむ程度に勉強していたくらいです。ので、この記事はアルゴリズムについて詳しくなろうっていうよりは、いろいろ試してみたっていう方向になってます。 Summary わりと単純なCNN + 少ないコーパスでも、タ
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ
概要 簡単に使える Pure JavaScript の形態素解析器 kuromoji.js を書きました。今回は、簡単に kuromoji.js を紹介したあと、セットアップ方法を解説します。ついでにロードマップ的なものも晒してみます。みんなでブラウザ NLP しよう! kuromoji.js とは 言わずと知れた Java の形態素解析器 Kuromoji を JavaScript に移植したものです。 kuromoji.js の GitHub リポジトリ と言っても、機械的に Java から JavaScript に置き換えたものではないため、API も違いますし、メソッド名やその内部も大幅に異なります。そもそも自分が形態素解析について勉強するために書き始めたため機械的なトランスレートに興味がなかったこと、また言語ごとに使いやすい API は異なると考えていることが理由です。 Node
About Kuromoji Kuromoji is an open source Japanese morphological analyzer written in Java. Kuromoji has been donated to the Apache Software Foundation and provides the Japanese language support in Apache Lucene and Apache Solr 3.6 and 4.0 releases, but it can also be used separately. Downloading Download Apache Lucene or Apache Solr if you want to use Kuromoji with Lucene or Solr. See below for so
最大エントロピー分類器などを訓練するときに,素性選択をおこなって特徴的な素性を用いたいときに情報利得を使います. この本がとてもわかりやすいです. from math import log from nltk.util import ngrams from nltk.tokenize import word_tokenize from nltk.probability import ConditionalFreqDist from nltk.probability import FreqDist def information_gain(labeled_documents): ig = {} labeldist = FreqDist() docnumdist = FreqDist() cldist = ConditionalFreqDist() n = 1 for (label, doc)
(追記):「この本に書かれていないこと」という項を追加しました。 以前も告知しましたが、日本語入力を支える技術という本を書きました。技術評論社から2012年2月8日に発売されます。(私の知っている限りでは、ジュンク堂池袋店、有隣堂AKIBA店、丸善丸の内店、書泉ブックタワーでは既に先行販売しているよう…でしたが、ジュンク堂池袋店、有隣堂AKIBA店、書泉ブックタワーは先行販売分は売り切れの模様です。)どんな本なのか、目次などについては公式ページを参照していただくとして、以下ではどんな本なのか宣伝したいと思います。 この本のキーワードは「実装」と「初心者向け」です。初心者でも実装ができるようにサンプルコードを多用し、また数式が出てくる部分に関してはちょっとしつこいぐらいに説明を加えました。私自身の経験からすると、本を読んだで理解したと思っていても、大抵の場合、細かいところはわかっていないもの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く