[B! text] hiromarkのブックマーク

MroongaでGroongaの機能を使いこなす高度なテーブル設計をする方法 - CreateField Blog

はじめに MySQL/MariaDBで高速に全文検索するためのオープンソースのストレージエンジンMroongaは、以下のように、Engine=Mroonga、FULLTEXT INDEX (${source_column})と書くだけで非常に簡単に全文検索を使い始めることができます。 CREATE TABLE memos ( id INT NOT NULL PRIMARY KEY, content TEXT NOT NULL, FULLTEXT INDEX (content) ) Engine=Mroonga DEFAULT CHARSET=utf8; 検索するときも以下のようにMATCH ... AGAINSTを使うだけです。 mysql> INSERT INTO memos VALUES (1, "1日の消費㌍は約2000㌔㌍"); Query OK, 1 row affected (

hiromark 2014/11/01

リンク

テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl)

テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl) 2014-05-09-1 [Programming][NLP] 機械学習のデータ加工用のスクリプト。辞書によりテキストから素性を抽出する簡単なプログラムです。先日ちょっと需要がありまして、Pure Perl で動くものを作りました。あらかじめ用意された辞書（文字列とIDのペア）があり、テキスト中にその辞書の文字列が存在したら対応するIDを出力する、というタスクです。辞書マッチは最長一致のみではなく、一部重なりや内包含むすべて。最長一致のみならば辞書エントリを長い順にならべてORでつなげた正規表現を作れば一発なのですが、すべて欲しいというわけで（疑似）TRIEを採用。ハッシュで TRIE という懐かしい実装です（初期のJUMAN風）。 ■辞書の例 (fepp-dic.txt)。フォーマットは「^エントリ

hiromark 2014/05/09

perl
text

リンク

Perlで日本語全文検索できるCPANモジュール作りました - 俺とお前とlaysakura

この記事は↓に移転しました。 laysakura.github.io

hiromark 2014/02/19

リンク

JUMAN - LANGUAGE MEDIA PROCESSING LAB

日本語形態素解析システム JUMAN † 本システムは，計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました．その際, 学校文法が計算機向きではないという問題を考慮し，使用者によって文法の定義，単語間の接続関係の定義などを容易に変更できるように配慮しました．新バージョン7.0の拡張点は以下の通りです．非反復形オノマトペ，長音記号による非標準表記，長音記号・小書き文字を用いた長音化の自動認識 Wikipediaから抽出した辞書の追加自動辞書(Webテキストから自動獲得した辞書)の改良 UTF-8化たとえば，次のようなテキストを入力すると， % cat sample.txt カサつくビミョーだがんがるアジャイルだ爽健美茶ＴｈｉｎｋＰａｄ上海ガニぺっちゃりしてるありがとー行きたぁぁぁい以下の解析結果が得られます

hiromark 2011/05/29

リンク

https://www.telescopictext.com/

hiromark 2011/05/16

おもしろ。

text
english

リンク

overlasting.net

overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

hiromark 2011/01/28

リンク

はてなキーワードのリダイレクト機能の裏側 - 大西日記 - はてなダイアリー

同じ意味のキーワードを一つにまとめるリダイレクト機能を追加しました。これまで「Google」と「グーグル」のように、一つの同じ意味であるにもかかわらず、複数のキーワードとして登録されてしまう場合がありました。今回追加した、同じ意味のキーワードをまとめるリダイレクト機能を用いることで、一つのキーワードにまとめることができるようになりました。同じ意味のキーワードをまとめるリダイレクト機能を追加しました - はてなキーワード開発ブログはてなキーワードの「同じ意味のキーワードを一つにまとめるリダイレクト機能」をリリースして2週間がたちました。機能の名前が長くてわかりづらい割に地味なリリースでしたが、中身は大きく変化していますので裏側の仕組みを解説してみようと思います。リダイレクト機能とはそもそも、「リダイレクト機能」ってわかりづらいですね。先行して同様の機能を実装している、Wikipe

hiromark 2010/10/27

うんこれ真面目にやると見た目よりはるかに難しいと思う。

hatena
text

リンク

HTML からのテキスト抽出をウェブサービス化 - やた＠はてな日記

日本語ウェブコーパスを処理するためのプログラムを改修しているのですが，HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので，HTML 文書からテキストを抽出するウェブサービスを公開してみました． http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は，以下の 3 種類を用意しています．入力方法 URL を入力：指定した URL からテキストを抽出します．ファイルを入力：アップロードした HTML ファイルからテキストを抽出します． HTML を入力：フォームに入力した HTML からテキストを抽出します．テキスト抽出の中身は，HTML 文書の文字コードを UTF-8 に変換してから，テキスト部分のみを切り出し，Unicode 正規化（NFKC）を施した後で，句点や感嘆符による文区切りをおこない，さら

hiromark 2010/10/11

html
text

リンク

ナイーブベイズを用いたブログ記事の自動分類 - 人工知能に関する断創録

カイ二乗値を用いた特徴選択（2010/6/25）の続きです。今まで使ってきた20 Newsgroupsというデータは英語文書でかつ元ネタがよく分からずあまり面白くなかったので、今回はこのブログ（人工知能に関する断想録）の記事を分類してみます。このブログの各記事には私の判断でカテゴリをつけています。たとえば、この記事は[機械学習][自然言語処理]です。カテゴリのリストはこのブログの左メニューにあります。この前、少し整理したので全部で18のカテゴリがあります。新しい記事を書いたとき自動でカテゴリを割り振ることはできるのでしょうか？（注）プログラミング言語はPythonを使っています。シリーズもので以前作ったコードを再利用してるので検索で飛んできた人はナイーブベイズを用いたテキスト分類（2010/6/13）から順に読んでください。はてなダイアリーデータのダウンロードと整形まず、はてなダイア

hiromark 2010/07/04

リンク

京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転改

KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根本的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。そこに新しくKyTeaが現れた。

hiromark 2010/04/23

ほー。

リンク

超高速テキスト処理のためのアルゴリズムとデータ構造 (PDF)

超高速テキスト処理のためのゕルゴリズムとデータ構造東京大学情報理工学系研究科* 岡野原大輔 hillbig@is.s.u-tokyo.ac.jp NLP2010 チュートリゕル 2010 3/8@東京大学本郷キャンパス * 2010年4月から所属が（株）プリフゔード゗ンフラストラクチャーになります。内容 • 背景 – 自然言語処理と機械学習 • オンラ゗ン学習 – 教師有/無, 正則化 • 疎ベクトル々文字列データ構造 – 特徴情報の格納、全部分文字列情報 • 乱択化ゕルゴリズム – Hash Kernel, Randomized SVD 背景大規模自然言語処理と機械学習背景 • 利用可能な言語資源の急激な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ～1010 語 – c.f. Penn TreeB

hiromark 2010/03/09

リンク

Oracle Data Mining Techniques and Algorithms

Most commonly used technique for predicting a specific outcome such as response / no-response, high / medium / low-value customer, likely to buy / not buy. Logistic Regression—classic statistical technique but now available inside the Oracle Database and supports text and transactional data Naive Bayes—Fast, simple, commonly applicable Support Vector Machine—Next generation, supports text and wid

hiromark 2010/03/03

わかりやす。

リンク

Jimmy Lin » Data-Intensive Text Processing with MapReduce

hiromark 2010/02/08

リンク

構築した辞書を元にAho Corasick法を使ってキーワードを探す - yasuhisa's blog

どのようなときにAho Corasick法が必要か辞書構築した後の応用先(?)の一つとして、辞書を元にした転置インデックスを作ることがあげられる。「どのキーワードがどの文章に登場したか」が一番簡単な転置インデックスだと思うんだけど、今回は登場した文章のどの位置にあったかまで記録したい(例えばリンクを張る時に使いたいから)。転置インデックス作るときは、通常形態素解析ベース N-gramベースの2種類が主な手法だと思うんだけど、今回はせっかく構築した辞書をもとに転置インデックスを作りたいので、上の2つではうまくできない。かといって、文章とキーワード総当たりとかやっていたら死ぬので、効率のよい方法が必要。そこでAho Corasick法ですよ、奥さん。はてなキーワードへのリンク処理とかに使われたりします。入力と出力入力と出力を先に紹介しよう。入力は辞書とこんな感じの文章。 <総説誌名>蛋白

hiromark 2009/12/14

AC法って意外とシンプルに書けるんですねー。

リンク

未知語の確率モデルと単語の出現頻度の期待値に基づくテキストからの語彙獲得 | CiNii Research

タイトル別名ミチゴノカクリツモデルトタンゴノシュツゲンヒンドノキタイチニモトヅクテキストカラノゴイカクトク Lexical Acquisition from Japanese Text Based On Statistical Unknown Word Model and Expected Word Frequency 自然言語処理本論文では未知語の確率モデルと単語の出現頻度の期待値に基づいて日本語テキストから未知語を収集する方法を提案する. 本手法の特徴は単語を構成する文字の種類ごとに異なる未知語モデルを使用することによりひらがな語や複数の字種から構成される単語を収集できることおよび単語の出現頻度の期待値を文字列の単語らしさの尺度とすることにより出現頻度が低い単語を収集できることである. 人手により単語分割された EDRコーパスから無作為に選択

hiromark 2009/10/27

アブストだけ読んだ。面白そう。

nlp
text

リンク

A new approach for Japanese Spelling Correction | CiNii Research

Although several tools do exist for the detection and correction of Japanese orthodoxical errors, they either deal with too small part of the whole range of errors, or fail to provide reliable error information. We propose a new system for Japanese error correction, which consists of two indepently functioning parts: hypothesis generator and verificator. Hypothesis generator detects possible ortho

hiromark 2009/10/16

読む。

text
nlp

リンク

新語造語未知語　の検出手法 : 研究開発

自然言語処理において、辞書は単語の文法的意味の情報源として必要不可欠であり、辞書に登録されていない単語を減少させるため、辞書の語彙を増強する努力がなされている。新語や専門用語は絶えず増え続けているため、辞書作成の作業は多大な労力を要するのみならず、各解析段階での未知語との遭遇は避けられず、大きな問題の一つとなっている。 ※当然ですが　形態素解析が必要な言語のみの研究です。これができていないと妙な箇所で形態素分割することになります。ヒューリスティックな検出は色々ありますが、ヒューリスティックではない統計的方法です。概して、単語（と見なせるかもしれない記号列）の前後情報から最も尤もらしいモデルを推定します。出現頻度と連接頻度に基づく専門用語抽出湯本紘彰　森辰則　横浜国立大学中川裕志　　　東京大学情報処理学会研究報告. 自然言語処理研究会報告　2001(86) ターム性

hiromark 2009/10/14

text
nlp

リンク

Web検索エンジンのインデックスを用いた同位語とそのコンテキストの発見 | CiNii Research

タイトル別名 Web ケンサクエンジンノインデックスオモチイタドウイゴトソノコンテキストノハッケン Discovering Coordinate Terms with Their Contexts Using Web Search Engine Index 本研究では，ユーザが与えた1語のクエリに対して，Web検索エンジンが持つ情報のみから同位語とそのコンテキストを発見する手法について提案する．同位語とは，共通の上位語を持つような語のことである．従来研究として，同位語や，上位語，下位語などを求めるような研究は数多くあるが，それらはWeb上の文書を利用するものも含めて，巨大なコーパスを解析して大量の結果を求めるというものであった．我々の提案する手法では，Web文書のタイトルやスニペットといったWeb検索エンジンが持つ情報のみを，少ない回数のWeb検索によって取得し，それ

hiromark 2009/09/30

あとで論文読む。

リンク

正規表現でCommon Prefix Search

正規表現でCommon Prefix Search 2007-05-15-1 [Programming][Algorithm] 正規表現でCommon Prefix Searchを行う力技な方法のPerlによるサンプル。ちょっと試すとき用のコピペ用コード片、といった感じのものです。 TRIEとかオートマトンとかでちゃんとやるのが王道ですよ。コード： use strict; use warnings; use utf8; binmode STDOUT, ":utf8"; my $str = "あうえういあおういいういああ"; my $key = "ういあ"; my @chars = split("", $key); my $pat = join("(", @chars).(")?" x $#chars); while ($str =~ /($pat)/g) { print "$1\n";

hiromark 2009/08/25

ちょっとした実験に便利そう。

リンク

Aho Corasick 法 - naoyaのはてなダイアリー

適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

hiromark 2009/04/06

"任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (33)

textに関するhiromarkのブックマーク (36)

お知らせ

今週のはてなブックマーク数ランキング（2025年3月第2週）

月間はてなブックマーク数ランキング（2025年2月）

旧バージョンのChrome拡張機能についてのお知らせと新バージョンご利用のお願い

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス