はじめに テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。
研究ノート「計量テキスト分析ツールKH Coderによる分析結果の再現性」公開 医療用語の辞書をご用意(無料) 産学連携プロダクト「KH Coderオフィシャルパッケージ」発売中 KH Coderとは KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。 プログラミング不要、マウス操作で本格的な分析 安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介(スクリーンショット) スクリーンショット集 [旧ページ:言葉・文書・可視化・他] KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く