JP5807891B2 - 言語モデル学習装置及びコンピュータプログラム - Google Patents
言語モデル学習装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP5807891B2 JP5807891B2 JP2010224870A JP2010224870A JP5807891B2 JP 5807891 B2 JP5807891 B2 JP 5807891B2 JP 2010224870 A JP2010224870 A JP 2010224870A JP 2010224870 A JP2010224870 A JP 2010224870A JP 5807891 B2 JP5807891 B2 JP 5807891B2
- Authority
- JP
- Japan
- Prior art keywords
- template
- word string
- word
- language model
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
図1を参照して、本発明の1実施の形態に係る言語モデル学習装置30は、Webから収集した文からなるWebコーパス32に含まれる自然言語文から、特定の分野に関する、特定の形の自然言語の単語列からなる学習コーパス34を生成し、学習コーパス34を学習データとして、言語モデル学習モジュール36により言語モデルの学習を行なうためのものである。この言語モデル学習装置30により、特定の分野に関する、特定の形の文についての音声認識に適した言語モデル38を構築できる。本実施の形態では、後述するように、病気に対する質問文である入力音声42の音声認識を行なって
音声認識結果44を出力する音声認識装置40のための言語モデルを構築する。なお、Webコーパス32、学習コーパス34、及び言語モデル38は、本実施の形態ではいずれもハードディスク等の不揮発性記憶媒体に記憶される。
図1〜図7に示した言語モデル学習装置30は以下のように動作する。予め、Webから多数の文を収集し、Webコーパス32に記憶させておく。頻度算出モジュール70は、予めWebコーパス32に含まれる各文について形態素解析及び構文解析し、各単語について、その出現する構造ごとにその出現頻度を算出し、頻度データ記憶部72に頻度データとして記憶させる。この処理は通常の言語モデルの学習とほとんど同じである。
この実施の形態に係る言語モデル学習装置30は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現できる。
32 Webコーパス
34 学習コーパス
36 言語モデル学習モジュール
38 言語モデル
50 シードテンプレート集合記憶部
52 テンプレート拡張処理部
54 テンプレート拡張規則記憶部
56 拡張テンプレート集合記憶部
58 構文解析用辞書
60 フィルタ
64 単語列変形規則記憶部
66 変形モジュール
74 頻度調整モジュール
Claims (10)
- 複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段とともに用いられ、当該コーパスから特定用途に適した言語モデルの学習を行なうための言語モデル学習装置であって、
前記特定用途のために予め準備された単語列テンプレートを記憶するためのテンプレート記憶手段と、
前記テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンを前記コーパスから抽出するための単語列抽出手段と、
予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された変形規則に基づいて、前記単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、
前記変形手段により出力される単語列を学習データとして言語モデルの学習を行なうための学習手段とを含み、
前記テンプレート記憶手段は、
機械可読な文から抽出すべき、基本的な単語列テンプレートであるシードテンプレートを記憶するためのシードテンプレート記憶手段と、
前記シードテンプレート記憶手段に記憶されたシードテンプレートの各々に対し、予め準備されたテンプレート拡張規則を適用して拡張テンプレートを生成するための拡張テンプレート生成手段と、
前記拡張テンプレート生成手段により生成された拡張テンプレートと、前記シードテンプレート記憶手段に記憶されたシードテンプレートとを記憶し、前記単語列抽出手段に前記単語列テンプレートとして与えるための拡張テンプレート記憶手段とを含む、言語モデル学習装置。 - 請求項1に記載の言語モデル学習装置であって、
前記テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語を表す1または複数の変数と、その他の単語列パターンを表すテキストデータとの配列を含む、言語モデル学習装置。 - 請求項2に記載の言語モデル学習装置であって、
前記所定の制約条件は、各変数により表される単語の属する単語クラスであり、
前記単語列抽出手段は、
前記コーパスに記憶された前記複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、
前記テンプレート記憶手段に記憶された単語列テンプレートの各々と、前記形態素解析手段により出力された形態素列とを比較し、単語列テンプレートと形態素列とが、単語列テンプレートに含まれる変数を除いて一致し、かつ形態素列中で単語列テンプレート内の変数に対応する位置にある形態素の単語クラスが、当該変数の単語クラスと一致しているものを前記コーパスから抽出するための手段とを含む、言語モデル学習装置。 - 請求項1に記載の言語モデル学習装置であって、
前記テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語を表す1または複数の変数と、その他の単語列と、これら変数及び単語列の間の文法的関係を示す構文情報とからなる単語列パターンを含む、言語モデル学習装置。 - 請求項4に記載の言語モデル学習装置であって、
前記所定の制約条件は、各変数により表される単語の属する単語クラスであり、
前記単語列抽出手段は、
前記コーパスに記憶された前記複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、
前記形態素解析手段により出力される形態素列に対して構文解析を行ない、前記自然言語文の構文情報からなる単語列パターンを出力するための構文解析手段と、
前記テンプレート記憶手段に記憶された単語列テンプレートの各々と、前記構文解析手段により出力された単語列パターンとを比較し、前記構文解析手段により出力された単語列パターンの内の、変数を除いて単語列テンプレートと一致する構造を持つ部分であって、かつ当該部分の内で単語列テンプレートの変数に対応する位置にある単語の単語クラスが、当該変数の単語クラスと一致しているものを前記コーパスから抽出するための手段とを含む、言語モデル学習装置。 - 請求項4〜請求項5のいずれかに記載の言語モデル学習装置であって、さらに、
所定のコーパスに出現する単語列パターンの出現頻度を、当該単語列パターンごとに記憶するための頻度記憶手段と、
前記変形手段と前記学習手段との間に設けられ、前記変形手段から出力される変形後の単語列を受け、当該単語列の各々に対し、当該単語列を生成した単語列パターンについて前記頻度記憶手段に記憶された出現頻度に基づいて、当該単語列の複写回数を決定して複写し繰返し前記学習手段に出力することにより、前記変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む、言語モデル学習装置。 - 請求項1〜請求項5のいずれかに記載の言語モデル学習装置であって、さらに、
所定のコーパスに出現する単語の出現頻度を記憶するための頻度記憶手段と、
前記変形手段と前記学習手段との間に設けられ、前記変形手段から出力される変形後の単語列を受け、当該単語列の各々に対し、当該単語列を構成する単語について前記頻度記憶手段に記憶された各単語の出現頻度に基づいて、当該単語列の複写回数を決定して複写し繰返し前記学習手段に出力することにより、前記変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む、言語モデル学習装置。 - 請求項1に記載の言語モデル学習装置であって、
前記テンプレート記憶手段に記憶されたシードテンプレートの各々には予め重みが割当てられており、
前記テンプレート記憶手段に記憶された前記拡張テンプレートの各々には、当該拡張テンプレートのもとになったシードテンプレートの重みよりも小さな重みが割当てられており、
前記言語モデル学習装置はさらに、
前記変形手段と前記学習手段との間に設けられ、前記変形手段から出力される変形後の単語列を受け、当該単語列の各々に対し、前記単語列抽出手段において使用された単語列テンプレートに割当てられた重みにしたがって、当該単語列を複写し繰返し前記学習手段に出力することにより、前記変形手段から出力される変形後の単語列に含まれる単語の出現頻度を調整するための頻度調整手段を含む、言語モデル学習装置。 - 複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段に接続されるコンピュータを、
単語列テンプレートを記憶するためのテンプレート記憶手段と、
前記テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンを前記コーパスから抽出するための単語列抽出手段と、
予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された変形規則に基づいて、前記単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、
前記変形手段により出力される単語列の集合を学習データとして統計的言語モデルの学習を行なうための学習手段として機能させ、
前記テンプレート記憶手段は、
機械可読な文から抽出すべき、基本的な単語列テンプレートであるシードテンプレートを記憶するためのシードテンプレート記憶手段と、
前記シードテンプレート記憶手段に記憶されたシードテンプレートの各々に対し、予め準備されたテンプレート拡張規則を適用して拡張テンプレートを生成するための拡張テンプレート生成手段と、
前記拡張テンプレート生成手段により生成された拡張テンプレートと、前記シードテンプレート記憶手段に記憶されたシードテンプレートとを記憶し、前記単語列抽出手段に前記単語列テンプレートとして与えるための拡張テンプレート記憶手段とを含む、コンピュータプログラム。 - 請求項1〜請求項8のいずれかに記載の言語モデル学習装置と、
前記言語モデル学習装置により学習された言語モデルを記憶するための言語モデル記憶手段と、
前記言語モデル記憶手段に記憶された言語モデルを用いることにより、入力される音声の音声認識を行なうための音声認識手段とを含む、音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010224870A JP5807891B2 (ja) | 2010-10-04 | 2010-10-04 | 言語モデル学習装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010224870A JP5807891B2 (ja) | 2010-10-04 | 2010-10-04 | 言語モデル学習装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012078647A JP2012078647A (ja) | 2012-04-19 |
JP5807891B2 true JP5807891B2 (ja) | 2015-11-10 |
Family
ID=46238957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010224870A Expired - Fee Related JP5807891B2 (ja) | 2010-10-04 | 2010-10-04 | 言語モデル学習装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5807891B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657237B2 (en) | 2018-02-22 | 2023-05-23 | Samsung Electronics Co., Ltd. | Electronic device and natural language generation method thereof |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5766152B2 (ja) * | 2012-06-18 | 2015-08-19 | 日本電信電話株式会社 | 言語モデル生成装置、その方法及びプログラム |
JP6263420B2 (ja) * | 2014-03-12 | 2018-01-17 | 株式会社デンソーアイティーラボラトリ | テンプレート生成装置及びテンプレート生成プログラム |
JP6004452B2 (ja) | 2014-07-24 | 2016-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
JP5963328B2 (ja) | 2014-10-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、およびプログラム |
JP7122835B2 (ja) * | 2018-02-14 | 2022-08-22 | 株式会社Nttドコモ | 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル |
JP7103957B2 (ja) * | 2019-01-09 | 2022-07-20 | 株式会社Nttドコモ | データ生成装置 |
JP7036054B2 (ja) * | 2019-02-05 | 2022-03-15 | 日本電信電話株式会社 | 音響モデル学習装置、音響モデル学習方法、プログラム |
KR102078505B1 (ko) * | 2019-05-28 | 2020-02-17 | 주식회사 에이플에이디 | 기사 생성 시스템 및 그 방법 |
WO2020250426A1 (ja) * | 2019-06-14 | 2020-12-17 | ソプラ株式会社 | 情報生成装置、コーパスの生産方法、およびプログラム |
CN110781660A (zh) * | 2019-10-25 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语句识别方法、装置以及计算机可读介质 |
WO2021144862A1 (ja) * | 2020-01-14 | 2021-07-22 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、および、情報処理プログラム |
JP6820632B1 (ja) * | 2020-10-05 | 2021-01-27 | 株式会社グルーパー | 情報処理装置、及びプログラム |
JP2022070208A (ja) * | 2020-10-26 | 2022-05-12 | 株式会社エクサウィザーズ | 作業記録作成方法、プログラム、作業記録作成装置、及び作業記録システム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3961780B2 (ja) * | 2001-05-15 | 2007-08-22 | 三菱電機株式会社 | 言語モデル学習装置およびそれを用いた音声認識装置 |
JP2003177786A (ja) * | 2001-12-11 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 言語モデル作成装置及びそれを利用した音声認識装置 |
JP2004271615A (ja) * | 2003-03-05 | 2004-09-30 | Canon Inc | 情報処理装置 |
JP5413622B2 (ja) * | 2009-04-30 | 2014-02-12 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびプログラム |
-
2010
- 2010-10-04 JP JP2010224870A patent/JP5807891B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657237B2 (en) | 2018-02-22 | 2023-05-23 | Samsung Electronics Co., Ltd. | Electronic device and natural language generation method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2012078647A (ja) | 2012-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5807891B2 (ja) | 言語モデル学習装置及びコンピュータプログラム | |
JP5540335B2 (ja) | 自然言語文生成装置及びコンピュータプログラム | |
Belz | Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models | |
US8117023B2 (en) | Language understanding apparatus, language understanding method, and computer program | |
US10719668B2 (en) | System for machine translation | |
JP4559950B2 (ja) | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
JP2009193448A (ja) | 対話システム、方法及びプログラム | |
JPH05189481A (ja) | 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
CN110334197A (zh) | 语料处理方法及相关装置 | |
JP2008165786A (ja) | 機械翻訳用のシーケンス分類 | |
KR101735195B1 (ko) | 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체 | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
Ringger et al. | Linguistically informed statistical models of constituent structure for ordering in sentence realization | |
WO2009107441A1 (ja) | 音声合成装置、テキスト生成装置およびその方法並びにプログラム | |
JP5462819B2 (ja) | 基本木獲得装置、構文解析装置、方法、及びプログラム | |
KR102129575B1 (ko) | 단어 교정 시스템 | |
JP5879989B2 (ja) | 機械翻訳システム、機械翻訳方法および機械翻訳プログラム | |
Meng et al. | Generating emphasis from neutral speech using hierarchical perturbation model by decision tree and support vector machine | |
Garay-Vitoria et al. | Modelling text prediction systems in low-and high-inflected languages | |
JP3982726B2 (ja) | 翻訳知識学習装置及び機械翻訳装置 | |
JP3892227B2 (ja) | 機械翻訳システム | |
JP2003177786A (ja) | 言語モデル作成装置及びそれを利用した音声認識装置 | |
JP6573839B2 (ja) | 文生成装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5807891 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |