[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2017228272A - 意味生成方法、意味生成装置及びプログラム - Google Patents

意味生成方法、意味生成装置及びプログラム Download PDF

Info

Publication number
JP2017228272A
JP2017228272A JP2017007869A JP2017007869A JP2017228272A JP 2017228272 A JP2017228272 A JP 2017228272A JP 2017007869 A JP2017007869 A JP 2017007869A JP 2017007869 A JP2017007869 A JP 2017007869A JP 2017228272 A JP2017228272 A JP 2017228272A
Authority
JP
Japan
Prior art keywords
sentence
semantic
paraphrase
learning
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017007869A
Other languages
English (en)
Other versions
JP6832501B2 (ja
Inventor
貴志 牛尾
Takashi Ushio
貴志 牛尾
山上 勝義
Katsuyoshi Yamagami
勝義 山上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to CN201710328057.8A priority Critical patent/CN107526720A/zh
Priority to EP17173957.6A priority patent/EP3258390A1/en
Priority to US15/618,383 priority patent/US10319368B2/en
Publication of JP2017228272A publication Critical patent/JP2017228272A/ja
Application granted granted Critical
Publication of JP6832501B2 publication Critical patent/JP6832501B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】精度を向上できる意味生成方法を提供する。【解決手段】意味生成方法は、発話文の意味を生成する意味生成装置100における意味生成方法であって、発話文となりうる文章134のテキストデータと、文章134の意味を示す意味情報132とを対応付けた意味訓練データ131を取得し(S112)、文章134のテキストデータと、文章134の換言文142のテキストデータとを対応付けた換言訓練データ141を取得し(S113)、意味訓練データ131及び換言訓練データ141を共通のモデルに適用することにより、発話文に含まれる単語の重要度を含む、発話文と意味情報132及び換言文142との対応付けを学習し(S114〜S116)、学習した結果を学習結果情報123として記憶する。【選択図】図3

Description

本開示は、発話文の意味を生成する意味生成方法及び意味生成装置に関する。
意味生成技術(発話意図生成技術)は、同じ意味の発話を意味情報(意味ラベル)に変換する技術である。具体的には、同じ意味の言い回しと意味情報のセットからなる訓練文書を用いて、意味情報に寄与している高頻度の語句を特徴として学習を行う(例えば、非特許文献1参照)。また、同じ意味である和文と英文などの対訳訓練文書を用いて、文字列間の変換を学習する従来技術も存在する(例えば、非特許文献2参照)。
特許第5362651号公報
Andrew M. Dai, Quoc V. Le, "Semi-supervised Sequence Learning", NIPS 2015 Ilya Sutskever, Oriol Vinyals, Quoc Le, "Sequence to Sequence Learning with Neural Networks", NIPS 2014 Katja Filippova, Enrique Alfonseca, Carlos A. Colmenares, Lukasz Kaiser, Oriol Vinyals Google Research,"Sentence Compression by Deletion with LSTMs",Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 360-368
しかしながら、このような技術では、変換すべき意図に直接寄与しない非重要語がテキストに高頻度で出現すると、非重要語を誤って重要語として認識してしまう場合がある。よって、正しい意味ラベルに変換するためには、さらなる改善が必要であった。
そこで、本開示は、精度を向上できる意味生成方法又は意味生成装置を提供することを目的とする。
本開示の一態様に係る意味生成方法は、発話文の意味を生成する意味生成装置における意味生成方法であって、前記発話文となりうる第1の文章のテキストデータと、前記第1の文章の意味を示す意味情報とを対応付けた第1の意味訓練データを取得し、前記第1の文章のテキストデータと、前記第1の文章の換言文である第2の文章のテキストデータとを対応付けた第1の換言訓練データを取得し、前記第1の意味訓練データ及び前記第1の換言訓練データを共通のモデルに適用することにより、前記発話文に含まれる単語の重要度を含む、前記発話文と前記意味情報及び前記換言文との対応付けを学習し、前記学習した結果を学習結果情報として記憶する。
本開示は、精度を向上できる意味生成方法又は意味生成装置を提供できる。
実施の形態に係る意味生成装置の構成を示すブロック図である。 実施の形態に係る意味生成装置による処理のフローチャートである。 実施の形態に係る学習処理のフローチャートである。 実施の形態に係る意味訓練コーパスの一例を示す図である。 実施の形態に係る換言訓練コーパスの一例を示す図である。 実施の形態に係るニューラルネットの概略を示す図である。 実施の形態に係るニューラルネットの入出力となるベクトル表現の一例を示す図である。 実施の形態に係る意味生成処理のフローチャートである。 実施の形態に係る発話文テーブルの一例を示す図である。 実施の形態に係る意味情報テーブルの一例を示す図である。 実施の形態の比較例に係る意味情報テーブルの一例を示す図である。 実施の形態に係る対話システムのブロック図である。
(本開示の基礎となった知見)
非特許文献1には、単語列とラベル(意味情報)のセットからなる訓練文書を基に、ニューラルネットワークモデルを用いて学習することで、ラベルに対する語句の重要度を抽出し、極性(正・負)などのラベルを予測する技術が記載されている。この技術では、ニューラルネットの中でも、単語列などの時系列データの処理に適したLSTM(Long short−term memory)と呼ばれるリカレントニューラルネットワークの亜種が用いられている。これにより、この技術は、任意長かつ長い単語列に対しても適用可能である。
非特許文献2には、2つの単語列のセットからなる訓練文書を基に、LSTMで単語列間の変換を学習することで、単語間で依存関係が強い語句を抽出する技術が記載されている。この技術は、主に翻訳などに用いることが可能である。
ここで、ユーザの発話から重要又は非重要語を抽出するために、ある意味ラベル内での単語出現回数と、言語資源全体における単語出現回数とを用いた指標TF−IDF(Term Frequency−Inverse Document Frequency)がよく使われる。しかしながら、TF−IDFでは、記述者の偏りによって、少数の意味ラベルのみに出現する語句の重要度が高まってしまう。
この課題に対して、特許文献1記載の技術では、タスク依存の発話が記述されているWeb上の構造化データを利用する。この技術では、発話を異なる役割を持つ文章郡(セクション)、例えば、「質問本文」「回答文」「コメント」などに区分し、語句が出現するセクション数を利用して重要度を決めることで、記述者による表現のゆれを減らし、重要語を抽出する。
非特許文献3には、ニュース記事の本文と見出しのテキストとに基づき、テキスト内で単語ごとに重要又は非重要を付与し、要約を行うことで重要語を自動抽出する技術が記載されている。
しかしながら、特許文献1及び非特許文献3に記載のいずれの技術も「見出し」「本文」「回答文」「コメント」などの構造化されたWeb文書において、タスクに依存した意味ラベルに変換したい文が記述されている必要がある。従って、ユーザの発話を記述したWeb文書が得られない場合は、重要語を抽出することができないという課題がある。
このような課題に対して、本開示の一態様に係る意味生成方法は、発話文の意味を生成する意味生成装置における意味生成方法であって、前記発話文となりうる第1の文章のテキストデータと、前記第1の文章の意味を示す意味情報とを対応付けた第1の意味訓練データを取得し、前記第1の文章のテキストデータと、前記第1の文章の換言文である第2の文章のテキストデータとを対応付けた第1の換言訓練データを取得し、前記第1の意味訓練データ及び前記第1の換言訓練データを共通のモデルに適用することにより、前記発話文に含まれる単語の重要度を含む、前記発話文と前記意味情報及び前記換言文との対応付けを学習し、前記学習した結果を学習結果情報として記憶する。
これによれば、発話文と意味情報との対応付けの際に、発話文と換言文との対応付けを学習する。これにより、発話文と意味情報との対応付けの精度を向上できる。
例えば、前記意味生成方法は、さらに、ユーザにより発話された第3の文章のテキストデータを取得し、前記学習結果情報に基づき、前記第3の文章に対応する意味情報を生成してもよい。
これによれば、学習結果を用いて、発話文から意味情報を生成できる。
例えば、前記第1の意味訓練データは、2以上の意味訓練データを集積した第1のコーパスから取得されてもよい。
例えば、前記第1の換言訓練データは、2以上の換言訓練データを集積した第2のコーパスから取得されてもよい。
例えば、前記モデルはニューラルネットワークモデルであってもよい。
例えば、前記学習は、前記第1の文章に対応付けられた前記意味情報及び前記第2の文章と、前記モデルを用いて算出された前記第1の文章に対する前記意味情報及び前記第2の文章の事後確率との間で誤差逆伝搬学習を行うことにより実行されてもよい。
例えば、前記発話文と前記換言文との対応付けの学習は、前記発話文と前記意味情報との対応付けの学習において得られた内部情報を用いて行われてもよい。
例えば、前記モデルはニューラルネットワークモデルであり、前記内部情報は、前記ニューラルネットワークモデルにおける各層間の重みであってもよい。
また、本開示の一態様に係る意味生成装置は、発話文の意味を生成する意味生成装置であって、前記発話文となりうる第1の文章のテキストデータと、前記第1の文章の意味を示す意味情報とを対応付けた第1の意味訓練データを取得する意味訓練データ取得部と、前記第1の文章のテキストデータと、前記第1の文章の換言文である第2の文章のテキストデータとを対応付けた第1の換言訓練データを取得する換言訓練データ取得部と、前記第1の意味訓練データ及び前記第1の換言訓練データを共通のモデルに適用することにより、前記発話文に含まれる単語の重要度を含む、前記発話文と前記意味情報及び前記換言文との対応付けを学習する学習部と、前記学習した結果を学習結果情報として記憶する記憶部とを備える。
これによれば、発話文と意味情報との対応付けの際に、発話文と換言文との対応付けを学習する。これにより、発話文と意味情報との対応付けの精度を向上できる。
また、本開示の一態様に係るプログラムは、前記胃意味生成方法をコンピュータに実行させる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、本開示の実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
まず、本実施の形態に係る意味生成装置100の構成を説明する。図1は、本実施の形態の意味生成装置100の構成を示すブロック図である。
この意味生成装置100は、発話文の意味を生成する。意味生成装置100は、例えば、コンピュータで構成され、記憶部101、処理部102、記憶部103、処理部104及び記憶部105を備える。
記憶部101、103及び105は、例えば、ハードディスクドライブ又はソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成される。
記憶部101は、意味訓練コーパス121、換言訓練コーパス122、及び発話文テーブル124を記憶する。記憶部103は、学習結果情報123を記憶する。記憶部105は、意味情報テーブル125を記憶する。
処理部102及び104は、例えば、CPU、ASIC、又はFPGA等のプロセッサで構成される。処理部102は、学習部113を備える。学習部113は、意味学習部114、及び換言学習部115を備える。処理部104は、形態素解析部117及び意味生成部118を備える。
なお、処理部102、104及び105が備える各処理ブロックの機能は、CPU等のプロセッサが、コンピュータに保持されている、コンピュータ読み取り可能なプログラムを実行することで実現される。
次に、意味生成装置100の動作を説明する。図2は、意味生成装置100の動作の概要を示すフローチャートである。
まず、意味生成装置100は、意味訓練コーパス121に含まれる複数の意味訓練データ、及び、換言訓練コーパス122に含まれる複数の換言訓練データを用いて、発話文と意味情報との対応関係を学習する学習処理を行う(S101)。
次に、意味生成装置100は、上記学習処理の結果を用いて、発話文の意味情報を生成する意味生成処理を行う(S102)。
以下、上記学習処理(S101)の詳細を説明する。図3は、本実施の形態における学習処理(S101)のフローチャートである。
まず、学習部113は、全ての学習パラメータを擬似乱数テーブルに基づいて初期化する(S111)。具体的には、学習部113は、後述する図6に示すニューラルネットワークの各層間の重みを初期化する。
次に、意味訓練データ取得部111は、意味訓練コーパス121に含まれる複数の意味訓練データ131のうち一つを取得する(S112)。図4は、意味訓練コーパス121の一例を示す図である。図4に示すように、意味訓練コーパス121は、2以上の意味訓練データ131が集積されたものである。各意味訓練データ131は、発話文となりうる文章のテキストデータである文章134と、当該意味訓練データ131を一意に特定するための識別子である文章ID133と、当該文章134の意味を示す教師データである意味情報132(意味ラベル)とを含む。つまり、意味訓練データ131は、文章134と、意味情報132とを対応付けるデータである。
通常、日本語の場合、テキストデータは単語の区切りがない文字列データとして記述されることが一般的である。これに対して、形態素解析ソフトウェア(例えば、MeCab)によって単語の区切りがない状態で記述された文字列から、単語単位に分割された単語列データを得ることができる。よって、テキストデータは、出現順に従って単語単位に分割されたうえで文章134として格納される。
例えば、図4に示す例は、問診で想定される患者の返答に対応する意味訓練コーパス121の例である。意味訓練データ取得部111は、文章ID133をインクリメントしていき、対応する意味訓練データ131(意味情報132及び文章134)を順次取り出す。また、文章ID133が終端になった場合、意味訓練データ取得部111は、先頭の文章ID133に戻って意味訓練データ131を取り出す。
次に、換言訓練データ取得部112は、換言訓練コーパス122に含まれる複数の換言訓練データ141のうち一つを取得する(S113)。図5は、換言訓練コーパス122の一例を示す図である。図5に示すように、換言訓練コーパス122は、2以上の換言訓練データ141が集積されたものである。各換言訓練データ141は、文章ID133と、文章134と、文章134の換言文のテキストデータであり、意味訓練コーパス121において当該文章134と同一の意味ラベルを持つ複数の他の文章である換言文候補を示す換言文142とを含む。つまり、換言訓練データ141は、文章134と、換言文142とを対応付けるデータである。なお、文章ID133及び文章134は、意味訓練データ131に含まれる情報と同一である。
換言訓練データ取得部112は、換言訓練コーパス122に含まれる複数の換言訓練データ141のうち、ステップS112で取得された意味訓練データ131と同一の文章ID133を有する換言訓練データ141を取得する。そして、換言訓練データ取得部112は、取得した換言訓練データ141に含まれる換言文142で示される換言文候補から教師となる換言文を、擬似乱数テーブルに基づき、無作為に1つ抽出する。
次に、学習部113は、取得された意味訓練データ131及び換言訓練データ141を共通のモデルに適用することにより、発話文(文章134)に含まれる単語の重要度を含む、発話文(文章134)と意味情報132及び換言文142との対応付けを学習する。ここで、モデルとは、例えば、後述するニューラルネットワークモデル151である。
具体的には、意味学習部114は、意味訓練コーパス121に含まれるテキストデータを用いて教師あり学習を行うことで、語句の重要度を含む、文章と意味情報との対応付けを学習する。つまり、意味学習部114は、文章に対して各意味情報の確率値を割り当てるための学習を行う。その際の原理としては、意味情報ごとに高頻度で出現する語句に重要度を付けて抽出し、文章の単語列から統合的に各意味情報の確率を算出する。
図6は、本実施の形態における学習部113が用いるニューラルネットの概略を表す図である。意味学習部114は、ステップS112で取得した意味訓練データ131に含まれる文章134に対する意味情報132の事後確率を算出する(S114)。例えば、図4に示す文章ID133が「0002」の「いびきがあります」という文章134に対して、図6に示すニューラルネットワークモデル151を用いて、意味情報132の事後確率を算出する。
なお、図6においては、意味学習に用いられるニューラルネットワークモデル152と、換言学習に用いられるニューラルネットワークモデル153とが、隠れ層2を介して結合し、全体として1つのニューラルネットワークモデル151を構成している。本実施の形態では、このように、異なるタスクを行うための複数のモデルが一部で結合されることにより構成されるモデル全体を、「共通のモデル」と称する。
また、換言学習部115は、ステップS113で取得した換言訓練データ141に含まれる文章134に対する換言文142の事後確率を算出する(S115)。例えば、図5に示す文章ID133が「0002」の「いびきがあります」という文章に対して、図6に示すニューラルネットワークモデル151を用いて、換言文142の事後確率を算出する。
ここで、換言学習部115は、意味学習部114単体での重要語の抽出誤りを削減するために、意味学習部114の内部情報(学習パラメータの一部)を利用し、文章を換言文に変換する換言学習を行っている。つまり、発話文(文章)と換言文との対応付けの学習は、発話文(文章)と意味情報との対応付けの学習において得られた内部情報を用いて行われる。具体的には、この内部情報は、図6に示すニューラルネットワークモデル152及び153の隠れ層1及び隠れ層2において共通の学習パラメータである重み行列Wword及びW等である。重み行列Wword及びWは、ニューラルネットワークモデルにおける各層間の重みを示す。
より具体的には、図6の例において、意味学習に用いられるニューラルネットワークモデル152における隠れ層1及び隠れ層2が隣接する各層との間の重みを、換言学習に用いられるニューラルネットワークモデル153における隠れ層1及び隠れ層2が隣接する各層との間の重みとして用いることにより、内部情報の利用を行う。なお、ニューラルネットワークモデル152とニューラルネットワークモデル153の間での内部情報の利用は、ニューラルネットワークモデル152とニューラルネットワークモデル153とを結合する隠れ層2を介して行われる。言い換えると、ニューラルネットワークモデル152とニューラルネットワークモデル153とが隠れ層2を介して結合されることにより、2つのモデルの間での内部情報の利用が可能となる。
換言学習の原理としては、文章と文の終端を表す「EOS」とを時系列に入力した状態で、換言文の1文字目を出力し、発話文と文の終端を表す「EOS」、そして、既に出力した換言文の1文字目を入力として、換言文の2文字目を出力する。再度、「EOS」を出力するまで時系列の入力がスタックされた状態で、次の文字を出力し続ける。
次に、学習部113は、ステップS112とS113で抽出した教師データ(意味情報132、換言文142)と、ステップS114及びS115で算出した事後確率との間で誤差逆伝搬学習を行う(S116)。学習部113は、例えば、「いびきがあります」という文章に対する、意味情報及び換言文の予測した事後確率と、教師データである、意味情報「いびき」、及び換言文「私はいびきがあります」のベクトル表現とを用いて誤差計算を行う。また、学習部113は、例えば、意味情報の事後確率と教師データとの誤差と、換言文の事後確率と教師データとの誤差との平均が小さくなるように誤差逆伝搬学習を行う。
また、学習部113は、学習処理を終了するか否かを判定する(S117)。例えば、学習部113は、学習を繰り返しても誤差が減らなくなった場合に学習処理を終了すると判定する。
学習処理を終了しない場合(S117でNo)、再度、ステップS112以降の処理が、次の意味訓練データ131に対して行われる。また、学習処理を終了する場合(S117でYes)、上記学習処理の結果を示す学習結果情報123が記憶部103に記憶される。具体的には、この学習結果情報123は、学習処理終了時の学習パラメータを示す。
以下、ニューラルネットワークモデル151を用いた学習処理を詳細に説明する。図7は、本実施の形態におけるニューラルネットワークモデル151の入出力となるベクトル表現の例を示す図である。
まず、学習において、入力となる文章は、図7に示すように文章に含まれる単語数個の語彙次元ベクトルで表現されている。語彙次元ベクトルは、単語ごとに持つ識別番号(1〜語彙数)に対応した要素のみが1であり、残りの要素が0であるベクトルである。例えば、「私」という単語の識別番号が4である場合、語彙次元ベクトルは(0,0,0,1,・・・・)となる。つまり、一つの文章は語彙次元ベクトルが時系列に並んだ行列で表現される。
また、学習において、出力となるべき意味情報は、図7に示すように意味情報の定義数を次元数として持つラベルベクトルで表現されている。ラベルベクトルは意味ラベルごとに持つ識別番号(1〜意味ラベルの定義数)に対応した要素のみが1であり、残りの要素が0であるベクトルである。図6において、x〜xは文章を構成する単語列であり、yは意味情報であり、z〜zは換言文を構成する単語列である。
また、図6に示すニューラルネットワークモデル151は、時系列データである文章を入力とし、入力層から出力層までの4層のリカレントニューラルネットワークにより構成されている。また、リカレントニューラルネットワークの中でも記憶ユニットと呼ばれるモジュールを持たせることで、長期依存関係を学習可能であることが優れている点である。このニューラルネットワークモデル151は、下記(式1)及び(式2)で表すクロスエントロピー誤差の値を最小化することを目的とする。
Figure 2017228272
P(Y=y|x,…..x;θ)は文章に対する各意味情報の事後確率を示しており、P(z,……zT’|x,…..x;θ)は、文章に対する教師となる換言文の事後確率を示している。x〜xは文章であり、yは意味情報であり、z〜zT’は換言文である。また、θはニューラルネットワークの全ての学習パラメータである。そして、学習部113は、(式1)と(式2)で表す誤差の値を最小化するために、θを誤差逆伝搬法により更新していく。
図6に示す例では、意味学習に用いられるニューラルネットワークモデル152と、換言学習に用いられるニューラルネットワークモデル153とが、隠れ層2を介して結合している。このような構成において、各意味情報の事後確率の誤差の値と換言文の事後確率の誤差の値の両者を最小化するように全ての学習パラメータが更新されることによって、換言学習の結果が、意味学習に用いられるニューラルネットワークモデル152の学習パラメータに反映される。
以降、各事後確率が求まるまでの、ニューラルネットワークの処理の流れを説明する。まず、学習部113は、図6における入力層から隠れ層1の間で、(式3)において、語彙次元ベクトルで表現されたx,EOS,zを重み行列Wwordにより次元数を削減した分散ベクトルvに変換する。
Figure 2017228272
次に、学習部113は、図6における隠れ層1から隠れ層2の間では、(式4)〜(式7)に示すように、分散ベクトルに4つの重み行列W,W,W,Wをかけ、一つ前の隠れ層2の出力を示すht−1に重み行列H,H,H,Hをかけ、バイアス項であるb,b,b,bを足し合わせた結果を、活性化関数であるsigmoid関数の引数とすることで、要素に0〜1の値を持つ4つのベクトルi,c ((式5)の左辺),f,oを算出する。
Figure 2017228272
,c ,f,oは、記憶ユニットの制御を行うためのベクトルであり、前から順に記憶入力制御、入力記憶セルc〜t、記憶忘却制御、記憶出力制御を担っている。
次に、学習部113は、(式8)に示すように、入力制御ベクトルi、入力記憶セルc 、忘却制御ベクトルf、及び前記憶ユニット値ct−1を用いて、ニューラルネットワークが持つ記憶セルcの値を更新する。
Figure 2017228272
次に、学習部113は、(式9)で示すように、出力制御ベクトルoと記憶セルcにより現在の隠れ層2の出力であるhを算出する。
Figure 2017228272
(式2)〜(式7)までの処理は、時系列の入力と出力間の長期依存関係を学習するために、記憶ユニットを通して入力から出力までを伝えるLSTMと呼ばれるリカレンニューラルネットワークの亜種特有の処理である。
また、図6に示すニューラルネットワークモデル152における隠れ層2から出力層の間で、(式10)に示すように、x〜xの入力から得られるh1sem〜hTsemの平均ベクトルが得られる。
Figure 2017228272
そして、学習部113は、(式11)により平均ベクトルに重み行列Osemを掛け、バイアス項bsemを足すことでosemを算出する。
Figure 2017228272
semは、意味ラベルの定義数を次元数とするベクトルであり、各要素を(式12)で示すsigmoid関数(σ)の引数とすることで、各意味ラベルを持つか否かを0〜1の確率値で表現された予測確率ベクトルが得られる。
Figure 2017228272
そして、予測確率ベクトルの1要素が、(式1)の損失関数におけるP(Y=y|x,…..x;θ)を指している。
また、図6に示すニューラルネットワークモデル153における隠れ層2から出力層の間で、(式13)に示すように、EOS,z〜zT’の入力から得られるh1para〜hT’paraに対して、行列Oparaを掛け、バイアス項bparaを足した結果otparaが得られる。
Figure 2017228272
Otparaは、語彙数を次元数とするベクトルであり、各要素を(式14)で示すsoftmax関数の引数とすることで、予測する単語の確率分布を表すベクトルが得られる。
Figure 2017228272
そして、確率分布の教師に該当する要素が、(式15)におけるP(z|c,z,…..zt−1;θ)を指している。ここで、cはhTsemを指す文脈ベクトルである。
Figure 2017228272
以上により、図6に示すニューラルネットワークモデル151により、意味情報及び換言文の事後確率が算出される。なお、後述する意味生成処理(S102)では、ニューラルネットワークモデル152のみが用いられるので、ニューラルネットワークモデル152で使用される学習パラメータのみが、学習結果情報123として保存されてもよい。つまり、学習結果情報123として、学習結果である文章と意味情報との対応付けが記憶される。また、学習結果情報123は、学習結果である語句の重要度を含む。具体的には、上述した重み行列Wword、W等が語句の重要度に対応する。
次に、意味生成処理(図2のS102)の詳細を説明する。図8は、本実施の形態における意味生成処理(S102)のフローチャートである。
まず、発話文取得部116は、発話文テーブル124に含まれる複数の発話文データ161のうち一つを取得する(S121)。図9は、発話文テーブル124の一例を示す図である。図9に示すように発話文テーブル124は、複数の発話文データ161を含む。各発話文データ161は、当該発話文データ161を一意に特定するための識別子である発話ID162と、ユーザにより発話された文章のテキストデータである発話文163とを含む。
次に、意味生成装置100は、学習結果情報123に基づき、発話文163に対応する意味情報を生成する。まず、形態素解析部117は、単語の区切りがない状態で記述された文字列である発話文163を、単語単位に分割することで単語列データを得る(S122)。例えば、この機能は、形態素解析ソフトウェア(例えば、MeCab)などで実現することができる。
次に、意味生成部118は、ステップS122で得られた単語列データを用いて、各意味情報の尤もらしさを表す事後確率を算出する(S123)。具体的には、意味生成部118は、学習結果情報123として保存されている学習パラメータを適用したニューラルネットワークモデル152に、ステップS122で得られた単語列データを入力することで、意味情報の事後確率を算出する。また、算出された意味情報は、意味情報テーブル125に格納される。
また、図8に示す一連の処理は、発話文テーブル124に含まれる複数の発話文データ161に対して順次実行され、各発話文データ161に対応する意味情報が意味情報テーブル125に格納される。
図10は、本実施の形態に係る手法により生成された意味情報テーブル125の一例を示す図である。図11は、比較のための図であり、換言文の学習は行わず、意味情報の学習のみを行った場合の意味情報テーブル125Aの一例を示す図である。
図10に示すように、意味情報テーブル125は、複数の意味情報データ171を含む。各意味情報データ171は、発話ID162と、発話文163と、意味情報の事後確率172とを含む。発話ID162及び発話文163は、発話文テーブル124に含まれる情報と同一である。事後確率172は、ステップS123で算出された事後確率を示す。具体的には、事後確率172は、複数の意味情報の各々の確率を示す。つまり、事後確率172は、発話文163の意味情報を示す情報の一例である。
ここで、図11に示すように、換言文の学習を行わない場合には、発話文「私は学生です」に対して、事後確率は「いびき」=0.60、「頭痛」=0.00、「腹痛」=0.00となる。ここで、各確率は総和が1ではなく、複数の意味情報が1に近いことも持ちうる。そして、事後確率がある閾値(例えば、0.5)を超える場合に、発話文がその意味情報を持つと判定できる。逆に事後確率が閾値を超えない場合、無関係な発話と判定できる。
図11に示すように、換言文の学習を行わない場合には、「私はいびきがあります」という表現が「いびき」として学習される際に、この表現に含まれる「私」の重要度が高くなっている。これにより、「私」を含む「私は学生です」などの無関係な発話に対して、「いびき」の意味情報の事後確率が高くなってしまっている。
これに対して、図10に示すように、本実施の形態のように換言文の学習を行う場合には、「私は学生です」などの無関係な発話に対して、「いびき」の意味ラベルの確率値が低くなっていることがわかる。このように、本実施の形態に係る意味生成装置100は、意味情報の学習に加え、同じ意味の単語列のペアからなる換言文を用いた学習を行うことで、記述者共通の語句の重要度を高める学習を実現できる。これにより、ユーザの意図を正しく理解することが可能である。
このように、本実施の形態では、発話文になりえる文章を同じ意味の文章(換言文)に変換する学習を行う。また、その際に単語間で依存関係が強い語句が抽出されることを利用している。例えば、「いびき」などの内容語は換言前の文章の同義語又は類義語と強く依存する。一方、「私」又は「昨日から」は省略の可能性があるため、換言前の文章中のどの語句とも依存が強くない。したがって、内容語などを重要語句に設定し、それ以外を非重要語句に設定できるので、より意味に寄与する重要語句を抽出することが可能である。
なお、上記説明では、意味訓練コーパス121に複数の意味訓練データ131が含まれ、換言訓練コーパス122に複数の換言訓練データ141が含まれ、発話文テーブル124に複数の発話文データ161が含まれる例を示したが、これらの少なくとも一つは、一つの意味訓練データ131、換言訓練データ141又は発話文データ161のみを含んでもよい。
また、上記説明では、意味生成装置100において、学習処理と、意味生成処理との両方が行われる例を述べたが、これらの処理は異なる装置で行われてもよい。
以下、上述した意味生成装置100の利用形態について説明する。図12は、意味生成装置100を含む対話システムのブロック図である。この対話システムは、音声認識の機能を有し、クラウド上に存在するサーバ500と、スマートフォン等の携帯端末400とを含む。ユーザは、携帯端末400を介して、音声によりシステムと自然言語による対話を行うことができる。
携帯端末400及びサーバ500は、例えば、インターネット等の公衆通信ネットワークを介して接続されている。携帯端末400は、スマートフォン又はタブレットなどである。
携帯端末400は、マイク401、信号処理部402、通信部403及び応答実行部404を備える。マイク401は、音声を電気的な音声信号に変換するものであり、ユーザの音声を収音するために用いられる。
信号処理部402は、マイク401から入力される音声信号がノイズであるか否かを判定し、ノイズで無い場合、その音声信号を通信部403に出力する。
通信部403は、入力された音声信号を通信可能なフォーマットを持つ通信信号に変換し、得られた通信信号をサーバ500に送信する。
応答実行部404は、信号処理部402が通信部403より受け取った応答文をモニタに表示する。
サーバ500は、意味生成装置100、通信部501、音声処理部502、解析部503、及び応答生成部504を備える。通信部501は、携帯端末400からの通信信号を受信し、通信信号から音声信号を取り出して、取り出した音声信号を音声処理部502に出力する。
音声処理部502は、取り出された音声信号を解析することで、ユーザが発話した音声を示すテキストデータを生成する。
意味生成装置100は、例えば、図1に示す意味生成装置100であり、上述した学習処理が既に終了している状態である。意味生成装置100は、音声処理部502で生成されたテキストデータを発話文テーブル124に追加し、上述した意味生成処理を行うことで、当該テキストデータの意味情報を意味情報テーブル125に追加する。
解析部503は、意味生成装置100から、ユーザの発話内容に対する意味情報(確率値)を受け取り、システムが理解可能な発話であるか否かを判定する。そして、ユーザの発話内容をシステムが理解できれば、解析部503は、その発話内容を応答生成部504に渡す。
応答生成部504は、受け取った発話内容に対応する応答文を生成する。通信部501は、生成された応答文を通信可能なフォーマットを持つ通信信号に変換し、得られた通信信号を携帯端末400に送信する。
このように、図12に示す対話システムでは、サーバ500は、上記の学習が行われた後の意味生成装置100を用いて、ユーザの発話を適切に理解し、応答することが可能である。
以上、実施の形態に係る意味生成装置について説明したが、本開示は、この実施の形態に限定されるものではない。
また、上記実施の形態に係る意味生成装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
また、本開示は、意味生成装置により実行される意味生成方法として実現されてもよい。
また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
以上、一つまたは複数の態様に係る意味生成装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
本開示は、意味生成装置に適用でき、例えば、音声又はテキストによるユーザの発話に基づいて応答を行うことでユーザのタスクを達成するコールセンター又は問診対話など、タスク指向の対話システム装置又は対話システム方式に利用可能である。
100 意味生成装置
101、103、105 記憶部
102、104 処理部
111 意味訓練データ取得部
112 換言訓練データ取得部
113 学習部
114 意味学習部
115 換言学習部
116 発話文取得部
117 形態素解析部
118 意味生成部
121 意味訓練コーパス
122 換言訓練コーパス
123 学習結果情報
124 発話文テーブル
125、125A 意味情報テーブル
131 意味訓練データ
132 意味情報
133 文章ID
134 文章
141 換言訓練データ
142 換言文
151、152、153 ニューラルネットワークモデル
161 発話文データ
162 発話ID
163 発話文
171 意味情報データ
172 事後確率
400 携帯端末
401 マイク
402 信号処理部
403、501 通信部
404 応答実行部
500 サーバ
502 音声処理部
503 解析部
504 応答生成部

Claims (10)

  1. 発話文の意味を生成する意味生成装置における意味生成方法であって、
    前記発話文となりうる第1の文章のテキストデータと、前記第1の文章の意味を示す意味情報とを対応付けた第1の意味訓練データを取得し、
    前記第1の文章のテキストデータと、前記第1の文章の換言文である第2の文章のテキストデータとを対応付けた第1の換言訓練データを取得し、
    前記第1の意味訓練データ及び前記第1の換言訓練データを共通のモデルに適用することにより、前記発話文に含まれる単語の重要度を含む、前記発話文と前記意味情報及び前記換言文との対応付けを学習し、
    前記学習した結果を学習結果情報として記憶する
    意味生成方法。
  2. 前記意味生成方法は、さらに、
    ユーザにより発話された第3の文章のテキストデータを取得し、
    前記学習結果情報に基づき、前記第3の文章に対応する意味情報を生成する
    請求項1記載の意味生成方法。
  3. 前記第1の意味訓練データは、2以上の意味訓練データを集積した第1のコーパスから取得される
    請求項1又は2記載の意味生成方法。
  4. 前記第1の換言訓練データは、2以上の換言訓練データを集積した第2のコーパスから取得される
    請求項1〜3のいずれか1項に記載の意味生成方法。
  5. 前記モデルはニューラルネットワークモデルである
    請求項1〜4のいずれか1項に記載の意味生成方法。
  6. 前記学習は、前記第1の文章に対応付けられた前記意味情報及び前記第2の文章と、前記モデルを用いて算出された前記第1の文章に対する前記意味情報及び前記第2の文章の事後確率との間で誤差逆伝搬学習を行うことにより実行される
    請求項5記載の意味生成方法。
  7. 前記発話文と前記換言文との対応付けの学習は、前記発話文と前記意味情報との対応付けの学習において得られた内部情報を用いて行われる
    請求項1記載の意味生成方法。
  8. 前記モデルはニューラルネットワークモデルであり、
    前記内部情報は、前記ニューラルネットワークモデルにおける各層間の重みである
    請求項7記載の意味生成方法。
  9. 発話文の意味を生成する意味生成装置であって、
    前記発話文となりうる第1の文章のテキストデータと、前記第1の文章の意味を示す意味情報とを対応付けた第1の意味訓練データを取得する意味訓練データ取得部と、
    前記第1の文章のテキストデータと、前記第1の文章の換言文である第2の文章のテキストデータとを対応付けた第1の換言訓練データを取得する換言訓練データ取得部と、
    前記第1の意味訓練データ及び前記第1の換言訓練データを共通のモデルに適用することにより、前記発話文に含まれる単語の重要度を含む、前記発話文と前記意味情報及び前記換言文との対応付けを学習する学習部と、
    前記学習した結果を学習結果情報として記憶する記憶部とを備える
    意味生成装置。
  10. 請求項1記載の意味生成方法をコンピュータに実行させる
    プログラム。
JP2017007869A 2016-06-17 2017-01-19 意味生成方法、意味生成装置及びプログラム Active JP6832501B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710328057.8A CN107526720A (zh) 2016-06-17 2017-05-11 意思生成方法、意思生成装置以及程序
EP17173957.6A EP3258390A1 (en) 2016-06-17 2017-06-01 Meaning generation method, meaning generation apparatus, and storage medium
US15/618,383 US10319368B2 (en) 2016-06-17 2017-06-09 Meaning generation method, meaning generation apparatus, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016120983 2016-06-17
JP2016120983 2016-06-17

Publications (2)

Publication Number Publication Date
JP2017228272A true JP2017228272A (ja) 2017-12-28
JP6832501B2 JP6832501B2 (ja) 2021-02-24

Family

ID=60889308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017007869A Active JP6832501B2 (ja) 2016-06-17 2017-01-19 意味生成方法、意味生成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6832501B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081493A (ja) * 2016-11-16 2018-05-24 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
CN109684640A (zh) * 2018-12-26 2019-04-26 科大讯飞股份有限公司 一种语义提取方法及装置
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
JP2020038431A (ja) * 2018-09-03 2020-03-12 孝文 栢 行動推奨装置及び行動推奨システム
JP2020071737A (ja) * 2018-10-31 2020-05-07 富士通株式会社 学習方法、学習プログラム及び学習装置
CN111199157A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 一种文本数据处理方法及其装置
CN113160854A (zh) * 2020-01-22 2021-07-23 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备
CN113449927A (zh) * 2021-07-13 2021-09-28 广东电网有限责任公司 基于自然语言故障抢修的评价方法、设备及存储介质
CN113590768A (zh) * 2020-04-30 2021-11-02 北京金山数字娱乐科技有限公司 一种文本关联度模型的训练方法及装置、问答方法及装置
CN115048944A (zh) * 2022-08-16 2022-09-13 之江实验室 一种基于主题增强的开放域对话回复方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081493A (ja) * 2016-11-16 2018-05-24 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
JP2020038431A (ja) * 2018-09-03 2020-03-12 孝文 栢 行動推奨装置及び行動推奨システム
JP7224618B2 (ja) 2018-09-03 2023-02-20 孝文 栢 行動推奨装置及び行動推奨システム
JP2020071737A (ja) * 2018-10-31 2020-05-07 富士通株式会社 学習方法、学習プログラム及び学習装置
JP7099254B2 (ja) 2018-10-31 2022-07-12 富士通株式会社 学習方法、学習プログラム及び学習装置
CN111199157A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 一种文本数据处理方法及其装置
CN111199157B (zh) * 2018-11-19 2023-04-18 阿里巴巴集团控股有限公司 一种文本数据处理方法及其装置
CN109684640B (zh) * 2018-12-26 2023-05-30 科大讯飞股份有限公司 一种语义提取方法及装置
CN109684640A (zh) * 2018-12-26 2019-04-26 科大讯飞股份有限公司 一种语义提取方法及装置
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN110795945B (zh) * 2019-10-30 2023-11-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN113160854A (zh) * 2020-01-22 2021-07-23 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备
CN113590768A (zh) * 2020-04-30 2021-11-02 北京金山数字娱乐科技有限公司 一种文本关联度模型的训练方法及装置、问答方法及装置
CN113590768B (zh) * 2020-04-30 2023-10-27 北京金山数字娱乐科技有限公司 一种文本关联度模型的训练方法及装置、问答方法及装置
CN113449927A (zh) * 2021-07-13 2021-09-28 广东电网有限责任公司 基于自然语言故障抢修的评价方法、设备及存储介质
CN113449927B (zh) * 2021-07-13 2022-09-30 广东电网有限责任公司 基于自然语言故障抢修的评价方法、设备及存储介质
CN115048944A (zh) * 2022-08-16 2022-09-13 之江实验室 一种基于主题增强的开放域对话回复方法及系统

Also Published As

Publication number Publication date
JP6832501B2 (ja) 2021-02-24

Similar Documents

Publication Publication Date Title
US10319368B2 (en) Meaning generation method, meaning generation apparatus, and storage medium
JP6832501B2 (ja) 意味生成方法、意味生成装置及びプログラム
US10460721B2 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
US11798535B2 (en) On-device custom wake word detection
US10417329B2 (en) Dialogue act estimation with learning model
US11580145B1 (en) Query rephrasing using encoder neural network and decoder neural network
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
US20150095017A1 (en) System and method for learning word embeddings using neural language models
US11282501B2 (en) Speech recognition method and apparatus
Korpusik et al. Spoken language understanding for a nutrition dialogue system
Kadyan et al. A comparative study of deep neural network based Punjabi-ASR system
Kurimo et al. Modeling under-resourced languages for speech recognition
JP6823809B2 (ja) 対話行為推定方法、対話行為推定装置およびプログラム
US20210406483A1 (en) Device, method and program for natural language processing
Dubey et al. Deep speech based end-to-end automated speech recognition (asr) for indian-english accents
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
Kadyan et al. Enhancing accuracy of long contextual dependencies for Punjabi speech recognition system using deep LSTM
Hassan et al. Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2
JP2014224857A (ja) 対話制御学習装置と対話制御装置とそれらの方法とプログラム
WO2013056343A1 (en) System, method and computer program for correcting speech recognition information
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
KR20210051523A (ko) 도메인 자동 분류 대화 시스템
Schuller et al. Semantic speech tagging: Towards combined analysis of speaker traits
JP2021157145A (ja) 推論器および推論器の学習方法
Baranwal et al. Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191030

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210113

R151 Written notification of patent or utility model registration

Ref document number: 6832501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151