JP2024108744A - Embedded Expression Generation System - Google Patents
Embedded Expression Generation System Download PDFInfo
- Publication number
- JP2024108744A JP2024108744A JP2023013273A JP2023013273A JP2024108744A JP 2024108744 A JP2024108744 A JP 2024108744A JP 2023013273 A JP2023013273 A JP 2023013273A JP 2023013273 A JP2023013273 A JP 2023013273A JP 2024108744 A JP2024108744 A JP 2024108744A
- Authority
- JP
- Japan
- Prior art keywords
- user
- embedded
- unit
- embedding
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、埋め込み表現生成システムに関する。 The present invention relates to an embedded expression generation system.
抽象テキストを要約するシステムが知られている。例えば、特許文献1に記載されたシステムでは、リカレントニューラルネットワークにより実現されるエンコーダデコーダモデルが用いられ、エンコーダにより文書の入力トークン埋め込みを処理し、デコーダの出力トークンを処理してサマリートークンの出力が得られる。
A system for summarizing abstract text is known. For example, the system described in
適切に構成されたエンコーダデコーダモデルを用いることにより、例えば、話題及び場所等を表す単語の埋め込み表現を得ることはできる。また、同様に、単語とは異なる種別のエンティティである人の埋め込み表現を得ることも可能である。埋め込み表現は実数ベクトルで表現されるので、単語と単語との間及び人と人との間のように同種のエンティティ間の距離を計算することは可能だった。しかしながら、単語及び人のそれぞれの埋め込み表現の生成において、人と単語の関係が学習されていない場合には、人及び単語のそれぞれの埋め込み表現にそれらの関係性が反映されないので、人と単語との間のような異なる種別のエンティティ間の距離を計算することはできなかった。 By using a properly constructed encoder-decoder model, it is possible to obtain embeddings of words that represent topics, places, etc. Similarly, it is also possible to obtain embeddings of people, which are a different type of entity from words. Since the embeddings are represented as real vectors, it was possible to calculate the distance between entities of the same type, such as between words and between people. However, if the relationship between people and words has not been learned in generating the embeddings of words and people, those relationships are not reflected in the embeddings of people and words, and it was not possible to calculate the distance between different types of entities, such as between people and words.
そこで、本発明は、上記問題点に鑑みてなされたものであり、異なるエンティティ間の関係が適切に表されたエンティティの埋め込み表現を得ることを目的とする。 The present invention has been made in consideration of the above problems, and aims to obtain an embedding representation of an entity in which the relationships between different entities are appropriately represented.
上記課題を解決するために、本開示の一側面に係る埋め込み表現生成システムは、少なくともユーザ及び話題の埋め込み表現を生成する埋め込み表現生成システムであって、埋め込み部及び復号部を含むエンコーダデコーダモデルにより構成される言語モデルを学習する言語理解部であって、埋め込み部は、入力されたテキストの特徴を表す埋め込み表現を出力し、復号部は、埋め込み部からの出力を少なくとも含む埋め込み表現を復号し、ユーザの発話の内容を表す発話テキストのうちの、一のユーザの発話内容を表す第1のユーザ発話テキストを埋め込み部に入力することにより埋め込み部から出力されたユーザ発話埋め込み表現を取得し、ユーザ発話埋め込み表現と当該一のユーザの埋め込み表現であるユーザ埋め込み表現とを合成した合成埋め込み表現を復号部に入力することにより復号部から出力された復号テキストを取得し、発話テキストにおいて第1のユーザ発話テキストに引き続く第2のユーザ発話テキストと復号テキストとの誤差が小さくなるように言語モデル及びユーザ埋め込み表現を調整する機械学習を実施し、ユーザ埋め込み表現は、学習前の初期のユーザ埋め込み表現又は学習過程のユーザ埋め込み表現である、言語理解部と、発話テキストから、ユーザの発話における話題を表す語句である話題語を抽出する話題抽出部と、話題語を学習済みの埋め込み部に入力し、埋め込み部から出力される話題埋め込み表現を取得する埋め込み表現取得部と、ユーザの発話の履歴及び行動の履歴に基づいて、少なくともユーザ及び話題をノードとし、ユーザ間の対話の実績をユーザ間を接続するエッジとし、ユーザの話題語の発話の実績を当該ユーザと話題とを接続するエッジとするグラフである関係グラフを生成する関係抽出部と、学習済みのユーザ埋め込み表現及び話題埋め込み表現の各々を関係グラフにおけるユーザ及び話題のノードの特徴量とするグラフニューラルネットワークの学習により、各ノードの学習済みの埋め込み表現を得る関係学習部と、各ノードの埋め込み表現を出力する埋め込み表現出力部と、を備える。 In order to solve the above problem, an embedded expression generation system according to one aspect of the present disclosure is an embedded expression generation system that generates embedded expressions of at least a user and a topic, and a language understanding unit that learns a language model composed of an encoder-decoder model including an embedding unit and a decoding unit, in which the embedding unit outputs embedded expressions that represent the features of the input text, the decoding unit decodes the embedded expressions that include at least the output from the embedding unit, obtains a user utterance embedded expression output from the embedding unit by inputting a first user utterance text that represents the utterance content of one user out of the utterance text that represents the content of the user's utterance to the embedding unit, obtains a decoded text output from the decoding unit by inputting a composite embedded expression that combines the user utterance embedded expression and the user embedded expression that is the embedded expression of the one user to the decoding unit, and learns the language model so that an error between the second user utterance text that follows the first user utterance text in the utterance text and the decoded text is reduced. The system includes a language understanding unit that performs machine learning to adjust the model and user embedded expressions, where the user embedded expressions are initial user embedded expressions before learning or user embedded expressions in the learning process, a topic extraction unit that extracts topic words, which are phrases that represent topics in the user's utterance, from the spoken text, an embedded expression acquisition unit that inputs the topic words to a learned embedding unit and acquires topic embedded expressions output from the embedding unit, a relationship extraction unit that generates a relationship graph based on the user's utterance history and behavior history, in which at least users and topics are nodes, conversation records between users are edges that connect users, and user utterance records of topic words are edges that connect users and topics, a relationship learning unit that obtains learned embedded expressions for each node by learning a graph neural network in which each of the learned user embedded expressions and topic embedded expressions is a feature of the user and topic nodes in the relationship graph, and an embedded expression output unit that outputs the embedded expression for each node.
上記の側面によれば、エンコーダデコーダモデルにより構成される言語モデルが、第1のユーザ発話テキスト及び第2のユーザ発話テキストのペアを教師データとして、第1のユーザ発話テキストを埋め込み部に入力して得られたユーザ発話埋め込み表現とユーザ埋め込み表現とを合成した合成埋め込み表現を復号部に入力し、復号部から出力された復号テキストと第2のユーザ発話テキストとの誤差が小さくなるように言語モデル及びユーザ埋め込み表現が機械学習されることにより、話題語の入力に応じて好適な話題埋め込み表現を出力する埋め込み部(エンコーダ)が得られると共に、ユーザの特徴が好適に反映されたユーザ埋め込み表現が得られる。そして、ユーザ及び話題をノードとし、ユーザの発話及び行動の履歴に基づいてノード間にエッジが張られた関係グラフが生成され、話題語を埋め込み部に入力することにより得られる話題埋め込み表現及び学習済みのユーザ埋め込み表現の各々を話題語及びユーザの特徴量とするグラフニューラルネットワークの学習により、話題語及びユーザの特徴が好適に反映された、学習済みの話題埋め込み表現及びユーザ埋め込み表現が得られる。得られた話題埋め込み表現及びユーザ埋め込み表現には、それらのエンティティ間の関係が反映されているので、ユーザと話題との間の距離を計算することが可能である。 According to the above aspect, a language model composed of an encoder-decoder model uses a pair of a first user utterance text and a second user utterance text as teacher data, inputs the first user utterance text to an embedding unit, and inputs a composite embedding representation obtained by combining the user utterance embedding representation and the user embedding representation obtained by inputting the first user utterance text to the embedding unit into the decoding unit. The language model and the user embedding representation are machine-learned so that the error between the decoded text output from the decoding unit and the second user utterance text is reduced, thereby obtaining an embedding unit (encoder) that outputs a suitable topic embedded representation in response to the input of a topic word, and obtaining a user embedded representation that suitably reflects the user's characteristics. Then, a relationship graph is generated in which the user and the topic are nodes and edges are drawn between the nodes based on the user's utterance and behavior history, and a graph neural network is trained in which the topic embedded representation obtained by inputting the topic word into the embedding unit and the learned user embedded representation are each used as the feature of the topic word and the user, thereby obtaining a learned topic embedded representation and a user embedded representation that suitably reflect the topic word and the user's characteristics. The resulting topic embeddings and user embeddings reflect the relationships between those entities, making it possible to calculate the distance between the user and the topic.
異なるエンティティ間の関係が適切に表されたエンティティの埋め込み表現を得ることが可能となる。 It is possible to obtain embedding representations of entities that properly represent the relationships between different entities.
本発明に係る埋め込み表現生成システムの実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 An embodiment of an embedded expression generation system according to the present invention will be described with reference to the drawings. Where possible, identical parts will be given the same reference numerals and duplicated explanations will be omitted.
図1は、本実施形態に係る埋め込み表現生成システムの機能的構成を示す図である。本実施形態の埋め込み表現生成システム1は、少なくともユーザ及び話題の埋め込み表現を生成するシステムであって、一例として、埋め込み表現生成装置10により構成される。
Figure 1 is a diagram showing the functional configuration of an embedded expression generation system according to this embodiment. The embedded
埋め込み表現生成装置10は、図1に示すように、機能的には、発話ログ取得部11、音声認識部12、テキスト取得部13、感情取得部14、言語理解部15、話題抽出部16、埋め込み表現取得部17、関係抽出部18、関係学習部19、埋め込み表現出力部20及びリンク予測部21を備える。これらの各機能部11~21は、図1に例示されるように一つの装置に構成されてもよいし、複数の装置に分散されて構成されてもよい。
As shown in FIG. 1, the embedded
なお、図1に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。 The block diagram shown in FIG. 1 shows functional blocks. These functional blocks (components) are realized by any combination of at least one of hardware and software. Furthermore, the method of realizing each functional block is not particularly limited. That is, each functional block may be realized using one device that is physically or logically coupled, or may be realized using two or more devices that are physically or logically separated and connected directly or indirectly (e.g., using wires, wirelessly, etc.). The functional blocks may be realized by combining the one device or the multiple devices with software.
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。 Functions include, but are not limited to, judgement, determination, judgment, calculation, computation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, resolution, selection, selection, establishment, comparison, assumption, expectation, regard, broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, and assignment. For example, a functional block (component) that performs the transmission function is called a transmitting unit or transmitter. As mentioned above, there are no particular limitations on the method of realization for either of these.
例えば、本発明の一実施の形態における埋め込み表現生成装置10は、コンピュータとして機能してもよい。図2は、本実施形態に係る埋め込み表現生成装置10のハードウェア構成の一例を示す図である。埋め込み表現生成装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
For example, the embedded
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。埋め込み表現生成装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
In the following description, the term "apparatus" may be interpreted as a circuit, device, unit, etc. The hardware configuration of the embedded
埋め込み表現生成装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
Each function of the embedded
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、図1に示した各機能部11~21などは、プロセッサ1001で実現されてもよい。
The
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、埋め込み表現生成装置10の各機能部11~21は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
The
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る埋め込み表現生成方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
The
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
Storage 1003 is a computer-readable recording medium, and may be, for example, at least one of an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, a magneto-optical disk (e.g., a compact disk, a digital versatile disk, a Blu-ray (registered trademark) disk), a smart card, a flash memory (e.g., a card, a stick, a key drive), a floppy (registered trademark) disk, a magnetic strip, and the like.
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
The
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
The
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
In addition, each device, such as the
また、埋め込み表現生成装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
The embedded
次に、埋め込み表現生成装置10の各機能部について説明する。発話ログ取得部11は、ユーザの発話の内容を表す発話ログを取得する。音声認識部12は、発話ログが音声である場合に、発話ログをテキストに変換する。テキスト取得部13は、発話ログに基づきユーザの発話の内容を表すテキストである発話テキストを取得する。感情取得部14は、ユーザの発話が発せられた時の当該ユーザの感情を表す感情情報を発話の音声又は当該ユーザの表情に基づいて取得し、取得された感情情報を当該発話の内容を表す発話テキストに関連付ける。
Next, each functional unit of the embedded
図3を参照して、発話ログ取得部11、音声認識部12、テキスト取得部13及び感情取得部14の処理内用を具体的に説明する。図3は、発話テキストの取得工程を概略的に説明する図である。
The processing operations of the speech
発話ログ取得部11は、例えばキーボード及びタッチパネル等に例示される入力装置41を介した入力に基づいて、ユーザの発話の内容を表す発話ログをテキストの態様で取得してもよい。また、発話ログ取得部11は、例えばマイク42を介した音声入力に基づいて、ユーザの発話内用を表す発話ログを、音声データの態様で取得してもよい。
The speech
発話ログ取得部11により取得される発話ログは、所定の仮想空間におけるユーザの発話内容を表す音声またはテキスト(チャット)であってもよい。所定の仮想空間は、一例として、いわゆるメタバースと言われる仮想空間であってもよい。ユーザによる発話は、メタバース等の仮想空間におけるアバターによる発話であってもよく、発話ログ取得部11は、アバターによる発話を表す発話ログを、音声又はテキストの態様で取得してもよい。
The speech log acquired by the speech
音声認識部12は、発話ログ取得部11により音声の態様の発話ログが取得された場合に、音声をテキストに変換する。音声認識部12は、如何なる手法により音声からなる発話ログをテキストに変換してもよく、例えば、周知の音声認識技術により音声をテキストに変換してもよい。
The
テキスト取得部13は、発話ログに基づいて、ユーザの発話の内容を表すテキストである発話テキストを取得する。発話ログ取得部11によりテキストの態様で発話ログが取得される場合には、テキスト取得部13は、発話ログを表すテキストを発話テキストとして取得する。また、発話ログ取得部11により音声の態様で発話ログが取得される場合には、テキスト取得部13は、音声認識部12によりテキストに変換された発話ログを発話テキストとして取得する。そして、テキスト取得部13は、取得した発話テキストt1を言語理解部15に送出する。
The
感情取得部14は、ユーザの発話が発せられた時の当該ユーザの感情を表す感情情報を、例えば、マイク42を介して取得されるユーザの発話音声、又は、カメラ43を介して取得されるユーザの表情を表す画像に基づいて取得する。
The
感情取得部14は、如何なる手法により発話音声からユーザの感情情報を取得してもよく、例えば、周知の感情認識技術により発話音声から感情情報を取得してもよい。また、感情取得部14は、如何なる手法によりユーザの表情を表す画像からユーザの感情情報を取得してもよく、例えば、周知の表情認識技術によりユーザの表情を表す画像から感情情報を取得してもよい。
The
また、感情情報の取得源はユーザの表情及び発話音声に限定されず、感情取得部14は、仮想空間におけるユーザの発話時のアバターの状態から取得してもよい。
In addition, the source of emotion information is not limited to the user's facial expressions and spoken voice, and the
感情情報は、例えば、「喜び」、「怒り」、「悲しみ」、「驚き」等の種別を含み、「楽しい」、「穏やか」等のいくつかの所定の感情の種別は、ポジティブ(肯定的)な感情として分類されうる。 Emotion information includes categories such as "joy," "anger," "sadness," and "surprise," and some predetermined emotion categories such as "fun" and "calm" can be classified as positive emotions.
感情取得部14は、ユーザの発話時の表情及び音声等から取得した感情情報を、当該発話の内容を表す発話テキストt1に関連付ける。従って、言語理解部15は、感情情報が関連付けられた発話テキストt1を取得できる。
The
言語理解部15は、エンコーダデコーダモデルにより構成される言語モデルの機械学習を実施する。図4は、言語モデルの構成及び言語モデルの機械学習処理の例を示す図である。言語モデルmdは、ニューラルネットワークを含んで構成されるエンコーダデコーダモデルであって、埋め込み部en(エンコーダ)及び復号部de(デコーダ)を含む。
The
言語モデルmdの構成は限定されないが、例えば、seq2seqといったリカレントニューラルネットワークの対から構成されるエンコーダデコーダモデルであってもよいし、例えば、T5(Text-to-Text Transfer Transformer)といったトランスフォーマにより構成されてもよい。 The configuration of the language model md is not limited, but may be, for example, an encoder-decoder model composed of a pair of recurrent neural networks such as seq2seq, or may be composed of a transformer such as T5 (Text-to-Text Transfer Transformer).
埋め込み部enは、入力されたテキストをエンコードし、当該テキストの特徴を表す埋め込み表現を出力する。復号部deは、埋め込み部enからの出力を少なくとも含む埋め込み表現を復号(デコード)し、復号テキストdtを出力する。なお、言語モデルの入出力の説明において、「テキスト」と記載されたものは、所定の手法によりテキストが変換されたベクトルデータであったり、テキストを表すベクトルデータとして出力されたりするものである。 The embedding unit en encodes the input text and outputs an embedded representation that represents the characteristics of the text. The decoding unit decodes the embedded representation that includes at least the output from the embedding unit en, and outputs the decoded text dt. Note that in the explanation of the input and output of the language model, what is referred to as "text" may be vector data in which text has been converted using a specified method, or may be output as vector data representing text.
言語理解部15は、ユーザの発話の内容を表す発話テキストのうちの、一のユーザの発話内容を表す第1のユーザ発話テキストを埋め込み部enに入力することにより、埋め込み部enから出力されたユーザ発話埋め込み表現を取得する。
The
図4に示す例では、言語理解部15は、言語モデルmdの学習のための教師データである、ユーザAの発話の内容を表す発話テキストut(「今日の晩御飯は」「カレー」)のうちの第1のユーザ発話テキストut1(今日の晩御飯は)を埋め込み部enに入力する。そして、言語理解部15は、埋め込み部enによりエンコード及び出力されたユーザ発話埋め込み表現ebsを取得する。
In the example shown in FIG. 4, the
ここで、言語理解部15は、ユーザの埋め込み表現であるユーザ埋め込み表現を取得する。例えば、埋め込み表現生成システム1は、ユーザ埋め込み表現管理部22を更に備えてもよい。ユーザ埋め込み表現管理部22は、学習前の初期のユーザ埋め込み表現を生成及び管理してもよい。また、ユーザ埋め込み表現管理部22は、学習過程のユーザ埋め込み表現を管理してもよい。ユーザ埋め込み表現管理部22は、図1に示した埋め込み表現生成装置10の機能部として構成されてもよいし、別途の装置に構成されてもよい。
Here, the
ユーザ埋め込み表現は、実数ベクトルにより表される。初期のユーザ埋め込み表現は、ランダムな実数ベクトルであってもよいし、ユーザに関しての何らかの特徴が反映された特徴量からなる実数ベクトルであってもよい。本実施形態の埋め込み表現生成システム1においては、初期のユーザ埋め込み表現を得る方法は限定されず、周知のいかなる手法であってもよい。
The user embedded representation is represented by a real vector. The initial user embedded representation may be a random real vector, or may be a real vector consisting of feature quantities that reflect some characteristic of the user. In the embedded
言語理解部15は、ユーザ発話埋め込み表現と当該一のユーザの埋め込み表現であるユーザ埋め込み表現とを合成した合成埋め込み表現を生成する。言語理解部15は、ユーザ発話埋め込み表現とユーザ埋め込み表現とをつなげて、合成埋め込み表現を生成してもよい。図4に示す例では、言語理解部15は、ユーザAのユーザ埋め込み表現ebuをユーザ埋め込み表現管理部22から取得し、第1のユーザ発話テキストut1の埋め込み表現であるユーザ発話埋め込み表現ebsと、ユーザAのユーザ埋め込み表現ebuとをつなげて、合成埋め込み表現eblを生成する。そして、言語理解部15は、合成埋め込み表現eblを復号部deに入力することにより、復号部deにより復号(デコード)された復号テキストdtを取得する。
The
言語理解部15は、発話テキストにおいて第1のユーザ発話テキストに引き続く第2のユーザ発話テキストと復号テキストとの誤差が小さくなるように言語モデル及びユーザ埋め込み表現を調整する機械学習を実施する。図4に示す例では、言語理解部15は、発話テキストut(「今日の晩御飯は」「カレー」)のうちの第1のユーザ発話テキストut1に引き続く第2のユーザ発話テキストut2(カレー)と、復号テキストdtとの誤差が小さくなるように、言語モデルmd及びユーザ埋め込み表現ebuを調整する。
The
なお、言語理解部15は、所定のポジティブな感情を表す感情情報が関連付けられた発話テキストを用いて、言語モデルmd及びユーザ埋め込み表現を調整する機械学習を実施してもよい。前述のとおり、発話テキストutは、当該発話テキストに係る発話が発せられたときのユーザの感情を表す感情情報を伴うことができる。かかる場合に、言語理解部15は、例えば、「楽しい」、「穏やか」等のポジティブな感情を表す感情情報が関連付けられた発話テキストutを教師データとして用いて、言語モデルmd及びユーザ埋め込み表現を調整する機械学習を実施してもよい。
The
このように、ポジティブな感情を表す感情情報が関連付けられた発話テキストが機械学習に用いられることにより、ユーザがポジティブな感情を抱いているときに発現する可能性が高い第1及び第2のユーザ発話テキストの組み合わせを教師データとすることができる。このような教師データを用いて機械学習が行われることにより、ユーザにとって話題語等との好適な関係が反映された話題埋め込み表現を生成可能な埋め込み部及びユーザ埋め込み表現が得られる。 In this way, by using speech text associated with emotional information expressing positive emotions in machine learning, a combination of the first and second user speech texts that is likely to be expressed when the user is feeling positive emotions can be used as training data. By performing machine learning using such training data, an embedding unit and user embedding expressions that can generate topic embedding expressions that reflect the user's preferred relationship with topic words, etc. can be obtained.
学習済みのニューラルネットワークを含むモデルである言語モデルmdは、コンピュータにより読み込まれ又は参照され、コンピュータに所定の処理を実行させ及びコンピュータに所定の機能を実現させるプログラムとして捉えることができる。 The language model md, which is a model that includes a trained neural network, can be considered as a program that is loaded or referenced by a computer and causes the computer to execute specified processes and realize specified functions.
即ち、本実施形態の学習済みの言語モデルmdは、CPU及びメモリを備えるコンピュータにおいて用いられる。具体的には、コンピュータのCPUが、メモリに記憶された学習済みの言語モデルmdからの指令に従って、ニューラルネットワークの入力層に入力された入力データに対し、例えば、各層に対応する学習済みの重み付け係数(パラメタ)及び応答関数等に基づく演算を行い、出力層から結果(確率)を出力するよう動作する。 That is, the trained language model md of this embodiment is used in a computer equipped with a CPU and memory. Specifically, the computer's CPU operates in accordance with instructions from the trained language model md stored in the memory to perform calculations on input data input to the input layer of the neural network based on, for example, trained weighting coefficients (parameters) and response functions corresponding to each layer, and to output results (probabilities) from the output layer.
再び図1を参照して、話題抽出部16は、発話テキストから、ユーザの発話における話題を表す語句である話題語を抽出する。話題語の抽出に適用される手法は限定されず、話題抽出部16は、例えば、形態素解析及びテキストマイニング等の周知の手法を利用することにより話題語を抽出できる。
Referring again to FIG. 1, the
埋め込み表現取得部17は、話題語を学習済みの埋め込み部に入力し、埋め込み部から出力される話題埋め込み表現を取得する。図5は、学習済みの言語モデルの埋め込み部を用いた埋め込み表現取得処理の例を示す図である。図5に示されるように、埋め込み表現取得部17は、話題抽出部16により抽出された話題語tpを学習済みの埋め込み部enに入力することにより、話題埋め込み表現ebtを取得する。学習済みの埋め込み部enは、話題語の入力に応じて、話題の特徴が適切に反映された好適な話題埋め込み表現を出力することができる。
The embedded
また、埋め込み表現取得部17は、場所を表す場所テキストを学習済みの埋め込み部enに入力することにより、埋め込み部enから出力される場所埋め込み表現を更に取得してもよい。場所テキストは、例えば、場所の名称及び場所を説明する説明文等であってもよい。これにより、場所の特徴が好適に反映された場所埋め込み表現が得られる。
The embedded
関係抽出部18は、ユーザの発話の履歴(発話ログ)及び行動の履歴に基づいて、少なくともユーザ及び話題をノードとする関係グラフを生成する。また、関係抽出部18は、場所を更にノードとして含む関係グラフを生成してもよい。
The
関係抽出部18は、ユーザの発話及び行動等の実績に基づいて、ノード間の関係を抽出し、抽出した関係に基づいてエッジを貼る。本実施形態では、関係抽出部18は、所定の仮想空間におけるユーザの発話の履歴及び行動の履歴に基づいて、関係グラフを生成する。
The
図6は、関係グラフの生成のためのエッジの取得の例を示す図である。図6に示されるように、関係抽出部18は、例えばメタバースといった仮想空間におけるユーザの発話の履歴hs(発話ログ及び発話テキスト等)を取得する。関係抽出部18は、ユーザの発話の履歴hsから、ユーザ間の対話の実績r1を抽出し、関係グラフの当該ユーザのノード間のエッジed1として割り当てる。
Figure 6 is a diagram showing an example of edge acquisition for generating a relationship graph. As shown in Figure 6, the
また、関係抽出部18は、は、ユーザの発話の履歴hsから、ユーザによる話題語の発話の実績r2を抽出し、当該ユーザのノードと当該話題語のノードとを接続するエッジed2として割り当てる。
The
さらに、関係抽出部18は、仮想空間におけるユーザの行動の履歴haを取得する。そして、関係抽出部18は、ユーザの行動の履歴haから、ユーザによる場所への訪問実績r3を抽出し、当該ユーザのノードと当該場所のノードとを接続するエッジed3として割り当てる。
Furthermore, the
関係学習部19は、学習済みのユーザ埋め込み表現及び話題埋め込み表現の各々を関係グラフにおけるユーザ及び話題のノードの特徴量とするグラフニューラルネットワークの学習により、各ノードの学習済みの埋め込み表現を得る。
The
また、関係学習部19は、場所のノードを更に含む関係グラフについて、場所埋め込み表現を場所のノードの特徴量として、関係グラフのグラフニューラルネットワークの学習により各ノードの学習済みの埋め込み表現を得てもよい。
In addition, for a relationship graph that further includes a location node, the
具体的には、関係学習部19は、言語理解部15による機械学習により得られた学習済みのユーザ埋め込み表現ebu、及び、埋め込み表現取得部17により取得された話題埋め込み表現ebtを特徴量として関係グラフのユーザ及び話題の各ノードに関連付ける。また、関係学習部19は、埋め込み表現取得部17により取得された場所埋め込み表現を特徴量として、関係グラフの場所のノードに関連付ける。
Specifically, the
そして、関係学習部19は、埋め込み表現を各ノードの特徴量とする関係グラフのグラフニューラルネットワークの学習を行うことにより、各ノードの特徴量及び重みの変更し、各ノードの学習済みの埋め込み表現を得る。
Then, the
関係学習部19は、周知のグラフニューラルネットワークの学習の手法により関係グラフの学習を実施できる。図7を参照しながら、関係グラフの学習について概略的に説明する。図7は、関係グラフの一例及び関係グラフからの正例及び負例の抽出の例を示す図である。
The
図7に例示される関係グラフgnは、ユーザ、話題及び場所のいずれかに対応するノードn1~n5を含む。関係学習部19は、着目ノードをランダムにサンプリングする。図7に示される例では、ノードn2が着目ノードしてサンプリングされたとする。
The relationship graph gn illustrated in FIG. 7 includes nodes n1 to n5 that correspond to users, topics, and locations. The
関係学習部19は、関係グラフgnから正例グラフg1及び負例グラフg2を抽出する。正例グラフg1は、着目ノードであるノードn2、及び、ノードn2とエッジで接続されたノードn1,n5を含む。負例グラフg2は、着目ノードであるノードn2、及び、ノードn2とエッジで接続されていないノードn3,n4を含む。なお、負例グラフg2は、着目ノードとエッジで接続されていないノードの全てを含むことを要さない。
The
以下、関係グラフgnの学習の一例を説明するが、グラフニューラルネットワークの学習処理は周知の技術であるので、簡略的に説明する。 Below, we will explain an example of learning the relationship graph gn, but since the learning process for graph neural networks is a well-known technique, we will explain it simply.
まず、正例グラフg1における学習について説明する。関係学習部19は、正例グラフg1に基づいて、グラフに含まれるノードを行及び列とし、着目ノードであるノードn2とのエッジによる接続関係を要素として表現した隣接行列Aを抽出する。
First, learning in the positive example graph g1 will be described. Based on the positive example graph g1, the
また、関係学習部19は、グラフに含まれるノードを行及び列とし、ノードの自己ループを要素として表現した対角行列Iを抽出する。そして、ノードの特徴量を表す実数ベクトルをノード特徴量Xとすると、各ノードの特徴量が、隣接行列Aにより表現された接続関係のあるノードの特徴量と、対角行列Iにより表現された自ノードの特徴量との合計(畳み込み)として、以下の式により表される。
(A+I)・X
Furthermore, the
(A+I)・X
関係学習部19は、以下の式により表されるように、畳み込まれた各ノードの特徴量に、重みWをかけ、さらに活性化関数fに入力して出力Hを得る。
H(正例)=f((A+I)・X・W)
そして、関係学習部19は、正例グラフg1に基づいて得られた出力H(正例)が1となるように、重み及び特徴量を学習する。
The
H (positive example) = f ((A+I)・X・W)
Then, the
関係学習部19は、負例グラフg2に基づいて、同様に、出力H(負例)を得る。そして、関係学習部19は、負例グラフg2に基づいて得られた出力H(負例)が0となるように、重み及び特徴量を学習する。
The
再び図1を参照して、埋め込み表現出力部20は、関係学習部19による学習を経た各ノードの埋め込み表現を出力する。図8は、関係グラフを構成するグラフニューラルネットワークの学習により得られる各エンティティの埋め込み表現の例を示す図である。図8に示されるように、埋め込み表現出力部20は、関係学習部19による関係グラフgnを対象とするグラフニューラルネットワークの学習gmにより、関係グラフgnの各ノードに対応するエンティティ1,2,3,4,5,・・の埋め込み表現EBを出力する。
Referring again to FIG. 1, the embedded
このように得られた各ノードの埋め込み表現は、各ノードに対応する各エンティティの特徴が好適に反映されていると共に、エンティティ間の関係が反映された実数ベクトルであるので、エンティティ間の距離を計算することが可能である。
従って、関係グラフにおける各ノードは、ユーザ、話題及び場所等の異なる種別のエンティティに対応するところ、異なる種別のエンティティ間の距離を計算することが可能となる。
The embedded representation of each node obtained in this way appropriately reflects the characteristics of each entity corresponding to each node, and is a real vector that reflects the relationships between the entities, making it possible to calculate the distance between the entities.
Thus, where each node in the relationship graph corresponds to a different type of entity, such as a user, topic, and place, it becomes possible to calculate the distance between entities of different types.
なお、埋め込み表現出力部20による埋め込み表現の出力の態様は限定されず、所定の記憶手段による記憶、所定の装置への送信、所定の表示装置への表示等であってもよい。
The manner in which the embedded expression is output by the embedded
再び図1を参照して、リンク予測部21は、学習済みの各ノードの埋め込み表現に基づいてノード間の距離を算出し、算出されたノード間の距離に基づいて、各ノード間にエッジが貼られる可能性を示すリンク予測情報を算出する。
Referring again to FIG. 1, the
具体的には、リンク予測部21は、例えば、実数ベクトル間の距離として算出したノード間の距離が、所与の閾値以下であるか否かを判定する。そして、リンク予測部21は、ノード間の距離が閾値以下であると判定した場合に、当該ノード間にエッジが存在すると予測する旨を示すリンク予測情報を出力する。
Specifically, the
このように、関係グラフgnに関するグラフニューラルネットワークの学習gmにより、異なる種別のエンティティ間の距離が計算可能な、実数ベクトルにより表現される埋め込み表現が得られるので、グラフの各ノード間にエッジが張られる可能性の評価が可能なリンク予測情報が算出される。従って、各ノードに対応するエンティティ間に一定程度以上の関係があることの予測が可能となる。 In this way, by learning gm of the graph neural network on the relationship graph gn, an embedded representation expressed by a real vector is obtained that allows the distance between different types of entities to be calculated, and link prediction information is calculated that allows the evaluation of the possibility that an edge will be established between each node of the graph. Therefore, it becomes possible to predict that there is a certain degree of relationship between the entities corresponding to each node.
また、リンク予測部21は、ノード間の距離に関する所与の閾値に基づいて、ノード間の距離が閾値以下である各ノードを示す情報をリンク予測情報として出力する。
In addition, based on a given threshold value for the distance between nodes, the
具体的には、リンク予測部21は、例えば、実数ベクトル間の距離として算出したノード間の距離が、所与の閾値以下であるか否かを判定し、距離が閾値以下であると判定されたノードに対応するエンティティを示す情報をリンク予測情報として出力する。距離が閾値以下であると判定されたノードに対応するエンティティの少なくとも一方がユーザである場合には、当該ユーザに、他方のエンティティを示す情報を、レコメンド情報として提供してもよい。
Specifically, the
図9は、埋め込み表現生成装置10における埋め込み表現生成方法の処理内容を示すフローチャートである。
Figure 9 is a flowchart showing the processing steps of the embedded expression generation method in the embedded
ステップS1において、テキスト取得部13は、発話ログに基づきユーザの発話の内容を表すテキストである発話テキストを取得する。
In step S1, the
ステップS2において、言語理解部15は、エンコーダデコーダモデルにより構成される言語モデルの機械学習を実施する。ステップS2の処理内容を、図10を参照して説明する。
In step S2, the
図10は、言語モデルの機械学習の処理内容を示すフローチャートである。ステップS21において、言語理解部15は、発話テキストのうちの、一のユーザの発話内容を表す第1のユーザ発話テキストを埋め込み部enに入力する。
Figure 10 is a flowchart showing the process of machine learning for a language model. In step S21, the
ステップS22において、言語理解部15は、埋め込み部enによりエンコード及び出力されたユーザ発話埋め込み表現ebsを取得する。
In step S22, the
ステップS23において、言語理解部15は、ユーザ発話埋め込み表現と当該一のユーザの埋め込み表現であるユーザ埋め込み表現とを合成した合成埋め込み表現ebl」を生成する。そして、言語理解部15は、合成埋め込み表現eblを復号部deに入力する。
In step S23, the
ステップS24において、言語理解部15は、復号部deにより復号(デコード)された復号テキストdtを取得する。
In step S24, the
ステップS25において、言語理解部15は、発話テキストにおいて第1のユーザ発話テキストに引き続く第2のユーザ発話テキストと復号テキストとの誤差が小さくなるように言語モデル及びユーザ埋め込み表現を調整する機械学習を実施する。
In step S25, the
ステップS26において、言語理解部15は、言語モデルの機械学習を終了するか否かを判定する。言語モデルの機械学習を終了すると判定された場合には、処理はステップS27に進む。一方、言語モデルの機械学習を終了すると判定されなかった場合には、教師データとしての発話テキスト(第1及び第2のユーザ発話テキスト)を用いて、ステップS21~S25の処理が繰り返される。
In step S26, the
ステップS27において、言語理解部15は、学習済みの言語モデル及びユーザ埋め込み表現を出力する。言語理解部15は、例えば、学習済みの言語モデルを所定の記憶手段に記憶させてもよい。また、言語理解部15は、学習済みのユーザ埋め込み表現を、所定の記憶手段に記憶させてもよいし、ユーザ埋め込み表現管理部22に管理させてもよい。
In step S27, the
再び図9を参照して、ステップS3において、話題抽出部16は、発話テキストから、ユーザの発話における話題を表す語句である話題語を抽出する。
Referring again to FIG. 9, in step S3, the
ステップS4において、埋め込み表現取得部17は、話題語を学習済みの埋め込み部enに入力し、埋め込み部enから出力される話題埋め込み表現を取得する。ここで、埋め込み表現取得部17は、場所を表す場所テキストを学習済みの埋め込み部enに入力することにより、埋め込み部enから出力される場所埋め込み表現を更に取得してもよい。
In step S4, the embedded
ステップS5において、関係抽出部18は、ユーザの発話の履歴(発話ログ)及び行動の履歴に基づいて、少なくともユーザ及び話題をノードとする関係グラフを生成する。また、関係抽出部18は、場所を更にノードとして含む関係グラフを生成してもよい。
In step S5, the
ステップS6において、関係学習部19は、学習済みのユーザ埋め込み表現及び話題埋め込み表現の各々を関係グラフにおけるユーザ及び話題のノードの特徴量とするグラフニューラルネットワークの学習を実施する。学習に供される関係グラフは、場所をノードとして更に含み、場所埋め込み表現が場所のノードの特徴量をされてもよい。
In step S6, the
ステップS7において、関係学習部19は、埋め込み表現を各ノードの特徴量とする関係グラフのグラフニューラルネットワークの学習を行うことにより、各ノードの特徴量及び重みの変更し、各ノードの学習済みの埋め込み表現を得る。
In step S7, the
ステップS8において、埋め込み表現出力部20は、関係学習部19による学習を経た各ノードの埋め込み表現を出力する。
In step S8, the embedded
次に、図11を参照して、コンピュータを、本実施形態の埋め込み表現生成装置10として機能させるための埋め込み表現生成プログラムについて説明する。図11は、埋め込み表現生成プログラムの構成を示す図である。埋め込み表現生成プログラムP1は、埋め込み表現生成装置10における埋め込み表現生成処理を統括的に制御するメインモジュールm10、発話ログ取得モジュールm11、音声認識モジュールm12、テキスト取得モジュールm13、感情取得モジュールm14、言語理解モジュールm15、話題抽出モジュールm16、埋め込み表現取得モジュールm17、関係抽出モジュールm18、関係学習モジュールm19、埋め込み表現出力モジュールm20及びリンク予測モジュールm21を備えて構成される。そして、各モジュールm11~m21のそれぞれにより、各機能部11~21のための各機能が実現される。
Next, referring to FIG. 11, an embedded expression generation program for causing a computer to function as the embedded
なお、埋め込み表現生成プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図11に示されるように、記録媒体M1に記憶される態様であってもよい。 The embedded expression generation program P1 may be transmitted via a transmission medium such as a communication line, or may be stored in a recording medium M1 as shown in FIG. 11.
以上説明した本実施形態の埋め込み表現生成装置10、埋め込み表現生成方法、埋め込み表現生成プログラムP1によれば、エンコーダデコーダモデルにより構成される言語モデルが、第1のユーザ発話テキスト及び第2のユーザ発話テキストのペアを教師データとして、第1のユーザ発話テキストを埋め込み部に入力して得られたユーザ発話埋め込み表現とユーザ埋め込み表現とを合成した合成埋め込み表現を復号部に入力し、復号部から出力された復号テキストと第2のユーザ発話テキストとの誤差が小さくなるように言語モデル及びユーザ埋め込み表現が機械学習されることにより、話題語の入力に応じて好適な話題埋め込み表現を出力する埋め込み部(エンコーダ)が得られると共に、ユーザの特徴が好適に反映されたユーザ埋め込み表現が得られる。そして、ユーザ及び話題をノードとし、ユーザの発話及び行動の履歴に基づいてノード間にエッジが張られた関係グラフが生成され、話題語を埋め込み部に入力することにより得られる話題埋め込み表現及び学習済みのユーザ埋め込み表現の各々を話題語及びユーザの特徴量とするグラフニューラルネットワークの学習により、話題語及びユーザの特徴が好適に反映された、学習済みの話題埋め込み表現及びユーザ埋め込み表現が得られる。得られた話題埋め込み表現及びユーザ埋め込み表現には、それらのエンティティ間の関係が反映されているので、ユーザと話題との間の距離を計算することが可能である。
According to the above-described embodiment of the embedded
本開示に係る発明は、例えば、以下のように把握される。 The invention disclosed herein can be understood, for example, as follows:
本開示の第1の一側面に係る埋め込み表現生成システムは、少なくともユーザ及び話題の埋め込み表現を生成する埋め込み表現生成システムであって、埋め込み部及び復号部を含むエンコーダデコーダモデルにより構成される言語モデルを学習する言語理解部であって、埋め込み部は、入力されたテキストの特徴を表す埋め込み表現を出力し、復号部は、埋め込み部からの出力を少なくとも含む埋め込み表現を復号し、ユーザの発話の内容を表す発話テキストのうちの、一のユーザの発話内容を表す第1のユーザ発話テキストを埋め込み部に入力することにより埋め込み部から出力されたユーザ発話埋め込み表現を取得し、ユーザ発話埋め込み表現と当該一のユーザの埋め込み表現であるユーザ埋め込み表現とを合成した合成埋め込み表現を復号部に入力することにより復号部から出力された復号テキストを取得し、発話テキストにおいて第1のユーザ発話テキストに引き続く第2のユーザ発話テキストと復号テキストとの誤差が小さくなるように言語モデル及びユーザ埋め込み表現を調整する機械学習を実施し、ユーザ埋め込み表現は、学習前の初期のユーザ埋め込み表現又は学習過程のユーザ埋め込み表現である、言語理解部と、発話テキストから、ユーザの発話における話題を表す語句である話題語を抽出する話題抽出部と、話題語を学習済みの埋め込み部に入力し、埋め込み部から出力される話題埋め込み表現を取得する埋め込み表現取得部と、ユーザの発話の履歴及び行動の履歴に基づいて、少なくともユーザ及び話題をノードとし、ユーザ間の対話の実績をユーザ間を接続するエッジとし、ユーザの話題語の発話の実績を当該ユーザと話題とを接続するエッジとするグラフである関係グラフを生成する関係抽出部と、学習済みのユーザ埋め込み表現及び話題埋め込み表現の各々を関係グラフにおけるユーザ及び話題のノードの特徴量とするグラフニューラルネットワークの学習により、各ノードの学習済みの埋め込み表現を得る関係学習部と、各ノードの埋め込み表現を出力する埋め込み表現出力部と、を備える。 An embedded expression generation system according to a first aspect of the present disclosure is an embedded expression generation system that generates embedded expressions of at least a user and a topic, and a language understanding unit that learns a language model composed of an encoder-decoder model including an embedding unit and a decoding unit, in which the embedding unit outputs embedded expressions that represent the characteristics of the input text, the decoding unit decodes the embedded expressions that include at least the output from the embedding unit, obtains a user utterance embedded expression output from the embedding unit by inputting a first user utterance text that represents the utterance content of one user out of the utterance text that represents the content of the user's utterance to the embedding unit, obtains a decoded text output from the decoding unit by inputting a composite embedded expression that combines the user utterance embedded expression and the user embedded expression that is the embedded expression of the one user to the decoding unit, and adjusts the language model and the user utterance so that an error between the second user utterance text that follows the first user utterance text in the utterance text and the decoded text is reduced. The system includes a language understanding unit that performs machine learning to adjust user embedded expressions, the user embedded expressions being initial user embedded expressions before learning or user embedded expressions in the learning process, a topic extraction unit that extracts topic words, which are phrases that express topics in the user's utterance, from the spoken text, an embedded expression acquisition unit that inputs the topic words to a learned embedding unit and acquires topic embedded expressions output from the embedding unit, a relationship extraction unit that generates a relationship graph based on the user's utterance history and behavior history, in which at least users and topics are nodes, conversation records between users are edges connecting users, and user utterance records of topic words are edges connecting users and topics, a relationship learning unit that obtains learned embedded expressions for each node by learning a graph neural network in which each of the learned user embedded expressions and topic embedded expressions is a feature of the user and topic nodes in the relationship graph, and an embedded expression output unit that outputs the embedded expression for each node.
上記の側面によれば、エンコーダデコーダモデルにより構成される言語モデルが、第1のユーザ発話テキスト及び第2のユーザ発話テキストのペアを教師データとして、第1のユーザ発話テキストを埋め込み部に入力して得られたユーザ発話埋め込み表現とユーザ埋め込み表現とを合成した合成埋め込み表現を復号部に入力し、復号部から出力された復号テキストと第2のユーザ発話テキストとの誤差が小さくなるように言語モデル及びユーザ埋め込み表現が機械学習されることにより、話題語の入力に応じて好適な話題埋め込み表現を出力する埋め込み部(エンコーダ)が得られると共に、ユーザの特徴が好適に反映されたユーザ埋め込み表現が得られる。そして、ユーザ及び話題をノードとし、ユーザの発話及び行動の履歴に基づいてノード間にエッジが張られた関係グラフが生成され、話題語を埋め込み部に入力することにより得られる話題埋め込み表現及び学習済みのユーザ埋め込み表現の各々を話題語及びユーザの特徴量とするグラフニューラルネットワークの学習により、話題語及びユーザの特徴が好適に反映された、学習済みの話題埋め込み表現及びユーザ埋め込み表現が得られる。得られた話題埋め込み表現及びユーザ埋め込み表現には、それらのエンティティ間の関係が反映されているので、ユーザと話題との間の距離を計算することが可能である。 According to the above aspect, a language model composed of an encoder-decoder model uses a pair of a first user utterance text and a second user utterance text as teacher data, inputs the first user utterance text to an embedding unit, and inputs a composite embedding representation obtained by combining the user utterance embedding representation and the user embedding representation obtained by inputting the first user utterance text to the embedding unit into the decoding unit. The language model and the user embedding representation are machine-learned so that the error between the decoded text output from the decoding unit and the second user utterance text is reduced, thereby obtaining an embedding unit (encoder) that outputs a suitable topic embedded representation in response to the input of a topic word, and obtaining a user embedded representation that suitably reflects the user's characteristics. Then, a relationship graph is generated in which the user and the topic are nodes and edges are drawn between the nodes based on the user's utterance and behavior history, and a graph neural network is trained in which the topic embedded representation obtained by inputting the topic word into the embedding unit and the learned user embedded representation are each used as the feature of the topic word and the user, thereby obtaining a learned topic embedded representation and a user embedded representation that suitably reflect the topic word and the user's characteristics. The resulting topic embeddings and user embeddings reflect the relationships between those entities, making it possible to calculate the distance between the user and the topic.
第2の側面に係る埋め込み表現生成システムでは、第1の側面に係る埋め込み表現生成システムにおいて、ユーザの発話が発せられた時の該ユーザの感情を表す感情情報を発話の音声又は該ユーザの表情に基づいて取得し、取得された感情情報を当該発話の内容を表す発話テキストに関連付ける感情取得部、をさらに備え、言語理解部は、所定のポジティブな感情を表す感情情報が関連付けられた発話テキストを用いて、言語モデル及びユーザ埋め込み表現を調整する機械学習を実施することとしてもよい。 The embedded expression generation system according to the second aspect may further include an emotion acquisition unit that acquires emotion information representing the emotion of the user when the user uttered an utterance based on the voice of the utterance or the facial expression of the user, and associates the acquired emotion information with a speech text representing the content of the utterance, in the embedded expression generation system according to the first aspect, and the language understanding unit may perform machine learning to adjust the language model and the user embedded expression using the speech text associated with emotion information representing a predetermined positive emotion.
上記の側面によれば、ポジティブな感情を抱いている可能性が高い時にユーザが発した発話を表す発話テキストが機械学習に用いられる。従って、教師データを構成する第1及び第2のユーザ発話テキストの組み合わせは、ユーザがポジティブな感情を抱いているときに発現する可能性が高い組合せである。このような教師データを用いて機械学習が行われることにより、ユーザにとって話題語との好適な関係が反映された話題埋め込み表現を生成可能な埋め込み部及びユーザ埋め込み表現が得られる。 According to the above aspect, speech texts that represent utterances made by a user when the user is likely to have positive emotions are used for machine learning. Therefore, the combination of the first and second user speech texts that constitute the training data is a combination that is likely to occur when the user is having positive emotions. By performing machine learning using such training data, an embedding unit and user embedding expressions that can generate topic embedding expressions that reflect the user's preferred relationship with topic words are obtained.
第3の側面に係る埋め込み表現生成システムでは、第1または2の側面に係る埋め込み表現生成システムにおいて、埋め込み表現取得部は、場所を表す場所テキストを学習済みの埋め込み部に入力することにより、埋め込み部から出力される場所埋め込み表現を更に取得し、関係抽出部は、ユーザの発話の履歴及び行動の履歴に基づいて、少なくともユーザ、話題及び場所をノードとし、ユーザ間の対話の実績をユーザ間を接続するエッジとし、ユーザの話題語の発話の実績を当該ユーザと話題とを接続するエッジとし、ユーザの場所への訪問の実績を当該ユーザと場所とを接続するエッジとするグラフである関係グラフを生成し、関係学習部は、学習済みのユーザ埋め込み表現、話題埋め込み表現及び場所埋め込み表現の各々を関係グラフにおけるユーザ、話題及び場所のノードの特徴量とするグラフニューラルネットワークの学習により、各ノードの学習済みの埋め込み表現を得ることとしてもよい。 In the embedded expression generation system according to the third aspect, in the embedded expression generation system according to the first or second aspect, the embedded expression acquisition unit further acquires a location embedded expression output from the embedding unit by inputting a location text representing a location to the learned embedding unit, and the relationship extraction unit generates a relationship graph based on the user's speech history and behavior history, in which at least users, topics, and locations are nodes, records of conversations between users are edges connecting users, records of utterances of topic words by users are edges connecting the users and topics, and records of visits to locations by users are edges connecting the users and locations, and the relationship learning unit may obtain a learned embedded expression for each node by learning a graph neural network in which each of the learned user embedded expressions, topic embedded expressions, and location embedded expressions is a feature of the user, topic, and location nodes in the relationship graph.
上記の側面によれば、学習済みの言語モデルの埋め込み部に場所テキストを入力することにより、場所の特徴が好適に反映された場所埋め込み表現が得られる。そして、ユーザ、話題及び場所をノードとし、ユーザの発話及び行動の履歴に基づいてノード間にエッジが張られた関係グラフが生成され、話題埋め込み表現、場所埋め込み表現及び学習済みのユーザ埋め込み表現の各々を話題語、場所及びユーザの特徴量とするグラフニューラルネットワークの学習により、話題語、場所及びユーザの特徴が好適に反映された、学習済みの話題埋め込み表現、場所埋め込み表現及びユーザ埋め込み表現が得られる。得られた話題埋め込み表現、場所埋め込み表現及びユーザ埋め込み表現には、それらのエンティティ間の関係が反映されているので、ユーザと話題及び場所との間の距離を計算することが可能である。 According to the above aspect, by inputting location text into the embedding section of the trained language model, a location embedding representation that appropriately reflects the features of the location is obtained. Then, a relationship graph is generated in which the nodes are users, topics, and locations, and edges are drawn between the nodes based on the user's utterance and behavior history. A graph neural network is trained in which the topic embedding representation, the location embedding representation, and the trained user embedding representation are the features of the topic word, the location, and the user, respectively, to obtain trained topic embedding representations, location embedding representations, and user embedding representations that appropriately reflect the features of the topic word, the location, and the user. The obtained topic embedding representations, location embedding representations, and user embedding representations reflect the relationships between those entities, so it is possible to calculate the distance between the user and the topic and the location.
第4の側面に係る埋め込み表現生成システムでは、第1~3の側面のいずれか一つの側面に係る埋め込み表現生成システムにおいて、学習済みの各ノードの埋め込み表現に基づいてノード間の距離を算出し、算出されたノード間の距離に基づいて、各ノード間にエッジが貼られる可能性を示すリンク予測情報を算出する、リンク予測部を更に備えることとしてもよい。 In the embedded expression generation system according to the fourth aspect, the embedded expression generation system according to any one of the first to third aspects may further include a link prediction unit that calculates the distance between nodes based on the learned embedded expression of each node, and calculates link prediction information indicating the possibility of an edge being established between each node based on the calculated distance between the nodes.
上記の側面によれば、関係グラフに関するグラフニューラルネットワークの学習により、異なる種別のエンティティ間の距離が計算可能な、実数ベクトルにより表現される埋め込み表現が得られるので、グラフの各ノード間にエッジが張られる可能性の評価が可能なリンク予測情報が算出される。従って、各ノードに対応するエンティティ間に一定程度以上の関係があることの予測が可能となる。 According to the above aspect, by learning a graph neural network about a relationship graph, an embedded representation expressed by a real number vector is obtained, which allows the distance between different types of entities to be calculated, and link prediction information is calculated that allows the evaluation of the possibility that an edge will be established between each node of the graph. Therefore, it becomes possible to predict that there is a certain degree of relationship between the entities corresponding to each node.
第5の側面に係る埋め込み表現生成システムでは、第4の側面に係る埋め込み表現生成システムにおいて、リンク予測部は、ノード間の距離に関する所与の閾値に基づいて、ノード間の距離が閾値以下である各ノードを示す情報をリンク予測情報として出力することとしてもよい。 In the embedded expression generation system according to the fifth aspect, the link prediction unit in the embedded expression generation system according to the fourth aspect may output, as link prediction information, information indicating each node whose inter-node distance is equal to or less than a threshold based on a given threshold for the inter-node distance.
上記の側面によれば、ノード間の距離が所与の閾値以下であるノードを示す情報に基づいて、所定の程度以上の関係があるエンティティに関する情報を得ることが可能となる。 According to the above aspect, it is possible to obtain information about entities that have a relationship with a predetermined degree or more based on information indicating nodes whose internode distance is equal to or less than a given threshold.
第6の側面に係る埋め込み表現生成システムでは、第1~5の側面いずれか一つの側面に係る埋め込み表現生成システムにおいて、発話テキストは、所定の仮想空間におけるユーザの発話の内容を表す音声又はテキストの発話ログに基づいて取得されることとしてもよい。 In the embedded expression generation system according to the sixth aspect, in the embedded expression generation system according to any one of the first to fifth aspects, the spoken text may be obtained based on a speech log of audio or text representing the content of a user's utterance in a specified virtual space.
上記の側面によれば、仮想空間においては、ユーザの発話を表す音声又はテキストを容易に取得できるので、発話テキストの取得が容易となる。 According to the above aspect, voice or text representing a user's speech can be easily acquired in a virtual space, making it easy to acquire speech text.
第7の側面に係る埋め込み表現生成システムでは、第1~6の側面いずれか一つの側面に係る埋め込み表現生成システムにおいて、関係抽出部は、所定の仮想空間におけるユーザの発話の履歴及び行動の履歴に基づいて、関係グラフを生成することとしてもよい。 In the embedded expression generation system according to the seventh aspect, which is an embedded expression generation system according to any one of the first to sixth aspects, the relationship extraction unit may generate a relationship graph based on a user's speech history and behavior history in a specified virtual space.
上記の側面によれば、仮想空間においては、ユーザの発話の履歴及び行動の履歴を容易に取得できるので、関係グラフを容易に生成できる。 According to the above aspect, since a user's speech history and behavior history can be easily acquired in a virtual space, a relationship graph can be easily generated.
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。 Although the present disclosure has been described in detail above, it is clear to those skilled in the art that the present disclosure is not limited to the embodiments described herein. The present disclosure can be implemented in modified and altered forms without departing from the spirit and scope of the present disclosure as defined by the claims. Therefore, the description of the present disclosure is intended as an illustrative example and does not have any limiting meaning on the present disclosure.
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、DCI(Downlink Control Information)、UCI(Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、MAC(Medium Access Control)シグナリング、報知情報(MIB(Master Information Block)、SIB(System Information Block)))、その他の信号又はこれらの組み合わせによって実施されてもよい。また、RRCシグナリングは、RRCメッセージと呼ばれてもよく、例えば、RRC接続セットアップ(RRC Connection Setup)メッセージ、RRC接続再構成(RRC Connection Reconfiguration)メッセージなどであってもよい。 The notification of information is not limited to the aspects/embodiments described in the present disclosure, and may be performed using other methods. For example, the notification of information may be performed by physical layer signaling (e.g., Downlink Control Information (DCI), Uplink Control Information (UCI)), higher layer signaling (e.g., Radio Resource Control (RRC) signaling, Medium Access Control (MAC) signaling, broadcast information (Master Information Block (MIB), System Information Block (SIB))), other signals, or a combination of these. In addition, the RRC signaling may be called an RRC message, and may be, for example, an RRC Connection Setup message, an RRC Connection Reconfiguration message, etc.
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE-Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。 Each aspect/embodiment described herein may be applied to systems using LTE (Long Term Evolution), LTE-Advanced (LTE-A), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA (registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth (registered trademark), or other suitable systems and/or next generation systems enhanced based on these. In addition, multiple systems may be combined (e.g., a combination of at least one of LTE and LTE-A with 5G, etc.).
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The steps, sequences, flow charts, etc. of each aspect/embodiment described herein may be reordered unless inconsistent. For example, the methods described herein present elements of various steps in an example order and are not limited to the particular order presented.
本開示において基地局によって行われるとした特定動作は、場合によってはその上位ノード(upper node)によって行われることもある。基地局を有する1つ又は複数のネットワークノード(network nodes)からなるネットワークにおいて、端末との通信のために行われる様々な動作は、基地局及び基地局以外の他のネットワークノード(例えば、MME又はS-GWなどが考えられるが、これらに限られない)の少なくとも1つによって行われ得ることは明らかである。上記において基地局以外の他のネットワークノードが1つである場合を例示したが、複数の他のネットワークノードの組み合わせ(例えば、MME及びS-GW)であってもよい。 Specific operations that are described as being performed by a base station in this disclosure may also be performed by its upper node in some cases. In a network consisting of one or more network nodes having a base station, it is clear that various operations performed for communication with a terminal may be performed by at least one of the base station and other network nodes other than the base station (e.g., MME or S-GW, etc., but are not limited to these). Although the above example shows a case where there is one other network node other than the base station, it may also be a combination of multiple other network nodes (e.g., MME and S-GW).
情報等(※「情報、信号」の項目参照)は、上位レイヤ(又は下位レイヤ)から下位レイヤ(又は上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。 Information, etc. (see the "Information, Signals" section) can be output from a higher layer (or a lower layer) to a lower layer (or a higher layer). It may also be input and output via multiple network nodes.
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 The input and output information may be stored in a specific location (e.g., memory) or may be managed in a management table. The input and output information may be overwritten, updated, or added to. The output information may be deleted. The input information may be sent to another device.
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be based on a value represented by one bit (0 or 1), a Boolean (true or false) value, or a numerical comparison (e.g., with a predetermined value).
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect/embodiment described in this disclosure may be used alone, in combination, or switched depending on the execution. In addition, notification of specific information (e.g., notification that "X is the case") is not limited to being done explicitly, but may be done implicitly (e.g., not notifying the specific information).
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software shall be construed broadly to mean instructions, instruction sets, code, code segments, program code, programs, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executable files, threads of execution, procedures, functions, etc., whether referred to as software, firmware, middleware, microcode, hardware description language, or otherwise.
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。 Software, instructions, etc. may also be transmitted and received over a transmission medium. For example, if the software is transmitted from a website, server, or other remote source using wired technologies, such as coaxial cable, fiber optic cable, twisted pair, and digital subscriber line (DSL), and/or wireless technologies, such as infrared, radio, and microwave, these wired and/or wireless technologies are included within the definition of a transmission medium.
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。 The information, signals, etc. described in this disclosure may be represented using any of a variety of different technologies. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description may be represented by voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, optical fields or photons, or any combination thereof.
なお、本開示において説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。 In addition, terms explained in this disclosure and/or terms necessary for understanding this specification may be replaced with terms having the same or similar meanings.
本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。 As used herein, the terms "system" and "network" are used interchangeably.
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。 In addition, the information, parameters, etc. described in this specification may be expressed as absolute values, as relative values from a predetermined value, or as corresponding other information. For example, radio resources may be indicated by an index.
上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々なチャネル(例えば、PUCCH、PDCCHなど)及び情報要素は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。 The names used for the parameters described above are not intended to be limiting in any way. Furthermore, the formulas etc. using these parameters may differ from those explicitly disclosed in this disclosure. The various channels (e.g., PUCCH, PDCCH, etc.) and information elements may be identified by any suitable names, and therefore the various names assigned to these various channels and information elements are not intended to be limiting in any way.
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。 As used in this disclosure, the terms "determining" and "determining" may encompass a wide variety of actions. "Determining" and "determining" may include, for example, judging, calculating, computing, processing, deriving, investigating, looking up, searching, inquiring (e.g., searching in a table, database, or other data structure), ascertaining, and the like. "Determining" and "determining" may also include receiving (e.g., receiving information), transmitting (e.g., sending information), input, output, accessing (e.g., accessing data in memory), and the like. Additionally, "judgment" and "decision" can include considering resolving, selecting, choosing, establishing, comparing, etc., to have been "judged" or "decided." In other words, "judgment" and "decision" can include considering some action to have been "judged" or "decided." Additionally, "judgment (decision)" can be interpreted as "assuming," "expecting," "considering," etc.
本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 As used in this disclosure, the phrase "based on" does not mean "based only on," unless expressly stated otherwise. In other words, the phrase "based on" means both "based only on" and "based at least on."
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 When designations such as "first," "second," and the like are used herein, any reference to that element is not intended to generally limit the quantity or order of those elements. These designations may be used herein as a convenient way to distinguish between two or more elements. Thus, a reference to a first and a second element does not imply that only two elements may be employed therein or that the first element must precede the second element in some way.
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。 To the extent that the terms "include," "including," and variations thereof are used herein in the specification or claims, these terms are intended to be inclusive, similar to the term "comprising." Further, the term "or" as used herein is not intended to be an exclusive or.
本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。 In this disclosure, where articles have been added through translation, such as a, an, and the in English, this disclosure may include that the nouns following these articles are in the plural form.
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。 In this disclosure, the term "A and B are different" may mean "A and B are different from each other." The term may also mean "A and B are each different from C." Terms such as "separate" and "combined" may also be interpreted in the same way as "different."
1…埋め込み表現生成システム、10…埋め込み表現生成装置、11…発話ログ取得部、12…音声認識部、13…テキスト取得部、14…感情取得部、15…言語理解部、16…話題抽出部、17…埋め込み表現取得部、18…関係抽出部、19…関係学習部、20…埋め込み表現出力部、21…リンク予測部、22…表現管理部、de…復号部、en…埋め込み部、gn…関係グラフ、M1…記録媒体、m10…メインモジュール、m11…発話ログ取得モジュール、m12…音声認識モジュール、m13…テキスト取得モジュール、m14…感情取得モジュール、m15…言語理解モジュール、m16…話題抽出モジュール、m17…埋め込み表現取得モジュール、m18…関係抽出モジュール、m19…関係学習モジュール、m20…埋め込み表現出力モジュール、m21…リンク予測モジュール、md…言語モデル、P1…埋め込み表現生成プログラム。 1...embedded expression generation system, 10...embedded expression generation device, 11...speech log acquisition unit, 12...speech recognition unit, 13...text acquisition unit, 14...emotion acquisition unit, 15...language understanding unit, 16...topic extraction unit, 17...embedded expression acquisition unit, 18...relation extraction unit, 19...relation learning unit, 20...embedded expression output unit, 21...link prediction unit, 22...expression management unit, de...decoding unit, en...embedding unit, gn...relation graph, M1...recording medium, m10...main module, m11...speech log acquisition module, m12...speech recognition module, m13...text acquisition module, m14...emotion acquisition module, m15...language understanding module, m16...topic extraction module, m17...embedded expression acquisition module, m18...relation extraction module, m19...relation learning module, m20...embedded expression output module, m21...link prediction module, md...language model, P1...embedded expression generation program.
Claims (7)
埋め込み部及び復号部を含むエンコーダデコーダモデルにより構成される言語モデルを学習する言語理解部であって、
前記埋め込み部は、入力されたテキストの特徴を表す埋め込み表現を出力し、
前記復号部は、前記埋め込み部からの出力を少なくとも含む埋め込み表現を復号し、
前記ユーザの発話の内容を表す発話テキストのうちの、一のユーザの発話内容を表す第1のユーザ発話テキストを前記埋め込み部に入力することにより前記埋め込み部から出力されたユーザ発話埋め込み表現を取得し、前記ユーザ発話埋め込み表現と当該一のユーザの埋め込み表現であるユーザ埋め込み表現とを合成した合成埋め込み表現を前記復号部に入力することにより前記復号部から出力された復号テキストを取得し、前記発話テキストにおいて前記第1のユーザ発話テキストに引き続く第2のユーザ発話テキストと前記復号テキストとの誤差が小さくなるように前記言語モデル及び前記ユーザ埋め込み表現を調整する機械学習を実施し、
前記ユーザ埋め込み表現は、学習前の初期のユーザ埋め込み表現又は学習過程のユーザ埋め込み表現である、言語理解部と、
前記発話テキストから、前記ユーザの発話における話題を表す語句である話題語を抽出する話題抽出部と、
前記話題語を学習済みの前記埋め込み部に入力し、前記埋め込み部から出力される話題埋め込み表現を取得する埋め込み表現取得部と、
前記ユーザの発話の履歴及び行動の履歴に基づいて、少なくともユーザ及び話題をノードとし、ユーザ間の対話の実績をユーザ間を接続するエッジとし、ユーザの前記話題語の発話の実績を当該ユーザと話題とを接続するエッジとするグラフである関係グラフを生成する関係抽出部と、
学習済みのユーザ埋め込み表現及び前記話題埋め込み表現の各々を前記関係グラフにおけるユーザ及び話題のノードの特徴量とするグラフニューラルネットワークの学習により、各ノードの学習済みの埋め込み表現を得る関係学習部と、
各ノードの前記学習済みの埋め込み表現を出力する埋め込み表現出力部と、
を備える埋め込み表現生成システム。 An embedded expression generation system for generating embedded expressions of at least a user and a topic, comprising:
A language understanding unit that learns a language model configured by an encoder-decoder model including an embedding unit and a decoding unit,
The embedding unit outputs an embedding expression representing a feature of the input text;
The decoding unit decodes an embedded representation including at least an output from the embedding unit;
a first user utterance text representing the content of a user's utterance among the utterance texts representing the content of the utterances of the users is input to the embedding unit to obtain a user utterance embedded expression output from the embedding unit; a composite embedded expression obtained by combining the user utterance embedded expression and a user embedded expression that is an embedded expression of the one user is input to the decoding unit to obtain a decoded text output from the decoding unit; and machine learning is performed to adjust the language model and the user embedded expression so that an error between a second user utterance text following the first user utterance text in the utterance text and the decoded text is reduced;
A language understanding unit, wherein the user-embedded representation is an initial user-embedded representation before learning or a user-embedded representation in a learning process;
a topic extraction unit that extracts topic words, which are words expressing topics in the user's utterance, from the utterance text;
an embedding expression acquisition unit that inputs the topic word to the learned embedding unit and acquires the topic embedding expression output from the embedding unit;
a relationship extraction unit that generates a relationship graph based on the user's speech history and behavior history, the relationship graph being a graph in which at least users and topics are nodes, conversation records between users are edges connecting users, and the user's speech records of the topic words are edges connecting the user and the topics; and
a relationship learning unit that obtains a learned embedding representation of each node by learning a graph neural network in which the learned user embedding representation and the topic embedding representation are each set as features of the user and topic nodes in the relationship graph;
an embedding representation output unit that outputs the learned embedding representation of each node;
An embedded representation generation system comprising:
前記言語理解部は、所定のポジティブな感情を表す感情情報が関連付けられた前記発話テキストを用いて、前記言語モデル及び前記ユーザ埋め込み表現を調整する機械学習を実施する、
請求項1に記載の埋め込み表現生成システム。 an emotion acquisition unit that acquires emotion information representing an emotion of the user when the user uttered an utterance based on a voice of the utterance or a facial expression of the user, and associates the acquired emotion information with the utterance text representing the content of the utterance,
The language understanding unit performs machine learning to adjust the language model and the user-embedded expressions using the spoken text associated with emotion information expressing a predetermined positive emotion.
The embedded representation generation system of claim 1 .
前記関係抽出部は、前記ユーザの発話の履歴及び行動の履歴に基づいて、少なくともユーザ、話題及び場所をノードとし、ユーザ間の対話の実績をユーザ間を接続するエッジとし、ユーザの前記話題語の発話の実績を当該ユーザと話題とを接続するエッジとし、ユーザの場所への訪問の実績を当該ユーザと場所とを接続するエッジとするグラフである前記関係グラフを生成し、
前記関係学習部は、学習済みのユーザ埋め込み表現、前記話題埋め込み表現及び前記場所埋め込み表現の各々を前記関係グラフにおけるユーザ、話題及び場所のノードの特徴量とするグラフニューラルネットワークの学習により、各ノードの学習済みの埋め込み表現を得る、
請求項1または2に記載の埋め込み表現生成システム。 The embedded expression acquisition unit further acquires a location embedded expression output from the embedding unit by inputting a location text representing a location to the learned embedding unit;
the relationship extraction unit generates the relationship graph based on the user's speech history and action history, the relationship graph being a graph in which at least users, topics, and places are nodes, conversation records between users are edges connecting users, the user's speech records of the topic words are edges connecting the user and topics, and the user's visit records to places are edges connecting the user and places;
the relationship learning unit obtains a learned embedding representation for each node by learning a graph neural network in which the learned user embedding representation, the topic embedding representation, and the place embedding representation are set as features of the user, topic, and place nodes in the relationship graph;
The embedded expression generation system according to claim 1 or 2.
請求項1に記載の埋め込み表現生成システム。 The method further includes a link prediction unit that calculates a distance between the nodes based on the learned embedding representation of each node, and calculates link prediction information indicating a possibility that an edge will be established between each node based on the calculated distance between the nodes.
The embedded representation generation system of claim 1 .
請求項4に記載のシステム。 The link prediction unit outputs, based on a given threshold value regarding a distance between nodes, information indicating each node whose inter-node distance is equal to or less than the threshold value as the link prediction information.
The system of claim 4.
請求項1に記載の埋め込み表現生成システム。 The speech text is obtained based on a speech log of voice or text representing the content of the user's utterance in a predetermined virtual space.
The embedded representation generation system of claim 1 .
請求項1に記載の埋め込み表現生成システム。
The relationship extraction unit generates the relationship graph based on a speech history and a behavior history of the user in a predetermined virtual space.
The embedded representation generation system of claim 1 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023013273A JP2024108744A (en) | 2023-01-31 | 2023-01-31 | Embedded Expression Generation System |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023013273A JP2024108744A (en) | 2023-01-31 | 2023-01-31 | Embedded Expression Generation System |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024108744A true JP2024108744A (en) | 2024-08-13 |
Family
ID=92217758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023013273A Pending JP2024108744A (en) | 2023-01-31 | 2023-01-31 | Embedded Expression Generation System |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024108744A (en) |
-
2023
- 2023-01-31 JP JP2023013273A patent/JP2024108744A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517664B (en) | Multi-party identification method, device, equipment and readable storage medium | |
JP6317111B2 (en) | Hybrid client / server speech recognition | |
KR101683943B1 (en) | Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device | |
US20200210505A1 (en) | Electronic apparatus and controlling method thereof | |
CN110149805A (en) | Two-way voice translation system, two-way voice translation method and program | |
JP2020042131A (en) | Information processor, information processing method and program | |
CN114333790B (en) | Data processing method, device, equipment, storage medium and program product | |
KR102345625B1 (en) | Caption generation method and apparatus for performing the same | |
JP6782329B1 (en) | Emotion estimation device, emotion estimation system, and emotion estimation method | |
US20220020368A1 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
JP2024115929A (en) | Speech transcription system and speech translation system | |
JP2024108744A (en) | Embedded Expression Generation System | |
WO2024161732A1 (en) | Parameter acquisition system | |
WO2020166125A1 (en) | Translation data generating system | |
KR20210115645A (en) | Server, method and computer program for recognizing voice data of multiple language | |
KR102464156B1 (en) | Call center service providing apparatus, method, and program for matching a user and an agent vasded on the user`s status and the agent`s status | |
WO2019098185A1 (en) | Dialog text generation system and dialog text generation program | |
US12069011B2 (en) | Electronic device and method for controlling electronic device | |
JP2017009685A (en) | Information processing apparatus, information processing method, and program | |
CN116956950A (en) | Machine translation method, apparatus, device, medium, and program product | |
JP2021082125A (en) | Dialogue device | |
KR102268376B1 (en) | Apparatus and method for providing multilingual conversation service | |
JP7112487B2 (en) | dialogue device | |
WO2019235100A1 (en) | Interactive device | |
WO2019220791A1 (en) | Dialogue device |