[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2019087811A1 - 情報処理装置、及び情報処理方法 - Google Patents

情報処理装置、及び情報処理方法 Download PDF

Info

Publication number
WO2019087811A1
WO2019087811A1 PCT/JP2018/038944 JP2018038944W WO2019087811A1 WO 2019087811 A1 WO2019087811 A1 WO 2019087811A1 JP 2018038944 W JP2018038944 W JP 2018038944W WO 2019087811 A1 WO2019087811 A1 WO 2019087811A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
user
speech
result
intention
Prior art date
Application number
PCT/JP2018/038944
Other languages
English (en)
French (fr)
Inventor
広 岩瀬
真一 河野
祐平 滝
邦仁 澤井
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2019518320A priority Critical patent/JPWO2019087811A1/ja
Priority to CN201880005330.6A priority patent/CN110140167A/zh
Priority to US16/464,494 priority patent/US11335334B2/en
Priority to EP18873149.1A priority patent/EP3564948A4/en
Publication of WO2019087811A1 publication Critical patent/WO2019087811A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Definitions

  • the information processing apparatus may be an independent apparatus or an internal block constituting one apparatus.
  • a biological sensor that detects biological information such as breathing, pulse, fingerprint, or iris
  • a magnetic sensor that detects the magnitude or direction of a magnetic field (magnetic field)
  • an acceleration sensor that detects acceleration
  • an angle A gyro sensor that detects (attitude), angular velocity, and angular acceleration
  • a proximity sensor that detects an approaching object, and the like
  • a process of converting voice data from the voice input unit 101 into text data is performed by referring to a database for voice text conversion.
  • step S16 based on the voice collected by the voice input unit 101, it is determined whether the speech of the user 2 has been completed.
  • the break of the utterance is detected by the boundary of the intonation phrase of the utterance which is "Good,” and the divided utterance sentences which are "Good,” are input to the semantic analysis process, and the semantic analysis is performed.
  • the result of (NLU) is obtained.
  • the sound effect reproduction unit 111 outputs an effect sound such as “pips”, for example.
  • the feedback information may be notified to the user 2.
  • FIG. 8 shows a second example of user 2 intention estimation.
  • the speech dialogue system 1 detects a speech break after the speech of "go early and go to today's schedule” following the speech of "buy present of child".
  • a third divided utterance sentence which is "to come home early and put it in today's schedule,” is input to the semantic analysis process.
  • Intent “SCHEJULE-ADD”
  • Entity “early home”
  • NLU semantic analysis
  • the user 2 may make a mistake while speaking, but may cancel, cancel, or cancel the mistaken word in the utterance in units of breaks in the utterance.
  • a central processing unit (CPU) 1001, a read only memory (ROM) 1002, and a random access memory (RAM) 1003 are mutually connected by a bus 1004.
  • An input / output interface 1005 is further connected to the bus 1004.
  • An input unit 1006, an output unit 1007, a recording unit 1008, a communication unit 1009, and a drive 1010 are connected to the input / output interface 1005.
  • Reference Signs List 1 voice dialogue system 10 terminal devices, 20 servers, 30 Internet, 101 voice input units, 102 image input units, 103 sensor units, 104 voice recognition units, 105 image recognition units, 106 sensor recognition units, 107 speech delimiter detection units, 108 semantic analysis unit 109 multiple intention estimation unit 110 task execution unit 111 sound effect reproduction unit 112 speech synthesis processing unit 113 output image processing unit 114 speech output unit 115 image output unit 116 storage unit 1000 computer , 1001 CPU

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術は、より正確に、ユーザの発話の意図を推定することができるようにする情報処理装置、及び情報処理方法に関する。 ユーザの発話中に得られる認識の結果に基づいて、ユーザの発話の区切りを検出する検出部と、検出した発話の区切りごとに発話文を分割して得られる分割発話文の意味解析の結果に基づいて、ユーザの発話の意図を推定する推定部とを備える情報処理装置が提供される。本技術は、例えば、音声対話システムに適用することができる。

Description

情報処理装置、及び情報処理方法
 本技術は、情報処理装置、及び情報処理方法に関し、特に、より正確に、ユーザの発話の意図を推定することができるようにした情報処理装置、及び情報処理方法に関する。
 近年、ユーザの発話に応じた応答を行う音声対話システムが、様々な分野で利用されはじめている。音声対話システムでは、ユーザの発話の音声を認識するだけでなく、ユーザの発話の意図を推定して、適切な応答を行うことが求められる。
 例えば、特許文献1には、入力文を、言語文法を用いて要素に分割し、分割された要素に対する意味解析を行うことで、長文の解析能力を高める技術が開示されている。
特開平6-295308号公報
 しかしながら、上述した特許文献1に開示されている言語文法による入力文の分割では、ユーザの発話に含まれる多様な表現に対し、ユーザの意図の単位で、分割が正しく行われない可能性がある。そのため、ユーザによって、複数の意図を含む長い文章や複文などが発話されたときに、ユーザの発話の意図を、正確に推定することができない場合がある。
 本技術はこのような状況に鑑みてなされたものであり、より正確に、ユーザの発話の意図を推定することができるようにするものである。
 本技術の一側面の情報処理装置は、ユーザの発話中に得られる認識の結果に基づいて、前記ユーザの発話の区切りを検出する検出部と、検出した前記発話の区切りごとに発話文を分割して得られる分割発話文の意味解析の結果に基づいて、前記ユーザの発話の意図を推定する推定部とを備える情報処理装置である。
 本技術の一側面の情報処理方法は、情報処理装置の情報処理方法において、前記情報処理装置が、ユーザの発話中に得られる認識の結果に基づいて、前記ユーザの発話の区切りを検出し、検出した前記発話の区切りごとに発話文を分割して得られる分割発話文の意味解析の結果に基づいて、前記ユーザの発話の意図を推定する情報処理方法である。
 本技術の一側面の情報処理装置、及び情報処理方法においては、ユーザの発話中に得られる認識の結果に基づいて、前記ユーザの発話の区切りが検出され、検出された前記発話の区切りごとに発話文を分割して得られる分割発話文の意味解析の結果に基づいて、前記ユーザの発話の意図が推定される。
 本技術の一側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
 本技術の一側面によれば、より正確に、ユーザの発話の意図を推定することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した音声対話システムの構成の例を示すブロック図である。 本技術を適用した音声対話システムの機能的構成の例を示すブロック図である。 音声対話処理の流れを説明するフローチャートである。 第1の条件を用いた場合のユーザ発話の区切りの検出の例を示す図である。 第1の条件を用いた場合のユーザ発話の区切りの検出の例を示す図である。 第2の条件を用いた場合のユーザ発話の区切りの検出の例を示す図である。 ユーザの意図推定の第1の例を示す図である。 ユーザの意図推定の第2の例を示す図である。 ユーザの意図推定の第3の例を示す図である。 ユーザの意図推定の第4の例を示す図である。 発話全体のBody判定処理の流れを説明するフローチャートである。 区切り単位のキャンセル処理の流れを説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。
1.本技術の実施の形態
2.変形例
3.コンピュータの構成
<1.本技術の実施の形態>
(音声対話システムの構成例)
 図1は、本技術を適用した音声対話システムの構成の例を示すブロック図である。
 音声対話システム1は、ユーザ宅等のローカル側に設置され、音声対話サービスのユーザインターフェースとして機能する端末装置10と、データセンタ等のクラウド側に設置され、音声対話機能を実現するための処理を行うサーバ20とから構成される。音声対話システム1において、端末装置10とサーバ20とは、インターネット30を介して相互に接続されている。
 端末装置10は、例えば、家庭内LAN(Local Area Network)等のネットワークに接続可能なスピーカであって、スマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、ユーザとの音声対話や、照明器具や空調設備などの機器に対する音声操作などの機能を有している。
 なお、端末装置10は、スピーカに限らず、例えば、ゲーム機や、スマートフォンや携帯電話機等のモバイル機器、タブレット型のコンピュータなどとして構成されるようにしてもよい。
 端末装置10は、インターネット30を介してサーバ20と連携することで、ユーザに対し、音声対話サービス(のユーザインターフェース)を提供することができる。
 例えば、端末装置10は、ユーザから発せられた音声(ユーザ発話)を収音し、その音声データを、インターネット30を介して、サーバ20に送信する。また、端末装置10は、インターネットを介してサーバ20から送信されてくる処理データを受信し、その処理データに応じた音声などの情報を出力する。
 サーバ20は、クラウドベースの音声対話サービスを提供するサーバである。
 例えば、サーバ20は、インターネット30を介して端末装置10から送信されてくる音声データに基づき、音声認識処理や意味解析処理などの処理を行い、その処理の結果に応じた処理データを、インターネット30を介して端末装置10に送信する。
(音声対話システムの機能的構成例)
 図2は、図1に示した音声対話システム1の機能的構成の例を示すブロック図である。
 図2において、音声対話システム1は、音声入力部101、画像入力部102、センサ部103、音声認識部104、画像認識部105、センサ認識部106、発話区切り検出部107、意味解析部108、複数意図推定部109、タスク実行部110、効果音再生部111、音声合成処理部112、出力画像処理部113、音声出力部114、画像出力部115、及び記憶部116から構成される。
 音声入力部101は、例えば、マイクロフォン等の音声入力デバイスから構成される。音声入力部101は、ユーザ2が発した声を電気信号に変換して得られる音声データを、音声認識部104に供給する。
 画像入力部102は、例えば、イメージセンサを有するカメラ等の画像入力デバイスから構成される。画像入力部102は、ユーザ2等の被写体を撮像して得られる画像データを、画像認識部105に供給する。
 センサ部103は、例えば、各種のセンサ等のセンサデバイスから構成される。センサ部103は、ユーザ2やその周辺などのセンシングを行い、そのセンシング結果に応じたセンサデータを、センサ認識部106に供給する。
 ここで、センサ部103としては、例えば、呼吸や脈拍、指紋、虹彩などの生体情報を検出する生体センサ、磁場(磁界)の大きさや方向を検出する磁気センサ、加速度を検出する加速度センサ、角度(姿勢)や角速度、角加速度を検出するジャイロセンサ、近接するものを検出する近接センサなどを含めることができる。
 また、センサ部103は、ユーザ2の頭部に取り付けられ、電位等を計測することで脳波を検出する脳波センサであってもよい。さらに、センサ部103には、温度を検出する温度センサや、湿度を検出する湿度センサ、周囲の明るさを検出する環境光センサなどの周囲の環境を測定するためのセンサや、GPS(Global Positioning System)信号などの位置情報を検出するためのセンサを含めることができる。
 音声認識部104は、音声入力部101から供給される音声データに基づいて、音声認識処理を行い、その音声認識の結果を、発話区切り検出部107に供給する。
 この音声認識処理では、例えば、音声テキスト変換用のデータベース等を参照することで、音声入力部101からの音声データを、テキストデータ(発話文)に変換する処理が行われる。
 また、この音声認識処理では、例えば、音声入力部101からの音声データ(の信号波形)を解析する処理など、音声データに対し、後段の発話区切り検出処理で用いられる音声認識の結果を抽出するための処理が行われる。
 なお、以下の説明では、音声認識部104により行われる音声認識処理のうち、ユーザ2の発話のテキストデータ(発話文)を得るための音声認識を、「音声認識(ASR:Automatic Speech Recognition)」と記述して、後段の発話区切り検出処理で、発話の区切りを検出するために用いられる音声認識の結果と区別する。さらに、音声認識処理による音声認識(ASR)の結果得られるテキストデータを、「発話文」と記述する。
 画像認識部105は、画像入力部102から供給される画像データに基づいて、画像認識処理を行い、その画像認識の結果を、発話区切り検出部107に供給する。この画像認識処理では、画像データに対し、後段の発話区切り検出処理で用いられる画像認識の結果を抽出するための処理が行われる。
 センサ認識部106は、センサ部103から供給されるセンサデータに基づいて、センサ認識処理を行い、そのセンサ認識の結果を、発話区切り検出部107に供給する。このセンサ認識処理では、センサデータに対し、後段の発話区切り検出処理で用いられるセンサ認識の結果を抽出するための処理が行われる。
 発話区切り検出部107には、音声認識部104による音声認識(ASR)の結果である発話文とともに、音声認識部104からの音声認識の結果、画像認識部105からの画像認識の結果、及びセンサ認識部106からのセンサ認識の結果が供給される。
 発話区切り検出部107は、音声認識の結果、画像認識の結果、及びセンサ認識の結果に基づいて、発話文に対する発話区切り検出処理を行い、その発話区切り検出の結果を、意味解析部108に供給する。また、発話区切り検出部107は、発話区切り検出の結果を、効果音再生部111、音声合成処理部112、又は出力画像処理部113に供給する。
 この発話区切り検出処理は、音声認識の結果、画像認識の結果、及びセンサ認識のうち、少なくとも1つの認識の結果に基づき、例えば、発話の間(ま)の時間が一定の時間を超えたときや、イントネーション句の境界を検出したとき、言いよどみやフィラーを検出したときなどに、発話の区切りを検出する。
 なお、以下の説明では、発話区切り検出処理により検出された発話の区切り位置を境界として、音声認識(ASR)の結果得られる発話文を分割して得られるテキストデータを、「分割発話文」と記述する。また、発話区切り検出処理の詳細については、図4乃至図6などを参照して後述する。
 意味解析部108は、発話区切り検出部107から供給される発話区切り検出の結果(分割発話文)に基づいて、意味解析処理を行い、その意味解析の結果を、複数意図推定部109に供給する。
 この意味解析処理では、例えば、音声言語理解用のデータベース等を参照することで、自然言語である音声認識(ASR)の結果得られる発話文を分割した分割発話文(テキストデータ)を、機械(システム)が理解できる表現に変換する処理が行われる。
 ここでは、意味解析の結果として、ユーザが実行させたい「意図(Intent)」と、そのパラメータとなる「実体情報(Entity)」の形で、発話の意味が表現される。なお、以下の説明では、この意味解析処理を、「意味解析(NLU:Natural Language Understanding)」とも記述する。また、以下の説明では、分割発話文ごとの意味解析(NLU)の結果得られる意図を、「意図(Intent)」又は「Intent」と記述することで、ユーザ2の発話の意図と区別する。
 複数意図推定部109は、意味解析部108から供給される意味解析(NLU)の結果に基づいて、意図推定処理を行い、その意図推定の結果を、タスク実行部110に供給する。
 この意図推定処理では、分割発話文ごとの意味解析(NLU)の結果(Intent, Entity)に基づき、ユーザ2の発話の意図が1又は複数推定される。なお、ここでは、ユーザ2の発話の意図を推定するに際し、例えば各分割発話文の発話速度などの他の情報が用いられるようにしてもよい。また、意図推定処理の詳細については、図7乃至図12などを参照して後述する。
 なお、意味解析部108には、逐次、発話区切り検出部107によって分割発話文が投入され、分割発話文ごとに意図(Intent)と実体情報(Entity)が得られるため、この意味解析(NLU)の結果を、記憶部116に(一時的に)記録(蓄積)しておくことで、複数意図推定部109は、記憶部116に記録(蓄積)されている、分割発話文ごとの意味解析の結果(Intent, Entity)を取得することができる。
 タスク実行部110は、複数意図推定部109から供給される意図推定の結果に基づいて、タスク実行処理を行い、そのタスク実行の結果を、音声合成処理部112、及び出力画像処理部113に供給する。
 効果音再生部111は、発話区切り検出部107から供給される発話区切り検出の結果に基づいて、効果音再生処理を行い、その効果音再生の結果を、音声出力部114に供給する。
 音声合成処理部112は、発話区切り検出部107から供給される発話区切り検出の結果に基づいて、音声合成処理を行い、その音声合成の結果を、音声出力部114に供給する。また、音声合成処理部112は、タスク実行部110から供給されるタスク実行の結果に基づいて、音声合成処理を行い、その音声合成の結果を、音声出力部114に供給する。
 出力画像処理部113は、発話区切り検出部107から供給される発話区切り検出の結果に基づいて、出力画像処理を行い、その出力画像の結果を、画像出力部115に供給する。また、出力画像処理部113は、タスク実行部110から供給されるタスク実行の結果に基づいて、出力画像処理を行い、その出力画像の結果を、画像出力部115に供給する。
 音声出力部114は、例えば、スピーカやヘッドホン等の音声出力デバイスから構成される。音声出力部114は、効果音再生部111から供給される効果音再生の結果、又は音声合成処理部112から供給される音声合成の結果に基づいて、それらの音声データに応じた音を、システム応答(応答)として出力する。
 画像出力部115は、例えば、液晶ディスプレイや有機ELディスプレイ等の画像出力デバイスから構成される。画像出力部115は、出力画像処理部113から供給される出力画像の結果に基づいて、その画像データに応じた画像を、システム応答(応答)として出力(表示)する。
 音声対話システム1は、以上のように構成される。
 なお、図2の音声対話システム1において、音声入力部101乃至記憶部116を、端末装置10(図1)と、サーバ20(図1)のどちらの機器に組み込むかは、任意であるが、例えば、次のような構成とすることができる。
 すなわち、ユーザインターフェースとして機能する、音声入力部101、画像入力部102、センサ部103、音声出力部114、及び画像出力部115を、ローカル側の端末装置10に組み込む一方で、それ以外の機能となる、音声認識部104、画像認識部105、センサ認識部106、発話区切り検出部107、意味解析部108、複数意図推定部109、タスク実行部110、効果音再生部111、音声合成処理部112、出力画像処理部113、及び記憶部116を、クラウド側のサーバ20に組み込むことができる。
 このとき、音声認識部104、画像認識部105、センサ認識部106、発話区切り検出部107、意味解析部108、複数意図推定部109、タスク実行部110、効果音再生部111、音声合成処理部112、及び出力画像処理部113は、例えば、サーバ20のCPU(Central Processing Unit)が、プログラムを実行することで実現される。また、記憶部116は、例えば、揮発性メモリの一種であるRAM(Random Access Memory)などから構成される。
 また、図示はしていないが、端末装置10とサーバ20は、インターネット30を介してデータをやり取りするために、通信インターフェース回路等から構成される通信I/Fをそれぞれ有している。これにより、ユーザ2の発話中に、端末装置10とサーバ20が、インターネット30を介して通信を行い、サーバ20側では、端末装置10からの認識の結果に基づき、発話区切り検出処理などの処理を行うことができる。
 さらに、端末装置10には、例えば、ボタンやキーボード等からなる入力部を設けて、ユーザの操作に応じた操作信号が得られるようにするか、あるいは、画像出力部115が、タッチセンサと表示部とが一体化されたタッチパネルとして構成され、ユーザの指やタッチペン(スタイラスペン)による操作に応じた操作信号が得られるようにしてもよい。
(音声対話処理の流れ)
 次に、図3のフローチャートを参照して、音声対話システム1により実行される音声対話処理の流れを説明する。
 この音声対話処理は、端末装置10の付近に存在するユーザ2により発話が開始されたときに実行される。なお、ここでは、ユーザ2が発話を開始するに際して、例えば、特定のキーワード(いわゆる起動ワード)を用いることによる呼びかけや、手を叩くことによる破裂音などによって、発話を開始するための明示的な指示を与えるようにしてもよい。
 ステップS11において、音声入力部101は、ユーザ2から発せられた音声を収音することで、ユーザ2の発話を受け付ける。
 ステップS12において、音声認識部104等の認識部は、音声入力部101等の前段の入力部からのデータに基づいて、ユーザ発話中の認識処理を行う。
 ここでは、例えば、音声認識部104によって、音声入力部101からの音声データに基づき、音声認識処理が行われ、音声認識(ASR)の結果が得られる。また、音声認識部104による音声認識処理、画像認識部105による画像認識処理、及びセンサ認識部106によるセンサ認識処理のうち、少なくとも1つの認識処理が行われ、後段の発話区切り検出処理(S13)で用いられる認識の結果が得られる。
 ステップS13において、発話区切り検出部107は、ステップS12の処理で得られる認識の結果(各入力部の認識の結果)に基づいて、音声認識(ASR)の結果得られる発話文に対し、発話区切り検出処理を行い、ユーザ2の発話の区切りを検出する。
 ステップS14において、意味解析部108は、ステップS13の処理で得られる発話の区切り位置で分割された分割発話文に対し、意味解析処理を行う。
 この意味解析処理によって、自然言語である音声認識(ASR)の結果得られる発話文を分割した分割発話文(テキストデータ)を、機械(システム)が理解できる表現に変換する処理が行われる。これにより、分割発話文の意味解析(NLU)の結果(Intent, Entity)が得られる。
 ステップS15において、音声合成処理部112は、ステップS13の処理で得られる発話の区切り位置での発話意図の受領を示すフィードバック情報(例えば、「はい」である音声)を生成し、音声出力部114から出力する。これにより、システム応答(応答)として、ユーザ2に対し、フィードバック情報が出力(提示)される。
 なお、ここでは、フィードバック情報として、音声合成処理部112により合成された音声を出力するほか、例えば、効果音再生部111により再生された効果音や、出力画像処理部113により生成された出力画像を出力するようにしてもよい。
 ステップS16においては、音声入力部101により収音される音声に基づき、ユーザ2の発話が完了したかどうかが判定される。
 ステップS16において、ユーザ2の発話を完了していないと判定された場合、処理は、ステップS11に戻り、上述したステップS11乃至S15の処理が繰り返される。
 すなわち、ステップS11乃至S15の処理が繰り返されることで、ユーザ2の発話の区切りごとに得られる分割発話文が、逐次、意味解析処理に投入され(かけられ)、分割発話文ごとに意味解析(NLU)の結果(Intent, Entity)が得られる。これにより、意味解析(NLU)の結果として、ユーザ2の発話に対し、分割発話文ごとに意図(Intent)と実体情報(Entity)が、記憶部116に記録(蓄積)される。
 そして、ステップS16において、ユーザ2の発話が完了したと判定された場合、処理は、ステップS17に進められる。
 ステップS17において、複数意図推定部109は、ステップS11乃至S16の処理が繰り返されることで順次記録される意味解析(NLU)の結果(Intent, Entity)に基づいて、意図推定処理を行い、ユーザ2の発話の意図を推定する。
 ステップS18において、タスク実行部110は、ステップS17の処理で得られる意図推定の結果に基づいて、タスク実行処理を行い、ユーザ2の発話の意図に応じたシステムのタスクを実行する。ここでは、ユーザ2の発話の意図推定の結果に基づき、1又は複数のタスクが実行される。
 ステップS19において、音声合成処理部112は、ステップS18の処理で行われるシステムのタスク実行の結果を示すタスク実行情報(例えば、タスクが正常に完了した旨の音声)を生成し、音声出力部114から出力する。これにより、システム応答(応答)として、ユーザ2に対し、タスク実行情報が出力(提示)される。
 なお、ここでは、タスク実行情報として、音声合成処理部112により合成された音声を出力するほか、例えば、出力画像処理部113により生成された出力画像(例えば、タスクが正常に完了した旨の画像)などを提示するようにしてもよい。
 以上、音声対話処理の流れを説明した。
 この音声対話システム1により実行される音声対話処理(図3)では、ユーザ2の発話が、マイクロフォン等の音声入力部101を通じて音声認識処理にかけられ、その発話の内容がテキスト化されて、発話区切り検出処理に送られる。この音声認識処理は、ユーザ2の発話中に常時行われ、認識できた発話途中のテキストデータ(分割発話文)が、逐次、発話区切り検出処理に送られる。
 また、音声認識処理は、ユーザ2の発話内容をテキスト化するのみならず、発話のピッチ抽出などの入力音声の韻律の検出も行い、逐次、発話区切り検出処理に送られるようにしてもよい。
 さらに、ユーザ2の発話の音声以外にも、ユーザ2を撮像して得られる画像が、カメラ等の画像入力部102を通じて画像認識処理にかけられ、ユーザ2の口や首の動きなどの仕草などが認識さるようにしたり、あるいは、ユーザ2の生体情報などが、センサ部103を通じてセンサ認識処理にかけられ、ユーザ2の呼吸状態などが認識されるようにしたりすることができる。
 これらの認識処理は、ユーザ2の発話中に常時行われ、その認識の結果が、逐次、発話区切り検出処理に送られる。
 そして、音声対話システム1により実行される音声対話処理(図3)では、発話中のユーザ2の状態や仕草などの認識の結果に基づき、発話の区切りを検出して、その区切り位置で分割された発話文に対し、逐次、意味解析(NLU)を行い、その意味解析の結果得られる複数の意図(Intent)と実体情報(Entity)に基づき、1又は複数のユーザの意図を推定して、その推定結果に応じたタスク(アクション)を実行する。
 ここで、発話中のユーザ2の状態や仕草としては、例えば、小さな発話の間(ま)や、口や首の動き、生体情報、言いよどみやフィラー、イントネーションなどがある。そこで、音声対話システム1では、この人の発話特性を検出して、ユーザ2の意図を理解してほしい単位で、発話文を分割することで、より正確に、ユーザ2の発話の意図を推定するようにしている。
(発話区切り検出処理)
 次に、図4乃至図6等を参照して、発話区切り検出部107によって実行される発話区切り検出処理の詳細な内容について説明する。
 発話区切り検出部107は、ユーザ2の発話中に、音声認識部104、画像認識部105、及びセンサ認識部106から逐次送られてくる認識の結果に基づいて、発話区切り検出処理を行うことで、ユーザ2の発話の区切り位置を検出する。
 この発話区切り検出処理では、例えば、下記に示した(A)乃至(G)の条件のうち、1つの条件、又は複数の条件の組み合わせに基づき、ユーザ2の発話の区切りのタイミングが検出される。
(A)発話の間の時間が一定の時間を超えたとき
(B)イントネーション句の境界を検出したとき
(C)言いよどみやフィラーを検出したとき
(D)息継ぎを検出したとき
(E)口が動いていない時間が一定の時間を超えたとき
(F)視線の動きが大きいことを検出したとき
(G)身体(の一部)の動きが大きいことを検出したとき
 なお、上述した(A)乃至(G)の条件は、発話の区切りを検出するための条件を例示列挙したものであって、ユーザ2の発話の区切りのタイミングを検出可能なものであれば、他の条件を用いるようにしてもよい。
(A)第1の条件
 ここで、上述の(A)に示した第1の条件を用いた場合には、「発話の間(ま)の時間が一定の時間を超えたとき」に、発話の区切りを検出するが、その具体例を、図4に示している。
 図4において、ユーザ2が、「いいよ、」と、「10時になったら、、」を順に発話する場合に、「いいよ、」である発話が終わってから、「10時になったら、、」である発話が開始されるまでの時間が、微小な時間(例えば、数百ミリ秒程度)を超えたときに、音声対話システム1は、ユーザ2の発話の区切りを検出して、「はい」である応答を行う。
 すなわち、音声対話システム1では、ユーザ2の発話中に、音声認識(ASR)の結果(発話のテキストデータ)が逐次出力されるが、音声認識(ASR)の結果として逐次出力するテキストデータの途中結果(分割発話文)が、閾値(例えば、300ms)を超えて更新されない場合に、発話の区切りを検出する。そして、音声対話システム1は、発話の区切りを検出した場合に、前回の区切り位置から今回の区切り位置までのテキストデータの途中結果(分割発話文)を、意味解析処理に投入することで、意味解析(NLU)の結果として、意図(Intent)と実体情報(Entity)を得ることができる。
 図4においては、時刻t11乃至t12に、「いいよ、」である発話を用いた音声認識処理が行われ、音声認識(ASR)の結果の出力が更新されるが、時刻t12以降に、音声認識(ASR)の結果の出力の更新が停止され、閾値(閾値時間)を超えても音声認識(ASR)の結果の出力の更新がなされていない。そのため、時刻t13になったときに、ユーザ2の発話の区切りが検出され、テキストデータの途中結果として、「いいよ、」である分割発話文が、意味解析処理に投入され、意味解析(NLU)の結果が得られる。そして、時刻t14に、「はい」である応答が行われる。
 その後、時刻t15乃至時刻t16に、「10時になったら、、」である発話を用いた音声認識処理が行われ、その音声認識(ASR)の結果の出力が更新されることになる。
 また、例えば、図5において、ユーザ2が、「いいよ、10時になったらはじめよう いつもの場所で、、」である発話を行った場合、音声対話システム1は、音声認識(ASR)の結果得られる「いいよ、」と「10時になったらはじめよう」との間に、微小な間(ま)による発話の区切りを検出する。そして、音声対話システム1では、「いいよ、」である分割発話文が、意味解析処理に投入され、意味解析(NLU)の結果が得られる。
 また、音声対話システム1は、音声認識(ASR)の結果得られる「10時になったらはじめよう」と「いつもの場所で、、」との間に、微小な間(ま)による発話の区切りを検出する。そして、音声対話システム1では、「10時になったらはじめよう」である分割発話文が、意味解析処理に投入され、意味解析(NLU)の結果が得られる。
 なお、図示はしていないが同様に、その後に、「いつもの場所で、、」についての発話の区切りが検出されたとき、音声対話システム1では、「いつもの場所で、、」である分割発話文が、意味解析処理に投入される。
 このように、上述の(A)の第1の条件を用いる場合には、例えば、音声認識部104による音声認識の結果に基づき、ユーザ2の発話中に、微小な間(ま)等の発話の間の時間が一定の時間を超えたとき、発話区切り検出部107は、ユーザ2の発話の区切りを検出する。
(B)第2の条件
 上述の(B)の第2の条件を用いた場合には、「イントネーション句の境界を検出したとき」に、発話の区切りを検出するが、その具体例を、図6に示している。
 図6において、ユーザ2が、「いいよ、10時になったらはじめよう いつもの場所で待ってるよって返信して」である発話を行った場合、音声対話システム1は、音声認識(ASR)の結果得られる「いいよ、」と「10時になったらはじめよう」との間に、発話音声のピッチの自然降下からイントネーション句の境界(息継ぎ)を検出する。
 ここでは、図6の「ピッチ」の波形で示すように、「いいよ、」である発話に注目すれば、ユーザ2の発話のピッチ(例えば、音の高さや基本周波数F0に相当する)のエンベローブ波形は、発話の始めはピッチが上昇し、アクセント核の後で自然降下するので、このピッチの自然降下を検出することで、イントネーション句の境界(息継ぎ)を検出することが可能となる。
 なお、ピッチに相当する物理量である基本周波数F0は、時間軸にしたがって、少しずつ下降する傾向があって、この傾向のことを、自然降下(Declination)という。
 そして、音声対話システム1では、「いいよ、」である発話のイントネーション句の境界によって発話の区切りを検出し、「いいよ、」である分割発話文が、意味解析処理に投入され、意味解析(NLU)の結果が得られる。
 同様にまた、「10時になったらはじめよう」と「いつもの場所で待ってるよって返信して」である発話に注目すれば、音声対話システム1では、これらの発話のピッチの自然降下がそれぞれ検出され、イントネーション句の境界によって発話の区切りが検出される。そして、音声対話システム1では、「10時になったらはじめよう」である分割発話文と、「いつもの場所で待ってるよって返信して」である分割発話文が、逐次、意味解析処理に投入され、それらの分割発話文ごとに意味解析(NLU)の結果が得られる。
 なお、図6においても、音声対話システム1によって、ユーザ2の発話の区切りが検出されたとき、「はい」である応答が行われている。
 このように、上述の(B)の第2の条件を用いる場合には、例えば、音声認識部104による音声認識の結果に基づき、ユーザ2の発話中に、イントネーション句の境界(息継ぎ)を検出したとき、発話区切り検出部107は、ユーザ2の発話の区切りを検出する。
(C)第3の条件
 上述の(C)の第3の条件を用いる場合には、例えば、音声認識部104による音声認識の結果に基づき、ユーザ2の発話中に、言いよどみや、フィラー(例えば、「えーと」、「あのー」など)が検出されたとき、発話区切り検出部107は、ユーザ2の発話の区切りを検出する。
 なお、日本語以外の言語として、例えば、英語の場合には、 "like", "you know", "I mean" などの特定の文言によるフィラーを検出したときに、ユーザ2の発話の区切りを検出することになる。
(D)第4の条件
 上述の(D)の第4の条件を用いる場合には、例えば、センサ認識部106によるセンサ認識の結果に基づき、ユーザ2の発話中に、ユーザ2が息を吸っている呼吸(息継ぎ)が検出されたとき、発話区切り検出部107は、ユーザ2の発話の区切りを検出する。ここでのセンサ認識の結果としては、例えば、生体センサとして構成されるセンサ部103から得られるセンサデータの認識の結果を用いることができる。
(E)第5の条件
 上述の(E)の第5の条件を用いる場合には、例えば、画像認識部105による画像認識の結果に基づき、ユーザ2の発話中に、画像の情報からユーザ2の口が動いていない時間が一定値(閾値)を超えるとき、発話区切り検出部107は、ユーザ2の発話の区切りを検出する。
(F)第6の条件
 上述の(F)の第6の条件を用いる場合には、例えば、画像認識部105による画像認識の結果に基づき、ユーザ2の発話中に、画像の情報からユーザ2の視線の動きが大きいこと(例えば、アイコンタクトなど)を検出したとき、発話区切り検出部107は、ユーザ2の発話の区切りを検出する。
(G)第7の条件
 上述の(G)の第7の条件を用いる場合には、例えば、センサ認識部106によるセンサ認識の結果に基づき、ユーザ2の発話中に、ユーザ2の身体の一部(例えば首など)の動きが大きいことを検出したとき、発話区切り検出部107は、ユーザ2の発話の区切りを検出する。ここでのセンサ認識の結果としては、例えば、頭などのユーザ2の身体に身につけた加速度センサとして構成されるセンサ部103から得られるセンサデータの認識の結果を用いることができる。
(発話区切り検出の他の例)
 なお、上述した(A)乃至(G)の条件以外の他の条件としては、例えば、次に示すような認識の結果が得られたときに、音声対話システム1は、その認識の結果に基づき、ユーザ2の発話の区切りを検出するようにしてもよい。
 第1の他の例として、端末装置10(の画像出力部115)に表示されている表示情報から、ユーザ2が視線をそらしたとき、又は確認のためにそれらにユーザ2の視線が向いたときに、ユーザ2の発話の区切りを検出することができる。ここで、表示情報としては、例えば、アイコン(例えば、マイクアイコン)や、ユーザの音声認識の結果(例えば、音声認識(ASR)や意味解析(NLU)の結果)などの情報を含む。
 第2の他の例として、ユーザ2の発話の音量や高さ、速度の変化量が大きかったとき、ユーザ2の発話の区切りを検出することができる。ここで、音量としては、例えば、声の大きさなどが該当する。また、速度の変化量としては、例えば、急に大きな声になったり、若しくは小さな声になったり、トーンが変わったり、又は話す速度(話速)が変わったりすることを含む。
 第3の他の例として、ユーザ2の発話内に語末を伸ばす表現が含まれるとき、ユーザ2の発話の区切りを検出することができる。ここで、語末を伸ばす表現としては、母音の継続時間が長い表現、例えば、「・・・でさぁ」や「・・・してからぁ」などの表現が含まれる。
 第4の他の例として、イントネーションのパターンによる発話の区切りは、例えば言語や地域によっても異なる場合があるので、ユーザに関する情報(例えば、サービスのログイン情報等)から、エリアの属性を取得し、エリアごとに適応するパターンを変えて、ユーザ2の発話の区切りを検出することができる。
 また、ユーザ個人が、システムに対し、別要因で発話を区切ったイントネーションのパターンを設定しておくことで、次回以降のシステムを利用時には、個人化されたパターンによって、発話の区切りを検出するようにしてもよい。
 なお、音声対話システム1は、ユーザ2の発話中に、端末装置10以外の他の対象(例えば、家族や友達等の他のユーザ)に対して話していることが、視線や発話内容から検出されたときには、その認識の結果に基づき、発話の区切りの検出や蓄積を停止して、ユーザ2に対し、応答を返すのを止めてもよい。
(言語文法の利用)
 音声対話処理において、発話中のユーザ2の状態や仕草などの認識の結果に基づき、発話の区切りを検出する際に、ユーザ2の状態や仕草のみでは、分割発話文が長く、意味解析(NLU)の結果として意図(Intent)が得られなかった場合には、言語文法を用いた発話文の分割を併用するようにしてもよい。
 例えば、ユーザ2の状態や仕草などの認識の結果に基づき、区切られた分割発話文を、意味解析処理に投入して、その意味解析(NLU)の結果として、意図(Intent)の信頼度のスコアが、一定値以下であった場合に、その分割発話文内で、係り受けが離れている箇所を境界としてさらに分割して得られる分割発話文を、意味解析処理に投入することで、より信頼度スコアの高い意図(Intent)を得ることができる。
 例えば、ユーザ2が、「音量を大きくして、曲の先頭に戻って」である発話を行った場合に、上述の条件を用いて発話の区切りを検出できなかったとき(発話の区切りの検出の精度が悪かったとき)、言語文法を利用して、「音量を大きくして」である発話に対し、「戻って」である発話は、係り受けが離れているため、「音量を大きくして」である発話の後に、発話の区切りを検出することができる。
 以上、音声対話システム1においては、ユーザ2による発話が開始されると、発話区切り検出部107によって、例えば、第1の条件乃至第7の条件等の上述の条件のうち、1つの条件、又は複数の条件の組み合わせを用いた発話区切り検出処理が行われる。また、音声対話システム1では、発話区切り検出処理によって、発話の区切りが検出されると、前回の区切り位置から、今回の区切り位置までのテキストデータの途中結果(分割発話文)が、意味解析部108による意味解析処理に投入される。
 そして、音声対話システム1では、ユーザ2による発話が完了するまで、発話の区切りが検出される度に、分割発話文の意味解析処理が逐次行われ、その結果得られる分割発話文ごとの意味解析(NLU)の結果(Intent, Entity)が記録(蓄積)されることになる。
 このように、ユーザ2の発話中に、意味解析処理を逐次行い、その結果得られる意味解析(NLU)の結果(Intent, Entity)を記録(蓄積)しておくことで、ユーザ2の発話が完了してから、全ての発話文を意味解析処理するのに比べて、音声対話システム1の応答(レスポンス)を速くする効果が得られる。
(発話区切りでのフィードバック情報出力処理)
 次に、効果音再生部111、音声合成処理部112、又は出力画像処理部113によって実行される発話区切りでのフィードバック情報出力処理の詳細な内容について説明する。
 ところで、人は、相手が発話意図を理解できる区切りで間(ま)をあけるなどの仕草を無意識に行うことで、相手の意図の受領を示す反応行動(例えば相槌など)を促している。
 また、人は、相手の発話途中の内容や意図が理解できたタイミングで、意図の受領を示す反応行動(例えば相槌など)を行うが、音声対話システム1が、この人の反応行動(理解行動)に相当する動作を行うことで(シミュレートすることで)、ユーザは、発話の途中でシステムに理解されていることのフィードバックを受けることができる。
 ここで、音声対話システム1では、発話の区切りを検出するためのユーザの状態や仕草を認識したときに、ユーザ2に対し、音声や画像を出力して、フィードバックをかけるようにしている。その結果として、ユーザ2は、音声対話システム1に対し、その後の発話内容を話しかけやすくなる。
 例えば、上述の図4及び図6では、ユーザ2の発話の区切りを検出したタイミングで、音声合成処理部112が、「はい」である相槌を、システム発話として出力する場合を例示した。このような相槌を、応答(システム発話)として出力する場合には、発話の区切りに応じた分割発話文ごとの意味解析(NLU)の結果として、意図(Intent)が得られたときには、受領したことを示す「はい」を出力する一方で、意図(Intent)が得られなかったときには、理解できなかったことを示す「え?」を、応答(システム発話)として出力するようにしてもよい。
 これにより、ユーザ2は、音声対話システム1に対し、発話を行った場合に、音声対話システム1から、受領の相槌があったときには、後続の発話を安心して行うことができる。一方で、音声対話システム1から、理解できない旨の相槌があったとき、ユーザ2は、文言を変えて言い直しを行うことができるようになる。
 なお、上述の「分割発話文ごとの意味解析(NLU)の結果として、意図(Intent)が得られなかったとき」とは、例えば、対話の文脈に合った意図(Intent)ではない場合や、意図(Intent)の信頼度スコアが、一定の値(閾値)よりも低い場合などが該当する。
 また、上述した例では、「はい」等の相槌を応答(システム発話)として出力する場合を説明したが、効果音再生部111によって、例えば、「ピッ」などの効果音を出力することで、ユーザ2に対し、フィードバック情報が通知されるようにしてもよい。
 ただし、効果音再生部111では、分割発話文ごとの意味解析(NLU)の結果で、意図(Intent)が得られたときと、意図(Intent)が得られずに理解できなかったときとで、効果音の種類を変えるようにしてもよい。
 さらに、出力画像処理部113によって、例えば、アバタ等の画像を生成することで、ユーザ2に対し、フィードバック情報が通知されるようにしてもよい。ここでは、画像の表示に限らず、例えば、LED(Light Emitting Diode)の点灯パターンや、色による視覚情報など、ユーザ2に対し、視覚的に、フィードバック情報を通知できる手法であれば、他の手法を用いるようにしてもよい。
 ただし、出力画像処理部113では、分割発話文ごとの意味解析(NLU)の結果で、意図(Intent)が得られたときと、意図(Intent)が得られずに理解できなかったときとで、表示する画像の種類を変えるようにしてもよい。
 一般的に、ユーザ2の発話の完了は、音声対話システム1側で、1秒以上程度、ユーザ2の発話が無いことをもって、発話が完了したと判定される。ユーザ2の発話の区切りを検出することで、ユーザ2が、長い時間待たされることも想定され、音声対話システム1からフィードバック情報の通知がないと、この発話の完了待ちの間、ユーザ2は、自身の発話が受領されているのかどうかが分からずに不安になって、不要な言い直しなどを行ってしまう可能性がある。
 それに対し、効果音再生部111、音声合成処理部112、又は出力画像処理部113によって、発話区切りでのフィードバック情報出力処理が行われ、ユーザ2の発話の区切りで、フィードバック情報が、早期に出力されるようにすることで、ユーザ2は、自身の発話が受領されていることを認知することができる。その結果として、ユーザ2が、不要な言い直しをしてしまうことを回避することができる。
(フィードバック情報出力の他の例)
 なお、上述したフィードバック情報の出力は一例であって、音声対話システム1では、ユーザ2の発話に応じて行われるフィードバックであれば、様々なものを採用することができる。
 例えば、ユーザ2が身につけている機器(例えば、スマートフォンやウェアラブル機器等)が振動することで、触覚によってフィードバック情報が通知されるようにしてもよい。このとき、フィードバックの内容に応じて振動の種類を変えてもよい。さらにまた、ユーザ2の身体に、微弱な電流を通して刺激を与えるようにしてもよい。
 また、例えば、前の区切り位置から一定期間、発話の区切りが検出されず、発話時間が長いと認識された場合には、ユーザ2に対し、発話の区切りを促すためのフィードバック情報が提示されるようにしてもよい。このようにすることで、フィードバック情報が早めに提示され、分割発話文の分割単位を小さくすることができるため、後段の意味解析部108による意味解析処理の解析精度を向上させることができる。
 ここで、早めのフィードバック情報を提示する手法としては、例えば、ユーザ2の発話時間が長いときに、画像出力部115に表示された擬人化エージェントがうなずくことで、ユーザ2に対し、発話の区切りを促すことができる。なお、擬人化エージェントとは、例えばCG(Computer Graphics)キャラクタやビデオアバタ等の動画像を用いてユーザと音声での対話を行う擬人化音声対話エージェントである。
(意図推定処理・タスク実行処理)
 次に、図7乃至図10を参照して、複数意図推定部109により実行される意図推定処理と、タスク実行部110により実行されるタスク実行処理の詳細な内容について説明する。
 複数意図推定部109は、記録(蓄積)された意味解析(NLU)の結果(Intent, Entity)に基づいて、意図推定処理を行うことで、ユーザ2の意図を推定する。また、タスク実行部110は、ユーザ2の意図推定の結果に基づいて、タスク実行処理を行うことで、システムのタスクを実行する。
(ユーザ意図推定の第1の例)
 図7は、ユーザ2の意図推定の第1の例を示している。
 図7において、ユーザ2は、「いいよ、10時になったらはじめよう いつもの場所で待ってるよって返信して」である発話を行っている。従来の音声対話システムでは、この発話文全体に対し、意味解析処理を行うため、発話文に複数の異なる意図が含まれてしまうことになり、意味解析(NLU)の結果は、OOD(Out Of Domain)となる。ここで、OODとは、意味解析処理の結果得られる信頼度スコアが低く、正しい結果となっていないことを意味する。
 一方で、音声対話システム1では、「いいよ」である発話の後に発話の区切りを検出し、「いいよ」である第1の分割発話文(テキストデータ)が、意味解析処理に投入される。そして、この意味解析処理によって、第1の分割発話文の意味解析(NLU)の結果として、Intent = "YES" が得られる。
 このとき、音声対話システム1では、「いいよ」である発話の区切りが検出されたため、ユーザ2に対し、「はい」である応答(相槌)が行われる。
 次に、音声対話システム1では、「いいよ」である発話に続く、「10時になったらはじめよう」である発話の後に、発話の区切りを検出し、「10時になったらはじめよう」である第2の分割発話文(テキストデータ)が、意味解析処理に投入される。この意味解析処理によって、第2の分割発話文の意味解析(NLU)の結果として、Intent = "ALARM-SET", Entity = "10時" が得られる。
 このとき、音声対話システム1では、「10時になったらはじめよう」である発話の区切りが検出されたため、ユーザ2に対し、「はい」である応答(相槌)が行われる。
 次に、音声対話システム1では、「10時になったらはじめよう」である発話に続く、「いつもの場所で待ってるよって返信して」である発話の後に、発話の区切りを検出し、「いつもの場所で待ってるよって返信して」である第3の分割発話文(テキストデータ)が、意味解析処理に投入される。この意味解析処理によって、第3の分割発話文の意味解析(NLU)の結果として、Intent = "REPLY", Entity = "いつもの場所で待ってるよ" が得られる。
 そして、音声対話システム1においては、複数意図推定部109によって、第3の分割発話文の意味解析(NLU)の結果が、Intent = "REPLY", Entity = "いつもの場所で待ってるよ"となっていることから、それ以前の第1の分割発話文と第2の分割発話文も、第3の分割発話文と同様に、返信("REPLY")の内容であると推定することができる。すなわち、例えば日本語の場合には、発話の最後に述語がくるため、ここでは、第3の分割発話文の意図(Intent)である、返信("REPLY")が、発話全体の意図であると推定している。
 これにより、複数意図推定部109は、ユーザ2の発話全体の意図推定の結果として、Intent = "REPLY", Entity = "いいよ" + "10時になったらはじめよう" + "いつもの場所で待ってるよ" を得ることができる。この発話全体の意図推定の結果は、「いいよ、10時になったらはじめよう いつもの場所で待ってるよって返信して」である発話の内容からすれば、ユーザ2の意図に従った結果として適切であると言える。
 その後、タスク実行部110は、複数意図推定部109による意図推定の結果に基づいて、端末装置10又はサーバ20の各部(例えば、メッセージ生成部や通信I/Fなど)を制御して、「いいよ 10時になったらはじめよう いつもの場所で待ってるよ」であるメッセージを返信する処理を行う。このように、音声対話システム1(のタスク実行部110)では、ユーザ2の発話に応じて、「メッセージの返信」であるタスクが実行される。
 なお、図7の例では、「メッセージの返信」であるタスクを説明したが、それに限らず、例えば、音声対話システム1において、「メッセージの作成」などの他のタスクを実行する場合にも、同様に適用することができる。
(ユーザ意図推定の第2の例)
 図8は、ユーザ2の意図推定の第2の例を示している。
 図8において、ユーザ2は、「忘れそうだからぁ、子供のプレゼント買って、早めに帰宅って今日の予定に入れといて」である発話を行っている。
 音声対話システム1は、「忘れそうだからぁ」である発話の後に発話の区切りを検出し、「忘れそうだからぁ」である第1の分割発話文が、意味解析処理に投入される。この意味解析処理によって、第1の分割発話文の意味解析(NLU)の結果として、Intent = OOD が得られる。
 また、このとき、音声対話システム1は、「忘れそうだからぁ」である発話の音声データを解析して、その発話速度(話速)を、"遅い"と判定している。これらの解析の結果(Intent, 話速)は、記憶部116に記録される。
 次に、音声対話システム1は、「忘れそうだからぁ」である発話に続く、「子供のプレゼント買って」である発話の後に、発話の区切りを検出し、「子供のプレゼント買って」である第2の分割発話文が、意味解析処理に投入される。この意味解析処理によって、第2の分割発話文の意味解析(NLU)の結果として、Intent = "BUY-ITEM", Entity = "子供のプレゼント" が得られる。
 ただし、"子供のプレゼント"は、BodyタイプのEntityとされる。なお、Bodyは、発話の内容を表すものであって、BodyタイプのEntityは、自由発話を含んでいる。
 また、このとき、音声対話システム1は、「子供のプレゼント買って」である発話の音声データを解析して、その発話速度(話速)を、"速い"と判定している。これらの解析の結果(Intent, Entity, 話速)は、記憶部116に記録される。
 次に、音声対話システム1は、「子供のプレゼント買って」である発話に続く、「早めに帰宅って今日の予定に入れといて」である発話の後に、発話の区切りを検出し、「早めに帰宅って今日の予定に入れといて」である第3の分割発話文が、意味解析処理に投入される。この意味解析処理によって、第3の分割発話文の意味解析(NLU)の結果として、Intent = "SCHEJULE-ADD", Entity = "早めに帰宅", Entity = "今日" が得られる。ただし、Entityのうち、"早めに帰宅"は、BodyタイプのEntityとされ、"今日"は、DateタイプのEntityとされる。
 また、このとき、音声対話システム1は、「早めに帰宅って今日の予定に入れといて」である発話の音声データを解析して、その発話速度(話速)を、"速い"と判定している。これらの解析の結果(Intent, Entity, 話速)は、記憶部116に記録される。
 なお、上述した例と同様に、音声対話システム1は、ユーザ2の発話の区切りが検出されたとき、ユーザ2に対し、「はい」である応答(相槌)を行っている。
 そして、音声対話システム1において、複数意図推定部109は、記憶部116に記録されている、ユーザ2の発話を3分割した分割発話文ごとの意味解析(NLU)の結果(Intent, Entity)と、各分割発話文の発話速度(話速)に基づき、ユーザ2の発話の意図を推定する。
 この意図推定処理では、最後の分割発話文である第3の分割発話文の意図(Intent)に対するBodyタイプのEntityが、"早めに帰宅"であって、第3の分割発話文が、BodyタイプのEntityを有する意図(Intent)であり、かつ、その1つ前の第2の分割発話文である「子供のプレゼント買って」の話速が、"速い"と判定されているため、第2の分割発話文の意味解析(NLU)の結果は、次のように処理される。
 すなわち、この意図推定処理では、第2の分割発話文の意図(Intent)を棄却して、その発話内容が、第3の分割発話文の意図(Intent)である、Intent = "SCHEJULE-ADD" のBodyタイプのEntityに追加されるようにする。
 また、この意図推定処理では、さらにその1つ前の第1の分割発話文(先頭の分割発話文)である「忘れそうだからぁ」の話速が、"遅い"と判定されているため、第1の分割発話文の意図(Intent)が、第3の分割発話文のBodyタイプのEntityに追加されないようにする。
 これにより、複数意図推定部109は、ユーザ2の発話全体の意図推定の結果として、Intent = "SCHEJULE-ADD", BodyタイプのEntity = "子供のプレゼント買って" + "早めに帰宅", DateタイプのEntity = "今日" を得ることができる。この発話全体の意図推定は、「忘れそうだからぁ、子供のプレゼント買って、早めに帰宅って今日の予定に入れといて」である発話の内容からすれば、ユーザ2の意図に従った結果として適切であると言える。
 その後、タスク実行部110は、複数意図推定部109による意図推定の結果に基づいて、端末装置10又はサーバ20の各部(例えば、スケジュール管理部など)を制御して、「今日」の予定として、「子供のプレゼント買って 早めに帰宅」である予定を、スケジュールに登録する処理を行う。このように、音声対話システム1(のタスク実行部110)では、ユーザ2の発話に応じて、「スケジュールの登録」であるタスクが実行される。
 なお、この第2の例では、意図推定処理において、複数の意味解析(NLU)の結果から、Bodyの部分を判定し、スケジュールの内容に追加する際に、発話速度(話速)を用いたが、Bodyの部分として追加すべきかどうかを判定可能な情報であれば、他の情報を用いるようにしてもよい。
(ユーザ意図推定の第3の例)
 図9は、ユーザ2の意図推定の第3の例を示している。
 図9において、ユーザ2は、「ああ、明日雨なんだよな いつもの場所で待ってるよって返信して」である発話を行っている。
 音声対話システム1は、「ああ」である発話の後に発話の区切りを検出し、「ああ」である第1の分割発話文が、意味解析処理に投入される。この意味解析処理によって、第1の分割発話文の意味解析(NLU)の結果として、Intent = OOD が得られる。
 また、このとき、音声対話システム1は、「ああ」である発話中の画像データを解析して、発話中のユーザ2の視線が、端末装置10に対し、"それている"と判定している。これらの解析結果(Intent, 視線)は、記憶部116に記録される。
 次に、音声対話システム1は、「ああ」である発話に続く、「明日雨なんだよな」である発話の後に、発話の区切りを検出し、「明日雨なんだよな」である第2の分割発話文が、意味解析処理に投入される。この意味解析処理によって、第2の分割発話文の意味解析(NLU)の結果として、Intent = OOD が得られる。
 また、このとき、音声対話システム1は、「明日雨なんだよな」である発話中の画像データを解析して、発話中のユーザ2の視線が、端末装置10に対し、"それている"と判定している。これらの解析結果(Intent, 視線)は、記憶部116に記録される。
 次に、音声対話システム1は、「明日雨なんだよな」である発話に続く、「いつもの場所で待ってるよって返信して」である発話の後に、発話の区切りを検出し、「いつもの場所で待ってるよって返信して」である第3の分割発話文が、意味解析処理に投入される。この意味解析処理によって、第3の分割発話文の意味解析(NLU)の結果として、Intent = "REPLY", Entity = "いつもの場所で待ってるよ" が得られる。
 また、このとき、音声対話システム1は、「いつもの場所で待ってるよって返信して」である発話中の画像データを解析して、発話中のユーザ2の視線が、端末装置10に対し、"向いている"と判定している。これらの解析結果(Intent, Entity, 視線)は、記憶部116に記録される。
 そして、音声対話システム1においては、複数意図推定部109によって、第3の分割発話文の意味解析(NLU)の結果が、Intent = "REPLY", Entity = "いつもの場所で待ってるよ"となっているが、その1つ前の第2の分割発話文である「明日雨なんだよな」の発話中の視線が、"それている"と判定されているため、第2の分割発話文の意図(Intent)が、第3の分割発話文のBodyタイプのEntityに追加されないようにする。
 同様にまた、さらにその1つ前の第1の分割発話文(先頭の分割発話文)である「ああ」の発話中の視線が、"それている"と判定されているため、第1の分割発話文の意図(Intent)が、第3の分割発話文のBodyタイプのEntityに追加されないようにする。
 これにより、複数意図推定部109は、ユーザ2の発話全体の意図推定の結果として、Intent = "REPLY", BodyタイプのEntity = "いつもの場所で待ってるよ"を得ることができる。この発話全体の意図推定は、「ああ、明日雨なんだよな いつもの場所で待ってるよって返信して」である発話の内容からすれば、「ああ、明日雨なんだよな」が、ユーザ2の独り言であるため、ユーザ2の意図に従った結果として適切であると言える。
 その後、タスク実行部110は、複数意図推定部109による意図推定の結果に基づいて、端末装置10又はサーバ20の各部(例えば、メッセージ生成部や通信I/Fなど)を制御して、「いつもの場所で待ってるよ」であるメッセージを返信する処理を行う。このように、音声対話システム1(のタスク実行部110)では、ユーザ2の発話に応じて、「メッセージの返信」であるタスクが実行される。
 なお、この第3の例では、意図推定処理において、複数の意味解析(NLU)の結果から、Bodyの部分を判定し、スケジュールの内容に追加する際に、視線を用いたが、Bodyの部分として追加すべきかどうかを判定可能な情報であれば、他の情報を用いるようにしてもよい。
(ユーザ意図推定の第4の例)
 図10は、ユーザ2の意図推定の第4の例を示している。
 図10において、ユーザ2は、「音量を大きくして、曲の先頭に戻って」である発話を行っている。従来の音声対話システムでは、この発話文全体に対し、意味解析処理を行うが、発話文に複数の異なる意図が含まれるため、意味解析(NLU)の結果として、Intent = OOD が得られる。
 一方で、音声対話システム1では、「音量を大きくして」である発話の後に、発話の区切りを検出し、「音量を大きくして」である第1の分割発話文が、意味解析処理に投入される。そして、この意味解析処理によって、第1の分割発話文の意味解析(NLU)の結果として、Intent = "VOLUME_UP" が得られる。
 このとき、音声対話システム1では、「音量を大きくして」である発話の区切りが検出されたため、ユーザ2に対し、「はい」である応答(相槌)が行われる。
 また、音声対話システム1では、「音量を大きくして」である発話に続く、「曲の先頭に戻って」である発話の後に、発話の区切りを検出し、「曲の先頭に戻って」である第2の分割発話文が、意味解析処理に投入される。そして、この意味解析処理によって、第2の分割発話文の意味解析(NLU)の結果として、Intent = "MUSIC_REPLAY" が得られる。
 このとき、音声対話システム1では、「曲の先頭に戻って」である発話の区切りが検出されたため、ユーザ2に対し、「はい」である応答(相槌)が行われる。
 そして、音声対話システム1では、複数意図推定部109によって、第1の分割発話文の意味解析(NLU)の結果が、Intent = "VOLUME_UP" であり、第2の分割発話文の意味解析(NLU)の結果が、Intent = "MUSIC_REPLAY" であることから、ユーザ2の発話には、2つの意図(Intent)が含まれると推定することができる。
 これにより、複数意図推定部109は、ユーザ2の発話全体の意図推定の結果として、Intent = "VOLUME_UP", "MUSIC_REPLAY" の2つの意図(Intent)を得ることができる。この発話全体の意図推定の結果は、「音量を大きくして、曲の先頭に戻って」である発話の内容からすれば、ユーザ2の意図に従った結果として適切であると言える。
 タスク実行部110は、複数意図推定部109による意図推定の結果に基づいて、端末装置10の音声出力部114等を制御することで、音量を上げるとともに、曲を先頭に戻して再生する処理を行う。このように、音声対話システム1(のタスク実行部110)では、"VOLUME_UP"である意図(Intent)に応じた「音量を上げる」である第1のタスクと、"MUSIC_REPLAY"である意図(Intent)に応じた「曲を先頭に戻して再生する」である第2のタスクを、ユーザ2の意図に従って、一括して実行することができるようになる。
 なお、図10の例では、音楽再生操作の依頼を説明したが、それに限らず、例えば、音声対話システム1において、ユーザ2の発話が、複数のシステムへの依頼意図を含む場合に、この手法の適用が可能とされる。
(意図推定処理・タスク実行処理の他の例)
 上述した図7のユーザ意図推定の第1の例として、メッセージの返信や作成のタスクを実行する例を説明したが、このメッセージの返信や作成のタスクを、エージェントの伝言機能などの他の機能に応用するようにしてもよい。
 例えば、音声対話システム1に対し、ユーザ2によって、「「冷蔵庫におやつのケーキがあるよ」って言っておいて」である発話(伝言)がなされた場合に、この発話のうち、発話の区切りに応じた「冷蔵庫におやつのケーキがあるよ」である部分の発話音声を、伝言本文として録音しておくことで、他のユーザ(例えば家族)に対しては、伝言本文の音声のみが再生されるようにしてもよい。
 また、ユーザ2は、発話中に言い間違える可能性があるが、発話中の言い間違いに対する、キャンセルやアンドゥ(undo)、取り消しを、発話の区切り単位で行うようにしてもよい。
 ここで、発話の区切り単位でのキャンセル機能の2つの具体例を示すが、対話における、ユーザ2の発話を、「U(User)」と表記し、音声対話システム1による応答(タスクの実行)を、「S(System)」と表記している。また、「/」は、発話区切り検出処理によって検出した発話の区切り位置を表している。
(第1の例)

 U:「明日の目覚ましは / 7時にかけて / 間違えた / 6時にかけて」
 S:(「明日の朝6時」に「アラーム設定」であるタスクの実行)
 この第1の例の場合において、音声対話システム1は、「間違えた」である分割発話文の1つ前の発話の区切りに対応する、「7時にかけて」である分割発話文をキャンセルし、「間違えた」である分割発話文の1つ後の発話の区切りに対応する、「6時にかけて」である分割発話文を用い、明日の朝6時にアラームの設定を行っている。
 すなわち、ここでは、分割発話文ごとに得られる意味解析(NLU)の結果のうち、アラーム設定("ALARM-SET")である意図(Intent)はそのままに、実体情報(Entity)としての、「7時」が、「6時」に修正されている。
(第2の例)

 U:「買い物リストに / 卵 / 人参 / いやそれはやめて / 大根 / を入れておいて」
 S:(「卵」と「大根」を「買い物リストに追加」であるタスクの実行)
 この第2の例の場合において、音声対話システム1は、「いやそれはやめて」である分割発話文の1つ前の発話の区切りに対応する、「人参」である分割発話文をキャンセルし、「いやそれはやめて」である分割発話文の1つ後の発話の区切りに対応する、「大根」である分割発話文を用い、卵と大根の買い物リストへの追加を行っている。
 すなわち、ここでは、分割発話文ごとに得られる意味解析(NLU)の結果のうち、買い物の予定("SCHEJULE-ADD")である意図(Intent)はそのままに、実体情報(Entity)としての、「人参」が、「大根」に修正されている。
(統計的な分析)
 音声対話システム1では、分割発話文ごとに、意味解析(NLU)の結果(Intent, Entity)が得られるため、例えば、複数の意図(Intent)の相対的な共起頻度を統計的に分析し、その分析結果を、意図推定処理で用いるようにしてもよい。
 例えば、ユーザ2によって、「音量を上げて、××の曲を再生して」である発話がなされたときに、「音量を上げて」である第1の分割発話文と、「××の曲を再生して」である第2の分割発話文のそれぞれの意味解析(NLU)の結果に基づき、Intent = VOLUME_UP + PLAY_MUSIC の相対的な共起頻度を統計的に学習することができる。
 また、音声対話システム1では、記憶部116に記録される、分割発話文ごとの意味解析(NLU)の結果(Intent, Entity)等のデータを、収集データとして記録しておくことで、この収集データを統計的に分析して、例えば、VOLUME_UPである意図(Intent)の発話の後には、PLAY_MUSICである意図(Intent)の発話がされやすいなどを、学習することができる。
 そして、例えば、ユーザ2によって、「音量を上げて、××をかけて」である発話がなされたときに、「音量を上げて」である第1の分割発話文と、「××をかけて」である第2の分割発話文のそれぞれの意味解析(NLU)の結果として、Intent = VOLUME_UP + OOD が得られた場合を想定する。ここでは、Intent = PLAY_MUSIC の信頼度スコアが低い状態であるため、第2の分割発話文の意図(Intent)が、OODとなっている。
 このとき、音声対話システム1(の複数意図推定部109)では、あらかじめ行われた学習の結果を用い、OOD となっているPLAY_MUSIC の信頼度スコアに、共起頻度に応じた値を加算して、補正することにより(VOLUME_UPの後のPLAY_MUSICの共起頻度が高いために信頼度スコアが上がることで)、OODではなく、PLAY_MUSICの意図であると判定した意図推定の結果が得られる。これにより、音声対話システム1(のタスク実行部110)では、音量を上げるとともに音楽の再生も行う。
 なお、記憶部116が、サーバ20に設けられる場合には、ある特定のユーザのみならず、音声対話サービスを使用している多数のユーザの発話に応じた意味解析(NLU)の結果(Intent, Entity)を、収集データとして蓄積することができるため、より多くの収集データを用いて、より精度の高い機械学習を行うことができる。
 すなわち、上述した統計的な共起頻度を、ユーザ全体に対して収集して適用してもよいし、ユーザ属性(例えばエリアや年代、性別など)ごとに収集して適用するか、あるいは、ある特定のユーザ個人に対して収集して適用するようにしてもよい。
 また、上述した例では、n-gram統計の n=2 の場合を示したが、例えば、n=3, n=4, ・・・ と共起関係の数を増やして、頻度を統計的に分析するようにしてもよい。
 このような統計的な分析を行うことで、例えば、システムの使用時間とともに収集するデータ量が増加して、ユーザにより発話される長い文章や複文などからも、分割発話文ごとの意味解析(NLU)の結果が得られることで、意図推定処理での意図推定の精度が上がって、使い込むほどにシステムが賢くなっていくことを、ユーザは実感することができる。
(発話全体のBody判定処理の流れ)
 次に、図11のフローチャートを参照して、音声対話システム1により実行される発話全体のBody判定処理の流れを説明する。
 なお、この発話全体のBody判定処理は、図3の音声対話処理におけるステップS11乃至S16の処理が繰り返し行われ、分割発話文ごとの意味解析(NLU)の結果が得られた後に行われるステップS17の処理に含まれる。
 ステップS31において、複数意図推定部109は、記憶部116に記録されている、ユーザ2の発話をN個に分割した分割発話文の意味解析(NLU)の結果と、各分割発話文の発話速度(話速)を取得する。ただし、Nは、1以上の整数である。
 ステップS32において、複数意図推定部109は、分割文インデックスnとして、n = N をセットする。ここでは、n = N をセットすることで、処理の対象が、最後の分割発話文とされる。
 ステップS33において、複数意図推定部109は、n番目の分割発話文の意図(Intent)が、Bodyタイプの実体情報(Entity)を有するかどうかを判定する。
 ステップS33において、n番目の分割発話文の意図(Intent)が、Bodyタイプの実体情報(Entity)を有していないと判定された場合、処理は、ステップS35に進められる。
 ステップS35において、複数意図推定部109は、ユーザ2の発話内に、Bodyタイプの実体情報(Entity)が存在しないため、N個の分割発話文の各意図(Intent)に応じた意図を推定する。これにより、タスク実行部110は、複数意図推定部109からの意図推定の結果に基づき、N個の分割発話文の各意図(Intent)に応じたタスクを実行する。
 このステップS35の処理が実行されるケースとしては、例えば、図10に示したユーザ意図推定の第4の例が該当する。図10においては、ユーザ2の発話全体の意図推定の結果として、Intent = "VOLUME_UP", "MUSIC_REPLAY" の2つの意図(Intent)が推定されている。
 ステップS35の処理が終了すると、発話全体のBody判定処理は終了する。
 一方で、ステップS33において、n番目の分割発話文の意図(Intent)が、Bodyタイプの実体情報(Entity)を有すると判定された場合、処理は、ステップS34に進められる。
 ステップS34において、複数意図推定部109は、n番目の分割発話文が、ユーザ2の発話の先頭であるかどうかを判定する。ここでは、処理の対象が、n = 1,すなわち、1番目(先頭)の分割発話文であるかどうかが判定される。
 ステップS34において、n番目の分割発話文が、ユーザ2の発話の先頭であると判定された場合、Bodyタイプの実体情報(Entity)を有しているが、先頭の分割発話文であるため、発話全体のBody判定処理は終了する。
 また、ステップS34において、n番目の分割発話文が、ユーザ2の発話の先頭ではないと判定された場合、処理は、ステップS36に進められる。ステップS36において、複数意図推定部109は、分割文インデックスnとして、n = n-1 をセットする。ここでは、例えば、Nの次に、N-1など、1つ前の分割発話文に対応するインデックスがセットされる。
 ステップS37において、複数意図推定部109は、n番目の分割発話文のユーザ2の発話速度が、閾値を超えるかどうか(閾値が示す速度よりも速いかどうか)を判定する。
 ステップS37において、ユーザ2の発話速度が、閾値を超えると判定された場合、処理は、ステップS38に進められる。
 ステップS38において、複数意図推定部109は、n番目の分割発話文の意図(Intent)を未実行とし、その内容を、最後の分割発話文の意図(Intent)のBodyタイプの実体情報(Entity)に追加した意図を推定する。これにより、タスク実行部110は、n番目の分割発話文の意図(Intent)を、最後の分割発話文の意図(Intent)のBodyタイプの実体情報(Entity)に追加した意図推定の結果に応じたタスクを実行する。
 このステップS38の処理が実行されるケースとしては、例えば、図7に示したユーザ意図推定の第1の例が該当する。図7においては、ユーザ2の発話全体の意図推定の結果として、"いいよ" 及び "10時になったらはじめよう" である分割発話文の内容が、最後の分割発話文のBodyタイプの実体情報(Entity)として追加され、Intent = "REPLY", Entity = "いいよ" + "10時になったらはじめよう" + "いつもの場所で待ってるよ" が得られる。
 ステップS38の処理が終了すると、処理は、ステップS34に戻り、上述した処理が繰り返される。
 一方で、ステップS37において、ユーザの発話速度が、閾値未満であると判定された場合、処理は、ステップS39に進められる。
 ステップS39において、複数意図推定部109は、n番目より前の分割発話文は、システムへの依頼発話ではないと判定し、n番目より前の分割発話文の意図(Intent)を未実行とした意図を推定する。これにより、タスク実行部110は、n番目より前の分割発話文の意図(Intent)を未実行とした意図推定の結果に応じたタスクを実行する。
 このステップS39の処理が実行されるケースとしては、例えば、図8に示したユーザ意図推定の第2の例が該当する。図8においては、「忘れそうだからぁ」である分割発話文(の意図(Intent))が未実行とされ、発話全体の意図推定の結果として、Intent = "SCHEJULE-ADD", BodyタイプのEntity = "子供のプレゼント買って" + "早めに帰宅", DateタイプのEntity = "今日" が得られる。
 ステップS39の処理が終了すると、発話全体のBody判定処理は終了する。
 以上、発話全体のBody判定処理の流れを説明した。
(区切り単位のキャンセル処理の流れ)
 次に、図12のフローチャートを参照して、音声対話システム1により実行される区切り単位のキャンセル処理の流れを説明する。
 なお、この区切り単位のキャンセル処理は、図3の音声対話処理におけるステップS11乃至S16の処理が繰り返し行われ、分割発話文ごとの意味解析(NLU)の結果が得られた後に行われるステップS17の処理に含まれる。
 ステップS51において、複数意図推定部109は、記憶部116に記録されている、ユーザの発話をN個に分割した分割発話文の意味解析(NLU)の結果を取得する。ただし、Nは、1以上の整数である。
 ステップS52において、複数意図推定部109は、分割文インデックスnとして、n = N をセットする。n = N をセットすることで、処理の対象が、最後の分割発話文とされる。
 ステップS53において、複数意図推定部109は、n番目の分割発話文が、ユーザ2の発話の先頭であるかどうかを判定する。ここでは、処理の対象が、n = 1,すなわち、1番目(先頭)の分割発話文であるかどうかが判定される。
 ステップS53において、n番目の分割発話文が、ユーザ2の発話の先頭であると判定された場合、発話の区切り単位でキャンセルを行う必要はないため、区切り単位のキャンセル処理は終了する。
 一方で、ステップS53において、n番目の分割発話文が、ユーザ2の発話の先頭ではないと判定された場合、処理は、ステップS54に進められる。
 ステップS54において、複数意図推定部109は、n番目の分割発話文の意図(Intent)が、キャンセルや取り消しの意図を有するかどうかを判定する。ここで、キャンセルや取り消しの意図としては、例えば、上述の「間違えた」や「いやそれはやめて」などの分割発話文に応じた意図(Intent)が該当する。
 ステップS54において、n番目の分割発話文の意図(Intent)が、キャンセル等の意図を有すると判定された場合、処理は、ステップS55に進められる。ステップS55において、複数意図推定部109は、n-1番目の分割発話文を、ユーザ2の意図推定の対象から削除する。
 例えば、上述の第1の例で、「・・・ / 7時にかけて / 間違えた / ・・・」である発話の区切りが検出された場合に、「間違えた」であるn番目の分割発話文が、キャンセル等の意図を有すると判定されたとき、「7時にかけて」であるn-1番目の分割発話文が、意図推定の対象から削除される。
 また、例えば、上述の第2の例で、「・・・ / 人参 / いやそれはやめて / ・・・」である発話の区切りが検出された場合、「いやそれはやめて」であるn番目の分割発話文が、キャンセル等の意図を有すると判定されたとき、「人参」であるn-1番目の分割発話文が、意図推定の対象から削除される。
 一方で、ステップS54において、n番目の分割発話文の意図(Intent)が、キャンセル等の意図を有していないと判定された場合、処理は、ステップS56に進められる。ステップS56において、複数意図推定部109は、分割文インデックスnとして、n = n-1 をセットする。ここでは、例えば、Nの次に、N-1など、1つ前の分割発話文に対応するインデックスがセットされる。
 ステップS56の処理が終了すると、処理は、ステップS53に戻り、それ以降の処理が繰り返される。
 また、ステップS55の処理が終了すると、処理は、ステップS57に進められる。ステップS57において、複数意図推定部109は、n-1番目の分割発話文が、ユーザ2の発話の先頭であるかどうかを判定する。ここでは、処理の対象が、n = 2,すなわち、2番目の分割発話文であるかどうかが判定される。
 ステップS57において、n-1番目の分割発話文が、ユーザ2の発話の先頭であると判定された場合、これ以上発話の区切り単位でキャンセルを行う必要はないため、区切り単位のキャンセル処理は終了する。
 一方で、ステップS57において、n-1番目の分割発話文が、ユーザ2の発話の先頭ではないと判定された場合、処理は、ステップS58の処理に進められる。ステップS58において、複数意図推定部109は、分割文インデックスnとして、n = n-2 をセットする。ここでは、例えば、Nの次に、N-2など、2つ前の分割発話文に対応するインデックスがセットされる。
 ステップS58の処理が終了すると、処理は、ステップS53に戻り、それ以降の処理が繰り返される。
 以上、区切り単位のキャンセル処理の流れを説明した。
 このように、音声対話システム1では、ユーザ2の発話特性を検出して、ユーザ2の意図を理解してほしい単位で発話文を分割した分割発話文ごとに意味解析(NLU)の結果を得ることで、より正確に、ユーザ2の発話の意図を推定することができるようにしている。
 ところで、従来の意味解析エンジン(NLUエンジン)では、ユーザの発話文から意図(Intent)と実体情報(Entity)を抽出する際に、複数の意図を含む長い文章や複文から、意図(Intent)と実体情報(Entity)を正しく抽出することは、困難であった。つまり、ユーザが発話する文章が長くなるほど、複数の意図(Intent)や実体情報(Entity)が含まれる可能性が高くなり、従来の意味解析エンジンでは、一意の意図(Intent)を推定することができなくなる。
 また、従来の音声対話システムにおいて、ユーザが長めの発話を行った場合に、その意図(Intent)を正しく推定できないときには、ユーザが意図しないシステム挙動となってしまう。その結果として、ユーザは、音声対話システムに対し、短文やコマンドベースでの発話しか行わないようになって、音声コマンドによる入力ユーザインターフェース(UI:User Interface)からの脱却を図ることができない。
 ただし、ここでの音声コマンドは、ユーザが、音声によって特定のコマンドを発することであって、ユーザによる自然発話ではないことを意味している。
 それに対し、音声対話システム1では、人の発話特性を検出して、ユーザ2の意図を理解してほしい単位で、発話文を分割した分割発話文ごとに意味解析(NLU)の結果が得られるため、ユーザ2の発話に即した意図(Intent)や実体情報(Entity)を得ることができる。そのため、音声対話システム1では、ユーザ2によって、複数の意図を含む長い文章や複文などが発話された場合(ユーザ2の発話が複数のシステムへの依頼意図を含む場合)でも、各々の依頼意図を正しく推定して、各依頼タスクに応じたタスクを一括で実行することが可能となる。
 その結果として、ユーザ2が、依頼タスクごとに音声コマンド的な短文発話による対話ターンを行わなくなることが期待される。また、ユーザ2にとっては、長い文章や複文を発話したときにも、システムが正しく意図を理解して動作している経験を通じて、システムに対して長い文章や複文の発話をすることができる、というマインドができる。
 さらに、音声対話システム1では、ユーザ2の複雑な発話の意図に対し、音声コマンド的な短文発話による複数の対話ターンを必要としないため、ユーザ2に対し、対話ターンを意識させない自然な対話を行うことが可能となる。
 また、音声対話システム1では、例えば、電子メールやソーシャルネットワーキングサービス(SNS:Social Networking Service)等のメッセージの作成依頼の発話時に、発話文の中からメッセージの内容(Body)を正しく抽出することが可能となるので、例えば、メッセージの作成依頼とメッセージの内容(Body)の入力で、別の対話ターンとせずに、1回の対話ターンでまとめて処理することが可能となる。
<2.変形例>
 上述した説明では、音声対話システム1において、音声入力部101乃至センサ部103、音声出力部114、及び画像出力部115が、ローカル側の端末装置10に組み込まれ、音声認識部104乃至出力画像処理部113が、クラウド側のサーバ20に組み込まれる構成を一例として説明したが、音声入力部101乃至画像出力部115のそれぞれは、端末装置10とサーバ20のうち、どちらの機器に組み込まれてもよい。
 例えば、音声入力部101乃至画像出力部115のすべてが、端末装置10側に組み込まれ、ローカル側で処理が完了するようにしてもよい。ただし、このような構成を採用した場合でも、各種のデータベースは、インターネット30上のサーバ20が管理するようにしてもよい。
 また、音声認識部104で行われる音声認識処理や、意味解析部108で行われる意味解析処理は、他のサービスで提供されている音声認識サービスや意味解析サービスを利用するようにしてもよい。この場合、例えば、サーバ20では、インターネット30上で提供される音声認識サービスに対し、音声データを送ることで、音声認識の結果を得ることができる。また、例えば、サーバ20では、インターネット30上で提供される意味解析サービスに対し、分割発話文のデータを送ることで、分割発話文ごとの意味解析結果(Intent, Entity)を得ることができる。
<3.コンピュータの構成>
 上述した一連の処理(例えば、図3に示した音声対話処理など)は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータ1000において、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インターフェース1005が接続されている。入出力インターフェース1005には、入力部1006、出力部1007、記録部1008、通信部1009、及び、ドライブ1010が接続されている。
 入力部1006は、マイクロフォン、キーボード、マウスなどよりなる。出力部1007は、スピーカ、ディスプレイなどよりなる。記録部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインターフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
 以上のように構成されるコンピュータ1000では、CPU1001が、ROM1002や記録部1008に記録されているプログラムを、入出力インターフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ1000(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータ1000では、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インターフェース1005を介して、記録部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記録部1008にインストールすることができる。その他、プログラムは、ROM1002や記録部1008に、あらかじめインストールしておくことができる。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 また、図3に示した音声対話処理の各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本技術は、以下のような構成をとることができる。
(1)
 ユーザの発話中に得られる認識の結果に基づいて、前記ユーザの発話の区切りを検出する検出部と、
 検出した前記発話の区切りごとに発話文を分割して得られる分割発話文の意味解析の結果に基づいて、前記ユーザの発話の意図を推定する推定部と
 を備える情報処理装置。
(2)
 前記認識の結果は、前記ユーザの発話の音声データの認識の結果、前記ユーザを撮像して得られる画像データの認識の結果、及び前記ユーザ又はその周辺をセンシングして得られるセンサデータの認識の結果のうち、少なくとも1つの認識の結果を含む
 前記(1)に記載の情報処理装置。
(3)
 前記検出部は、前記認識の結果から得られる前記ユーザの状態又は仕草に基づいて、前記発話の区切りを検出する
 前記(2)に記載の情報処理装置。
(4)
 前記推定部は、前記分割発話文ごとに逐次得られる意図(Intent)及び実体情報(Entity)に基づいて、前記ユーザの発話の意図を推定する
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記推定部は、前記分割発話文ごとの意図(Intent)の中から、前記発話文に即した意図(Intent)を抽出する
 前記(4)に記載の情報処理装置。
(6)
 前記推定部は、前記分割発話文ごとの実体情報(Entity)の中から、前記発話文に即した実体情報(Entity)を抽出する
 前記(4)又は(5)に記載の情報処理装置。
(7)
 前記実体情報(Entity)は、そのタイプとして、自由発話を含むことを表すBodyタイプを含み、
 前記推定部は、最後の分割発話文の意図(Intent)が、Bodyタイプの実体情報(Entity)を有する場合に、それよりも前の分割発話文であって注目している注目分割発話文が、特定の条件を満たす場合、前記注目分割発話文の意図(Intent)を未実行とし、その内容を、最後の分割発話文の意図(Intent)が有するBodyタイプの実体情報(Entity)に追加する
 前記(4)に記載の情報処理装置。
(8)
 前記推定部は、前記注目分割発話文が、前記特定の条件を満たさない場合、前記注目分割発話文の意図(Intent)を破棄する
 前記(7)に記載の情報処理装置。
(9)
 前記特定の条件は、前記ユーザの発話の速度が、所定の閾値を超えるかどうかを判定するための条件、又は前記ユーザの視線が、所定の対象を向いているかどうかを判定するための条件を含む
 前記(8)に記載の情報処理装置。
(10)
 前記実体情報(Entity)は、そのタイプとして、自由発話を含むことを表すBodyタイプを含み、
 前記推定部は、Bodyタイプの実体情報(Entity)を有する前記分割発話文が存在しないとき、前記分割発話文ごとの意図(Intent)に応じて、前記ユーザの発話の意図を推定する
 前記(4)に記載の情報処理装置。
(11)
 前記推定部は、前記ユーザの発話に、取り消しの意図(Intent)が含まれるとき、取り消しの対象となる分割発話文を、前記ユーザの発話の意図推定の対象から削除する
 前記(4)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記推定部は、n番目の分割発話文が、取り消しの意図(Intent)を有しているとき、n-1番目の分割発話文を、前記ユーザの発話の意図推定の対象から削除する
 前記(11)に記載の情報処理装置。
(13)
 検出した前記発話の区切りごとに出力されるフィードバック情報を生成する生成部をさらに備える
 前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
 前記フィードバック情報は、音声、効果音、又は画像を含む
 前記(13)に記載の情報処理装置。
(15)
 前記検出部は、前記音声データの認識の結果に基づいて、前記ユーザの発話の間の時間が一定の時間を超えたとき、前記ユーザの発話に含まれるイントネーション句の境界を検出したとき、又は前記ユーザの発話に含まれる言いよどみ若しくはフィラーを検出したとき、前記発話の区切りを検出する
 前記(2)又は(3)に記載の情報処理装置。
(16)
 前記検出部は、前記画像データの認識の結果に基づいて、前記ユーザの口が動いていない時間が一定の時間を超えたとき、又は前記ユーザの視線の動きが大きいことを検出したとき、前記発話の区切りを検出する
 前記(2)又は(3)に記載の情報処理装置。
(17)
 前記検出部は、前記センサデータの認識の結果に基づいて、前記ユーザの息継ぎを検出したとき、又は前記ユーザの身体の全体若しくは一部の動きを検出したとき、前記発話の区切りを検出する
 前記(2)又は(3)に記載の情報処理装置。
(18)
 前記ユーザの発話の意図推定の結果に基づいて、タスクを実行するタスク実行部をさらに備える
 前記(1)乃至(17)のいずれかに記載の情報処理装置。
(19)
 前記ユーザの発話から前記発話文を得るための音声認識(ASR)を行う音声認識部と、
 前記発話の区切りごとに逐次得られる前記分割発話文の意味解析(NLU)を行う意味解析部と
 をさらに備える前記(1)乃至(18)のいずれかに記載の情報処理装置。
(20)
 情報処理装置の情報処理方法において、
 前記情報処理装置が、
 ユーザの発話中に得られる認識の結果に基づいて、前記ユーザの発話の区切りを検出し、
 検出した前記発話の区切りごとに発話文を分割して得られる分割発話文の意味解析の結果に基づいて、前記ユーザの発話の意図を推定する
 情報処理方法。
 1 音声対話システム, 10 端末装置, 20 サーバ, 30 インターネット, 101 音声入力部, 102 画像入力部, 103 センサ部, 104 音声認識部, 105 画像認識部, 106 センサ認識部, 107 発話区切り検出部, 108 意味解析部, 109 複数意図推定部, 110 タスク実行部, 111 効果音再生部, 112 音声合成処理部, 113 出力画像処理部, 114 音声出力部, 115 画像出力部, 116 記憶部, 1000 コンピュータ, 1001 CPU

Claims (20)

  1.  ユーザの発話中に得られる認識の結果に基づいて、前記ユーザの発話の区切りを検出する検出部と、
     検出した前記発話の区切りごとに発話文を分割して得られる分割発話文の意味解析の結果に基づいて、前記ユーザの発話の意図を推定する推定部と
     を備える情報処理装置。
  2.  前記認識の結果は、前記ユーザの発話の音声データの認識の結果、前記ユーザを撮像して得られる画像データの認識の結果、及び前記ユーザ又はその周辺をセンシングして得られるセンサデータの認識の結果のうち、少なくとも1つの認識の結果を含む
     請求項1に記載の情報処理装置。
  3.  前記検出部は、前記認識の結果から得られる前記ユーザの状態又は仕草に基づいて、前記発話の区切りを検出する
     請求項2に記載の情報処理装置。
  4.  前記推定部は、前記分割発話文ごとに逐次得られる意図(Intent)及び実体情報(Entity)に基づいて、前記ユーザの発話の意図を推定する
     請求項1に記載の情報処理装置。
  5.  前記推定部は、前記分割発話文ごとの意図(Intent)の中から、前記発話文に即した意図(Intent)を抽出する
     請求項4に記載の情報処理装置。
  6.  前記推定部は、前記分割発話文ごとの実体情報(Entity)の中から、前記発話文に即した実体情報(Entity)を抽出する
     請求項4に記載の情報処理装置。
  7.  前記実体情報(Entity)は、そのタイプとして、自由発話を含むことを表すBodyタイプを含み、
     前記推定部は、最後の分割発話文の意図(Intent)が、Bodyタイプの実体情報(Entity)を有する場合に、それよりも前の分割発話文であって注目している注目分割発話文が、特定の条件を満たす場合、前記注目分割発話文の意図(Intent)を未実行とし、その内容を、最後の分割発話文の意図(Intent)が有するBodyタイプの実体情報(Entity)に追加する
     請求項4に記載の情報処理装置。
  8.  前記推定部は、前記注目分割発話文が、前記特定の条件を満たさない場合、前記注目分割発話文の意図(Intent)を破棄する
     請求項7に記載の情報処理装置。
  9.  前記特定の条件は、前記ユーザの発話の速度が、所定の閾値を超えるかどうかを判定するための条件、又は前記ユーザの視線が、所定の対象を向いているかどうかを判定するための条件を含む
     請求項8に記載の情報処理装置。
  10.  前記実体情報(Entity)は、そのタイプとして、自由発話を含むことを表すBodyタイプを含み、
     前記推定部は、Bodyタイプの実体情報(Entity)を有する前記分割発話文が存在しないとき、前記分割発話文ごとの意図(Intent)に応じて、前記ユーザの発話の意図を推定する
     請求項4に記載の情報処理装置。
  11.  前記推定部は、前記ユーザの発話に、取り消しの意図(Intent)が含まれるとき、取り消しの対象となる分割発話文を、前記ユーザの発話の意図推定の対象から削除する
     請求項4に記載の情報処理装置。
  12.  前記推定部は、n番目の分割発話文が、取り消しの意図(Intent)を有しているとき、n-1番目の分割発話文を、前記ユーザの発話の意図推定の対象から削除する
     請求項11に記載の情報処理装置。
  13.  検出した前記発話の区切りごとに出力されるフィードバック情報を生成する生成部をさらに備える
     請求項1に記載の情報処理装置。
  14.  前記フィードバック情報は、音声、効果音、又は画像を含む
     請求項13に記載の情報処理装置。
  15.  前記検出部は、前記音声データの認識の結果に基づいて、前記ユーザの発話の間の時間が一定の時間を超えたとき、前記ユーザの発話に含まれるイントネーション句の境界を検出したとき、又は前記ユーザの発話に含まれる言いよどみ若しくはフィラーを検出したとき、前記発話の区切りを検出する
     請求項3に記載の情報処理装置。
  16.  前記検出部は、前記画像データの認識の結果に基づいて、前記ユーザの口が動いていない時間が一定の時間を超えたとき、又は前記ユーザの視線の動きが大きいことを検出したとき、前記発話の区切りを検出する
     請求項3に記載の情報処理装置。
  17.  前記検出部は、前記センサデータの認識の結果に基づいて、前記ユーザの息継ぎを検出したとき、又は前記ユーザの身体の全体若しくは一部の動きを検出したとき、前記発話の区切りを検出する
     請求項3に記載の情報処理装置。
  18.  前記ユーザの発話の意図推定の結果に基づいて、タスクを実行するタスク実行部をさらに備える
     請求項1に記載の情報処理装置。
  19.  前記ユーザの発話から前記発話文を得るための音声認識(ASR)を行う音声認識部と、
     前記発話の区切りごとに逐次得られる前記分割発話文の意味解析(NLU)を行う意味解析部と
     をさらに備える請求項18に記載の情報処理装置。
  20.  情報処理装置の情報処理方法において、
     前記情報処理装置が、
     ユーザの発話中に得られる認識の結果に基づいて、前記ユーザの発話の区切りを検出し、
     検出した前記発話の区切りごとに発話文を分割して得られる分割発話文の意味解析の結果に基づいて、前記ユーザの発話の意図を推定する
     情報処理方法。
PCT/JP2018/038944 2017-11-02 2018-10-19 情報処理装置、及び情報処理方法 WO2019087811A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019518320A JPWO2019087811A1 (ja) 2017-11-02 2018-10-19 情報処理装置、及び情報処理方法
CN201880005330.6A CN110140167A (zh) 2017-11-02 2018-10-19 信息处理设备和信息处理方法
US16/464,494 US11335334B2 (en) 2017-11-02 2018-10-19 Information processing device and information processing method
EP18873149.1A EP3564948A4 (en) 2017-11-02 2018-10-19 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-212744 2017-11-02
JP2017212744 2017-11-02

Publications (1)

Publication Number Publication Date
WO2019087811A1 true WO2019087811A1 (ja) 2019-05-09

Family

ID=66333082

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/038944 WO2019087811A1 (ja) 2017-11-02 2018-10-19 情報処理装置、及び情報処理方法

Country Status (5)

Country Link
US (1) US11335334B2 (ja)
EP (1) EP3564948A4 (ja)
JP (1) JPWO2019087811A1 (ja)
CN (1) CN110140167A (ja)
WO (1) WO2019087811A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112305927A (zh) * 2019-07-31 2021-02-02 深圳市云海物联科技有限公司 设备的控制方法及装置
US11393447B2 (en) * 2019-06-18 2022-07-19 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
US11398219B2 (en) * 2019-09-16 2022-07-26 Lg Electronics Inc. Speech synthesizer using artificial intelligence and method of operating the same
JP2023106269A (ja) * 2022-01-20 2023-08-01 マインドウェアワークス カンパニー リミテッド 問い合わせ処理装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2583117B (en) * 2019-04-17 2021-06-30 Sonocent Ltd Processing and visualising audio signals
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN114255757A (zh) * 2020-09-22 2022-03-29 阿尔卑斯阿尔派株式会社 语音信息处理装置及语音信息处理方法
GB2601543B (en) * 2020-12-04 2023-07-26 Rolls Royce Plc Method of training a neural network
US11854528B2 (en) * 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding
US12033637B2 (en) * 2021-05-17 2024-07-09 Google Llc Arranging and/or clearing speech-to-text content without a user providing express instructions
CN114281959B (zh) * 2021-10-27 2024-03-19 腾讯科技(深圳)有限公司 语句处理的方法、装置、设备、介质及计算机程序产品
WO2024053822A1 (en) * 2022-09-05 2024-03-14 Samsung Electronics Co., Ltd. System and method for receiving a voice command

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6234200A (ja) * 1985-08-08 1987-02-14 工業技術院長 韻律情報を利用した会話音声理解方法
JPH06295308A (ja) 1993-04-07 1994-10-21 Nec Corp 自然言語解析方法および装置
JPH1097280A (ja) * 1996-09-19 1998-04-14 Hitachi Ltd 音声画像認識翻訳装置
JP2000259632A (ja) * 1999-03-09 2000-09-22 Toshiba Corp 自動通訳システム、通訳プログラム伝送システム、記録媒体および情報伝送媒体
JP2001184087A (ja) * 1999-12-27 2001-07-06 Toshiba Corp 音声入力テキスト作成方法及び装置
JP2007328283A (ja) * 2006-06-09 2007-12-20 Kenwood Corp 対話装置、プログラム、及び対話方法
WO2016120904A1 (ja) * 2015-01-28 2016-08-04 三菱電機株式会社 意図推定装置及び意図推定方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000067047A (ja) * 1998-08-24 2000-03-03 Toshiba Corp 対話制御装置および対話制御方法
US20030023439A1 (en) * 2001-05-02 2003-01-30 Gregory Ciurpita Method and apparatus for automatic recognition of long sequences of spoken digits
JP4729902B2 (ja) * 2003-12-12 2011-07-20 株式会社豊田中央研究所 音声対話システム
EP1560200B8 (en) * 2004-01-29 2009-08-05 Harman Becker Automotive Systems GmbH Method and system for spoken dialogue interface
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP6251958B2 (ja) * 2013-01-28 2017-12-27 富士通株式会社 発話解析装置、音声対話制御装置、方法、及びプログラム
US9472205B2 (en) * 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
DK2994908T3 (da) * 2013-05-07 2019-09-23 Veveo Inc Grænseflade til inkrementel taleinput med realtidsfeedback
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
CN107077843A (zh) * 2014-10-30 2017-08-18 三菱电机株式会社 对话控制装置和对话控制方法
JP6514503B2 (ja) * 2014-12-25 2019-05-15 クラリオン株式会社 意図推定装置、および意図推定システム
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US11100384B2 (en) * 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10181331B2 (en) * 2017-02-16 2019-01-15 Neosensory, Inc. Method and system for transforming language inputs into haptic outputs
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6234200A (ja) * 1985-08-08 1987-02-14 工業技術院長 韻律情報を利用した会話音声理解方法
JPH06295308A (ja) 1993-04-07 1994-10-21 Nec Corp 自然言語解析方法および装置
JPH1097280A (ja) * 1996-09-19 1998-04-14 Hitachi Ltd 音声画像認識翻訳装置
JP2000259632A (ja) * 1999-03-09 2000-09-22 Toshiba Corp 自動通訳システム、通訳プログラム伝送システム、記録媒体および情報伝送媒体
JP2001184087A (ja) * 1999-12-27 2001-07-06 Toshiba Corp 音声入力テキスト作成方法及び装置
JP2007328283A (ja) * 2006-06-09 2007-12-20 Kenwood Corp 対話装置、プログラム、及び対話方法
WO2016120904A1 (ja) * 2015-01-28 2016-08-04 三菱電機株式会社 意図推定装置及び意図推定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3564948A4

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11393447B2 (en) * 2019-06-18 2022-07-19 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
CN112305927A (zh) * 2019-07-31 2021-02-02 深圳市云海物联科技有限公司 设备的控制方法及装置
US11398219B2 (en) * 2019-09-16 2022-07-26 Lg Electronics Inc. Speech synthesizer using artificial intelligence and method of operating the same
JP2023106269A (ja) * 2022-01-20 2023-08-01 マインドウェアワークス カンパニー リミテッド 問い合わせ処理装置
JP7406838B2 (ja) 2022-01-20 2023-12-28 マインドウェアワークス カンパニー リミテッド 問い合わせ処理装置

Also Published As

Publication number Publication date
US20210110814A1 (en) 2021-04-15
CN110140167A (zh) 2019-08-16
EP3564948A1 (en) 2019-11-06
JPWO2019087811A1 (ja) 2020-09-24
US11335334B2 (en) 2022-05-17
EP3564948A4 (en) 2019-11-13

Similar Documents

Publication Publication Date Title
WO2019087811A1 (ja) 情報処理装置、及び情報処理方法
JP7243625B2 (ja) 情報処理装置、及び情報処理方法
JP7191987B2 (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
JP2022103191A (ja) 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
US11705106B2 (en) On-device speech synthesis of textual segments for training of on-device speech recognition model
CN114041283A (zh) 利用事件前和事件后输入流来接洽自动化助理
US11222622B2 (en) Wake word selection assistance architectures and methods
KR20200059054A (ko) 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
US20230343324A1 (en) Dynamically adapting given assistant output based on a given persona assigned to an automated assistant
US11990124B2 (en) Language model prediction of API call invocations and verbal responses
WO2019155717A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10841411B1 (en) Systems and methods for establishing a communications session
US11398221B2 (en) Information processing apparatus, information processing method, and program
US11842737B2 (en) Automated assistant interaction prediction using fusion of visual and audio input
KR20230062612A (ko) 자동화된 어시스턴트를 위한 자연스러운 대화 활성화
US12094454B2 (en) Multimodal intent understanding for automated assistant
US20200342870A1 (en) Information processing device and information processing method
WO2020017165A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US20210082427A1 (en) Information processing apparatus and information processing method
EP3846164A2 (en) Method and apparatus for processing voice, electronic device, storage medium, and computer program product
KR20230105254A (ko) 전자 장치 및 전자 장치의 제어 방법
CN118974822A (zh) 基于指派给自动化助理的给定角色动态地适配给定助理输出

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019518320

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18873149

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018873149

Country of ref document: EP

Effective date: 20190801

NENP Non-entry into the national phase

Ref country code: DE