JP6949149B2

JP6949149B2 - 音声アシスタントシステムのための発話による特権の管理

Info

Publication number: JP6949149B2
Application number: JP2019570509A
Authority: JP
Inventors: トーマスミラーグレゴリー
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2017-09-08
Filing date: 2018-09-07
Publication date: 2021-10-13
Anticipated expiration: 2038-09-07
Also published as: JP2020525903A; US10438594B2; EP3679571B1; WO2019051214A1; CN110800044A; US20190080698A1; EP3679571A1; CN110800044B

Description

関連出願の相互参照
本願は、その全体的な開示が参照によりここに援用される、「ＡＤＭＩＮＩＳＴＲＡＴＩＯＮＯＦＰＲＩＶＩＬＥＧＥＳＢＹＳＰＥＥＣＨＦＯＲＶＯＩＣＥＡＳＳＩＳＴＡＮＴＳＹＳＴＥＭ」と題する、２０１７年９月８日に出願された米国特許出願第１５／７００，００８号に対する優先権を主張する。

コンピューティングデバイスが進化を続けるのに伴い、ユーザーは、コンピューティングデバイスと対話するときによりシームレスかつ効率的な経験を期待する。ユーザーが、例えば機械的な装置（例えば、キーボード、マウス等）、タッチスクリーン、モーションキャプチャ（例えば、ジェスチャ）を使用することによって、及び例えば発話等の自然言語入力も使用し、コンピューティングデバイスと対話できるようにするための多くの技術及び機構が導入されてきた。発話が入力として使用されるとき、コンピューティングデバイスは、多くの場合、発話処理のために少なくとも一部の音声情報をリモートコンピューティングデバイスに送信する。ユーザーがコンピューティングデバイスを制御するために音声入力を使用することに慣れるのに伴い、音声コマンドを使用し、タスクの完了を容易にするために、従来のタスクが考え直される場合がある。

いくつかのコンピューティングタスクは、ユーザーが、例えばコンピューティングデバイスのための管理設定を修正する等の特定のアクションを行うことを可能にするために、安全なプロセス及び／またはユーザー特権の実装及び実施を必要とする。従来、この種のアクションは、例えばキーボード等の従来型のコンピューティングデバイス入力装置を使用し、実行される。

発明を実施するための形態は、添付の図を参照して説明される。図中、参照番号の左端の数字（複数可）は、参照番号が最初に現れる図を特定する。異なる図の同じ参照番号は、類似または同一の物を示す。

例示的なコンピューティング環境の概略図である。例示的なコンピューティングアーキテクチャのブロック図である。信頼されるユーザーの発話及び新しいユーザーの発話を分析して、新しいユーザーに対する新しい特権を管理するための例示的なプロセスの流れ図である。発話トレーニングを通して新しいユーザーの音声属性を作成及び／または改良するための例示的なプロセスの流れ図である。以前の音声対話に基づいて、以前の発話データを新しいユーザーと関連付けるための例示的なプロセスの流れ図である。新しいユーザーまたは別のユーザーの特権をカスタマイズするための例示的なプロセスの流れ図である。与えられた特権と関連付けられた条件を作成し、実施するための例示的なプロセスの流れ図である。

本開示は、音声アシスタントシステムを使用するユーザー特権の管理を対象とし、システムは、ユーザーが、例えば音声アシスタントデバイスとともに音声起動コマンドを使用し、新しいユーザーによるコンピューティングリソースへのアクセスを提供すること等の管理者タスクを実行できるようにする。音声アシスタントデバイスは、ユーザーから音声コマンドを受け取り、自動音声認識（ＡＳＲ）アルゴリズム及び自然言語処理（ＮＬＰ）アルゴリズムを使用し、音声を処理してテキストを決定し、テキストに基づいた返事を返し、テキストを音声に変換するアルゴリズムを使用し、返事を音声出力に変換し、話者に音声出力を出力させる任意のシステムまたはデバイスを含んでよい。一部の例では、一部の音声アシスタントシステムは、ディスプレイを含んでよく、ユーザーが、システムにより受け取られた発話入力に基づいて生成または更新され得るテキスト及び／または他のグラフィックスを見ることを可能にしてよい。プロセスは、プロセスの複数の関係するインスタンスを含んだダイアログを定義する複数の「転換点（ｔｕｒｎｓ）」を含んでよい。音声アシスタントシステムの例は、Ｓｅａｔｔｌｅ、ＷａｓｈｉｎｇｔｏｎのＡｍａｚｏｎ．ｃｏｍ（登録商標）により提供されるＡｌｅｘａ（登録商標）、Ｃｕｐｅｒｔｉｎｏ、ＣａｌｉｆｏｒｎｉａのＡｐｐｌｅＣｏｒｐ．（登録商標）により提供されるＳｉｒｉ（登録商標）、及びＲｅｄｍｏｎｄ、ＷａｓｈｉｎｇｔｏｎのＭｉｃｒｏｓｏｆｔＣｏｒｐ．（登録商標）により提供されるＣｏｒｔａｎａ（登録商標）を含む。音声アシスタントシステムは、通常少なくともネットワークインタフェース、マイク、及びスピーカを含むユーザーデバイスを含んでよい。ユーザーデバイスは、スマートフォン、専用装置、及び／またはユーザーによって制御され、ユーザーに近接して位置する他のデバイスであってよい。音声アシスタントシステムは、（例えば、クラウドコンピューティング構成等のリモートコンピューティングデバイスを介して）離れた場所にあるユーザーデバイスによって記憶されてよいサービスエンジン、及び／または両方の組み合わせを含んでよい。

様々な実施形態では、音声アシスタントシステムは、例えば「こちらは私の友人のジョン・スミスです」と述べる発話等の、信頼されるユーザーからの紹介を受け取るように構成されてよい。ここで、「ジョン・スミス」は、特定の音声アシスタントシステムと以前に対話したことがない新しいユーザーである場合がある。音声アシスタントシステムは、ＡＳＲ及びおそらくＮＬＵを使用し、発話を処理してよく、コマンドまたはインテントを決定するためにテキストを構文分析してよい。また、音声アシスタントシステムは、話者、または音声アシスタントシステムに紹介を発話した話者と関連付けられたプロファイルを決定するために、発話または発話の属性も分析してよい。例えば、口調、音量、言葉のペース、及び／または他の発話属性は、例えば話者が信頼されるユーザーであると判断することによって等、話者、または話者と関連付けられたプロファイルを決定するために使用されてよい。音声アシスタントシステムは、おそらく対応するユーザープロファイルへのアクセスを介して、信頼されるユーザー（例えば、「サリー・ジョーンズ」）が、管理特権を含むこと、及びテキスト「こちらは私の友人のジョン・スミスです」が少なくとも一部のユーザー特権をジョン・スミスに与えるためのコマンドであることを判断してよい。ユーザー特権は、ジョン・スミスが、例えばコマンドを発行する、情報を抽出する（例えば、質問を尋ね、回答を得る等）、メディアを再生する、及び／または信頼されるユーザーにより音声アシスタントシステムに紹介されていない、及び／またはユーザープロファイルと関連付けられ、特定の音声アシスタントシステムと関連付けられた特権を有していないが、別の音声アシスタントシステムと関連付けられた特権を有する場合がある人は利用できない場合がある、音声アシスタントシステムを用いた他のアクションを実行する等、音声アシスタントシステムと対話できるようにしてよい。

音声アシスタントシステムは、例えば「こんにちは、ジョン・スミスと申します」等のジョン・スミスからの発話を受け取ってよい。音声アシスタントシステムは、テキストを構文分析して、ジョン・スミスに特権を与えるために以前のコマンドまたはインテントと関連付けられる場合がある別のコマンドまたはインテントを決定するために、ＡＳＲ及びおそらくＮＬＵを使用し、この発話を分析してよい。また、音声アシスタントシステムは、発話の属性を決定してジョン・スミスと関連付けるために発話を分析してもよい。音声アシスタントシステムは、ジョン・スミスのユーザープロファイルを作成し、発話の属性をジョン・スミスのユーザープロファイルと関連付けてよく、ジョン・スミスのものであると考えられるとして後に発話を識別することを可能にしてよい。

音声アシスタントシステムは、信頼されるユーザーから、ジョン・スミスに与えるための１つ以上の特権を決定してよい。いくつかの実施形態では、音声アシスタントシステムは、新しいユーザー、ジョン・スミスの特権の名称またはグループを決定してよい。例えば、「友人」のグループは、ジョン・スミスに、音声コマンドを使用し、音声アシスタントシステムを介して、特定の情報及び／またはコンテンツを受け取る及び／またはアクセスする能力を許す、ジョン・スミスに与えるための特権と関連付けられてよい。グループ化され、例えば「ゲスト」、「家族」、「子供」等の名前と関連付けられてよい他の事前に定義された特権のグループがユーザーに与えられてよい。

音声アシスタントシステムは、おそらく特定のグループと関連付けられた特権を修正することによって、カスタマイズされたグループ、及び／またはカスタマイズされた特権の集合体の作成を可能にしてよい。様々な実施形態では、信頼されるユーザーは、特権の条件を作成してよい。例えば、信頼されるユーザーは、特権が条件を課すために特定のときに期限切れになると述べる場合がある（例えば、「こちらは、日曜日まで、私のゲストのジョン・スミスです」）。信頼されるユーザーは、例えば、ジョン・スミスによるカレンダデータにアクセスする特権を取り消し得る、「ジョン・スミスのカレンダアクセスを削除してください」と述べることによって特権を削除し得る。

いくつかの実施形態では、音声アシスタントシステムは、音声属性を作成及び／または改良して、新しいユーザーの声を介した後続の新しいユーザーの識別を可能にするために、新しいユーザーと少なくともなんらかの発話トレーニングを開始してよい。音声アシスタントシステムは、別の音声アシスタントシステムとの以前のユーザー対話の間に取り込まれた可能性がある、ユーザーと関連付けられた以前の音声データの場所を突き止め、アクセスしようと試みてよい。例えば、新しいユーザーは、自身の音声アシスタントシステムと対話してよく、別の音声アシスタントシステムによる使用のために、自身の音声アシスタントシステムにより取り込まれた一部の情報をインポートすることを所望する場合がある。

本明細書に説明する技術及びシステムは、いくつかの方法で実装し得る。例の実施態様は、以下の図に関して以下に提供される。

図１は、例示的なコンピューティング環境１００の概略図である。環境１００は、ユーザーデバイス１０４と関連付けられた信頼されるユーザー１０６との対話を容易にするために、例えば音声データ及び発話データ等のデータをユーザーデバイス１０４と交換する、音声アシスタントサービス（ＶＡＳ）１０２を含んでよい。ユーザーデバイス１０４は、信頼されるユーザー１０６によって発行される発話コマンドを使用し、少なくとも部分的に制御される任意の電子機器の１つであってよい。いくつかの実施形態では、ユーザーデバイス１０４は、他の入力制御装置をほとんどまたはまったく含まない（例えば、ボタン、モーションデバイス、撮像装置等をほとんどまたはまったく含まない）専用の音声認識デバイスであってよい。代わりに、ユーザーデバイス１０４は、発話されたコマンドを受け取ることによってユーザーからの入力を受け取ってよく、コマンドはユーザーデバイス１０４によって及び／またはクラウドサービスによって信号に変換され、次いで例えばＶＡＳ１０２とのデータの交換によって処理される。ＶＡＳ１０２は、それに応えて、直接的にまたは間接的に、ユーザーデバイス１０４に、及びユーザーデバイス１０４からデータを提供する任意のサービスであってよい。少なくとも一部の音声認識は、いくつかの実施形態ではサービスの１つに要求を送信する前に実行される場合があるので、ＶＡＳ１０２が音声認識のために構成される必要はない。様々な実施形態では、ＶＡＳ１０２は、ユーザーデバイス１０４によって取り込まれ、１つ以上のネットワーク１０８を介してＶＡＳに送信された音声に対して少なくともなんらかのＡＳＲ及び／またはＮＬＵを実行してよい。ネットワーク（複数可）は、有線ネットワーク、無線ネットワーク、または両方を含んでよい。

ＶＡＳ１０２は、ユーザーデバイスと１０４と関連付けられた特定のユーザーを追跡するように構成されてよく、音声入力（発話）の属性を分析することによってそれらのユーザーを識別し、識別を使用してユーザープロファイルを受け取った音声入力と関連付けてよい。例えば、サリー・ジョーンズがユーザーデバイス１０４に発話することによって音声入力を提供すると、音声入力の少なくとも一部はＶＡＳ１０２に送信されてよく、ＶＡＳ１０２は音声入力を分析して、音声入力がサリー・ジョーンズと関連付けられると判断してよい。ＶＡＳ１０２は、音声入力をサリー・ジョーンズのユーザープロファイルと関連付けてよい。ユーザープロファイルは、ＶＡＳ１０２がどのようにしてサリー・ジョーンズに応答するのか、ＶＡＳ１０２がサリー・ジョーンズにどの情報を提供するのか等を管理し得る、サリー・ジョーンズのための特権を含んでよい。

本明細書に説明するように、いくつかの実施形態では、ＶＡＳ１０２の動作の少なくとも一部は、ユーザーデバイス１０４でローカルに実行されてよい。様々な実施形態では、ＶＡＳ１０２は、ユーザーデバイス１０４で完全に実装されてよく、信頼されるユーザー１０６にとってローカルに（例えば、ユーザーの住居内等に）常駐してよい。少なくとも一実施形態では、ユーザーデバイス１０４は、追加処理のためにすべての音声をＶＡＳ１０２に渡し、コマンドをローカルに処理しない「データ処理能力のない」端末であってよい。

ユーザーは、例えばＶａｓがユーザーを積極的に識別し、ユーザーの特権（ＶＡＳがユーザーの代わりに、どの物事、タスク、データ、動作を実行またはアクセスできるのか）を決定できるようにするための情報を含むユーザープロファイルを介して、ＶＡＳ１０２との特別な関係を有してよい、または作成してよい。例えば、第１のユーザーは、ＶＡＳ１０２を介してユーザーアカウントと関連付けられてよく、信頼されるユーザーになる、または信頼されるユーザーの特権を与えられてよい。これらの特権は、信頼されるユーザーが他のユーザーに特権を与えることを可能にし得る管理権を含んでよい。特権は、ＶＡＳ１０２及び／またはユーザーデバイス１０４がどのようにして他のユーザーと対話するのかを定義してよい。例えば、ＶＡＳ１０２は、特権を有さない（及びおそらくＶＡＳ１０２と関連付けられたユーザープロファイルを有さない）登録されていないユーザーに情報を提供することを控えてよい。

ＶＡＳ１０２は、例えば音楽、指示、文書を提供すること、タスクを実行すること（リストに物事を加えること、リマインダを設定すること、タイマを起動すること、カレンダイベントを加えること等）等によって、異なるタイプの情報、エンターテインメント、またはデータを提供してよい。本明細書に説明するように、ＶＡＳは、ユーザーとの対話１１０に従事するように構成されてよい。いくつかの実施形態では、対話は、複数の要求及び返事を含む場合がある。要求／返事の各対は、通常はユーザーデバイス１０４を介したユーザーとＶＡＳ１０２との間での往復の情報交換である「転換点」を定義してよい。例えば、ユーザーが質問を尋ねるまたは要求を発行すると、要求はユーザーデバイス１０４によって、及びおそらくＶＡＳ１０２によって受け取られてよい。ユーザーデバイス１０４及び／またはＶＡＳ１０２は、代わりに要求を処理し、ユーザー１０６に発行され、返されてよいシステム返事を生成してよい。この単一の往復の交換を、本明細書では単一の「転換点」と呼ぶ。いくつかの要求は単一の転換点で満たされる場合があるが、他の要求は、ユーザーが意図された結果または目標を達成する前に複数の転換点を必要とするまたは含む場合がある。

新しいユーザー１１２に特権を与えるために、ユーザーデバイス１０４及び／またはＶＡＳ１０２は多様な発話を処理してよい。一例として、信頼されるユーザー１０６は、「私のゲストのジョン・スミスにユーザー特権を与えてください」と発話する場合がある。ユーザーデバイス１０４は、マイクを介してこの発話を受け取り、音声を音声信号に変換し、それらの信号の少なくとも一部を処理してよい、及び／または処理のためにＶＡＳ１０２に信号を送信してよい。処理プロトコルに関わらず、発話は、少なくとも（１）話者が信頼されるユーザー１０６であること、及び（２）発話が「ジョン・スミス」に特権を与えるコマンドを含んでいることを判断するために分析されてよい。上述したように、ユーザーデバイス１０４、ＶＡＳ１０２、または両方は、例えばＡＳＲアルゴリズム及び／またはＮＬＵアルゴリズムを使用することによって、音声属性及びまたはテキストを決定するために発話を処理してよい。

ユーザーデバイス１０４は、例えば「こんにちは、ジョン・スミスと申します」を含む発話等、新しいユーザー１１２から追加の発話を受け取る場合がある。ユーザーデバイス１０４は、マイクを介してこの発話を受け取り、音声を音声信号に変換し、それらの信号の少なくとも一部を処理してよい、及び／または処理のためにＶＡＳ１０２に信号を送信してよい。処理プロトコルに関わらず、発話は、ジョン・スミスの音声属性を、ジョン・スミスのために作成されたユーザープロファイルと関連付けるために分析されてよい。ユーザープロファイルは、上述したように信頼されるユーザーによる紹介及び特権の要求に応えて作成されてよい。ユーザーデバイス１０４、ＶＡＳ１０２、または両方は、ジョン・スミスの音声属性を決定し、それらの音声属性をユーザープロファイルと関連付けるために発話を処理してよい。ユーザープロファイルは、ジョン・スミスのために新しく作成された特権を含んでよい。

いくつかの実施形態では、ユーザーデバイス１０４は、スピーカに、例えば「お目にかかれて光栄です、ジョン。私たちは別の家で話をしたことがありましたか？」等の新しいユーザーに対するメッセージを含んだ音声を出力させてよい。例えば、ユーザーデバイス１０４及び／またはＶＡＳは、発話トレーニング及び／または新しいユーザー１１２と関連付けられた以前の音声データにアクセスすることを通して追加の音声属性を得るために新しいユーザーと対話してよい。

ＶＡＳ１０２と関連して示すように、ユーザープロファイル１１４は、例えば信頼されるユーザー１０６のための第１のユーザープロファイル１１６及び新しいユーザーのための第２のユーザープロファイル１１８等、異なるユーザーのためにアクセスされ、作成され、及び／または維持されてよい。各ユーザープロファイルは、ＶＡＳ１０２及び／またはユーザーデバイス１０４がどのようにして対応するユーザーと対話するのか、またはＶＡＳ１０２及び／またはユーザーデバイス１０４が対応するユーザーと対話するかどうかを決定してよい異なる特権１２０を含んでよい、または異なる特権１２０と関連付けられてよい。いくつかの実施形態では、ユーザープロファイル１１４は、ユーザーデバイス１０４と関連してローカルに記憶されてよい。ユーザープロファイル１１４は、上述したように、ユーザーの発話を特定のユーザープロファイルと関連付けるために使用されてよい音声属性を含んでよい。

図２は、例示的なコンピューティングアーキテクチャ２００のブロック図である。コンピューティングアーキテクチャ２００は、分散コンピューティング環境または非分散コンピューティング環境で実装されてよい。コンピューティングアーキテクチャ２００は、１つ以上のプロセッサ２０２、及び多様なモジュール、アプリケーション、プログラム、または他のデータを記憶する１つ以上のコンピュータ可読媒体２０４を含んでよい。コンピュータ可読媒体２０４は、１つ以上のプロセッサ２０２によって実行されるときに、プロセッサに本明細書に説明する動作を実行させる命令を含んでよい。

実施形態は、本明細書中に説明するプロセスまたは方法を実行するようにコンピュータ（または他の電子機器）をプログラムするために使用され得る命令を（圧縮形式で、または非圧縮形式で）記憶する非一過性の機械可読記憶媒体を含むコンピュータプログラム製品として提供されてよい。機械可読記憶媒体は、ハードドライブ、フロッピーディスク、光ディスク、ＣＤ−ＲＯＭ、ＤＶＤ、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、磁気カードもしくは光カード、ソリッドステートメモリデバイス、または電子命令を記憶するために適した他のタイプの媒体／機械可読媒体を含む場合があるが、これに限定されるものではない。さらに、実施形態はまた、一過性の機械可読信号を（圧縮形式で、または非圧縮形式で）含むコンピュータプログラム製品として提供されてもよい。機械可読信号の例は、搬送波を使用して変調されるか否かに関わらず、インターネットもしくは他のネットワークを介してダウンロードされる信号を含んだ、コンピュータプログラムをホストするまたは実行するコンピュータシステムまたは機械がアクセスするように構成できる信号を含むが、これに限定されるものではない。

いくつかの実施形態では、コンピュータ可読媒体２０４は、対話構成要素２０８、発話処理構成要素２１０、特権構成要素２１２、及び発話トレーニング構成要素２１４を含む場合がある、管理アプリケーション２０６を記憶してよい。ＶＡＳ１０２は、ユーザーデータ２１６及び／または特権定義データ２１８を記憶、管理、及び／またはアクセスしてよい。多様な構成要素は及び／またはデータストアは、ともにまたは分散構成で記憶されてよい。多様な構成要素を順番に説明する。

対話構成要素２０８は、１人以上のユーザーとの音声対話を容易にしてよい。例えば、対話構成要素２０８は、マイク及び／またはマイクを有するユーザーデバイスを介してユーザーからの発話等の音声入力を検出し、受け取ってよい。いくつかの実施形態では、対話構成要素２０８は、少なくとも部分的には、デバイスに「傾聴」を開始させ、追加処理のために音声信号を取り込むウェイクワードまたは他のコマンドの受取り時にトリガされてよい。対話構成要素２０８は、例えば「友人」特権をジョン・スミスに与える等の特定のアクションを行うためのコマンド及び要求であってよい、例えば「こちらは私の友人のジョン・スミスです」等の発話を受け取ってよく、これによりジョン・スミスは音声コマンドを使用し、ＶＡＳ１０２と対話できるようになる。様々な実施形態では、対話構成要素２０８は、受け取った発話を分析して、発話と関連付けられたユーザープロファイル２２０を決定してよい。例えば、対話構成要素２０８は、例えば口調、音量、言葉のペース等の受け取った発話の属性、及び／または他の発話属性を取り込み、分析し、それらの属性をユーザーデータ２１６の記憶されている発話属性２２２に比較し、ユーザーデータ２１６から、話者（ユーザー）である信頼されるユーザーのユーザープロファイルを決定してよい。対話構成要素２０８は、話者と対話するために音声出力を生じさせてよい。例えば、対話構成要素２０８は、例えば「私は、グループ友人の特権をもたせるためにジョン・スミスを加えました」と述べる音声を出力することによって「ジョン・スミス」を紹介した話者に対する応答を出力してよい。言うまでもなく、対話構成要素２０８により受け取られた特定のコマンド及び発話、及び／または対話構成要素２０８による特定の出力は、同様のタイプの情報を伝えつつも上記に提供した例とは異なる場合がある。対話構成要素２０８は、おそらく発話処理構成要素２１０による発話の処理の後に、受け取った発話に基づいて実行するアクションを決定してよい。例えば、対話構成要素２０８は、信頼されるユーザーが「ジョン・スミス」という名前の新しいユーザーにアクセス特権を与えることを所望しており、特権のグループが「友人」特権であると判断してよい。いくつかの実施形態では、対話構成要素２０８は、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）を使用し、新しいユーザーと関連付けられたデバイスに接続することを容易にしてよい。これは、信頼されるユーザーと同じ場所にはいない第２のユーザーに特権を与えることを可能にし得る。一例として、新しいユーザーは、信頼されるユーザーの建物を使用するであろうが、まだ建物に到着していないゲストである場合がある。

発話処理構成要素２１０は、音声とテキストとの変換を可能にするために音声をテキストに変換するアルゴリズム（複数可）及び／またはテキストを音声に変換するアルゴリズム（複数可）を含んでよい。発話処理構成要素２１０は、話者により提供されるコマンド及び情報を理解するためにＡＳＲアルゴリズム及び／またはＮＬＵアルゴリズムを利用してよい。発話処理構成要素２１０は、例えばテキストに変換するための音声、または音声に変換するためのテキスト等の、対話構成要素２０８からの要求を受け取り、対話構成要素２０８のために要求されたタスクを実行してよい。

特権構成要素２１２は、特権を決定してよい、及び／または例えば新しいユーザー等の他のユーザーに与えられてよい特権を管理してよい。特権構成要素２１２は、例えば信頼されるユーザー等の１人以上のユーザーとの対話に基づいて、特権を決定する及び／または特権を修正するために特権定義データ２１８と対話してよい。例えば、信頼されるユーザーは、特定の特権割り当て２２４を新しいユーザーに与えることを要求する場合があり、このことは新しいユーザーのユーザープロファイル２２０と関連付けられてよい。特権構成要素２１２は、対応する特定の特権と特権定義データ２１８で関連付けられる、おそらく例えば「友人」、「ゲスト」、「家族」、「子供」等のラベルまたは他のラベルで参照される特権割り当て（複数可）２２４として特権のグループを決定してよい。例えば、特権は、ユーザーが、コマンドを発行する、情報を抽出する（例えば、質問を尋ね、回答を得る等）、メディアを再生する、商品を購入する、例えば家の照明及び／またはサーモスタット等の他の機器を制御する、及び／またはユーザープロファイルと関連付けられ、特定の音声アシスタントシステムと関連付けられた特権を有していないが、別の音声アシスタントシステムと関連付けられた特権を有する場合がある人は利用できない場合がある、音声アシスタントシステムを用いた他のアクションを実行することを可能にしてよい。

特権構成要素２１２は、場合により１つ以上の他の構成要素と併せて、信頼されるユーザーが、新しいグループを作成する、またはグループの名前及びグループの特権を含むグループを定義することを可能にしてよい。特権構成要素２１２は、信頼されるユーザーが、発話または他の入力を介して、選択及び／またはパラメータを入力して特権のグループを定義することを可能にする方式を実装してよい。例えば、信頼されるユーザーが、グループ「友人」に類似する特権を含むが、いくつかの追加の特権及び／または他の相違点も含む「親友」と呼ばれる新しいグループを作成することを所望する場合がある。上述したように、いくつかのグループは、管理アプリケーション２０６によって事前に定義されてよい。特権構成要素２１２は、グループからの既存の情報を利用するための他の技術の中で既存のグループをコピーし、次いで編集することによって新しいグループの作成を可能にしてよい。

いくつかの実施形態では、特権構成要素２１２は、例えばユーザーに、グループと関連付けられたデフォルトの特権を超えて追加の特権を与えること、いくつかの特権を削除すること、及び／または特権の使用もしくは持続期間の条件を作成する（例えば、特権の期限切れ、特権の使用の期間、利用限度額、購入カテゴリ、消費限度等を作成する）ことによって特権に対するカスタマイズを可能にしてよい。一例として、新しいユーザーがＶＡＳ１０２を用いた発話入力によりサービスから商品を注文できるようにする特権が与えられてよい。特権は、利用限度額（例えば、毎週＄１００等）を含む条件、ならびに注文の対象の商品のホワイトリストに登録された及び／またはブラックリストに登録されたカテゴリ（例えば、清掃用品のみ、ビデオゲームなし等）を含んでよい。別の例としては、条件は、例えば、「ジョンは１日に最高２時間分の音楽を聴いてよい」または「ジョンは歌詞に不適切な表現を含んだ音楽を聴いてはならない」等のメディアの消費時間に課される場合がある。多くの他のタイプの条件が特権と関連付けられてよい。条件は、ユーザーごとにカスタマイズされてよく、いくつかの例では、特定のグループのためにカスタマイズされてよい。

発話トレーニング構成要素２１４は、音声アシスタントシステム１０２との後続のセッション中に新しいユーザーから発話を受け取ることに応えて、対話構成要素２０８がユーザープロファイル２２０を新しいユーザーと関連付けることを可能にするために新しいユーザーの声の属性を決定してよい。発話トレーニング構成要素２１４は、新しいユーザーからの発話を分析し、後続の発話を新しいユーザーのユーザープロファイル２２０と関連付けることを可能にする、発話の発話属性２２２を作成及び／または改良してよい。いくつかの実施形態では、発話トレーニング構成要素２１４は、対話構成要素２０８に、新しいユーザーとの対話を開始させて、発話トレーニング構成要素２１４による分析のために新しいユーザーから追加の発話を抽出させ、さらに発話の属性を作成及び／または改良させてよい。発話トレーニング構成要素２１４は、閾値スコアまたはスコアの範囲に比較されてよい、属性に基づいた属性信頼スコアを維持または生成してよい。比較は、例えば以下に図４に関して説明するプロセス等のループプロセスをおそらく使用し、属性を抽出またはさらに改良するために、新しいユーザーからの追加の発話を要求するかどうかを知らせてよい。

様々な実施形態では、発話トレーニング構成要素２１４は、新しいユーザーを、異なる音声アシスタントシステムまたはＶＡＳ１０２の異なるインスタンスと関連付けられる場合がある以前に得た発話属性と関連付けようと試みてよい。例えば、発話トレーニング構成要素２１４は、対話構成要素２０８に、新しいユーザーが異なる家庭の音声アシスタントシステムと対話したかどうかを判断させ、次いで新しいユーザーと対話しているＶＡＳ１０２の現在のインスタンスと関連付けるために、存在し、利用可能な場合、過去の対話の詳細を収集させてよい。以前の音声対話データを関連付けることによって、新しいユーザーの声の発話属性２２２は、上述したように最小の発話トレーニングまたは追加の発話トレーニングなしで得られてよく、次いで記憶されてよい、またはユーザープロファイル２２０と関連付けられてよい。一例として、発話トレーニング構成要素２１４は、以下の図５に関して説明するプロセスに類似したプロセスを実装してよい。

言うまでもなく、管理アプリケーション２０６は、より多くのまたはより少ない構成要素を含んでよい。いくつかの実施形態では、対話構成要素２０８は、少なくとも部分的にオペレーティングシステム、または信頼されるユーザーが、本明細書に説明するように発話紹介によって新しいユーザーに許可を提供できるようにするための特定のタスクを実行するために、例えば発話処理構成要素２１０、特権構成要素２１２、及び／または発話トレーニング構成要素２１４等のより低水準の機能を呼び出す高水準機能として動作してよい。

図３〜図７は、ハードウェア、ソフトウェア、またはその組み合わせで実装できる動作のシーケンスを表す論理的な流れ図でブロックの集合体として示す例示的なプロセスの流れ図である。ソフトウェアの観点から、ブロックは、１つ以上のプロセッサで実行したときに、列挙した動作を実行する１つ以上のコンピュータ可読媒体に記憶されたコンピュータ実行可能命令を表す。概して、コンピュータ実行可能命令は、特定の機能を実行するまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造等を含む。動作が記載される順序は、制限として解釈されることを意図するものではなく、任意の数が記載されるブロックは、任意の順序及び／または並行して組み合わせて、プロセスを実装できる。

図３は、信頼されるユーザーの発話及び新しいユーザーの発話を分析して、新しいユーザーに対する新しい特権を管理するための例示的なプロセス３００の流れ図である。プロセス３００は、環境１００及びコンピューティングアーキテクチャ２００に関して説明されているが、異なる環境で及び／または異なるコンピューティングアーキテクチャで実装されてよい。

３０２で、対話構成要素２０８は、新しいユーザーを紹介する信頼されるユーザーからの発話紹介の音声を受け取ってよい。例えば、音声アシスタントシステム１０２は、例えば「こちらは私の友人のジョン・スミスです」と述べる発話等の、信頼されるユーザーからの紹介を受け取るように構成されてよい。ここで、「ジョン・スミス」は、特定の音声アシスタントシステム１０２と以前に対話したことがない新しいユーザーである場合がある。

３０４で、対話構成要素２０８は、発話が、他のユーザーに特権を与える管理特権を有する信頼されるユーザーからであるかどうかを判断してよい。いくつかの実施形態では、対話構成要素２０８は、動作３０２から受け取った発話を分析して、発話と関連付けられたユーザープロファイルを決定してよい。例えば、対話構成要素２０８は、例えば口調、音量、言葉のペース等の受け取った発話の属性、及び／または他の発話属性を取り込み、分析し、それらの属性をユーザーデータ２１６の記憶されている属性に比較し、ユーザーデータ２１６から、話者（ユーザー）である信頼されるユーザーのユーザープロファイルを決定してよい。音声アシスタントシステム１０２は、おそらく対応するユーザープロファイルへのアクセスを介して、信頼されるユーザー（例えば、「サリー・ジョーンズ」）が、管理特権を含むこと、及びテキスト「こちらは私の友人のジョン・スミスです」が少なくとも一部のユーザー特権を新しいユーザーに与えるためのコマンドであることを判断してよい。

３０６で、発話処理構成要素２１０及び／または対話構成要素２０８は、動作３０２で受け取られた発話から、要求、新しいユーザー、及び特権または特権グループを決定するために要求の中のデータを構文解析してよい。例えば、発話処理構成要素２１０は、音声をテキストに変換するためにＡＳＲ及びおそらくＮＬＵを使用してよい。テキストは、例えばユーザーの名前及び特権情報等の多様な情報を決定するために構文解析されてよい。対話構成要素２０８は、ユーザープロファイルがユーザーデータ２１６に存在していない場合、新しいユーザー、ジョン・スミスのために新しいユーザープロファイルを作成してよい。ユーザープロファイルは、音声属性、特権、コマンド履歴データ、及び／または他の情報を記憶してよい。いくつかの実施形態では、特権構成要素２１２は、特権のラベルを特権定義データ２１８に定義された特権と関連付けてよい。音声アシスタントシステム１０２は、信頼されるユーザーによって新しいユーザーに与えるための１つ以上の特権を決定してよい。いくつかの実施形態では、音声アシスタントシステム１０２は、新しいユーザー、ジョン・スミスの特権の名称またはグループを決定してよい。例えば、「友人」のグループは、ジョン・スミスに、音声コマンドを使用し、音声アシスタントシステムを介して、特定の情報及び／またはコンテンツを受け取る及び／またはアクセスする能力を許す、ジョン・スミスに与えるための特権と関連付けられてよい。グループ化され、例えば「ゲスト」、「家族」等の名前と関連付けられてよい他の事前に定義された特権のグループがユーザーに与えられてよい。

３０８で、対話構成要素２０８は、例えば「こんにちは、ジョン・スミスと申します」等の新しいユーザーからの発話を受け取ってよい。いくつかの実施形態では、対話構成要素２０８は、例えば「お目にかかれて光栄です。自己紹介してもらえますか？」等の音声を発することによって、発話を提供するように新しいユーザーに促してよい。音声アシスタントシステムは、テキストを構文解析して、ジョン・スミスに特権を与えるための以前のコマンドまたはインテントと関連付けられる場合がある別のコマンドまたはインテントを決定するために、ＡＳＲ及びおそらくＮＬＵを使用し、この発話を分析してよい。いくつかの実施形態では、新しいユーザーからの発話は、信頼されるユーザーからの発話と関連付けられたタイムスタンプに比較されてよいタイムスタンプと関連付けられてよい。比較は、管理アプリケーション２０６によって実施されてよいタイムアウトまたは他の時間条件を実施するために使用されてよい。例えば、特権の付与は、（例えば、動作３０２を介する）信頼されるユーザーからの紹介後の閾値時間量の範囲内で（例えば、動作３０８を介して）新しいユーザーによる返事を要求する場合がある。

３１０で、発話トレーニング構成要素２１４は、発話を分析して、ジョン・スミスのユーザープロファイルと関連付けるための発話の属性を決定してよい。発話トレーニング構成要素２１４は、新しいユーザーのユーザープロファイルと関連して属性を追加及び／または改良してよく、このことが新しいユーザーのものであると考えられるとして後に発話を識別することを可能にしてよい。いくつかの実施形態では、音声アシスタントシステムは、音声属性を作成及び／または改良して、新しいユーザーの声を介した後続の新しいユーザーの識別を可能にするために、新しいユーザーと少なくともなんらかの発話トレーニングを開始してよい。

３１２で、特権構成要素２１２は、新しいユーザーが音声アシスタントシステム１０２と対話できるようにするために、新しいユーザーに与えられる１つ以上の特権をアクティブにしてよい。ユーザー特権は、新しいユーザーが、例えばコマンドを発行する、情報を抽出する（例えば、質問を尋ね、回答を得る等）、メディアを再生する、及び／または信頼されるユーザーにより音声アシスタントシステムに紹介されていない、及び／またはユーザープロファイルと関連付けられ、特定の音声アシスタントシステムと関連付けられた特権を有していないが、別の音声アシスタントシステムと関連付けられた特権を有する場合がある人は利用できない場合がある、音声アシスタントシステムを用いた他のアクションを実行する等、音声アシスタントシステムと対話できるようにしてよい。

新しい特権が新しいユーザーにとってアクティブであると、新しいユーザーは、（図１に示す）ＶＡＳ１０２によって受け取られてよいコマンドをユーザーデバイス１０４に発話してよい。新しいユーザーの声は、新しいユーザーとしてユーザーのアイデンティティを決定するために、記憶されている属性と比較されてよい属性を決定するために分析されてよい。発話はテキストに変換され、例えば「なにか新しい音楽をかけて」等の要求を決定するために分析されてよい。ＶＡＳ１０２は、テキスト及び／またはコンテキストをユーザーデバイス１０４に返して、話者（つまり、新しいユーザー）が要求されたアクション（例えば、音楽を再生すること）を受け取るための有効かつ最新の特権を有している旨を確認すると、要求されたアクションを実施してよい。

図４は、発話トレーニングを通して新しいユーザーの音声属性を作成及び／または改良するための例示的なプロセス４００の流れ図である。プロセス４００は、環境１００及びコンピューティングアーキテクチャ２００に関して説明されているが、異なる環境で及び／または異なるコンピューティングアーキテクチャで実装されてよい。

４０２で、対話構成要素２０８は、新しいユーザーを紹介する信頼されるユーザーからの発話紹介の音声を受け取ってよい。例えば、音声アシスタントシステム１０２は、例えば「こちらは私の友人のジョン・スミスです」と述べる発話等の、信頼されるユーザーからの紹介を受け取るように構成されてよい。対話構成要素２０８は、発話処理構成要素２１０と併せて発話のためのテキストを決定し、プロセス３００に関して上述したように、コマンド、新しいユーザー、及び特定の特権の要求を決定するために、発話を解析してよい。

４０４で、対話構成要素２０８は、例えば「こんにちは、ジョン・スミスと申します」等の新しいユーザーからの発話、または場合により新しいユーザーからの他の発話を受け取ってよい。音声アシスタントシステム１０２は、テキストを構文解析して、新しいユーザーに特権を与えるための以前のコマンドまたはインテントと関連付けられる場合がある別のコマンドまたはインテントを決定するために、ＡＳＲ及びおそらくＮＬＵを使用し、この発話を分析してよい。

４０６で、発話トレーニング構成要素２１４は、動作４０４で受け取った発話を分析して、新しいユーザーのユーザープロファイルと関連付けるための発話の属性を決定してよい。発話トレーニング構成要素２１４は、新しいユーザーのユーザープロファイルと関連して属性を追加及び／または改良してよく、このことが新しいユーザーのものであると考えられるとして後に発話を識別することを可能にしてよい。

４０８で、発話トレーニング構成要素２１４は、新しいユーザーの音声属性スコアを決定してよい。音声属性スコアは、対話構成要素２０８によって受け取られる他の音声の中から新しいユーザーの声を正確に識別するために属性の信頼水準を表してよい。

４１０で、音声属性スコアは、属性の発話トレーニングを続行するかどうかを判断するために閾値スコアに比較されてよい。音声属性スコアが閾値スコア未満であるとき（決定動作４１０から「ｙｅｓ」ルートをたどる）、次いでプロセス４００は動作４１２に進んでよい。

４１２で、発話トレーニング構成要素２１４は、おそらく対話構成要素２０８と併せて、発話トレーニングのために新しいユーザーから追加の発話を要求してよい。例えば、発話トレーニング構成要素２１４は、新しいユーザーからの発話された応答を呼び出してよい音声質問の出力を生じさせてよく、発話応答は、新しいユーザーと関連付けられた発話を積極的に識別するために使用される属性を決定または改良するために分析されてよい。いくつかの実施形態では、発話トレーニング構成要素２１４は、新しいユーザーによる発話を呼び出すために異なる質問及び／または他の要求の出力を生じさせてよく、発話は、質問、新しいユーザーに提供される情報の繰り返される発話（例えば、「私の後について言ってください．．．」）、及び／またはユーザーからの発話に対する他の要求に応えるものであってよい。

いくつかの実施形態では、管理アプリケーション２０６は、新しいユーザーと関連付けられるユーザープロファイル２２０に加えられてよい、一意の識別情報を決定するために新しいユーザーからの発話を要求してよい。一意の識別情報は、ユーザーの一意の識別子を作成するために使用されてよい。一例として、一意の識別情報は、新しいユーザーの電話番号、新しいユーザーの実際の住所、新しいユーザーの電子メールアドレス、及び／または新しいユーザーと関連付けられ、新しいユーザーを他のユーザーから識別するために使用できる他の一意の情報を含んでよい。一意の識別情報は、音声アシスタントシステム１０２と対話するとき、可能な範囲まで公表されずにおかれる場合があり、他のユーザーと共用されない場合がある。

４１４で、発話トレーニング構成要素２１４は、追加の発話が新しいユーザーから受け取られたかどうかを判断してよい。追加の発話が新しいユーザーから受け取られるとき（決定動作４１４から「ｙｅｓ」ルートをたどる）、次いでプロセス４００は動作４０４に進み、上記に及び本明細書に説明したように処理を続行してよい。しかしながら、いくつかの例では、例えば新しいユーザーがマイクの場所を離れたときまたは他の理由で等、新しいユーザーが応答しない場合がある。追加の発話が新しいユーザーから受け取られないとき（決定動作４１４から「ｎｏ」ルートをたどる）、または音声属性スコアが閾値スコアに達するもしくは超えるとき（決定動作４１０から「ｎｏ」のルートをたどる）、次いでプロセス４００は動作４１６に進んでよい。

４１６で、発話トレーニング構成要素２１４は、新しいユーザーのための発話トレーニングを、少なくとも一時的に終了してよい。例えば、追加の発話トレーニングは、新しいユーザーとの後の対話で実行または再開されてよい。

いくつかの実施形態では、プロセス４００は、信頼されるユーザー及び新しいユーザーが同じ場所にいることを検証してよい。例えば、管理アプリケーション２０６は、ユーザーが特定のアクションを行う及び／または同一場所にいることの証拠を提供する特定の発話を提供することを要求してよい。しかしながら、いくつかの実施形態では、同一の場所にいることは、特権を作成するまたは新しいユーザーに特権を与えるための条件として課されない場合がある。例えば、新しいユーザーは、信頼されるユーザーの将来の訪問者及びゲストである場合があり、例えばインターネット接続または他の接続の音声を介してＶＡＳ１０２と通信している場合がある。

図５は、以前の音声対話に基づいて、以前の発話データを新しいユーザーと関連付けるための例示的なプロセス５００の流れ図である。プロセス５００は、環境１００及びコンピューティングアーキテクチャ２００に関して説明されているが、異なる環境で及び／または異なるコンピューティングアーキテクチャで実装されてよい。

５０２で、対話構成要素２０８は、新しいユーザーを紹介する信頼されるユーザーからの発話紹介の音声を受け取ってよい。例えば、音声アシスタントシステム１０２は、例えば「こちらは私のゲストのジョン・スミスです」と述べる発話等の、信頼されるユーザーからの紹介を受け取るように構成されてよい。対話構成要素２０８は、発話処理構成要素２１０と併せて、発話のためのテキストを決定し、プロセス３００に関して上述したように、コマンド、新しいユーザー、及び特定の特権の要求を決定するために、発話を分析してよい。

５０４で、対話構成要素２０８は、例えば「こんにちは、ジョン・スミスと申します」等の新しいユーザーからの発話、または場合により新しいユーザーからの他の発話を受け取ってよい。音声アシスタントシステム１０２は、テキストを構文解析して、新しいユーザーに特権を与えるための以前のコマンドまたはインテントと関連付けられる場合がある別のコマンドまたはインテントを決定するために、ＡＳＲ及びおそらくＮＬＵを使用し、この発話を分析してよい。

５０６で、発話トレーニング構成要素２１４は、以前の発話データの場所を突き止めるために新しいユーザーに問い合わせしてよい。例えば、発話トレーニング構成要素２１４は、対話構成要素２０８に、可聴質問「こんにちは、ジョン・スミス、私たちは別の家や場所で以前に話をしたことがありますか？」を出力させてよい。発話トレーニング構成要素２１４は、発話トレーニング構成要素２１４が、任意の係る発話データが存在する場合、ジョン・スミスと関連付けられた以前の発話データの場所を突き止めることを可能にするための情報を決定するために、この問い合わせ、類似した問い合わせ、及び／または追加の問い合わせを実行してよい。新しいユーザーが、自分が以前にシステムと話をしたことがないことを示す場合、次いで問い合わせは終了してよい。動作５０６は新しいユーザーから発話を受け取り、テキストを決定するために発話を処理し、以前の発話データが利用可能であるかどうか、及び利用可能である場合、その発話データがどこに位置しているのかを判断するためにテキストを処理してよい。例えば、新しいユーザーは、自分が以前に音声アシスタントシステムを使用したことがある家の住所を示す場合がある。他の関連付けは、ユーザープロファイル及び／またはユーザープロファイル名等のなんらかの個人識別情報を参照することによってなされてよい。

５０８で、発話トレーニング構成要素２１４は、ユーザーから受け取られた発話応答、及び発話トレーニング構成要素２１４によって実行される検索に基づいて候補発話データの場所を突き止めることができるかどうかを判断してよい。検索は、音声アシスタントシステムがアクセス可能な情報の検索を含んでよい。いくつかの実施形態では、新しいユーザーは、音声アシスタントシステムが以前の発話データにアクセスできるようにするための特定の許可を提供してよい。例えば、承認は、例えば携帯電話を介したテキストメッセージング、または他の簡略なツーステップ承認プロセスを使用すること等、二次デバイスで実行されてよい。ここでは、発話データは以下に説明する追加の処理まで新しいユーザーに属していると確認されていないため、発話データは「候補」と呼ばれる。候補発話データが発見されると（決定ブロック５０８から「ｙｅｓ」ルートをたどる）、次いでプロセス５００は動作５１０に進んでよい。

５１０で、発話トレーニング構成要素２１４は、発見された候補発話データを、セッション中に（例えば新しいユーザーが「こんにちは、ジョン・スミスと申します」のような何かを発話するのに応えて）新しいユーザーから受け取った発話データに比較してよい。例えば、発話トレーニング構成要素２１４は、属性の相違が対応する閾値に満たないかどうかを判断するために、現在の発話データの属性を候補発話データの属性と比較してよい。例えば、口調、速度、音量等の属性、及び／または他の音声属性は、候補発話データがおそらく新しいユーザーに属しており、実際に異なるユーザーからの発話データではないかどうかを判断するために比較されてよい。

５１２で、発話トレーニング構成要素２１４は、動作５１０で実行された比較に少なくとも部分的に基づいて、新しいユーザーのための発話データとして候補発話データを使用するかどうかを判断してよい。発話トレーニング構成要素２１４が、新しいユーザーのための発話データとして候補発話データを使用しないと判断すると（決定動作５１２から「ｎｏ」ルートをたどる）、次いでプロセス５００は例えば新しいユーザーのための以前の発話データを発見しようと再び試みること等、追加の処理のために動作５０６に進んでよい。しかしながら、いくつかの実施形態では、プロセス５００はここで終わってよい。発話トレーニング構成要素２１４が、新しいユーザーのための発話データとして候補発話データを使用することを決定すると（決定動作５１２から「ｙｅｓ」ルートをたどる）、次いでプロセス５００は追加の処理のために動作５１４に進んでよい。

５１４で、発話トレーニング構成要素２１４は、以前の発話データを新しいユーザーと関連付けてよい。例えば、発話トレーニング構成要素２１４は、以前の発話データを使用して新しいユーザーのために音声属性の一部またはすべてを作成及び／または改良して、対話構成要素が、音声アシスタントシステム１０２との後続の対話の間に受け取られる新しいユーザーの発話により新しいユーザーを正確に識別できるようにしてよい。いくつかの実施形態では、プロセス５００は、動作５１０及び５１２を省略または抜かし、例えば、候補発話が新しいユーザーからであるとして高い信頼を有するとき、決定動作５０８から動作５１４に直接的に進んでよい。候補発話は、候補発話が単一のユーザーしか有していない家庭と関連付けられる、特定のユーザー識別子と関連付けられる等のとき、高い信頼を有してよい。

候補発話データが発見されないとき（決定ブロック５０８から「ｎｏ」ルートをたどる）、次いでプロセス５００は動作５１６に進んでよい。例えば、「ｎｏ」ルートは、以前の発話データが存在していない（例えば、新しいユーザーが初めてのユーザーである）、または新しいユーザーにより提供された情報が、発話トレーニング構成要素２１４が任意の候補発話データの場所を突き止めることを可能にしなかった旨の応答からトリガされる場合がある。５１６で、発話トレーニング構成要素２１４は、例えば上述したプロセス４００の動作の少なくとも一部を実行することによって等、発話トレーニングを実行してよい。いくつかの実施形態では、新しいユーザーの音声スコアが、プロセス４００に関連して上述したように閾値音声スコア未満であるとき、動作５１４の後に、少なくとも一部の追加の発話トレーニングが続く場合がある。

図６は、新しいユーザーまたは別のユーザーの特権をカスタマイズするための例示的なプロセス６００の流れ図である。プロセス６００は、環境１００及びコンピューティングアーキテクチャ２００に関して説明されているが、異なる環境で及び／または異なるコンピューティングアーキテクチャで実装されてよい。プロセス６００は、信頼されるユーザーからの発話の受け取りによって、及び新しいユーザーによる存在または音声入力なしに実行されてよい。

６０２で、対話構成要素２０８は、新しいユーザーを紹介する信頼されるユーザーからの発話紹介の音声を受け取ってよい。例えば、音声アシスタントシステム１０２は、例えば「こちらは、私のスマートホームコントロールにもアクセスできる、私のゲストのジョン・スミスです」と述べる発話等の、信頼されるユーザーからの紹介を受け取るように構成されてよい。ここで、「ジョン・スミス」は、特定の音声アシスタントシステム１０２と以前に対話したことがない新しいユーザーである場合がある。対話構成要素２０８は、発話が、他のユーザーに特権を与える管理特権を有する信頼されるユーザーからであるかどうかを判断してよい。

６０４で、発話処理構成要素２１０及び／または対話構成要素２０８は、動作６０２で受け取られた発話から、要求、新しいユーザー、及び特権または特権グループを決定するために要求の中のデータを構文解析してよい。例えば、発話処理構成要素２１０は、音声をテキストに変換するためにＡＳＲ及びおそらくＮＬＵを使用してよい。テキストは、プロセス３００の動作３０６に関して上述したように、例えばユーザーの名前及び特権情報等の多様な情報を決定するために構文解析されてよい。音声アシスタントシステム１０２は、信頼されるユーザーによって新しいユーザーに与えるための１つ以上の特権を決定してよい。いくつかの実施形態では、音声アシスタントシステム１０２は、新しいユーザー、ジョン・スミスの特権の名称またはグループを決定してよい。例えば、「ゲスト」のグループは、ジョン・スミスに、音声コマンドを使用し、音声アシスタントシステムを介して、特定の情報及び／またはコンテンツを受け取る及び／またはアクセスする能力を許す、ジョン・スミスに与えるための特権と関連付けられてよい。グループ化され、例えば「ゲスト」、「家族」等の名前と関連付けられてよい他の事前に定義された特権のグループがユーザーに与えられてよい。

６０６で、特権構成要素２１２は、新しいユーザーのための特権の修正、追加、または削除を決定してよい。例えば、新しいユーザーの紹介で、例の発話は、「私のスマートホームコントロールにアクセスする」という追加特権を含んでいた。この特権は、この例では特権の「ゲスト」セットには含まれない場合があるが、新しいユーザー、ジョン・スミスに与えられる特権に加えられる場合がある。追加の特権が、ゲスト特権を有する他のユーザーに影響を与えるのではなく、ただ新しいユーザー、ジョン・スミスに、この追加の特権を与えるにすぎない場合があることに留意されたい。

６０８で、特権構成要素２１２は、おそらく対話構成要素２０８を介して、特権の追加の修正、追加、または削除が新しいユーザーのために実行されるのかどうかを判断してよい。例えば、特権の修正、追加、及び／または削除の少なくとも一部は、新しいユーザーの紹介の後、場合により例えば別の日の間に等、異なるセッションの間に、信頼されるユーザーからの発話によって受け取られてよい。特権の削除は、個々の特権の削除、及び／またはすべての新しいユーザーの特権の取り消しを含む場合がある。特権の修正は、例えば図７に関して以下に説明するように、条件を修正することを含む場合がある。特権の別の修正、追加、または削除が実行されるとき（決定動作６０８から「ｙｅｓ」ルートをたどる）、次いでプロセス６００は動作６０６に進み、上述したように追加の情報を処理してよい。特権の別の修正、追加、または削除が実行されないとき（決定動作６０８から「ｎｏ」ルートをたどる）、次いでプロセス６００は動作６１０に進んでよい。

６１０で、特権構成要素２１２は、新しいユーザーに与えられる１つ以上の特権、及び／または新しいユーザーが、現在与えられている特権に従って音声アシスタントシステム１０２と対話できるようにするための特権の修正、追加、及び／または削除をアクティブにしてよい。ユーザー特権は、新しいユーザーが、例えばコマンドを発行する、情報を抽出する（例えば、質問を尋ね、回答を得る等）、メディアを再生する、及び／または信頼されるユーザーにより音声アシスタントシステムに紹介されていない、及び／またはユーザープロファイルと関連付けられ、特定の音声アシスタントシステムと関連付けられた特権を有していないが、別の音声アシスタントシステムと関連付けられた特権を有する場合がある人は利用できない場合がある、音声アシスタントシステムを用いた他のアクションを実行する等、音声アシスタントシステムと対話できるようにしてよい。

図７は、与えられた特権と関連付けられた条件を作成し、実施するための例示的なプロセス７００の流れ図である。プロセス７００は、環境１００及びコンピューティングアーキテクチャ２００に関して説明されているが、異なる環境で及び／または異なるコンピューティングアーキテクチャで実装されてよい。

７０２で、対話構成要素２０８は、新しいユーザーを紹介する信頼されるユーザーからの発話紹介の音声を受け取ってよい。例えば、音声アシスタントシステム１０２は、例えば「こちらは本日の私のゲストのジョン・スミスです」と述べる発話等の、信頼されるユーザーからの紹介を受け取るように構成されてよい。ここで、「ジョン・スミス」は、特定の音声アシスタントシステム１０２と以前に対話したことがない新しいユーザーである場合がある。対話構成要素２０８は、発話が、他のユーザーに特権を与える管理特権を有する信頼されるユーザーからであるかどうかを判断してよい。

７０４で、発話処理構成要素２１０及び／または対話構成要素２０８は、動作７０２で受け取られた発話から、要求、新しいユーザー、及び特権または特権グループを決定するために要求の中のデータを構文解析してよい。例えば、発話処理構成要素２１０は、音声をテキストに変換するためにＡＳＲ及びおそらくＮＬＵを使用してよい。テキストは、プロセス３００の動作３０６に関して上述したように、例えばユーザーの名前及び特権情報等の多様な情報を決定するために構文解析されてよい。音声アシスタントシステム１０２は、信頼されるユーザーによって新しいユーザーに与えるための１つ以上の特権を決定してよい。いくつかの実施形態では、音声アシスタントシステム１０２は、新しいユーザー、ジョン・スミスの特権の名称またはグループを決定してよい。例えば、「ゲスト」のグループは、ジョン・スミスに、音声コマンドを使用し、音声アシスタントシステムを介して、特定の情報及び／またはコンテンツを受け取る及び／またはアクセスする能力を許す、ジョン・スミスに与えるための特権と関連付けられてよい。グループ化され、例えば「ゲスト」、「家族」等の名前と関連付けられてよい他の事前に定義された特権のグループがユーザーに与えられてよい。

７０６で、特権構成要素２１２は、新しいユーザーのための１つ以上の特権の条件を決定してよい。例えば、新しいユーザーの紹介で、例の発話は、「当日」という条件を含んでいた。この条件は、例えば期限切れまたは特権が有効である時間範囲等の時間的な条件である場合がある。また、例えば新しいユーザーがどのコンテンツにアクセスできるのか（例えば、歌詞に不適切な表現を有する音楽なし等）の他の条件が課されてもよい。条件は、信頼されるユーザーからの別個の発話で提供されてよく、必ずしも紹介または新しいユーザー、ジョン・スミスに対する特権の初期の付与に含まれる必要はない。

７０８で、特権構成要素２１２は、新しいユーザーが音声アシスタントシステム１０２と対話できるようにするために、新しいユーザーに与えられる１つ以上の特権をアクティブにしてよい。ユーザー特権は、新しいユーザーが、例えばコマンドを発行する、情報を抽出する（例えば、質問を尋ね、回答を得る等）、メディアを再生する、及び／または信頼されるユーザーにより音声アシスタントシステムに紹介されていない、及び／またはユーザープロファイルと関連付けられ、特定の音声アシスタントシステムと関連付けられた特権を有していないが、別の音声アシスタントシステムと関連付けられた特権を有する場合がある人は利用できない場合がある、音声アシスタントシステムを用いた他のアクションを実行する等、音声アシスタントシステムと対話できるようにしてよい。

７１０で、特権構成要素２１２は、例えば特権が期限切れになったのか、それとも現在利用できないのか等の、条件が有効になったかどうかを判断してよい。特権が条件の対象にならない、または終了しているとき（決定動作７１０から「ｎｏ」ルートをたどる）、次いでプロセス７００は動作７０８に進み、新しいユーザーが信頼されるユーザーによって与えられる特権を使用できるようにし続けてよい。特権が条件の対象となり、終了しているとき（決定動作７１０から「ｙｅｓ」ルートをたどる）、次いでプロセス７００は動作７１２に進んでよい。

７１２で、特権構成要素２１２は、条件の対象となり、少なくとも一時的に期限切れとなった１つ以上の特権を取り消してよい。例えば、特権が時刻制御の条件（例えば、特権は午前８時〜午後１０時だけアクティブである等）の対象である場合、次いで特権はその後になって再びアクティブにされてよい。

いくつかの実施形態では、条件は複数のユーザーに適用されてよい。例えば、信頼されるユーザーが、関係者をホストしてよく、「今夜はすべての人に音楽を制御してもらいましょう」と述べる場合がある。特権構成要素２１２は、全員が、例えば、音声アシスタントシステム１０２に対して発話することによって、音楽を再生する、音楽を選択する等の音楽制御コマンドにアクセスする、及び／または他の音楽制御コマンドを実行する許可を作成してよい。特権構成要素２１２は、（タイムフレーム「今夜」のために）当日の期限切れを有する条件を作成してよい。特権構成要素２１２は、全員が時間分の最後に（例えば、当日の終わりに、またはなんらかの他のときに）音楽を制御する特権を取り消してよい。

以下の例示的な実施形態は、本明細書に説明する主題の追加の説明を提供する。例示的な実施形態は以下を含む。
１．音声制御アシスタントによって実装されるコンピュータ実装方法であって、管理特権を有する第１のユーザープロファイルと関連付けられる第１のユーザーから第１の発話を受け取ることであって、前記第１の発話が、特権のグループ及び前記特権のグループに含まれる特権を獲得するための第２のユーザーの少なくとも識別を含む、前記受け取ることと、前記第１の発話の第１の属性を分析して、前記第１の発話が前記第１のユーザープロファイルと関連付けられていると判断することと、前記第１の発話の処理に少なくとも部分的に基づいて前記第２のユーザー及び前記特権のグループを決定することと、前記第２のユーザーと関連付けられた第２のユーザープロファイルを作成することと、前記第２のユーザーからの発話を要求するためのプロンプトを提供することと、第２の発話を前記第２のユーザーから受け取ることと、前記第２の発話から引き出される第２の属性を決定することであって、前記第２の属性が、前記第２のユーザーと関連付けられた後続の発話の識別を可能にする、前記決定することと、前記第２の属性及び前記特権のグループを前記第２のユーザープロファイルと関連付けることとを含む、前記コンピュータ実装方法。

２．前記プロンプトが、前記第２のユーザーに、発話データとして受け取られる発話を提供するように要求する質問を含み、前記質問が、発話トレーニングプロセスにより使用される複数の所定の質問から選択される、実施形態１に記載のコンピュータ実装方法。

３．前記第２のユーザーによって提供される追加の発話に少なくとも部分的に基づいて、前記第２のユーザーを以前の発話データと関連付けることと、前記以前の発話データに少なくとも部分的に基づいて前記第２の属性を作成して、前記第２のユーザーとの後続の音声対話の間に前記第２のユーザープロファイルを認識することとをさらに含む、実施形態１または２のいずれかに記載のコンピュータ実装方法。

４．前記第２の属性に少なくとも部分的に基づいて音声認識スコアを作成することと、発話トレーニングのために前記第２のユーザーからの追加の発話を得るように前記第２のユーザーに別のプロンプトを提供するかどうかを判断するために、前記音声認識スコアを閾値音声スコアに比較することと、前記音声認識スコアを前記閾値音声スコアに前記比較することに少なくとも部分的に基づいて、前記第２のユーザーから追加の発話を要求するために前記別のプロンプトを前記第２のユーザーに提供することとをさらに含む、実施形態１、２、または３のいずれかに記載のコンピュータ実装方法。

５．前記第２のユーザーのための前記特権のグループと関連付けられた期限切れを受け取ることであって、前記期限切れの経過が、前記特権のグループを前記第２のユーザープロファイルから取り消させる、前記受け取ることをさらに含む、実施形態１、２、３、または４のいずれかに記載のコンピュータ実装方法。

６．前記第１の特権を取り消すためのコマンドを含む前記第１のユーザーからの第３の発話に応えて前記第２のユーザープロファイルの前記特権のグループと関連付けられた第１の特権を取り消すこと、または前記第２の特権を追加するためのコマンドを含む前記第１のユーザーからの第３の発話に応えて前記第２のユーザープロファイルに第２の特権を追加することのうちの少なくとも１つをさらに含む、実施形態１、２、３、４、または５のいずれかに記載のコンピュータ実装方法。

７．１つ以上のプロセッサと、コンピュータ実装命令を記憶するメモリとを含むシステムであって、前記コンピュータ実装命令が実行されるとき、管理特権を有する第１のユーザープロファイルと関連付けられる第１のユーザーから第１の発話を受け取る行為であって、前記第１の発話が、特権及び前記特権を獲得するための第２のユーザーの少なくとも識別を含む、前記受け取る行為と、少なくとも前記第２のユーザー及び前記特権を決定するために前記第１の発話のコンテンツを処理する行為と、前記第２のユーザーから第２の発話を受け取る行為と、前記第２の発話から引き出される第２の属性を決定する行為であって、前記第２の属性が前記第２のユーザーと関連付けられた第２のユーザープロファイルと関連付けられた後続の発話の識別を可能にする、前記決定する行為と、前記第２の属性及び前記特権を前記第２のユーザープロファイルと関連付ける行為とを前記１つ以上のプロセッサに実行させる、前記システム。

８．前記コンピュータ実装命令が、前記１つ以上のプロセッサに、前記新しいユーザーにプロンプトを提供する行為であって、前記プロンプトが、前記第２のユーザーに、発話データとして受け取られる発話を提供するように要求する質問を含み、前記質問が、発話トレーニングプロセスにより使用される複数の所定の質問から選択される、前記提供する行為をさらに実行させる、実施形態７に記載のシステム。

９．前記第１の発話がグループの名称を含み、前記グループが少なくとも前記特権を含む、実施形態７または８のいずれかに記載のシステム。

１０．前記コンピュータ実装命令が、前記１つ以上のプロセッサに、前記第２のユーザーによって提供される追加の発話に少なくとも部分的に基づいて、前記第２のユーザーを以前の発話データと関連付ける行為と、前記以前の発話データに少なくとも部分的に基づいて前記第２の属性を作成して、前記第２のユーザーとの後続の音声対話の間に前記第２のユーザープロファイルを認識する行為とをさらに実行させる、実施形態７、８、または９のいずれかに記載のシステム。

１１．前記コンピュータ実装命令が、前記１つ以上のプロセッサに、前記第２の属性に少なくとも部分的に基づいて音声認識スコアを作成する行為と、前記音声認識スコアの閾値音声スコアとの比較に応えて、発話トレーニングのために前記第２のユーザーから追加の発話を得るように前記第２のユーザーにプロンプトを提供することを決定する行為とをさらに実行させる、実施形態７、８、９、または１０のいずれかに記載のシステム。

１２．前記コンピュータ実装命令が、前記１つ以上のプロセッサに、前記第２のユーザーのための前記特権と関連付けられた条件を受け取る行為と、前記第２のユーザーとの後続の音声対話に応えて前記条件を実施する行為とをさらに実行させる、実施形態７、８、９、１０、または１１のいずれかに記載のシステム。

１３．前記コンピュータ実装命令が、前記１つ以上のプロセッサに、少なくとも１つの特権を取り消すためのコマンドを含む前記第１のユーザーからの第３の発話に応えて前記第２のユーザーと関連付けられた前記少なくとも１つの特権を取り消すための行為をさらに実行させる、実施形態７、８、９、１０、１１、または１２のいずれかに記載のシステム。

１４．前記コンピュータ実装命令が、前記１つ以上のプロセッサに、少なくとも１つの特権を追加するためのコマンドを含む前記第１のユーザーからの第３の発話に応えて前記第２のユーザープロファイルに前記少なくとも１つの特権を追加する行為をさらに実行させる、実施形態７、８、９、１０、１１、１２、または１３のいずれかに記載のシステム。

１５．前記第１の発話が、少なくとも前記特権を含む第１のグループの名称を含み、前記第１のグループが、前記第２のユーザープロファイルに与えるために利用可能な特権の第２のグループとは異なる、実施形態７、８、９、１０、１１、１２、１３、または１４のいずれかに記載のシステム。

１６．前記コンピュータ実装命令が、前記１つ以上のプロセッサに、ボイスオーバーインターネットプロトコルを使用し、前記第２のユーザーと関連付けられたデバイスに接続する行為をさらに実行させ、前記第２のユーザーから第２の発話を前記受け取ることが、前記ボイスオーバーインターネットプロトコルを使用し、受け取られる、実施形態７、８、９、１０、１１、１２、１３、１４、または１５のいずれかに記載のシステム。

１７．方法であって、管理特権を有する第１のユーザープロファイルと関連付けられる第１のユーザーから第１の発話を受け取ることであって、前記第１の発話が、特権及び前記特権を獲得するための第２のユーザーの少なくとも識別を含む、前記受け取ることと、前記第１の発話の第１の属性を分析して、前記第１の発話が前記第１のユーザープロファイルと関連付けられていると判断することと、前記第１の発話の処理に少なくとも部分的に基づいて前記第２のユーザー及び前記特権を決定することと、前記第２のユーザーから第２の発話を受け取ることと、前記第２の発話から引き出される第２の属性を決定することであって、前記第２の属性が、前記第２のユーザーと関連付けられた第２のユーザープロファイルと関連付けられた後続の発話の識別を可能にする、前記決定することと、前記第２の属性及び前記特権を前記第２のユーザープロファイルと関連付けることとを含む、前記方法。

１８．前記第２の属性に少なくとも部分的に基づいて音声認識スコアを作成することと、発話トレーニングのために前記第２のユーザーからの追加の発話を得るように前記第２のユーザーに別のプロンプトを提供するかどうかを判断するために、前記音声認識スコアを閾値音声スコアに比較することとをさらに含む、実施形態１７に記載の方法。

１９．第１の特権を取り消すためのコマンドを含む前記第１のユーザーからの第３の発話に応えて前記第２のユーザープロファイルの前記特権のグループと関連付けられた前記第１の特権を取り消すこと、または第２の特権を追加するためのコマンドを含む前記第１のユーザーからの第３の発話に応えて前記第２のユーザープロファイルに前記第２の特権を追加することのうちの少なくとも１つをさらに含む、実施形態１７または１８のいずれかに記載の方法。

２０．前記第２のユーザーのための前記特権と関連付けられた条件を受け取ることと、前記第２のユーザーとの後続の音声対話に応えて前記条件を実施することとをさらに含む、実施形態１７、１８、または１９のいずれかに記載の方法。

結論
本主題は、構造的特徴及び／または方法論的行為に特有の言語で説明されてきたが、添付の特許請求の範囲で定義される本主題が必ずしも説明した特定の特徴または行為に限定されないことを理解されたい。むしろ、特定の特徴及び行為は、特許請求の範囲を実施する例示的形態として開示される。

Claims

管理特権を有する第１のユーザープロファイルと関連付けられる第１のユーザーから第１の発話を受け取るステップであって、前記第１の発話は、特権のグループの識別及び前記特権のグループに含まれる特権を獲得する第２のユーザーの識別を少なくとも含む、ステップと、
前記第１の発話の第１の属性を分析して、前記第１の発話が前記第１のユーザープロファイルと関連付けられていることを判断するステップと、
前記第１の発話の処理に少なくとも部分的に基づいて、前記第２のユーザー及び前記特権のグループを決定するステップと、
前記第２のユーザーから発話を要求する第１のプロンプトを提供するステップと、
前記第２のユーザーから第２の発話を受け取るステップと、
前記第２のユーザーと関連付けられた以前のやり取りがあるかどうかを前記第２のユーザーに問い合わせる第２のプロンプトを提供して、前記第２のユーザーから第３の発話を受け取るステップと、
前記第３の発話が以前のやり取りがないことを示す場合に前記第２のユーザーに対する１つまたは複数の問い合わせを終了して、前記第２の発話から引き出される第２の属性を決定するステップであって、前記第２の属性は、前記第２のユーザーと関連付けられた後続の発話の識別を可能にする、ステップと、
前記第２の属性及び前記特権のグループを第２のユーザープロファイルと関連付けるステップと
を備えるコンピュータ実装方法。
前記第１のプロンプトが、前記第２のユーザーに、発話データとして受け取られる発話を提供するように要求する質問を含み、前記質問が、発話トレーニングプロセスにより使用される複数の所定の質問から選択されることを特徴とする請求項１に記載のコンピュータ実装方法。
前記第２のユーザーによって提供される発話に少なくとも部分的に基づいて前記第２のユーザーを以前の発話データと関連付けるステップであって、前記第２のユーザーによって提供される前記発話は、前記第２のユーザーに関する以前の家の住所または個人識別情報と関連付けられる、ステップと、
前記以前の発話データに少なくとも部分的に基づいて前記第２の属性を作成して、前記第２のユーザーとの後続の音声対話の間に前記第２のユーザープロファイルを認識するステップと
をさらに備えることを特徴とする請求項１または２に記載のコンピュータ実装方法。
前記第２の属性に少なくとも部分的に基づいて音声認識スコアを作成するステップと、
発話トレーニングのために前記第２のユーザーからの追加の発話を得るように前記第２のユーザーに別のプロンプトを提供するかどうかを判断するために、前記音声認識スコアを閾値音声スコアに比較するステップと、
前記音声認識スコアを前記閾値音声スコアに前記比較することに少なくとも部分的に基づいて、前記第２のユーザーから追加の発話を要求するために前記別のプロンプトを前記第２のユーザーに提供するステップと
をさらに備えることを特徴とする請求項１、２、または３のいずれか一項に記載のコンピュータ実装方法。
前記第２のユーザーのための前記特権のグループと関連付けられた期限切れを受け取るステップであって、前記期限切れの経過が、前記特権のグループを前記第２のユーザープロファイルから取り消させる、ステップをさらに備えることを特徴とする請求項１、２、３、または４のいずれか一項に記載のコンピュータ実装方法。
第１の特権を取り消すためのコマンドを含む前記第１のユーザーからの第４の発話に応えて前記第２のユーザープロファイルの前記特権のグループと関連付けられた前記第１の特権を取り消すステップ、または
第２の特権を追加するためのコマンドを含む前記第１のユーザーからの第４の発話に応えて前記第２の特権を前記第２のユーザープロファイルに追加するステップ
のうちの少なくとも１つをさらに備えることを特徴とする請求項１、２、３、４、または５のいずれか一項に記載のコンピュータ実装方法。
１つ以上のプロセッサと、
実行されると前記１つ以上のプロセッサに、
管理特権を有する第１のユーザープロファイルと関連付けられる第１のユーザーから第１の発話を受け取り、前記第１の発話は、特権の識別及び前記特権を獲得する第２のユーザーの識別を少なくとも含み、
少なくとも前記第２のユーザー及び前記特権を決定するために前記第１の発話のコンテンツを処理し、
前記第２のユーザーから第２の発話を受け取り、
前記第２のユーザーから第３の発話を受け取り、前記第３の発話は、前記第２のユーザーと関連付けられた以前のやり取りに関し、
前記第３の発話が以前のやり取りがないことを示す場合に前記第２のユーザーに対する１つまたは複数の問い合わせを終了して、前記第２の発話から引き出される第２の属性を決定し、前記第２の属性は、前記第２のユーザーと関連付けられた第２のユーザープロファイルと関連付けられた後続の発話の識別を可能にし、
前記第２の属性及び前記特権を前記第２のユーザープロファイルと関連付ける
動作を行わせるコンピュータ実装命令を記憶するメモリと
を備えたシステム。
前記コンピュータ実装命令は、前記１つ以上のプロセッサに、
前記第２のユーザーにプロンプトを提供し、前記プロンプトは、発話データとして受け取られる発話を提供するように前記第２のユーザーに要求する質問を含み、前記質問は、発話トレーニングプロセスにより使用される複数の所定の質問から選択される動作をさらに行わせることを特徴とする請求項７に記載のシステム。
前記コンピュータ実装命令は、前記１つ以上のプロセッサに、
前記第２のユーザーによって提供される発話に少なくとも部分的に基づいて前記第２のユーザーを以前の発話データと関連付け、前記第２のユーザーによって提供される前記発話は、前記第２のユーザーに関する以前の家の住所または個人識別情報と関連付けられ、
前記以前の発話データに少なくとも部分的に基づいて前記第２の属性を作成して、前記第２のユーザーとの後続の音声対話の間に前記第２のユーザープロファイルを認識する
動作をさらに行わせることを特徴とする請求項７または８に記載のシステム。
前記コンピュータ実装命令は、前記１つ以上のプロセッサに、
前記第２の属性に少なくとも部分的に基づいて音声認識スコアを作成し、
前記音声認識スコアの閾値音声スコアとの比較に応えて、発話トレーニングのために前記第２のユーザーから追加の発話を得るように前記第２のユーザーにプロンプトを提供することを決定する
動作をさらに行わせることを特徴とする請求項７、８、または９のいずれか一項に記載のシステム。
前記コンピュータ実装命令は、前記１つ以上のプロセッサに、
前記第２のユーザーのための前記特権と関連付けられた条件を受け取り、
前記第２のユーザーとの後続の音声対話に応えて前記条件を実施する
動作をさらに行わせることを特徴とする請求項７、８、９、または１０のいずれか一項に記載のシステム。
前記コンピュータ実装命令は、前記１つ以上のプロセッサに、
少なくとも１つの特権を取り消すためのコマンドを含む前記第１のユーザーからの第４の発話に応えて前記第２のユーザーと関連付けられた少なくとも前記１つの特権を取り消す動作をさらに行わせることを特徴とする請求項７、８、９、１０、または１１のいずれか一項に記載のシステム。
前記コンピュータ実装命令は、前記１つ以上のプロセッサに、
少なくとも１つの特権を追加するためのコマンドを含む前記第１のユーザーからの第４の発話に応えて前記第２のユーザープロファイルに少なくとも前記１つの特権を追加する動作をさらに行わせることを特徴とする請求項７、８、９、１０、１１、または１２のいずれか一項に記載のシステム。
前記第１の発話が、少なくとも前記特権を含む第１のグループの名称を含み、前記第１のグループが、前記第２のユーザープロファイルに与えるために利用可能な特権の第２のグループとは異なることを特徴とする請求項７、８、９、１０、１１、１２、または１３のいずれか一項に記載のシステム。
前記コンピュータ実装命令は、前記１つ以上のプロセッサに、
ボイスオーバーインターネットプロトコルを使用して前記第２のユーザーと関連付けられたデバイスに接続し、前記第２のユーザーから前記第２の発話を前記受け取ることは、前記ボイスオーバーインターネットプロトコルを使用して受け取られる動作さらに行わせることを特徴とする請求項７、８、９、１０、１１、１２、１３、または１４のいずれか一項に記載のシステム。