CN112313930A

CN112313930A - 管理保持的方法和装置

Info

Publication number: CN112313930A
Application number: CN201880094616.6A
Authority: CN
Inventors: 卡珊德拉·夏; 路易斯·卡洛斯·科博鲁斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2021-02-02
Anticipated expiration: 2038-06-28
Also published as: KR102345616B1; US20240340373A1; KR20220002703A; WO2020005260A1; KR20210011021A; KR20220093256A; JP2021530130A; JP7297797B2; JP2023126219A; US12015736B2; CN112313930B; US11677871B2; US20210099575A1; EP4195640A1; US20200344351A1; EP3785426A1; US20230308542A1; KR102414159B1; KR102535790B1; EP3785426B1

Abstract

当语音通信会话处于保持状态时，自动监视会话，以确定会话何时不再处于保持状态。当确定会话不再处于保持状态时，渲染发起会话的主叫用户能够感知并且指示会话的保持状态已经停止的用户接口输出。在一些实现中，可以监视会话的音频流，以基于对音频流的处理来确定保持状态的候选结束。作为响应，将响应索求信号注入音频的传出部分。可以针对响应索求信号的响应而进一步监视音频流(如果有的话)。可以处理响应(如果有的话)，以确定保持状态的结束是否是保持状态的实际结束。

Description

管理保持的方法和装置

背景技术

人类可以使用各种客户端设备参与语音通信会话(例如电话呼叫)。当个人(在本文中称为“呼叫者”或“用户”)呼叫特定号码并且当前没有人员可以接听电话时，许多组织可以将呼叫者置于保持状态。保持状态指示呼叫者正在等待与有生命的人员(在此也称为“用户”)进行交互。在用户在处于保持的等待时会经常为用户播放音乐。另外，音乐可能会被各种人类录音的语音打断，这些语音可以提供附加信息，诸如有关用户呼叫的组织的信息(例如，该组织的网站、该组织的正常营业时间等)。另外，自动语音可以使用估计的剩余等待时间来更新用户，以指示用户将继续处于保持多长时间。

当呼叫处于保持时，呼叫者必须密切监视呼叫以确定诸如服务代表的第二用户何时在呼叫中变为活动。例如，当处于保持的音乐切换到人类语音时，呼叫者必须确定他们正在听到的语音是预录音的语音还是有生命的服务代表。为了使得能够紧密监视经由客户端设备发起的处于保持的的呼叫，呼叫者可以调高呼叫音量，将呼叫的音频输出置于免提电话模态中和/或在呼叫处于保持时反复激活客户端设备的屏幕(以检查以确保呼叫仍活动并处于保持)。呼叫者的那些和/或其他处于保持的监视活动可能会增加客户端设备的功耗。例如，这样的活动会增加用于呼叫的移动电话的功耗，这会导致移动电话电池的电量快速消耗。另外，那些和/或其他处于保持的监视活动可以要求呼叫者在客户端设备上进行大量输入，诸如用于增加音量、激活免提电话模态和/或激活屏幕的输入。

发明内容

本文所述的实现涉及在会话处于保持状态时对语音通信会话的自动监视，以确定会话何时不再处于保持状态。当确定会话不再处于保持状态时，将渲染对发起该会话的主叫用户而言能够感知的用户接口输出，该用户接口输出指示该会话的保持状态已经停止。在各种实现中，可以使用(例如，至少部分地在发起语音通信会话的客户端设备上操作的)处于保持的客户端来监视会话的音频流的至少传入部分以确定会话何时不再处于保持状态。在那些各种实现中的一些中，处于保持的客户端基于音频流的处理来确定保持状态的候选结束。保持状态的候选结束可以基于检测音频流中一个或多个事件的发生。作为一些非限制性示例，保持状态的候选结束可以基于检测音频流中的转变(例如，任何转变或从“处于保持的音乐”到人类语音的转变)，检测任何人类语音(例如，使用语音活动检测)，检测新的人类语音(例如，使用说话者分割(speaker diarization))，检测某些词项和/或短语(例如，“hello(你好)”、“hi(嗨)”和/或主叫用户的姓名)的发生和/或其他事件。

在那些各种实现的某些版本中，响应于检测到保持状态的候选结束，处于保持的客户端使得响应索求信号注入到音频流的传出部分(以便由被叫方“听到”它)。响应索求信号可以是讲出一个或多个单词的录音的人类语音或讲出一个或多个单词的合成生成的语音。一个或多个单词可以是例如“Hello”、“Are you there(你在那儿吗)”、“Hi,are you onthe line(你好，你在通话中吗)”等。处于保持的客户端可以进一步监视对响应索求信号的响应(如果有)并确定响应是否指示保持状态的候选结束是保持状态的实际结束。如果是这样，则处于保持的客户端可以使发起会话的主叫用户能够感知的并且指示该会话的保持状态已经停止(即，语音通信会话不再处于保持)的用户接口输出被渲染。如果不是，则处于保持的客户端可以继续监视保持状态的候选结束的另一个发生。在一些实现中，处于保持的客户端通过以下来确定响应是否指示保持状态的候选结束是保持状态的实际结束：基于确定响应是人类语音的可能性；基于将响应转换为文本(例如，使用话音到文本处理器)并确定文本是否响应于响应索求信号；基于确定该响应不是预录音的语音(例如，包括与语音通信会话的预录音语音的语音特性不同的语音特性)；和/或，基于其他一个或多个标准。处于保持的客户端可以可选地选择使用经训练的机器学习模型来确定响应是人类语音的可能性。

以这些和其他方式，处于保持的客户端可以监视处于保持的会话的音频流的传入部分，并动态确定何时提供响应索求信号。此外，处于保持的客户端可以在确定会话的保持状态是否已经停止时利用对响应索求信号的响应(如果有的话)。可以执行由处于保持的客户端进行的这些动作，而无需来自主叫用户的任何干预，并且而无需使客户端设备必需在听觉上渲染语音通信会话的音频流。此外，如本文所述，在各种实现中，可以自动发起处于保持的客户端(而无需任何用户输入)或以最小的用户输入(例如，通过单击图形元素或单个讲出的命令)来发起处于保持的客户端。

语音通信会话可以利用各种协议和/或基础结构，诸如互联网语音协议(VOIP)、公共交换电话网(PSTN)、专用小交换机(PBX)、各种视频和/或音频会议服务的任何一种。在各种实现中，语音通信会话在主叫用户(发起语音通信会话)的客户端设备与被叫方的一个或多个设备之间。语音通信会话使得实现主叫用户与被叫方之间的双向音频通信。语音通信会话可以是主叫用户的客户端设备与被叫方的设备之间的直接对等会话，和/或可以通过各种服务器、网络和/或其他资源进行路由。语音通信会话可以在各种设备之间发生。例如，语音通信会话可以在以下之间：主叫用户的客户端设备(例如，移动电话、独立的交互式扬声器、平板电脑、膝上型计算机)与被叫方的座机电话；主叫用户的客户端设备和被叫方的客户端设备；主叫用户的客户端设备和被叫方的PBX；等等。

在本文描述的一些实现中，可以响应于客户端设备检测到(由客户端设备发起的)语音通信会话已经被置于处于保持来发起至少部分在客户端设备上操作的处于保持的客户端。诸如移动电话之类的客户端设备可以检验语音通信会话的音频流，并以各种方式确定该会话处于保持。作为一个示例，客户端设备可以基于在音频流的传入部分中检测到诸如典型的“处于保持的音乐”的音乐来确定会话处于保持。例如，音频流的传入部分可以被处理并且与已知处于保持的音乐列表进行比较(例如，音频流的音频特性可以与已知处于保持的音乐的音频特性进行比较)以确定音频流的传入部分是否是典型的处于保持的音乐。这样的列表可以本地存储在客户端设备上和/或客户端设备可以经由网络(例如，蜂窝网络)连接到的远程服务器上。附加地或替代地，音频流的传入部分可以被处理并且与已知处于保持的语音列表进行比较。作为另一个示例，客户端设备可以基于检测到音频流的传入部分中的任何音乐来确定会话处于保持。作为又一个示例，客户端设备可以基于将会话的拨号号码与已知使呼叫者置于保持的电话号码列表进行比较来附加或替代地确定会话处于保持。例如，如果用户呼叫“Hypothetical Utility Company(虚拟公用事业公司)”，则客户端设备可以将与“Hypothetical Utility Company”相关联的电话号码存储为通常在用户可以与有生命代表讲话之前将呼叫者置于处于保持的号码。此外，已知使呼叫者置于处于保持的电话号码列表可以具有该号码使用的已知处于保持的音乐和/或已知处于保持的语音的对应列表。附加地或替代地，用户可以将通常将所述用户置于处于保持的电话号码提供给客户端设备。在用户许可下，这些用户提供的电话号码可以跨客户端设备共享，并且可以在其他客户端设备上添加到通常将人处于保持的号码列表中。

在一些实现中，用户可以向客户端设备指示他们已经被置于处于保持。在那些实现的一些版本中，客户端设备可以检测到用户可能处于保持，并提供用户接口输出(例如，可选的图形元素和/或可听提示)，其提示用户是否要发起处于保持的客户端。如果用户以肯定的用户接口输入(例如，对可选的图形元素的选择和/或讲出的肯定输入)作出响应，则可以发起处于保持的客户端。在那些实现的一些其他版本中，用户可以发起处于保持的客户端，而无需客户端设备检测到用户可能处于保持和/或无需客户端设备提示用户。例如，用户可以提供讲出的命令(例如，“Assistant,initiate on hold monitoring(助手，发起处于保持监视)”)以发起处于保持的客户端和/或可以选择可选的图形元素，所述可选的图形元素的存在并不取决于确定用户可能处于保持。在许多实现中，客户端设备可以监视整个语音通信会话的音频流，并检测用户是否已在会话开始以外的某个点被置于处于保持。例如，用户可以与代表进行交互，该代表在将会话转移给第二代表时将用户置于处于保持。注意，在各种实现中，处于保持的客户端可以在后台操作以检测语音通信会话何时已经被置于处于保持，并且可以被“发起”(例如，转变为“活动”状态)，其中它然后执行本公开的其他方面(例如，检测何时语音通信会话不再处于保持)。

当发起处于保持的客户端时，处于保持的客户端可以监视语音通信会话的音频流的至少传入部分，以确定何时语音通信会话不再处于保持状态。当会话不再处于保持状态时，主叫用户可以诸如公司代表、医生办公室的接待员等的与有生命的人员进行交互。可以在没有来自用户的直接交互的情况下执行使用处于保持的客户端的语音通信会话的音频流的监视(例如，用户无需在会话处于保持时收听会话)。

在一些实现中，处于保持的客户端可以确定何时将处于保持的音乐改变为人类语音。此人类语音有时可以是人员的录音，因此，处于保持的客户端将确定是否正在播放录音或者是否有生命的人员已加入了会话。在各种实现中，处于保持的客户端可以向检测到的语音询问问题(在此称为“响应索求信号”)，并查看语音是否对该问题作出响应。例如，当在会话的音频信号中检测到人类语音时，处于保持的客户端可询问“Are you there？”并且查看语音是否响应于问题。对处于保持的客户端发起的问题的适当响应指示保持结束，并且第二人员已加入会话。在其他实现中，该问题被忽略，并且处于保持的客户端可以确定第二人员尚未加入会话。例如，如果处于保持的客户端发送“Is anyone there？(有人在吗？)”作为音频信号的输入且未收到响应(例如，相反，处于保持的音乐继续播放)，它可以指示语音是录音并且会话仍处于保持。

在一些实现中，“保持事件的候选结束”可用于确定保持何时可能结束。在许多实现中，该保持事件的候选结束可以发起处于保持的客户端在会话的音频通道上发送响应索求信号以查看语音是否为人类。可以通过多种方式来检测该保持事件的候选结束。例如，客户端设备可以检测音乐何时停止播放和/或人员何时开始讲话。可以使用包括离散傅立叶变换(DFT)在内的各种音频指纹过程来确定从音乐到人员说话的改变。DFT可以监视处于保持的会话的块，并确定何时检测到与以前的块相比的来自一个块的足够的改变(例如，检测到在音乐停止播放时的块并在附加块中检测到从音乐到人类语音的变化)。在各种实现中，可以训练一个或多个机器学习模型并将其用于确定处于保持的会话何时从音频变为人类语音。

在许多实现中，用于确定何时通过音频信号询问问题(有时称为“响应索求信号”)的阈值很低，并且由于询问问题花费计算资源很少，因此处于保持的客户端会经常询问问题(如果人类当前不在会话的另一端，则不会造成过错)。在那些实现中的一些中，第一机器学习模型可以用于检测保持事件的候选结束并确定何时询问问题作为对音频信号的输入。确定是否检测到响应可能需要更多的计算资源，并且在各种实现中，第二机器学习模型(除了第一机器学习模型之外)可以确定人员是否已响应于该问题。用于检测人员是否已响应于响应索求信号的第二机器学习模型可以本地存储在客户端设备上和/或存储在客户端设备外部，例如存储在一个或多个通常称为“云”的远程计算系统上。在一些实现中，处于保持的客户端可以使用单个机器学习模型来组合处理处于保持的会话的所有部分。在那些实现中的一些实现中，机器学习模型可用于处理音频流并提供指示会话处于保持的可能性的输出。在那些实现的一些版本中，可以使用第一更容易满足的可能性的阈值来确定保持状态的候选结束，而第二更难满足的可能性的阈值可以用来确定该保持状态的实际结束。

在各种实现中，一个或多个机器学习模型可以利用音频流作为输入，并且一个或多个模型可以生成各种输出，包括语音通信会话已被置于处于保持的确定，保持已经潜在地结束并且应该将响应索求信号作为语音通信会话的音频流的输入发送的确定和/或语音通信会话处于保持已结束并且不必发送响应索求信号的确定。在一些实现中，单个机器学习模型可以为处于保持的客户端执行所有音频流分析。在其他实现中，可以将不同机器学习模型的输出提供给处于保持的客户端。附加地或可替代地，在一些实现中，处于保持的客户端的部分可以向一个或多个机器学习模型提供输入和/或从一个或多个机器学习模型接收输出，而处于保持的客户端的部分不与任何机器学习模型交互。

附加地或替代地，一些语音通信会话在处于保持时可以口头指示估计的剩余保持时间。在许多实现中，处于保持的客户端可以通过分析语音通信会话的音频流内的自然语言来确定估计的剩余保持时间，并且可以向用户指示估计的剩余保持时间。在一些这样的实现中，估计的剩余保持时间可以作为具有显示屏幕的客户端设备上的对话框渲染给用户，诸如推送弹出消息，该消息表达“Your on hold call with"Hypothetical WaterCompany"has provided an updated remaining estimated hold of 10minutes(您与“假设水公司”的处于保持的呼叫已提供10分钟的更新后的剩余估计保持)。”该消息可以以多种方式出现在客户端设备上，包括作为处于保持的客户端的一部分、作为屏幕上的新弹出窗口、作为文本消息等。此外，客户端设备可以另外或替代地使用与客户端设备关联的一个或多个扬声器将该信息渲染给用户作为口头指示。在一些实现中，处于保持的客户端可以学习用户与已知号码花费在保持上的平均时间，并在更具体的估计未知时向用户供应平均保持时间(例如，具有倒计时)。当使用音频流作为输入时，与处于保持的客户端关联的机器学习模型可以学习何时已在音频流中指示估计的剩余保持长度和/或学习已知号码的估计保持时间。

机器学习模型可以包括前馈神经网络、递归神经网络(RNN)、卷积神经网络(CNN)等。可以使用具有与给定输入相对应的标记输出的监督的训练数据集来训练机器学习模型。在一些实现中，先前录音的处于保持中的语音通信会话的集的标记音频流可以用作机器学习模型的训练集。

在各种实现中，处于保持的客户端可以利用说话者分割，该说话者分割可以对会话的音频流进行分区以检测单个语音。说话者分割是根据说话者身份将输入音频流分成同类段的过程。它回答了在多讲话者环境中“谁在何时说话”的问题。例如，说话者分割可以被用来识别输入音频流的第一段可归因于第一人类说话者(而无需特别地识别第一人类说话者是谁)，输入音频流的第二段可归因于不同的第二人类说话者(而无需特别识别第一人类说话者是谁)，输入音频流的第三段可归因于第一人类说话者，等等。当检测到特定语音时，处于保持的客户端可以查询语音以查看所述处于保持的客户端是否收到响应。如果语音未响应于处于保持的客户端的问题(例如“Hello,are you there？(您好，您在吗？)”)，则处于保持的客户端可以确定所识别的语音是录音，而不是保持结束的指示。处于保持的客户端可以将特定语音作为语音的录音来学习，并且如果在语音通信会话处于保持期间再次听到该语音，则该语音将被忽略。例如，可以识别特定语音的语音特性和/或特定语音说出的单词，并且在语音通信会话中的这些语音特性和/或单词的将来发生可以被忽略。换句话说，当人员处于保持时的很多时候，为用户播放的录音将是一个循环，其包括被同一录音(或多个录音之一)打断的音乐。如果语音通信会话处于保持循环回到相同的所识别的语音，则在此处于保持的录音循环中被识别为录音的语音将被忽略(即，不再利用问题再次提示相同的语音)。在一些这样的实现中，所录音的语音可以作为已知的语音录音跨许多客户端设备共享。

在一些实现中，在音频信号上检测到的内容将是不需要响应索求信号的人类用户在通话中这样的强指示符，。例如，如果处于保持的客户端检测到诸如呼叫者的名字、呼叫者的姓氏、呼叫者的全名等的关键字和/或短语列表中的一个，则处于保持的客户端可以确定有生命的人类用户在通话中而无需通过语音通信会话的音频流询问任何问题。附加地或可替代地，服务代表在与用户交互时经常遵循脚本。处于保持的客户端可以监视来自特定公司的服务代表的典型脚本化问候，以识别保持结束，而无需通过音频流发送问题。例如，假设用户以特定的号码呼叫“Hypothetical Utility Company”。处于保持的客户端可以学习在“Hypothetical Utility Company”处的服务代表在服务代表回答语音通信会话时使用的脚本化响应。换句话说，处于保持的客户端可学习在“Hypothetical UtilityCompany”处的服务代表在保持的结束后以诸如“Hello,my name is[servicerepresentative's name]and I work with Hypothetical Utility Company.How may Ihelp you today？(您好，我叫[服务代表的名字]，并且我在假设公用事业公司工作。今天我可以如何帮助您？”)的脚本化消息开始与用户的语音通信会话。检测脚本化消息可以触发结束处于保持的客户端，而无需进一步查询语音并查看其是否为有生命的第二用户。

一旦处于保持的客户端检测到保持结束，在各种实现中，处于保持的客户端可以将脚本化消息发送给现在也在会话中处于活动状态的第二用户。例如，处于保持的客户端可以发送表达“Hello,I represent Jane Doe.I am notifying her and she will behere momentarily.(你好，我代表简多伊。我正在通知她，并且她会很快到这里。)”的消息。该消息有助于在通知发起会话的用户保持的结束时将第二用户保持在通话中。附加地或替代地，语音通信会话可以被切换到另一客户端，而不是切换回用户以与会话交互。在一些这样的实现中，另一客户端可以使用关于用户的已知信息和/或用户提供给另一客户端的关于特定语音通信会话的信息来与语音通信会话进行交互。例如，用户可以向另一客户端提供关于他们何时想要在“Hypothetical Fancy Restaurant(假设高级餐厅)”预订晚餐的信息，并且另一客户端可以与附加有生命的人类用户交互以为该用户进行晚餐预订。

在许多实现中，当处于保持的客户端确定保持状态已经结束时(即，保持结束并且人类在通话中)，通知发起会话的用户。在一些实现中，用户可以选择在发起处于保持的客户端的同时或附近他们想要如何被通知。在其他实现中，用户可以选择他们想要如何被通知作为在处于保持的客户端中的设置。可以使用客户端设备本身通知用户。例如，客户端设备可以通过使客户端设备渲染铃声、使客户端设备振动、使客户端设备提供讲出的输出(例如，“you are no longer on hold(您不再处于保持)”)等来通知用户。例如，当保持结束时客户端设备可以振动，并且用户可以按下客户端设备上的按钮以开始与会话进行交互。

附加地或替代地，处于保持的客户端可以通过例如在同一网络上共享和/或形成受用户控制的客户端设备的相同协调“生态系统”的部分的一个或多个其他客户端设备和/或外围设备(例如，物联网(loT)设备)来通知用户。处于保持的客户端可以通过设备拓扑知悉网络上的其他设备。例如，如果处于保持的客户端知道用户在带有智能灯的房间中，则用户可以选择通过改变智能灯的状态(例如，闪光灯开启和关闭、调暗灯、增加灯强度、改变灯颜色等)来被通知。作为另一示例，与诸如智能电视之类的显示屏幕接涉的用户可以选择通过出现在智能电视显示屏幕上的消息来被通知。换句话说，用户可以在会话处于保持期间观看电视，并且可以由处于保持的客户端经由其电视被通知保持结束，因此用户可以重新进入会话。作为又一示例，可以经由移动电话进行语音通信会话，并且可以经由一个或多个智能扬声器和/或其他客户端设备来渲染通知。在各种实现中，用于语音通信会话的客户端设备可以是移动电话。替代客户端设备可以用于语音通信会话。例如，用于语音通信会话的客户端设备可以包括具有为用户进行语音通信会话的能力的专用自动化助手设备(例如，智能扬声器和/或其他专用助手设备)。

本文公开的实现可以通过减少客户端设备与保持的语音通信会话交互的时间来增强客户端设备的可用性。通过在计算设备的后台运行处于保持的客户端处理而不是客户端设备与处于保持中的语音通信会话进行完全交互，可以节省计算资源。例如，许多用户将通过与客户端设备关联的扬声器输出处于保持中的语音通信会话。与在扬声器上输出会话相比，语音通信会话的后台监视需要客户端设备进行较少的计算处理。附加地或可替代地，在与通过与客户端设备相关联的一个或多个扬声器输出处于保持中的语音通信会话(其可以还包括当客户端设备靠近他或她的耳朵时用户可以听到的音频流的输出以及外部扬声器输出的处于保持中的语音通信会话的音频流)相比时，在客户端设备的后台执行保持过程可以节省客户端设备的电池寿命。

提供以上内容作为本文公开的各种实现的概述。本文提供了关于那些各种实现以及附加实现的附加细节。

在一些实现中，提供了一种由一个或多个处理器实现的方法，该方法包括检测语音通信会话处于保持状态。语音通信会话由主叫用户的客户端设备发起，并且检测语音通信会话处于保持状态是至少部分地基于语音通信会话的音频流。该方法还包括在客户端设备上发起处于保持的客户端。发起处于保持的客户端是在语音通信会话期间，并且是基于检测到语音通信会话处于保持状态。该方法还包括使用处于保持的客户端针对保持状态的候选结束而监视语音通信会话的音频流。监视语音通信会话的音频流是在没有无需来自主叫用户的直接交互的情况下发生的。该方法还包括基于所述监视来检测保持状态的候选结束。该方法还包括：响应于检测到保持状态的候选结束：从客户端设备发送响应索求信号作为对语音通信会话的音频流的输入；针对响应索求信号的响应而监视语音通信会话的音频流；以及确定对响应索求信号的响应指示保持状态的候选结束是保持状态的实际结束。保持状态的实际结束指示人类用户可用于在语音通信会话中与主叫用户进行交互。该方法还包括响应于确定保持状态的实际结束而使得用户接口输出被渲染。用户接口输出是主叫用户可以感知的并且指示保持状态的实际结束。

本文公开的技术的这些和其他实现可以包括以下特征中的一个或多个。

在一些实现中，检测保持状态的候选结束包括检测在语音通信会话的音频流中正在讲话的人类语音。

在一些实现中，客户端设备是移动电话或独立的交互式扬声器。

在一些实现中，发起处于保持的客户端是响应于由主叫用户在客户端设备处提供的用户接口输入。在那些实现的一些版本中，该方法还包括：响应于检测到语音通信会话处于保持状态：在客户端设备处渲染用于发起处于保持的客户端的建议。在那些版本中，由主叫用户提供的用户接口输入是肯定的用户接口输入，所述肯定的用户接口输入响应于在客户端设备处渲染建议而被提供。

在一些实现中，响应于检测到语音通信会话处于保持状态，由客户端设备自动发起处于保持的客户端。

在一些实现中，检测语音通信会话处于保持状态包括检测语音通信会话的音频流中的音乐，并且可选地确定音乐被包括在已知处于保持的音乐列表中。

在一些实现中，检测语音通信会话处于保持状态是进一步基于确定与语音通信会话相关联的电话号码在已知将呼叫者置于保持状态的电话号码列表上。

在一些实现中，检测保持状态的候选结束包括使用音频指纹来确定音频流中的至少阈值改变。

在一些实现中，确定对响应索求信号的响应指示保持状态的候选结束是保持状态的实际结束包括：使用至少一个机器学习模型来处理响应以生成至少一个预测输出；以及基于所述至少一个预测输出，确定保持状态的候选结束是保持状态的实际结束。在那些实现的一些版本中，至少一个预测输出包括响应的预测文本，并且基于预测输出确定保持状态的候选结束是保持状态的实际结束包括确定文本是响应于响应索求信号。在这些实现的一些附加或替代版本中，至少一个预测输出包括对响应是否是人类语音的预测，并且基于该预测输出来确定保持状态的候选结束是保持状态的实际结束包括确定对响应是否为人类语音的预测指示响应为人类语音。

在一些实现中，该方法还包括在确定对响应索求信号的响应指示保持状态的候选结束是保持状态的实际结束之后：从客户端设备发送保持结束消息作为对语音通信会话的音频流的输入。保持结束消息对于人类用户是可听见的，并且指示主叫用户正在返回语音通信会话。在那些实现中的一些中，该方法进一步包括：在确定对响应索求信号的响应指示保持状态的候选结束是保持状态的实际结束之后，在客户端设备上结束处于保持的客户端。

在一些实现中，经由客户端设备、链接到客户端设备的附加客户端设备和/或外围设备(例如，联网灯)来渲染指示保持状态的实际结束的用户接口输出。

在一些实现中，该方法还包括识别与和语音通信会话相关联的电话号码(或其他唯一标识符)相关联的预录音人类语音的一个或多个预录音语音特性。在那些实现的一些版本中，确定对响应索求信号的响应指示保持状态的候选结束是保持状态的实际结束包括：确定该响应的一个或多个响应语音特性；以及，确定该一个或多个响应语音特性不同于一个或多个预录音的语音特性。

在一些实现中，提供了一种由一个或多个处理器实现的方法，该方法包括接收经由客户端设备提供的用户接口输入。当语音通信会话处于保持状态时，由主叫用户提供用户接口输入。语音通信会话由客户端设备发起，被叫方控制语音通信会话的保持状态。该方法还包括：响应于接收到用户接口输入：从在语音通信会话期间被叫方生成的音频中监视保持状态的候选结束。该方法还包括基于监视来检测保持状态的候选结束。该方法还包括：响应于检测到保持状态的候选结束：由客户端设备发送可听输出以包括在语音通信会话中。可听输出包括讲出一个或多个单词的录音的人类语音或讲出一个或多个单词的合成生成的语音。该方法还包括：监视可听输出之后的被叫方生成的音频；并且确定所述可听输出之后的被叫方生成的音频满足一个或多个标准，所述标准指示所述保持状态的候选结束为所述保持状态的实际结束。保持状态的实际结束指示人类用户可用于在语音通信会话中与主叫用户进行交互。该方法还包括响应于确定保持状态的实际结束而使得用户接口输出被渲染。用户接口输出是主叫用户能够感知的并指示保持状态的实际结束。

该技术的这些和其他实现可以可选地包括以下一个或多个特征。

在一些实现中，确定在可听输出之后的被叫方生成的音频满足一个或多个标准包括：通过对在可听输出之后的被叫方生成的音频执行语音到文本转换来生成文本；以及确定文本是响应于可听输出中的一个或多个单词。

在一些实现中，用户接口输入是对由客户端设备渲染的图形和/或可听建议的肯定响应，其中，该建议是发起处于保持的客户端以监视保持结束状态的建议。在那些实现中的一些中，响应于基于在语音通信会话期间由被叫方生成的音频来检测到呼叫处于保持状态中，而由客户端设备渲染建议。

在一些实现中，提供了由发起语音通信会话的客户端设备实现的方法，该方法包括：在语音通信会话处于保持状态时：针对在音频流中讲话的人类语音的发生而监视语音通信会话的音频流；响应于在监视期间检测到人类语音的发生：将响应索求信号作为对音频流的输入发送；针对响应索求信号的响应而监视音频流；确定对响应索求信号的响应是否是响应于索求信号响应的人类响应；并且当确定所述响应是响应于所述响应索求信号的人类响应时：使得所述主叫用户能够感知并指示所述保持结束状态的用户接口输出被渲染。

另外，一些实现包括一个或多个计算设备的一个或多个处理器，其中，一个或多个处理器可操作以执行存储在相关联的存储器中的指令，并且其中，所述指令被配置为使得执行任何前述方法。一些实现还包括一个或多个非暂时性计算机可读存储介质，其存储可由一个或多个处理器执行以执行任何前述方法的计算机指令。

附图说明

图1是示出其中可以实现各种实现的示例环境的框图。

图2是示出客户端设备与语音通信会话之间的示例交互的图。

图3是示出客户端设备与语音通信会话之间的另一示例交互的图。

图4是示出客户端设备与语音通信会话之间的另一示例交互的图。

图5是示出根据本文公开的实现的示例过程的流程图。

图6是示出计算设备的示例架构的框图。

具体实施方式

图1示出了其中可以实现各种实现的示例环境100。示例环境100包括一个或多个客户端设备102。为了简洁和简单起见，如本文中用作“服务”特定用户的术语“处于保持的客户端”通常可以指由用户在客户端设备102上操作的处于保持的客户端104以及一个或多个基于云的处于保持的组件(未示出)的组合。

客户端设备102可以包括例如以下中的一个或多个：台式计算设备、膝上型计算设备、触敏计算设备(例如，可以经由来自用户的触摸接收输入的计算设备)、移动电话计算设备、用户的车辆的计算设备(例如，车载通信系统)、独立的交互式扬声器、诸如智能电视的智能设备、投影仪和/或包括计算设备的用户的可穿戴装置(例如，具有计算设备的用户的手表、具有计算设备的用户的眼镜、虚拟或增强现实计算设备等)。可以提供附加和/或替代的计算设备。

在一些实现中，处于保持的客户端104可以响应于用户接口输入而参与对话会话，即使当该用户接口输入没有被明确地涉及处于保持的客户端104时。例如，处于保持的客户端104可以检查语音通信会话的音频流的内容和/或用户接口输入的内容并参与对话会话。例如，在用户接口输入中响应于某些词项出现在语音通信会话的音频流中和/或基于其他提示，处于保持的客户端可以参与对话会话。在许多实现中，处于保持的客户端104可以利用话音辨识来将来自用户的话语转换为文本，并且例如通过提供搜索结果、一般信息和/或采取一个或多个响应动作(例如，启动保持检测等)来相应地对文本做出响应。

每个客户端设备102可以执行处于保持的客户端104的相应实例。在各种实现中，可以在客户端设备102之外实现处于保持的客户端104的一个或多个方面。例如，处于保持的客户端104的一个或多个组件可以在经由一个或多个局域网和/或广域网(例如，互联网)通信地耦合到客户端设备102的一个或多个计算系统(统称为“云”计算系统)上实现。每个客户端计算设备102可以包括一个或多个用于存储数据和软件应用的存储器、一个或多个用于访问数据并执行应用的处理器以及其他有助于通过网络进行通信的组件。由一个或多个计算设备102和/或处于保持的客户端104执行的操作可以分布在多个计算机系统上。处于保持的客户端104可以被实现为例如在通过网络彼此耦合的在一个或多个位置中运行的一个或多个计算机上运行的计算机程序。

在许多实现中，处于保持的客户端104可以包括对应的话音捕获/文本到话音转换(“TTS”)/话音到文本转换(“STT”)模块106、自然语言处理器108、音频流监视器110、保持检测模块112和其他组件。

处于保持的客户端104可以包括上述对应的话音捕获/TTS/STT模块106。在其他实现中，话音捕获/TTS/STT模块106的一个或多个方面可以与处于保持的客户端104分开地实现。每个话音捕获/TTS/STT模块106可以被配置为执行一个或多个功能：例如经由集成在客户端设备102中的麦克风(未示出)来捕获用户的话音；将捕获的音频转换为文本(和/或其他表示或嵌入)；和/或将文本转换为话音。例如，在一些实现中，因为客户端设备102可能在计算资源(例如，处理器周期、存储器、电池等)方面受到限制，所以每个客户端设备102本地的话音捕获/TTS/STT模块106可以被配置为将有限数量的不同讲出的短语——特别是调用处于保持的客户端104的短语——转换为文本(或其他形式，例如较低维度嵌入)。可以将其他话音输入发送至基于云的处于保持的客户端组件(未示出)，该处于保持的客户端组件可以包括基于云的TTS模块和/或基于云的STT模块。

处于保持的客户端104的自然语言处理器108处理用户通过客户端设备102生成的自然语言输入，并且可以生成注释输出以供处于保持的客户端104的一个或多个组件使用。例如，自然语言处理器108可以处理用户通过客户端设备102的一个或多个用户接口输入设备生成的自然语言自由形式输入。生成的注释输出包括自然语言输入的一个或多个注释，以及可选的自然语言输入的词项中的一个或多个(例如，全部)。

在一些实现中，自然语言处理器108被配置为识别和注释自然语言输入中的各种类型的语法信息。例如，自然语言处理器108可以包括词性标记器，其被配置为用其语法角色来注释词项。同样，例如，在一些实现中，自然语言处理器108可以附加地和/或可替代地包括依赖解析器(未示出)，其被配置为确定自然语言输入中的词项之间的句法关系。

在一些实现中，自然语言处理器108可以附加地和/或可替代地包括实体标记器(未示出)，该实体标记器被配置为注释在一个或多个片段中的实体指涉，诸如对人(例如，包括文学人物、名人、公众人物等)、组织和位置(真实的和虚构的)等的指涉。自然语言处理器108的实体标记器可以以较高的粒度级别(例如，以使得能够识别对诸如人的实体类别的所有指涉)和/或较低的粒度级别(例如，以使得能够识别对诸如特定人的特定实体的所有指涉)来注释对于实体的指涉。实体标记器可以依赖于自然语言输入的内容来消解特定实体和/或可以可选地与知识图或其他实体数据库进行通信以消解特定实体。

在一些实现中，自然语言处理器108可以附加地和/或可替代地包括被配置为基于一个或多个上下文提示来对于对同一实体的指涉进行分组或“聚类”的共指消解器(未示出)。例如，可以使用共指消解器在自然语言输入“I liked Hypothetical Cafe last timewe ate there(我们上次在那里用餐时我喜欢假设咖啡馆)”中将词项“there(那里)”消解为“Hypothetical Café(假设咖啡馆)”。

在许多实现中，自然语言处理器108的一个或多个组件可以依赖于来自自然语言处理器108的一个或多个其他组件的注释。例如，在一些实现中，所述及的实体标记器可以在注释对于特定实体的所有提及时依赖于来自共指消解器和/或依赖解析器的注释。同样，例如，在一些实现中，共指消解器可能在对同一实体的指涉聚类时依赖于来自依赖解析器的注释。在许多实现中，在处理特定自然语言输入时，自然语言处理器108的一个或多个组件可以使用相关的先前输入和/或特定自然语言输入之外的其他相关数据来确定一个或多个注释。

在许多实现中，处于保持的客户端104可以与处于保持的语音通信会话进行交互，而无需来自进行会话的用户的任何必需的交互。在一些附加或替代实现中，处于保持的客户端104可以发起处于保持的过程、终止处于保持的过程、向用户通知语音通信会话不再处于保持和/或传递不再处于保持的语音通信会话给客户端设备102上的附加客户端。

在许多实现中，客户端设备102和/或处于保持的客户端104可以使用音频流监视器110来监视语音通信会话的音频流的传入和/或传出部分。例如，音频流的传入部分可以包括呼叫者在进行语音通信会话之后听到的音频部分(例如，另一个人类的语音、音乐等)。类似地，语音通信会话的音频流的传出部分可以包括呼叫者通过音频流和/或由处于保持的客户端提供的其他信号对另一个呼叫者所说的内容(诸如，询问另一个人员是否在通话中的索求响应查询)。在一些这样的实现中，客户端设备102可以使用音频流监视器110来检测何时语音通信会话已经被置于处于保持，并且将处于保持中的语音通信会话传递给处于保持的客户端104。附加地或可替代地，处于保持的客户端104可以监视语音通信会话的音频流并且处于保持的客户端104本身可以确定何时将语音通信会话置于处于保持。由音频流监视器110检测到的音频流中的指示语音通信会话已被置于处于保持的信号可以包括检测已知的处于保持的音乐，检测任何音乐(因为用户不太可能通过语音通信会话互相播放歌曲)、从人类语音到音乐的转变、从音乐到人类语音的转变等。

保持检测模块112可以使用由音频流监视器110做出的关于语音通信会话的音频流的确定来确定何时语音通信会话已经被置于处于保持、语音通信会话不再处于保持、预测的剩余等待时间等。保持检测模块112可以在会话不再处于保持时向客户端设备102的用户提供指示，以及将语音通信会话传递给客户端设备102上的附加客户端以与语音通信会话进行交互(可能需要也可能不需要用户的进一步互动)。

附加地或可替代地，用户可以通过用户接口向客户端设备102指示语音通信会话已经被置于处于保持并且用户希望使用处于保持的客户端104来开始处于保持的过程。保持检测模块112可以当它通过客户端设备102中的用户接口通过下述方式从用户接收到会话已经被置于处于保持的肯定指示时，将会话置于处于保持：推荐会话已经被置于处于保持并且用户以肯定的方式响应以发起处于保持的过程，和/或用户通过客户端设备102中的用户接口直接指示会话已置于处于保持以使用保持检测模块112发起处于保持的过程。在其他实现中，保持检测模块112可以当它检测到处于保持的会话时自动发起处于保持的过程。

在许多实现中，保持检测模块112可以附加地或替代地确定会话何时不再处于保持。在许多实现中，用户可以指示在处于保持的过程结束时所述用户希望如何被通知。例如，用户可能希望在移动计算系统上接收语音通信会话，该语音通信会话指示其来自处于保持的号码。附加地或替代地，当检测到保持的结束时，用户可以请求在客户端设备102的相同生态系统内的连接的诸如智能灯的智能设备以某种方式进行响应。例如，可以指令在与客户端设备102相同的网络上的智能灯闪烁开关、强度暗淡、强度增加、颜色改变等，以指示语音通信会话的保持结束。附加地或可替代地，观看智能电视的用户可以请求当检测到保持的结束时在电视上出现通知。

图2、3和4分别示出了处于保持的客户端(诸如图1所示的处于保持的客户端104)和语音通信会话之间的交互。图2示出了图像200，其包括处于保持的客户端202与仍处于保持的语音通信会话206进行交互。响应于检测到语音通信会话处于保持的潜在(也称为“候选”)结束，处于保持的客户端202可以通过语音通信会话206的音频流发送响应索求信号，以确定是否在会话中有附加有生命的用户变得活动。在许多实现中，处于保持的客户端可以确定要作为响应索求信号发送的文本短语(例如，“Are you there”)。在一些这样的实现中，文本到话音模块(类似于图1所示的话音捕获/TTS/STT模块106)可以将文本短语转换为话音以作为输入提供给音频流。

在各种实现中，可以通过处于保持的客户端202检测语音通信会话的音频流中的各种信号中的任何信号来检测语音通信会话处于保持的潜在结束，该信号包括音乐变化、音乐变化为人类语音(潜在地是录音的语音以及现场语音)、通过诸如离散傅立叶变换的各种信号处理技术检测到的信号、神经网络模型的输出等。可以将人类语音分析为信号，并且附加地或替代地，话音到文本模块(类似于图1所示的话音捕获/TTS/STT模块106)可以将人类语音转换为文本。音频流中的文本讲出的语言还可以由自然语言处理器(诸如如图1所示的自然语言处理器108)进行分析，以确定在音频流中检测到的人类语音所讲出的内容的含义。自然语言处理器的输出可以进一步用于确定语音通信会话中保持的潜在结束。附加地或可替代地，自然语言处理器的输出可以用于确定有生命的人类用户已经进入会话。例如，自然语言处理器的输出可以向一个或多个神经网络模型提供输入。

在一些实现中，神经网络模型可以学习识别语音通信会话中要忽略的一个或多个“语音”。语音可以包括一个或多个单独的说话者、背景音乐、背景噪音等。例如，一个或多个神经网络模型可以包括递归神经网络(RNN)。RNN可以包括至少一个记忆层，诸如长短期记忆(LSTM)层。记忆层包括一个或多个可以依次被应用输入的记忆单元，并且在所应用的输入的每个迭代中，记忆单元可以用于基于该迭代的输入并基于(可以基于先前迭代的输入的)当前隐藏状态来演算新的隐藏状态。在一些实现中，可以使用模型来针对各种长度的音频片段中的任何一个生成说话者分割结果。作为一个示例，语音通信会话的音频流可以被分为一个或多个数据帧。每个数据帧可以是音频信号的一部分，诸如25毫秒或其他持续时间部分。可以按顺序将帧特征(或帧本身)作为输入应用到经训练的说话者分割模型中，以生成输出的系列，每个输出包括N个不变说话者标签中每一个的对应概率。例如，音频帧1的帧特征可以最初作为输入应用以生成N个概率，其中，N个概率中的每个对应于N个说话者标签之一；接下来可以将音频数据帧2的帧特征作为输入应用以生成N个概率，其中，N个概率中的每一个都针对N个说话者标签中的对应的一个；等等。应当注意，尽管针对音频数据帧2生成的N个概率特定于音频数据帧2，但是它们将取决于音频数据帧1的处理，因为该模型可以是RNN模型。

附加地或可替代地，N个概率可以指示会话是否已经被置于处于保持、是否会话仍然处于保持和/或是否已经检测到潜在保持结束信号。在许多实现中，可以为语音通信会话确定估计的剩余保持时间(通过处于保持的客户端具有的对于特定的被叫号码的典型的保持长度和/或如语音通信会话的音频流中所指示的估计的剩余保持时间的知悉)。根据许多实现，估计的剩余保持时间可以是对机器学习模型的附加输入，其中，剩余的估计保持时间越短，机器学习模型更有可能输出保持结束。

在其他实现中，处于保持的客户端可以使用潜在的剩余保持时间的知悉来增加和/或减小其用于发送响应索求信号的阈值(使用或不使用一个或多个机器学习模型)。例如，如果预测语音通信会话将继续处于保持20分钟，则处于保持的客户端可以具有较高的阈值来发送响应索求信号。类似地，语音通信会话被预测只有几分钟(例如3分钟)可以具有较低的阈值来发送响应索求信号。

语音通信会话保持的潜在结束的检测可以使处于保持的客户端202通过语音通信会话的音频流发送响应索求信号，以确定是否有附加的用户已加入了语音通信会话并且保持结束。例如，处于保持的客户端202可以发送响应索求信号204，诸如“Are you there”。附加地或替代地，响应索求信号可以是会提示诸如“Is anyone there”、“Hello,are youthere”、“Am I still on hold(我仍然在处于保持吗)”等的响应的各种问题中的任何一个。

在许多实现中，响应索求信号可以向已经结束语音通信会话处于保持的附加有生命的人类用户提示可预测的响应。例如，对响应索求信号“Are you there”204的响应可以包括“yes”和/或类似的指示肯定响应的类似单词或短语(例如，“Yeah(是)”、“Yup(是的)”以及可以包含肯定响应的短语)。将响应索求信号作为输入发送到语音通信会话的音频流可以在计算上花费很少。附加地或可替代地，通过反复询问相同的问题来扰乱(可以在处于保持中的语音通信会话时播放的)录音的可能性不大，因此发送响应索求查询的阈值可能较低。换句话说，由于来自频繁地发送响应索求信号的负面影响很少(如果有的话)，根据许多实现的处于保持的客户端将频繁发送响应索求信号。此外，如果在应该发送响应索求信号时处于保持的客户端未能发送响应索求信号，则语音通信会话可能潜在地终止，并要求用户再次开始与电话号码的处于保持的过程。

在许多实现中，当保持未结束时，可以通过语音通信会话的音频流发送响应索求信号204。当发送响应索求信号且语音通信会话保持未结束时，处于保持的客户端202在语音通信会话206的音频流中将检测不到响应208。

在许多实现中，当语音通信会话处于保持时，录音的语音可能会再次发生。在一些这样的实现中，录音的语音将不响应于响应索求信号，并且处于保持的客户端可以学习将来不向该语音发送响应索求信号。例如，在处于保持时，电话号码可以播放录音，其包含有关被叫号码的信息(诸如网站、营业时间等)。在语音通信会话处于保持时，包含有关号码的信息的此录音可以循环几次。一旦处于保持的客户端确定此语音不响应于响应索求信号，则处于保持的客户端就可以学习不向该特定语音发送附加响应索求信号。在许多实现中，处于保持的客户端可以学习使用由特定语音(例如，语音指纹)生成的各种信号中的一个或多个来忽略语音，所述信号包括语音的音高、语音本身的识别和/或语音在说的特定单词序列。

图3示出了图像300，该图像300包括处于保持的客户端302与语音通信会话306进行交互。在许多实现中，处于保持的客户端302可以发送诸如“Is anyone there？”之类的响应索求信号304作为语音通信会话的音频流的输入。可以使用STT模块(诸如，图1中所示的话音捕获/TTS/STT模块106)将由处于保持的客户端提供的文本响应索求信号转换为话音。例如，处于保持的客户端可以提供文本短语“Is anyone there”作为响应索求信号。STT模块可以将此短语转换为讲出的语言，然后可以将其作为语音通信会话的音频信号的输入传送。上面关于图2描述了确定何时发送响应索求信号304。图像300还示出了处于保持的客户端接收对响应索求信号的响应308“Yes,I am here(是的，我在这里)”，并且可以确定语音通信会话不再处于保持。在确定语音通信会话不再处于保持时，处于保持的客户端可以将检测到的输入转换为音频流，并使用STT模块(图1中所示的话音捕获/TTS/STT模块106)将输入转换为文本。此外，自然语言处理器(诸如自然语言处理器108)可以分析对响应索求信号的文本响应以提供文本响应的含义。

如以上关于图2所描述的，在许多实现中，问题“Is anyone there？”304通常将引起第二用户的肯定响应，诸如“Yes,I am here”。在其他实现中，响应索求信号可以被表述为通常引起否定响应。例如，问题“Am I still on hold(我还在处于保持吗？)”可以引起第二用户的否定响应，诸如“No,you are not on hold(不，您没有在处于保持)”。在一些实现中，当确定会话不再处于保持时，处于保持的客户端可以利用对部分使用的特定响应索求信号的典型响应。在许多实现中，一旦处于保持的客户端302确定该会话不再处于保持，则可以通知进行语音通信会话的用户。

在一些实现中，可以通知用户会话不再处于保持。例如，一旦语音通信会话处于保持完成，移动电话就可以响铃和/或振动以模拟新的传入会话。附加地或替代地，用户附近的联网设备可以用作语音通信会话处于保持已结束的通知。例如，进行语音通信会话的用户可以在智能灯附近。智能灯可以闪烁、强度暗淡、强度增加、改变颜色等以通知用户。附加地或替代地，可以将消息推送到用户正在与其交互的屏幕，包括移动电话、计算设备、电视等。例如，观看在与所使用来发起语音通信会话的客户端设备相同的设备拓扑中的智能电视的用户当会话处于保持结束时，可以在电视上接收通知。在各种实现中，用户可以选择如何作为处于保持的偏好被通知。附加地或替代地，用户可以选择在处于保持的过程开始时如何被通知。

图4示出了图像400，其包括处于保持的客户端402和语音通信会话406。在许多实现中，处于保持的客户端可以接收非常强的语音通信会话处于保持的结束的指示。在一些这样的实现中，处于保持的客户端将不发送响应索求信号，而是可以继续通知用户该会话不再处于保持。音频流中检测到的人类语音可以使用STT模块(图1所示的话音捕获/TTS/STT模块106)转换为文本输出，其可以提供给自然语言处理器(诸如，在图1中所示的自然语言处理器108))以将文本的含义提供给处于保持的客户端。例如，消息404“Hello Ms.JaneDoe.My name is John Smith and I represent'Hypothetical Utility Company'.Howmay I help you today？(您好，简多伊女士。我叫约翰史密斯，我代表‘假设公用事业公司’。今天我能如何为您提供帮助？)”可能包含强的语音通信会话不再处于保持的指示。例如，检测用户名(诸如Jane Doe和/或Ms.Doe)、检测指示附加用户名的短语(诸如“My nameis John Smith”)以及其他短语(诸如“How may I help you today？”)可以全部单独和/或组合地使处于保持的客户端确定语音通信会话处于保持已结束，而无需发送响应索求信号。在许多实现中，当处于保持的客户端确定语音通信会话不再处于保持时，可以如先前所述通知用户。

图5是示出根据本文公开的许多实现的示例过程500的流程图。为了方便起见，参考执行操作的系统描述图5的流程图的操作。该系统可以包括各种系统的各种组件，诸如客户端设备102的一个或多个组件。此外，尽管以特定顺序示出了过程500的操作，但这并不意味着是限制性的。可能会重新排序、省略或添加一项或多项操作。

在框502，客户端设备可以可选地确定语音通信会话处于保持。如以上关于图1所示的保持检测模块112所描述的，客户端设备可以以各种方式来确定语音通信会话处于保持，各种方式包括检测已知的保持音乐、检测任何音乐、检测从人类语音到音乐的改变、会话已经被置于处于保持的来自用户的直接输入、确定被叫的号码是通常会使用户处于保持的已知号码、以及包括离散傅立叶变换在内的各种信号处理技术中的任何一种、以及由与客户端设备中的处于保持的客户端相关联的一个或多个机器学习模型进行的确定。

在框504处，客户端设备发起类似于以上关于图1所描述的处于保持的客户端104的处于保持的客户端。

在框506，处于保持的客户端可以监视处于保持的语音通信会话的音频流的传入和/或传出部分。在许多实现中，处于保持的客户端可以以类似于以上关于图1描述的音频流监视器110的方式来监视音频流。

在框508，处于保持的客户端可以确定何时通过语音通信会话的音频流发送响应索求信号。上面参考图2描述了处于保持的客户端可以确定发送响应索求信号的各种方式。在许多实现中，处于保持的客户端可以发送一个或多个响应索求信号，并保持发送响应索求信号，直到语音通信会话不再处于保持和/或处于保持的客户端接收到来自用户的用以结束处于保持过程的指示(例如，用户已经厌倦了处于保持地等待，并希望结束处于保持过程并稍后再呼叫电话号码)。在其他实现中，处于保持的客户端可以不发送响应索求信号。例如，可以检测到强指示符，该强指示符指示会话不再处于保持(如上面参考图4所述)，并且处于保持的客户端可以确定语音通信会话不再处于保持而无需发送响应索求信号。

在框510处，处于保持的客户端可以确定语音通信会话不再处于保持。在各种实现中，可以基于接收的对响应索求信号的响应来做出该确定。在其他实现中，可以使用通过音频流监视的信息的强度来进行该确定，该强度足够强以指示语音通信会话在不再处于保持而无需发送响应索求信号。附加地或替代地，处于保持的客户端可以发送(未被响应于的)一个或多个响应索求信号，然后接收语音通信会话不再处于保持的这样的强指示，不发送附加的响应索求信号。

在框512，处于保持的客户端通知用户语音通信会话不再处于保持。上面参考图1描述了处于保持的客户端可以向用户通知语音通信会话处于保持结束的各种方式。附加地或替代地，处于保持的客户端可以将语音通信会话传递给与客户端设备相关联的另一客户端，以代替用户来处置语音通信会话。例如，一旦处于保持的客户端确定语音通信会话不再处于保持，则处于保持的客户端可以将语音通信会话传递给第二客户端，该第二客户端可以代表用户在语音通信会话上与附加的人员进行交互。

图6是示例计算机系统610的框图。计算机系统610通常包括至少一个处理器614，其经由总线子系统612与多个外围设备进行通信。这些外围设备可以包括存储子系统624，例如，包括存储器625和文件存储子系统626、用户接口输出设备620、用户接口输入设备622和网络接口子系统616。输入和输出设备允许用户与计算机系统610交互。网络接口子系统616向外部网络提供接口，并耦合到其他计算机系统中的相应接口设备。

用户接口输入设备622可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板之类的指示设备、扫描仪、并入显示器的触摸屏、诸如语音辨识系统、麦克风和/或其他类型的输入设备的音频输入设备。通常，术语“输入设备”的使用旨在包括将信息输入到计算机系统610或通信网络中的所有可能类型的设备和方式。

用户接口输出设备620可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或某个其他用于创建可见图像的机制。显示子系统还可以诸如经由音频输出设备来提供非视觉显示。通常，术语“输出设备”的使用旨在包括从计算机系统610向用户或另一个机器或计算机系统输出信息的所有可能类型的设备以及方式。

存储子系统624存储提供本文描述的一些或所有模块的功能的编程和数据构造。例如，存储子系统624可以包括执行图1所示的客户端设备的所选方面、图5中示出的过程500、本文讨论的任何操作和/或本文讨论的任何其他设备或应用的逻辑。

这些软件模块通常由处理器614单独或与其他处理器组合执行。存储子系统624中使用的存储器625可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)630以及其中存储了固定指令的只读存储器(ROM)632。文件存储子系统626可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实现的功能的模块可以由文件存储子系统626存储在存储子系统624中，或者存储在处理器614可访问的其他机器中。

总线子系统612提供了一种用于使计算机系统610的各个组件和子系统按预期彼此通信的机制。尽管总线子系统612被示意性地示出为单个总线，但是总线子系统的替代实现可以使用多个总线。

计算机系统610可以是各种类型的，包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，因此对图6中所描绘的计算机系统610进行的描述仅旨在作为特定示例以说明一些实现。与图6所示的计算机系统相比，计算机系统610的许多其他配置可能具有更多或更少的组件。

在此处描述的系统收集有关用户(或此处经常称为“参与者”)的个人信息或可能利用个人信息的情况下，可以为用户提供控制程序或功能是否收集用户信息(例如，有关用户的社交网络、社交动作或活动、职业、用户的喜好或用户当前地理位置的信息)的机会，或控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。同样，某些数据在存储或使用之前可能会以一种或多种方式被处理，以便删除个人可识别信息。例如，可以处理用户的身份，以便无法确定该用户的任何个人可识别信息，或者可以在获得地理位置信息的情况下将用户的地理位置进行概括(例如，概括到城市、邮政编码或州级别)，因此无法确定用户的特定地理位置。因此，用户可以控制如何收集有关用户的信息和/或使用信息。

尽管本文已经描述和说明了几种实现，但是可以利用用于执行功能和/或获得结果和/或本文所述的一个或多个优点的多种其他手段和/或结构，并且这些变体和/或修改中的每一个被认为在本文描述的实现的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置均意味着是示例性的，并且实际参数、尺寸、材料和/或配置将取决于教导所用于的具体一个或多个应用。仅使用常规实验，本领域技术人员将认识到或能够确定本文所述的具体实现的许多等同物。因此，应当理解，前述实现仅以示例的方式给出，并且在所附权利要求及其等同物的范围内，可以以不同于具体描述和要求保护的方式来实践实现。本公开的实现针对本文所述的每个单独的特征、系统、物品、材料、套件和/或方法。另外，如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的，则本公开的范围内包括两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任意组合。

Claims

1.一种由一个或多个处理器实现的方法，包括：

检测语音通信会话处于保持状态，其中所述语音通信会话由主叫用户的客户端设备发起，并且其中，检测所述语音通信会话处于所述保持状态是至少部分地基于所述语音通信会话的音频流；

在所述客户端设备上发起处于保持的客户端，其中，发起所述处于保持的客户端是在所述语音通信会话期间并且是基于检测到所述语音通信会话处于所述保持状态；

使用所述处于保持的客户端，针对所述保持状态的候选结束而监视所述语音通信会话的所述音频流，其中，监视所述语音通信会话的所述音频流是在没有来自所述主叫用户的直接交互的情况下发生的；

基于所述监视，检测所述保持状态的所述候选结束；

响应于检测到所述保持状态的所述候选结束：

从所述客户端设备发送响应索求信号作为对所述语音通信会话的所述音频流的输入；

针对所述响应索求信号的响应而监视所述语音通信会话的所述音频流；

确定所述响应索求信号的所述响应指示所述保持状态的所述候选结束是所述保持状态的实际结束，其中，所述保持状态的所述实际结束指示人类用户可用于在所述语音通信会话中与所述主叫用户进行交互；以及

响应于确定所述保持状态的所述实际结束而使得用户接口输出被渲染，其中，所述用户接口输出是所述主叫用户能够感知的，并且所述用户接口输出指示所述保持状态的所述实际结束。

2.根据权利要求1所述的方法，其中，检测所述保持状态的所述候选结束包括：

检测在所述语音通信会话的所述音频流中讲话的人类语音。

3.根据前述权利要求中的任一项所述的方法，其中，所述客户端设备是移动电话或独立的交互式扬声器。

4.根据前述权利要求中的任一项所述的方法，其中，发起所述处于保持的客户端是响应于由所述主叫用户在所述客户端设备处提供的用户接口输入。

5.根据权利要求4所述的方法，包括：

响应于检测到所述语音通信会话处于所述保持状态：

在所述客户端设备处渲染用于发起所述处于保持的客户端的建议；

其中，由所述主叫用户提供的所述用户接口输入是肯定的用户接口输入，所述肯定的用户接口输入是响应于在所述客户端设备处渲染所述建议而提供的。

6.根据前述权利要求中的任一项所述的方法，其中，所述处于保持的客户端是响应于检测到所述语音通信会话处于所述保持状态而由所述客户端设备自动发起。

7.根据前述权利要求中的任一项所述的方法，其中，检测所述语音通信会话处于所述保持状态包括：

在所述语音通信会话的所述音频流中检测音乐；以及

确定所述音乐被包括在已知处于保持的音乐的列表中。

8.根据前述权利要求中的任一项所述的方法，其中，检测所述语音通信会话处于所述保持状态是进一步基于：

确定与所述语音通信会话相关联的电话号码在已知将呼叫者置于所述保持状态的电话号码列表中。

9.根据前述权利要求中的任一项所述的方法，其中，检测所述保持状态的所述候选结束包括：使用音频指纹来确定所述音频流中的至少阈值改变。

10.根据前述权利要求中的任一项所述的方法，其中，确定所述响应索求信号的所述响应指示所述保持状态的所述候选结束是所述保持状态的所述实际结束包括：

使用至少一个机器学习模型来处理所述响应，以生成至少一个预测输出；以及

基于所述至少一个预测输出来确定所述保持状态的所述候选结束是所述保持状态的所述实际结束。

11.根据权利要求10所述的方法，其中，所述至少一个预测输出包括所述响应的预测文本，并且其中，基于所述预测输出来确定所述保持状态的所述候选结束是所述保持状态的所述实际结束包括：

确定所述文本是响应于所述响应索求信号。

12.根据权利要求10或权利要求11所述的方法，其中，所述至少一个预测输出包括关于所述响应是否是人类语音的预测，并且其中，基于所述预测输出来确定所述保持状态的所述候选结束是所述保持状态的所述实际结束包括：

确定关于所述响应是否是人类语音的所述预测指示所述响应是人类语音。

13.根据前述权利要求中的任一项所述的方法，进一步包括：在确定所述响应索求信号的所述响应指示所述保持状态的所述候选结束是所述保持状态的所述实际结束之后：

从所述客户端设备发送保持结束消息作为对所述语音通信会话的所述音频流的输入，其中，所述保持结束消息对所述人类用户是可听的，并且所述保持结束消息指示所述主叫用户正在返回到所述语音通信会话；以及

结束在所述客户端设备上的所述处于保持的客户端。

14.根据前述权利要求中的任一项所述的方法，其中，指示所述保持状态的所述实际结束的所述用户接口输出是经由以下中的一个或多个来渲染的：

所述客户端设备，

链接到所述客户端设备的附加客户端设备，以及

联网灯。

15.根据权利要求1至9、权利要求13或权利要求14中的任一项所述的方法，进一步包括：

识别与电话号码相关联的预录音的人类语音的一个或多个预录音的语音特性，所述电话号码和所述语音通信会话相关联；

其中，确定所述响应索求信号的所述响应指示所述保持状态的所述候选结束是所述保持状态的实际结束包括：

确定所述响应的一个或多个响应语音特性；以及

确定所述一个或多个响应语音特性不同于所述一个或多个预录音的语音特性。

16.一种由客户端设备的一个或多个处理器实现的方法，所述方法包括：

接收经由所述客户端设备提供的用户接口输入，在语音通信会话处于保持状态时所述用户接口输入由主叫用户提供，其中，所述语音通信会话由所述客户端设备发起，并且其中，被叫方控制所述保持状态；

响应于接收到所述用户接口输入：

针对所述保持状态的候选结束而监视在所述语音通信会话期间由所述被叫方生成的音频；

基于所述监视，检测所述保持状态的所述候选结束；

响应于检测到所述保持状态的所述候选结束：

由所述客户端设备发送可听输出以用于包含在所述语音通信会话中，

其中，所述可听输出包括讲出一个或多个单词的录音的人类语音或讲出所述一个或多个单词的合成生成的语音；

监视在所述可听输出之后由所述被叫方生成的音频；

确定在所述可听输出之后由所述被叫方生成的所述音频满足一个或多个标准，所述标准指示所述保持状态的所述候选结束是所述保持状态的实际结束，其中，所述保持状态的所述实际结束指示人类用户可用于在所述语音通信会话中与所述主叫用户进行交互；以及

17.根据权利要求16所述的方法，其中，确定在所述可听输出之后由所述被叫方生成的所述音频满足一个或多个标准包括：

通过对在所述可听输出之后由所述被叫方生成的所述音频执行语音到文本转换来生成文本；

确定所述文本是响应于所述可听输出的一个或多个单词。

18.一种由发起语音通信会话的客户端设备实现的方法，所述方法包括：

在所述语音通信会话处于保持状态时：

针对在所述音频流中讲话的人类语音的发生而监视所述语音通信会话的音频流；

响应于在所述监视期间检测到所述人类语音的发生：

发送响应索求信号作为对所述音频流的输入；

针对所述响应索求信号的响应而监视所述音频流；

确定所述响应索求信号的所述响应是否是响应于所述响应索求信号的人类响应；以及

当确定所述响应是响应于所述响应索求信号的人类响应时：

使得用户接口输出被渲染，所述用户接口输出是所述主叫用户能够感知的，并且所述用户接口输出指示所述保持状态的结束。

19.一种包括指令的计算机程序产品，所述指令在由一个或多个处理器执行时，使所述一个或多个处理器执行前述权利要求中的任一项所述的方法。

20.一种包括指令的计算机可读存储介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至18中的任一项所述的方法。

21.一种系统，包括用于执行根据权利要求1至18中的任一项所述的方法的一个或多个处理器。