[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112053684A - 语音处理系统、会议系统、语音处理方法以及记录介质 - Google Patents

语音处理系统、会议系统、语音处理方法以及记录介质 Download PDF

Info

Publication number
CN112053684A
CN112053684A CN202010426661.6A CN202010426661A CN112053684A CN 112053684 A CN112053684 A CN 112053684A CN 202010426661 A CN202010426661 A CN 202010426661A CN 112053684 A CN112053684 A CN 112053684A
Authority
CN
China
Prior art keywords
command
voice
user
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010426661.6A
Other languages
English (en)
Inventor
卷岛一雄
寺田智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN112053684A publication Critical patent/CN112053684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的在于,提供一种能够将与语音命令对应的信息适当传递给用户的语音处理系统、会议系统、语音处理方法以及语音处理程序。语音处理系统具备:语音接收部,其接收语音;发话者确定部,其基于接收的所述语音来确定发话者;语音判定部,其基于接收的所述语音,来判定该语音中是否包含用于开始规定的命令的受理的特定词;命令确定部,其在所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;对象用户确定部,其基于所述命令的内容,来确定执行所述命令的对象用户;以及命令执行部,其相对于所述对象用户执行所述命令。

Description

语音处理系统、会议系统、语音处理方法以及记录介质
技术领域
本发明涉及一种语音处理系统、会议系统、语音处理方法以及语音处理程序。
背景技术
以往,提出了在相互远离的场所经由网络来进行收发语音、影像、文件等的会议系统的方案。例如,提出一种电视电话装置,其从拍摄照相机图像的拍摄部与输入语音中识别语句且该语句与所登记的关键词一致时,选出与登记关键词关联的特定的辅助图像,切换地发送照相机图像和辅助图像的。
在现有技术中,例如,在会议中识别到第一用户的语音(语音命令)的情况下,与该语音命令对应的信息(命令响应)被传递给参加会议的所有用户。但是,有时所述命令响应为仅一部分的用户所需的信息且其他一部分的用户不需要的信息。因此,在所述命令响应被传递给参加会议的所有用户的系统中,难以进行适当的信息传递。
发明内容
本发明的目的在于,提供一种能够将与语音命令对应的信息适当传递给用户的语音处理系统、会议系统、语音处理方法以及语音处理程序。
本发明的一个方式所涉及的语音处理系统,具备:语音接收部,其接收语音;发话者确定部,其基于由所述语音接收部接收的所述语音来确定发话者;语音判定部,其基于由所述语音接收部接收的所述语音,来判定该语音中是否包含特定词,该特定词用于开始规定的命令的受理;命令确定部,其在由所述语音判定部判定为所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;对象用户确定部,其基于由所述命令确定部确定的所述命令的内容,来确定执行所述命令的对象用户;以及命令执行部,其相对于由所述对象用户确定部确定的所述对象用户执行由所述命令确定部确定的所述命令。
本发明的另一方式所涉及的会议系统,在每个区域配置有语音处理装置以及显示装置,并能够经由所述语音处理装置在所述区域间进行语音的收发,所述会议系统具备:语音接收部,其接收所述语音;发话者确定部,其基于由所述语音接收部接收的所述语音来确定发话者;语音判定部,其基于由所述语音接收部接收的所述语音,来判定该语音中是否包含特定词,该特定词用于开始规定的命令的受理;命令确定部,其在由所述语音判定部判定为在所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;对象用户确定部,其基于由所述命令确定部确定的所述命令的内容,来确定执行所述命令的对象用户;以及命令执行部,其在由所述对象用户确定部确定的所述对象用户所处于的所述区域的所述显示装置中执行由所述命令确定部确定的所述命令。
本发明的另一方式所涉及的语音处理方法,通过一个或多个处理器执行如下步骤:语音接收步骤,接收语音;发话者确定步骤,基于由所述语音接收步骤接收的所述语音来确定发话者;语音判定步骤,基于由所述语音接收步骤接收的所述语音,来判定该语音中是否包含用于开始规定的命令的受理的特定词;命令确定步骤,在由所述语音判定步骤判定为在所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;对象用户确定步骤,基于由所述命令确定步骤确定的所述命令的内容,来确定执行所述命令的对象用户;以及命令执行步骤,相对于由所述对象用户确定步骤确定的所述对象用户执行由所述命令确定步骤确定的所述命令。
本发明的另一方式所涉及的语音处理程序,用于通过一个或多个处理器执行如下步骤:语音接收步骤,接收语音;发话者确定步骤,基于由所述语音接收步骤接收的所述语音来确定发话者;语音判定步骤,基于由所述语音接收步骤接收的所述语音,来判定该语音中是否包含用于开始规定的命令的受理的特定词;命令确定步骤,在由所述语音判定步骤判定为在所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;对象用户确定步骤,基于由所述命令确定步骤确定的所述命令的内容,来确定执行所述命令的对象用户;以及命令执行步骤,相对于由所述对象用户确定步骤确定的所述对象用户执行由所述命令确定步骤确定的所述命令。
根据本发明,能够提供一种能够将与语音命令对应的信息适当传递给用户的语音处理装置、会议系统、语音处理方法以及语音处理程序。
本说明书适当地参照附图,通过使对以下详细说明中记载的概念进行总结的内容简略化的方式来进行介绍。本说明书的意图并不是限定权利要求中记载的主题的重要特征和本质特征,此外,意图也不是限定权利要求中记载的主题的范围。此外,在权利要求中记载的对象,并不限定于解决本发明中任意部分中记载的一部分或全部缺点的实施方式。
附图说明
图1为表示本公开的实施方式所涉及的会议系统的概要构成的图。
图2为表示本公开的实施方式所涉及的会议系统的结构的功能框图。
图3为表示在本公开的实施方式所涉及的会议系统中显示装置所显示的显示画面的一个示例的图。
图4为表示在本公开的实施方式所涉及的会议系统中显示装置所显示的显示画面的一个示例的图。
图5为表示在本公开的实施方式所涉及的会议系统中显示装置所显示的显示画面的一个示例的图。
图6为表示在本公开的实施方式所涉及的会议系统中显示装置所显示的显示画面的一个示例的图。
图7为表示在本公开的实施方式所涉及的会议系统中显示装置所显示的显示画面的一个示例的图。
图8为表示本公开的实施方式所涉及的会议系统中使用的会议信息的一个示例的图。
图9为表示本公开的实施方式所涉及的会议系统中使用的用户信息的一个示例的图。
图10为表示本公开的实施方式所涉及的会议系统中使用的参加者信息的一个示例的图。
图11为表示本公开的实施方式所涉及的会议系统中使用的命令信息的一个示例的图。
图12为表示本公开的实施方式所涉及的会议系统中使用的内容信息的一个示例的图。
图13为用于对本公开的实施方式所涉及的会议系统中的语音处理的过程的一个示例进行说明的流程图。
图14为用于对本公开的实施方式所涉及的会议系统中的语音处理的过程的一个示例进行说明的流程图。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。另外,以下的实施方式为对本发明进行了具体化的一个示例,且不具有限定本发明的技术范围的性质。
本发明所涉及的语音处理系统能够应用于多个用户在一个场所(区域)参加的会议、对多个场所(区域)进行网络连接而供多个用户参加的远程会议等。此外,本发明所涉及的语音处理系统也可以具备:执行语音命令的功能、能够经由网络而在用户间进行通话的通话功能(电话功能、电视电话功能等)。此外本发明所涉及的语音处理系统具备对会议参加者的语音进行收发的一个或多个语音处理装置。
在以下的实施方式中,列举语音处理系统应用于远程会议(会议系统)的情况为例进行说明。即,本实施方式所涉及的会议系统为本发明所涉及的语音处理系统的一个示例。例如在本实施方式所涉及的会议系统中,在各个场所(会议室)配置有语音处理装置,一方的会议室的语音处理装置接收用户发出的语音,并发送至另一方的会议室的语音处理装置,从而能够实现各会议室的用户彼此的会话。此外在所述会议系统中,具备对从语音处理装置接收的用户的语音进行分析来确定命令的云服务器。此外在所述会议系统中,具备作为执行所述命令的终端装置的一个示例的显示装置。另外,执行所述命令的终端装置并不限定于显示装置也可以是语音处理装置或用户所携带的用户终端。
[会议系统100]
图1为表示本发明的实施方式所涉及的会议系统的概要构成的图。会议系统100包含:语音处理装置1、云服务器2、显示装置3以及数据库DB。语音处理装置1A、1B、1C分别为具备麦克风以及扬声器的麦克风扬声器装置,例如为AI扬声器、智能扬声器等。在此,示出设置于会议室A的语音处理装置1A、设置于会议室B的语音处理装置1B以及设置于会议室C的语音处理装置1C。显示装置3A、3B、3C具备显示各种信息的显示部。在此,示出设置于会议室A的显示装置3A、设置于会议室B的显示装置3B以及设置于会议室C的显示装置3C。语音处理装置1A以及显示装置3A、语音处理装置1B以及显示装置3B、语音处理装置1C以及显示装置3C、云服务器2、数据库DB经由网络N1而相互连接。网络N1为英特网、LAN、WAN、或公共电话线路等通信网。云服务器2例如由一台或多台数据服务器(假想服务器)构建而成。数据库DB对各种数据进行存储。数据库DB也可以包含于云服务器2,也可以包含于显示装置3A、3B、3C中的任意一者,也可以分散设置于多个显示装置3。此外数据库DB也可以包含于语音处理装置1A、1B、1C中的任意一者也可以分散设置于多个语音处理装置1。语音处理装置1A、1B、1C分别为本发明的语音处理装置的一个示例。显示装置3A、3B、3C分别为本发明的显示装置、终端装置的一个示例。
在此,列举图1所示的构成为例,对会议系统100的应用场景的一个示例进行说明。另外,例如会议的名称(议题)、会议的开始日期和时间以及结束日期和时间、会议中使用的文件(附件)、参加者等的信息(图8所示的会议信息D1),预先登记于数据库DB(参照图2)。会议信息D1例如通过会议的负责人等来登记。在此,用户A、B、C作为会议的参加者而事先登记于会议信息D1。
首先,用户A在会议室A中显示装置3A所显示的登录画面上输入并登录用户ID。由此,用户A的辨别信息(用户ID)″U001″与显示装置3A的辨别信息(显示装置ID)″D001″相关联而登记于参加者信息D3(参照图10)。同样地,用户B在会议室B中显示装置3B所显示的登录画面上输入并登录用户ID。由此,用户B的辨别信息(用户ID)″U002″与显示装置3B的辨别信息(显示装置ID)″D002″相关联而登记于参加者信息D3。此外用户C在会议室C中显示装置3C所显示的登录画面上输入并登录用户ID。由此,用户C的辨别信息(用户ID)″U003″与显示装置3C的辨别信息(显示装置ID)″D003″相关联而登记于参加者信息D3。
接着,例如用户A发出包含用于开始规定的命令的受理的特定词(也称作启动词、唤醒词)(在图3中,示出″***″)、和与特定词紧挨着的命令用关键词(图3的″开始今天的预定的会议″)的语音。语音处理装置1A当对所述特定词进行识别时,将所述命令用关键词发送至云服务器2。云服务器2基于所述命令用关键词对命令进行确定。在此,云服务器2对″开始会议″的命令进行确定。显示装置3A执行确定的所述命令。由此,显示装置3A的连接完成,开始会议。
同样,例如用户B发出包含所述特定词和所述命令用关键词(″开始今天的预定的会议″)的语音。语音处理装置1B当对所述特定词进行识别时,将所述命令用关键词发送至云服务器2。云服务器2基于所述命令用关键词对命令进行确定。在此,云服务器2对″开始会议″的命令进行确定。显示装置3B执行确定的所述命令由此,显示装置3B的连接完成,显示装置3A、3B连接于同一网络。由此,例如在显示装置3A的显示画面显示有用户B的辨别信息(面部图像),在显示装置3B的显示画面显示有用户A的辨别信息(面部图像)(参照图3)。
同样地,例如用户C发出包含所述特定词和所述命令用关键词(″开始今天的预定的会议″)的语音。语音处理装置1C当对所述特定词进行识别时,将所述命令用关键词发送至云服务器2。云服务器2基于所述命令用关键词对命令进行确定。在此,云服务器2对″开始会议″的命令进行确定。显示装置3C执行确定的所述命令。由此,显示装置3C的连接完成,显示装置3A、3B、3C连接于同一网络。由此,例如在显示装置3A的显示画面显示有用户B以及用户C的辨别信息(面部图像),在显示装置3B的显示画面显示有用户A以及用户C的辨别信息(面部图像),在显示装置3C的显示画面显示有用户A以及用户B的辨别信息(面部图像)(参照图3)。
当开始会议时,例如用户A发出的语音被语音处理装置1A接收,语音处理装置1A将接收到的语音经由网络而发送至语音处理装置1B、1C,语音处理装置1B、1C分别从扬声器输出接收到的语音。如此,进行用户A、B、C会话。
在此,例如在用户A发出包含所述特定词和作为所述命令用关键词的″显示帮助″的语音的情况下,语音处理装置1A当对所述特定词进行识别时,将所述命令用关键词发送至云服务器2。云服务器2当接收所述命令用关键词时,对″帮助显示″的命令进行确定(参照图11)。此外,云服务器2对执行所述命令的对象用户进行确定。在此,云服务器2对作为所述命令用关键词的发话者的″用户A″进行确定,以作为显示、阅览帮助画面的对象用户。显示装置3A执行确定的所述命令。由此,在显示装置3A的显示画面显示有帮助图像P1(参照图4)。在该情况下,在显示装置3B、3C的显示画面未显示帮助图像P1。
此外,例如在用户A发出包含所述特定词和作为所述命令用关键词的″附件显示″的语音的情况下,语音处理装置1A当对所述特定词进行识别时,将所述命令用关键词发送至云服务器2。云服务器2当对所述命令用关键词进行接收时,对″附件显示″的命令进行确定(参照图11)。此外,云服务器2对执行所述命令的对象用户进行确定在此云服务器2对参加会议的所有参加者、在此为″用户A″、″用户B″、″用户C″进行确定,以作为显示、阅览附件的对象用户。显示装置3A、3B、3C分别执行确定的所述命令由此在显示有图像P2的显示装置3A、3B、3C的各自的显示画面上显示有同一附件图像P3(参照图5)。另外,所述附件例如预先存储于数据库DB,其辨别信息(附件ID″f001″)登记于会议信息D1(参照图8)。
在附件图像P3显示于显示装置3A、3B、3C的显示画面的状态下,例如在用户A发出包含所述特定词和作为所述命令用关键词的″下一个页面″的语音的情况下,语音处理装置1A当对所述特定词进行识别时,将所述命令用关键词发送至云服务器2。云服务器2当接收所述命令用关键词时,对″翻动页面″的命令进行确定(参照图11)。云服务器2对″用户A″、″用户B″、″用户C″进行确定,以作为执行所述命令的对象用户。显示装置3A、3B、3C分别执行确定的所述命令。由此,在显示装置3A、3B、3C的各自的显示画面上,附件图像P3被切换为下一个页面的图像P4(参照图5)。
此外,例如在用户A发出包含所述特定词和作为所述命令用关键词的″显示″...″″的语音的情况下,语音处理装置1A当对所述特定词进行识别时,将所述命令用关键词发送至云服务器2。云服务器2当对所述命令用关键词进行接收时,对″指定文件显示″的命令进行确定(参照图11)。在此,假定用户A对″预算管理表″进行了指定以作为指定文件。云服务器2对执行所述命令的对象用户进行确定。在此,云服务器2参照内容信息D5(参照图12),对作为允许″预算管理表″的阅览的用户的″用户A″、″用户B″进行确定,以作为显示、阅览″预算管理表″的对象用户。显示装置3A、3B分别执行确定的所述命令。在由此,在显示装置3A、3B的各自的显示画面显示有同一图像P5(参照图6)。另外,所述指定文件例如预先存储于数据库DB,其辨别信息(内容ID″C001″)登记于内容信息D5(参照图12)。
此外,例如在用户A发出包含所述特定词和作为所述命令用关键词的″向″...″先生展示我本周的预定″的语音的情况下,语音处理装置1A当对所述特定词进行识别时,将所述命令用关键词发送至云服务器2。云服务器2当接收所述命令用关键词时,对″预定显示″的命令进行确定(参照图11)。在此,作为用户A展示所述预定(日程)的对象而假定指定了″用户C″。云服务器2对执行所述命令的对象用户进行确定。在此,云服务器2对发话者本人″用户A″和用户A指定的″用户C″进行确定,以作为显示、阅览用户A的预定的对象用户。显示装置3A、3C分别执行确定的所述命令。由此,在显示装置3A、3C的各自的显示画面显示有用户A的本周的预定的图像P6(参照图7)。另外所述预定例如预先存储于数据库DB其辨别信息(预定ID″S001″)登记于用户信息D2(参照图9)。
如上所述,会议系统100相对于根据命令的内容而确定的用户执行命令,从而能够将与命令对应的信息适当传递给用户。以下,对会议系统100的具体的构成进行说明。另外,在以下的说明中,在未对语音处理装置1A、1B、1C进行区别的情况下,称作″语音处理装置1″。此外,将云服务器2作为一台假想服务器进行说明。另外,云服务器2也可以置换为一台物理服务器。
[语音处理装置1]
如图2所示,语音处理装置1具备:控制部11、存储部12、扬声器13、麦克风14以及通信接口15等。语音处理装置1例如也可以是AI扬声器、智能扬声器等设备。语音处理装置1例如配置于会议室的桌子上,经由麦克风14获取参加会议的用户的语音、或从扬声器13相对于该用户输出(通知)语音。
通信接口15为,用于通过有线或无线将语音处理装置1连接于网络N1,并经由网络N1在其他设备(例如,其他语音处理装置1、云服务器2、显示装置3、数据库DB)之间执行与规定的通信协议对应的数据通信的通信接口。
存储部12为对各种信息进行存储的闪存等非易失性的存储部。在存储部12存储有用于使控制部11执行后述的语音处理(参照图13)的语音处理程序等控制程序。例如,所述语音处理程序从云服务器2传送并存储。此外所述语音处理程序也可以非临时性地记录于CD或DVD等计算机可读取的记录介质,也可以通过语音处理装置1所具备的CD驱动器或DVD驱动器等读取装置(未图示)读取并存储于存储部12。
控制部11具有CPU、ROM以及RAM等控制设备。所述CPU为执行各种运算处理的处理器。所述ROM预先存储用于使所述CPU执行各种处理的BIOS以及OS等控制程序。所述RAM对各种信息进行存储,并用作所述CPU要执行的各种处理的临时存储器(操作区域)。并且,控制部11通过所述CPU执行所述ROM或存储部12中预先存储的各种控制程序从而对语音处理装置1进行控制。
具体而言,控制部11包含:语音接收部111、发话者确定部112、语音判定部113、语音发送部114以及响应处理部115等各种处理部。另外,控制部11通过所述CPU执行与所述控制程序对应的各种处理从而作为所述各种处理部发挥功能。此外控制部11所包含的一部分或全部的处理部也可以由电子电路构成。另外,所述语音处理程序也可以是,用于使多个处理器作为所述各种处理部发挥功能的程序。
语音接收部111对利用语音处理装置1的用户发出的语音进行接收。语音接收部111为本发明的语音接收部的一个示例。用户发出例如与会议相关的语音、用于语音处理装置1开始命令的受理的特定词(也称作启动词、唤醒词)的语音以及对语音处理装置1进行指示的各种命令的语音(命令语音)等。语音接收部111对由用户发出的各种语音进行接收。
发话者确定部112基于由语音接收部111接收到的所述语音,对发出的用户(发话者)进行确定。发话者确定部112为本发明的发话者确定部的一个示例。例如,发话者确定部112对由语音接收部111接收到的所述语音、与预先登记于存储部12的用户语音进行比较从而对所述发话者进行确定。此外发话者确定部112也可以,基于由语音接收部111接收到的所述语音、和由照相机(未图示)拍摄的拍摄图像,对所述发话者进行确定。例如,发话者确定部112基于麦克风14的音频收集方向对接收到所述语音的方向(发话者的方向)进行确定,并基于该方向所包含的所述拍摄图像对发话者进行确定例如,在所述方向上所包含的所述拍摄图像中包含用户的情况下,发话者确定部112将该用户确定为发话者。
语音判定部113基于由语音接收部111接收到的所述语音,来判定该语音中是否包含所述特定词。语音判定部113为本发明的语音判定部的一个示例。例如,语音判定部113对由语音接收部111接收到的所述语音进行语音识别并转换为文本数据。并且,语音判定部113判定文本数据的开头中是否包含所述特定词。
语音发送部114基于语音判定部113的判定结果,对由语音接收部111接收的所述语音的发送目的地进行切换。具体而言,在由语音判定部113判定为在由语音接收部111接收到的所述语音中包含所述特定词的情况下,语音发送部114将包含于所述语音并与所述特定词紧挨着的关键词(命令用关键词)的文本数据发送至云服务器2。此外在由语音判定部113判定为在由语音接收部111接收到的所述语音中不包含所述特定词的情况下,语音发送部114将该语音发送至其他语音处理装置1。例如,语音处理装置1A的语音发送部114将不包含所述特定词的语音发送至语音处理装置1B、1C。
在此,语音发送部114也可以具备对如下模式进行切换的结构:对基于语音判定部113的判定结果将由语音接收部111接收到的所述语音发送至云服务器2的命令发送模式、和将由语音接收部111接收到的所述语音发送至其他语音处理装置1的语音发送模式进行切换。例如,在由语音判定部113判定为在由语音接收部111接收到的所述语音中包含所述特定词的情况下,语音发送部114将发送模式设定(切换)为命令发送模式。在发送模式被设定为命令发送模式的情况下,语音发送部114将与所述特定词紧挨着的所述命令用关键词(文本数据)发送至云服务器2。此外语音发送部114在将所述命令用关键词发送至云服务器2之后,将发送模式设定(切换)为语音发送模式。在发送模式被设定为语音发送模式的情况下,语音发送部114将由语音接收部111接收到的所述语音发送至其他语音处理装置1。如此,语音发送部114在接收到所述特定词的情况下切换为命令发送模式并将所述命令用关键词发送至云服务器2,当所述命令用关键词的发送处理结束时切换为语音发送模式。由此,在每次发出所述特定词时所述命令用关键词被发送至云服务器2,因此能够避免通常的会话的语音被错误地发送至云服务器2。
响应处理部115从云服务器2获取与云服务器2中确定的所述命令对应的响应(命令响应),并从扬声器13输出该命令响应。例如,在所述命令为与信息搜索的输出相关的内容的情况下,响应处理部115获取云服务器2中搜索到的结果,并从扬声器13输出该结果。
[云服务器2]
如图2所示,云服务器2具备:控制部21、存储部22以及通信接口23等。
通信接口23为,用于通过有线或无线将云服务器2连接于网络N1,并经由网络N1在其他设备(例如语音处理装置1A、1B、1C、显示装置3A、3B、3C、数据库DB)之间执行与规定的通信协议对应的数据通信的通信接口。
存储部22为,对各种信息进行存储的闪存等非易失性的存储部。在存储部22存储有用于使控制部21执行后述的语音处理(参照图13)的语音处理程序等控制程序。例如,所述语音处理程序也可以,非临时性地记录于CD或DVD等计算机可读取的记录介质也可以通过云服务器2所具备的CD驱动器或DVD驱动器等读取装置(未图示)读取并存储于存储部22。此外在存储部22存储有从语音处理装置1接收的所述命令用关键词的文本数据等。
控制部21具有CPU、ROM以及RAM等控制设备。所述CPU为执行各种运算处理的处理器。所述ROM预先存储用于使所述CPU执行各种处理的BIOS以及OS等控制程序。所述RAM对各种信息进行存储,并用作所述CPU要执行的各种处理的临时存储器(操作区域)。并且,控制部21通过所述CPU执行所述ROM或存储部22预先存储的各种控制程序从而对云服务器2进行控制。
此外控制部21参照数据库DB来执行各种处理。如图2所示,在数据库DB存储有会议信息D1、用户信息D2、参加者信息D3、命令信息D4、内容信息D5、内容数据D6等数据。
在图8中示出会议信息D1的一个示例。在会议信息D1中,按照每个会议,对应的″会议ID″、″名称″、″开始日期和时间″、″结束日期和时间″、″附件ID″、″参加者ID″等信息相互关联并登记,″会议ID″为会议的辨别信息,″名称″为会议的名称(议题)。″开始日期和时间″为会议的开始日期和时间,″结束日期和时间″为会议的结束日期和时间。″附件ID″为会议中使用的文件(资料)的辨别信息,″参加者ID″为参加会议的用户的辨别信息(用户ID)。与附件ID对应的文件数据存储于数据库DB。所述文件数据包含于内容数据D6。若决定召开会议则会议信息D1由负责人等事先登记。在图8中,示出用户A(″U001″)、用户B(″U002″)、用户C(″U003″)作为会议的参加者而登记。
在图9中示出用户信息D2的一个示例。在用户信息D2中,按照每个用户,对应的″用户ID″、″用户名″、″预定ID″等信息相互关联并登记。在用户信息D2中,不仅事先登记参加会议的用户的信息,还事先登记与具有利用会议系统100的权限的所有用户相关的信息。例如,企业的所有职员的信息登记于用户信息D2。″用户ID″为用户的辨别信息,″用户名″为用户的名字。″预定ID″为用户的预定(日程)的辨别信息。″预定ID″根据需要来登记。与预定ID对应的预定数据(日程数据)存储于数据库DB。所述预定数据包含于内容数据D6。
在图10中示出参加者信息D3的一个示例。在参加者信息D3中,按照每个会议,对应的″参加者ID″、″参加者名″、″显示装置ID″等信息相互关联并登记。″参加者ID″为参加会议的用户的辨别信息,″参加者名″为该用户的名字。″显示装置ID″为参加者所使用的显示装置,例如为配置于参加者参加会议的场所(会议室)的显示装置3的辨别信息。例如在配置于会议室的显示装置3中参加者进行登录操作,从而参加者ID、参加者名、显示装置ID等相互关联并登记于参加者信息D3。例如,当用户A在会议室A中显示装置3A所显示的登录画面上输入并登录用户ID″U001″时,用户ID″U001″与显示装置3A的辨别信息(显示装置ID)″D001″相关联并登记于参加者信息D3。同样地,当用户B在会议室B中显示装置3B所显示的登录画面上输入并登录用户ID″U002″时,用户ID″U002″与显示装置3B的显示装置ID″D002″相关联并登记于参加者信息D3,当用户C在会议室C中显示装置3C所显示的登录画面上输入并登录用户ID″U003″时,用户ID″U003″与显示装置3C的显示装置ID″D003″相关联并登记于参加者信息D3。另外,所述登录处理并不限定于所述的方法。例如,也可以用户所携带的便携式终端(例如智能电话)或ID卡与显示装置3或语音处理装置1进行无线通信,从而在参加者信息D3中登记有各信息。
在图11中示出命令信息D4的一个示例。在命令信息D4中,按照每个关键词(命令用关键词),对应的″关键词″、″命令″、″对象用户″等信息相互关联并登记。″关键词″为表示命令用关键词的信息,″命令″为表示命令的内容的信息。″对象用户″为表示作为执行命令的对象的用户的信息。如图11所示,相对于各关键词登记规定的命令,相对于各命令登记对象用户。
例如在″命令″为″开始会议″的情况下,未登记″对象用户″。此外在″命令″为″帮助显示″的情况下,在″对象用户″中登记有希望与帮助相关的信息的获取的″发话者″。此外在″命令″为″附件显示″的情况下,所述附件登记于会议信息D1(参照图8)且为会议所需的资料,因此在″对象用户″中登记有会议的″全部参加者″。此外在″命令″为″翻动页面″的情况下,在″对象用户″中登记有显示对应的文件的″文件显示中的参加者″。
此外在″命令″为″指定文件显示″的情况下,在″对象用户″中,作为允许所述指定文件的阅览的参加者而登记有″允许的参加者″。在此,如图12所示,在内容信息D5中,按照每个内容,对应的″内容ID″、″内容名″、″允许用户″等信息相互关联并登记。″内容ID″为文件(文档文件、资料文件、预定等)、图像(静态图像、动态图像等)等内容的辨别信息。″允许用户″为表示具有所述内容的阅览、显示、获取等访问权限的用户的信息。例如在内容ID″C001″的″预算管理表″中,用户A以及用户B具有阅览权限,但用户C不具有阅览权限。因此,例如在″关键词″为″显示预算管理表″的情况下、″对象用户″成为″用户A″以及″用户B″,在″关键词″为″显示专利附图″的情况下、″对象用户″成为″用户A″以及″用户C″。
此外在″命令″为″预定显示″的情况下,在″对象用户″中登记有被指定为发话者的用户、即作为与所述关键词中包含的用户名(本发明的用户确定用词的一个示例)对应的用户的″指定的参加者″。例如,在所述关键词为″向C先生展示我本周的预定″的情况下、在″对象用户″中登记有″用户A″以及″用户C″。
另外,作为其他实施方式,会议信息D1、用户信息D2、参加者信息D3、命令信息D4、内容信息D5、内容数据D6等信息的一部分或全部也可以,存储于语音处理装置1、云服务器2以及显示装置3中的任意一者,也可以分散存储于上述多个装置。此外,作为其他实施方式,所述各信息也可以存储于能够从会议系统100进行访问的服务器。在该情况下,会议系统100也可以从所述服务器获取所述各信息,并执行后述的语音处理(参照图13)等各处理。
如图2所示,控制部21包含语音接收部211、命令确定部212、对象用户确定部213、命令处理部214等各种处理部。另外,控制部21通过所述CPU执行与所述控制程序对应的各种处理从而作为所述各种处理部发挥功能。此外,控制部21所包含的一部分或全部的处理部也可以由电子电路构成。另外,所述控制程序也可以是,用于使多个处理器作为所述各种处理部发挥功能的程序。
语音接收部211对从语音处理装置1发送的所述命令用关键词进行接收。所述命令用关键词为,语音处理装置1所接收的语音的文本数据的开头所包含的与特定词紧挨着的词语(文本数据)。具体而言,当语音处理装置1对所述特定词进行检测并将所述命令用关键词发送至云服务器2时,云服务器2对该命令用关键词进行接收。
命令确定部212基于由语音接收部211接收到的所述命令用关键词来确定命令。命令确定部212为本发明的命令确定部212的一个示例。例如,命令确定部212参照数据库DB中存储的命令信息D4(参照图11),对与所述命令用关键词对应的命令进行确定。在本实施方式中构成为,在命令信息D4中预先登记有多个所述命令用关键词以及所述命令的组合,从命令信息D4之中确定与所述命令用关键词一致的所述命令,但命令的确定方法并不限定于此。例如,命令确定部212也可以,基于所述命令用关键词中包含的规定的用语、例如″帮助″、″文件″、″翻动″等用语、所述命令用关键词整体的短语、文章结构等,对用户的指示内容的意思进行解释并对所述命令进行确定。例如,命令确定部212也可以,使用词素分析、文章结构分析、意思分析、机械学习等公知的方法从所述命令用关键词中确定所述命令。
对象用户确定部213基于由命令确定部212确定的所述命令的内容(类别),来确定(决定)执行所述命令的对象用户。对象用户确定部213为本发明的对象用户确定部的一个示例。例如,对象用户确定部213参照命令信息D4(参照图11),来确定与由命令确定部212确定的所述命令关联的对象用户。例如,在确定对象用户的词语(用户确定用词)包含于所述命令用关键词的情况下,对象用户确定部213基于该词语来确定所述对象用户。此外在所述命令为显示规定的内容的内容且在所述内容中设定有用户的阅览权限的有无的情况下,对象用户确定部213将允许所述内容的阅览的用户确定为所述对象用户。
命令处理部214将由命令确定部212确定的所述命令的信息,存储于与由对象用户确定部213确定的所述对象用户关联的显示装置3所对应的命令存储区域(队列)。例如,在存储部22包含与参加者信息D3中登记的显示装置ID对应的一个或多个命令存储区域。在此,在存储部22包含与显示装置ID″D001″的显示装置3A对应的第一队列K1、与显示装置ID″D002″的显示装置3B对应的第二队列K2以及与显示装置ID″D003″的显示装置3C对应的第三队列K3。
例如,命令处理部214将由命令确定部212确定的命令″帮助显示″的信息存储于与由对象用户确定部213确定的对象用户″用户A″的用户ID″U001″关联的显示装置ID″D001″的显示装置3A所对应的第一队列K1。此外,例如,命令处理部214将由命令确定部212确定的命令″附件显示″的信息存储于:与由对象用户确定部213确定的对象用户″用户A″的用户ID″U001″关联的显示装置ID″D001″的显示装置3A所对应的第一队列K1、与″用户B″的用户ID″U002″关联的显示装置ID″D002″的显示装置3B所对应的第二队列K2、与″用户C″的用户ID″U003″关联的显示装置ID″D003″的显示装置3C所对应的第三队列K3。同样地例如,命令处理部214将由命令确定部212确定的命令″预定显示″的信息存储于与显示装置3A对应的第一队列K1、和与显示装置3C对应的第三队列K3。
各队列中存储的数据(命令)由与各队列对应的显示装置3取出,显示装置3执行所述命令。
[显示装置3]
如图2所示,显示装置3具备:控制部31、存储部32、操作部33、显示部34以及通信接口35等。
操作部33为,受理显示装置3的用户的操作的鼠标、键盘、或触控面板等。显示部34为,显示各种信息的液晶显示器或有机EL显示器等显示面板。操作部33以及显示部34也可以是一体形成的用户接口。
通信接口35为,用于通过有线或无线将显示装置3连接于网络N1,并经由网络N1在其他设备(例如语音处理装置1A、1B、1C、云服务器2、数据库DB)之间执行与规定的通信协议对应的数据通信的通信接口。
存储部32为,对各种信息进行存储的闪存等非易失性的存储部。在存储部32存储有用于使控制部31执行后述的语音处理(参照图13)的语音处理程序等控制程序。例如,所述语音处理程序也可以,非临时性地记录于CD或DVD等计算机可读取的记录介质也可以通过显示装置3所具备的CD驱动器或DVD驱动器等读取装置(未图示)读取并存储于存储部32。
控制部31具有CPU、ROM以及RAM等控制设备。所述CPU为,执行各种运算处理的处理器。所述ROM预先存储用于使所述CPU执行各种处理的BIOS以及OS等控制程序。所述RAM对各种信息进行存储,并用作所述CPU要执行的各种处理的临时存储器(操作区域)。并且,控制部31通过所述CPU执行所述ROM或存储部32中预先存储的各种控制程序从而对显示装置3进行控制。
具体而言,控制部31包含命令获取部311、命令执行部312等各种处理部。另外,控制部31通过所述CPU执行与所述控制程序对应的各种处理从而作为所述各种处理部发挥功能。此外,控制部31中包含的一部分或全部的处理部也可以由电子电路构成。另外,所述控制程序也可以是,用于使多个处理器作为所述各种处理部发挥功能的程序。
命令获取部311获取云服务器2的命令存储区域(队列)中存储的命令。具体而言,例如显示装置3A的命令获取部311对与显示装置3A对应的第一队列K1进行监视,当在第一队列K1存储有命令时获取该命令。同样地,显示装置3B的命令获取部311对与显示装置3B对应的第二队列K2进行监视,当在第二队列K2存储有命令时获取该命令。此外显示装置3C的命令获取部311对与显示装置3C对应的第三队列K3进行监视,当在第三队列K3存储有命令时获取该命令。另外,云服务器2的命令处理部214也可以,将与所述命令相关的数据发送至对应的显示装置3,命令获取部311获取该命令。
命令执行部312相对于由云服务器2的对象用户确定部213确定的所述对象用户执行由云服务器2的命令确定部212确定的所述命令。命令执行部312为本发明的命令执行部的一个示例。具体而言,命令执行部312执行由命令获取部311获取的所述命令例如,显示装置3A的命令执行部312执行由命令获取部311获取的第一队列K1中存储的命令。同样地,显示装置3B的命令执行部312执行由命令获取部311获取的第二队列K2中存储的命令。此外显示装置3C的命令执行部312执行由命令获取部311获取的第三队列K3中存储的命令。
例如,显示装置3A的命令执行部312将帮助图像P1显示于显示装置3A的显示部34的显示画面(参照图4)。此外显示装置3A、3B、3C各自的命令执行部312将附件图像P3显示于显示装置3A、3B、3C各自的显示部34的显示画面(参照图5)。此外显示装置3A、3B各自的命令执行部312将指定文件(例如″预算管理表″)的图像P5显示于显示装置3A、3B各自的显示部34的显示画面(参照图6)。此外显示装置3A、3C各自的命令执行部312将预定(例如″用户A的预定″)的图像P6显示于显示装置3A、3C各自的显示部34的显示画面(参照图7)。
如此,在由对象用户确定部213确定第一用户作为执行第一命令的所述对象用户的情况下,命令执行部312将与所述第一命令对应的第一内容显示于第一显示装置3,另一方面,在由对象用户确定部213确定第一用户以及第二用户作为执行第二命令的所述对象用户的情况下,命令执行部312将与所述第二命令对应的第二内容显示于第一显示装置3以及第二显示装置3。
[语音处理]
以下,参照图13以及图14对由语音处理装置1的控制部11、云服务器2的控制部21以及显示装置3的控制部31执行的语音处理的过程的一个示例进行说明。在此,在图1所示的会议系统100中,着眼于语音处理装置1A以及显示装置3A对所述语音处理进行说明。例如,语音处理装置1A的控制部11接收用户A的语音从而开始所述语音处理程序的执行,进而开始所述语音处理的执行。另外,所述语音处理在各个语音处理装置1A、1B、1C中单独且并行地执行。
另外,本发明能够成为执行所述语音处理所包含的一个或多个步骤的语音处理方法的发明。此外,在此说明的所述语音处理所包含的一个或多个步骤也可以适当省略。此外,所述语音处理中的各步骤也可以,在产生同样的作用效果的范围内使执行顺序不同。而且,在此列举通过控制部11、21、31执行所述语音处理中的各步骤的情况为例进行说明,在其他实施方式中,也可以通过一个或多个处理器分散地执行所述语音处理中的各步骤。
在步骤S101中,语音处理装置1A的控制部11判定是否从用户A接收到语音。在控制部11从用户A接收到所述语音的情况(S101:是)下,处理向步骤S102转移。控制部11待机直至从用户A接收到所述语音(S101:否)。步骤S101为本发明的语音接收步骤的一个示例。
在步骤S102中,控制部11判定是否基于接收到的所述语音确定发话者。在由控制部11确定所述发话者的情况(S102:是)下,处理向步骤S103转移。在由控制部11未确定所述发话者的情况(S102:否)下,处理返回步骤S101。步骤S102为本发明的发话者确定步骤的一个示例。
在步骤S103中,控制部11对所述语音进行识别。具体而言,控制部11对所述语音进行识别而将语音数据转换为文本数据。
接着在步骤S104中,控制部11判定所述文本数据中是否包含所述特定词。在由控制部11判定为在所述文本数据中包含所述特定词的情况(S104:是)下,处理向步骤S105转移。另一方面,在由控制部11判定为在所述文本数据中不包含所述特定词的情况(S104:否)下,处理向步骤S106转移。在所述文本数据中不包含所述特定词的情况下,该语音为会议中的会话的语音,因此在步骤S106中,控制部11将所述语音作为语音数据发送至其他语音处理装置1B、1C。步骤S104为本发明的语音判定步骤的一个示例。
在步骤S105中,控制部11将与所述特定词紧挨着的关键词(命令用关键词)的文本数据发送至云服务器2。
云服务器2的控制部21从语音处理装置1A接收命令用关键词的文本数据。在步骤S107中,控制部21对与所述命令用关键词对应的命令进行确定。例如,控制部21参照命令信息D4(参照图11),对与所述命令用关键词对应的命令进行确定。步骤S107为本发明的命令确定步骤的一个示例。
接着在步骤S108中,控制部21对执行确定的所述命令的对象用户进行确定。具体而言,控制部21基于所述命令的内容(类别)对对象用户进行确定。例如,控制部21参照命令信息D4(参照图11),对与所述命令关联的对象用户进行确定。步骤S108为本发明的对象用户确定步骤的一个示例。
接着在步骤S109中,控制部21将确定的所述命令存储于与确定的所述对象用户关联的显示装置3所对应的命令存储区域(队列)。例如,控制部21将所述命令存储于与作为所述对象用户的用户A关联的显示装置3A(″D001″)(参照图10)所对应的第一队列K1(参照图2)。
接着在步骤S110中,显示装置3的控制部31从与本装置对应的命令存储区域获取所述命令,并执行该命令。例如,显示装置3A的控制部31当在第一队列K1存储有所述命令时,获取并执行该命令。步骤S110为本发明的命令执行步骤的一个示例。
在此,对步骤S107的命令确定处理以及步骤S108的对象用户确定处理的具体例进行说明。图14为表示包含命令确定处理以及对象用户确定处理的处理S200的一个示例的流程图。
在步骤S107中,当确定与所述命令用关键词对应的命令时,在步骤S21中,云服务器2的控制部21判定所述命令是否是″开始会议″。在由控制部21判定为所述命令为″开始会议″的情况(S21:是)下,处理向步骤S111转移。例如控制部21将所述命令发送至对象的显示装置3。在步骤S111中,显示装置3的控制部31执行″开始会议″的命令,连接完成(参照图3)。另一方面,在由控制部21判定为所述命令不是″开始会议″的情况(S21:否)下,处理向步骤S22转移。
在步骤S22中,控制部21判定所述命令是否是″帮助显示″。在由控制部21判定为所述命令为″帮助显示″的情况(S22:是)下,处理向步骤S221转移。在步骤S221中,控制部21将发话者决定为所述对象用户。之后,在步骤S110中,控制部21将所述命令存储于与发话者关联的显示装置3的命令存储区域。由此,在显示装置3的显示部34的显示画面显示有帮助图像P1(参照图4)。另一方面,在由控制部21判定为所述命令不是″帮助显示″的情况(S22:否)下,处理向步骤S23转移。
在步骤S23中,控制部21判定所述命令是否是″附件显示″。在由控制部21判定为所述命令为″附件显示″的情况(S23:是)下,处理向步骤S231转移。在步骤S231中,控制部21将会议的全部参加者决定为所述对象用户。之后在步骤S110中,控制部21将所述命令存储于与各参加者关联的各显示装置3的命令存储区域。由此,在各显示装置3的显示部34的显示画面显示有附件图像P3(参照图5)。另一方面,在由控制部21判定为所述命令不是″附件显示″的情况(S23:否)下,处理向步骤S24转移。
在步骤S24中,控制部21判定所述命令是否是″翻动页面″。在由控制部21判定为所述命令为″翻动页面″的情况(S24:是)下,处理向步骤S241转移。在步骤S241中,控制部21将文件显示中的参加者决定为所述对象用户。之后在步骤S110中,控制部21将所述命令存储于与各参加者关联的各显示装置3的命令存储区域。由此,在各显示装置3的显示部34的显示画面中,显示中的图像(例如附件图像P3)被切换为下一个页面的图像P4(参照图5)。另一方面,在由控制部21判定为所述命令不是″翻动页面″的情况(S24:否)下,处理向步骤S25转移。
在步骤S25中,控制部21判定所述命令是否是″指定文件显示″。在由控制部21判定为所述命令是″指定文件显示″的情况(S25:是)下,处理向步骤S251转移。在步骤S251中,控制部21将允许指定的文件的阅览的用户决定为所述对象用户。之后在步骤S110中,控制部21将所述命令存储于与所述允许的用户关联的各显示装置3的命令存储区域。由此,在各显示装置3的显示部34的显示画面显示有图像P5(参照图6)。另一方面,在由控制部21判定为所述命令不是″指定文件显示″的情况(S25:否)下,处理向步骤S26转移。
在步骤S26中,控制部21判定所述命令是否是″预定显示″。在由控制部21判定为所述命令为″预定显示″的情况(S26:是)下,处理向步骤S261转移。在步骤S261中,控制部21将命令用关键词中指定的用户决定为所述对象用户,以作为显示预定(日程)的对象。之后在步骤S110中,控制部21将所述命令存储于与所述指定的用户关联的显示装置3的命令存储区域。由此,在显示装置3的显示部34的显示画面显示有图像P6(参照图7)。另一方面,在由控制部21判定为所述命令不是″预定显示″的情况(S26:否)下,处理向步骤S27转移。在步骤S27中,如上述的示例所示,控制部21对由用户指定的命令以及该命令的对象用户进行确定。
如以上所述,会议系统100执行所述语音处理。如上所述,本实施方式所涉及的会议系统100基于用户发出的命令的内容对执行该命令的对象用户进行确定,相对于确定的对象用户执行所述命令由此能够将与所述命令对应的信息仅提供给需要该信息的用户。由此,能够将与所述命令对应的信息适当传递给用户。
另外,本发明的语音处理系统还能够构成为,在各权利要求所记载的发明范围内,自由组合以上所示的各实施方式、或者对各实施方式适当进行变形、或省略一部分。
本发明的范围并不限于上述内容,而是由权利要求的记载来定义,所以可以认为本说明书记载的实施方式只是举例说明,而并非进行限定。因此,所有不脱离权利要求的范围、界限的更改以及等同于权利要求的范围、界限的内容都包含在权利要求的范围内。

Claims (10)

1.一种语音处理系统,其特征在于,具备:
语音接收部,其接收语音;
发话者确定部,其基于由所述语音接收部接收的所述语音来确定发话者;
语音判定部,其基于由所述语音接收部接收的所述语音,来判定该语音中是否包含特定词,该特定词用于开始规定的命令的受理;
命令确定部,其在由所述语音判定部判定为所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;
对象用户确定部,其基于由所述命令确定部确定的所述命令的内容,来确定执行所述命令的对象用户;以及
命令执行部,其相对于由所述对象用户确定部确定的所述对象用户执行由所述命令确定部确定的所述命令。
2.根据权利要求1所述的语音处理系统,其特征在于,
所述对象用户确定部参照预先使所述命令用关键词、所述命令、所述对象用户相互关联并进行存储的存储部,并基于由所述命令确定部确定的所述命令的内容来确定所述对象用户。
3.根据权利要求1所述的语音处理系统,其特征在于,
所述对象用户确定部在由所述语音接收部接收的所述语音中包含用于确定所述对象用户的用户确定用词的情况下,基于该用户确定用词来确定所述对象用户。
4.根据权利要求1所述的语音处理系统,其特征在于,
在所述命令为显示规定的内容的内容且在所述内容中设定有用户的阅览权限的有无的情况下,
所述对象用户确定部将被允许了所述内容的阅览的用户确定为所述对象用户。
5.根据权利要求1至4中任一项所述的语音处理系统,其特征在于,
包含对应于第一用户的第一终端装置和对应于第二用户的第二终端装置,所述第一终端装置与所示第二终端装置经由网络连接,
在通过所述对象用户确定部将所述第一用户确定为执行第一命令的所述对象用户的情况下,所述命令执行部将与所述第一命令对应的第一内容显示于所述第一终端装置,另一方面,
在通过所述对象用户确定部将所述第一用户以及所述第二用户确定为执行第二命令的所述对象用户的情况下,所述命令执行部将与所述第二命令对应的第二内容显示于所述第一终端装置以及所述第二终端装置。
6.根据权利要求1至5中任一项所述的语音处理系统,其特征在于,
在执行由所述命令确定部确定的所述命令的对象的每个终端装置具备命令存储区域,
每个所述终端装置设置有所述命令执行部,
第一终端装置的第一命令执行部在与该第一终端装置对应的第一命令存储区域登记有第一命令的情况下,执行该第一命令,
第二终端装置的第二命令执行部在与该第二终端装置对应的第二命令存储区域登记有第二命令的情况下,执行该第二命令。
7.根据权利要求1至6中任一项所述的语音处理系统,其特征在于,
还具备语音发送部,所述语音发送部在由所述发话者确定部将第一用户确定为由所述语音接收部接收到的所述语音的所述发话者的情况下,
在由所述语音判定部判定为在所述第一用户发出的所述语音中不包含所述特定词的情况下,将由所述语音接收部接收到的所述语音发送至第二用户。
8.一种会议系统,其特征在于,在每个区域配置有语音处理装置以及显示装置,并能够经由所述语音处理装置在所述区域间进行语音的收发,
所述会议系统具备:
语音接收部,其接收所述语音;
发话者确定部,其基于由所述语音接收部接收的所述语音来确定发话者;
语音判定部,其基于由所述语音接收部接收的所述语音,来判定该语音中是否包含特定词,该特定词用于开始规定的命令的受理;
命令确定部,其在由所述语音判定部判定为在所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;
对象用户确定部,其基于由所述命令确定部确定的所述命令的内容,来确定执行所述命令的对象用户;以及
命令执行部,其在由所述对象用户确定部确定的所述对象用户所处于的所述区域的所述显示装置中执行由所述命令确定部确定的所述命令。
9.一种语音处理方法,其特征在于,通过一个或多个处理器执行如下步骤:
语音接收步骤,接收语音;
发话者确定步骤,基于由所述语音接收步骤接收的所述语音来确定发话者;
语音判定步骤,基于由所述语音接收步骤接收的所述语音,来判定该语音中是否包含特定词,该特定词用于开始规定的命令的受理;
命令确定步骤,在由所述语音判定步骤判定为在所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;
对象用户确定步骤,基于由所述命令确定步骤确定的所述命令的内容,来确定执行所述命令的对象用户;以及
命令执行步骤,相对于由所述对象用户确定步骤确定的所述对象用户执行由所述命令确定步骤确定的所述命令。
10.一种存储有语音处理程序的计算机可读取的记录介质,其特征在于,所述语音处理程序用于通过一个或多个处理器执行如下步骤:
语音接收步骤,接收语音;
发话者确定步骤,基于由所述语音接收步骤接收的所述语音来确定发话者;
语音判定步骤,基于由所述语音接收步骤接收的所述语音,来判定该语音中是否包含特定词,该特定词用于开始规定的命令的受理;
命令确定步骤,在由所述语音判定步骤判定为在所述语音中包含所述特定词的情况下,基于包含于所述语音并与所述特定词紧挨着的命令用关键词,来确定所述命令;
对象用户确定步骤,基于由所述命令确定步骤确定的所述命令的内容,来确定执行所述命令的对象用户;以及
命令执行步骤,相对于由所述对象用户确定步骤确定的所述对象用户执行由所述命令确定步骤确定的所述命令。
CN202010426661.6A 2019-06-05 2020-05-19 语音处理系统、会议系统、语音处理方法以及记录介质 Pending CN112053684A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-105188 2019-06-05
JP2019105188A JP7351642B2 (ja) 2019-06-05 2019-06-05 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム

Publications (1)

Publication Number Publication Date
CN112053684A true CN112053684A (zh) 2020-12-08

Family

ID=73608783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010426661.6A Pending CN112053684A (zh) 2019-06-05 2020-05-19 语音处理系统、会议系统、语音处理方法以及记录介质

Country Status (3)

Country Link
US (1) US11568866B2 (zh)
JP (1) JP7351642B2 (zh)
CN (1) CN112053684A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070434A1 (en) * 1999-07-15 2009-03-12 Himmelstein Richard B System and method for efficiently accessing internet resources
CN101874398A (zh) * 2007-09-27 2010-10-27 西门子通讯公司 用于电话会议参与者的标识的方法和装置
JP2011053629A (ja) * 2009-09-04 2011-03-17 Sharp Corp 会議中継装置及びコンピュータプログラム
JP2016218361A (ja) * 2015-05-25 2016-12-22 クラリオン株式会社 音声認識システム、車載器およびサーバ装置
CN107430856A (zh) * 2015-03-23 2017-12-01 索尼公司 信息处理系统和信息处理方法
US20180182380A1 (en) * 2016-12-28 2018-06-28 Amazon Technologies, Inc. Audio message extraction
US20180288104A1 (en) * 2017-03-30 2018-10-04 Intel Corporation Methods, systems and apparatus to enable voice assistant device communication
US20180351895A1 (en) * 2018-07-11 2018-12-06 Yogesh Rathod In the event of selection of message, invoking camera to enabling to capture media and relating, attaching, integrating, overlay message with/on/in captured media and send to message sender

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004343232A (ja) 2003-05-13 2004-12-02 Nec Corp 通信装置及び通信方法
JP4710331B2 (ja) * 2005-01-27 2011-06-29 ソニー株式会社 プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
JP2012160793A (ja) * 2011-01-28 2012-08-23 Konica Minolta Business Technologies Inc テレビ会議システム及びテレビ会議用装置並びにプログラム
US10075801B2 (en) * 2012-07-13 2018-09-11 Sony Corporation Information processing system and storage medium
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US20190251961A1 (en) * 2018-02-15 2019-08-15 Lenovo (Singapore) Pte. Ltd. Transcription of audio communication to identify command to device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070434A1 (en) * 1999-07-15 2009-03-12 Himmelstein Richard B System and method for efficiently accessing internet resources
CN101874398A (zh) * 2007-09-27 2010-10-27 西门子通讯公司 用于电话会议参与者的标识的方法和装置
JP2011053629A (ja) * 2009-09-04 2011-03-17 Sharp Corp 会議中継装置及びコンピュータプログラム
CN107430856A (zh) * 2015-03-23 2017-12-01 索尼公司 信息处理系统和信息处理方法
JP2016218361A (ja) * 2015-05-25 2016-12-22 クラリオン株式会社 音声認識システム、車載器およびサーバ装置
US20180182380A1 (en) * 2016-12-28 2018-06-28 Amazon Technologies, Inc. Audio message extraction
US20180288104A1 (en) * 2017-03-30 2018-10-04 Intel Corporation Methods, systems and apparatus to enable voice assistant device communication
US20180351895A1 (en) * 2018-07-11 2018-12-06 Yogesh Rathod In the event of selection of message, invoking camera to enabling to capture media and relating, attaching, integrating, overlay message with/on/in captured media and send to message sender

Also Published As

Publication number Publication date
US11568866B2 (en) 2023-01-31
JP2020198588A (ja) 2020-12-10
US20200388279A1 (en) 2020-12-10
JP7351642B2 (ja) 2023-09-27

Similar Documents

Publication Publication Date Title
US9064160B2 (en) Meeting room participant recogniser
JP5279333B2 (ja) システム、接続制御装置、端末装置、制御方法及びプログラム
US20110055227A1 (en) Conference relay apparatus and conference system
EP3869504A1 (en) Voice user interface display method and conference terminal
US20150154960A1 (en) System and associated methodology for selecting meeting users based on speech
US20160294892A1 (en) Storage Medium Storing Program, Server Apparatus, and Method of Controlling Server Apparatus
CN109671438A (zh) 一种利用语音提供辅助服务的装置及方法
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN109920436A (zh) 一种提供辅助服务的装置及方法
JP2012160793A (ja) テレビ会議システム及びテレビ会議用装置並びにプログラム
JP2010109898A (ja) 撮影制御装置、撮影制御方法及びプログラム
JP6973380B2 (ja) 情報処理装置、および情報処理方法
JP6689953B2 (ja) 通訳サービスシステム、通訳サービス方法及び通訳サービスプログラム
CN114363547A (zh) 一种双录装置、双录交互控制方法
CN116193179A (zh) 会议记录方法、终端设备和会议记录系统
CN112053684A (zh) 语音处理系统、会议系统、语音处理方法以及记录介质
JP7290524B2 (ja) 情報処理システム、情報処理方法、及び情報処理プログラム
US20140093064A1 (en) Communication processing system, communication processing method, communication processing device, and control method and control program of communication processing device
CN111901552B (zh) 多媒体数据传输方法、装置及电子设备
US10276169B2 (en) Speaker recognition optimization
JP2021018664A (ja) 情報処理システム、情報処理方法、及びプログラム
CN111667822B (zh) 语音处理装置、会议系统以及语音处理方法
US20240064269A1 (en) Identification of screen discrepancy during meeting
JP7116444B1 (ja) 申請支援システム、ユーザー端末装置、申請支援装置、及びプログラム
US20220075592A1 (en) Voice processing system, voice processing method and recording medium recording voice processing program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination