JP2023103287A - 音声処理装置、会議システム、及び音声処理方法 - Google Patents
音声処理装置、会議システム、及び音声処理方法 Download PDFInfo
- Publication number
- JP2023103287A JP2023103287A JP2023072113A JP2023072113A JP2023103287A JP 2023103287 A JP2023103287 A JP 2023103287A JP 2023072113 A JP2023072113 A JP 2023072113A JP 2023072113 A JP2023072113 A JP 2023072113A JP 2023103287 A JP2023103287 A JP 2023103287A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- audio
- command
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 7
- 230000005540 biological transmission Effects 0.000 claims abstract description 86
- 230000004044 response Effects 0.000 claims description 36
- 238000003384 imaging method Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 53
- 230000008569 process Effects 0.000 description 33
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
図2に示すように、音声処理装置1は、制御部11、記憶部12、スピーカ13、マイク14、カメラ15、及び通信インターフェース16などを備える。音声処理装置1は、例えばAIスピーカ、スマートスピーカなどの機器であってもよい。音声処理装置1は、例えば会議室の机の中央付近に配置され、会議に参加するユーザの音声をマイク14を介して取得したり、当該ユーザに対してスピーカ13から音声を出力(報知)したりする。
図2に示すように、クラウドサーバ2は、制御部21、記憶部22、通信インターフェース23などを備える。
以下、図4及び図5を参照しつつ、音声処理装置1の制御部11によって実行される音声処理の手順の一例について説明する。ここでは、図1に示す会議システム100において、音声処理装置1Aに着目して前記音声処理を説明する。例えば、音声処理装置1Aの制御部11は、ユーザの音声を受信することにより前記音声処理プログラムの実行を開始することによって、前記音声処理の実行を開始する。なお、前記音声処理は、音声処理装置1A,1Bのそれぞれにおいて、個別に並行して実行される。
2 :クラウドサーバ
11 :制御部
12 :記憶部
13 :スピーカ
14 :マイク
15 :カメラ
16 :通信インターフェース
21 :制御部
22 :記憶部
23 :通信インターフェース
100 :会議システム
111 :音声受信部
112 :画像取得部
113 :話者特定部
114 :音声判定部
115 :音声送信部
116 :表示処理部
117 :調整処理部
118 :応答処理部
211 :音声受信部
212 :コマンド判定部
213 :コマンド処理部
Claims (11)
- 音声を受信する音声受信部と、
前記音声受信部より受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、
前記音声判定部による判定結果に基づいて、前記音声受信部より受信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第1送信モードと、前記音声受信部より受信される前記音声を所定の外部機器に送信する第2送信モードとを切り替える音声送信部と、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力する応答処理部と、
を備え、
前記音声送信部は、前記第1送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第1送信モードを維持し、前記第1送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第2送信モードに切り替える、音声処理装置。 - 撮像部により撮像される撮像画像を取得する画像取得部と、
前記音声受信部より受信される前記音声と、前記画像取得部により取得される前記撮像画像とに基づいて、発話者を特定する話者特定部と、
をさらに備え、
前記音声判定部は、前記音声受信部より受信される前記音声と、前記撮像画像に含まれる前記話者特定部により特定される前記発話者の画像とに基づいて、当該音声が前記特定ワードであるか否かを判定する、
請求項1に記載の音声処理装置。 - 前記音声送信部は、前記音声判定部により前記音声受信部より受信された前記音声が前記特定ワードであると判定された場合に前記第1送信モードに切り替え、前記第1送信モードにおいて当該音声を前記サーバ装置に送信した後に前記第2送信モードに切り替える、
請求項1又は2に記載の音声処理装置。 - 前記話者特定部は、前記音声受信部より受信される前記音声を受信した方向に含まれる前記撮像画像から抽出される発話候補者が予め記憶されたユーザ情報に登録されているか否かを判定し、当該発話候補者が前記ユーザ情報に登録されている場合に当該発話候補者を前記発話者として特定する、
請求項2に記載の音声処理装置。 - 前記話者特定部は、前記音声受信部より受信される前記音声を受信した方向に含まれる前記撮像画像から抽出される発話候補者の口の動きと、前記音声受信部が前記音声を受信するタイミングとが一致するか否かを判定し、当該口の動きと前記音声を受信するタイミングとが一致する場合に、当該発話候補者を前記発話者として特定する、
請求項2に記載の音声処理装置。 - 前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードであると判定された場合に、前記音声送信部は、前記音声受信部が前記特定ワードの次に受信する音声をコマンド音声として前記サーバ装置に送信する、
請求項1~5のいずれかに記載の音声処理装置。 - 前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードでないと判定された場合に、前記音声送信部は、当該音声を所定の外部機器に送信する、
請求項1~6のいずれかに記載の音声処理装置。 - 前記音声判定部は、前記音声受信部より受信される前記音声が前記特定ワードと一致し、かつ、前記撮像画像に含まれる前記発話者の顔の方向又は視線が前記撮像部に向けられている場合に、前記音声受信部より受信される前記音声が前記特定ワードであると判定する、
請求項2に記載の音声処理装置。 - ネットワークを介して互いに接続される第1音声処理装置及び第2音声処理装置を含み、前記第1音声処理装置で受信する音声を前記第2音声処理装置に送信し、前記第2音声処理装置で受信する音声を前記第1音声処理装置に送信することが可能な会議システムであって、
前記第1音声処理装置は、
音声を受信する音声受信部と、
前記音声受信部より受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、
前記音声判定部による判定結果に基づいて、前記音声受信部より受信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第1送信モードと、前記音声受信部より受信される前記音声を前記第2音声処理装置に送信する第2送信モードとを切り替える音声送信部と、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力する応答処理部と、
を備え、
前記音声送信部は、前記第1送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第1送信モードを維持し、前記第1送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第2送信モードに切り替える、会議システム。 - 前記第2音声処理装置は、前記第2送信モードにおいて、前記第1音声処理装置から受信する前記音声を出力する、
請求項9に記載の会議システム。 - 音声を受信することと、
受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定することと、
判定結果に基づいて、受信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第1送信モードと、受信される前記音声を所定の外部機器に送信する第2送信モードとを切り替えることと、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力することと、
前記第1送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第1送信モードを維持し、前記第1送信モードにおいて前記サーバ装置から取得される前記コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第2送信モードに切り替えることと、
を一又は複数のプロセッサーが実行する音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023072113A JP7553645B2 (ja) | 2019-03-06 | 2023-04-26 | 音声処理装置、会議システム、及び音声処理方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019040288A JP2020144209A (ja) | 2019-03-06 | 2019-03-06 | 音声処理装置、会議システム、及び音声処理方法 |
JP2023072113A JP7553645B2 (ja) | 2019-03-06 | 2023-04-26 | 音声処理装置、会議システム、及び音声処理方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019040288A Division JP2020144209A (ja) | 2019-03-06 | 2019-03-06 | 音声処理装置、会議システム、及び音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023103287A true JP2023103287A (ja) | 2023-07-26 |
JP7553645B2 JP7553645B2 (ja) | 2024-09-18 |
Family
ID=72335397
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019040288A Pending JP2020144209A (ja) | 2019-03-06 | 2019-03-06 | 音声処理装置、会議システム、及び音声処理方法 |
JP2023072113A Active JP7553645B2 (ja) | 2019-03-06 | 2023-04-26 | 音声処理装置、会議システム、及び音声処理方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019040288A Pending JP2020144209A (ja) | 2019-03-06 | 2019-03-06 | 音声処理装置、会議システム、及び音声処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11322145B2 (ja) |
JP (2) | JP2020144209A (ja) |
CN (1) | CN111667822B (ja) |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3910898B2 (ja) * | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP2010055375A (ja) | 2008-08-28 | 2010-03-11 | Toshiba Corp | 電子機器操作指示装置およびその操作方法 |
US9723260B2 (en) * | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
JP5561079B2 (ja) * | 2010-10-04 | 2014-07-30 | 株式会社リコー | 通話端末、通話システム、通話端末用プログラム、及び通信方法 |
US9087516B2 (en) * | 2012-11-19 | 2015-07-21 | International Business Machines Corporation | Interleaving voice commands for electronic meetings |
KR20140087717A (ko) | 2012-12-31 | 2014-07-09 | 삼성전자주식회사 | 디스플레이 장치 및 제어 방법 |
JP6149433B2 (ja) * | 2013-03-11 | 2017-06-21 | 株式会社リコー | テレビ会議装置、テレビ会議装置の制御方法、及びプログラム |
JP6175961B2 (ja) * | 2013-07-29 | 2017-08-09 | 株式会社リコー | 通信システム、方法、通信装置およびプログラム |
US10134395B2 (en) * | 2013-09-25 | 2018-11-20 | Amazon Technologies, Inc. | In-call virtual assistants |
DE112014006409T5 (de) * | 2014-02-26 | 2016-12-08 | Mitsubishi Electric Corporation | Fahrzeugsteuervorrichtung und Fahrzeugsteuerverfahren |
CA2874715C (en) * | 2014-12-15 | 2022-03-15 | Ibm Canada Limited - Ibm Canada Limitee | Dynamic video and sound adjustment in a video conference |
DE112014007288T5 (de) * | 2014-12-26 | 2017-09-07 | Mitsubishi Electric Corporation | Spracherkennungssystem |
JP2017090613A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
JP6447578B2 (ja) * | 2016-05-27 | 2019-01-09 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
CN106569773A (zh) * | 2016-10-31 | 2017-04-19 | 努比亚技术有限公司 | 一种终端和语音交互的处理方法 |
JP6791356B2 (ja) * | 2017-03-24 | 2020-11-25 | ヤマハ株式会社 | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 |
CN107297745B (zh) * | 2017-06-28 | 2019-08-13 | 上海木木机器人技术有限公司 | 语音交互方法、语音交互装置及机器人 |
CN109307856A (zh) * | 2017-07-27 | 2019-02-05 | 深圳市冠旭电子股份有限公司 | 一种机器人空间定位的交互方法及装置 |
US10388325B1 (en) * | 2018-03-30 | 2019-08-20 | Microsoft Technology Licensing, Llc | Non-disruptive NUI command |
US10867610B2 (en) * | 2018-05-04 | 2020-12-15 | Microsoft Technology Licensing, Llc | Computerized intelligent assistant for conferences |
-
2019
- 2019-03-06 JP JP2019040288A patent/JP2020144209A/ja active Pending
-
2020
- 2020-02-24 CN CN202010110772.6A patent/CN111667822B/zh active Active
- 2020-02-26 US US16/802,149 patent/US11322145B2/en active Active
-
2023
- 2023-04-26 JP JP2023072113A patent/JP7553645B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP7553645B2 (ja) | 2024-09-18 |
JP2020144209A (ja) | 2020-09-10 |
US11322145B2 (en) | 2022-05-03 |
CN111667822A (zh) | 2020-09-15 |
CN111667822B (zh) | 2023-10-24 |
US20200286478A1 (en) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7536789B2 (ja) | 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力 | |
US9548053B1 (en) | Audible command filtering | |
JP2019518985A (ja) | 分散したマイクロホンからの音声の処理 | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
CN112331193B (zh) | 语音交互方法及相关装置 | |
JP6084654B2 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
JP5332798B2 (ja) | 通信制御装置、通信制御方法、及び通信制御プログラム | |
JP6497372B2 (ja) | 音声対話装置および音声対話方法 | |
JP2013167806A (ja) | 情報通知支援装置、情報通知支援方法、および、プログラム | |
US10089980B2 (en) | Sound reproduction method, speech dialogue device, and recording medium | |
CN111971647A (zh) | 语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法 | |
JP7427408B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP7026004B2 (ja) | 会話補助装置、会話補助方法及びプログラム | |
JP2018174439A (ja) | 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム | |
JP7330066B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
JP6973380B2 (ja) | 情報処理装置、および情報処理方法 | |
JP6934831B2 (ja) | 対話装置及びプログラム | |
KR20200024068A (ko) | 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템 | |
JP2023103287A (ja) | 音声処理装置、会議システム、及び音声処理方法 | |
JP2010199741A (ja) | 携帯電話端末装置 | |
JP2022062874A (ja) | 話者予測方法、話者予測装置、およびコミュニケーションシステム | |
US11651779B2 (en) | Voice processing system, voice processing method, and storage medium storing voice processing program | |
KR20190043576A (ko) | 통신 장치 | |
KR102000282B1 (ko) | 청각 기능 보조용 대화 지원 장치 | |
CN111988426A (zh) | 基于声纹识别的通信方法、装置、智能终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7553645 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |