JP2021076715A - 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム - Google Patents
音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム Download PDFInfo
- Publication number
- JP2021076715A JP2021076715A JP2019203340A JP2019203340A JP2021076715A JP 2021076715 A JP2021076715 A JP 2021076715A JP 2019203340 A JP2019203340 A JP 2019203340A JP 2019203340 A JP2019203340 A JP 2019203340A JP 2021076715 A JP2021076715 A JP 2021076715A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- data
- machine learning
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 10
- 238000003672 processing method Methods 0.000 title claims abstract description 5
- 238000010801 machine learning Methods 0.000 claims abstract description 42
- 238000004891 communication Methods 0.000 claims abstract description 18
- 230000001360 synchronised effect Effects 0.000 claims abstract description 14
- 238000003384 imaging method Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 25
- 238000000034 method Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 11
- 238000009434 installation Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010040007 Sense of oppression Diseases 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
1a :台座部
1b :延伸部
1c :ユニット設置部
2 :筐体部
10 :終了制御部
11 :同期制御部
12 :記録制御部
13 :記録部
14 :ミュート制御部
15 :通信制御部
20 :ミュートボタン
31,32,33,34,35,36 :会議出席者
50,50−1,50−n :マイク
51,51−1,51−2,50−n :カメラ
100 :会議室
101 :CPU
102 :ROM
103 :RAM
104 :入力装置
105 :通信インタフェース
106 :バス
110 :テーブル
120 :ホワイトボード
200 :クラウドサーバ
201 :音声認識エンジン
201a :音声特徴量抽出部
201b :音声認識器
202 :読唇処理部
202a :画像特徴量抽出部
202b :機械読唇器
203 :統合器
210 :プロセッサ
220 :メモリ
230 :入出力インタフェース
240 :バス
300 :音声認識システム
301 :通信ネットワーク
Claims (14)
- 複数の音声を検出する音声検出部と、
複数の前記音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、
を備え、
同期された複数の前記音声データを音声認識エンジンの機械学習に用いる音声認識装置。 - 複数の前記音声データを記録する記録部を備える請求項1に記載の音声認識装置。
- 外部機器との間で複数の前記音声データの通信を行う通信制御部を備える請求項1又は2に記載の音声認識装置。
- 複数の前記音声の録音を一時停止するミュート制御部を備える請求項1から3の何れか一項に記載の音声認識装置。
- 前記ミュート制御部は、記録された複数の前記音声データを一定時間遡った時点まで消去する請求項4に記載の音声認識装置。
- 複数の前記音声検出部は、それぞれの配置位置が互いに異なり、又はそれぞれの向きが互いに異なる請求項1から5の何れか一項に記載の音声認識装置。
- 撮像部を備え、
前記撮像部で撮像されたデータである撮像データを、機械読唇の機械学習に用いる請求項1から6の何れか一項に記載の音声認識装置。 - 前記音声認識エンジンの機械学習の結果に応じて、前記機械読唇の機械学習の結果を採用し又は採用しない統合器を備える請求項7に記載の音声認識装置。
- 音声認識装置の筐体部から着脱可能な撮像部を備える請求項1から8の何れか一項に記載の音声認識装置。
- 撮像部を備え、
前記同期制御部は、前記音声データに前記撮像部で撮像された画像の内容を示すデータである撮像データを同期させる制御を行い、
同期された複数の前記音声データ及び前記撮像データを音声認識エンジンの機械学習に用いる請求項1から9の何れか一項に記載の音声認識装置。 - 撮像部を備え
前記音声データ及び前記撮像部で撮像されたデータである撮像データに対して、同一の教師ラベルを用いて機械学習を行う請求項1から10の何れか一項に記載の音声認識装置。 - 請求項1から11の何れか一項に記載の音声認識装置と、
前記音声認識エンジンを備えるサーバと、
を備える音声認識システム。 - 音声認識装置が、音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行い、
サーバが、同期された複数の前記音声データを音声認識エンジンの機械学習に用いる情報処理方法。 - 音声認識装置に、音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行わせ、
サーバに、同期された複数の前記音声データを用いて音声認識エンジンの機械学習を行わせる情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019203340A JP7400364B2 (ja) | 2019-11-08 | 2019-11-08 | 音声認識システム及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019203340A JP7400364B2 (ja) | 2019-11-08 | 2019-11-08 | 音声認識システム及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021076715A true JP2021076715A (ja) | 2021-05-20 |
JP7400364B2 JP7400364B2 (ja) | 2023-12-19 |
Family
ID=75897980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019203340A Active JP7400364B2 (ja) | 2019-11-08 | 2019-11-08 | 音声認識システム及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7400364B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742517A (zh) * | 2021-08-11 | 2021-12-03 | 北京百度网讯科技有限公司 | 语音包的生成方法、装置、电子设备和存储介质 |
CN115881129A (zh) * | 2023-03-09 | 2023-03-31 | 绵阳师范学院 | 一种机器人语音识别系统及其使用方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (ja) * | 1999-03-26 | 2000-12-19 | Canon Inc | 情報処理装置 |
JPWO2004084187A1 (ja) * | 2003-03-17 | 2006-06-29 | 財団法人名古屋産業科学研究所 | 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置 |
JP2007052859A (ja) * | 2005-08-18 | 2007-03-01 | Sony Corp | データ記録装置 |
JP2018013549A (ja) * | 2016-07-19 | 2018-01-25 | 株式会社デンソー | 発話内容認識装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004084187A (ja) | 2002-08-23 | 2004-03-18 | Natl Inst For Land & Infrastructure Management Mlit | 柱等衝突防止柵 |
-
2019
- 2019-11-08 JP JP2019203340A patent/JP7400364B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (ja) * | 1999-03-26 | 2000-12-19 | Canon Inc | 情報処理装置 |
JPWO2004084187A1 (ja) * | 2003-03-17 | 2006-06-29 | 財団法人名古屋産業科学研究所 | 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置 |
JP2007052859A (ja) * | 2005-08-18 | 2007-03-01 | Sony Corp | データ記録装置 |
JP2018013549A (ja) * | 2016-07-19 | 2018-01-25 | 株式会社デンソー | 発話内容認識装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742517A (zh) * | 2021-08-11 | 2021-12-03 | 北京百度网讯科技有限公司 | 语音包的生成方法、装置、电子设备和存储介质 |
CN113742517B (zh) * | 2021-08-11 | 2022-09-27 | 北京百度网讯科技有限公司 | 语音包的生成方法、装置、电子设备和存储介质 |
CN115881129A (zh) * | 2023-03-09 | 2023-03-31 | 绵阳师范学院 | 一种机器人语音识别系统及其使用方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7400364B2 (ja) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7536789B2 (ja) | 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力 | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
US9293133B2 (en) | Improving voice communication over a network | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN114097027A (zh) | 讲话者归属的记录稿生成 | |
CN110741433A (zh) | 使用多个计算设备的对讲式通信 | |
CN110874137B (zh) | 一种交互方法以及装置 | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
US20180054688A1 (en) | Personal Audio Lifestyle Analytics and Behavior Modification Feedback | |
WO2016187910A1 (zh) | 一种语音文字的转换方法及设备、存储介质 | |
JP7279494B2 (ja) | 会議支援装置、および会議支援システム | |
Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
Gogate et al. | Av speech enhancement challenge using a real noisy corpus | |
Ronzhin et al. | Speaker turn detection based on multimodal situation analysis | |
TWI769520B (zh) | 多國語言語音辨識及翻譯方法與相關的系統 | |
US12073844B2 (en) | Audio-visual hearing aid | |
WO2020102943A1 (zh) | 手势识别模型的生成方法、装置、存储介质及电子设备 | |
WO2019150708A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
JP2020067562A (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
CN112420046B (zh) | 适合听障人士参与的多人会议方法、系统及装置 | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
JP2022142374A (ja) | 音声認識システム、音声認識方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231120 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7400364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |