JP6543844B2 - 音源同定装置および音源同定方法 - Google Patents
音源同定装置および音源同定方法 Download PDFInfo
- Publication number
- JP6543844B2 JP6543844B2 JP2015168108A JP2015168108A JP6543844B2 JP 6543844 B2 JP6543844 B2 JP 6543844B2 JP 2015168108 A JP2015168108 A JP 2015168108A JP 2015168108 A JP2015168108 A JP 2015168108A JP 6543844 B2 JP6543844 B2 JP 6543844B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- unit
- signal
- identification
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 77
- 230000004807 localization Effects 0.000 claims description 86
- 238000001228 spectrum Methods 0.000 claims description 81
- 238000000926 separation method Methods 0.000 claims description 76
- 230000005236 sound signal Effects 0.000 claims description 50
- 238000001514 detection method Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 11
- 238000012790 confirmation Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- IOCMOSUFEBBJOB-UHFFFAOYSA-K diethyl-bis[10-(triethylazaniumyl)decyl]azanium triiodide Chemical compound [I-].[I-].[I-].C(C)[N+](CCCCCCCCCC[N+](CC)(CC)CC)(CCCCCCCCCC[N+](CC)(CC)CC)CC IOCMOSUFEBBJOB-UHFFFAOYSA-K 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
Description
特許文献1には、音源定位部と音源同定部を有し、音源定位部と音源同定部それぞれが、複数のパルスニューロンモデルを備えたニューラルネットワークにより構成されている音源同定装置が開示されている。なお、パルスニューロンモデルとは、入出力信号としてパルス列を用いるニューロンモデルである。また、特許文献1に記載の技術では、パルスニューロンモデルに対して学習を行うことで音源同定の精度を向上させることが提案されている。
(3)また、本発明の一態様に係る音源同定装置において、前記第1閾値以上の信号は、前記音源分離部によって分離された音源の信号であるようにしてもよい。
また、上述した(2)、(3)の構成によれば、音源が検出された場合のみ、すなわち高SN比の信号に対してのみ音源同定を行うので、雑音に対して音源同定を行うことを防ぐことができる。
また、上述した(2)、(4)の構成によれば、雑音のスペクトルを推定することで、音源同定に用いる第1閾値を適切に求めることができる。
また、上述した(5)の構成によれば、平均化された雑音スペクトルを用いることによって、突発的な雑音等の影響を低減することができる。
<音源同定装置1の構成>
図1は、本実施形態に係る音源同定装置1の構成を示すブロック図である。
図1に示すように、音源同定装置1は、収音部10、音響信号取得部12、音源定位部14、音源追跡部16、音源分離部18、音源同定部20、識別器22、定位結果出力部24、同定結果出力部26、および分離結果出力部28を備えている。また、音源同定部20は、S/N推定部202および音源種類同定部204を備えている。
“MUSIC法を用いた音源定位のベイズ拡張”、大塚琢馬、中臺一博、尾形哲也、奥乃博、日本ロボット学会、第29回日本ロボット学会学術講習会、2011年
同定結果出力部26は、音源種類同定部204が出力した音源同定情報に基づく音源同定結果を音源毎かつストリーム毎に出力する。なお、音源同定結果には、音源毎に、その音源の種類を示す情報が含まれている。
分離結果出力部28は、音源分離部18が出力した分離した音源毎の周波数領域信号を時間領域信号に変換し、変換した信号をストリーム毎のタイミングで出力する。
図3は、音源同定の対象である1ストリームの信号の例を説明するための図である。図3において、横軸は時刻を表す。
一般的な音源同定では、例えば1フレーム毎に音源同定を行う。そして、音源同定では、例えば、フレーム毎に同定した結果に対して1ストリーム内で多数決を行って、最終的な音源の種類を同定する。
このため、本実施形態では、高SN比の信号、すなわち空間スペクトルが第1閾値(同定閾値ThSSI(d))以上の音響信号に対して同定された結果に対して多数決を行うことで、音源同定を行う。これにより、本実施形態では、同定結果に、低SN比の信号に対する同定結果が含まれていないため、音源同定の精度を向上させることができる。
次に、音源定位部14が行うMUSIC法(例えば、参考文献1を参照)による音源定位処理の概略を説明する。
xτ,ωをMチャネルの音響信号の時間フレームτ、周波数ビンωにおける複素振幅ベクトルとする。音源定位部14は、各周波数ビンω、ΔT[sec]間隔の時刻tに対して、次式(1)に示すように、入力信号の自己相関行列Rt,ωを算出する。
次に、音源定位部14は、次式(2)のように自己相関行列Rt,ωを固有値分解する。
次に、音源定位部14は、次式(3)を用いて、所定の方位毎に空間スペクトル(MUSICスペクトル)を算出する。所定の方位毎とは、例えば5度毎である。
次に、音源定位部14は、次式(4)のように、方位d毎かつ周波数ビン毎にMUSICスペクトルを合算して合算値を求める。
次に、音源分離部18が行うGHDSS−AS法(例えば、参考文献2参照)による音源分離処理の概略を説明する。
以下の説明において、音源数N(≧マイクロホンの個数M)である。また、周波数ωにおけるN個の音源に対するスペクトルのベクトルをu(ω)=[s1(ω)s2(ω)・・・sN(ω)]Tとし、周波数ωにおけるM個のマイクロホン11で収音した音響信号のスペクトルのベクトルをω、x(ω)=[x1(ω)x2(ω)・・・xM(ω)]Tとする。x(ω)は、次式(5)のように表される。
音源分離部18は、分離行列W(ω)を算出するために、例えば次式(7)、(8)に示すブラインド分離に対応する分離尖鋭度(Separation Sharpness)Jssと、ビームフォーマに対応する幾何制約度(Geometric Constraint)JGCとの2つのコスト関数を用いる。
最終的なコスト関数J(W)は、次式(11)のように表される。
なお、音源分離部18は、分離行列W(ω)を、例えばフレーム毎に、次式(12)を用いて更新する。
“ロボット聴覚〜高雑音下でのハンズフリー音声認識〜”、中臺一博、奥乃博、電子情報通信学会、信学技法、2011年
次に、S/N推定部202が行う雑音スペクトル推定処理について説明する。
S/N推定部202は、音源が検出されなかった区間、すなわち雑音であると判別された区間、次式(13)を用いて、音源定位部14から入力された空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)を方位d毎に算出する。
S/N推定部202は、算出した加算平均の値SPave(d)に定数α(d)を加算して、次式(14)を用いて、同定閾値ThSSI(d)を算出する。
S/N推定部202は、空間スペクトルのパワーが算出した同定閾値ThSSI(d)(第1閾値)以上であるか否かを、定位された音源の方位毎かつフレーム毎に判別する。S/N推定部202は、空間スペクトルのパワーが算出した同定閾値ThSSI(d)以上である場合、音源同定を行うことを示す情報を、定位された音源の方位毎かつフレーム毎に音源種類同定部204に出力する。また、S/N推定部202は、空間スペクトルのパワーが算出した同定閾値ThSSI(d)未満である場合、音源同定を行わないことを示す情報を、定位された音源の方位毎かつフレーム毎に音源種類同定部204に出力する。
第2閾値は、収音された音響信号に含まれている音を検出するための閾値である。第2閾値は、予め定められた値であってもよく、収音された音響信号の大きさに応じて決定される値であってもよい。第2閾値以上の信号には、低SN比の信号も含まれている場合もある。
第1閾値は、式(14)によって算出された同定閾値であり、高SN比の信号のフレームを抽出するための閾値である。
なお、第1閾値は第2閾値より大きい。これにより、S/N推定部202は、第1閾値を用いて、音源があると検出された場合であっても、低SN比の信号のフレームを除去または、高SN比の信号のフレームを抽出することができる。
次に、音源同定装置1が行う処理手順を説明する。
図4は、本実施形態に係る音源同定装置1が行う処理のフローチャートである。
(ステップS1)音源定位部14は、音響信号取得部12が出力したMチャネルの周波数領域信号に対して、空間スペクトルを算出する。続けて、音源定位部14は、算出した空間スペクトルに基づいて、例えば1〜数十フレーム単位で離散的に、音源定位を行う。続けて、音源分離部18は、音源追跡部16から入力された音源定位情報を用いて、Mチャネルの音響信号に対して、フレームまたはサンプル単位で連続的に音源毎の音響信号を分離する。なお、音源定位処理と音源分離処理とは、並列して行うようにしてもよい。
また、本実施形態では、音響信号取得部12が、取得した音響信号を周波数領域信号に変換する例を説明したが、音源定位部14および音源分離部18が音響信号を周波数領域信号に変換するようにしてもよい。
また、音源分離部18は、周知の手法を用いて雑音抑圧を行ってもよい。
また、本実施形態の音源同定装置1において、第1閾値(同定閾値ThSSI)以上の信号は、音源定位部14によって定位された音源の信号である。
第1実施形態では、音源定位部14が音源定位した結果を用いて、高SN比の信号を抽出して音源同定を行う例を説明したが、本実施形態では、音源分離部が音源分離した結果を用いて、高SN比の信号を抽出して音源同定を行う例を説明する。
図5は、本実施形態に係る音源同定装置1Aの構成を示すブロック図である。
図5に示すように、音源同定装置1Aは、収音部10、音響信号取得部12、音源定位部14A、音源追跡部16、音源分離部18A、音源同定部20A、識別器22、定位結果出力部24、同定結果出力部26、および分離結果出力部28を備えている。また、音源同定部20Aは、S/N推定部202Aおよび音源種類同定部204を備えている。なお、音源同定装置1と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。
S/N推定部202Aは、算出した加算平均の値SPaveに定数αを加算して、次式(16)を用いて、同定閾値ThSSIを音源毎に算出する。
次に、音源同定装置1Aが行う処理手順を説明する。
図6は、本実施形態に係る音源同定装置1Aが行う処理のフローチャートである。なお、音源同定装置1が行う処理と同様の処理については、同じ符号を用いて説明を省略する。
第2実施形態では、音源分離部18AまたはS/N推定部202Aが、スペクトルのパワーと第2閾値を比較して、音声信号がある区間を検出する例を説明したが、本実施形態では、時間領域の音声信号に対して音声信号がある区間を検出して、音源同定を行う例を説明する。
図7は、本実施形態の変形例に係る音源同定装置1Bの構成を示すブロック図である。
図7に示すように、音源同定装置1Bは、収音部10、音響信号取得部12、音源定位部14A、音源追跡部16、音源分離部18B、音源同定部20B、識別器22、定位結果出力部24、同定結果出力部26、および分離結果出力部28を備えている。また、音源同定部20Bは、S/N推定部202Bおよび音源種類同定部204を備えている。また、S/N推定部202Bは、時間領域変換部2021およびフレームワイズ区間検出部2022を備える。なお、音源同定装置1Aと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。また、本実施形態においても、音源同定の対象が音声である例を説明するが、同定対象は音声に限らない。
次に、音源同定装置1Bが行う処理手順を説明する。
図8は、本実施形態に係る音源同定装置1Bが行う処理のフローチャートである。なお、音源同定装置1または音源同定装置1Bが行う処理と同様の処理については、同じ符号を用いて説明を省略する。
第1実施形態〜第3実施形態では、音源定位された空間スペクトルのうち高SN比の信号を第1閾値によって抽出し、または分離されたスペクトルのうち高SN比の信号を第1閾値によって抽出し、さらに識別器22を用いて音源の種類の同定を行う例を説明した。
本実施形態では、識別器を学習させるときに、第1閾値も一緒に学習させることで、固定された第1閾値を用いる例を説明する。なお、以下では、音源同定装置1に適用する例を説明するが、音源同定装置1Aまたは音源同定装置1Bに適用するようにしてもよい。
図9に示すように、学習装置400は、学習部401、記憶部402、識別器生成部403、識別器出力部404、および定数α出力部405を備えている。
学習部401には、学習データとして、音源同定装置1によって定位された音源毎の空間スペクトルが入力される。学習部401は、空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)を算出し、定数αの値を変化させ、同定閾値を算出する。学習部401は、音源同定装置1の音源同定部20を用いて、音源同定を行う。そして、同定した結果の認識率と、同定に用いた音、空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)、定数α、および同定閾値を対応付けて、図10に示すように記憶部402に記憶させて学習する。図10は、本実施形態に係る機器別器に学習させる値の例を示す図である。学習部401は、定数αを変化させ、認識率も最も高くなる定数αを選択する。学習部401は、このように最適化された定数αを定数α出力部405に出力する。
識別器出力部404は、識別器生成部403が出力した識別器を、音源同定装置1の識別器22に格納する。なお、識別器22には、定数αを格納するようにしてもよい。
図11における信号は、時間領域で表した音響信号g200であり、横軸は時刻、縦軸はパワーを表している。また、符号g201は、空間スペクトルMusicSP(k,d)の加算平均の値SPave(d)であり、符号g202は、定数αであり、符号g203は、高SN比の信号として抽出される部分である。
次に、第1実施形態の音源同定装置1をベースに用いて、音源同定の確認実験を行った結果の例を説明する。
なお、実験に用いた音源同定装置では、CNN(畳み込みニューラルネットワーク)を用いて学習させた識別器22を用いた。用いたCNNは、畳み込み層1、プーリング層1、中間層1、出力層1である。CNNへの入力データとしては、高SN比の各区間検出と音源分離の条件の組み合わせによって得られた分離音からそれぞれ音響特徴を抽出し、20×20の入力ベクタを作成し学習に用いた。また、学習パラメータは、学習回数1,000回、学習係数0.10で行い、バッチサイズ50でSGDミニバッチ学習を行った。なお、音源同定において、CNNを用いるため、空間スペクトルの二次元画像に対して畳み込み処理を行った。
また、音源定位部14は、MUSIC法の拡張であるはiGSVD−MUSIC−
CMS法(例えば、参考文献3参照)を用いて音源定位を行い、音源分離部18は、GHDSS−AS法を用いて音源分離を行った。
また、実験では、収音された音響信号のうち、第1実施形態で説明した方法で高SN比の信号の区間を抽出し、抽出された高SN比の信号のみを用いて、音源同定を行った。
相関行列スケーリングを用いたiGSVD−MUSIC法による屋外環境音源探索の向上、大畑他、第32回日本ロボット学会学術講演会、2014
図14は、ホイッスルの音を音源に用いた場合のMUSICスペクトルと音源定位結果の例を示す図である。図14において、横軸はフレーム(Frame)、縦軸は方位(Drection)である。
図15に示す結果は、識別器22(図1)の学習に、CNN、GMM(混合数10)、GMM(混合数20)を用いた場合の音源同定における認識率である。
図15に示すように、CNNを用いた場合が98.02%と最も高く、次いでGMM(混合数20)を用いた場合が81.02%、GMM(混合数10)を用いた場合が78.43%であった。
以上のように、識別器22にCNNを用い、高SN比の信号のみを用いて音源同定を行うことで、98%以上の高い認識率を得ることができた。
Claims (5)
- 複数のマイクロホンで構成される収音部と、
前記収音部が収音した音響信号に基づいて音源を定位する音源定位部と、
前記音源定位部によって定位されて信号に基づいて前記音源の分離を行う音源分離部と、
前記音源分離部によって分離された結果に基づいて、所定の値である第1閾値と前記第1閾値より小さい値の第2閾値を用いて前記音源の種類の同定を行う音源同定部と、を備え、
前記音源同定部は、
前記音源分離部によって分離された信号に対して、前記第1閾値以上の大きさの信号であるか否かを判別し、分離された前記信号が前記第1閾値以上である場合に前記音源の種類の同定を行い、
前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第1閾値を決定し、
前記第2閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第1閾値以上の信号に対して音源の種類の同定を行う、音源同定装置。 - 前記第1閾値以上の信号は、
前記音源定位部によって定位された音源の信号である、請求項1に記載の音源同定装置。 - 前記第1閾値以上の信号は、
前記音源分離部によって分離された音源の信号である、請求項1に記載の音源同定装置。 - 前記音源同定部は、
前記雑音のスペクトルの推定値の加算平均を用いて、前記第1閾値を算出する、請求項1から請求項3のいずれか1項に記載の音源同定装置。 - 収音部が、複数のマイクロホンで構成される収音手順と、
音源定位部が、前記収音手順によって収音された音響信号に基づいて音源を定位する音源定位手順と、
音源分離部が、前記音源定位手順によって定位されて信号に基づいて前記音源の分離を行う音源分離手順と、
音源同定部が、前記音源分離手順によって分離された信号に対して、所定の値である第1閾値以上の大きさの信号であるか否かを判別し、分離された信号が前記第1閾値以上の大きさの信号である場合に前記音源の種類の同定を行う音源同定手順と、
前記音源同定部が、前記音源が検出されなかった場合に、前記収音された音響信号に含まれる雑音のスペクトルの推定を行い、推定した前記雑音のスペクトルの推定値に基づいて前記第1閾値を決定する手順と、
前記音源同定部が、前記第1閾値より小さい第2閾値を用いて前記音源が検出されたとき、前記音源の大きさが前記第1閾値以上の信号に対して音源の種類の同定を行う手順と、
を含む音源同定方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015168108A JP6543844B2 (ja) | 2015-08-27 | 2015-08-27 | 音源同定装置および音源同定方法 |
US15/227,286 US10127922B2 (en) | 2015-08-27 | 2016-08-03 | Sound source identification apparatus and sound source identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015168108A JP6543844B2 (ja) | 2015-08-27 | 2015-08-27 | 音源同定装置および音源同定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017044916A JP2017044916A (ja) | 2017-03-02 |
JP6543844B2 true JP6543844B2 (ja) | 2019-07-17 |
Family
ID=58104208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015168108A Active JP6543844B2 (ja) | 2015-08-27 | 2015-08-27 | 音源同定装置および音源同定方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10127922B2 (ja) |
JP (1) | JP6543844B2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10063965B2 (en) * | 2016-06-01 | 2018-08-28 | Google Llc | Sound source estimation using neural networks |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
JP6472823B2 (ja) * | 2017-03-21 | 2019-02-20 | 株式会社東芝 | 信号処理装置、信号処理方法および属性付与装置 |
JP6800809B2 (ja) | 2017-06-01 | 2020-12-16 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
US10264354B1 (en) * | 2017-09-25 | 2019-04-16 | Cirrus Logic, Inc. | Spatial cues from broadside detection |
US11099075B2 (en) | 2017-11-02 | 2021-08-24 | Fluke Corporation | Focus and/or parallax adjustment in acoustic imaging using distance information |
US11209306B2 (en) * | 2017-11-02 | 2021-12-28 | Fluke Corporation | Portable acoustic imaging tool with scanning and analysis capability |
US11762089B2 (en) | 2018-07-24 | 2023-09-19 | Fluke Corporation | Systems and methods for representing acoustic signatures from a target scene |
KR102093819B1 (ko) * | 2018-09-10 | 2020-03-26 | 한국과학기술연구원 | 음원 분리 장치 및 방법 |
WO2020129231A1 (ja) * | 2018-12-21 | 2020-06-25 | 三菱電機株式会社 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
JP7248478B2 (ja) * | 2019-03-28 | 2023-03-29 | 本田技研工業株式会社 | 車両制御装置、端末装置、サーバ装置、車両、車両制御システム及び車両制御方法 |
DE112020002116T5 (de) * | 2019-04-26 | 2022-01-27 | Sony Group Corporation | Informationsverarbeitungsvorrichtung und Verfahren und Programm |
CN110931041B (zh) * | 2019-11-21 | 2022-08-30 | 北京地平线机器人技术研发有限公司 | 一种声源确定方法及装置 |
KR102288994B1 (ko) * | 2019-12-02 | 2021-08-12 | 아이브스 주식회사 | 인공지능 기반의 이상음원 인식 장치, 그 방법 및 이를 이용한 관제시스템 |
JP7292646B2 (ja) * | 2019-12-11 | 2023-06-19 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
WO2021138420A1 (en) * | 2019-12-31 | 2021-07-08 | Zipline International Inc. | Acoustic based detection and avoidance for aircraft |
CN111965601A (zh) * | 2020-08-05 | 2020-11-20 | 西南交通大学 | 一种基于核极限学习机的水下声源被动定位方法 |
CN111968671B (zh) * | 2020-08-24 | 2024-03-01 | 中国电子科技集团公司第三研究所 | 基于多维特征空间的低空声目标综合识别方法及装置 |
CN116013272A (zh) * | 2022-12-29 | 2023-04-25 | 北京天玛智控科技股份有限公司 | 声音识别模型的训练方法、装置、电子设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3584458B2 (ja) * | 1997-10-31 | 2004-11-04 | ソニー株式会社 | パターン認識装置およびパターン認識方法 |
JP3907194B2 (ja) * | 2003-05-23 | 2007-04-18 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP4516527B2 (ja) * | 2003-11-12 | 2010-08-04 | 本田技研工業株式会社 | 音声認識装置 |
US8787866B2 (en) * | 2005-07-26 | 2014-07-22 | International Business Machines Corporation | System, method and program for controlling mute function on telephone |
JP4982743B2 (ja) | 2006-09-26 | 2012-07-25 | 国立大学法人 名古屋工業大学 | 音源定位・同定装置 |
JP4607908B2 (ja) * | 2007-01-12 | 2011-01-05 | 株式会社レイトロン | 音声区間検出装置および音声区間検出方法 |
JP5738020B2 (ja) * | 2010-03-11 | 2015-06-17 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
JP5702685B2 (ja) * | 2010-08-17 | 2015-04-15 | 本田技研工業株式会社 | 音源方向推定装置及び音源方向推定方法 |
US8175297B1 (en) * | 2011-07-06 | 2012-05-08 | Google Inc. | Ad hoc sensor arrays |
JP5952692B2 (ja) * | 2012-09-13 | 2016-07-13 | 本田技研工業株式会社 | 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム |
KR101225678B1 (ko) * | 2012-09-17 | 2013-01-24 | (주)알고코리아 | 지향성 자동 조절 보청기 및 자동 조절 방법 |
US9313250B2 (en) * | 2013-06-04 | 2016-04-12 | Tencent Technology (Shenzhen) Company Limited | Audio playback method, apparatus and system |
JP6268916B2 (ja) * | 2013-10-24 | 2018-01-31 | 富士通株式会社 | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム |
-
2015
- 2015-08-27 JP JP2015168108A patent/JP6543844B2/ja active Active
-
2016
- 2016-08-03 US US15/227,286 patent/US10127922B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170061981A1 (en) | 2017-03-02 |
JP2017044916A (ja) | 2017-03-02 |
US10127922B2 (en) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6543844B2 (ja) | 音源同定装置および音源同定方法 | |
CN109830245B (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
CN108269569B (zh) | 语音识别方法和设备 | |
US9378752B2 (en) | Sound processing device, sound processing method, and sound processing program | |
CN112349297B (zh) | 一种基于麦克风阵列的抑郁症检测方法 | |
US9583119B2 (en) | Sound source separating device and sound source separating method | |
US9971012B2 (en) | Sound direction estimation device, sound direction estimation method, and sound direction estimation program | |
US9478230B2 (en) | Speech processing apparatus, method, and program of reducing reverberation of speech signals | |
JP7131424B2 (ja) | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム | |
US10002623B2 (en) | Speech-processing apparatus and speech-processing method | |
JP6723120B2 (ja) | 音響処理装置および音響処理方法 | |
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
CN112180318B (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
US10063966B2 (en) | Speech-processing apparatus and speech-processing method | |
EP4147228B1 (en) | System and method for multi-microphone automated clinical documentation | |
JP6540742B2 (ja) | 物体認識装置および物体認識方法 | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
US11297418B2 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
JP7292646B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
Nguyen et al. | Location Estimation of Receivers in an Audio Room using Deep Learning with a Convolution Neural Network. | |
JP6167062B2 (ja) | 分類装置、分類方法、およびプログラム | |
CN110675890A (zh) | 声音信号处理装置以及声音信号处理方法 | |
WO2023228785A1 (ja) | 音響信号処理装置、音響信号処理方法及びプログラム | |
JP6565084B2 (ja) | 物体認証装置および物体認証方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171129 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6543844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |