JP6994874B2 - Annotation device and noise measurement system - Google Patents
Annotation device and noise measurement system Download PDFInfo
- Publication number
- JP6994874B2 JP6994874B2 JP2017166535A JP2017166535A JP6994874B2 JP 6994874 B2 JP6994874 B2 JP 6994874B2 JP 2017166535 A JP2017166535 A JP 2017166535A JP 2017166535 A JP2017166535 A JP 2017166535A JP 6994874 B2 JP6994874 B2 JP 6994874B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- data
- input data
- input
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
特許法第30条第2項適用 一般社団法人 日本音響学会,2017年日本音響学会春季研究発表会講演論文集,第795頁~第798頁,平成29年3月1日 2017年日本音響学会春季研究発表会,平成29年3月15日Application of
本発明は、アノテーション装置および騒音測定システムに関するものである。 The present invention relates to an annotation device and a noise measurement system.
大量のデータを扱う環境音の騒音測定では、対象となる音源とそれ以外の音源とを選別する労力を軽減するために、自動的な音源識別が要求される。ある音源種別識別装置は、ニューラルネットワークを有する判定手段を備え、入力音響のパワースペクトル分布をサブバンド化して得られるデータをニューラルネットワークの入力とし、そのニューラルネットワークの出力として音源種別信号を生成する(例えば特許文献1参照)。 In noise measurement of environmental sounds that handle a large amount of data, automatic sound source identification is required in order to reduce the labor of selecting the target sound source and other sound sources. A certain sound source type identification device includes a determination means having a neural network, takes data obtained by subbanding the power spectrum distribution of an input sound as an input of the neural network, and generates a sound source type signal as an output of the neural network ( For example, see Patent Document 1).
ニューラルネットワークなどの識別器で音源種別を精度よく識別するためには、機械学習において大量の教師データ(音響データと、音源種別との対)が必要となる。そのような入力データに、その入力データに対応する正しい音源種別(ラベル)を付す作業をアノテーションという。 In order to accurately identify a sound source type with a classifier such as a neural network, a large amount of teacher data (a pair of acoustic data and a sound source type) is required in machine learning. The work of attaching the correct sound source type (label) corresponding to the input data to such input data is called annotation.
環境音から音源種別を識別する識別器のための教師データを準備するためには、通常、環境音についての長時間の録音データを再生し、再生音を聴取して、人が、各時点の再生音の音源種別を特定して、その音源種別をラベル付けする。その際、再生音だけでは現場の状況がわかりにくく、1回の聴取では音源種別を特定できない場合には、再生音を繰り返して聴取して音源種別を特定する。そのため、環境音から音源種別を識別する識別器の機械学習用の教師データの準備には、膨大な時間と労力を要する。 In order to prepare the teacher data for the discriminator that identifies the sound source type from the environmental sound, usually, a person plays a long-time recorded data about the environmental sound, listens to the reproduced sound, and a person at each time point. Specify the sound source type of the reproduced sound and label the sound source type. At that time, if it is difficult to understand the situation at the site only by the reproduced sound and the sound source type cannot be specified by one listening, the reproduced sound is repeatedly listened to and the sound source type is specified. Therefore, it takes a huge amount of time and effort to prepare the teacher data for machine learning of the classifier that identifies the sound source type from the environmental sound.
特に、複数の音源からの音響が重なっている再生音の場合、聴覚情報のみでは、それらの音源の種別を正確に特定できないこともある。さらに、屋外の伝搬では、周囲の建物での音響の反射や回折などによって音響特性が変化することがあり、聴覚のみによるアノテーションでは、ラベル付けが正確に行われない可能性がある。 In particular, in the case of reproduced sound in which sounds from a plurality of sound sources overlap, it may not be possible to accurately identify the type of those sound sources only by auditory information. Furthermore, in outdoor propagation, acoustic characteristics may change due to acoustic reflections and diffractions in surrounding buildings, and auditory annotation may not be labeled accurately.
本発明は、上記の問題に鑑みてなされたものであり、学習データ数を確保しつつ、音源種別などの対象音の種別を識別する識別器用の教師データを生成するアノテーションのための時間と労力を軽減するアノテーション装置および騒音測定システムを得ることを目的とする。 The present invention has been made in view of the above problems, and the time and effort for annotation to generate teacher data for a discriminator that identifies a target sound type such as a sound source type while securing the number of training data. The purpose is to obtain an annotation device and a noise measurement system that reduce the noise.
本発明に係るアノテーション装置は、対象音の音響信号の周波数スペクトルデータを含む入力データから、その対象音の分類を示す出力データを出力する識別器を機械学習するための教師データを生成するアノテーション装置であり、環境音を集音する集音装置と、その集音現場で対象となる環境音の聴取時のユーザーによる音源種別を示すリアルタイムのユーザー操作を検出する入力装置と、集音装置により得られた環境音の音響信号から対象音の入力データを生成する音響処理部と、入力装置により検出されたユーザー操作に対応する分類を特定し、入力データに対して、特定した分類を示す出力データをラベルとして関連付け、入力データと、入力データに関連付けられた出力データとの対を教師データとするラベル付け部とを備える。さらに、本発明に係るアノテーション装置は、以下の(A)または(B)の構成を備える。(A)ラベル付け部は、リアルタイムで、音響処理部により生成される入力データを受け付け、入力装置により検出されたユーザー操作が検出された期間の入力データに、特定した分類をラベルとして関連付ける。(B)音響処理部により生成された入力データから、所定の複数の分類のそれぞれの事後確率を示す出力データを出力する識別器と、識別器により出力された出力データにより示される、分類ごとに、事後確率を時系列に沿って、事後確率波形として表示装置に表示させるとともに、事後確率波形において事後確率が所定の閾値を超えている区間に沿って、候補区間を表示装置に表示させる表示処理部とをさらに備え、入力装置は、候補区間に対するユーザー操作を検出し、ラベル付け部は、ユーザーにより操作された1または複数の候補区間を確定し、確定した1または複数の候補区間に対応する1または複数の分類を特定し、特定した1または複数の分類を示す出力データをラベルとして入力データに関連付ける。
The annotation device according to the present invention is an annotation device that generates teacher data for machine learning a classifier that outputs output data indicating the classification of the target sound from input data including frequency spectrum data of the acoustic signal of the target sound. It is obtained by a sound collector that collects environmental sounds, an input device that detects real-time user operations that indicate the sound source type by the user when listening to the target environmental sound at the sound collection site, and a sound collector. The sound processing unit that generates the input data of the target sound from the acoustic signal of the environmental sound, and the classification corresponding to the user operation detected by the input device are specified, and the output data indicating the specified classification is given to the input data. Is associated as a label, and a labeling unit is provided in which a pair of input data and output data associated with the input data is used as teacher data. Further, the annotation device according to the present invention has the following configuration (A) or (B). (A) The labeling unit receives the input data generated by the sound processing unit in real time, and associates the specified classification with the input data during the period in which the user operation detected by the input device is detected as a label. (B) A classifier that outputs output data indicating the posterior probabilities of each of a plurality of predetermined classifications from the input data generated by the sound processing unit, and a classifier that is indicated by the output data output by the classifier for each classification. , The display process of displaying the posterior probability as a posterior probability waveform on the display device along the time series and displaying the candidate section on the display device along the section where the posterior probability exceeds a predetermined threshold in the posterior probability waveform. Further including a unit, the input device detects a user operation on the candidate section, and the labeling unit determines one or more candidate sections operated by the user and corresponds to the determined one or more candidate sections. Identify one or more classifications and associate the output data indicating the identified one or more classifications with the input data as labels.
本発明に係る騒音測定システムは、上述のアノテーション装置を備え、そのアノテーション装置により生成された教師データで識別器の機械学習を行い、機械学習された識別器で、対象音の音響信号の周波数スペクトルデータを含む入力データから、対象音の音源種別を示す出力データを生成する。 The noise measurement system according to the present invention is provided with the above-mentioned annotating device, machine learning of the classifier is performed by the teacher data generated by the annotating device, and the frequency spectrum of the acoustic signal of the target sound is performed by the machine-learned classifier. From the input data including the data, the output data indicating the sound source type of the target sound is generated.
本発明によれば、集音現場で聴取時に集音された環境音の音源種別を記録できるので、音源種別などの対象音の分類を識別する識別器用の教師データを生成するアノテーションのための時間と労力を軽減するアノテーション装置および騒音測定システムが得られる。 According to the present invention, since the sound source type of the environmental sound collected at the time of listening at the sound collection site can be recorded, the time for annotation to generate the teacher data for the discriminator that identifies the classification of the target sound such as the sound source type. Annotation devices and noise measurement systems that reduce labor and labor are obtained.
以下、図に基づいて本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
実施の形態1. Embodiment 1.
図1は、本発明の実施の形態1に係るアノテーション装置の構成を示すブロック図である。図1に示すアノテーション装置は、対象音の音響信号の周波数スペクトルデータを含む入力データから、対象音の分類を示す出力データを出力する識別器を機械学習するための教師データを生成する。実施の形態1では、対象音の分類は、音源種別である。 FIG. 1 is a block diagram showing a configuration of an annotation device according to a first embodiment of the present invention. The annotation device shown in FIG. 1 generates teacher data for machine learning of a classifier that outputs output data indicating the classification of the target sound from the input data including the frequency spectrum data of the acoustic signal of the target sound. In the first embodiment, the classification of the target sound is a sound source type.
図1に示すアノテーション装置は、集音装置1、表示装置2、入力装置3、通信装置4、記憶装置5、および演算処理装置6を備える。
The annotation device shown in FIG. 1 includes a sound collecting device 1, a
集音装置1は、環境音を集音するマイクロホンなどである。 The sound collecting device 1 is a microphone or the like that collects environmental sounds.
表示装置2は、各種情報をユーザーに対して表示する液晶ディスプレイなどである。
The
入力装置3は、上述の環境音を集音現場で聴取したユーザーによる聴取時の音源種別を示すリアルタイムのユーザー操作を検出する。なお、入力装置3は、ハードキーを備えるキーボード、キーパッドなどでもよいし、表示装置2に表示されるキー画像とともにソフトキーを構成するタッチパネルなどでもよい。なお、集音現場ごとに、対象となる音源は異なるので、集音現場ごとの予めソフトキーに対応する音源種別を設定しておく。
The
また、通信装置4は、教師データなどを外部装置へ送信する。通信装置4としては、ネットワークインターフェイスや周辺機器インターフェイスが使用される。
Further, the
記憶装置5は、教師データなどを格納する不揮発性の記憶装置5である。記憶装置5としては、ハードディスクドライブ、フラッシュメモリなどが使用される。
The
演算処理装置6は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備えるコンピュータであって、ROMや記憶装置5などに記憶されているプログラムをRAMにロードし、CPUで実行することで、各種処理部として動作する。
The arithmetic processing unit 6 is a computer including a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like, and loads a program stored in the ROM, the
ここでは、演算処理装置6は、音響処理部11、ラベル付け部12、データ出力部13、表示処理部14、識別器15、および学習処理部16を備える。
Here, the arithmetic processing unit 6 includes an
音響処理部11は、集音装置1により得られた対象音の音響信号から、教師データのうちの入力データを生成する。音響処理部11は、音響信号の周波数スペクトルデータを算出し、入力データに含める。例えば、周波数スペクトルデータとしては、周波数分析機能を備える騒音計などにより得られる所定バンド幅(例えば1/3オクターブ)ごとの短時間Leq(短時間平均音圧レベル)が使用される。
The
ラベル付け部12は、入力装置3により検出されたリアルタイムのユーザー操作に対応する分類を特定し、入力データに対して、特定した分類を示す出力データをラベルとして関連付け、入力データと、ラベル付け部12により入力データに関連付けられた出力データとの対を教師データとする。
The
データ出力部13は、ラベル付け部12において生成された教師データを、通信装置4を使用して外部へ送信したり、記憶装置5に記憶したりする。
The
表示処理部14は、各種情報やソフトキーのキー画像などを表示装置2に表示させる。
The
実施の形態1に係るアノテーション装置は、動作モードとして、第1アノテーションモードと第2アノテーションモードとを備え、ユーザーによりいずれかの動作モードを、入力装置3を使用して選択可能となっている。
The annotation device according to the first embodiment includes a first annotation mode and a second annotation mode as operation modes, and the user can select either operation mode by using the
第1アノテーションモードでは、入力装置3における、所定の複数の分類に対する複数のキーが使用される。このキーは、ハードキーでもよいし、ソフトキーでもよい。また、第1アノテーションモードでは、ラベル付け部12は、ユーザーにより操作された1または複数のキーを特定し、特定した1または複数のキーに対応する1または複数の分類を特定し、特定した1または複数の分類を示す出力データをラベルとして入力データに関連付ける。第1アノテーションモードでは、キーが押下されている期間において、継続して、そのキーに対応する分類が特定され続ける。
In the first annotation mode, a plurality of keys for a plurality of predetermined classifications in the
図2は、第1アノテーションモードの表示画面の一例を示す図である。 FIG. 2 is a diagram showing an example of a display screen of the first annotation mode.
図2に示すように、第1アノテーションモードでは、現在時刻から所定時間(例えば3分)だけ過去の時点までの各種時系列データが表示装置2に表示され、所定時間間隔(例えば1秒)で更新される。例えば図2に示すように、騒音レベルの時系列データ51、周波数スペクトルの時系列データ52、および所定の音源種別のラベル付け結果の時系列データ53が表示される。また、所定の音源種別に対応するソフトキーを含むソフトキー配列54が表示されている。時系列データ53では、各音源種別に対応する表示領域において、その音源種別に対応するキーが押下されていた期間について、特定の色が付される。
As shown in FIG. 2, in the first annotation mode, various time-series data from the current time to a predetermined time (for example, 3 minutes) in the past are displayed on the
また、第1アノテーションモードでは、ラベル付け部12は、ソフトキー配列54における1または複数のソフトキーの押下を検出し、検出したソフトキーに対応する音源種別をラベルとして、そのソフトキーが押下されている期間の入力データに関連付ける。そして、表示処理部14は、所定の時間間隔で繰り返し、騒音レベルの時系列データ51および周波数スペクトルの時系列データ52を音響処理部11から取得するとともに、所定の音源種別のラベル付け結果の時系列データ53をラベル付け部12から取得し、それらを図2に示すように表示装置2に表示する。
Further, in the first annotation mode, the
一方、第2アノテーションモードでは、識別器15が、音響処理部11により生成された入力データから、所定の複数の分類のそれぞれの事後確率(0から1までの値)を示す出力データを出力し、表示処理部14が、識別器15により出力された出力データにより示される、分類(ここでは、音源種別)ごとに、事後確率を時系列に沿って、事後確率波形として表示装置2に表示させるとともに、その事後確率波形において事後確率が所定の閾値(例えば、0.25)を超えている区間に沿って、候補区間を表示装置2に表示させる。
On the other hand, in the second annotation mode, the
図3は、第2アノテーションモードの表示画面の一例を示す図である。図4は、図3の表示画面の一部を拡大した図である。 FIG. 3 is a diagram showing an example of a display screen of the second annotation mode. FIG. 4 is an enlarged view of a part of the display screen of FIG.
図3に示すように、第2アノテーションモードでは、現在時刻から所定時間(例えば3分)だけ過去の時点までの各種時系列データが表示装置2に表示され、所定時間間隔(例えば1秒)で更新される。例えば図3に示すように、騒音レベルの時系列データ61、周波数スペクトルの時系列データ62、および各音源種別の事後確率波形63が表示される。さらに、図4に示すように、各音源種別の事後確率波形63の表示領域63a~63gに隣接して、各音源種別に対応する、候補区間の表示領域64a~64gが確保されており、事後確率波形において事後確率が所定の閾値を超えている区間に対応して、候補区間が表示される。図4では、音源種別「自動車」については、候補区間65が表示され、音源種別「救急車」については、候補区間66が表示され、音源種別「電車」については、候補区間67が表示され、音源種別「小鳥」については、候補区間68が表示され、音源種別「カラス」については、候補区間69が表示されている。
As shown in FIG. 3, in the second annotation mode, various time-series data from the current time to a predetermined time (for example, 3 minutes) in the past are displayed on the
そして、第2アノテーションモードでは、入力装置3は、候補区間65,66,67,68,69に対するユーザー操作を例えばタッチパネルで検出し、ラベル付け部12は、ユーザーにより操作された1または複数の候補区間を特定し、特定した1または複数の候補区間に対応する1または複数の分類を特定し、特定した1または複数の分類(図3および図4では音源種別)を示す出力データをラベルとして入力データに関連付ける。
Then, in the second annotation mode, the
このとき、特定された候補区間の始点時刻と終点時刻との間の時間における入力データに対して、その候補区間に対応する分類(ここでは音源種別)がラベルとして関連付けられる。 At this time, the classification (here, sound source type) corresponding to the candidate section is associated as a label with respect to the input data in the time between the start point time and the end point time of the specified candidate section.
なお、この識別器15は、当該アノテーションモード装置が生成する教師データが機械学習に使用される識別器と同一の構成(ディープニューラルネットワークの場合、隠れ層の数、および各層のノード数が同一である構成)を有している。例えば、識別器15には、ディープニューラルネットワークが使用される。例えば、そのディープニューラルネットワークは、2つの隠れ層を備え、その入力層には、周波数に対応する33個のノードが設けられ、その初段の隠れ層には、20個のノードが設けられ、その次段の隠れ層には、10個のノードが設けられ、その出力層には、音源種別に対応する55個のノードが設けられる。
The
学習処理部16は、ラベル付け部12により生成された教師データに基づいて識別器15の機械学習を行う。
The
次に、実施の形態1に係るアノテーション装置の動作について説明する。 Next, the operation of the annotation device according to the first embodiment will be described.
まず、入力装置に対するユーザー操作に従って、各処理部が、動作モードを、第1アノテーションモードおよび第2アノテーションモードのいずれかにセットする。ユーザーは、このアノテーション装置の設置場所で、対象音を聴取し、特定した対象音の分類に応じた操作をアノテーション装置に対して行う。 First, according to the user operation on the input device, each processing unit sets the operation mode to either the first annotation mode or the second annotation mode. The user listens to the target sound at the installation location of the annotation device, and performs an operation on the annotation device according to the classification of the specified target sound.
第1アノテーションモードでは、ラベル付け部12は、リアルタイムで、音響処理部11により生成される入力データ(教師データのうちの入力データ)を受け付けており、さらに、入力装置3におけるキー押下を検出すると、そのキーに対応する分類(ここでは音源種別)を特定し、そのキー押下が継続した期間(つまり、キー押下の開始時刻と終了時刻)を特定し、その期間の入力データに、特定した分類をラベルとして関連付ける。
In the first annotation mode, the
このようにして、入力データと出力データ(つまり、特定した分類)との対が、1つの教師データセットとされる。 In this way, the pair of input data and output data (ie, the specified classification) is considered as one teacher data set.
また、図2に示すように、表示装置2には、第1アノテーションモードで、ユーザーにより入力された分類が時系列データ53として表示される。
Further, as shown in FIG. 2, the
他方、第2アノテーションモードでは、識別器15が、リアルタイムで、入力データに対する各分類の事後確率を算出しており、表示処理部14は、図3および図4に示すように、各分類の事後確率波形63を表示装置2に表示させるとともに、各時点での事後確率が所定の閾値を超えたか否かを判定し、事後確率が所定の閾値を超えた期間に対応する候補区間65~69を、事後確率波形63に合わせて表示させる。
On the other hand, in the second annotation mode, the
ラベル付け部12は、リアルタイムで、音響処理部11により生成される入力データ(教師データのうちの入力データ)を受け付けており、さらに、入力装置3により候補区間の押下が検出されると、その候補区間に対応する分類(ここでは音源種別)を確定し、その候補区間の始点から終点までの期間を特定し、その期間の入力データに、特定した分類をラベルとして関連付ける。このように、第2アノテーションモードは、第1アノテーションモードに比べ、継続時間の短い対象音であってもユーザーによる作業が容易となる。
The
このようにして、入力データと出力データ(つまり、特定した分類)との対が、1つの教師データセットとされる。 In this way, the pair of input data and output data (ie, the specified classification) is considered as one teacher data set.
以上のように、上記実施の形態1によれば、音響処理部11は、集音装置1により得られた対象音の音響信号から入力データ(教師データのうちの入力データ)を生成する。そして、ラベル付け部12は、入力装置3により検出されたユーザー操作に対応する分類を特定し、入力データに対して、特定した分類を示す出力データをラベルとして関連付け、入力データと、ラベル付け部12により入力データに関連付けられた出力データとの対を教師データとする。
As described above, according to the first embodiment, the
これにより、ユーザーは、教師データの作成のために、対象音源を確認しつつ対象音を聴きながら、キーや候補区間を押下するだけでよく、音源種別を識別する識別器用の教師データを生成するアノテーションのための時間と労力が軽減される。 As a result, in order to create teacher data, the user only has to press a key or a candidate section while listening to the target sound while checking the target sound source, and generates teacher data for the discriminator that identifies the sound source type. Saves time and effort for annotation.
図5は、実施の形態1に係るアノテーション装置により生成された教師データで機械学習された識別器による音源種別の識別結果の一例を示す図である。図5に示すように、騒音レベルのそれぞれのピーク付近において、音源種別の事後確率が高くなっており、音源種別が識別されている。 FIG. 5 is a diagram showing an example of a sound source type identification result by a classifier machine-learned with the teacher data generated by the annotation device according to the first embodiment. As shown in FIG. 5, the posterior probability of the sound source type is high in the vicinity of each peak of the noise level, and the sound source type is identified.
実施の形態2.
本発明の実施の形態2に係る騒音測定システムは、実施の形態1に係るアノテーション装置を備え、そのアノテーション装置により上述のように生成された教師データで識別器の機械学習を行い、機械学習された識別器で、対象音の音響信号の周波数スペクトルデータを含む入力データから、その対象音の音源種別を示す出力データを生成する。 The noise measurement system according to the second embodiment of the present invention includes the annotation device according to the first embodiment, and machine learning of the classifier is performed by the teacher data generated by the annotation device as described above, and the machine learning is performed. The classifier generates output data indicating the sound source type of the target sound from the input data including the frequency spectrum data of the acoustic signal of the target sound.
これにより、騒音の音源などを特定することができる。 This makes it possible to identify a noise source or the like.
なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。 It should be noted that various changes and modifications to the above-described embodiments will be apparent to those skilled in the art. Such changes and modifications may be made without departing from the intent and scope of the subject and without diminishing the intended benefits. That is, it is intended that such changes and amendments are included in the claims.
例えば、上記実施の形態1において、上述の入力データには、集音装置1から見た音源の方向などの音源情報を含めるようにしてもよい。 For example, in the first embodiment, the above-mentioned input data may include sound source information such as the direction of the sound source as seen from the sound collecting device 1.
また、上記実施の形態2に係る騒音検出システムと同様の構成で、上述の対象音を、特定の装置から発せされる音とし、上述対象音の分類を、異音原因種別とすることで、実施の形態1に係るアノテーション装置を異音検出システムに適用するようにしてもよい。 Further, in the same configuration as the noise detection system according to the second embodiment, the above-mentioned target sound is defined as a sound emitted from a specific device, and the above-mentioned target sound is classified as an abnormal noise cause type. The annotation device according to the first embodiment may be applied to an abnormal noise detection system.
また、上述の実施の形態1,2において、ネットワークを介して、教師データをアノテーション装置または騒音測定システムからサーバーへ送信し、サーバーで上述の識別器の機械学習を行い、機械学習により得られた識別器のパラメータをサーバーからアノテーション装置または騒音測定システムへ送信し、そのパラメータを、アノテーション装置または騒音測定システム内の識別器に適用するようにしてもよい。 Further, in the above-described first and second embodiments, the teacher data is transmitted from the annotation device or the noise measurement system to the server via the network, and the server performs machine learning of the above-mentioned classifier, which is obtained by machine learning. The parameters of the classifier may be transmitted from the server to the annotation device or noise measurement system, and the parameters may be applied to the classifier in the annotation device or noise measurement system.
本発明は、例えば、対象音の特徴を分類するための識別器のための教師データの自動生成に適用可能である。 The present invention is applicable, for example, to the automatic generation of teacher data for a classifier for classifying features of a target sound.
1 集音装置
2 表示装置
3 入力装置
11 音響処理部
12 ラベル付け部
14 表示処理部
15 識別器
16 学習処理部
1
Claims (5)
環境音を集音する集音装置と、
前記環境音の聴取時のユーザーによる音源種別を示すリアルタイムのユーザー操作を検出する入力装置と、
前記集音装置により得られた前記対象音の音響信号から前記入力データを生成する音響処理部と、
前記入力装置により検出された前記ユーザー操作に対応する分類を特定し、前記入力データに対して、特定した前記分類を示す出力データをラベルとして関連付け、前記入力データと、前記入力データに関連付けられた出力データとの対を教師データとするラベル付け部と、
を備え、
前記ラベル付け部は、リアルタイムで、前記音響処理部により生成される前記入力データを受け付け、前記入力装置により検出された前記ユーザー操作が検出された期間の前記入力データに、特定した前記分類を前記ラベルとして関連付けること、
を特徴とするアノテーション装置。 In an annotation device that generates teacher data for machine learning of a classifier that outputs output data indicating the classification of the target sound from input data including frequency spectrum data of the acoustic signal of the target sound.
A sound collector that collects environmental sounds and
An input device that detects real-time user operations that indicate the sound source type by the user when listening to the environmental sound, and
An acoustic processing unit that generates the input data from the acoustic signal of the target sound obtained by the sound collector, and the acoustic processing unit.
The classification corresponding to the user operation detected by the input device was specified, the output data indicating the specified classification was associated with the input data as a label, and the input data was associated with the input data. A labeling unit whose teacher data is a pair with the output data,
Equipped with
The labeling unit receives the input data generated by the sound processing unit in real time, and the classification specified in the input data during the period in which the user operation detected by the input device is detected is described. Associate as a label,
Annotation device featuring.
前記ラベル付け部は、前記ユーザーにより操作された1または複数のキーを特定し、特定した1または複数のキーに対応する1または複数の分類を特定し、特定した前記1または複数の分類を示す出力データをラベルとして前記入力データに関連付けること、
を特徴とする請求項1記載のアノテーション装置。 The input device comprises a plurality of keys for a plurality of predetermined classifications.
The labeling unit identifies one or more keys operated by the user, identifies one or more classifications corresponding to the identified one or more keys, and indicates the identified one or more classifications. Associate the output data as a label with the input data,
1. The annotation device according to claim 1.
環境音を集音する集音装置と、
前記環境音の聴取時のユーザーによる音源種別を示すリアルタイムのユーザー操作を検出する入力装置と、
前記集音装置により得られた前記対象音の音響信号から前記入力データを生成する音響処理部と、
前記入力装置により検出された前記ユーザー操作に対応する分類を特定し、前記入力データに対して、特定した前記分類を示す出力データをラベルとして関連付け、前記入力データと、前記入力データに関連付けられた出力データとの対を教師データとするラベル付け部と、
前記音響処理部により生成された前記入力データから、所定の複数の分類のそれぞれの事後確率を示す出力データを出力する識別器と、
前記識別器により出力された前記出力データにより示される、前記分類ごとに、前記事後確率を時系列に沿って、事後確率波形として表示装置に表示させるとともに、前記事後確率波形において前記事後確率が所定の閾値を超えている区間に沿って、候補区間を前記表示装置に表示させる表示処理部とを備え、
前記入力装置は、前記候補区間に対するユーザー操作を検出し、
前記ラベル付け部は、前記ユーザーにより操作された1または複数の候補区間を確定し、確定した1または複数の候補区間に対応する1または複数の分類を特定し、特定した前記1または複数の分類を示す出力データをラベルとして前記入力データに関連付けること、
を特徴とするアノテーション装置。 In an annotation device that generates teacher data for machine learning of a classifier that outputs output data indicating the classification of the target sound from input data including frequency spectrum data of the acoustic signal of the target sound.
A sound collector that collects environmental sounds and
An input device that detects real-time user operations that indicate the sound source type by the user when listening to the environmental sound, and
An acoustic processing unit that generates the input data from the acoustic signal of the target sound obtained by the sound collector, and the acoustic processing unit.
The classification corresponding to the user operation detected by the input device was specified, the output data indicating the specified classification was associated with the input data as a label, and the input data was associated with the input data. A labeling unit whose teacher data is a pair with the output data,
A classifier that outputs output data indicating the posterior probabilities of each of a plurality of predetermined classifications from the input data generated by the sound processing unit.
For each of the classifications indicated by the output data output by the classifier, the posterior probability is displayed on the display device as a posterior probability waveform in chronological order, and the posterior probability waveform is displayed as the posterior probability waveform. A display processing unit for displaying a candidate section on the display device along a section whose probability exceeds a predetermined threshold is provided .
The input device detects a user operation for the candidate section and detects the user operation.
The labeling unit determines one or more candidate sections operated by the user, identifies one or more classifications corresponding to the determined one or more candidate sections, and identifies the one or more classifications. Associating the output data indicating the above with the input data as a label,
Annotation device featuring.
前記アノテーション装置により生成された教師データで識別器の機械学習を行い、機械学習された前記識別器で、対象音の音響信号の周波数スペクトルデータを含む入力データから、前記対象音の音源種別を示す出力データを生成すること、
を特徴とする騒音測定システム。 The annotation device according to claim 1 or 3 is provided.
Machine learning of the classifier is performed using the teacher data generated by the annotation device, and the machine-learned classifier indicates the sound source type of the target sound from the input data including the frequency spectrum data of the acoustic signal of the target sound. Producing output data,
A noise measurement system featuring.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017166535A JP6994874B2 (en) | 2017-08-31 | 2017-08-31 | Annotation device and noise measurement system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017166535A JP6994874B2 (en) | 2017-08-31 | 2017-08-31 | Annotation device and noise measurement system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019046018A JP2019046018A (en) | 2019-03-22 |
JP6994874B2 true JP6994874B2 (en) | 2022-01-14 |
Family
ID=65814436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017166535A Active JP6994874B2 (en) | 2017-08-31 | 2017-08-31 | Annotation device and noise measurement system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6994874B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019135403A1 (en) * | 2018-01-05 | 2019-07-11 | 国立大学法人九州工業大学 | Labeling device, labeling method, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001033304A (en) | 1999-07-21 | 2001-02-09 | Sumitomo Electric Ind Ltd | Sound source classification recognizing apparatus |
JP2016197406A (en) | 2015-04-06 | 2016-11-24 | 国立研究開発法人産業技術総合研究所 | Information processor, information processing system, information processing method, program, and recording medium |
-
2017
- 2017-08-31 JP JP2017166535A patent/JP6994874B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001033304A (en) | 1999-07-21 | 2001-02-09 | Sumitomo Electric Ind Ltd | Sound source classification recognizing apparatus |
JP2016197406A (en) | 2015-04-06 | 2016-11-24 | 国立研究開発法人産業技術総合研究所 | Information processor, information processing system, information processing method, program, and recording medium |
Non-Patent Citations (1)
Title |
---|
小林将大,外2名,人間の感覚を考慮した騒音マップ作成のための騒々しさ推定方式,[online],一般社団法人情報処理学会,2016年07月06日,pp.141-148,インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=177123&item_no=1> |
Also Published As
Publication number | Publication date |
---|---|
JP2019046018A (en) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9812152B2 (en) | Systems and methods for identifying a sound event | |
EP3839942A1 (en) | Quality inspection method, apparatus, device and computer storage medium for insurance recording | |
WO2020009210A1 (en) | Abnormality predicting system and abnormality predicting method | |
CN104768049B (en) | Method, system and computer readable storage medium for synchronizing audio data and video data | |
CN102232206B (en) | Sensory outputs for communicating data values | |
CN109256146A (en) | Audio-frequency detection, device and storage medium | |
Lin et al. | Comparison of passive acoustic soniferous fish monitoring with supervised and unsupervised approaches | |
CN110782962A (en) | Hearing language rehabilitation device, method, electronic equipment and storage medium | |
US20210056676A1 (en) | Method and apparatus for estimating emotional quality using machine learning | |
McAdams et al. | The psychomechanics of simulated sound sources: Material properties of impacted thin plates | |
Lundén et al. | On urban soundscape mapping: A computer can predict the outcome of soundscape assessments | |
Brooks | The soundscape standard | |
Hjortkjær et al. | Spectral and temporal cues for perception of material and action categories in impacted sound sources | |
Ramsay et al. | The intrinsic memorability of everyday sounds | |
CN101627422B (en) | Research data gathering | |
Grama et al. | Extending assisted audio capabilities of TIAGo service robot | |
JP6994874B2 (en) | Annotation device and noise measurement system | |
Kothinti et al. | Auditory salience using natural scenes: An online study | |
Lin et al. | Improving faster-than-real-time human acoustic event detection by saliency-maximized audio visualization | |
KR102365429B1 (en) | Online mobile survey platform using artificial intelligence to identify unfaithful respondents | |
Woodcock et al. | Quantification of the effects of audible rattle and source type on the human response to environmental vibration | |
Goldstein et al. | Guitar Music Transcription from Silent Video. | |
JP7397801B2 (en) | Apparatus for detecting a subject with breathing disorder and method of operating the apparatus for detecting a subject with breathing disorder | |
KR102077642B1 (en) | Sight-singing evaluation system and Sight-singing evaluation method using the same | |
US11282518B2 (en) | Information processing apparatus that determines whether utterance of person is simple response or statement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20170906 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210720 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6994874 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |