[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6998823B2 - Multi-channel objective evaluation device and program - Google Patents

Multi-channel objective evaluation device and program Download PDF

Info

Publication number
JP6998823B2
JP6998823B2 JP2018078019A JP2018078019A JP6998823B2 JP 6998823 B2 JP6998823 B2 JP 6998823B2 JP 2018078019 A JP2018078019 A JP 2018078019A JP 2018078019 A JP2018078019 A JP 2018078019A JP 6998823 B2 JP6998823 B2 JP 6998823B2
Authority
JP
Japan
Prior art keywords
channel
signal
objective evaluation
convolution
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018078019A
Other languages
Japanese (ja)
Other versions
JP2019184933A (en
Inventor
知美 小倉
智康 小森
岳大 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2018078019A priority Critical patent/JP6998823B2/en
Publication of JP2019184933A publication Critical patent/JP2019184933A/en
Application granted granted Critical
Publication of JP6998823B2 publication Critical patent/JP6998823B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、2チャンネルを超えるマルチチャンネル音響システムに用いるマルチチャンネル音響信号の品質を客観評価するマルチチャンネル客観評価装置及びプログラムに関する。 The present invention relates to a multi-channel objective evaluation device and a program for objectively evaluating the quality of a multi-channel acoustic signal used in a multi-channel acoustic system having more than two channels.

従来、マルチチャンネル音響システムにおいて、音響信号の品質を評価する方法が知られている。例えば、音響信号の品質を主観的に評価する方法として、マルチチャンネル音響システムを含む劣化の少ない音響システムの主観評価法がITU-R勧告BS.1116-3に定められている(例えば、非特許文献1を参照)。 Conventionally, in a multi-channel acoustic system, a method of evaluating the quality of an acoustic signal has been known. For example, as a method for subjectively evaluating the quality of an acoustic signal, a subjective evaluation method for an acoustic system with little deterioration including a multi-channel acoustic system is described in ITU-R Recommendation BS. It is defined in 1116-3 (see, for example, Non-Patent Document 1).

一方、ITU-R勧告BS.1116-3に則して行った主観評価に対応した音質を客観的に測定する客観評価法がITU-R勧告BS.1387-1に定められている(例えば、非特許文献2を参照)。このITU-R勧告BS.1387-1に定めた客観評価法は、PEAQ(Perceptual Evaluation of Audio Quality)客観音質測定法と呼ばれている。 On the other hand, ITU-R Recommendation BS. The objective evaluation method for objectively measuring the sound quality corresponding to the subjective evaluation performed in accordance with 1116-3 is ITU-R Recommendation BS. 1387-1 (see, for example, Non-Patent Document 2). This ITU-R recommendation BS. The objective evaluation method defined in 1387-1 is called a PEAQ (Perceptual Evaluation of Audio Quality) objective sound quality measurement method.

PEAQ客観音質測定法は、音響信号の品質を客観的に測定するための標準化アルゴリズムにて実現され、人間の耳の知覚特性を反映した聴覚モデル、及びニューラルネットワーク構造を有する認識モデルを用いて、客観評価値を求めるものである。詳細については後述する。 The PEAQ objective sound quality measurement method is realized by a standardized algorithm for objectively measuring the quality of acoustic signals, and uses an auditory model that reflects the perceptual characteristics of the human ear and a recognition model that has a neural network structure. It seeks an objective evaluation value. Details will be described later.

一般に、信頼性の高い主観評価を行うには、多くの被験者、多大な時間及び労力を必要とするため、全ての音源に対して主観評価を行うのは現実的でない。このため、予め客観評価を行うことにより、主観評価に使用するパラメータを選定するようにしている。 In general, it is not realistic to perform a subjective evaluation on all sound sources because a large number of subjects, a large amount of time and effort are required to perform a highly reliable subjective evaluation. Therefore, the parameters used for the subjective evaluation are selected by performing the objective evaluation in advance.

しかしながら、前述のITU-R勧告BS.1387-1に定めた客観評価法は、1チャンネルまたは2チャンネルの音響システムに適用した方法である。このため、この客観評価法は、22.2ch(チャンネル)等の2チャンネルを超えるマルチチャンネル音響システム(例えば、非特許文献3を参照)に対して用いることができない。 However, the aforementioned ITU-R Recommendation BS. The objective evaluation method defined in 1387-1 is a method applied to a one-channel or two-channel acoustic system. Therefore, this objective evaluation method cannot be used for a multi-channel acoustic system (see, for example, Non-Patent Document 3) having more than two channels such as 22.2 ch (channel).

そこで、2チャンネルを超えるマルチチャンネル音響システムにおいて、マルチチャンネル音響信号の品質を客観的に評価する方法が提案されている(例えば、非特許文献4を参照)。この方法は、マルチチャンネル音響信号の原音及び劣化音に頭部インパルス応答HRIR(Head Related Impulse Response)をそれぞれ畳み込んで2チャンネル信号に変換し、客観評価を行うものである。 Therefore, a method for objectively evaluating the quality of a multi-channel acoustic signal in a multi-channel acoustic system having more than two channels has been proposed (see, for example, Non-Patent Document 4). In this method, the head related impulse response (HRIR) is convoluted with the original sound and the deteriorated sound of the multi-channel acoustic signal, respectively, and converted into a two-channel signal for objective evaluation.

Rec. ITU-R BS.1116-3,“Methods for the subjective assessment of small impairments in audio systems”,2015Rec. ITU-R BS.1116-3, “Methods for the subjective assessment of small impairments in audio systems”, 2015 Rec. ITU-R BS.1387-1,“Method for objective measurements of perceived audio quality”,2001Rec. ITU-R BS.1387-1, “Method for objective measurements of perceived audio quality”, 2001 Rec. ITU-R BS.2051,“Advanced sound system for programme production”,2014Rec. ITU-R BS.2051, “Advanced sound system for programme production”, 2014 J.LIEBETRAU etc,“Standardization of PEAQ-MC:Extension of ITU-R BS.1387-1 to multichannel audio”,J. Audio Eng. Soc. 40th International Conference,2010J.LIEBETRAU etc, “Standardization of PEAQ-MC: Extension of ITU-R BS.1387-1 to multichannel audio”, J. Audio Eng. Soc. 40th International Conference, 2010

しかしながら、前述の非特許文献4は、2チャンネルを超えるマルチチャンネル音響システムに用いるマルチチャンネル音響信号の品質を客観的に評価する場合に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法とは異なり、両耳間時間差、両耳間レベル差等も用いた認識モデルを用いている。また、非特許文献4により求められる客観評価結果は、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求められる主観評価結果を十分に反映した値ではない。このため、ITU-R(国際電気通信連合の無線通信部門)は、前述の非特許文献4の方法を用いて標準化を試みたが、承認されずに現在に至っている。 However, the above-mentioned Non-Patent Document 4 describes the ITU-R recommendation BS of the above-mentioned Non-Patent Document 2 when objectively evaluating the quality of a multi-channel acoustic signal used in a multi-channel acoustic system having more than two channels. Unlike the objective evaluation method defined in 1387-1, a recognition model using the time difference between both ears and the level difference between both ears is used. Further, the objective evaluation result obtained by Non-Patent Document 4 is obtained from the above-mentioned ITU-R Recommendation BS of Non-Patent Document 1. It is not a value that sufficiently reflects the subjective evaluation result obtained by the subjective evaluation method specified in 1116-3. For this reason, ITU-R (International Telecommunication Union Radiocommunication Sector) has attempted standardization using the method of Non-Patent Document 4 described above, but it has not been approved and continues to the present.

ところで、2チャンネルを超えるマルチチャンネル音響システムにおいて、符号化等により劣化した音響信号を主観評価する場合、人間は、全ての方向の音響信号を集中して聞き比べることが苦手である。このため、音響信号のチャンネル数が多い場合、主観評価値が上がる傾向がある。 By the way, in a multi-channel acoustic system having more than two channels, when subjectively evaluating an acoustic signal deteriorated by coding or the like, human beings are not good at concentrating and comparing acoustic signals in all directions. Therefore, when the number of channels of the acoustic signal is large, the subjective evaluation value tends to increase.

また、音像が動くコンテンツについても、人間は、全ての方向の音響信号を頭で記憶しながら集中して聞き比べることが苦手である。このため、チャンネル数が多い場合には、同様に主観評価値が上がる傾向がある。 Also, with regard to content in which the sound image moves, humans are not good at concentrating and comparing acoustic signals in all directions while memorizing them with their heads. Therefore, when the number of channels is large, the subjective evaluation value tends to increase as well.

マルチチャンネル音響信号は人間へ提示されるものであるから、客観評価値は、このような主観評価値の傾向が反映された値となることが望ましい。つまり、2チャンネルを超えるマルチチャンネル音響信号の品質を客観的に評価する方法は、主観評価値への影響を考慮した客観評価法であることが望ましい。 Since the multi-channel acoustic signal is presented to humans, it is desirable that the objective evaluation value is a value that reflects such a tendency of the subjective evaluation value. That is, it is desirable that the method for objectively evaluating the quality of a multi-channel acoustic signal having more than two channels is an objective evaluation method in consideration of the influence on the subjective evaluation value.

前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法は、主観評価値への影響を考慮した客観評価法であるが、2チャンネルの音響信号に適用する方法であり、2チャンネルを超えるマルチチャンネル音響信号に適用する方法ではない。 The above-mentioned ITU-R recommendation BS of Non-Patent Document 2. The objective evaluation method defined in 1387-1 is an objective evaluation method in consideration of the influence on the subjective evaluation value, but is a method applied to a two-channel acoustic signal and applied to a multi-channel acoustic signal exceeding two channels. Not the way.

ここで、前述の非特許文献4の方法に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法を組み込んだ新たな手法を想定することができる。この想定手法は、マルチチャンネル音響信号の原音及び劣化音に頭部インパルス応答HRIRをそれぞれ畳み込み、原音及び劣化音の畳み込み結果をそれぞれ加算して2チャンネル信号を生成し、この2チャンネル信号を用いて、PEAQ客観音質測定法により客観評価値を求めるものである。 Here, in addition to the method of the above-mentioned non-patent document 4, the ITU-R recommendation BS of the above-mentioned non-patent document 2 is used. A new method incorporating the objective evaluation method defined in 1387-1 can be envisioned. In this assumed method, the head impulse response HRIR is convolved with the original sound and the deteriorated sound of the multi-channel acoustic signal, and the convolution results of the original sound and the deteriorated sound are added to generate a 2-channel signal, and the 2-channel signal is used. , PEAQ The objective evaluation value is obtained by the objective sound quality measurement method.

この想定手法は、主観評価に対応した音質を客観的に測定するPEAQ客観音質測定法を用いるものであるが、後述する図10の実験結果に示すように、その客観評価結果は、主観評価結果に近い値にならない。 This assumption method uses the PEAQ objective sound quality measurement method for objectively measuring the sound quality corresponding to the subjective evaluation. As shown in the experimental result of FIG. 10 described later, the objective evaluation result is the subjective evaluation result. The value is not close to.

主観評価結果と客観評価結果が異なる要因として、加算された音響信号にはそれぞれのチャンネルの劣化も加算されているが、評価者がその全てに対してステレオ信号と同様の精度で評価することが難しいということが推察される。 As a factor that makes the subjective evaluation result different from the objective evaluation result, the deterioration of each channel is also added to the added acoustic signal, but the evaluator evaluates all of them with the same accuracy as the stereo signal. It is inferred that it is difficult.

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、2チャンネルを超えるマルチチャンネル音響信号の品質について、主観評価結果に近い客観評価結果を得ることが可能なマルチチャンネル客観評価装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above-mentioned problems, and an object thereof is a multi-channel capable of obtaining an objective evaluation result close to a subjective evaluation result with respect to the quality of a multi-channel acoustic signal having more than two channels. The purpose is to provide an objective evaluation device and a program.

前記課題を解決するために、請求項1のマルチチャンネル客観評価装置は、2チャンネルを超えるマルチチャンネル音響信号を客観評価するマルチチャンネル客観評価装置において、前記マルチチャンネル音響信号を構成するそれぞれの音響信号のチャンネルに対応して、チャンネル毎の伝搬特性を表す頭部インパルス応答(HRIR)またはバイノーラル室内インパルス応答(BRIR)を畳み込み信号として出力する畳み込み信号出力部と、前記マルチチャンネル音響信号の原音及び劣化音を入力すると共に、前記畳み込み信号出力部により出力されたチャンネル毎の前記畳み込み信号を入力し、チャンネル毎の前記原音に前記畳み込み信号を畳み込み、全てのチャンネルの畳み込み結果に基づいて、全てのチャンネルに共通の基本信号を生成すると共に、チャンネル毎に、当該チャンネルを含む1または複数のチャンネルの前記劣化音に前記畳み込み信号を畳み込み、第1の畳み込み結果を生成し、全てのチャンネルのうち前記1または複数のチャンネル以外のチャンネルの前記原音に前記畳み込み信号を畳み込み、第2の畳み込み結果を生成し、前記第1の畳み込み結果及び前記第2の畳み込み結果に基づいて被測定信号を生成し、チャンネル毎に、前記基本信号及び前記被測定信号からなるバイノーラル信号を生成する信号処理部と、前記信号処理部により生成されたチャンネル毎の前記バイノーラル信号を入力し、チャンネル毎に、当該チャンネルの前記バイノーラル信号に基づき、所定のPEAQ(Perceptual Evaluation of Audio Quality)客観音質測定法を用いて、客観評価結果を生成する評価部と、前記評価部により生成されたチャンネル毎の前記客観評価結果に基づいて、前記マルチチャンネル音響信号の客観評価結果をマルチチャンネル客観評価結果として生成するマルチチャンネル評価部と、を備えたことを特徴とする。 In order to solve the above problems, the multi-channel objective evaluation device according to claim 1 is a multi-channel objective evaluation device that objectively evaluates a multi-channel acoustic signal having more than two channels, and each acoustic signal constituting the multi-channel acoustic signal is used. A convolutional signal output unit that outputs a head impulse response (HRIR) or a binoral chamber impulse response (BRIR) that represents the propagation characteristics of each channel as a convolution signal, and the original sound and deterioration of the multi-channel acoustic signal. Along with inputting the sound, the convolution signal for each channel output by the convolution signal output unit is input, the convolution signal is convoluted into the original sound for each channel, and all channels are convoluted based on the convolution results of all channels. In addition to generating a basic signal common to the above, the convolution signal is convoluted into the deterioration sound of one or a plurality of channels including the channel for each channel to generate a first convolution result, and the above 1 of all channels is generated. Alternatively, the convolution signal is convoluted into the original sound of a channel other than the plurality of channels to generate a second convolution result, and a signal to be measured is generated based on the first convolution result and the second convolution result. Each time, a signal processing unit that generates a binoral signal composed of the basic signal and the measured signal and the binoral signal for each channel generated by the signal processing unit are input, and for each channel, the binoral of the channel is input. Based on the signal, an evaluation unit that generates an objective evaluation result using a predetermined PEAQ (Perceptual Evaluation of Audio Quality) objective sound quality measurement method, and the objective evaluation result for each channel generated by the evaluation unit. It is characterized by including a multi-channel evaluation unit that generates an objective evaluation result of the multi-channel acoustic signal as a multi-channel objective evaluation result.

また、請求項2のマルチチャンネル客観評価装置は、請求項1に記載のマルチチャンネル客観評価装置において、前記畳み込み信号出力部が、前記マルチチャンネル音響信号のチャンネルの数及び配置を定める音響方式の情報を入力し、予め設定されたデータベースから、前記音響方式に対応するチャンネル毎の前記畳み込み信号を読み出して出力し、前記データベースには、前記音響方式のチャンネル、及び当該チャンネルに対応する前記畳み込み信号が格納されている、ことを特徴とする。 Further, in the multi-channel objective evaluation device according to claim 2, in the multi-channel objective evaluation device according to claim 1, the convolution signal output unit determines the number and arrangement of channels of the multi-channel acoustic signal. Is input, the convolution signal for each channel corresponding to the acoustic method is read out from a preset database and output, and the channel of the acoustic method and the convolution signal corresponding to the channel are stored in the database. It is characterized by being stored.

また、請求項3のマルチチャンネル客観評価装置は、請求項1に記載のマルチチャンネル客観評価装置において、前記畳み込み信号出力部が、前記マルチチャンネル音響信号を構成するそれぞれの音響信号についての再生位置を定めるチャンネル毎の角度の情報を入力し、予め設定されたデータベースから、チャンネル毎の前記角度に対応するチャンネル毎の前記畳み込み信号を読み出して出力し、前記データベースには、前記角度、及び当該角度に対応する前記畳み込み信号が格納されている、ことを特徴とする。 Further, in the multi-channel objective evaluation device according to claim 3, in the multi-channel objective evaluation device according to claim 1, the convolution signal output unit determines the reproduction position of each acoustic signal constituting the multi-channel acoustic signal. Information on the angle for each predetermined channel is input, the convolution signal for each channel corresponding to the angle for each channel is read out from a preset database, and the convolution signal is output to the database at the angle and the angle. It is characterized in that the corresponding convolution signal is stored.

また、請求項4のマルチチャンネル客観評価装置は、請求項1から3までのいずれか一項に記載のマルチチャンネル客観評価装置において、前記マルチチャンネル評価部が、前記評価部により生成されたチャンネル毎の前記客観評価結果のうち最低値を検出し、当該最低値を前記マルチチャンネル客観評価結果として生成する、ことを特徴とする。 Further, the multi-channel objective evaluation device according to claim 4 is the multi-channel objective evaluation device according to any one of claims 1 to 3, wherein the multi-channel evaluation unit is generated for each channel generated by the evaluation unit. It is characterized in that the lowest value among the objective evaluation results of the above is detected and the lowest value is generated as the multi-channel objective evaluation result.

また、請求項5のマルチチャンネル客観評価装置は、請求項1から3までのいずれか一項に記載のマルチチャンネル客観評価装置において、前記マルチチャンネル評価部が、前記評価部により生成されたチャンネル毎の前記客観評価結果に対し、所定のチャンネル毎の重み付け係数をそれぞれ乗算し、チャンネル毎の乗算結果を加算し、加算結果を前記マルチチャンネル客観評価結果として生成する、ことを特徴とする。 Further, the multi-channel objective evaluation device according to claim 5 is the multi-channel objective evaluation device according to any one of claims 1 to 3, wherein the multi-channel evaluation unit is generated for each channel generated by the evaluation unit. The objective evaluation result is multiplied by a weighting coefficient for each predetermined channel, the multiplication result for each channel is added, and the addition result is generated as the multi-channel objective evaluation result.

また、請求項6のプログラムは、コンピュータを、請求項1から5までのいずれか一項に記載のマルチチャンネル客観評価装置として機能させることを特徴とする。 The program of claim 6 is characterized in that the computer functions as the multi-channel objective evaluation device according to any one of claims 1 to 5.

以上のように、本発明によれば、2チャンネルを超えるマルチチャンネル音響信号の品質について、主観評価結果に近い客観評価結果を得ることが可能となる。 As described above, according to the present invention, it is possible to obtain an objective evaluation result close to a subjective evaluation result for the quality of a multi-channel acoustic signal having more than two channels.

本発明の実施形態によるマルチチャンネル客観評価装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the multi-channel objective evaluation apparatus by embodiment of this invention. マルチチャンネル客観評価装置の処理例を示すフローチャートである。It is a flowchart which shows the processing example of the multi-channel objective evaluation apparatus. 畳み込み信号出力部の処理例を示すフローチャートである。It is a flowchart which shows the processing example of the convolution signal output part. DBのデータ構成例を示す図である。It is a figure which shows the data structure example of DB. 信号処理部の第1処理例を示すフローチャートである。It is a flowchart which shows the 1st processing example of a signal processing part. 信号処理部の第2処理例を示すフローチャートである。It is a flowchart which shows the 2nd processing example of a signal processing part. マルチチャンネル評価部の第1処理例を示すフローチャートである。It is a flowchart which shows the 1st processing example of a multi-channel evaluation part. マルチチャンネル評価部の第2処理例を示すフローチャートである。It is a flowchart which shows the 2nd processing example of a multi-channel evaluation part. マルチチャンネル評価部による重み付け係数W1~24の設定処理例を示すフローチャートである。It is a flowchart which shows the setting processing example of the weighting coefficient W 1 to 24 by a multi-channel evaluation unit. 実験結果を示す図である。It is a figure which shows the experimental result.

以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔発明の概要〕
符号化等により劣化した音響信号(以下、「劣化音」という。)を主観評価する場合、人間は、個別の音源の音質劣化に着目して評価する傾向がある。また、マルチチャンネル音響システムにおいて、マルチチャンネル音響信号を再生する際の音源は、あるチャンネル(例えば正面方向のチャンネル、またはペアとなるチャンネル)について最も大きなレベルでミキシングされる。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
[Outline of the invention]
When subjectively evaluating an acoustic signal (hereinafter referred to as "deteriorated sound") deteriorated by coding or the like, human beings tend to pay attention to the deterioration of the sound quality of each sound source. Further, in a multi-channel acoustic system, a sound source for reproducing a multi-channel acoustic signal is mixed at the highest level for a certain channel (for example, a frontal channel or a paired channel).

このような状況を鑑み、本発明の実施形態のマルチチャンネル客観評価装置は、あるチャンネルの音質劣化の度合いを主観評価と近似させるために、所定のチャンネルのみを劣化音とし、その他のチャンネルを原音として扱う。そして、マルチチャンネル客観評価装置は、これらの劣化音及び原音を用いてバイノーラル信号を生成し、このバイノーラル信号を客観評価対象の入力信号とし、客観評価を行う。 In view of such a situation, in the multi-channel objective evaluation device of the embodiment of the present invention, in order to approximate the degree of sound quality deterioration of a certain channel to the subjective evaluation, only a predetermined channel is used as the deteriorated sound and the other channels are used as the original sound. Treat as. Then, the multi-channel objective evaluation device generates a binaural signal using these deteriorated sounds and original sounds, and uses this binaural signal as an input signal for objective evaluation to perform objective evaluation.

具体的には、マルチチャンネル客観評価装置は、2チャンネルを超えるマルチチャンネル音響信号を構成するそれぞれの音響信号の原音及び劣化音を入力する。そして、マルチチャンネル客観評価装置は、チャンネル毎に、例えば全ての原音及び当該チャンネルのみの劣化音を用いた畳み込み処理を行い、主観評価を考慮したチャンネル毎のバイノーラル信号を生成する。 Specifically, the multi-channel objective evaluation device inputs the original sound and the deteriorated sound of each acoustic signal constituting the multi-channel acoustic signal having more than two channels. Then, the multi-channel objective evaluation device performs a convolution process for each channel using, for example, all the original sounds and the deteriorated sound of only the channel, and generates a binaural signal for each channel in consideration of the subjective evaluation.

マルチチャンネル客観評価装置は、バイノーラル信号を客観評価対象の入力信号として、チャンネル毎に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法により客観評価値を求める。そして、マルチチャンネル客観評価装置は、チャンネル毎の客観評価値に基づいて、マルチチャンネルの客観評価値を求める。 The multi-channel objective evaluation device uses a binoural signal as an input signal to be objectively evaluated, and uses the above-mentioned ITU-R recommendation BS of Non-Patent Document 2 for each channel. The objective evaluation value is obtained by the objective evaluation method specified in 1387-1. Then, the multi-channel objective evaluation device obtains a multi-channel objective evaluation value based on the objective evaluation value for each channel.

これにより、客観評価対象のバイノーラル信号は、個別の音源の音質劣化に着目して生成される主観評価を考慮した信号であるから、バイノーラル信号の客観評価値から生成されるマルチチャンネルの客観評価値は、主観評価値に近い値となる。したがって、2チャンネルを超えるマルチチャンネル音響信号の品質について、主観評価結果に近い客観評価結果を得ることが可能となる。 As a result, since the binaural signal to be objectively evaluated is a signal considering the subjective evaluation generated by paying attention to the deterioration of the sound quality of each sound source, the multi-channel objective evaluation value generated from the objective evaluation value of the binaural signal. Is a value close to the subjective evaluation value. Therefore, it is possible to obtain an objective evaluation result close to the subjective evaluation result for the quality of the multi-channel acoustic signal having more than two channels.

〔マルチチャンネル客観評価装置〕
まず、本発明の実施形態によるマルチチャンネル客観評価装置の構成及び処理について説明する。図1は、本発明の実施形態によるマルチチャンネル客観評価装置の構成例を示すブロック図である。
[Multi-channel objective evaluation device]
First, the configuration and processing of the multi-channel objective evaluation device according to the embodiment of the present invention will be described. FIG. 1 is a block diagram showing a configuration example of a multi-channel objective evaluation device according to an embodiment of the present invention.

このマルチチャンネル客観評価装置1は、2チャンネルを超えるマルチチャンネル音響信号を客観的に評価する装置であり、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法を活用し、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求められる主観評価値に近いマルチチャンネルの客観評価値z(マルチチャンネル客観評価結果)を求める。マルチチャンネル客観評価装置1は、畳み込み信号出力部10、信号処理部11、PEAQ評価部12及びマルチチャンネル評価部13を備えている。 This multi-channel objective evaluation device 1 is a device that objectively evaluates a multi-channel acoustic signal having more than two channels, and is described in the above-mentioned ITU-R recommendation BS of Non-Patent Document 2. Utilizing the objective evaluation method defined in 1387-1, the ITU-R recommendation BS of Non-Patent Document 1 described above. A multi-channel objective evaluation value z (multi-channel objective evaluation result) close to the subjective evaluation value obtained by the subjective evaluation method defined in 1116-3 is obtained. The multi-channel objective evaluation device 1 includes a convolution signal output unit 10, a signal processing unit 11, a PEAQ evaluation unit 12, and a multi-channel evaluation unit 13.

マルチチャンネル客観評価装置1は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、再生位置情報Pを入力し、再生位置情報Pに基づいて、チャンネル毎の畳み込み信号を特定する。そして、マルチチャンネル客観評価装置1は、主観評価を考慮したチャンネル毎のバイノーラル信号を生成し、バイノーラル信号をPEAQ評価し、その結果に基づいて、主観評価を考慮したマルチチャンネルの客観評価値zを算出する。 The multi-channel objective evaluation device 1 inputs the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 of the multi-channel acoustic signal, inputs the reproduction position information P, and based on the reproduction position information P, for each channel. Identify the convolution signal. Then, the multi-channel objective evaluation device 1 generates a binaural signal for each channel in consideration of subjective evaluation, evaluates the binaural signal in PEAQ, and based on the result, obtains a multi-channel objective evaluation value z in consideration of subjective evaluation. calculate.

以下、マルチチャンネル音響信号の例として、音響方式が22.2chの場合の音響信号を挙げて具体的に説明する。22.2chのマルチチャンネル音響信号は、24チャンネルの音響信号により構成される。 Hereinafter, as an example of the multi-channel acoustic signal, an acoustic signal when the acoustic method is 22.2ch will be specifically described. The 22.2ch multi-channel acoustic signal is composed of 24 channels of acoustic signals.

再生位置情報Pは、マルチチャンネル音響システムにおけるそれぞれの音響信号の再生位置に関する情報であり、例えば、マルチチャンネル音響信号の音響方式の情報、または再生位置に関する角度の情報である。本例の場合、再生位置情報Pとして、22.2chの音響方式の情報が入力される。音響方式により、チャンネルの数及び配置が一義的に決定される。または、再生位置情報Pとして、22.2chのマルチチャンネル音響信号を構成するそれぞれの音響信号についての(それぞれのチャンネルについての)仰角及び方位角(水平面の角度及び垂直面の角度)からなる角度の情報が入力される。 The reproduction position information P is information regarding the reproduction position of each acoustic signal in the multi-channel acoustic system, and is, for example, information on the acoustic method of the multi-channel acoustic signal or information on an angle relating to the reproduction position. In the case of this example, 22.2ch acoustic method information is input as the reproduction position information P. The acoustic method uniquely determines the number and arrangement of channels. Alternatively, as the reproduction position information P, the angle consisting of the elevation angle (for each channel) and the azimuth angle (horizontal plane angle and vertical plane angle) for each acoustic signal constituting the 22.2ch multi-channel acoustic signal. Information is entered.

図2は、マルチチャンネル客観評価装置1の処理例を示すフローチャートである。マルチチャンネル客観評価装置1は、マルチチャンネル音響信号を構成するそれぞれの音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、再生位置情報Pを入力する(ステップS201)。マルチチャンネル客観評価装置1により、マルチチャンネル音響信号の原音x1~24を基準として劣化音x’1~24が客観的に評価される。 FIG. 2 is a flowchart showing a processing example of the multi-channel objective evaluation device 1. The multi-channel objective evaluation device 1 inputs the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 of each acoustic signal constituting the multi-channel acoustic signal, and also inputs the reproduction position information P (step S201). The multi-channel objective evaluation device 1 objectively evaluates the deteriorated sound x ' 1 to 24 based on the original sound x 1 to 24 of the multi-channel acoustic signal.

マルチチャンネル客観評価装置1は、再生位置情報Pに基づき、チャンネル毎の畳み込み信号として、例えばチャンネル毎の伝搬特性を表す頭部インパルス応答HRIR1~24を特定する(ステップS202)。 The multi-channel objective evaluation device 1 specifies, for example, head-related impulse responses HRIRs 1 to 24 representing propagation characteristics for each channel as convolution signals for each channel based on the reproduction position information P (step S202).

マルチチャンネル客観評価装置1は、チャンネル毎の原音x1~24、劣化音x’1~24及び頭部インパルス応答HRIR1~24に基づいて、主観評価を考慮した畳み込み処理を行い、チャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する(ステップS203)。 The multi-channel objective evaluation device 1 performs convolution processing in consideration of subjective evaluation based on the original sound x 1 to 24 for each channel, the deteriorated sound x ' 1 to 24 , and the head impulse response HRIR 1 to 24 , and for each channel. Binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig are generated (step S203).

マルチチャンネル客観評価装置1は、チャンネル毎に、当該チャンネルのバイノーラル信号y1_ori~24_ori,y1_sig~24_sigに基づいて、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法によるPEAQ評価を行う(ステップS204)。そして、マルチチャンネル客観評価装置1は、チャンネル毎の客観評価値z1~24を求める。 The multi-channel objective evaluation device 1 is based on the binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig of the channel for each channel, and is based on the above-mentioned ITU-R recommendation BS of Non-Patent Document 2. PEAQ evaluation is performed by the objective evaluation method specified in 1387-1 (step S204). Then, the multi-channel objective evaluation device 1 obtains objective evaluation values z 1 to 24 for each channel.

マルチチャンネル客観評価装置1は、チャンネル毎の客観評価値z1~24に基づいて、マルチチャンネルの客観評価値zを算出して出力する(ステップS205)。 The multi-channel objective evaluation device 1 calculates and outputs a multi-channel objective evaluation value z based on the objective evaluation values z 1 to 24 for each channel (step S205).

(畳み込み信号出力部10)
図1を参照して、畳み込み信号出力部10は、予め設定されたデータベース(DB、図示せず)を備えている。畳み込み信号出力部10は、24チャンネルの音響信号の再生位置情報Pを入力し、DBから、再生位置情報Pに対応するチャンネル毎の畳み込み信号、例えばチャンネル毎の頭部インパルス応答HRIR1~24を読み出す。そして、畳み込み信号出力部10は、チャンネル毎の頭部インパルス応答HRIR1~24を信号処理部11に出力する。
(Convolution signal output unit 10)
With reference to FIG. 1, the convolution signal output unit 10 includes a preset database (DB, not shown). The convolution signal output unit 10 inputs the reproduction position information P of the acoustic signal of 24 channels, and inputs the convolution signal for each channel corresponding to the reproduction position information P, for example, the head impulse response HRIR 1 to 24 for each channel from the DB. read out. Then, the convolution signal output unit 10 outputs the head impulse responses HRIR 1 to 24 for each channel to the signal processing unit 11.

図3は、畳み込み信号出力部10の処理例を示すフローチャートである。畳み込み信号出力部10は、再生位置情報Pを入力し(ステップS301)、再生位置情報Pに音響方式の情報が含まれるか、または角度の情報が含まれるかを判定する(ステップS302)。 FIG. 3 is a flowchart showing a processing example of the convolution signal output unit 10. The convolution signal output unit 10 inputs the reproduction position information P (step S301), and determines whether the reproduction position information P includes the acoustic method information or the angle information (step S302).

再生位置情報Pには、音響方式及び角度のうちいずれか一方の情報が含まれるものとする。22.2ch、11.1ch、7.1ch、5.1ch等のように、スピーカー配置が非特許文献3のように標準化された音響方式の場合、再生位置は固定であるため、プリセットを登録しておく。この場合、再生位置情報Pには、22.2ch等を識別するための音響方式の情報が含まれる。一方、固定の音響方式を用いない場合、再生位置情報Pには、チャンネル毎に再生位置を特定するための角度の情報が含まれる。 It is assumed that the reproduction position information P includes information on either one of the acoustic method and the angle. In the case of a standardized acoustic method such as 22.2ch, 11.1ch, 7.1ch, 5.1ch, etc., as in Non-Patent Document 3, the playback position is fixed, so a preset is registered. Keep it. In this case, the reproduction position information P includes information on the acoustic method for identifying 22.2ch and the like. On the other hand, when the fixed acoustic method is not used, the reproduction position information P includes angle information for specifying the reproduction position for each channel.

畳み込み信号出力部10は、ステップS302において、再生位置情報Pに音響方式の情報が含まれると判定した場合(ステップS302:音響方式)、DBから、再生位置情報Pに含まれる音響方式に対応する頭部インパルス応答HRIR1~24を読み出す(ステップS303)。 When the convolution signal output unit 10 determines in step S302 that the reproduction position information P includes the acoustic method information (step S302: acoustic method), the convolution signal output unit 10 corresponds to the acoustic method included in the reproduction position information P from the DB. The head impulse response HRIRs 1 to 24 are read out (step S303).

一方、畳み込み信号出力部10は、ステップS302において、再生位置情報Pに角度の情報が含まれると判定した場合(ステップS302:角度)、DBから、再生位置情報Pに含まれる角度に対応する頭部インパルス応答HRIR1~24を読み出す(ステップS304)。 On the other hand, when the convolution signal output unit 10 determines in step S302 that the reproduction position information P includes the angle information (step S302: angle), the head corresponding to the angle included in the reproduction position information P from the DB. Read out the part impulse response HRIRs 1 to 24 (step S304).

畳み込み信号出力部10は、ステップS303またはステップS304から移行して、チャンネル毎の頭部インパルス応答HRIR1~24を信号処理部11に出力する(ステップS305)。 The convolution signal output unit 10 shifts from step S303 or step S304 and outputs the head impulse responses HRIR 1 to 24 for each channel to the signal processing unit 11 (step S305).

図4は、DBのデータ構成例を示す図である。このDBは、音響方式、チャンネル番号(ラベル)、仰角、方位角、及びこれらの情報に対応する畳み込み信号である頭部インパルス応答HRIR(スピーカー位置と人間の耳の位置との間の伝達関数に対応するインパルス応答)のデータから構成される。 FIG. 4 is a diagram showing an example of DB data configuration. This DB is a transfer function between the acoustic system, channel number (label), elevation angle, azimuth angle, and head impulse response HRIR (speaker position and human ear position), which is a convolution signal corresponding to these information. It consists of data from the corresponding impulse response).

音響方式は、22.2ch、11.1ch、7.1ch、5.1ch等であり、チャンネル番号は、音響方式の各音響信号に対応した番号である。仰角は、スピーカー位置と人間の耳の位置との間の線が水平面となす角度であり、方位角は、スピーカー位置と人間の耳の位置との間の線が垂直面となす角度である。一般的に正面方向を仰角0度、方位角0度とする。 The acoustic system is 22.2ch, 11.1ch, 7.1ch, 5.1ch, etc., and the channel number is a number corresponding to each acoustic signal of the acoustic system. The elevation angle is the angle formed by the line between the speaker position and the position of the human ear with the horizontal plane, and the azimuth angle is the angle formed by the line between the speaker position and the position of the human ear with the vertical plane. Generally, the front direction is an elevation angle of 0 degrees and an azimuth angle of 0 degrees.

図4に示すDBには、音響方式が22.2chの場合において、チャンネル番号3(ラベルがFC(フロントセンター))、仰角0°、方位角0°、及びこれらの情報に対応する頭部インパルス応答HRIR3等が格納されている。また、DBには、22.2ch以外の5.1ch等の音響方式のデータも格納されており、音響方式が5.1chの場合において、チャンネル番号3(ラベルがC(センター))、仰角0°、方位角0°、及びこれらの情報に対応する頭部インパルス応答HRIR3等が格納されている。 In the DB shown in FIG. 4, when the acoustic method is 22.2ch, the channel number 3 (label is FC (front center)), the elevation angle 0 °, the azimuth angle 0 °, and the head impulse corresponding to these information are displayed. Response HRIR 3 etc. are stored. In addition, data of acoustic methods such as 5.1ch other than 22.2ch are also stored in the DB, and when the acoustic method is 5.1ch, the channel number 3 (label is C (center)) and the elevation angle is 0. °, azimuth angle 0 °, and head impulse response HRIR 3 and the like corresponding to this information are stored.

畳み込み信号出力部10は、22.2chの音響方式の情報を含む再生位置情報Pを入力した場合、ステップS303において、22.2chの音響方式をキーとして図4のDBを検索する。そして、畳み込み信号出力部10は、DBから、22.2chの音響方式のチャンネル番号1~24に対応する頭部インパルス応答HRIR1~24をそれぞれ読み出す。 When the reproduction position information P including the information of the acoustic method of 22.2ch is input, the convolution signal output unit 10 searches the DB of FIG. 4 using the acoustic method of 22.2ch as a key in step S303. Then, the convolution signal output unit 10 reads out the head impulse responses HRIRs 1 to 24 corresponding to the channel numbers 1 to 24 of the 22.2ch acoustic method from the DB, respectively.

これにより、畳み込み信号出力部10は、22.2chの音響方式に対応するチャンネル毎の頭部インパルス応答HRIR1~24を、各チャンネルの角度を意識することなく特定することができる。この場合のDBには、音響方式、チャンネル番号(ラベル)、及びこれらの情報に対応する頭部インパルス応答HRIRが格納されていればよい。 Thereby, the convolution signal output unit 10 can specify the head impulse response HRIR 1 to 24 for each channel corresponding to the 22.2ch acoustic method without being conscious of the angle of each channel. In this case, the DB may store the acoustic method, the channel number (label), and the head impulse response HRIR corresponding to these information.

また、畳み込み信号出力部10は、チャンネル毎の仰角及び方位角の情報を含む再生位置情報Pを入力した場合、ステップS304において、チャンネル毎の仰角及び方位角をキーとして図4のDBを検索する。そして、畳み込み信号出力部10は、DBから、チャンネル毎の仰角及び方位角に対応する頭部インパルス応答HRIR1~24をそれぞれ読み出す。 Further, when the convolution signal output unit 10 inputs the reproduction position information P including the elevation angle and azimuth information for each channel, in step S304, the convolution signal output unit 10 searches the DB of FIG. 4 using the elevation angle and azimuth angle for each channel as keys. .. Then, the convolution signal output unit 10 reads out the head impulse responses HRIR 1 to 24 corresponding to the elevation angle and the azimuth angle for each channel from the DB, respectively.

これにより、畳み込み信号出力部10は、スピーカー配置がプリセットされていない、2以上のスピーカーが任意に配置されたマルチチャンネルシステムについて、チャンネル毎の角度に対応するチャンネル毎の頭部インパルス応答HRIR1~24を特定することができる。この場合のDBには、仰角、方位角、及びこれらの情報に対応する頭部インパルス応答HRIRが格納されていればよい。 As a result, the convolution signal output unit 10 has head-related impulse response HRIR 1 to each channel corresponding to the angle of each channel for a multi-channel system in which two or more speakers are arbitrarily arranged without preset speaker arrangement. 24 can be identified. In this case, the DB may store the elevation angle, the azimuth angle, and the head impulse response HRIR corresponding to these information.

(信号処理部11)
図1に戻って、信号処理部11は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、畳み込み信号出力部10から頭部インパルス応答HRIR1~24を入力する。
(Signal processing unit 11)
Returning to FIG. 1, the signal processing unit 11 inputs the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 of the multi-channel acoustic signal, and receives the head impulse response HRIR 1 to 24 from the convolution signal output unit 10. input.

信号処理部11は、原音x1~24、劣化音x’1~24及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、主観評価を考慮したチャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する。具体的には、信号処理部11は、チャンネル毎に、例えば全ての原音x1~24、当該チャンネルを含む所定のチャンネルのみの劣化音x’(当該チャンネルのみの1つの劣化音x’、または当該チャンネルを含む複数チャンネルの劣化音x’)、及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行う。信号処理部11は、チャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigをPEAQ評価部12に出力する。 The signal processing unit 11 performs convolution processing based on the original sound x 1 to 24 , the deteriorated sound x ' 1 to 24 , and the head impulse response HRIR 1 to 24 , and the binaural signal y 1_ori to 24_ori for each channel in consideration of subjective evaluation. , Y Generates 1_sig to 24_sig . Specifically, the signal processing unit 11 may use the signal processing unit 11 for each channel, for example, all the original sounds x 1 to 24 , the deteriorated sound x'of only a predetermined channel including the channel, or the deteriorated sound x'of only the channel. The convolution process is performed based on the deteriorated sound x') of a plurality of channels including the channel and the head impulse response HRIR 1 to 24 . The signal processing unit 11 outputs binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig for each channel to the PEAQ evaluation unit 12.

ここで、マルチチャンネル音響信号のチャンネル数をM(本例ではM=24)とすると、チャンネル毎の(M個の)バイノーラル信号y1_ori~M_oriまたはy1_sig~M_sigを生成する際に、チャンネル毎にチャンネル数N(<M)の劣化音x’または原音xが用いられる。Mは2より大きい正の整数であり、劣化音x’または原音xのチャンネル数Nは、1以上かつマルチチャンネル音響信号のチャンネル数Mよりも小さい整数である(1≦N<M)。 Here, assuming that the number of channels of the multi-channel acoustic signal is M (M = 24 in this example), each channel (M) binaural signals y 1_ori to M_ori or y 1_sig to M_sig for each channel is generated. The deteriorated sound x'or the original sound x having the number of channels N (<M) is used. M is a positive integer larger than 2, and the number of channels N of the deteriorated sound x'or the original sound x is 1 or more and smaller than the number of channels M of the multi-channel acoustic signal (1 ≦ N <M).

劣化音x’または原音xのチャンネル数Nは、チャンネル番号k(k=1~M)のチャンネルのバイノーラル信号yk_ori,yk_sigを生成する際の、そのチャンネル(チャンネル番号kのチャンネル)を含む1または2以上のチャンネルの数である。チャンネル番号kのチャンネルに加え、そのチャンネルに対して隣接するチャンネルを含むようにしてもよいし、チャンネル間相関を算出し、正規化相関係数が大きいチャンネルから選択するようにしてもよい。ここで、チャンネル番号kの信号をf(t)、隣接するチャンネルの信号をg(t)とすると、正規化相関関数σfgは、以下の数式(1)にて算出される。σf,σgは信号f(t),g(t)の標準偏差である。

Figure 0006998823000001
The number of channels N of the deteriorated sound x'or the original sound x includes the channel (channel of channel number k) when the binoral signals y k_ori and y k_sig of the channel of channel number k (k = 1 to M) are generated. The number of channels of 1 or 2 or more. In addition to the channel with the channel number k, the channels adjacent to the channel may be included, or the interchannel correlation may be calculated and selected from the channels having a large normalization correlation coefficient. Here, assuming that the signal of the channel number k is f (t) and the signal of the adjacent channel is g (t), the normalized correlation function σ fg is calculated by the following mathematical formula (1). σ f and σ g are standard deviations of the signals f (t) and g (t).
Figure 0006998823000001

バイノーラル信号y1_ori~24_ori,y1_sig~24_sigは、原音x1~24に対応する基本信号y1_ori~24_ori、及び劣化音x’1~24に対応する被測定信号y1_sig~24_sigにより構成される。基本信号y1_ori~24_ori及び被測定信号y1_sig~24_sigは、信号処理部11により、後述する図5または図6に示す処理例にて生成される。 The binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig are composed of the basic signals y 1_ori to 24_ori corresponding to the original sounds x 1 to 24 and the measured signals y 1_sig to 24_sig corresponding to the deteriorated sounds x ' 1 to 24 . .. The basic signals y 1_ori to 24_ori and the measured signals y 1_sig to 24_sig are generated by the signal processing unit 11 in the processing example shown in FIG. 5 or FIG. 6 to be described later.

図5は、信号処理部11の第1処理例を示すフローチャートである。この第1処理例は、チャンネル毎に、全ての原音x1~24、当該チャンネルのみの劣化音x’、及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、バイノーラル信号y_ori,y1_sig~24_sigを生成する例である。マルチチャンネル音響信号のチャンネル数M=24、劣化音x’のチャンネル数N=1とする。 FIG. 5 is a flowchart showing a first processing example of the signal processing unit 11. In this first processing example, convolution processing is performed for each channel based on all the original sounds x 1 to 24 , the deteriorated sound x'of the channel only, and the head impulse response HRIR 1 to 24 , and the binaural signal y _ori ,. This is an example of generating y 1_sig to 24_sig . It is assumed that the number of channels M of the multi-channel acoustic signal is 24 and the number of channels of the deteriorated sound x'is N = 1.

信号処理部11は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、畳み込み信号出力部10から頭部インパルス応答HRIR1~24を入力する(ステップS501)。 The signal processing unit 11 inputs the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 of the multi-channel acoustic signal, and also inputs the head impulse response HRIR 1 to 24 from the convolution signal output unit 10 (step S501). ..

信号処理部11は、全ての原音x1~24及び頭部インパルス応答HRIR1~24を用いて畳み込み処理を行い、共通の基本信号y_oriを生成する(ステップS502)。 The signal processing unit 11 performs convolution processing using all the original sounds x 1 to 24 and the head impulse response HRIR 1 to 24 , and generates a common basic signal y _ori (step S502).

具体的には、信号処理部11は、以下の数式(2)に示すように、チャンネル毎の原音x1~24にチャンネル毎の頭部インパルス応答HRIR1~24をそれぞれ畳み込み、全てのチャンネルの畳み込み結果を加算し、加算結果を、共通の基本信号y_oriとして生成する。

Figure 0006998823000002
Specifically, as shown in the following formula (2), the signal processing unit 11 convolves the head impulse response HRIR 1 to 24 for each channel into the original sound x 1 to 24 for each channel, respectively, and the signal processing unit 11 convolves the head impulse response HRIR 1 to 24 for each channel. The convolution results are added, and the addition result is generated as a common basic signal y _ori .
Figure 0006998823000002

ここで、チャンネル番号kの基本信号をyk_ori、チャンネル番号iの原音をxi、チャンネル番号iの頭部インパルス応答をHRIRiとすると、基本信号yk_oriは、y_oriと同じになる。k,iは、それぞれ1から24までの整数であり、*は畳み込み演算を示す。 Here, if the basic signal of the channel number k is y k_ori , the original sound of the channel number i is x i , and the head impulse response of the channel number i is HRIR i , the basic signal y k_ori is the same as y _ori . k and i are integers from 1 to 24, respectively, and * indicates a convolution operation.

信号処理部11は、チャンネル毎に、チャンネル数23(=M-N=24-1)の原音x及びチャンネル数1(=N)の劣化音x’、並びに全てのチャンネルの頭部インパルス応答HRIR1~24を用いて畳み込み処理を行い、チャンネル毎の被測定信号y1_sig~24_sigを生成する(ステップS503)。 The signal processing unit 11 has, for each channel, the original sound x of the number of channels 23 (= MN = 24-1), the deteriorated sound x'of the number of channels 1 (= N), and the head impulse response HRIR of all the channels. The convolution process is performed using 1 to 24 to generate the measured signals y 1_sig to 24_sig for each channel (step S503).

具体的には、信号処理部11は、チャンネル毎に、当該チャンネル(チャンネル番号kとする。)以外のチャンネル数23の原音xに頭部インパルス応答HRIRをそれぞれ畳み込み、チャンネル数23の畳み込み結果を加算し、チャンネル数23の原音xの加算結果を得る。そして、信号処理部11は、当該チャンネルにおけるチャンネル数1の劣化音x’に頭部インパルス応答HRIRを畳み込み、チャンネル数1の劣化音x’の畳み込み結果を得る。 Specifically, the signal processing unit 11 convolves the head impulse response HRIR into the original sound x of the number of channels 23 other than the channel (referred to as the channel number k) for each channel, and obtains the convolution result of the number of channels 23. Addition is performed, and the addition result of the original sound x of the number of channels 23 is obtained. Then, the signal processing unit 11 convolves the head impulse response HRIR with the deteriorated sound x'of the number of channels 1 in the channel, and obtains the convolution result of the deteriorated sound x'of the number of channels 1.

信号処理部11は、チャンネル数23の原音xの加算結果に、チャンネル数1(チャンネル番号kとする。)の劣化音x’の畳み込み結果を加算し、当該加算結果を、当該チャンネルの被測定信号yk_sigとし、チャンネル毎の被測定信号y1_sig~24_sigを生成する。 The signal processing unit 11 adds the convolution result of the deteriorated sound x'of the channel number 1 (channel number k) to the addition result of the original sound x of the channel number 23, and the addition result is measured by the channel. The signal y k_sig is used, and the measured signals y 1_sig to 24_sig for each channel are generated.

尚、信号処理部11は、原音x1~24に頭部インパルス応答HRIR1~24をそれぞれ畳み込み、全てのチャンネルの畳み込み結果を加算し、当該チャンネルの原音xに頭部インパルス応答HRIRを畳み込み、前者の加算結果から後者の畳み込み結果を減算することで、チャンネル数23の原音xの加算結果を得るようにしてもよい。そして、信号処理部11は、チャンネル数23の原音xの加算結果に、チャンネル数1の劣化音x’の畳み込み結果を加算し、チャンネル毎の被測定信号y1_sig~24_sigを生成する。これは、後述する数式(3)の演算に相当する。 The signal processing unit 11 convolves the head impulse response HRIRs 1 to 24 into the original sounds x 1 to 24 , adds the convolution results of all channels, and convolves the head impulse response HRIR into the original sounds x of the channel. By subtracting the latter convolution result from the former addition result, the addition result of the original sound x having the number of channels 23 may be obtained. Then, the signal processing unit 11 adds the convolution result of the deteriorated sound x'of the number of channels 1 to the addition result of the original sound x of the number of channels 23, and generates the measured signals y 1_sig to 24_sig for each channel. This corresponds to the calculation of the mathematical formula (3) described later.

ここで、チャンネル番号kの被測定信号をyk_sig、チャンネル番号i,kの原音をそれぞれxi,xk、チャンネル番号i,kの頭部インパルス応答をそれぞれHRIRi,HRIRk、チャンネル番号kの劣化音をx’kとすると、被測定信号yk_sigは、以下の数式にて表される。

Figure 0006998823000003
Here, the measured signal of the channel number k is y k_sig , the original sound of the channel numbers i and k is x i and x k , respectively, and the head impulse response of the channel numbers i and k is HRIR i , HRIR k and the channel number k, respectively. The measured signal y k_sig is expressed by the following formula, where x'k is the deteriorated sound of.
Figure 0006998823000003

尚、前記数式(3)は、劣化音x’のチャンネル数N=1の式であり、人間が1つのチャンネルに注目して主観評価することを想定したものである。しかし、実際は、音源の種類によっては人間が2以上のチャンネルに着目して主観評価することもあり得る。この場合、劣化音x’のチャンネル数N>1としたときの被測定信号yk_sigが算出される。劣化音x’のチャンネル数N>1の場合、前記数式(3)の右辺の第2項は、チャンネル数N分の原音xについて畳み込み演算が行われ、それぞれの演算結果が減算される。また、前記数式(3)の右辺の第3項は、チャンネル数N分の劣化音x’について畳み込み演算が行われ、それぞれの演算結果が加算される。 The formula (3) is a formula in which the number of channels N = 1 of the deteriorated sound x'is assumed to be subjectively evaluated by a human being paying attention to one channel. However, in reality, depending on the type of sound source, a human may focus on two or more channels for subjective evaluation. In this case, the measured signal y k_sig is calculated when the number of channels N> 1 of the deteriorated sound x'. When the number of channels N> 1 of the deteriorated sound x', the second term on the right side of the equation (3) is convolved with respect to the original sound x for the number of channels N, and the respective calculation results are subtracted. Further, in the third term on the right side of the mathematical formula (3), a convolution calculation is performed on the deteriorated sound x'for the number of channels N, and the respective calculation results are added.

信号処理部11は、ステップS502にて生成した基本信号y_ori、及びステップS503にて生成した被測定信号y1_sig~24_sigをPEAQ評価部12に出力する(ステップS504)。 The signal processing unit 11 outputs the basic signal y _ori generated in step S502 and the measured signals y 1_sig to 24_sig generated in step S503 to the PEAQ evaluation unit 12 (step S504).

このように、基本信号y_oriは、全てのチャンネルの原音x1~24を用いた畳み込み処理にて生成される。また、被測定信号y1_sig~24_sigは、チャンネル毎に、当該チャンネル以外のチャンネル数23の原音x、及び当該チャンネルのチャンネル数1の劣化音x’を用いた畳み込み処理にて生成される。 In this way, the basic signal y _ori is generated by the convolution process using the original sounds x 1 to 24 of all channels. Further, the measured signals y 1_sig to 24_sig are generated for each channel by a convolution process using the original sound x of 23 channels other than the channel and the deteriorated sound x'of 1 channel of the channel.

つまり、所定チャンネル(チャンネル番号kのチャンネル)のバイノーラル信号yk_ori,yk_sigは、全てのチャンネルの原音x1~24に基づいた基本信号y_oriと、全てのチャンネルの劣化音x’1~24のうち当該チャンネルの劣化音x’kに基づいた被測定信号yk_sigとにより構成される。このため、被測定信号y1_sig~24_sigは、マルチチャンネル音響において、個別の音源の音質劣化に着目して評価する主観評価を考慮したバイノーラル信号となる。 That is, the binoral signals y k_ori and y k_sig of the predetermined channel (channel number k) are the basic signal y _ori based on the original sound x 1 to 24 of all channels and the deteriorated sound x ' 1 to 24 of all channels. Of these, it is composed of the measured signal y k_sig based on the deteriorated sound x'k of the channel. Therefore, the measured signals y 1_sig to 24_sig are binaural signals in consideration of subjective evaluation that focuses on the deterioration of sound quality of individual sound sources in multi-channel acoustics.

図6は、信号処理部11の第2処理例を示すフローチャートである。この第2処理例は、チャンネル毎に、全ての劣化音x’1~24、当該チャンネルのみの原音x、及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、バイノーラル信号y1_ori~24_ori,y_sigを生成する例である。マルチチャンネル音響信号のチャンネル数M=24、劣化音x’のチャンネル数N=1とする。 FIG. 6 is a flowchart showing a second processing example of the signal processing unit 11. In this second processing example, convolution processing is performed for each channel based on all the deteriorated sounds x ' 1 to 24 , the original sound x of only the channel, and the head impulse response HRIR 1 to 24 , and the binaural signal y 1_ori ~. This is an example of generating 24_ori and y _sig . It is assumed that the number of channels M of the multi-channel acoustic signal is 24 and the number of channels of the deteriorated sound x'is N = 1.

信号処理部11は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24を入力すると共に、畳み込み信号出力部10から頭部インパルス応答HRIR1~24を入力する(ステップS601)。 The signal processing unit 11 inputs the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 of the multi-channel acoustic signal, and also inputs the head impulse response HRIR 1 to 24 from the convolution signal output unit 10 (step S601). ..

信号処理部11は、全ての劣化音x’1~24及び頭部インパルス応答HRIR1~24を用いて畳み込み処理を行い、共通の被測定信号y_sigを生成する(ステップS602)。 The signal processing unit 11 performs convolution processing using all the deteriorated sounds x ' 1 to 24 and the head impulse response HRIR 1 to 24 , and generates a common measured signal y _sig (step S602).

具体的には、信号処理部11は、以下の数式(4)に示すように、チャンネル毎の劣化音x’1~24にチャンネル毎の頭部インパルス応答HRIR1~24をそれぞれ畳み込み、全てのチャンネルの畳み込み結果を加算し、加算結果を、共通の被測定信号y_sigとして生成する。

Figure 0006998823000004
Specifically, as shown in the following formula (4), the signal processing unit 11 convolves the head impulse response HRIR 1 to 24 for each channel into the deterioration sound x ' 1 to 24 for each channel, and all of them. The convolution results of the channels are added, and the addition result is generated as a common measured signal y _sig .
Figure 0006998823000004

ここで、チャンネル番号kの被測定信号をyk_sig、チャンネル番号iの劣化音をx’i、チャンネル番号iの頭部インパルス応答をHRIRiとすると、被測定信号をyk_sigは、y_sigと同じになる。 Here, assuming that the measured signal of channel number k is y k_sig , the degraded sound of channel number i is x'i, and the head impulse response of channel number i is HRIR i , the measured signal is y k_sig and y _sig . Will be the same.

信号処理部11は、チャンネル毎に、チャンネル数23の劣化音x’及びチャンネル数1の原音x、並びに全てのチャンネルの頭部インパルス応答HRIR1~24を用いて畳み込み処理を行い、チャンネル毎の基本信号y1_ori~24_oriを生成する(ステップS603)。 The signal processing unit 11 performs convolution processing for each channel using the deteriorated sound x'of the number of channels 23, the original sound x of the number of channels 1, and the head impulse responses HRIR 1 to 24 of all the channels, and performs the convolution processing for each channel. The basic signals y 1_ori to 24_ori are generated (step S603).

具体的には、信号処理部11は、チャンネル毎に、当該チャンネル以外のチャンネル数23の劣化音x’に頭部インパルス応答HRIRをそれぞれ畳み込み、チャンネル数23の畳み込み結果を加算し、チャンネル数23の劣化音x’の加算結果を得る。そして、信号処理部11は、当該チャンネルにおけるチャンネル数1の原音xに頭部インパルス応答HRIRを畳み込み、チャンネル数1の原音xの畳み込み結果を得る。 Specifically, the signal processing unit 11 convolves the head impulse response HRIR into the deteriorated sound x'of the number of channels 23 other than the channel, and adds the convolution result of the number of channels 23 to the number of channels 23. The addition result of the deteriorated sound x'is obtained. Then, the signal processing unit 11 convolves the head impulse response HRIR with the original sound x having the number of channels 1 in the channel, and obtains the convolution result of the original sound x having the number of channels 1.

信号処理部11は、チャンネル数23の劣化音x’の加算結果に、チャンネル数1(チャンネル番号kとする。)の原音xの畳み込み結果を加算し、当該加算結果を、当該チャンネルの基本信号yk_oriとし、チャンネル毎の基本信号y1_ori~24_oriを生成する。 The signal processing unit 11 adds the convolution result of the original sound x of the channel number 1 (channel number k) to the addition result of the deteriorated sound x'of the channel number 23, and the addition result is the basic signal of the channel. Let y k_ori and generate basic signals y 1_ori to 24_ori for each channel.

尚、信号処理部11は、劣化音x’1~24に頭部インパルス応答HRIR1~24をそれぞれ畳み込み、全てのチャンネルの畳み込み結果を加算し、当該チャンネルの劣化音x’に頭部インパルス応答HRIRを畳み込み、前者の加算結果から後者の畳み込み結果を減算することで、チャンネル数23の劣化音x’の加算結果を得るようにしてもよい。そして、信号処理部11は、チャンネル数23の劣化音x’の加算結果に、チャンネル数1の原音xの畳み込み結果を加算し、チャンネル毎の基本信号y1_ori~24_oriを生成する。これは、後述する数式(5)の演算に相当する。 The signal processing unit 11 convolves the head impulse response HRIRs 1 to 24 with the deterioration sound x ' 1 to 24 , adds the convolution results of all channels, and adds the head impulse response to the deterioration sound x'of the channel. By convolving the HRIR and subtracting the convolution result of the latter from the addition result of the former, the addition result of the deteriorated sound x'of the number of channels 23 may be obtained. Then, the signal processing unit 11 adds the convolution result of the original sound x of the number of channels 1 to the addition result of the deteriorated sound x'of the number of channels 23, and generates the basic signals y 1_ori to 24_ori for each channel. This corresponds to the calculation of the mathematical formula (5) described later.

ここで、チャンネル番号kの基本信号をyk_ori、チャンネル番号i,kの劣化音をそれぞれx’i,x’k、チャンネル番号i,kの頭部インパルス応答をそれぞれHRIRi,HRIRk、チャンネル番号kの原音をxkとすると、基本信号をyk_oriは、以下の数式にて表される。

Figure 0006998823000005
Here, the basic signal of the channel number k is y k_ori , the degraded sound of the channel numbers i and k is x'i and x'k, respectively, and the head impulse response of the channel numbers i and k is HRIR i , HRIR k and the channel, respectively. Assuming that the original sound of the number k is x k , the basic signal y k_ori is expressed by the following formula.
Figure 0006998823000005

尚、劣化音のチャンネル数N>1の場合、前記数式(5)の右辺の第2項は、チャンネル数N分の劣化音x’について畳み込み演算が行われ、それぞれの演算結果が減算される。また、前記数式(5)の右辺の第3項は、チャンネル数N分の原音xについて畳み込み演算が行われ、それぞれの演算結果が加算される。 When the number of channels of the deteriorated sound N> 1, the second term on the right side of the formula (5) is subjected to a convolution calculation for the deteriorated sound x'for the number of channels N, and the respective calculation results are subtracted. .. Further, in the third term on the right side of the mathematical formula (5), a convolution operation is performed on the original sound x for the number of channels N, and the respective calculation results are added.

信号処理部11は、ステップS602にて生成した被測定信号y_sig、及びステップS603にて生成した基本信号y1_ori~24_oriをPEAQ評価部12に出力する(ステップS604)。 The signal processing unit 11 outputs the measured signal y _sig generated in step S602 and the basic signals y 1_ori to 24_ori generated in step S603 to the PEAQ evaluation unit 12 (step S604).

このように、被測定信号y_sigは、全てのチャンネルの劣化音x’1~24を用いた畳み込み処理にて生成される。また、基本信号y1_ori~24_oriは、チャンネル毎に、当該チャンネル以外のチャンネル数23の劣化音x’、及び当該チャンネルのチャンネル数1の原音xを用いた畳み込み処理にて生成される。 In this way, the measured signal y _sig is generated by the convolution process using the deteriorated sounds x ' 1 to 24 of all channels. Further, the basic signals y 1_ori to 24_ori are generated for each channel by a convolution process using the deteriorated sound x'of the number of channels 23 other than the channel and the original sound x of the channel number 1 of the channel.

つまり、所定チャンネル(チャンネル番号kのチャンネル)のバイノーラル信号yk_ori,yk_sigは、全てのチャンネルの劣化音x’1~24に基づいた被測定信号y_sigと、全てのチャンネルの原音x1~24のうち当該チャンネルの原音xkに基づいた基本信号yk_oriとにより構成される。この場合、基本信号yk_oriが基本の信号となり、被測定信号y_sigが、所定チャンネルの音源の音質劣化が反映された信号となる。このため、基本信号y1_ori~24_oriは、個別の音源の音質劣化に着目して評価する主観評価を考慮したバイノーラル信号となる。 That is, the binoral signals y k_ori and y k_sig of the predetermined channel (channel number k) are the measured signal y _sig based on the deteriorated sound x ' 1 to 24 of all channels and the original sound x 1 to all channels. Of the 24 , it is composed of the basic signal y k_ori based on the original sound x k of the channel. In this case, the basic signal y k_ori becomes the basic signal, and the measured signal y _sig becomes a signal reflecting the deterioration of the sound quality of the sound source of the predetermined channel. Therefore, the basic signals y 1_ori to 24_ori are binaural signals in consideration of subjective evaluation that focuses on the deterioration of sound quality of individual sound sources.

尚、図5及び図6は、劣化音x’のチャンネル数N=1の例であるが、N>1の場合も同様に適用できる。N>1の場合、信号処理部11は、チャンネル番号kのチャンネルの基本信号yk_oriを生成する際に、チャンネル数N>1の原音xを選択する必要がある。 Note that FIGS. 5 and 6 are examples of the number of channels N = 1 of the deteriorated sound x', but the same can be applied when N> 1. When N> 1, the signal processing unit 11 needs to select the original sound x having the number of channels N> 1 when generating the basic signal y k_ori of the channel with the channel number k.

信号処理部11は、チャンネル番号kのチャンネルについて、例えば、当該チャンネルの原音xkに加え、当該チャンネルに隣接する所定数のチャンネルの原音xを選択する。所定数は1以上の整数である。 For the channel of channel number k, the signal processing unit 11 selects, for example, the original sound x of a predetermined number of channels adjacent to the channel in addition to the original sound x k of the channel. The predetermined number is an integer of 1 or more.

具体的には、チャンネル番号kのチャンネルに隣接するチャンネルが複数の場合、信号処理部11は、チャンネル番号kのチャンネルとこれに隣接するチャンネルとの間の正規化相関係数ρfg(前記数式(1))を、隣接する複数のチャンネルのそれぞれについて算出する。信号処理部11は、隣接する複数のチャンネルを、正規化相関係数ρfgが大きい順に並べる。信号処理部11は、チャンネル番号kのチャンネルの原音xkに加え、正規化相関係数ρfgの大きい所定数のチャンネルの原音xを選択する。チャンネル番号kのチャンネルに隣接する複数のチャンネルは、再生位置情報Pから予め設定されるものとする。 Specifically, when there are a plurality of channels adjacent to the channel of channel number k, the signal processing unit 11 has a normalized correlation coefficient ρ fg between the channel of channel number k and the channel adjacent thereto (the above-mentioned formula). (1)) is calculated for each of a plurality of adjacent channels. The signal processing unit 11 arranges a plurality of adjacent channels in descending order of the normalized correlation coefficient ρ fg . The signal processing unit 11 selects the original sound x of a predetermined number of channels having a large normalization correlation coefficient ρ fg in addition to the original sound x k of the channel having the channel number k. It is assumed that a plurality of channels adjacent to the channel with the channel number k are preset from the reproduction position information P.

この場合、信号処理部11は、チャンネル番号kのチャンネルに隣接しないチャンネルの原音xを選択するようにしてもよい。具体的には、信号処理部11は、隣接する複数のチャンネル以外のチャンネル(隣接しないチャンネル)について、チャンネル番号kのチャンネルと隣接しないチャンネルとの間の正規化相関係数ρfgを算出する。そして、信号処理部11は、その正規化相関係数ρfgが隣接するチャンネルよりも大きい場合、隣接するチャンネルに代えて、隣接しないチャンネルの原音xを選択する。 In this case, the signal processing unit 11 may select the original sound x of the channel not adjacent to the channel of the channel number k. Specifically, the signal processing unit 11 calculates the normalized correlation coefficient ρ fg between the channel having the channel number k and the non-adjacent channel for channels other than the plurality of adjacent channels (non-adjacent channels). Then, when the normalized correlation coefficient ρ fg is larger than that of the adjacent channel, the signal processing unit 11 selects the original sound x of the non-adjacent channel instead of the adjacent channel.

(PEAQ評価部12)
図1に戻って、PEAQ評価部12は、信号処理部11からチャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを入力する。そして、PEAQ評価部12は、チャンネル毎に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法であるPEAQ客観音質測定法により客観評価値z1~24を求める。PEAQ評価部12は、チャンネル毎の客観評価値z1~24をマルチチャンネル評価部13に出力する。
(PEAQ evaluation unit 12)
Returning to FIG. 1, the PEAQ evaluation unit 12 inputs binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig for each channel from the signal processing unit 11. Then, the PEAQ evaluation unit 12 uses the above-mentioned ITU-R recommendation BS of Non-Patent Document 2 for each channel. The objective evaluation values z 1 to 24 are obtained by the PEAQ objective sound quality measurement method, which is the objective evaluation method defined in 1387-1. The PEAQ evaluation unit 12 outputs the objective evaluation values z 1 to 24 for each channel to the multi-channel evaluation unit 13.

PEAQ評価部12は、PEAQ評価手段20-1、PEAQ評価手段20-2、・・・及びPEAQ評価手段20-24を備えている。PEAQ評価手段20-kは、信号処理部11からチャンネル番号kのバイノーラル信号yk_ori,yk_sigを入力し、PEAQ客観音質測定法のアルゴリズムを用いて客観評価値zkを求め、客観評価値zkをマルチチャンネル評価部13に出力する。kは、前述のとおり1から24までの整数である。 The PEAQ evaluation unit 12 includes PEAQ evaluation means 20-1, PEAQ evaluation means 20-2, ..., And PEAQ evaluation means 20-24. The PEAQ evaluation means 20-k inputs the binoral signals y k_ori and y k_sig of the channel number k from the signal processing unit 11, obtains the objective evaluation value z k using the algorithm of the PEAQ objective sound quality measurement method, and obtains the objective evaluation value z. k is output to the multi-channel evaluation unit 13. k is an integer from 1 to 24 as described above.

具体的には、PEAQ評価手段20-kは、基本信号yk_ori及び被測定信号yk_sigから構成されるバイノーラル信号yk_ori,yk_sigを入力する。そして、PEAQ評価手段20-kは、人間の耳の知覚特性を反映した聴覚モデルを用いて、基本信号yk_oriについての聴覚モデル出力信号、及び被測定信号yk_sigについての聴覚モデル出力信号を生成する。 Specifically, the PEAQ evaluation means 20-k inputs binaural signals y k_ori and y k_sig composed of the basic signal y k_ori and the measured signal y k_sig . Then, the PEAQ evaluation means 20-k generates an auditory model output signal for the basic signal y k_ori and an auditory model output signal for the measured signal y k_sig using an auditory model that reflects the perceptual characteristics of the human ear. do.

この聴覚モデルは、外耳、中耳及び内耳の各機能を模擬したアルゴルズムにより、入力信号にFFT(Fast Fourier Transform:高速フーリエ変換)を施して周波数成分の信号を生成し、周波数成分の信号を、内耳の機能を反映したグループに分類し、周波数成分の信号に血流等の生理的雑音を加算し、周波数軸上及び時間軸上の広がりを考慮して神経興奮パターンを計算することにより、聴覚モデル出力信号を生成する。 In this auditory model, the input signal is subjected to FFT (Fast Fourier Transform) by the algorithm that simulates the functions of the outer ear, middle ear, and inner ear to generate a frequency component signal, and the frequency component signal is generated. Hearing by classifying into groups that reflect the function of the inner ear, adding physiological noise such as blood flow to the signal of the frequency component, and calculating the nerve excitement pattern in consideration of the spread on the frequency axis and the time axis. Generate a model output signal.

PEAQ評価手段20-kは、基本信号yk_ori及び被測定信号yk_sigについてのそれぞれの聴覚モデル出力信号に基づいて、聴覚歪み特性を計算し、音響的な信号劣化の程度を表すモデル出力値を求める。そして、PEAQ評価手段20-kは、ニューラルネットワーク構造を有する認識モデルを用いて、モデル出力値に基づき客観評価値zkを求める。 The PEAQ evaluation means 20-k calculates the auditory distortion characteristics based on the respective auditory model output signals for the basic signal y k_ori and the measured signal y k_sig , and calculates the model output value indicating the degree of acoustic signal deterioration. Ask. Then, the PEAQ evaluation means 20- k obtains an objective evaluation value zk based on the model output value by using a recognition model having a neural network structure.

尚、PEAQ客観音質測定法のアルゴリズムを用いて客観評価値zkを求める方法は既知であり、詳細については、例えば前述の非特許文献2または以下の文献を参照されたい。
渡辺馨、“オーディオ信号の劣化の評価法”、日本音響学会誌、63巻11号(2007)、pp.686-692
A method of obtaining an objective evaluation value z k using an algorithm of the PEAQ objective sound quality measurement method is known, and for details, refer to, for example, the above-mentioned Non-Patent Document 2 or the following documents.
Kaoru Watanabe, "Evaluation Method for Deterioration of Audio Signals", Journal of Acoustical Society of Japan, Vol. 63, No. 11 (2007), pp.686-692

(マルチチャンネル評価部13)
マルチチャンネル評価部13は、PEAQ評価部12からチャンネル毎の客観評価値z1~24を入力し、客観評価値z1~24に基づいてマルチチャンネルの客観評価値zを求め、マルチチャンネルの客観評価値zを出力する。
(Multi-channel evaluation unit 13)
The multi-channel evaluation unit 13 inputs objective evaluation values z 1 to 24 for each channel from the PEAQ evaluation unit 12, obtains multi-channel objective evaluation values z based on objective evaluation values z 1 to 24 , and multi-channel objective. The evaluation value z is output.

図7は、マルチチャンネル評価部13の第1処理例を示すフローチャートである。第1処理例は、PEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24のうち、最低値zLをマルチチャンネルの客観評価値zとする例である。 FIG. 7 is a flowchart showing a first processing example of the multi-channel evaluation unit 13. The first processing example is an example in which the lowest value z L among the objective evaluation values z 1 to 24 for each channel obtained by the PEAQ objective sound quality measurement method is set as the multi-channel objective evaluation value z.

マルチチャンネル評価部13は、PEAQ評価部12からチャンネル毎の客観評価値z1~24を入力し(ステップS701)、チャンネル毎の客観評価値z1~24のうち、最低値zLを検出する(ステップS702)。 The multi-channel evaluation unit 13 inputs objective evaluation values z 1 to 24 for each channel from the PEAQ evaluation unit 12 (step S701), and detects the lowest value z L among the objective evaluation values z 1 to 24 for each channel. (Step S702).

マルチチャンネル評価部13は、ステップS702にて検出した最低値zLをマルチチャンネルの客観評価値zに設定し(z=zL)、マルチチャンネルの客観評価値zを出力する(ステップS703)。 The multi-channel evaluation unit 13 sets the lowest value z L detected in step S702 to the multi-channel objective evaluation value z (z = z L ), and outputs the multi-channel objective evaluation value z (step S703).

このように、マルチチャンネル評価部13は、PEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24のうち、最低値zLをマルチチャンネルの客観評価値zとして出力するようにした。これにより、人間がマルチチャンネル音響において特定のチャンネルに着目したときの最も評価の低いチャンネルについて、当該チャンネルの客観評価値が、マルチチャンネルの客観評価値zとして出力される。つまり、マルチチャンネルの客観評価値zは、個別の音源の音質劣化に着目して評価される主観評価値に近い値となる。 In this way, the multi-channel evaluation unit 13 outputs the lowest value z L among the objective evaluation values z 1 to 24 for each channel obtained by the PEAQ objective sound quality measurement method as the multi-channel objective evaluation value z. did. As a result, the objective evaluation value of the channel having the lowest evaluation when a human pays attention to a specific channel in the multi-channel sound is output as the multi-channel objective evaluation value z. That is, the multi-channel objective evaluation value z is close to the subjective evaluation value evaluated by paying attention to the deterioration of the sound quality of each sound source.

図8は、マルチチャンネル評価部13の第2処理例を示すフローチャートである。第2処理例は、PEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24に重み付け係数W1~24を乗算し、全てのチャンネルの乗算結果を加算することでマルチチャンネルの客観評価値zを求める例である。 FIG. 8 is a flowchart showing a second processing example of the multi-channel evaluation unit 13. In the second processing example, the objective evaluation values z 1 to 24 for each channel obtained by the PEAQ objective sound quality measurement method are multiplied by the weighting coefficients W 1 to 24 , and the multiplication results of all channels are added to obtain a multi-channel. This is an example of obtaining the objective evaluation value z.

マルチチャンネル評価部13は、PEAQ評価部12からチャンネル毎の客観評価値z1~24を入力し(ステップS801)、チャンネル毎の客観評価値z1~24に、所定の重み付け係数W1~24をそれぞれ乗算し、チャンネル毎の乗算結果を求める(ステップS802)。重み付け係数W1~24の合計値は1である。 The multi-channel evaluation unit 13 inputs objective evaluation values z 1 to 24 for each channel from the PEAQ evaluation unit 12 (step S801), and a predetermined weighting coefficient W 1 to 24 is set in the objective evaluation values z 1 to 24 for each channel. Are multiplied by each, and the multiplication result for each channel is obtained (step S802). The total value of the weighting coefficients W1 to 24 is 1.

マルチチャンネル評価部13は、ステップS802にて求めた全てのチャンネルの乗算結果を加算し(ステップS803)、加算結果をマルチチャンネルの客観評価値zに設定し、マルチチャンネルの客観評価値zを出力する(ステップS804)。 The multi-channel evaluation unit 13 adds the multiplication results of all the channels obtained in step S802 (step S803), sets the addition result to the multi-channel objective evaluation value z, and outputs the multi-channel objective evaluation value z. (Step S804).

ここで、図8に示した第2処理例は、以下の数式にて表される。

Figure 0006998823000006
Here, the second processing example shown in FIG. 8 is represented by the following mathematical formula.
Figure 0006998823000006

所定の重み付け係数W1~24としては、チャンネル毎に、客観評価値z1~24が大きいほど(劣化が小さいほど)小さい値が用いられ、客観評価値z1~24が小さいほど(劣化が大きいほど)大きい値が用いられる。所定の重み付け係数W1~24は、ユーザにより予め設定されるようにしてもよいし、所定の処理により自動的に設定されるようにしてもよい。 As the predetermined weighting coefficients W 1 to 24 , a smaller value is used as the objective evaluation value z 1 to 24 is larger (the smaller the deterioration is), and the smaller the objective evaluation value z 1 to 24 is (the deterioration is less) for each channel. Larger values are used. The predetermined weighting coefficients W1 to 24 may be preset by the user or may be automatically set by a predetermined process.

以下、所定の処理にて重み付け係数W1~24を設定する例について説明する。図9は、マルチチャンネル評価部13による重み付け係数W1~24の設定処理例を示すフローチャートである。マルチチャンネル評価部13は、チャンネル番号i(i=1~24)を順番に設定し(ステップS901)、客観評価値ziが所定値よりも大きいか否かを判定する(ステップS902)。 Hereinafter, an example of setting the weighting coefficients W1 to 24 in a predetermined process will be described. FIG. 9 is a flowchart showing an example of setting processing of the weighting coefficients W1 to 24 by the multi-channel evaluation unit 13. The multi-channel evaluation unit 13 sets channel numbers i (i = 1 to 24) in order (step S901), and determines whether or not the objective evaluation value z i is larger than a predetermined value (step S902).

PEAQ評価部12により求めた客観評価値ziにおいて、0が「劣化音を検知できない」、-1が「劣化音を検知できるが気にならない」、-2が「劣化音がやや気になる」、-3が「劣化音が気になる」、-4が「劣化音が非常に気になる」を示す場合、ステップS902にて用いる所定値は、例えば-1である。 In the objective evaluation value z i obtained by the PEAQ evaluation unit 12, 0 is "cannot detect deteriorated sound", -1 is "can detect deteriorated sound but does not bother", and -2 is "slightly worried about deteriorated sound". , -3 indicates "I am concerned about the deteriorated sound", and -4 indicates "I am very concerned about the deteriorated sound", the predetermined value used in step S902 is, for example, -1.

マルチチャンネル評価部13は、ステップS902において、客観評価値ziが所定値よりも大きいと判定した場合(ステップS902:Y)、チャンネル番号iのチャンネルの音響信号について、劣化が小さいと判断し、重み付け係数Wi=0に設定する(ステップS903)。 When the multi-channel evaluation unit 13 determines in step S902 that the objective evaluation value zi is larger than the predetermined value (step S902: Y), the multi-channel evaluation unit 13 determines that the acoustic signal of the channel of the channel number i has little deterioration. The weighting coefficient W i = 0 is set (step S903).

一方、マルチチャンネル評価部13は、ステップS902において、客観評価値ziが所定値よりも大きくないと判定した場合(ステップS902:N)、当該音響信号のラウドネスレベルに基づいて、重み付け係数Wiを設定する(ステップS904)。 On the other hand, when the multi-channel evaluation unit 13 determines in step S902 that the objective evaluation value z i is not larger than the predetermined value (step S902: N), the weighting coefficient W i is based on the loudness level of the acoustic signal. Is set (step S904).

具体的には、マルチチャンネル評価部13は、図1には図示しないラウドネス測定部から、チャンネル番号iのチャンネルの音響信号についてのラウドネスレベルを入力する。そして、マルチチャンネル評価部13は、ラウドネスレベルが所定値よりも大きくないと判断したチャンネルが複数ある場合、ラウドネスレベルが大きいほど重み付け係数Wiが大きくなり(1に近くなり)、ラウドネスレベルが小さいほど重み付け係数Wiが小さくなるように(0に近くなるように)、音響信号のラウドネスレベルに基づいた重み付け係数Wiを設定する。これにより、音響信号のラウドネスレベルに対応した重み付け係数Wiが得られる。尚、重み付け係数W1~24の合計値は、1であるとする。 Specifically, the multi-channel evaluation unit 13 inputs the loudness level for the acoustic signal of the channel of channel number i from the loudness measurement unit (not shown in FIG. 1). When there are a plurality of channels that the multi-channel evaluation unit 13 determines that the loudness level is not larger than the predetermined value, the larger the loudness level, the larger the weighting coefficient Wi i (closer to 1), and the smaller the loudness level. The weighting coefficient W i is set based on the loudness level of the acoustic signal so that the weighting coefficient W i becomes smaller (closer to 0). As a result, a weighting coefficient Wi corresponding to the loudness level of the acoustic signal can be obtained. It is assumed that the total value of the weighting coefficients W 1 to 24 is 1.

この場合、図示しないラウドネス測定部は、例えば以下の文献の手法を用いて、チャンネル毎にラウドネス(音の大きさ)を測定する。
Rec. ITU-R BS.1770-4,“Algorithms to measure audio programme loudness and true-peak audio level”
ラウドネス測定部は、複数あるチャンネル毎のラウドネスレベルをマルチチャンネル評価部13に出力する。マルチチャンネル評価部13では、チャンネル毎のラウドネスレベルに応じた重み付け係数Wiを設定する。
In this case, the loudness measuring unit (not shown) measures loudness (loudness) for each channel by using, for example, the method of the following literature.
Rec. ITU-R BS.1770-4, “Algorithms to measure audio programme loudness and true-peak audio level”
The loudness measuring unit outputs the loudness level for each of a plurality of channels to the multi-channel evaluation unit 13. The multi-channel evaluation unit 13 sets a weighting coefficient Wi i according to the loudness level for each channel.

尚、マルチチャンネル評価部13は、チャンネルの正規化相関係数ρfgに対応した重み付け係数Wiを設定するようにしてもよい。具体的には、マルチチャンネル評価部13は、図1には図示しない相関係数算出部から、チャンネル番号iのチャンネルにおける正規化相関係数ρfgを入力する。マルチチャンネル評価部13は、正規化相関係数ρfgが大きいほど重み付け係数Wiが大きくなり(1に近くなり)、正規化相関係数ρfgが小さいほど重み付け係数Wiが小さくなるように(0に近くなるように)、重み付け係数Wiを設定する。これにより、チャンネルの正規化相関係数ρfgに対応した重み付け係数Wiが得られる。 The multi-channel evaluation unit 13 may set a weighting coefficient Wi corresponding to the channel normalization correlation coefficient ρ fg . Specifically, the multi-channel evaluation unit 13 inputs the normalized correlation coefficient ρ fg in the channel of channel number i from the correlation coefficient calculation unit (not shown in FIG. 1). In the multi-channel evaluation unit 13, the weighting coefficient Wii becomes larger (closer to 1) as the normalization correlation coefficient ρ fg becomes larger, and the weighting coefficient Wi i becomes smaller as the normalization correlation coefficient ρ fg becomes smaller. (To be close to 0), set the weighting factor Wi i . As a result, a weighting coefficient Wi corresponding to the channel normalization correlation coefficient ρ fg can be obtained.

この場合、図示しない相関係数算出部は、チャンネル番号iのチャンネルと当該チャンネル以外のチャンネルとの間の正規化相関係数ρfgを、前記数式(1)を用いてそれぞれ算出する。そして、相関係数算出部は、これを、チャンネル番号iのチャンネルにおける正規化相関係数ρfgとしてマルチチャンネル評価部13に出力する。 In this case, the correlation coefficient calculation unit (not shown) calculates the normalized correlation coefficient ρ fg between the channel of channel number i and the channel other than the channel, respectively, using the above formula (1). Then, the correlation coefficient calculation unit outputs this to the multi-channel evaluation unit 13 as a normalized correlation coefficient ρ fg in the channel of channel number i.

また、マルチチャンネル評価部13は、チャンネル毎の客観評価値ziのうち最低値zLを検出し、その最低値zLを有するチャンネルに隣接する複数のチャンネルについて、客観評価値ziが所定値以下の場合、重み付け係数Wiの合計値が1を超えるように、重み付け係数Wiを設定するようにしてもよい。ただし、重み付け係数Wiの合計値は2を超えないものとする。また、PEAQ評価部12により求めた客観評価値ziが、前述のとおり0~-4で表される場合、客観評価値ziと比較される所定値は、例えば-1である。 Further, the multi-channel evaluation unit 13 detects the lowest value z L among the objective evaluation values z i for each channel, and the objective evaluation value z i is predetermined for a plurality of channels adjacent to the channel having the lowest value z l . If it is less than or equal to the value, the weighting coefficient W i may be set so that the total value of the weighting coefficient W i exceeds 1. However, the total value of the weighting coefficient W i shall not exceed 2. Further, when the objective evaluation value z i obtained by the PEAQ evaluation unit 12 is represented by 0 to -4 as described above, the predetermined value to be compared with the objective evaluation value z i is, for example, -1.

このように、マルチチャンネル評価部13は、PEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24に所定の重み付け係数W1~24を乗算し、全ての乗算結果を加算することで、マルチチャンネルの客観評価値zを生成して出力するようにした。これにより、人間が特定のチャンネルに着目したときのPEAQ客観音質測定法にて求めたチャンネル毎の客観評価値z1~24に対し、その着目度合いに応じた重み付け係数W1~24が用いられることで、チャンネル毎に異なる着目度合いが反映されたマルチチャンネルの客観評価値zが生成され出力される。つまり、マルチチャンネルの客観評価値zは、個別の音源の音質劣化に着目して評価される主観評価値に近い値となる。 In this way, the multi-channel evaluation unit 13 multiplies the objective evaluation values z 1 to 24 for each channel obtained by the PEAQ objective sound quality measurement method by the predetermined weighting coefficients W 1 to 24 , and adds all the multiplication results. Therefore, the multi-channel objective evaluation value z is generated and output. As a result, for the objective evaluation values z 1 to 24 for each channel obtained by the PEAQ objective sound quality measurement method when a human focuses on a specific channel, weighting coefficients W 1 to 24 according to the degree of attention are used. As a result, a multi-channel objective evaluation value z that reflects the degree of attention that differs for each channel is generated and output. That is, the multi-channel objective evaluation value z is close to the subjective evaluation value evaluated by paying attention to the deterioration of the sound quality of each sound source.

〔実験結果〕
次に、コンピュータシミュレーションによる実験結果について説明する。この実験結果は、マルチチャンネル客観評価装置1により出力されたマルチチャンネルの客観評価値zが、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求めた主観評価値に近いことを示すものである。
〔Experimental result〕
Next, the experimental results by computer simulation will be described. In this experimental result, the multi-channel objective evaluation value z output by the multi-channel objective evaluation device 1 is the ITU-R recommendation BS of Non-Patent Document 1 described above. It shows that it is close to the subjective evaluation value obtained by the subjective evaluation method defined in 1116-3.

図10は、実験結果を示す図であり、実際に収音した22.2chのマルチチャンネル音響信号の環境音を評価した結果を示す。(a)は、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求めた主観評価結果を示し、(b)は、本発明の実施形態による客観評価結果(劣化音x’のチャンネル数N=1の場合)を示す。 FIG. 10 is a diagram showing the experimental results, and shows the results of evaluating the environmental sound of the 22.2ch multi-channel acoustic signal actually picked up. (A) is the above-mentioned ITU-R recommendation BS of Non-Patent Document 1. The subjective evaluation result obtained by the subjective evaluation method defined in 1116-3 is shown, and (b) shows the objective evaluation result (when the number of channels N = 1 of the deteriorated sound x') according to the embodiment of the present invention.

また、(c)は、前述の非特許文献4の方法に、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法を組み込んだ従来技術(前述の想定手法)による客観評価結果を示す。具体的には、(c)の客観評価結果は、前述のとおり、マルチチャンネル音響信号に頭部インパルス応答HRIRを畳み込んで2チャンネル信号を生成し、前述の非特許文献2の客観評価法により求めた結果である。 Further, (c) is based on the method of the above-mentioned non-patent document 4 and the above-mentioned ITU-R recommendation BS of the above-mentioned non-patent document 2. The objective evaluation result by the prior art (the above-mentioned assumed method) incorporating the objective evaluation method defined in 1387-1 is shown. Specifically, as described above, the objective evaluation result of (c) is obtained by convolving the head impulse response HRIR into the multi-channel acoustic signal to generate a 2-channel signal, and using the objective evaluation method of Non-Patent Document 2 described above. This is the result of the request.

(a)(b)及び(c)の横軸は、音響信号のビットレート[kbit/s]を示す。ビットレートが高いほど圧縮率は低く、ビットレートが低いほど圧縮率は高い関係にある。(a)の縦軸は主観評価値(Diff Grade)を示し、(b)及び(c)の縦軸は客観評価値(Diff Grade)を示す。(b)の客観評価値は、図1に示したマルチチャンネル客観評価装置1のマルチチャンネル評価部13により出力されたマルチチャンネルの客観評価値zである。 (A) The horizontal axes of (b) and (c) indicate the bit rate [kbit / s] of the acoustic signal. The higher the bit rate, the lower the compression rate, and the lower the bit rate, the higher the compression rate. The vertical axis of (a) shows the subjective evaluation value (Diff Grade), and the vertical axis of (b) and (c) shows the objective evaluation value (Diff Grade). The objective evaluation value (b) is the multi-channel objective evaluation value z output by the multi-channel evaluation unit 13 of the multi-channel objective evaluation device 1 shown in FIG.

前述と同様に、主観評価値及び客観評価値の0は「劣化音を検知できない」、-1は「劣化音を検知できるが気にならない」、-2は「劣化音がやや気になる」、-3は「劣化音が気になる」、-4は「劣化音が非常に気になる」を示す。 Similar to the above, 0 of the subjective evaluation value and the objective evaluation value is "cannot detect the deteriorated sound", -1 is "the deterioration sound can be detected but does not bother me", and -2 is "the deteriorated sound is a little worrisome". , -3 indicates "I'm worried about the deteriorated sound", and -4 indicates "I'm very worried about the deteriorated sound".

(a)(b)及び(c)から、(b)に示す本発明の実施形態の客観評価結果は、(c)に示す従来技術の客観評価結果よりも、(a)に示す主観評価結果に近いことがわかる。 (A) From (b) and (c), the objective evaluation result of the embodiment of the present invention shown in (b) is the subjective evaluation result shown in (a) rather than the objective evaluation result of the prior art shown in (c). It turns out that it is close to.

このように、本発明の実施形態のマルチチャンネル客観評価装置1を用いることにより、前述の非特許文献1のITU-R勧告BS.1116-3に定めた主観評価法により求めた主観評価値に近いマルチチャンネルの客観評価値zを求めることができる。 As described above, by using the multi-channel objective evaluation device 1 of the embodiment of the present invention, the above-mentioned ITU-R recommendation BS of Non-Patent Document 1 can be used. It is possible to obtain a multi-channel objective evaluation value z close to the subjective evaluation value obtained by the subjective evaluation method defined in 1116-3.

以上のように、本発明の実施形態のマルチチャンネル客観評価装置1によれば、畳み込み信号出力部10は、予め設定されたDBを用いて、24チャンネルの音響信号の再生位置情報Pに基づき、チャンネル毎の頭部インパルス応答HRIR1~24を特定して出力する。 As described above, according to the multi-channel objective evaluation device 1 of the embodiment of the present invention, the convolution signal output unit 10 uses a preset DB and is based on the reproduction position information P of the acoustic signal of 24 channels. The head impulse response HRIR 1 to 24 for each channel is specified and output.

信号処理部11は、マルチチャンネル音響信号の原音x1~24、劣化音x’1~24及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、主観評価を考慮したチャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する。具体的には、信号処理部11は、チャンネル毎に、例えば全ての原音x1~24、当該チャンネルのみの劣化音x’、及び頭部インパルス応答HRIR1~24に基づいて畳み込み処理を行い、バイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する。 The signal processing unit 11 performs convolution processing based on the original sound x 1 to 24 of the multi-channel acoustic signal, the deteriorated sound x ' 1 to 24 , and the head impulse response HRIR 1 to 24 , and the binaural for each channel in consideration of subjective evaluation. Generates signals y 1_ori to 24_ori and y 1_sig to 24_sig . Specifically, the signal processing unit 11 performs convolution processing for each channel, for example, based on all the original sounds x 1 to 24 , the deteriorated sound x'only for the channel, and the head impulse response HRIR 1 to 24 . Binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig are generated.

PEAQ評価部12は、チャンネル毎に、バイノーラル信号y1_ori~24_ori,y1_sig~24_sigに基づいて、前述の非特許文献2のITU-R勧告BS.1387-1に定めた客観評価法であるPEAQ客観音質測定法により客観評価値z1~24を求める。 The PEAQ evaluation unit 12 has the ITU-R recommendation BS of Non-Patent Document 2 described above based on the binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig for each channel. The objective evaluation values z 1 to 24 are obtained by the PEAQ objective sound quality measurement method, which is the objective evaluation method defined in 1387-1.

マルチチャンネル評価部13は、チャンネル毎の客観評価値z1~24に基づいて、マルチチャンネルの客観評価値zを求める。 The multi-channel evaluation unit 13 obtains the multi-channel objective evaluation value z based on the objective evaluation values z 1 to 24 for each channel.

ここで、PEAQ評価部12が用いる客観評価対象のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigは、信号処理部11において個別の音源の音質劣化に着目して生成される主観評価を考慮した信号である。これにより、マルチチャンネル評価部13が求めるマルチチャンネルの客観評価値zは、バイノーラル信号y1_ori~24_ori,y1_sig~24_sigの客観評価値z1~24から生成されるから、主観評価値に近い値となる。したがって、2チャンネルを超えるマルチチャンネル音響信号の品質について、主観評価結果に近い客観評価結果を得ることが可能となる。 Here, the binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig used by the PEAQ evaluation unit 12 for objective evaluation are signals considering the subjective evaluation generated by the signal processing unit 11 focusing on the deterioration of the sound quality of individual sound sources. Is. As a result, the multi-channel objective evaluation value z obtained by the multi-channel evaluation unit 13 is generated from the objective evaluation values z 1 to 24 of the binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig , and is therefore close to the subjective evaluation value. It becomes. Therefore, it is possible to obtain an objective evaluation result close to the subjective evaluation result for the quality of the multi-channel acoustic signal having more than two channels.

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、マルチチャンネル客観評価装置1は、22.2chのマルチチャンネル音響信号を評価対象として、マルチャンネルの客観評価値zを求めるようにした。本発明は、評価対象を22.2chのマルチチャンネル音響信号に限定するものではなく、11.1ch、7.1ch、5.1ch等の他の音響方式のマルチチャンネル音響信号にも適用がある。 Although the present invention has been described above with reference to embodiments, the present invention is not limited to the above-described embodiment and can be variously modified without departing from the technical idea. In the above-described embodiment, the multi-channel objective evaluation device 1 obtains the objective evaluation value z of the round channel with the 22.2ch multi-channel acoustic signal as the evaluation target. The present invention is not limited to the evaluation target of 22.2ch multi-channel acoustic signals, but is also applicable to multi-channel acoustic signals of other acoustic methods such as 11.1ch, 7.1ch, and 5.1ch.

また、本発明は、スピーカー配置がプリセットされた22.2ch等の音響方式のマルチチャンネル音響信号だけでなく、スピーカー配置がプリセットされていない、2以上のスピーカーが任意に配置されたマルチチャンネル音響信号にも適用がある。 Further, the present invention includes not only a multi-channel acoustic signal of an acoustic method such as 22.2ch in which the speaker arrangement is preset, but also a multi-channel acoustic signal in which two or more speakers in which the speaker arrangement is not preset are arbitrarily arranged. Also applies to.

また、前記実施形態では、マルチチャンネル客観評価装置1は、畳み込み信号として、頭部インパルス応答HRIR1~24を用いるようにした。本発明は、畳み込み信号を頭部インパルス応答HRIR1~24に限定するものではなく、他のインパルス応答、例えばバイノーラル室内インパルス応答BRIR(Binaural Room Impulse Response)1~24を用いるようにしてもよい。 Further, in the above embodiment, the multi-channel objective evaluation device 1 uses the head impulse response HRIR 1 to 24 as the convolution signal. The present invention does not limit the convolution signal to the head impulse responses HRIRs 1 to 24 , but other impulse responses such as binaural room impulse responses (BRIRs) 1 to 24 may be used.

この場合、図4を参照して、畳み込み信号出力部10に備えたDBには、頭部インパルス応答HRIR1~24の代わりに、バイノーラル室内インパルス応答BRIR1~24が格納されている。畳み込み信号出力部10は、DBから、再生位置情報Pに対応するチャンネル毎の伝搬特性を表すバイノーラル室内インパルス応答BRIR1~24を読み出す。そして、信号処理部11は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24、並びにバイノーラル室内インパルス応答BRIR1~24に基づいて畳み込み処理を行い、主観評価を考慮したチャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成する。 In this case, referring to FIG. 4, the DB provided in the convolution signal output unit 10 stores the binaural chamber impulse responses BRIRs 1 to 24 instead of the head impulse responses HRIRs 1 to 24 . The convolution signal output unit 10 reads out the binaural chamber impulse responses BRIRs 1 to 24 representing the propagation characteristics of each channel corresponding to the reproduction position information P from the DB. Then, the signal processing unit 11 performs convolution processing based on the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 of the multi-channel acoustic signal, and the binaural room impulse response BRIR 1 to 24 , and the channel in consideration of the subjective evaluation. Generates binaural signals y 1_ori to 24_ori and y 1_sig to 24_sig for each.

また、前記実施形態では、マルチチャンネル客観評価装置1は、マルチチャンネル音響信号の原音x1~24及び劣化音x’1~24にバイノーラル室内インパルス応答BRIR1~24を畳み込み、チャンネル毎のバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成するようにした。本発明は、この畳み込み処理を時間領域での演算に限定するものではなく、周波数領域に変換した原音x1~24及び劣化音x’1~24と、頭部伝達関数HRTF(Head Related Transfer Function)1~24の積を演算し、時間領域に変換してバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成するようにしてもよい。また、本発明は、原音x1~24及び劣化音x’1~24の周波数成分とバイノーラル室内伝達関数BRTF(Binaural Room Transfer Function)1~24の積を演算し、時間領域に変換してバイノーラル信号y1_ori~24_ori,y1_sig~24_sigを生成するようにしてもよい。 Further, in the above-described embodiment, the multi-channel objective evaluation device 1 convolves the binaural chamber impulse responses BRIR 1 to 24 with the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 of the multi-channel acoustic signal, and the binaural signal for each channel. Changed to generate y 1_ori to 24_ori and y 1_sig to 24_sig . The present invention does not limit this convolution process to the calculation in the time domain, but the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 converted into the frequency domain, and the head related transfer function (HRTF). ) The product of 1 to 24 may be calculated and converted into the time domain to generate the binoral signals y 1_ori to 24_ori and y 1_sig to 24_sig . Further, in the present invention, the product of the frequency components of the original sound x 1 to 24 and the deteriorated sound x ' 1 to 24 and the binaural room transfer function BRTF (Binaural Room Transfer Function) 1 to 24 is calculated and converted into a time domain to be converted into a binaural. The signals y 1_ori to 24_ori and y 1_sig to 24_sig may be generated.

尚、本発明の実施形態によるマルチチャンネル客観評価装置1のハードウェア構成としては、通常のコンピュータを使用することができる。マルチチャンネル客観評価装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。 As the hardware configuration of the multi-channel objective evaluation device 1 according to the embodiment of the present invention, a normal computer can be used. The multi-channel objective evaluation device 1 is composed of a computer provided with a volatile storage medium such as a CPU and RAM, a non-volatile storage medium such as a ROM, and an interface.

マルチチャンネル客観評価装置1に備えた畳み込み信号出力部10、信号処理部11、PEAQ評価部12及びマルチチャンネル評価部13の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。 Each function of the convolution signal output unit 10, the signal processing unit 11, the PEAQ evaluation unit 12, and the multi-channel evaluation unit 13 provided in the multi-channel objective evaluation device 1 is performed by causing the CPU to execute a program describing these functions. It will be realized.

これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, read by the CPU, and executed. In addition, these programs can be stored and distributed in storage media such as magnetic disks (floppy (registered trademark) disks, hard disks, etc.), optical disks (CD-ROM, DVD, etc.), semiconductor memories, etc., and can be distributed via a network. You can also send and receive.

1 マルチチャンネル客観評価装置
10 畳み込み信号出力部
11 信号処理部
12 PEAQ評価部
13 マルチチャンネル評価部
20-1~24 PEAQ評価手段
1~24 マルチチャンネル音響信号の原音
x’1~24 マルチチャンネル音響信号の劣化音
P 再生位置情報
HRIR1~24 頭部インパルス応答
M マルチチャンネル音響信号のチャンネル数
N 劣化音x’のチャンネル数N
BRIR1~24 バイノーラル室内インパルス応答
HRTF1~24 頭部伝達関数
BRTF1~24 バイノーラル室内伝達関数
1_ori~24_ori 基本信号(バイノーラル信号)
1_sig~24_sig 被測定信号(バイノーラル信号)
_ori 共通の基本信号
_sig 共通の被測定信号
1~24 チャンネル毎の客観評価値
z マルチチャンネルの客観評価値
ρfg 正規化相関係数
1~24 重み付け係数
1 Multi-channel objective evaluation device 10 Folded signal output unit 11 Signal processing unit 12 PEAQ evaluation unit 13 Multi-channel evaluation unit 20-1 to 24 PEAQ evaluation means x 1 to 24 Original sound of multi-channel acoustic signal x ' 1 to 24 Multi-channel sound Signal deterioration sound P Playback position information HRIR 1 to 24 Head impulse response M Number of channels of multi-channel acoustic signal N Number of channels of deterioration sound x'N
BRIR 1 to 24 binaural chamber impulse response HRTF 1 to 24 head related transfer function BRTF 1 to 24 binaural chamber transfer function y 1_ori to 24_ori basic signal (binaural signal)
y 1_sig ~ 24_sig Measured signal (binaural signal)
y _ori Common basic signal y _sig Common measured signal z Objective evaluation value for each channel 1 to 24 z Objective evaluation value for multi-channel ρ fg Normalization correlation coefficient W 1 to 24 Weighting coefficient

Claims (6)

2チャンネルを超えるマルチチャンネル音響信号を客観評価するマルチチャンネル客観評価装置において、
前記マルチチャンネル音響信号を構成するそれぞれの音響信号のチャンネルに対応して、チャンネル毎の伝搬特性を表す頭部インパルス応答(HRIR)またはバイノーラル室内インパルス応答(BRIR)を畳み込み信号として出力する畳み込み信号出力部と、
前記マルチチャンネル音響信号の原音及び劣化音を入力すると共に、前記畳み込み信号出力部により出力されたチャンネル毎の前記畳み込み信号を入力し、
チャンネル毎の前記原音に前記畳み込み信号を畳み込み、全てのチャンネルの畳み込み結果に基づいて、全てのチャンネルに共通の基本信号を生成すると共に、
チャンネル毎に、当該チャンネルを含む1または複数のチャンネルの前記劣化音に前記畳み込み信号を畳み込み、第1の畳み込み結果を生成し、全てのチャンネルのうち前記1または複数のチャンネル以外のチャンネルの前記原音に前記畳み込み信号を畳み込み、第2の畳み込み結果を生成し、前記第1の畳み込み結果及び前記第2の畳み込み結果に基づいて被測定信号を生成し、
チャンネル毎に、前記基本信号及び前記被測定信号からなるバイノーラル信号を生成する信号処理部と、
前記信号処理部により生成されたチャンネル毎の前記バイノーラル信号を入力し、チャンネル毎に、当該チャンネルの前記バイノーラル信号に基づき、所定のPEAQ(Perceptual Evaluation of Audio Quality)客観音質測定法を用いて、客観評価結果を生成する評価部と、
前記評価部により生成されたチャンネル毎の前記客観評価結果に基づいて、前記マルチチャンネル音響信号の客観評価結果をマルチチャンネル客観評価結果として生成するマルチチャンネル評価部と、
を備えたことを特徴とするマルチチャンネル客観評価装置。
In a multi-channel objective evaluation device that objectively evaluates multi-channel acoustic signals exceeding two channels
A convolution signal output that outputs a head-related impulse response (HRIR) or binaural chamber impulse response (BRIR) representing the propagation characteristics of each channel as a convolution signal corresponding to each channel of the acoustic signal constituting the multi-channel acoustic signal. Department and
The original sound and the deteriorated sound of the multi-channel acoustic signal are input, and the convolution signal for each channel output by the convolution signal output unit is input.
The convolution signal is convoluted into the original sound for each channel, and a basic signal common to all channels is generated based on the convolution results of all channels.
For each channel, the convolution signal is convoluted into the degraded sound of one or more channels including the channel to generate a first convolution result, and the original sound of a channel other than the one or the plurality of channels among all channels. The convolution signal is convoluted to generate a second convolution result, and a signal to be measured is generated based on the first convolution result and the second convolution result.
A signal processing unit that generates a binaural signal composed of the basic signal and the measured signal for each channel.
The binoral signal for each channel generated by the signal processing unit is input, and each channel is objectively measured using a predetermined PEAQ (Perceptual Evaluation of Audio Quality) objective sound quality measurement method based on the binoral signal of the channel. An evaluation unit that generates evaluation results and
A multi-channel evaluation unit that generates an objective evaluation result of the multi-channel acoustic signal as a multi-channel objective evaluation result based on the objective evaluation result for each channel generated by the evaluation unit.
A multi-channel objective evaluation device characterized by being equipped with.
請求項1に記載のマルチチャンネル客観評価装置において、
前記畳み込み信号出力部は、
前記マルチチャンネル音響信号のチャンネルの数及び配置を定める音響方式の情報を入力し、予め設定されたデータベースから、前記音響方式に対応するチャンネル毎の前記畳み込み信号を読み出して出力し、
前記データベースには、前記音響方式のチャンネル、及び当該チャンネルに対応する前記畳み込み信号が格納されている、ことを特徴とするマルチチャンネル客観評価装置。
In the multi-channel objective evaluation device according to claim 1,
The convolution signal output unit is
Information on the acoustic method that determines the number and arrangement of channels of the multi-channel acoustic signal is input, and the convolution signal for each channel corresponding to the acoustic method is read out from a preset database and output.
The database is a multi-channel objective evaluation device, characterized in that a channel of the acoustic system and the convolution signal corresponding to the channel are stored.
請求項1に記載のマルチチャンネル客観評価装置において、
前記畳み込み信号出力部は、
前記マルチチャンネル音響信号を構成するそれぞれの音響信号についての再生位置を定めるチャンネル毎の角度の情報を入力し、予め設定されたデータベースから、チャンネル毎の前記角度に対応するチャンネル毎の前記畳み込み信号を読み出して出力し、
前記データベースには、前記角度、及び当該角度に対応する前記畳み込み信号が格納されている、ことを特徴とするマルチチャンネル客観評価装置。
In the multi-channel objective evaluation device according to claim 1,
The convolution signal output unit is
The information of the angle for each channel that determines the reproduction position for each acoustic signal constituting the multi-channel acoustic signal is input, and the convolution signal for each channel corresponding to the angle for each channel is input from a preset database. Read and output,
A multi-channel objective evaluation device, characterized in that the database stores the angle and the convolution signal corresponding to the angle.
請求項1から3までのいずれか一項に記載のマルチチャンネル客観評価装置において、
前記マルチチャンネル評価部は、
前記評価部により生成されたチャンネル毎の前記客観評価結果のうち最低値を検出し、当該最低値を前記マルチチャンネル客観評価結果として生成する、ことを特徴とするマルチチャンネル客観評価装置。
In the multi-channel objective evaluation device according to any one of claims 1 to 3.
The multi-channel evaluation unit
A multi-channel objective evaluation device, characterized in that the lowest value among the objective evaluation results for each channel generated by the evaluation unit is detected and the lowest value is generated as the multi-channel objective evaluation result.
請求項1から3までのいずれか一項に記載のマルチチャンネル客観評価装置において、
前記マルチチャンネル評価部は、
前記評価部により生成されたチャンネル毎の前記客観評価結果に対し、所定のチャンネル毎の重み付け係数をそれぞれ乗算し、チャンネル毎の乗算結果を加算し、加算結果を前記マルチチャンネル客観評価結果として生成する、ことを特徴とするマルチチャンネル客観評価装置。
In the multi-channel objective evaluation device according to any one of claims 1 to 3.
The multi-channel evaluation unit
The objective evaluation result for each channel generated by the evaluation unit is multiplied by a weighting coefficient for each predetermined channel, the multiplication result for each channel is added, and the addition result is generated as the multi-channel objective evaluation result. , A multi-channel objective evaluation device characterized by that.
コンピュータを、請求項1から5までのいずれか一項に記載のマルチチャンネル客観評価装置として機能させるためのプログラム。 A program for making a computer function as the multi-channel objective evaluation device according to any one of claims 1 to 5.
JP2018078019A 2018-04-13 2018-04-13 Multi-channel objective evaluation device and program Active JP6998823B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018078019A JP6998823B2 (en) 2018-04-13 2018-04-13 Multi-channel objective evaluation device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018078019A JP6998823B2 (en) 2018-04-13 2018-04-13 Multi-channel objective evaluation device and program

Publications (2)

Publication Number Publication Date
JP2019184933A JP2019184933A (en) 2019-10-24
JP6998823B2 true JP6998823B2 (en) 2022-02-04

Family

ID=68341042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018078019A Active JP6998823B2 (en) 2018-04-13 2018-04-13 Multi-channel objective evaluation device and program

Country Status (1)

Country Link
JP (1) JP6998823B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115604642B (en) * 2022-12-12 2023-03-31 杭州兆华电子股份有限公司 Method for testing spatial sound effect

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171671A1 (en) 2006-02-03 2009-07-02 Jeong-Il Seo Apparatus for estimating sound quality of audio codec in multi-channel and method therefor
JP2016521532A (en) 2013-05-16 2016-07-21 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Audio processing apparatus and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171671A1 (en) 2006-02-03 2009-07-02 Jeong-Il Seo Apparatus for estimating sound quality of audio codec in multi-channel and method therefor
JP2016521532A (en) 2013-05-16 2016-07-21 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Audio processing apparatus and method

Also Published As

Publication number Publication date
JP2019184933A (en) 2019-10-24

Similar Documents

Publication Publication Date Title
Brinkmann et al. A round robin on room acoustical simulation and auralization
KR101471798B1 (en) Apparatus and method for decomposing an input signal using downmixer
Choisel et al. Evaluation of multichannel reproduced sound: Scaling auditory attributes underlying listener preference
WO2007089130A1 (en) Apparatus for estimating sound quality of audio codec in multi-channel and method therefor
van Dorp Schuitman et al. Deriving content-specific measures of room acoustic perception using a binaural, nonlinear auditory model
Engel et al. Perceptual implications of different Ambisonics-based methods for binaural reverberation
CN106796792A (en) Apparatus and method, voice enhancement system for strengthening audio signal
Yao Headphone-based immersive audio for virtual reality headsets
CN112740324A (en) Apparatus and method for adapting virtual 3D audio to a real room
Rasumow et al. Perceptual evaluation of individualized binaural reproduction using a virtual artificial head
JP6442037B2 (en) Apparatus and method for estimating total mixing time based on at least a first pair of room impulse responses and corresponding computer program
Kirsch et al. Spatial resolution of late reverberation in virtual acoustic environments
Manocha et al. DPLM: A deep perceptual spatial-audio localization metric
Rämö et al. Validating a real-time perceptual model predicting distraction caused by audio-on-audio interference
Lokki Throw away that standard and listen: your two ears work better
JP6998823B2 (en) Multi-channel objective evaluation device and program
JP4226142B2 (en) Sound playback device
Takanen et al. A binaural auditory model for the evaluation of reproduced stereophonic sound
Kurz et al. Prediction of the listening area based on the energy vector
Bergner et al. Identification of discriminative acoustic dimensions in stereo, surround and 3D music reproduction
Jackson et al. QESTRAL (Part 3): System and metrics for spatial quality prediction
Puomio et al. Sound rendering with early reflections extracted from a measured spatial room impulse response
Koya et al. A Perceptual Model of Spatial Quality for Automotive Audio Systems
Alonso-Martınez Improving Binaural Audio Techniques for Augmented Reality
Meyer et al. Perceptual detection thresholds for numerical dispersion in binaural auralizations of two acoustically different rooms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211221

R150 Certificate of patent or registration of utility model

Ref document number: 6998823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150