JP2016046695A

JP2016046695A - 音響品質評価装置、音響品質評価方法、およびプログラム

Info

Publication number: JP2016046695A
Application number: JP2014170109A
Authority: JP
Inventors: 祥子栗原; Sachiko Kurihara; 末廣島内; Suehiro Shimauchi; 仲大室; Hitoshi Omuro
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-08-25
Filing date: 2014-08-25
Publication date: 2016-04-04
Anticipated expiration: 2034-08-25
Also published as: JP6163468B2

Abstract

【課題】少ない演算量でＰＥＳＱ値からＭＯＳ値を推定する。
【解決手段】第１の基準音響信号とこれを含む信号に基づく第１の評価対象音響信号とに対する第１のＰＥＳＱ値を得、第２の基準音響信号と第２基準音響信号を含む信号に基づく第２の評価対象音響信号とに対応する第２のＰＥＳＱ値と、第２の基準音響信号に対応する基準音と第２の評価対象音響信号に対応する評価音との違いについての５段階評価に基づく第２のＭＯＳ値と、の線形関係に基づいて、第１のＰＥＳＱ値を線形変換して第１のＭＯＳ値を得る。
【選択図】図１３

Description

本発明は、通話品質を評価するための技術に関し、特に拡声系通信システムの品質評価試験技術に関する。

従来、客観評価値であるＰＥＳＱ（Perceptual Evaluation of Speech Quality）値をを用いて会話ＭＯＳ（Mean Opinion Score）値または受聴ＭＯＳ値を推定する場合には、リファレンス信号に基づいてＰＥＳＱ値と会話ＭＯＳ値または受聴ＭＯＳ値との対応関係を表す非線形関数を定式化し、その関数に基づく非線形変換を行う必要があった（例えば、非特許文献１参照）。

社団法人情報通信技術委員会："ＩＰ電話の通話品質評価法"，ＪＪ−２０１．０１，第５版，２００８年８月.

この方法に拠れば、ＰＥＳＱ値から会話ＭＯＳまたは受聴ＭＯＳの推定値への変換に複雑な非線形処理が必要となり、計算が複雑化する問題があった。

本発明の課題は、少ない演算量でＰＥＳＱ値からＭＯＳ値を推定する技術を提供することである。

本発明では、第１の基準音響信号とこれを含む信号に基づく第１の評価対象音響信号とに対する第１のＰＥＳＱ値を得、第２の基準音響信号と第２基準音響信号を含む信号に基づく第２の評価対象音響信号とに対応する第２のＰＥＳＱ値と、第２の基準音響信号に対応する基準音と第２の評価対象音響信号に対応する評価音との違いについての５段階評価に基づく第２のＭＯＳ値と、の線形関係に基づいて、第１のＰＥＳＱ値を線形変換して第１のＭＯＳ値を得る。

本発明では、基準音と評価音との違いについての５段階評価に基づくＭＯＳ値を採用することで、ＰＥＳＱ値とＭＯＳ値とを線形な関係に近似することができた。そのため、少ない演算量でＰＥＳＱ値からＭＯＳ値を推定することが可能となった。

図１は、第１実施形態のデータ生成装置の機能構成を例示したブロック図である。図２は、第１実施形態のデータ生成装置によって生成されるデータ構造を説明するための概念図である。図３は、第１実施形態のデータ生成装置によって生成されるデータ構造を例示するための図である。図４は、第２実施形態のデータ生成装置の機能構成を例示したブロック図である。図５Ａは、図４の通信環境模擬処理部を例示したブロック図である。図５Ｂは、図４の信号処理部を例示したブロック図である。図６は、第３実施形態の音響品質評価装置の機能構成を例示したブロック図である。図７は、第３実施形態の音響品質評価試験での表示内容を例示した図である。図８は、音響品質評価方法を例示するための図である。図９は、音響品質評価方法を例示するための図である。図１０は、音響品質評価方法を例示するための図である。図１１は、音響品質評価方法を例示するための図である。図１２は、音響品質評価方法を例示するための図である。図１３は、第４実施形態の音響品質評価装置の機能構成を例示したブロック図である。図１４は、ＤＭＯＳ値とＰＥＳＱ値との関係を例示した図である。図１５は、第４実施形態の変形例の音響品質評価装置の機能構成を例示したブロック図である。

以下、図面を参照して本発明の実施形態を説明する。
［第１実施形態］
＜拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験＞
まず、拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験を概念的に説明する。この評価試験では、近端話者と遠端話者とが拡声系通信システムを通じて会話を行い、近端話者側に位置する評価者が当該拡声系通信システムの品質評価を行う。なお、拡声系通信システムとは、マイクロホンとスピーカーとを備えた端末装置間で音響信号を送受信する通信システムであって、端末装置のスピーカーから出力された音の少なくとも一部がその端末装置のマイクロホンで受音されるもの（音の回り込みが生じるもの）をいう。拡声系通信システムの一例は、音声会議システムやテレビ会議システムである。

図２に例示する拡声系通信システムでは、近端話者の音声が近端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で遠端話者側に伝送され、当該音響信号が表す音が遠端話者側のスピーカーから出力される。また、遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で近端話者側に伝送され、当該音響信号が表す音が近端話者側のスピーカーから出力される。ただし、遠端話者側のスピーカーから出力された音の少なくとも一部は遠端話者側のマイクロホンでも受音される。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、遠端話者の音声に近端話者の音声の回り込み（音響エコー）が重畳されたものである。また、近端話者側に伝送される音響信号は、遠端話者側のマイクロホンで受音された音を表す信号に所定の「信号処理」を行って得られた処理信号に由来するものであってもよいし、このような信号処理を行うことなく得られたものであってもよい。「信号処理」は、どのような処理であってもよい。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。

評価者は、ヘッドフォンやイヤホン等の両耳装着型音響再生装置を用い、近端話者からの直接音を一方の耳（例えば利き耳ではない方の耳−例えば右耳）で聴き、近端話者側のスピーカーから出力される音を他方の耳（例えば利き耳−例えば左耳）で聴き、通話品質を主観評価（オピニオン評価）する。本実施形態では、近端話者からの直接音側のチャネルを「Ｒｃｈ」と表記し、近端話者側のスピーカーから出力される音側のチャネルを「Ｌｃｈ」と表記する。上述のように、近端話者側のスピーカーから出力される音は、遠端話者の音声に近端話者の音声の音響エコーが重畳された遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号が近端話者側に伝送され、近端話者側のスピーカーから出力されたものである。そのため、近端話者側のスピーカーから出力される音に含まれる近端話者の音声の音響エコー成分は、この近端話者の音声の直接音よりも遅延している（音響信号が近端話者側と遠端話者側との間を一往復する時間の遅延）。また、近端話者側のスピーカーから出力される音に含まれる遠端話者の音声の成分は、この遠端話者の音声が発せられた時点よりも遅延している（音響信号が遠端話者側から近端話者側へ伝送される時間の遅延）。ここで、近端話者からの直接音を表す音響信号と、遠端話者側での音の回り込みがある場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「劣化信号」と呼ぶ。特に上述の「信号処理」が行われていない「劣化信号」を「劣化信号Ｄ_１」と表記し、「信号処理」が行われた「劣化信号」を「劣化信号Ｄ_２」と表記する。また、参照用として、近端話者からの直接音を表す音響信号と、遠端話者側での音の回り込みがないと仮定した場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「参照信号」と呼ぶ。評価者は、例えば「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号」の何れかの組を比較することで通話品質を主観評価する。

＜データ生成装置＞
次に、拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験を行うためのデータ構造を生成するデータ生成装置を例示する。図１に例示するように、本実施形態のデータ生成装置１は、近端話者音響信号記憶部１０１、遠端話者音響信号記憶部１０２、再生部１０３，１０４、スピーカー１０５，１０６、マイクロホン１０７、時間調整処理部１０８、収録処理部１０９、近端端末部１１０、遠端端末部１２０、出力部１３１，１３２，１４１，１４２，１５１，１５２、およびデータ記憶部１８０を有する。遠端端末部１２０は信号処理部１２１を含み、近端端末部１１０と遠端端末部１２０とはネットワーク（ＮＷ）を通じて通信可能に構成されている。少なくとも、スピーカー１０５，１０６およびマイクロホン１０７は、同じ室内に配置されている。データ生成装置１は、例えば、スピーカーやマイクロホンが接続され、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備えた汎用または専用の１個以上のコンピュータが所定のプログラムを実行することで構成される装置である。各コンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

＜データ生成処理＞
次に、本実施形態のデータ生成処理を説明する。
事前処理として、評価者が受聴する近端話者の直接音（近端話者の音声）に相当する音を表す近端話者音響信号（システムの第１端側の第１音響信号）のデータを近端話者音響信号記憶部１０１に格納し、遠端話者の直接音（遠端話者の音声）に相当する音を表す遠端話者音響信号（システムの第２端側の第２音響信号）のデータを遠端話者音響信号記憶部１０２に格納する。本実施形態の近端話者音響信号および遠端話者音響信号は何れも時系列の音響信号であり、例えば、防音室で収録した音声に基づいて得られたものである。ただし、これは本発明を限定するものではなく、近端話者音響信号および遠端話者音響信号の少なくとも一方が通常の室内環境で収録されたものであってもよい。また、本形態では、近端話者音響信号が表す近端話者音声と遠端話者音響信号が表す遠端話者音声との間の発話タイミング（すなわち、近端話者音声の発話時に対する遠端話者音声の発話時の相対時間、例えば、近端話者音声と遠端話者音声とのかぶり）に制約は設けない。ただし、これは本発明を限定するものではなく、近端話者音声と遠端話者音声との間の発話タイミングに何らかの制約を設けてもよい。また、近端話者および遠端話者に制約はなく、これらが評価者以外の人であってもよいし、これらの少なくとも一方が評価者と同一人物であってもよい。

以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。再生部１０３は、近端話者音響信号記憶部１０１から近端話者音響信号のデータを抽出して近端話者音響信号を出力する。再生部１０３から出力された近端話者音響信号は、出力部１３１，１４１，１５１および近端端末部１１０に送られる。出力部１３１，１４１，１５１は、送られた近端話者音響信号（システムの第１端側の第１音響信号）を、それぞれ「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号」のＲｃｈのデータ（システムの第１端側の第１音響信号を含む第１チャネルのデータ）として出力する。また、近端端末部１１０は、送られた近端話者音響信号をネットワーク経由で遠端端末部１２０に伝送する。遠端端末部１２０は伝送された近端話者音響信号（第１音響信号に由来する信号）をスピーカー１０５に送り、スピーカー１０５は近端話者音響信号が表す音（システムの第２端側に送られた第１音響信号に由来する再生信号）を出力する。

再生部１０４は、遠端話者音響信号記憶部１０２から遠端話者音響信号のデータを抽出して遠端話者音響信号を出力する。再生部１０４から出力された遠端話者音響信号は時間調整処理部１０８およびスピーカー１０６に送られる。時間調整処理部１０８は送られた遠端話者音響信号を遅延させて出力部１５２に送る。時間調整処理部１０８での遅延量τは、遠端端末部１２０から近端端末部１１０までの伝送遅延量Ｂを模擬するものであり、例えば、この伝送遅延量Ｂに基づいて定められる。例えば、遠端端末部１２０から近端端末部１１０までの伝送遅延量Ｂ、当該伝送遅延量Ｂの予測値、当該伝送遅延量Ｂの平均値、またはこれらの何れかの近似値または補正値（関数値）を時間調整処理部１０８での遅延量τとする。なお、「αの近似値」とは、α−β_１以上α＋β_２以下の範囲に属する値を意味する。β_１およびβ_２は正の値（例えば定数）であり、β_１＝β_２であってもよいし、β_１≠β_２であってもよい。また、伝送遅延量Ｂは、往復の遅延量Ｃ（近端話者音響信号が近端端末部１１０から遠端端末部１２０に伝送され、スピーカー１０５からそれを表す音が出力され、マイクロホン１０７で受音されて得られた信号が、さらに遠端端末部１２０から近端端末部１１０に伝送されるまでの時間）の約半分である。そのため、遅延量Ｃに基づいて遅延量τが定められてもよい。例えば、遅延量Ｃの１／２値、当該遅延量Ｃの予測値の１／２値、当該遅延量Ｃの平均値の１／２値、またはこれらの何れかの関数値を遅延量τとしてもよい。遅延量τは固定値であってもよいし、実際に測定された伝送遅延量Ｂに基づいて決定されてもよい。ただし、ネットワーク環境によっては往路と復路との遅延量が異なる場合もある。また、近端端末部１１０や遠端端末部１２０や信号処理部１２１やネットワーク環境が変化すれば伝送遅延量Ｂや遅延量Ｃが変化するため、そのような変化に応じて遅延量τを定めることが望ましい。出力部１５２は、時間調整処理部１０８で遅延させた遠端話者音響信号（基準音響信号、第２音響信号に基づく第２比較用信号）を「参照信号」のＬｃｈのデータ（基準音響信号を表す第２チャネルのデータ）として出力する。

スピーカー１０６は、送られた遠端話者音響信号（システムの第２端側の第２音響信号）が表す音（第２端側の第２音響信号に由来する再生信号）を出力する。スピーカー１０５から出力された音およびスピーカー１０６から出力された音は室内空間で重畳し、マイクロホン１０７で受音される。マイクロホン１０７で受音して得られた受音信号（第１音響信号に由来する信号と第２音響信号とに基づく信号）は、遠端端末部１２０の信号処理部１２１に送られる。信号処理部１２１は、送られた受音信号に対する信号処理の実行の有無を制御可能である。信号処理が実行される場合、信号処理部１２１は、送られた受音信号に信号処理を行って処理信号を得、遠端端末部１２０は処理信号をネットワーク経由で近端端末部１１０（第１端側）に伝送する。この信号処理には、さらに近端端末部１１０からネットワーク経由で遠端端末部１２０に伝送された近端話者音響信号（スピーカー１０５に入力される近端話者音響信号）が用いられてもよい。一方、信号処理が実行されない場合、遠端端末部１２０は、信号処理部１２１に送られた受音信号をネットワーク経由で近端端末部１１０（第１端側）に伝送する。また信号処理部１２１は、例えば、信号処理の有無を表す情報を収録処理部１０９に送る。また信号処理部１２１は、送られた受音信号に対して信号処理を実行して処理信号を得、遠端端末部１２０は処理信号をネットワーク経由で近端端末部１１０に伝送し、さらに、この信号処理と同一の受音信号または同一の条件のもとで得られた同一とみなせる受音信号をネットワーク経由で近端端末部１１０に伝送してもよい。すなわち、同一または同一とみなせる２つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われてもよい。「同一の条件」とは、少なくとも、データ生成装置１、近端話者音響信号、遠端話者音響信号、および発話タイミングが同一であることを意味する。「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。なお、エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理を意味する。広義のエコーキャンセラによる処理とは、エコーを低減させるための処理全般を意味する。広義のエコーキャンセラによる処理は、例えば、適応フィルタを用いた狭義のエコーキャンセラのみによって実現されてもよいし、音声スイッチによって実現されてもよいし、エコーリダクションによって実現されてもよいし、これらの少なくとも一部の技術の組み合わせによって実現されてもよいし、さらにその他の技術との組み合わせによって実現されてもよい（例えば、「知識ベース知識の森、２群−６編−５章、“音響エコーキャンセラ”、電子情報通信学会」参照）。またノイズキャンセル処理とは、遠端端末のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音に起因する雑音成分を抑圧または除去する処理を意味する。環境雑音とは、例えば、オフィスの空調音、走行中の車内音、交差点での車の通行音、虫の音、キーボードのタッチ音、複数の人の声（ガヤガヤ音）などを指し、音の大／小、屋内／屋外は問わない。

遠端端末部１２０からネットワーク経由で伝送された信号（第１音響信号に由来する信号とシステムの第２端側の第２音響信号とに基づく重畳信号）は、近端端末部１１０に入力され、収録処理部１０９に送られる。ここで、信号処理部１２１で信号処理が実行されている場合（信号処理ＯＮ時）、収録処理部１０９は、送られた信号（第１音響信号に由来する信号と第２音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号）を出力部１４２に送る。出力部１４２は、送られた信号（評価対象音響信号Ｔ_２）を「劣化信号Ｄ_２」のＬｃｈのデータ（重畳信号を含む第２チャネルのデータ）として出力する。一方、信号処理部１２１で信号処理が実行されていない場合（信号処理ＯＦＦ時）、収録処理部１０９は、送られた信号（受音信号を第１端側に送ることで得られた第１比較用信号）を出力部１３２に送る。出力部１３２は、送られた信号（評価対象音響信号Ｔ_１）を「劣化信号Ｄ_１」のＬｃｈのデータ（重畳信号を含む第２チャネルのデータ）として出力する。

出力部１３１から出力されたＲｃｈの近端話者音響信号のデータと、出力部１３２から出力されたＬｃｈの評価対象音響信号Ｔ_１のデータとの組は、「劣化信号Ｄ_１」としてデータ記憶部１８０に格納される。出力部１４１から出力されたＲｃｈの近端話者音響信号のデータと、出力部１４２から出力されたＬｃｈの評価対象音響信号Ｔ_２のデータとの組は、「劣化信号Ｄ_２」としてデータ記憶部１８０に格納される。出力部１５１から出力されたＲｃｈの近端話者音響信号のデータと、出力部１５２から出力されたＬｃｈの基準音響信号のデータとの組は、「参照信号」としてデータ記憶部１８０に格納される。なお、同じ時間区間に対応する「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号」のＲｃｈの近端話者音響信号は互いに同一である。そのため、必ずしも「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号」のそれぞれについて、互いに同一なＲｃｈの近端話者音響信号のデータをデータ記憶部１８０に格納する必要はない。もちろん、「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号」のそれぞれについて、互いに同一なＲｃｈの近端話者音響信号のデータをデータ記憶部１８０に格納してもかまわない。

図３を用い、上述のように得られた「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」を例示する。図３の例では、前述した同一または同一とみなせる２つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われ、信号処理を実行した場合の「劣化信号Ｄ_２」と、信号処理を実行していない場合の「劣化信号Ｄ_１」との両方が得られている。また図３の例では、「信号処理」としてエコーキャンセル処理を含む処理を用いている。

本実施形態の「参照信号」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（システムの第１端側の第１音響信号を含む第１チャネルのデータ）と、前述の遠端話者音響信号に基づく基準音響信号を含むＬｃｈのデータ（第２端側の第２音響信号に基づく第２比較用信号を含む第２チャネルのデータ）とを含む。本実施形態の「劣化信号Ｄ_１」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（システムの第１端側の第１音響信号を含む第１チャネルのデータ）と、前述の評価対象音響信号Ｔ_１を含むＬｃｈのデータ（第１音響信号に由来する信号とシステムの第２端側の第２音響信号とに基づく重畳信号を含む第２チャネルのデータ）とを含む。評価対象音響信号Ｔ_１は信号処理を行うことなく得られた「第１比較用信号」である。本実施形態の「劣化信号Ｄ_２」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（システムの第１端側の第１音響信号を含む第１チャネルのデータ）と、前述の評価対象音響信号Ｔ_２を含むＬｃｈのデータ（第１音響信号に由来する信号と第２音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号を含む第２チャネルのデータ）とを含む。なお、「評価対象音響信号Ｔ_１を含むＬｃｈのデータ」および「評価対象音響信号Ｔ_２を含むＬｃｈのデータ」は、いずれも「第１音響信号に由来する信号とシステムの第２端側の第２音響信号とに基づく重畳信号を含む第２チャネルのデータ」に相当する。特に「評価対象音響信号Ｔ_２を含むＬｃｈのデータ」は、このような「重畳信号」を含むデータのうち、「第１音響信号に由来する信号と第２音響信号とに基づく信号に信号処理を行って得られた処理信号に由来するもの」を含むデータである。

図３に例示するように、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＲｃｈのデータの時間区間ａ−ｂには、互いに同一な近端話者音響信号（第１音響信号）が含まれる。「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＬｃｈのデータの時間区間ｅ−ｄ’には、近端話者音響信号の音響エコー成分が含まれる。音響エコー成分は上記の近端話者音響信号に由来する信号（第１音響信号に由来する信号）であるが、近端話者音響信号に比べて時間区間ａ−ｅ（遅延量Ｃ）だけ遅延している。この遅延量Ｃは、近端話者音響信号が近端端末部１１０から遠端端末部１２０に伝送され、スピーカー１０５からそれを表す音が出力され、マイクロホン１０７で受音されて得られた信号が、さらに遠端端末部１２０から近端端末部１１０に伝送されるまでの時間に相当する。

「参照信号」のＬｃｈのデータの時間区間ｃ−ｄには、遠端話者音響信号に基づく遠端話者音響信号成分（第２音響信号に基づく第２２成分）が含まれ、「劣化信号Ｄ_１」のＬｃｈのデータの時間区間ｃ’−ｄ’には、遠端話者音響信号に基づく遠端話者音響信号成分（第２音響信号に基づく第２１成分）が重畳され、「劣化信号Ｄ_２」のＬｃｈのデータの時間区間ｃ’−ｄ’には、遠端話者音響信号に基づく遠端話者音響信号成分（第２音響信号に基づく第１成分）が重畳されている。「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＲｃｈの近端話者音響信号の開始時点ａからＬｃｈの遠端話者音響信号成分の開始時点ｃ’までには時間差ａ−ｃ’が存在する。また、「参照信号」のＲｃｈの近端話者音響信号の開始時点ａからＬｃｈの遠端話者音響信号成分の開始時点ｃまでには時間差ａ−ｃが存在する。ここで「劣化信号Ｄ_１」「劣化信号Ｄ_２」での時間差ａ−ｃ’は、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Ａと、信号が遠端端末部１２０から近端端末部１１０に伝送されるまでの伝送遅延量Ｂとの合計Ａ＋Ｂに相当する。一方、「参照信号」での時間差ａ−ｃは、時間差Ａと時間調整処理部１０８での遅延量τとの合計Ａ＋τに相当する。前述のように遅延量τは伝送遅延量Ｂに基づいて定められているため、遅延量τと伝送遅延量Ｂとが一致または近似し、時間差ａ−ｃを時間差ａ−ｃ’に一致または近似させることができる。このようなデータ構造を用いた評価試験では、「劣化信号Ｄ_２」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。同様に、「劣化信号Ｄ_１」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。さらに、「劣化信号Ｄ_１」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「劣化信号Ｄ_２」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを一致または近似させることができる。すなわち、重畳信号は、第２音響信号に基づく第１成分を含み、比較用信号は、第２音響信号に基づく第２成分（第２１成分または第２２成分）を含み、第１チャネルで第１音響信号を出力してから第２チャネルで第１成分を出力するまでの時間と、第１チャネルで第１音響信号を出力してから第２チャネルで第２成分を出力するまでの時間とを、一致または近似させることができる。なお、図３では、近端話者が遠端話者に先行して発話する状況を例示したが、遠端話者が近端話者に先行して発話したり、時間差がａ−ｃ’≒０となったりする場合もある。例えば、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Ａと、信号が遠端端末部１２０から近端端末部１１０に伝送されるまでの伝送遅延量Ｂとが等しい場合は、時間差ａ−ｃ’＝差分Ａ−Ｂ≒０となる場合がある。さらに遠端話者が近端話者に対して伝送遅延量Ｂよりも早く話し始めた場合には波形の位置関係が逆転し、Ｌｃｈの遠端話者音響信号成分の開始時点ｃ’が「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＲｃｈの近端話者音響信号の開始時点ａよりも前になる場合もある。このような場合であっても同様に時間調整を行うことができる。

また、上述のデータ構造では、「参照信号」としてＲｃｈの近端話者音響信号のデータとＬｃｈの基準音響信号のデータとが対応付けられ、「劣化信号Ｄ_１」としてＲｃｈの近端話者音響信号のデータとＬｃｈの評価対象音響信号Ｔ_１のデータとが対応付けられ、「劣化信号Ｄ_２」としてＲｃｈの近端話者音響信号のデータとＬｃｈの評価対象音響信号Ｔ_２のデータとが対応付けられている。このようなデータ構造を用いた評価試験では、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで基準音響信号を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_１を出力する制御とを行うことができる。同様に、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで基準音響信号を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_２を出力する制御とを行うこともできる。さらに、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_１を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_２を出力する制御とを行うこともできる。すなわち、第１チャネルで第１音響信号を出力しつつ、第２チャネルで比較用信号を出力する制御と、第１チャネルで第１音響信号を出力しつつ、第２チャネルで重畳信号を出力する制御と、が可能である。

評価試験の際、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」が何らかの順序で再生される。「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＲｃｈの信号の再生音は、例えば、両耳装着型音響再生装置の右のスピーカーから出力され、Ｌｃｈの信号の再生音は、例えば、この両耳装着型音響再生装置の左のスピーカーから出力される（ステレオ再生）。評価者は、この両耳装着型音響再生装置を両耳に装着し、ステレオ再生されたこれらの音を聴いて通話品質を主観評価する。この際、評価者はＬｃｈの信号の再生音を利き耳（例えば左耳）で聴き、Ｒｃｈの信号の再生音を利き耳ではない耳（例えば右耳）で聴くことが望ましい。評価試験の詳細は第３実施形態で説明する。

［第１実施形態の変形例］
第１実施形態では、遠端話者音響信号を遅延量τだけ遅延させたものを「参照信号」のＬｃｈの基準音響信号とした。これは「参照信号」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似（例えば、図３の時間区間ａ−ｃと時間区間ａ−ｃ’との一致または近似）させるためである。しかしながら、このような目的は他の手段によっても実現できる。例えば、再生部１０４から出力された遠端話者音響信号を遅延させることなく「参照信号」のＬｃｈの基準音響信号として出力部１５２から出力し、再生部１０３から出力された近端話者音響信号を時間τだけ時間的に繰り上げたもの（遅延の逆の時間シフトをしたもの）を「参照信号」のＲｃｈの近端話者音響信号としてもよい。あるいは、再生部１０４から出力された遠端話者音響信号を時間τ−Ｔだけ遅延させたものを「参照信号」のＬｃｈの基準音響信号として出力部１５２から出力し、再生部１０３から出力された近端話者音響信号を時間Ｔだけ時間的に繰り上げたものを「参照信号」のＲｃｈの近端話者音響信号としてもよい。ただし、Ｔの値は、例えば、０≦Ｔ≦τである。あるいは、評価試験時の処理により、「参照信号」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。例えば、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」のファイル名やそれらを構成する信号の時間情報を持つデータ構造であればよい。データ構造がさらに遅延量τを特定するための情報を持っていてもよい。このような場合、データ記憶部１８０に格納されている「参照信号」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間が一致または近似されていなくてもよい。要は、何らかの方法で、「参照信号」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。また、「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間が一致していないデータ構造であってもよい。

［第２実施形態］
第２実施形態は第１実施形態の変形例であり、通信環境および室内環境を電気的に模擬したデータ生成装置で、評価試験を行うためのデータ構造を生成するものである。以下では、これまで説明した事項との相違点を中心に説明する。既に説明した事項については、それらに用いた参照番号を流用して説明を簡略化する。

＜データ生成装置＞
図４に例示するように、本実施形態のデータ生成装置２は、近端話者音響信号記憶部１０１、遠端話者音響信号記憶部１０２、時間調整処理部２０８、通信環境模擬処理部２６０、信号処理部２７０、出力部１３１，１３２，１４１，１４２，１５１，１５２、およびデータ記憶部１８０を有する。データ生成装置２は、例えば、音声信号の処理が可能な汎用または専用の１個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。

通信環境模擬処理部２６０は、通信環境および周囲環境（空間伝達系）を電気的に模擬した通信環境模擬処理を行う。この通信環境模擬処理は、少なくとも、近端話者音響信号（第１音響信号）に第１時間調整処理を含む処理を行って得られる信号と、遠端話者音響信号（第２音響信号）に第２時間調整処理を含む処理を行って得られる信号と、を重畳する処理を含む。さらに、通信環境模擬処理が、擬似エコーおよび擬似雑音の少なくとも一方を重畳する処理を含んでもよい。例えば、図５Ａに例示するように、通信環境模擬処理部２６０は、時間調整処理部２６４，２６６、擬似エコー生成部２６５、加算部２６７、入力部２６１，２６２、および出力部２６３を含む。さらに、通信環境模擬処理部２６０が擬似雑音源２６８を含んでもよい。なお、擬似雑音源２６８は遠端端末部のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音を模擬するためのものである。

信号処理部２７０は、入力された信号に所定の信号処理を行って出力する。第１実施形態と同様、「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理である。例えば、図５Ｂに例示するように、信号処理部２７０は、入力部２７１，２７２、出力部２７３、加算部２７４、適応フィルタ２７５、および時間調整処理部２７６を含む。信号処理部２７０がさらに雑音除去部２７８および乗算部２７７を含んでもよい。また、図５Ｂでは適応フィルタ２７５を用いてエコーキャンセラが構成されているが、音声スイッチやエコーリダクションその他の技術またはそれと適応フィルタ２７５との組み合わせでエコーキャンセラが構成されてもよい。

次に、本実施形態のデータ生成処理を説明する。
第１実施形態と同じく、まず事前処理として、近端話者音響信号（第１音響信号）のデータを近端話者音響信号記憶部１０１に格納し、遠端話者音響信号（第２音響信号）のデータを遠端話者音響信号記憶部１０２に格納する。以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。

近端話者音響信号記憶部１０１から近端話者音響信号が抽出され、出力部１３１，１４１，１５１、通信環境模擬処理部２６０の入力部２６２、および信号処理部２７０の入力部２７２に送られる。遠端話者音響信号記憶部１０２から遠端話者音響信号が抽出され、時間調整処理部２０８および通信環境模擬処理部２６０の入力部２６１に入力される。

出力部１３１，１４１，１５１は、送られた近端話者音響信号（第１音響信号）を、それぞれ「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号」のＲｃｈのデータ（第１音響信号を含む第１チャネルのデータ）として出力する。

通信環境模擬処理部２６０は、入力部２６１，２６２に入力された遠端話者音響信号（第２音響信号），近端話者音響信号（第１音響信号）に前述した「通信環境模擬処理」を行い、それによって得られた模擬信号を出力部２６３から出力する。図５Ａの例の場合、入力部２６１に入力された遠端話者音響信号は時間調整処理部２６６に入力され、入力部２６２に入力された近端話者音響信号は時間調整処理部２６４に入力される。時間調整処理部２６６は、当該遠端話者音響信号に遅延量Ｂ’の遅延を与え、それによって得られた信号を加算部２６７に送る（第１時間調整処理）。時間調整処理部２６４は、当該近端話者音響信号に遅延量Ｃ’の遅延を与え、遅延された近端話者音響信号を擬似エコー生成部２６５に送る（第２時間調整処理）。擬似エコー生成部２６５は、遅延された近端話者音響信号を用いて擬似エコーを作成し（例えば、近端話者音響信号（第１音響信号）を遠端話者側のスピーカーで再生して遠端話者側のマイクロホンで収音するときの空間伝達系および収音時の波形歪みを模擬した信号を擬似エコーとして生成する）、それによって得られた信号を加算部２６７に送る。加算部２６７は第１時間調整処理によって得られた信号と第２時間調整処理によって得られた信号を重畳する。擬似雑音源２６８が存在する場合には、加算部２６７はさらに擬似雑音源２６８から出力された擬似雑音信号を重畳してもよい。加算部２６７で得られた信号は出力部２６３に送られ、出力部２６３はそれを模擬信号として出力する。

なお、上述の遅延量Ｂ’は、例えば、第１実施形態の伝送遅延量Ｂ（遠端端末部１２０から近端端末部１１０までの伝送遅延量）を模擬するものである。一方、遅延量Ｃ’は、例えば、第１実施形態の遅延量Ｃ（信号が近端端末部１１０から遠端端末部１２０に伝送され、スピーカー１０５からそれを表す音が出力され、マイクロホン１０７で受音されて得られた信号が、さらに遠端端末部１２０から近端端末部１１０に伝送されるまでの時間）を模擬するものである。そのため、Ｂ’＜Ｃ’であることが望ましい（例えば、Ｃ’＝２×Ｂ’）。しかしながら、これは本発明を限定するものではなく、Ｂ’＝Ｃ’やＢ’＞Ｃ’ または、Ｂ’＝Ｃ’＝０であってもよい。

出力部２６３から出力された模擬信号は、出力部１３２および信号処理部２７０の入力部２７１に入力される。出力部１３２は、送られた模擬信号（評価対象音響信号Ｔ_１、第１比較用信号）を「劣化信号Ｄ_１」のＬｃｈのデータ（重畳信号を含む第２チャネルのデータ）として出力する。

信号処理部２７０は、入力部２７１に入力された模擬信号と入力部２７２に入力された近端話者音響信号を用い、当該模擬信号に信号処理を行って重畳信号を得る。図５Ｂの例の場合、近端話者音響信号を時間調整処理部２７６で遅延させた信号に適応フィルタ２７５を適用して得られた信号と模擬信号とを加算部２７４で重畳することでエコーキャンセル処理を行い、雑音除去部２７８および乗算部２７７を有する場合には、さらにノイズキャンセル処理を行って、それによって重畳信号を得る。なお、ノイズキャンセル処理の方法は、例えば、近端話者および遠端話者のどちらの音響信号も存在しない状態で、図５Ａの擬似雑音源２６８が送出する擬似雑音の定常雑音レベルを雑音推定部２７８で推定し、加算部２７４からの出力信号に対して、推定した定常雑音レベルの分だけ振幅が抑圧されるように、乗算部２７７でゲイン値を乗じるものである（例えば、阪内澄宇，羽田陽一，田中雅史，佐々木潤子，片岡章俊，“雑音抑圧及びエコー抑圧機能を備えた音響エコーキャンセラ”，電子情報通信学会論文誌 Vol.J87-A, No.4, pp.448-457 (2004年4月)等参照）。得られた重畳信号は出力部２７３から出力される。出力部２７３は重畳信号（第１音響信号に由来する信号と第２音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号）を出力部１４２に送る。出力部１４２は、送られた重畳信号（評価対象音響信号Ｔ_２）を「劣化信号Ｄ_２」のＬｃｈのデータ（重畳信号を含む第２チャネルのデータ）として出力する。

また、時間調整処理部２０８は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部１５２に送る。本形態の遅延量τ’は、例えば、上述の遅延量Ｂ’に対応する。例えば、遅延量Ｂ’または当該遅延量Ｂ’の近似値もしくは補正値（関数値）を遅延量τ’とする。あるいは、遅延量τ’が遅延量Ｃ’に対応してもよい。例えば、τ’がＣ’／２またはＣ’／２の関数値であってもよい。あるいは、遅延量τ’が遅延量Ｂ’および遅延量Ｃ’に対応してもよい。出力部１５２は、時間調整処理部２０８で遅延させた遠端話者音響信号（基準音響信号、第２音響信号に基づく第２比較用信号）を「参照信号」のＬｃｈのデータ（基準音響信号を表す第２チャネルのデータ）として出力する。

以上の処理によっても図３に例示するようなデータ構造を得ることができる。得られたデータ構造はデータ記憶部１８０に格納される。

［第２実施形態の変形例］
第２実施形態では、時間調整処理部２０８，２６４，２６６，２７６それぞれの遅延処理により、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似（図３の時間区間ａ−ｃと時間区間ａ−ｃ’との一致または近似）させた。しかしながら、第１実施形態の変形例と同様、このような目的は他の手段によっても実現できる。例えば、遠端話者音響信号記憶部１０２から読み出された遠端話者音響信号を遅延させることなく「参照信号」のＬｃｈの基準音響信号として出力部１５２から出力し、近端話者音響信号記憶部１０１から読み出された近端話者音響信号を時間τ’だけ時間的に繰り上げたものを「参照信号」のＲｃｈの近端話者音響信号としてもよい。要は、
（１）「劣化信号Ｄ_２」のＲｃｈの近端話者音響信号（第１音響信号）が出力されてから、そのＬｃｈの評価対象音響信号Ｔ_２（重畳信号）に含まれる遠端話者音響信号成分（第１成分）が出力されるまでの時間と、「参照信号」のＲｃｈの近端話者音響信号（第１音響信号）が出力されてから、そのＬｃｈの基準音響信号に含まれる遠端話者音響信号成分（第２２成分）が出力されるまでの時間との一致または近似、および、
（２）「劣化信号Ｄ_１」のＲｃｈの近端話者音響信号（第１音響信号）が出力されてから、そのＬｃｈの評価対象音響信号Ｔ_１に含まれる遠端話者音響信号成分（第２１成分）が出力されるまでの時間と、「参照信号」のＲｃｈの近端話者音響信号（第１音響信号）が出力されてから、そのＬｃｈの基準音響信号に含まれる遠端話者音響信号成分（第２２成分）が出力されるまでの時間との一致または近似、
の少なくとも一方を行う１個以上の時間調整処理部を備えていればよい。その他、評価試験の時の処理により、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。要は、何らかの方法で、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。

［第３実施形態］
第３実施形態では、前述のように生成されたデータ構造を用いた品質評価方法を説明する。

＜音響品質評価装置＞
図６に例示するように、本実施形態の音響品質評価装置３は、データ記憶部１８０、集計結果記憶部３０５、再生制御部３０１、表示制御部３０２、集計部３０３、制御部３０４、音響出力処理部３１０−ｎ、表示部３２０−ｎ、および入力部３３０−ｎを有する。ただし、ｎ＝１，・・・，Ｎであり、Ｎは１以上の整数（例えば、Ｎは１以上４以下）である。音響品質評価装置３は、例えば、表示装置（ディスプレイ等）および入力装置（キーボードやマウス等）を備えた前述のような１個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。

＜音響品質評価処理＞
音響品質評価装置３は、前述したデータ構造を用い、制御部３０４の制御のもと、前述した拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験を行う。

ｎ＝１，・・・，Ｎについて、音響出力処理部３１０−ｎの出力部３１１−ｎに両耳装着型音響再生装置３４０−ｎの一方のチャネルであるＲｃｈ（第１チャネル：例えば右チャネル）が接続され、出力部３１２−ｎに両耳装着型音響再生装置３４０−ｎの他方のチャネルであるＬｃｈ（第２チャネル：例えば左チャネル）が接続される。なお、両耳装着型音響再生装置３４０−ｎとは、一方のチャネルＲｃｈの音を出力する一方の耳専用のスピーカーと、他方のチャネルＬｃｈの音を出力する他方の耳専用のスピーカーと、を備えたステレオ再生可能な音響再生装置である。両耳装着型音響再生装置３４０−ｎの具体例は、ヘッドフォンやイヤホン等である。評価者３５０−ｎは、両耳装着型音響再生装置３４０−ｎを装着し、表示部３２０−ｎから出力される表示内容に従って、両耳装着型音響再生装置３４０−ｎから出力される音の主観評価を行い、評価結果を入力部３３０−ｎに入力する。なお、評価者３５０−ｎは、その利き耳（例えば、左耳）にチャネルＬｃｈの音を出力する側のスピーカーを装着し、利き耳ではない側の耳（例えば、右耳）にチャネルＲｃｈの音を出力する側のスピーカーを装着することが望ましい。以下、これらの処理を詳細に説明する。

再生制御部３０１は、制御部３０４の制御に従い（制御内容は後述）、データ記憶部１８０から前述したデータ構造から「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の何れかを抽出し、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）に送る。この際に、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させるための処理がなされてもよい。音響出力処理部３１０−ｎは、送られた信号に応じて以下の処理を行う。なお、「参照信号」の基準音響信号が表す音を「基準音」とよび、「劣化信号Ｄ_１」の評価対象音響信号Ｔ_１が表す音、および「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２が表す音を「評価音」とよぶことにする。

≪「参照信号」が送られた場合≫
「参照信号」が送られた場合、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）は、「参照信号」の近端話者音響信号（第１音響信号）を出力部３１１−ｎから両耳装着型音響再生装置３４０−ｎの一方のチャネルであるＲｃｈ（第１チャネル）に出力しつつ、「参照信号」の基準音響信号を出力部３１２−ｎから両耳装着型音響再生装置３４０−ｎの他方のチャネルであるＬｃｈ（第２チャネル）に出力する（第１処理）。

≪「劣化信号Ｄ_１」が送られた場合≫
「劣化信号Ｄ_１」が送られた場合、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）は、「劣化信号Ｄ_１」の近端話者音響信号（第１音響信号）を出力部３１１−ｎから両耳装着型音響再生装置３４０−ｎのＲｃｈ（第１チャネル）に出力しつつ、「劣化信号Ｄ_１」の評価対象音響信号Ｔ_１（第１音響信号に由来する信号と第２音響信号とに基づく評価音を表す重畳信号）を出力部３１２−ｎから両耳装着型音響再生装置３４０−ｎのＬｃｈ（第２チャネル）に出力する（第２処理）。

≪「劣化信号Ｄ_２」が送られた場合≫
「劣化信号Ｄ_２」が送られた場合、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）は、「劣化信号Ｄ_２」の近端話者音響信号（第１音響信号）を出力部３１１−ｎから両耳装着型音響再生装置３４０−ｎのＲｃｈ（第１チャネル）に出力しつつ、「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２（第１音響信号に由来する信号と第２音響信号とに基づく評価音を表す重畳信号。ただし、この重畳信号は、第１音響信号に由来する信号と第２音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する。）を出力部３１２−ｎから両耳装着型音響再生装置３４０−ｎのＬｃｈ（第２チャネル）に出力する（第２処理）。

表示制御部３０２は、制御部３０４の制御に従い（制御内容は後述）、表示部３２０−ｎ（ただし、ｎ＝１，・・・，Ｎ）に表示情報を送る。表示部３２０−ｎは、送られた表示情報に従い、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての２段階以上の度合いと、の組み合わせからなる３段階以上のカテゴリーを含む評価カテゴリーを表示する。評価者３５０−ｎは、この表示に従って両耳装着型音響再生装置３４０−ｎから出力された音を主観評価する。ここで「基準音」は、遠端話者から理想的な状態で受信した音響信号に相当する。近端話者からの直接音に相当する「近端話者音」と合わせて提示することで、拡声系通信システムの理想的な状態を模擬することができる。「近端話者音」を「基準音響信号」と同時に提示することで、近端話者の音声の回り込み（音響エコー）と、遠端話者の音声を区別しやすくなる。「評価音」を常に「基準音」と比較することで、評価対象とする通信システムがどれだけ理想的な状態に近いか、または異なる状態であるか、を客観的に、かつ主観的に評価することができる。「評価音」のみを提示して評価すると、遠端話者の言いよどみや、遠端話者の周囲騒音などが劣化要因として判断され、低く評価される可能性が高い。常に「基準音」と比較することで、通信システム以外の劣化要因が評価対象から排除され、ばらつきの少ない、的確な評価値を得ることができる。また、この評価カテゴリーは、基準音に対する評価音の劣化のみならず、評価音の聞き取りにくさ（聞き取り易さ）に対する評価基準を定めたものである。このように、評価音の基準音からの劣化度と聞き取りやすさの度合いを組み合わせた評価カテゴリーを表示することで、従来のＤＣＲ（劣化カテゴリ評価）のように劣化のみに着目した評価カテゴリーを表示する場合に比べ、どのような基準で評価を行えばよいかが明確になり、複数の要因が複雑に絡み合うような環境でも評価ばらつきを小さくすることができる。また、評価音の聞き取り「にくさ」についての評価基準（否定的な評価基準）を表示することで、評価音の聞き取り「易さ」についての評価基準（肯定的な評価基準）を表示する場合に比べて評価者３５０−ｎの選択が厳密になり、評価精度が向上する。これは生理学上の自然法則に基づく。

好ましくは、評価カテゴリーは、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての３段階以上の度合いと、の組み合わせからなる４段階以上のカテゴリーを含む。評価音の聞き取りにくさについての３段階以上の度合いについての評価基準を定めることで、評価精度をより向上させることができる。特に、評価カテゴリーは、基準音と評価音との違いが分からないことを表す１段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての４段階の度合いとの組み合わせからなる４段階のカテゴリーとを含むことが望ましい。以下に評価カテゴリーの具体例を示す。
なお、「基準音と違いが分からない」「違いはあるが」「違いがあり」は「基準音と評価音との違いが分かるか否か」を表し、「聞き取りには問題がない」「少し聞き取りにくい」「聞き取りにくい」「非常に聞き取りにくい」は「評価音の聞き取りにくさについての度合い」を表す。この例の各評価カテゴリーには１から５の評価を表す値が対応付けられており、この値が大きいほど品質が高いことを表す。ここでは、「基準音」が理想的な状態であるとしてカテゴリーを設定したが、評価対象とする通信システムのノイズキャンセラ等の効果によって、「評価音」が「基準音」よりも評価が高くなる状態も考えられる。この場合は、さらに上位のカテゴリーとして「違いはあるが、聞き取りやすい」を含めてもよい。

以下に従来のＤＣＲ（劣化カテゴリ評価）で用いられていた劣化のみに着目した評価カテゴリーを示す。表１の評価カテゴリーと比べて主観的・内面的な表現が多いことが分かる。

さらに、表示制御部３０２が出力する表示情報が、評価音の聞き取り易さの評価を指示するための情報を含み、表示部３２０−ｎが、さらに評価音の聞き取り易さの評価を指示するための表示（「何を評価するか」を表す表示）を行ってもよい。例えば、表示部３２０−ｎは「評価音の『女声（左側）』の聞き取り易さ、を評価してください」と表示してもよい。この例において左側とは「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ₂」におけるＬｃｈ（第２チャネル）側のスピーカーの出力を指している。上述のように、評価カテゴリーは、基準音と評価音との違いが分かるか否かと評価音の聞き取りにくさについての度合いとの組み合わせからなる。生理学上、人間は違いの有無には敏感であり、特に注意をしていなくても基準音と評価音との違いの有無を評価することができる。一方、聞き取り易さについては注意をしていないと適切な評価を行うことができない。このような自然法則に基づき、表示部３２０−ｎが、さらに評価音の聞き取り易さの評価を指示するための表示を行うことで、評価精度を向上できたり、評価ばらつきを低減できたりする。なお、何を評価するかを表す表示として「評価音の聞き取り『にくさ』の評価を指示するための表示」を行った場合、生理学上、評価者３５０−ｎは詳細な点に注目しすぎてしまい、「聞き取り易さ」への影響が小さな劣化をも評価してしまう傾向がある。何を評価するかを表す表示として「評価音の聞き取り『易さ』の評価を指示するための表示」することで、評価者３５０−ｎの評価が適切になり、評価精度を向上できたり、評価ばらつきを低減できたりする。

さらに、表示制御部３０２が出力する表示情報が、何に着目するかを表示するための情報を含み、表示部３２０−ｎが「何に着目するか」を表示してもよい。例えば、表示部３２０−ｎは、上述の「第１処理」の際に基準音に着目する旨の指示を表す表示を行い、「第２処理」の際に評価音に着目する旨の指示を表す表示を行ってもよい。例えば、表示部３２０−ｎは、「第１処理」の際に「基準音（１）：『女声（左側）』に着目してください」との表示を行い、「劣化信号Ｄ_１」を出力する「第２処理」の際に「評価音（１）：『女声（左側）』に着目してください」との表示を行い、「劣化信号Ｄ_２」を出力する「第２処理」の際に「評価音（２）：『女声（左側）』に着目してください」との表示を行ってもよい。これにより、評価対象を明らかにし、評価者３５０−ｎを評価対象音響信号（遠端話者音響信号側）に着目させるとともに、評価者３５０−ｎを近端話者音響信号側に着目させないようにすることができる。また、音響出力処理部３１０−ｎから出力される信号に応じて、表示部３２０−ｎから表示される「何に着目するか」「何を評価するか」の表示が変わることで、評価対象音響信号の発生タイミングを視覚的に認識させることができる。

主観評価を行った評価者３５０−ｎは、評価カテゴリーから選択したカテゴリーを表す情報（評価結果を表す情報）である評価値Ｉ−ｎを入力部３３０−ｎに入力する。図７に表示部３２０−ｎが表示する表示画面３２１を例示する。この表示画面３２１は、「何に着目するか」を表示する着目内容提示部３２１１、「何を評価するか」を表示する評価指示提示部３２１２、評価カテゴリーを表示する評価カテゴリー提示部３２１３、評価を表す値「１」〜「５」（評価値Ｉ−ｎ）の入力のためにタッチまたはクリックされるアイコン３２１４〜３２１８、入力確定のためにタッチまたはクリックされるアイコン３２１９を含む。評価者３５０−ｎは、着目内容提示部３２１１、評価指示提示部３２１２、評価カテゴリー提示部３２１３の表示に従い、両耳装着型音響再生装置３４０−ｎから出力された音を主観評価し、評価に対応するアイコン３２１４〜３２１８の何れかをタッチまたはクリックし、確定のためのアイコン３２１９をタッチまたはクリックする。アイコン３２１４〜３２１９がアクティブでアイコン３２１９がタッチまたはクリックされるまでは、評価者３５０−ｎはアイコン３２１４〜３２１８を何度も選び直すタッチまたはクリック操作が可能である。これにより、評価カテゴリーから選択されたカテゴリーを表す評価値Ｉ−ｎが入力部３３０−ｎに入力される。なお、評価条件を同一とするため、上述の評価試験は、すべての評価者３５０−ｎ（ただし、ｎ＝１，・・・，Ｎ）によって同時に実行されることが望ましい。一定時間以上評価が確定しない評価者がいる場合は、その評価者に対して確定を促す画面表示と、他の評価者に対しては待たせる画面表示を行ってもよい。

入力部３３０−ｎに入力された評価値Ｉ−ｎは集計部３０３に送られる。集計部３０３は、評価値Ｉ−ｎを集計し、それによって得られた集計結果を集計結果記憶部３０５に格納する。例えば、集計結果は、評価者３５０−ｎを表すＩＤ、評価試験に用いられた「劣化信号Ｄ_２」等の音響信号やその条件とともに格納される。評価値Ｉ−ｎの集計結果は、評価値Ｉ−ｎの集合であってもよいし、評価試験に用いられた音響信号ごとでの最大値、最小値、平均値、分散値等であってもよい。評価内容に疑いがある評価者３５０−ｎに対応する評価値Ｉ−ｎを除外してから求めた最大値、最小値、平均値、分散値等を集計結果としてもよい。その他、他の処理装置でさらに詳しい分析が行われてもよい。

≪制御部３０４の制御内容≫
次に、図８から図１２を用い、制御部３０４の制御内容を例示する。これらの図の横軸は時間軸を表し、紙面の右に向かうほど後の時間を表す。これらの図の「Ｌｃｈ」の行は、両耳装着型音響再生装置３４０−ｎのＬｃｈ側のスピーカーから出力させる音を表し、「Ｒｃｈ」の行は、両耳装着型音響再生装置３４０−ｎのＲｃｈ側のスピーカーから出力させる音を表す。これらの図の「３２１１」の列は、着目内容提示部３２１１の提示内容（何に着目するか）を表し、「３２１２」の列は、評価指示提示部３２１２の提示内容（何を評価するか）を表し、「３２１３」の列は、評価カテゴリー提示部３２１３の提示内容（評価カテゴリー）を表す。

≪図８の例≫
図８の例では、まず、再生制御部３０１がデータ記憶部１８０から「参照信号」を読み込み、それを音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）に送る。音響出力処理部３１０−ｎは、出力部３１２−ｎから「参照信号」の基準音響信号を出力し、出力部３１１−ｎから「参照信号」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置３４０−ｎのＬｃｈからは基準音響信号が表す「基準音」が出力され、Ｒｃｈからは近端話者からの直接音に相当する「近端話者音」が出力される。この際、表示制御部３０２は、着目内容Ｆ_１および評価カテゴリーを表す表示情報を表示部３２０−ｎに送る。なお、着目内容Ｆ_１は、基準音（Ｌｃｈ）に着目する旨の指示を表す内容（例えば「基準音（１）：「女声（左側）」に着目してください」）を意味する。また、評価カテゴリーは、前述の「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての２段階以上の度合いと、の組み合わせからなる３段階以上のカテゴリーを含む評価カテゴリー」である。表示部３２０−ｎは、着目内容Ｆ_１を着目内容提示部３２１１に提示し、評価カテゴリーを評価カテゴリー提示部３２１３に提示する（ステップＳ１）。

次に、再生制御部３０１がデータ記憶部１８０から「劣化信号Ｄ_２」を読み込み、それを音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）に送る。音響出力処理部３１０−ｎは、出力部３１２−ｎから「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２を出力し、出力部３１１−ｎから「劣化信号Ｄ_２」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置３４０−ｎのＬｃｈからは「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２が表す「評価音」が出力され、Ｒｃｈからは近端話者音響信号が表す「近端話者音」が出力される。この際、表示制御部３０２は、着目内容Ｆ_２、評価指示Ｓ_１、および、評価カテゴリーを表す表示情報を表示部３２０−ｎに送る。なお、着目内容Ｆ_２は、評価音（Ｌｃｈ）に着目する旨の指示を表す内容（例えば「評価音（１）：『女声（左側）』に着目してください」）を意味する。評価指示Ｓ_１は、評価音（Ｌｃｈ）の聞き取り易さの評価の指示（例えば「評価音の『女声（左側）』の聞き取り易さ、を評価してください」）を意味する。表示部３２０−ｎは、着目内容Ｆ_２を着目内容提示部３２１１に提示し、評価指示Ｓ_１を評価指示提示部３２１２に提示し、評価カテゴリーを評価カテゴリー提示部３２１３に提示する（ステップＳ２）。

次に、ステップＳ１をもう一度実行し（ステップＳ３）、さらにステップＳ２をもう一度実行する（ステップＳ４）。ステップＳ１、ステップＳ２の繰り返しを３回以上としてもよい。

その後、アイコン３２１４〜３２１９をアクティブにして、入力部３３０−ｎからの評価値Ｉ−ｎおよび確定の旨の入力を受け付ける（ステップＳ５）。

さらに、ステップＳ１〜Ｓ５の「劣化信号Ｄ_２」を「劣化信号Ｄ_１」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_１」に置換した処理が実行されてもよい。また、評価カテゴリー提示部３２１３の評価カテゴリーの提示はステップＳ１〜Ｓ５を通して継続的に行われてもよいし、各ステップが終了するたびに評価カテゴリーの提示が消えてもよい。

≪図９の例≫
図９の例では、「基準音」、評価対象音響信号Ｔ_１が表す「評価音」、および評価対象音響信号Ｔ_２が表す「評価音」のうち、対比を行う一組の音をランダムに選択し、選択した音を順番に出力する。

以下に処理の具体例を示す。
まず再生制御部３０１は、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」から、対比する組をランダムに選択する。対比する組の例は、「参照信号」と「劣化信号Ｄ_１」とからなる組、「参照信号」と「劣化信号Ｄ_２」とからなる組、「劣化信号Ｄ_１」と「劣化信号Ｄ_２」とからなる組である。対比する組を構成する信号のうち、先に出力する信号を「第１出力信号」とよび、後に出力する信号を「第２出力信号」とよぶ。対比する組を構成する信号のうち何れを先に出力してもかまわない。例えば、「参照信号」と「劣化信号Ｄ_１」とからなる組を対比する場合、「参照信号」を「第１出力信号」とし、「劣化信号Ｄ_１」を「第２出力信号」としてもよいし、「参照信号」を「第２出力信号」とし、「劣化信号Ｄ_１」を「第１出力信号」としてもよい。

次に、Ｌｃｈから「第１出力信号」に対応する「基準音または評価音」が出力され、Ｒｃｈから「第１出力信号」に対応する「近端話者音」が出力される（ステップＳ２１）。「第１出力信号」が「参照信号」である場合のステップＳ２１の処理は、前述のステップＳ１と同じである。「第１出力信号」が「劣化信号Ｄ_２」である場合のステップＳ２１の処理は、評価指示Ｓ_１を評価指示提示部３２１２に提示しない以外、前述のステップＳ２と同じである。「第１出力信号」が「劣化信号Ｄ_１」である場合のステップＳ２１の処理は、前述のステップＳ２の処理において「劣化信号Ｄ_２」を「劣化信号Ｄ_１」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_１」に置換し、評価指示Ｓ_１を評価指示提示部３２１２に提示しないこととした処理である。

次にＬｃｈから「第２出力信号」に対応する「基準音または評価音」が出力され、Ｒｃｈから「第２出力信号」に対応する「近端話者音」が出力される（ステップＳ２２）。「第２出力信号」が「参照信号」である場合のステップＳ２２の処理は、前述のステップＳ１に加え、評価指示Ｓ_１を評価指示提示部３２１２に提示する処理を行うものである。「第２出力信号」が「劣化信号Ｄ_２」である場合のステップＳ２１の処理は、前述のステップＳ２と同じである。「第２出力信号」が「劣化信号Ｄ_１」である場合のステップＳ２１の処理は、前述のステップＳ２の処理において「劣化信号Ｄ_２」を「劣化信号Ｄ_１」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_１」に置換した処理である。

最後に、評価値の入力とその確定が行われる（ステップＳ５）。

その他、ステップＳ２１，２２の変形例として、Ｌｃｈから出力されている音が「基準音」であるか「評価音」であるかを提示しないこととしてもよい。すなわち、着目内容Ｆ_１および着目内容Ｆ_２に代えて、Ｌｃｈに着目する旨の指示を表す内容（例えば「『女声（左側）』に着目してください」）を提示してもよい。この場合、評価者３５０−ｎは提示されている音が「基準音」であるか「評価音」であるかを知らされることなく、主観評価を行うことになる。

≪図１０の例≫
図１０の例では、１回目に「基準音」が出力され、２回目および３回目にそれぞれ「隠された基準音」または評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力される。ここで、２回目に「隠された基準音」が出力された場合、３回目には評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力される（パターン１）。一方、２回目に評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力された場合、３回目に「隠された基準音」が出力される（パターン２）。なお、「隠された基準音」とは、「基準音」であることを示さずに出力する「基準音」を意味する。また、パターン１とするかパターン２とするかはランダムに定められる。

以下に処理の具体例を示す。

まず、Ｌｃｈから「参照信号」に対応する「基準音」が出力され、Ｒｃｈから「参照信号」に対応する「近端話者音」が出力される（ステップＳ３１）。ステップＳ３１の処理は、前述のステップＳ２１と同じである。

次に、再生制御部３０１は、パターン１とするかパターン２とするかをランダムに選択する。
パターン１が選択された場合、まず、Ｌｃｈから「参照信号」に対応する「隠された基準音」が出力され、Ｒｃｈから「参照信号」に対応する「近端話者音」が出力され（ステップＳ３２）、次に、Ｌｃｈから「劣化信号Ｄ_１」の評価対象音響信号Ｔ_１が表す「評価音」もしくは「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２が表す「評価音」が出力され、Ｒｃｈから「劣化信号Ｄ_１」もしくは「劣化信号Ｄ_２」に対応する「近端話者音」が出力される（ステップＳ３３）。
一方、パターン２が選択された場合、Ｌｃｈから評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力され、Ｒｃｈから「劣化信号Ｄ_１」もしくは「劣化信号Ｄ_２」に対応する「近端話者音」が出力され（ステップＳ３２）、次に、Ｌｃｈから「参照信号」に対応する「隠された基準音」が出力され、Ｒｃｈから「参照信号」に対応する「近端話者音」が出力される（ステップＳ３３）。

Ｌｃｈから「参照信号」に対応する「隠された基準音」を出力し、Ｒｃｈから「参照信号」に対応する「近端話者音」を出力する処理は、着目内容Ｆ_２に代えて着目内容Ｆ_１を着目内容提示部３２１１に提示し、評価指示Ｓ_１を評価指示提示部３２１２に提示する以外は、前述のステップＳ１と同じである。また、Ｌｃｈから評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」を出力し、Ｒｃｈから「劣化信号Ｄ_１」もしくは「劣化信号Ｄ_２」に対応する「近端話者音」を出力する処理は、前述のステップＳ２の処理、またはステップＳ２の処理において「劣化信号Ｄ_２」を「劣化信号Ｄ_１」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_１」に置換した処理と同じである。

最後に、評価値の入力とその確定が行われる（ステップＳ５）。ただし、評価者３５０−ｎは、ステップＳ３２，Ｓ３３で出力された音のうち、どちらが評価音かを判断し、評価音と判断した音に対してのみ評価値を入力する。評価音と判断されなかった音については自働的に「隠された基準音」と判断したとみなされ、隠された基準音に対する評価値「５」が付与される。また、評価者３５０−ｎが入力部３３０−ｎに指示入力を行うことにより、ステップＳ５の前に、ステップＳ３１〜Ｓ３３を所望の順序で何度でも実行できる構成であってもよい。

≪図１１の例≫
図１１の例でも、１回目に「基準音」が出力され、２回目および３回目にそれぞれ、ランダムに選択されたパターン１またはパターン２に従い、「隠された基準音」または評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力される。ただし、２回目および３回目の出力時にそれぞれに対する評価値が入力され（ステップＳ１３２，Ｓ１３３）、最後に評価値の確定入力のみがなされる（ステップＳ１０５）。なお、評価者３５０−ｎは、ステップＳ１３２，Ｓ１３３で出力された音のうち、「隠された基準音」と判断したほうに評価値「５」を入力し、「評価音」と判断したほうに自らの評価値を入力する。その他の詳細は、図１０の例と同じである。

≪図１２の例≫
図１２では、１回目に「基準音」が出力され（ステップＳ４１）、２回目からｘ＋１回目（ｘは３以上の整数（例えばｘは１４以下））に「評価音１」から「評価音ｘ」が出力され（ステップＳ４２−１〜Ｓ４２−ｘ）、評価値の入力とその確定が行われる（ステップＳ５）。なお、「評価音１」から「評価音ｘ」は、評価対象音響信号Ｔ_１が表す「評価音」および評価対象音響信号Ｔ_２が表す「評価音」の少なくとも一方、１個の「隠された基準音」、１個以上の「アンカー音」を含む。なお、「アンカー音」とは悪い音響品質の基準となる音を表す。複数のアンカー音を含む場合は、段階的に悪くなる音響品質の基準を用いてよい。また、ステップＳ５では、ステップＳ４２−１〜Ｓ４２−ｘで出力された音それぞれの評価値が入力される。また、「評価音１」から「評価音ｘ」の出力順序はランダムに定められる。ただし、評価者３５０−ｎが入力部３３０−ｎに指示入力を行うことにより、ステップＳ５の前に、ステップＳ４２−１〜Ｓ４２−ｘを所望の順序で何度でも実行できる構成であってもよい。その他は、図１０の例と同様である。

［第４実施形態］
本発明者は、第３実施形態で得られる評価値（基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての５段階評価に基づくＭＯＳ値（表１に例示））と、ＰＥＳＱ（これらの基準音響信号および評価対象音響信号に対応するＰＥＳＱ値）との関係が線形関係に近似できることを見出した。このようなことは従来知られていない（例えば、非特許文献１の「付図Ｖ−１／ＪＪ−２０１．０１＜ＰＥＳＱ値と受聴ＭＯＳ値の関係の定式化＞」等参照）。本実施形態では、この知見に基づき、線形演算によってＰＥＳＱから煩雑な主観評価や計算量の多い非線形演算を行うことなく、演算量の少ない線形演算でＭＯＳ値を推定できる。以下、詳細に説明する。

図１４は、第３実施形態で例示したように「参照信号」と「劣化信号」とを用いて評価試験を行って得られたＭＯＳ値（ＤＭＯＳ（Degradation MOS）値）と、それらに対応する「基準音響信号」と「評価対象音響信号」とから得られたＰＥＳＱ値との関係を表したグラフである。縦軸はＭＯＳ値（ＤＭＯＳ値）を表し、横軸はＰＥＳＱ値を表す。小さなダイヤ形のマークは主観評価試験による測定値を表し、破線直線上の大きな正方形のマークはそれらの線形関係に基づいた推定値を表す。この図に示すように、第３実施形態で得られたＭＯＳ値とそれに対応するＰＥＳＱ値との関係は線形関係で近似できる。そのため、用意しておいた基準音響信号と評価対象音響信号とからなるリファレンス信号を用い、この線形関係を表す線形関数（一次関数）等を定式化しておけば、新たな基準音響信号と評価対象音響信号とからＰＥＳＱ値を算出し、そのＰＥＳＱ値をこの線形関数に代入してＭＯＳ値を算出できる。

＜構成＞
図１３に例示するように、本実施形態の音響品質評価装置４は、ＰＥＳＱ算出部４１および線形変換部４２を有する。音響品質評価装置４は、例えば、前述のような１個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。

＜前処理＞
音響品質評価処理の前処理として、基準音響信号と当該基準音響信号を含む信号に基づく評価対象音響信号との組をリファレンス信号として用い、基準音響信号（第２の基準音響信号）と当該基準音響信号を含む信号に基づく評価対象音響信号（第２の評価対象音響信号）とに対応するＰＥＳＱ値（第２のＰＥＳＱ値）と、当該基準音響信号に対応する基準音と当該評価対象音響信号に対応する評価音との違いについての５段階評価に基づくＭＯＳ値（第２のＭＯＳ値）と、の線形関係を求めておく。このとき基準音響信号と当該基準音響信号を含む信号に基づく評価対象音響信号の組については様々な組み合わせを行い、また評価者についても複数人で主観評価試験を実施し、リファレンス信号への依存性や評価者個人差への依存性を軽減する形で、線形関係を統計的に解析する。この解析結果として得た情報が、図１４に示されるＰＥＳＱ値（第２のＰＥＳＱ値）とＭＯＳ値（第２のＭＯＳ値）との線形関係である。このような線形関係を表す情報は線形変換部４２に設定される。「線形関係を表す情報」の例は、この線形関係を表す線形関数Ｆや、この線形関数Ｆを特定するパラメータ等である。線形関数Ｆの例は、ＰＥＳＱ値を入力としてそれに対応するＭＯＳ値を出力する関数であり、例えば、ＭＯＳ値＝α×ＰＥＳＱ値＋βである。なお、αおよびβはパラメータである。

なお、基準音響信号は、第１〜３実施形態で例示したような遠端話者音響信号であってもよいし、その他の音声信号であってもよいし、音楽や背景音等のその他の音響信号であってもよい。評価対象音響信号は、基準音響信号を含む信号に基づくものであればどのようなものでもよい。評価対象音響信号の例は、基準音響信号を含む信号の劣化信号であり、例えば、第１〜３実施形態で例示したような基準音響信号にエコー成分およびノイズ成分の少なくとも一方が重畳した信号である。

ＰＥＳＱ算出部４１におけるＰＥＳＱ値の算出方法は周知であり、例えば、「ITU-T Recommendation P.862」等に詳細に記載されている。「ITU-T Recommendation P.862」の記載における「original X(t)」が本発明の基準音響信号に、「degraded signal Y(t)」が本発明の評価対象音響信号に、それぞれ該当する。なお、通常のＰＥＳＱ値の算出処理は、基準音響信号と評価対象音響信号との時間ずれを補正する処理が含まれる。

基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての５段階評価に基づくＭＯＳ値は、例えば、受聴された基準音と評価音との違いについて５段階評価（主観評価）の平均値である。５段階評価自体は５段階の評価カテゴリーを表す５つの値の何れかであるが、その平均値であるＭＯＳ値は１以上５以下の範囲に属する何れかの値である。「基準音と評価音との違いについて５段階評価」の内容に限定はない。このような５段階評価の例は、「基準音と評価音との違いが分かるか否かと、評価音の聞き取り易さおよび／または聞き取りにくさについての度合いと、の組み合わせからなる評価カテゴリーについての５段階評価」である。特に、このような５段階評価が「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての４段階の度合いと、の組み合わせからなる評価カテゴリーについての５段階評価」である場合、より誤差の小さな線形関係が成り立つ。より好ましくは、このような５段階評価が、「基準音と評価音との違いが分からないことを表す１段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての４段階の度合いとの組み合わせからなる４段階のカテゴリーと、を含む評価カテゴリーについての５段階評価」であることが望ましい。なお、「基準音と評価音との違いが分かるか否か」および「評価音の聞き取りにくさについての度合い」の具体例は、第３実施形態に例示した通りである。「評価音の聞き取り易さについての度合い」の具体例は、「聞き取りには問題がない」「少し聞き取り易い」「聞き取り易い」「非常に聞き取り易い」である。また、このような５段階評価に基づくＭＯＳ値は、「評価音の聞き取り易さの評価」を指示して得られた５段階評価に基づくものであることが望ましい。例えば、第３実施形態で例示したように、主観評価試験時に「評価音の『女声（左側）』の聞き取り易さ、を評価してください」等の内容が評価者に提示されて得られた５段階評価に基づくＭＯＳ値であることが望ましい。

＜音響品質評価処理＞
以上の前提のもと、以下のように音響品質評価処理が行われる。まず、ＰＥＳＱ算出部４１は、基準音響信号（第１の基準音響信号）と当該基準音響信号を含む信号に基づく評価対象音響信号（第１の評価対象音響信号）とを入力とし、当該基準音響信号と当該評価対象音響信号とに対するＰＥＳＱ値（第１のＰＥＳＱ値）を得て出力する。このＰＥＳＱ値は線形変換部４２に入力される。線形変換部４２は、上述した線形関係に基づいて、入力されたＰＥＳＱ値を線形変換してＭＯＳの推定値（第１のＭＯＳ値）を得て出力する。例えば、線形変換部４２は、ＰＥＳＱ値を前述の線形関数Ｆに代入して得られた結果をＭＯＳの推定値として出力する。

［第４実施形態の変形例１］
図１５に例示するように、この変形例の音響品質評価装置は、ＰＥＳＱ算出部４１、線形変換部４２、遠端話者音響信号記憶部１０２、およびデータ記憶部１８０を有する。ＰＥＳＱ算出部４１は、遠端話者音響信号記憶部１０２から遠端話者音響信号を基準音響信号として読み出し、データ記憶部１８０からこの遠端話者音響信号に対応する評価対象音響信号Ｔ_１を読み出す（図３参照）。ＰＥＳＱ算出部４１は、これらに対するＰＥＳＱ値を得て出力する。以降の処理は第４実施形態と同じである。なお、ＰＥＳＱ算出部４１が、遠端話者音響信号記憶部１０２から遠端話者音響信号を基準音響信号として読み出すことに代えて、データ記憶部１８０から基準音響信号を読み出してもよい。

［第４実施形態の変形例２］
第４実施形態の変形例１の評価対象音響信号Ｔ_１を評価対象音響信号Ｔ_２に置換した形態であってもよい。すなわち、ＰＥＳＱ算出部４１は、遠端話者音響信号記憶部１０２から遠端話者音響信号を基準音響信号として読み出し、データ記憶部１８０からこの遠端話者音響信号に対応する評価対象音響信号Ｔ_２を読み出す。ＰＥＳＱ算出部４１は、これらに対するＰＥＳＱ値を得て出力する。以降の処理は第４実施形態と同じである。

［第４実施形態の変形例３］
図１５に例示するように、この変形例の音響品質評価装置は、ＰＥＳＱ算出部４１、線形変換部４２、近端話者音響信号記憶部１０１、遠端話者音響信号記憶部１０２、データ記憶部１８０、および信号処理部６２１を含む。なお、信号処理部６２１は、何らかの「信号処理」を行う処理部である。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。その他、「信号処理」が、エコーキャンセル処理もノイズキャンセル処理も含まない処理であってもよい。ＰＥＳＱ算出部４１は、遠端話者音響信号記憶部１０２から遠端話者音響信号を基準音響信号として読み出す。信号処理部６２１は、データ記憶部１８０からこの遠端話者音響信号に対応する評価対象音響信号Ｔ_１を読み出し、近端話者音響信号記憶部１０１から評価対象音響信号Ｔ_１に対応する近端話者音響信号を読み出す（図３参照）。信号処理部６２１は、これらを用いて評価対象音響信号Ｔ_１に信号処理を行い、それによって得られた信号を評価対象信号としてＰＥＳＱ算出部４１に送る。ＰＥＳＱ算出部４１は、入力された信号に対するＰＥＳＱ値を得て出力する。以降の処理は第４実施形態と同じである。

［その他の変形例等］
なお、本発明は上述の実施の形態に限定されるものではない。例えば、参照信号や劣化信号が音声以外の音響信号（音楽や背景音等）に基づいて得られたものであってもよい。また、参照信号や劣化信号が時系列信号でなくてもよい。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１，２データ生成装置
３〜６音響品質評価装置

Claims

第１の基準音響信号と前記第１の基準音響信号を含む信号に基づく第１の評価対象音響信号とに対する第１のＰＥＳＱ値を得るＰＥＳＱ算出部と、
第２の基準音響信号と前記第２基準音響信号を含む信号に基づく第２の評価対象音響信号とに対応する第２のＰＥＳＱ値と、前記第２の基準音響信号に対応する基準音と前記第２の評価対象音響信号に対応する評価音との違いについての５段階評価に基づく第２のＭＯＳ値と、の線形関係に基づいて、前記第１のＰＥＳＱ値を線形変換して第１のＭＯＳ値を得る線形変換部と、
を有する音響品質評価装置。
請求項１の音響品質評価装置であって、
前記第２のＭＯＳ値は、前記基準音と前記評価音との違いが分かるか否かと、前記評価音の聞き取り易さおよび／または聞き取りにくさについての度合いと、の組み合わせからなる評価カテゴリーについての５段階評価に基づく、音響品質評価装置。
請求項１または２の音響品質評価装置であって、
前記第２のＭＯＳ値は、前記基準音と前記評価音との違いが分かるか否かと、前記評価音の聞き取りにくさについての４段階の度合いと、の組み合わせからなる評価カテゴリーについての５段階評価に基づく、音響品質評価装置。
請求項１から３の何れかの音響品質評価装置であって、
前記第２のＭＯＳ値は、前記基準音と前記評価音との違いが分からないことを表す１段階のカテゴリーと、前記基準音と前記評価音との違いが分かる旨と前記評価音の聞き取りにくさについての４段階の度合いとの組み合わせからなる４段階のカテゴリーと、を含む評価カテゴリーについての５段階評価に基づく、音響品質評価装置。
請求項１から４の何れかの音響品質評価装置であって、
前記第２のＭＯＳ値は、前記評価音の聞き取り易さの評価を指示して得られた５段階評価に基づく、音響品質評価装置。
第１の基準音響信号と前記第１の基準音響信号を含む信号に基づく第１の評価対象音響信号とに対する第１のＰＥＳＱ値を得るＰＥＳＱ算出ステップと、
第２の基準音響信号と前記第２基準音響信号を含む信号に基づく第２の評価対象音響信号とに対応する第２のＰＥＳＱ値と、前記第２の基準音響信号に対応する基準音と前記第２の評価対象音響信号に対応する評価音との違いについての５段階評価に基づく第２のＭＯＳ値と、の線形関係に基づいて、前記第１のＰＥＳＱ値を線形変換して第１のＭＯＳ値を得る線形変換ステップと、
を有する音響品質評価方法。
請求項１から５の何れかの音響品質評価装置としてコンピュータを機能させるためのプログラム。