[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2016046695A - 音響品質評価装置、音響品質評価方法、およびプログラム - Google Patents

音響品質評価装置、音響品質評価方法、およびプログラム Download PDF

Info

Publication number
JP2016046695A
JP2016046695A JP2014170109A JP2014170109A JP2016046695A JP 2016046695 A JP2016046695 A JP 2016046695A JP 2014170109 A JP2014170109 A JP 2014170109A JP 2014170109 A JP2014170109 A JP 2014170109A JP 2016046695 A JP2016046695 A JP 2016046695A
Authority
JP
Japan
Prior art keywords
signal
sound
evaluation
acoustic signal
end speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014170109A
Other languages
English (en)
Other versions
JP6163468B2 (ja
Inventor
祥子 栗原
Sachiko Kurihara
祥子 栗原
末廣 島内
Suehiro Shimauchi
末廣 島内
仲 大室
Hitoshi Omuro
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014170109A priority Critical patent/JP6163468B2/ja
Publication of JP2016046695A publication Critical patent/JP2016046695A/ja
Application granted granted Critical
Publication of JP6163468B2 publication Critical patent/JP6163468B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】少ない演算量でPESQ値からMOS値を推定する。
【解決手段】第1の基準音響信号とこれを含む信号に基づく第1の評価対象音響信号とに対する第1のPESQ値を得、第2の基準音響信号と第2基準音響信号を含む信号に基づく第2の評価対象音響信号とに対応する第2のPESQ値と、第2の基準音響信号に対応する基準音と第2の評価対象音響信号に対応する評価音との違いについての5段階評価に基づく第2のMOS値と、の線形関係に基づいて、第1のPESQ値を線形変換して第1のMOS値を得る。
【選択図】図13

Description

本発明は、通話品質を評価するための技術に関し、特に拡声系通信システムの品質評価試験技術に関する。
従来、客観評価値であるPESQ(Perceptual Evaluation of Speech Quality)値をを用いて会話MOS(Mean Opinion Score)値または受聴MOS値を推定する場合には、リファレンス信号に基づいてPESQ値と会話MOS値または受聴MOS値との対応関係を表す非線形関数を定式化し、その関数に基づく非線形変換を行う必要があった(例えば、非特許文献1参照)。
社団法人情報通信技術委員会:"IP電話の通話品質評価法",JJ−201.01,第5版,2008年8月.
この方法に拠れば、PESQ値から会話MOSまたは受聴MOSの推定値への変換に複雑な非線形処理が必要となり、計算が複雑化する問題があった。
本発明の課題は、少ない演算量でPESQ値からMOS値を推定する技術を提供することである。
本発明では、第1の基準音響信号とこれを含む信号に基づく第1の評価対象音響信号とに対する第1のPESQ値を得、第2の基準音響信号と第2基準音響信号を含む信号に基づく第2の評価対象音響信号とに対応する第2のPESQ値と、第2の基準音響信号に対応する基準音と第2の評価対象音響信号に対応する評価音との違いについての5段階評価に基づく第2のMOS値と、の線形関係に基づいて、第1のPESQ値を線形変換して第1のMOS値を得る。
本発明では、基準音と評価音との違いについての5段階評価に基づくMOS値を採用することで、PESQ値とMOS値とを線形な関係に近似することができた。そのため、少ない演算量でPESQ値からMOS値を推定することが可能となった。
図1は、第1実施形態のデータ生成装置の機能構成を例示したブロック図である。 図2は、第1実施形態のデータ生成装置によって生成されるデータ構造を説明するための概念図である。 図3は、第1実施形態のデータ生成装置によって生成されるデータ構造を例示するための図である。 図4は、第2実施形態のデータ生成装置の機能構成を例示したブロック図である。 図5Aは、図4の通信環境模擬処理部を例示したブロック図である。図5Bは、図4の信号処理部を例示したブロック図である。 図6は、第3実施形態の音響品質評価装置の機能構成を例示したブロック図である。 図7は、第3実施形態の音響品質評価試験での表示内容を例示した図である。 図8は、音響品質評価方法を例示するための図である。 図9は、音響品質評価方法を例示するための図である。 図10は、音響品質評価方法を例示するための図である。 図11は、音響品質評価方法を例示するための図である。 図12は、音響品質評価方法を例示するための図である。 図13は、第4実施形態の音響品質評価装置の機能構成を例示したブロック図である。 図14は、DMOS値とPESQ値との関係を例示した図である。 図15は、第4実施形態の変形例の音響品質評価装置の機能構成を例示したブロック図である。
以下、図面を参照して本発明の実施形態を説明する。
[第1実施形態]
<拡声系通信システムでの会話MOS試験を模擬した評価試験>
まず、拡声系通信システムでの会話MOS試験を模擬した評価試験を概念的に説明する。この評価試験では、近端話者と遠端話者とが拡声系通信システムを通じて会話を行い、近端話者側に位置する評価者が当該拡声系通信システムの品質評価を行う。なお、拡声系通信システムとは、マイクロホンとスピーカーとを備えた端末装置間で音響信号を送受信する通信システムであって、端末装置のスピーカーから出力された音の少なくとも一部がその端末装置のマイクロホンで受音されるもの(音の回り込みが生じるもの)をいう。拡声系通信システムの一例は、音声会議システムやテレビ会議システムである。
図2に例示する拡声系通信システムでは、近端話者の音声が近端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で遠端話者側に伝送され、当該音響信号が表す音が遠端話者側のスピーカーから出力される。また、遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で近端話者側に伝送され、当該音響信号が表す音が近端話者側のスピーカーから出力される。ただし、遠端話者側のスピーカーから出力された音の少なくとも一部は遠端話者側のマイクロホンでも受音される。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、遠端話者の音声に近端話者の音声の回り込み(音響エコー)が重畳されたものである。また、近端話者側に伝送される音響信号は、遠端話者側のマイクロホンで受音された音を表す信号に所定の「信号処理」を行って得られた処理信号に由来するものであってもよいし、このような信号処理を行うことなく得られたものであってもよい。「信号処理」は、どのような処理であってもよい。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。
評価者は、ヘッドフォンやイヤホン等の両耳装着型音響再生装置を用い、近端話者からの直接音を一方の耳(例えば利き耳ではない方の耳−例えば右耳)で聴き、近端話者側のスピーカーから出力される音を他方の耳(例えば利き耳−例えば左耳)で聴き、通話品質を主観評価(オピニオン評価)する。本実施形態では、近端話者からの直接音側のチャネルを「Rch」と表記し、近端話者側のスピーカーから出力される音側のチャネルを「Lch」と表記する。上述のように、近端話者側のスピーカーから出力される音は、遠端話者の音声に近端話者の音声の音響エコーが重畳された遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号が近端話者側に伝送され、近端話者側のスピーカーから出力されたものである。そのため、近端話者側のスピーカーから出力される音に含まれる近端話者の音声の音響エコー成分は、この近端話者の音声の直接音よりも遅延している(音響信号が近端話者側と遠端話者側との間を一往復する時間の遅延)。また、近端話者側のスピーカーから出力される音に含まれる遠端話者の音声の成分は、この遠端話者の音声が発せられた時点よりも遅延している(音響信号が遠端話者側から近端話者側へ伝送される時間の遅延)。ここで、近端話者からの直接音を表す音響信号と、遠端話者側での音の回り込みがある場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「劣化信号」と呼ぶ。特に上述の「信号処理」が行われていない「劣化信号」を「劣化信号D」と表記し、「信号処理」が行われた「劣化信号」を「劣化信号D」と表記する。また、参照用として、近端話者からの直接音を表す音響信号と、遠端話者側での音の回り込みがないと仮定した場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「参照信号」と呼ぶ。評価者は、例えば「劣化信号D」「劣化信号D」「参照信号」の何れかの組を比較することで通話品質を主観評価する。
<データ生成装置>
次に、拡声系通信システムでの会話MOS試験を模擬した評価試験を行うためのデータ構造を生成するデータ生成装置を例示する。図1に例示するように、本実施形態のデータ生成装置1は、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、再生部103,104、スピーカー105,106、マイクロホン107、時間調整処理部108、収録処理部109、近端端末部110、遠端端末部120、出力部131,132,141,142,151,152、およびデータ記憶部180を有する。遠端端末部120は信号処理部121を含み、近端端末部110と遠端端末部120とはネットワーク(NW)を通じて通信可能に構成されている。少なくとも、スピーカー105,106およびマイクロホン107は、同じ室内に配置されている。データ生成装置1は、例えば、スピーカーやマイクロホンが接続され、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備えた汎用または専用の1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。各コンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
<データ生成処理>
次に、本実施形態のデータ生成処理を説明する。
事前処理として、評価者が受聴する近端話者の直接音(近端話者の音声)に相当する音を表す近端話者音響信号(システムの第1端側の第1音響信号)のデータを近端話者音響信号記憶部101に格納し、遠端話者の直接音(遠端話者の音声)に相当する音を表す遠端話者音響信号(システムの第2端側の第2音響信号)のデータを遠端話者音響信号記憶部102に格納する。本実施形態の近端話者音響信号および遠端話者音響信号は何れも時系列の音響信号であり、例えば、防音室で収録した音声に基づいて得られたものである。ただし、これは本発明を限定するものではなく、近端話者音響信号および遠端話者音響信号の少なくとも一方が通常の室内環境で収録されたものであってもよい。また、本形態では、近端話者音響信号が表す近端話者音声と遠端話者音響信号が表す遠端話者音声との間の発話タイミング(すなわち、近端話者音声の発話時に対する遠端話者音声の発話時の相対時間、例えば、近端話者音声と遠端話者音声とのかぶり)に制約は設けない。ただし、これは本発明を限定するものではなく、近端話者音声と遠端話者音声との間の発話タイミングに何らかの制約を設けてもよい。また、近端話者および遠端話者に制約はなく、これらが評価者以外の人であってもよいし、これらの少なくとも一方が評価者と同一人物であってもよい。
以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。再生部103は、近端話者音響信号記憶部101から近端話者音響信号のデータを抽出して近端話者音響信号を出力する。再生部103から出力された近端話者音響信号は、出力部131,141,151および近端端末部110に送られる。出力部131,141,151は、送られた近端話者音響信号(システムの第1端側の第1音響信号)を、それぞれ「劣化信号D」「劣化信号D」「参照信号」のRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルのデータ)として出力する。また、近端端末部110は、送られた近端話者音響信号をネットワーク経由で遠端端末部120に伝送する。遠端端末部120は伝送された近端話者音響信号(第1音響信号に由来する信号)をスピーカー105に送り、スピーカー105は近端話者音響信号が表す音(システムの第2端側に送られた第1音響信号に由来する再生信号)を出力する。
再生部104は、遠端話者音響信号記憶部102から遠端話者音響信号のデータを抽出して遠端話者音響信号を出力する。再生部104から出力された遠端話者音響信号は時間調整処理部108およびスピーカー106に送られる。時間調整処理部108は送られた遠端話者音響信号を遅延させて出力部152に送る。時間調整処理部108での遅延量τは、遠端端末部120から近端端末部110までの伝送遅延量Bを模擬するものであり、例えば、この伝送遅延量Bに基づいて定められる。例えば、遠端端末部120から近端端末部110までの伝送遅延量B、当該伝送遅延量Bの予測値、当該伝送遅延量Bの平均値、またはこれらの何れかの近似値または補正値(関数値)を時間調整処理部108での遅延量τとする。なお、「αの近似値」とは、α−β以上α+β以下の範囲に属する値を意味する。βおよびβは正の値(例えば定数)であり、β=βであってもよいし、β≠βであってもよい。また、伝送遅延量Bは、往復の遅延量C(近端話者音響信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間)の約半分である。そのため、遅延量Cに基づいて遅延量τが定められてもよい。例えば、遅延量Cの1/2値、当該遅延量Cの予測値の1/2値、当該遅延量Cの平均値の1/2値、またはこれらの何れかの関数値を遅延量τとしてもよい。遅延量τは固定値であってもよいし、実際に測定された伝送遅延量Bに基づいて決定されてもよい。ただし、ネットワーク環境によっては往路と復路との遅延量が異なる場合もある。また、近端端末部110や遠端端末部120や信号処理部121やネットワーク環境が変化すれば伝送遅延量Bや遅延量Cが変化するため、そのような変化に応じて遅延量τを定めることが望ましい。出力部152は、時間調整処理部108で遅延させた遠端話者音響信号(基準音響信号、第2音響信号に基づく第2比較用信号)を「参照信号」のLchのデータ(基準音響信号を表す第2チャネルのデータ)として出力する。
スピーカー106は、送られた遠端話者音響信号(システムの第2端側の第2音響信号)が表す音(第2端側の第2音響信号に由来する再生信号)を出力する。スピーカー105から出力された音およびスピーカー106から出力された音は室内空間で重畳し、マイクロホン107で受音される。マイクロホン107で受音して得られた受音信号(第1音響信号に由来する信号と第2音響信号とに基づく信号)は、遠端端末部120の信号処理部121に送られる。信号処理部121は、送られた受音信号に対する信号処理の実行の有無を制御可能である。信号処理が実行される場合、信号処理部121は、送られた受音信号に信号処理を行って処理信号を得、遠端端末部120は処理信号をネットワーク経由で近端端末部110(第1端側)に伝送する。この信号処理には、さらに近端端末部110からネットワーク経由で遠端端末部120に伝送された近端話者音響信号(スピーカー105に入力される近端話者音響信号)が用いられてもよい。一方、信号処理が実行されない場合、遠端端末部120は、信号処理部121に送られた受音信号をネットワーク経由で近端端末部110(第1端側)に伝送する。また信号処理部121は、例えば、信号処理の有無を表す情報を収録処理部109に送る。また信号処理部121は、送られた受音信号に対して信号処理を実行して処理信号を得、遠端端末部120は処理信号をネットワーク経由で近端端末部110に伝送し、さらに、この信号処理と同一の受音信号または同一の条件のもとで得られた同一とみなせる受音信号をネットワーク経由で近端端末部110に伝送してもよい。すなわち、同一または同一とみなせる2つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われてもよい。「同一の条件」とは、少なくとも、データ生成装置1、近端話者音響信号、遠端話者音響信号、および発話タイミングが同一であることを意味する。「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。なお、エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理を意味する。広義のエコーキャンセラによる処理とは、エコーを低減させるための処理全般を意味する。広義のエコーキャンセラによる処理は、例えば、適応フィルタを用いた狭義のエコーキャンセラのみによって実現されてもよいし、音声スイッチによって実現されてもよいし、エコーリダクションによって実現されてもよいし、これらの少なくとも一部の技術の組み合わせによって実現されてもよいし、さらにその他の技術との組み合わせによって実現されてもよい(例えば、「知識ベース 知識の森、2群−6編−5章、“音響エコーキャンセラ”、電子情報通信学会」参照)。またノイズキャンセル処理とは、遠端端末のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音に起因する雑音成分を抑圧または除去する処理を意味する。環境雑音とは、例えば、オフィスの空調音、走行中の車内音、交差点での車の通行音、虫の音、キーボードのタッチ音、複数の人の声(ガヤガヤ音)などを指し、音の大/小、屋内/屋外は問わない。
遠端端末部120からネットワーク経由で伝送された信号(第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号)は、近端端末部110に入力され、収録処理部109に送られる。ここで、信号処理部121で信号処理が実行されている場合(信号処理ON時)、収録処理部109は、送られた信号(第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号)を出力部142に送る。出力部142は、送られた信号(評価対象音響信号T)を「劣化信号D」のLchのデータ(重畳信号を含む第2チャネルのデータ)として出力する。一方、信号処理部121で信号処理が実行されていない場合(信号処理OFF時)、収録処理部109は、送られた信号(受音信号を第1端側に送ることで得られた第1比較用信号)を出力部132に送る。出力部132は、送られた信号(評価対象音響信号T)を「劣化信号D」のLchのデータ(重畳信号を含む第2チャネルのデータ)として出力する。
出力部131から出力されたRchの近端話者音響信号のデータと、出力部132から出力されたLchの評価対象音響信号Tのデータとの組は、「劣化信号D」としてデータ記憶部180に格納される。出力部141から出力されたRchの近端話者音響信号のデータと、出力部142から出力されたLchの評価対象音響信号Tのデータとの組は、「劣化信号D」としてデータ記憶部180に格納される。出力部151から出力されたRchの近端話者音響信号のデータと、出力部152から出力されたLchの基準音響信号のデータとの組は、「参照信号」としてデータ記憶部180に格納される。なお、同じ時間区間に対応する「劣化信号D」「劣化信号D」「参照信号」のRchの近端話者音響信号は互いに同一である。そのため、必ずしも「劣化信号D」「劣化信号D」「参照信号」のそれぞれについて、互いに同一なRchの近端話者音響信号のデータをデータ記憶部180に格納する必要はない。もちろん、「劣化信号D」「劣化信号D」「参照信号」のそれぞれについて、互いに同一なRchの近端話者音響信号のデータをデータ記憶部180に格納してもかまわない。
図3を用い、上述のように得られた「参照信号」「劣化信号D」「劣化信号D」を例示する。図3の例では、前述した同一または同一とみなせる2つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われ、信号処理を実行した場合の「劣化信号D」と、信号処理を実行していない場合の「劣化信号D」との両方が得られている。また図3の例では、「信号処理」としてエコーキャンセル処理を含む処理を用いている。
本実施形態の「参照信号」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルのデータ)と、前述の遠端話者音響信号に基づく基準音響信号を含むLchのデータ(第2端側の第2音響信号に基づく第2比較用信号を含む第2チャネルのデータ)とを含む。本実施形態の「劣化信号D」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルのデータ)と、前述の評価対象音響信号Tを含むLchのデータ(第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号を含む第2チャネルのデータ)とを含む。評価対象音響信号Tは信号処理を行うことなく得られた「第1比較用信号」である。本実施形態の「劣化信号D」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルのデータ)と、前述の評価対象音響信号Tを含むLchのデータ(第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号を含む第2チャネルのデータ)とを含む。なお、「評価対象音響信号Tを含むLchのデータ」および「評価対象音響信号Tを含むLchのデータ」は、いずれも「第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号を含む第2チャネルのデータ」に相当する。特に「評価対象音響信号Tを含むLchのデータ」は、このような「重畳信号」を含むデータのうち、「第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来するもの」を含むデータである。
図3に例示するように、「参照信号」「劣化信号D」「劣化信号D」のRchのデータの時間区間a−bには、互いに同一な近端話者音響信号(第1音響信号)が含まれる。「劣化信号D」「劣化信号D」のLchのデータの時間区間e−d’には、近端話者音響信号の音響エコー成分が含まれる。音響エコー成分は上記の近端話者音響信号に由来する信号(第1音響信号に由来する信号)であるが、近端話者音響信号に比べて時間区間a−e(遅延量C)だけ遅延している。この遅延量Cは、近端話者音響信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間に相当する。
「参照信号」のLchのデータの時間区間c−dには、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく第22成分)が含まれ、「劣化信号D」のLchのデータの時間区間c’−d’には、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく第21成分)が重畳され、「劣化信号D」のLchのデータの時間区間c’−d’には、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく第1成分)が重畳されている。「劣化信号D」「劣化信号D」のRchの近端話者音響信号の開始時点aからLchの遠端話者音響信号成分の開始時点c’までには時間差a−c’が存在する。また、「参照信号」のRchの近端話者音響信号の開始時点aからLchの遠端話者音響信号成分の開始時点cまでには時間差a−cが存在する。ここで「劣化信号D」「劣化信号D」での時間差a−c’は、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Aと、信号が遠端端末部120から近端端末部110に伝送されるまでの伝送遅延量Bとの合計A+Bに相当する。一方、「参照信号」での時間差a−cは、時間差Aと時間調整処理部108での遅延量τとの合計A+τに相当する。前述のように遅延量τは伝送遅延量Bに基づいて定められているため、遅延量τと伝送遅延量Bとが一致または近似し、時間差a−cを時間差a−c’に一致または近似させることができる。このようなデータ構造を用いた評価試験では、「劣化信号D」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。同様に、「劣化信号D」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。さらに、「劣化信号D」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「劣化信号D」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを一致または近似させることができる。すなわち、重畳信号は、第2音響信号に基づく第1成分を含み、比較用信号は、第2音響信号に基づく第2成分(第21成分または第22成分)を含み、第1チャネルで第1音響信号を出力してから第2チャネルで第1成分を出力するまでの時間と、第1チャネルで第1音響信号を出力してから第2チャネルで第2成分を出力するまでの時間とを、一致または近似させることができる。なお、図3では、近端話者が遠端話者に先行して発話する状況を例示したが、遠端話者が近端話者に先行して発話したり、時間差がa−c’≒0となったりする場合もある。例えば、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Aと、信号が遠端端末部120から近端端末部110に伝送されるまでの伝送遅延量Bとが等しい場合は、時間差a−c’= 差分A−B≒0となる場合がある。さらに遠端話者が近端話者に対して伝送遅延量Bよりも早く話し始めた場合には波形の位置関係が逆転し、Lchの遠端話者音響信号成分の開始時点c’が「劣化信号D」「劣化信号D」のRchの近端話者音響信号の開始時点aよりも前になる場合もある。このような場合であっても同様に時間調整を行うことができる。
また、上述のデータ構造では、「参照信号」としてRchの近端話者音響信号のデータとLchの基準音響信号のデータとが対応付けられ、「劣化信号D」としてRchの近端話者音響信号のデータとLchの評価対象音響信号Tのデータとが対応付けられ、「劣化信号D」としてRchの近端話者音響信号のデータとLchの評価対象音響信号Tのデータとが対応付けられている。このようなデータ構造を用いた評価試験では、Rchで近端話者音響信号を出力しつつ、Lchで基準音響信号を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号Tを出力する制御とを行うことができる。同様に、Rchで近端話者音響信号を出力しつつ、Lchで基準音響信号を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号Tを出力する制御とを行うこともできる。さらに、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号Tを出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号Tを出力する制御とを行うこともできる。すなわち、第1チャネルで第1音響信号を出力しつつ、第2チャネルで比較用信号を出力する制御と、第1チャネルで第1音響信号を出力しつつ、第2チャネルで重畳信号を出力する制御と、が可能である。
評価試験の際、「参照信号」「劣化信号D」「劣化信号D」が何らかの順序で再生される。「参照信号」「劣化信号D」「劣化信号D」のRchの信号の再生音は、例えば、両耳装着型音響再生装置の右のスピーカーから出力され、Lchの信号の再生音は、例えば、この両耳装着型音響再生装置の左のスピーカーから出力される(ステレオ再生)。評価者は、この両耳装着型音響再生装置を両耳に装着し、ステレオ再生されたこれらの音を聴いて通話品質を主観評価する。この際、評価者はLchの信号の再生音を利き耳(例えば左耳)で聴き、Rchの信号の再生音を利き耳ではない耳(例えば右耳)で聴くことが望ましい。評価試験の詳細は第3実施形態で説明する。
[第1実施形態の変形例]
第1実施形態では、遠端話者音響信号を遅延量τだけ遅延させたものを「参照信号」のLchの基準音響信号とした。これは「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似(例えば、図3の時間区間a−cと時間区間a−c’との一致または近似)させるためである。しかしながら、このような目的は他の手段によっても実現できる。例えば、再生部104から出力された遠端話者音響信号を遅延させることなく「参照信号」のLchの基準音響信号として出力部152から出力し、再生部103から出力された近端話者音響信号を時間τだけ時間的に繰り上げたもの(遅延の逆の時間シフトをしたもの)を「参照信号」のRchの近端話者音響信号としてもよい。あるいは、再生部104から出力された遠端話者音響信号を時間τ−Tだけ遅延させたものを「参照信号」のLchの基準音響信号として出力部152から出力し、再生部103から出力された近端話者音響信号を時間Tだけ時間的に繰り上げたものを「参照信号」のRchの近端話者音響信号としてもよい。ただし、Tの値は、例えば、0≦T≦τである。あるいは、評価試験時の処理により、「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。例えば、「参照信号」「劣化信号D」「劣化信号D」のファイル名やそれらを構成する信号の時間情報を持つデータ構造であればよい。データ構造がさらに遅延量τを特定するための情報を持っていてもよい。このような場合、データ記憶部180に格納されている「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間が一致または近似されていなくてもよい。要は、何らかの方法で、「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。また、「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間が一致していないデータ構造であってもよい。
[第2実施形態]
第2実施形態は第1実施形態の変形例であり、通信環境および室内環境を電気的に模擬したデータ生成装置で、評価試験を行うためのデータ構造を生成するものである。以下では、これまで説明した事項との相違点を中心に説明する。既に説明した事項については、それらに用いた参照番号を流用して説明を簡略化する。
<データ生成装置>
図4に例示するように、本実施形態のデータ生成装置2は、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、時間調整処理部208、通信環境模擬処理部260、信号処理部270、出力部131,132,141,142,151,152、およびデータ記憶部180を有する。データ生成装置2は、例えば、音声信号の処理が可能な汎用または専用の1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
通信環境模擬処理部260は、通信環境および周囲環境(空間伝達系)を電気的に模擬した通信環境模擬処理を行う。この通信環境模擬処理は、少なくとも、近端話者音響信号(第1音響信号)に第1時間調整処理を含む処理を行って得られる信号と、遠端話者音響信号(第2音響信号)に第2時間調整処理を含む処理を行って得られる信号と、を重畳する処理を含む。さらに、通信環境模擬処理が、擬似エコーおよび擬似雑音の少なくとも一方を重畳する処理を含んでもよい。例えば、図5Aに例示するように、通信環境模擬処理部260は、時間調整処理部264,266、擬似エコー生成部265、加算部267、入力部261,262、および出力部263を含む。さらに、通信環境模擬処理部260が擬似雑音源268を含んでもよい。なお、擬似雑音源268は遠端端末部のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音を模擬するためのものである。
信号処理部270は、入力された信号に所定の信号処理を行って出力する。第1実施形態と同様、「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理である。例えば、図5Bに例示するように、信号処理部270は、入力部271,272、出力部273、加算部274、適応フィルタ275、および時間調整処理部276を含む。信号処理部270がさらに雑音除去部278および乗算部277を含んでもよい。また、図5Bでは適応フィルタ275を用いてエコーキャンセラが構成されているが、音声スイッチやエコーリダクションその他の技術またはそれと適応フィルタ275との組み合わせでエコーキャンセラが構成されてもよい。
次に、本実施形態のデータ生成処理を説明する。
第1実施形態と同じく、まず事前処理として、近端話者音響信号(第1音響信号)のデータを近端話者音響信号記憶部101に格納し、遠端話者音響信号(第2音響信号)のデータを遠端話者音響信号記憶部102に格納する。以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。
近端話者音響信号記憶部101から近端話者音響信号が抽出され、出力部131,141,151、通信環境模擬処理部260の入力部262、および信号処理部270の入力部272に送られる。遠端話者音響信号記憶部102から遠端話者音響信号が抽出され、時間調整処理部208および通信環境模擬処理部260の入力部261に入力される。
出力部131,141,151は、送られた近端話者音響信号(第1音響信号)を、それぞれ「劣化信号D」「劣化信号D」「参照信号」のRchのデータ(第1音響信号を含む第1チャネルのデータ)として出力する。
通信環境模擬処理部260は、入力部261,262に入力された遠端話者音響信号(第2音響信号),近端話者音響信号(第1音響信号)に前述した「通信環境模擬処理」を行い、それによって得られた模擬信号を出力部263から出力する。図5Aの例の場合、入力部261に入力された遠端話者音響信号は時間調整処理部266に入力され、入力部262に入力された近端話者音響信号は時間調整処理部264に入力される。時間調整処理部266は、当該遠端話者音響信号に遅延量B’の遅延を与え、それによって得られた信号を加算部267に送る(第1時間調整処理)。時間調整処理部264は、当該近端話者音響信号に遅延量C’の遅延を与え、遅延された近端話者音響信号を擬似エコー生成部265に送る(第2時間調整処理)。擬似エコー生成部265は、遅延された近端話者音響信号を用いて擬似エコーを作成し(例えば、近端話者音響信号(第1音響信号)を遠端話者側のスピーカーで再生して遠端話者側のマイクロホンで収音するときの空間伝達系および収音時の波形歪みを模擬した信号を擬似エコーとして生成する)、それによって得られた信号を加算部267に送る。加算部267は第1時間調整処理によって得られた信号と第2時間調整処理によって得られた信号を重畳する。擬似雑音源268が存在する場合には、加算部267はさらに擬似雑音源268から出力された擬似雑音信号を重畳してもよい。加算部267で得られた信号は出力部263に送られ、出力部263はそれを模擬信号として出力する。
なお、上述の遅延量B’は、例えば、第1実施形態の伝送遅延量B(遠端端末部120から近端端末部110までの伝送遅延量)を模擬するものである。一方、遅延量C’は、例えば、第1実施形態の遅延量C(信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間)を模擬するものである。そのため、B’<C’であることが望ましい(例えば、C’=2×B’)。しかしながら、これは本発明を限定するものではなく、B’=C’やB’>C’ または、 B’=C’=0であってもよい。
出力部263から出力された模擬信号は、出力部132および信号処理部270の入力部271に入力される。出力部132は、送られた模擬信号(評価対象音響信号T、第1比較用信号)を「劣化信号D」のLchのデータ(重畳信号を含む第2チャネルのデータ)として出力する。
信号処理部270は、入力部271に入力された模擬信号と入力部272に入力された近端話者音響信号を用い、当該模擬信号に信号処理を行って重畳信号を得る。図5Bの例の場合、近端話者音響信号を時間調整処理部276で遅延させた信号に適応フィルタ275を適用して得られた信号と模擬信号とを加算部274で重畳することでエコーキャンセル処理を行い、雑音除去部278および乗算部277を有する場合には、さらにノイズキャンセル処理を行って、それによって重畳信号を得る。なお、ノイズキャンセル処理の方法は、例えば、近端話者および遠端話者のどちらの音響信号も存在しない状態で、図5Aの擬似雑音源268が送出する擬似雑音の定常雑音レベルを雑音推定部278で推定し、加算部274からの出力信号に対して、推定した定常雑音レベルの分だけ振幅が抑圧されるように、乗算部277でゲイン値を乗じるものである(例えば、阪内澄宇,羽田陽一,田中雅史,佐々木潤子,片岡章俊,“雑音抑圧及びエコー抑圧機能を備えた音響エコーキャンセラ”,電子情報通信学会論文誌 Vol.J87-A, No.4, pp.448-457 (2004年4月)等参照)。得られた重畳信号は出力部273から出力される。出力部273は重畳信号(第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号)を出力部142に送る。出力部142は、送られた重畳信号(評価対象音響信号T)を「劣化信号D」のLchのデータ(重畳信号を含む第2チャネルのデータ)として出力する。
また、時間調整処理部208は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部152に送る。本形態の遅延量τ’は、例えば、上述の遅延量B’に対応する。例えば、遅延量B’または当該遅延量B’の近似値もしくは補正値(関数値)を遅延量τ’とする。あるいは、遅延量τ’が遅延量C’に対応してもよい。例えば、τ’がC’/2またはC’/2の関数値であってもよい。あるいは、遅延量τ’が遅延量B’および遅延量C’に対応してもよい。出力部152は、時間調整処理部208で遅延させた遠端話者音響信号(基準音響信号、第2音響信号に基づく第2比較用信号)を「参照信号」のLchのデータ(基準音響信号を表す第2チャネルのデータ)として出力する。
以上の処理によっても図3に例示するようなデータ構造を得ることができる。得られたデータ構造はデータ記憶部180に格納される。
[第2実施形態の変形例]
第2実施形態では、時間調整処理部208,264,266,276それぞれの遅延処理により、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似(図3の時間区間a−cと時間区間a−c’との一致または近似)させた。しかしながら、第1実施形態の変形例と同様、このような目的は他の手段によっても実現できる。例えば、遠端話者音響信号記憶部102から読み出された遠端話者音響信号を遅延させることなく「参照信号」のLchの基準音響信号として出力部152から出力し、近端話者音響信号記憶部101から読み出された近端話者音響信号を時間τ’だけ時間的に繰り上げたものを「参照信号」のRchの近端話者音響信号としてもよい。要は、
(1)「劣化信号D」のRchの近端話者音響信号(第1音響信号)が出力されてから、そのLchの評価対象音響信号T(重畳信号)に含まれる遠端話者音響信号成分(第1成分)が出力されるまでの時間と、「参照信号」のRchの近端話者音響信号(第1音響信号)が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分(第22成分)が出力されるまでの時間との一致または近似、および、
(2)「劣化信号D」のRchの近端話者音響信号(第1音響信号)が出力されてから、そのLchの評価対象音響信号Tに含まれる遠端話者音響信号成分(第21成分)が出力されるまでの時間と、「参照信号」のRchの近端話者音響信号(第1音響信号)が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分(第22成分)が出力されるまでの時間との一致または近似、
の少なくとも一方を行う1個以上の時間調整処理部を備えていればよい。その他、評価試験の時の処理により、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。要は、何らかの方法で、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。
[第3実施形態]
第3実施形態では、前述のように生成されたデータ構造を用いた品質評価方法を説明する。
<音響品質評価装置>
図6に例示するように、本実施形態の音響品質評価装置3は、データ記憶部180、集計結果記憶部305、再生制御部301、表示制御部302、集計部303、制御部304、音響出力処理部310−n、表示部320−n、および入力部330−nを有する。ただし、n=1,・・・,Nであり、Nは1以上の整数(例えば、Nは1以上4以下)である。音響品質評価装置3は、例えば、表示装置(ディスプレイ等)および入力装置(キーボードやマウス等)を備えた前述のような1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
<音響品質評価処理>
音響品質評価装置3は、前述したデータ構造を用い、制御部304の制御のもと、前述した拡声系通信システムでの会話MOS試験を模擬した評価試験を行う。
n=1,・・・,Nについて、音響出力処理部310−nの出力部311−nに両耳装着型音響再生装置340−nの一方のチャネルであるRch(第1チャネル:例えば右チャネル)が接続され、出力部312−nに両耳装着型音響再生装置340−nの他方のチャネルであるLch(第2チャネル:例えば左チャネル)が接続される。なお、両耳装着型音響再生装置340−nとは、一方のチャネルRchの音を出力する一方の耳専用のスピーカーと、他方のチャネルLchの音を出力する他方の耳専用のスピーカーと、を備えたステレオ再生可能な音響再生装置である。両耳装着型音響再生装置340−nの具体例は、ヘッドフォンやイヤホン等である。評価者350−nは、両耳装着型音響再生装置340−nを装着し、表示部320−nから出力される表示内容に従って、両耳装着型音響再生装置340−nから出力される音の主観評価を行い、評価結果を入力部330−nに入力する。なお、評価者350−nは、その利き耳(例えば、左耳)にチャネルLchの音を出力する側のスピーカーを装着し、利き耳ではない側の耳(例えば、右耳)にチャネルRchの音を出力する側のスピーカーを装着することが望ましい。以下、これらの処理を詳細に説明する。
再生制御部301は、制御部304の制御に従い(制御内容は後述)、データ記憶部180から前述したデータ構造から「参照信号」「劣化信号D」「劣化信号D」の何れかを抽出し、音響出力処理部310−n(ただし、n=1,・・・,N)に送る。この際に、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させるための処理がなされてもよい。音響出力処理部310−nは、送られた信号に応じて以下の処理を行う。なお、「参照信号」の基準音響信号が表す音を「基準音」とよび、「劣化信号D」の評価対象音響信号Tが表す音、および「劣化信号D」の評価対象音響信号Tが表す音を「評価音」とよぶことにする。
≪「参照信号」が送られた場合≫
「参照信号」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、「参照信号」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nの一方のチャネルであるRch(第1チャネル)に出力しつつ、「参照信号」の基準音響信号を出力部312−nから両耳装着型音響再生装置340−nの他方のチャネルであるLch(第2チャネル)に出力する(第1処理)。
≪「劣化信号D」が送られた場合≫
「劣化信号D」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、「劣化信号D」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nのRch(第1チャネル)に出力しつつ、「劣化信号D」の評価対象音響信号T(第1音響信号に由来する信号と第2音響信号とに基づく評価音を表す重畳信号)を出力部312−nから両耳装着型音響再生装置340−nのLch(第2チャネル)に出力する(第2処理)。
≪「劣化信号D」が送られた場合≫
「劣化信号D」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、「劣化信号D」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nのRch(第1チャネル)に出力しつつ、「劣化信号D」の評価対象音響信号T(第1音響信号に由来する信号と第2音響信号とに基づく評価音を表す重畳信号。ただし、この重畳信号は、第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する。)を出力部312−nから両耳装着型音響再生装置340−nのLch(第2チャネル)に出力する(第2処理)。
表示制御部302は、制御部304の制御に従い(制御内容は後述)、表示部320−n(ただし、n=1,・・・,N)に表示情報を送る。表示部320−nは、送られた表示情報に従い、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての2段階以上の度合いと、の組み合わせからなる3段階以上のカテゴリーを含む評価カテゴリーを表示する。評価者350−nは、この表示に従って両耳装着型音響再生装置340−nから出力された音を主観評価する。ここで「基準音」は、遠端話者から理想的な状態で受信した音響信号に相当する。近端話者からの直接音に相当する「近端話者音」と合わせて提示することで、拡声系通信システムの理想的な状態を模擬することができる。「近端話者音」を「基準音響信号」と同時に提示することで、近端話者の音声の回り込み(音響エコー)と、遠端話者の音声を区別しやすくなる。「評価音」を常に「基準音」と比較することで、評価対象とする通信システムがどれだけ理想的な状態に近いか、または異なる状態であるか、を客観的に、かつ主観的に評価することができる。「評価音」のみを提示して評価すると、遠端話者の言いよどみや、遠端話者の周囲騒音などが劣化要因として判断され、低く評価される可能性が高い。常に「基準音」と比較することで、通信システム以外の劣化要因が評価対象から排除され、ばらつきの少ない、的確な評価値を得ることができる。また、この評価カテゴリーは、基準音に対する評価音の劣化のみならず、評価音の聞き取りにくさ(聞き取り易さ)に対する評価基準を定めたものである。このように、評価音の基準音からの劣化度と聞き取りやすさの度合いを組み合わせた評価カテゴリーを表示することで、従来のDCR(劣化カテゴリ評価)のように劣化のみに着目した評価カテゴリーを表示する場合に比べ、どのような基準で評価を行えばよいかが明確になり、複数の要因が複雑に絡み合うような環境でも評価ばらつきを小さくすることができる。また、評価音の聞き取り「にくさ」についての評価基準(否定的な評価基準)を表示することで、評価音の聞き取り「易さ」についての評価基準(肯定的な評価基準)を表示する場合に比べて評価者350−nの選択が厳密になり、評価精度が向上する。これは生理学上の自然法則に基づく。
好ましくは、評価カテゴリーは、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての3段階以上の度合いと、の組み合わせからなる4段階以上のカテゴリーを含む。評価音の聞き取りにくさについての3段階以上の度合いについての評価基準を定めることで、評価精度をより向上させることができる。特に、評価カテゴリーは、基準音と評価音との違いが分からないことを表す1段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての4段階の度合いとの組み合わせからなる4段階のカテゴリーとを含むことが望ましい。以下に評価カテゴリーの具体例を示す。
なお、「基準音と違いが分からない」「違いはあるが」「違いがあり」は「基準音と評価音との違いが分かるか否か」を表し、「聞き取りには問題がない」「少し聞き取りにくい」「聞き取りにくい」「非常に聞き取りにくい」は「評価音の聞き取りにくさについての度合い」を表す。この例の各評価カテゴリーには1から5の評価を表す値が対応付けられており、この値が大きいほど品質が高いことを表す。ここでは、「基準音」が理想的な状態であるとしてカテゴリーを設定したが、評価対象とする通信システムのノイズキャンセラ等の効果によって、「評価音」が「基準音」よりも評価が高くなる状態も考えられる。この場合は、さらに上位のカテゴリーとして「違いはあるが、聞き取りやすい」を含めてもよい。
以下に従来のDCR(劣化カテゴリ評価)で用いられていた劣化のみに着目した評価カテゴリーを示す。表1の評価カテゴリーと比べて主観的・内面的な表現が多いことが分かる。
さらに、表示制御部302が出力する表示情報が、評価音の聞き取り易さの評価を指示するための情報を含み、表示部320−nが、さらに評価音の聞き取り易さの評価を指示するための表示(「何を評価するか」を表す表示)を行ってもよい。例えば、表示部320−nは「評価音の『女声(左側)』の聞き取り易さ、を評価してください」と表示してもよい。この例において左側とは「参照信号」「劣化信号D」「劣化信号D2」におけるLch(第2チャネル)側のスピーカーの出力を指している。上述のように、評価カテゴリーは、基準音と評価音との違いが分かるか否かと評価音の聞き取りにくさについての度合いとの組み合わせからなる。生理学上、人間は違いの有無には敏感であり、特に注意をしていなくても基準音と評価音との違いの有無を評価することができる。一方、聞き取り易さについては注意をしていないと適切な評価を行うことができない。このような自然法則に基づき、表示部320−nが、さらに評価音の聞き取り易さの評価を指示するための表示を行うことで、評価精度を向上できたり、評価ばらつきを低減できたりする。なお、何を評価するかを表す表示として「評価音の聞き取り『にくさ』の評価を指示するための表示」を行った場合、生理学上、評価者350−nは詳細な点に注目しすぎてしまい、「聞き取り易さ」への影響が小さな劣化をも評価してしまう傾向がある。何を評価するかを表す表示として「評価音の聞き取り『易さ』の評価を指示するための表示」することで、評価者350−nの評価が適切になり、評価精度を向上できたり、評価ばらつきを低減できたりする。
さらに、表示制御部302が出力する表示情報が、何に着目するかを表示するための情報を含み、表示部320−nが「何に着目するか」を表示してもよい。例えば、表示部320−nは、上述の「第1処理」の際に基準音に着目する旨の指示を表す表示を行い、「第2処理」の際に評価音に着目する旨の指示を表す表示を行ってもよい。例えば、表示部320−nは、「第1処理」の際に「基準音(1):『女声(左側)』に着目してください」との表示を行い、「劣化信号D」を出力する「第2処理」の際に「評価音(1):『女声(左側)』に着目してください」との表示を行い、「劣化信号D」を出力する「第2処理」の際に「評価音(2):『女声(左側)』に着目してください」との表示を行ってもよい。これにより、評価対象を明らかにし、評価者350−nを評価対象音響信号(遠端話者音響信号側)に着目させるとともに、評価者350−nを近端話者音響信号側に着目させないようにすることができる。また、音響出力処理部310−nから出力される信号に応じて、表示部320−nから表示される「何に着目するか」「何を評価するか」の表示が変わることで、評価対象音響信号の発生タイミングを視覚的に認識させることができる。
主観評価を行った評価者350−nは、評価カテゴリーから選択したカテゴリーを表す情報(評価結果を表す情報)である評価値I−nを入力部330−nに入力する。図7に表示部320−nが表示する表示画面321を例示する。この表示画面321は、「何に着目するか」を表示する着目内容提示部3211、「何を評価するか」を表示する評価指示提示部3212、評価カテゴリーを表示する評価カテゴリー提示部3213、評価を表す値「1」〜「5」(評価値I−n)の入力のためにタッチまたはクリックされるアイコン3214〜3218、入力確定のためにタッチまたはクリックされるアイコン3219を含む。評価者350−nは、着目内容提示部3211、評価指示提示部3212、評価カテゴリー提示部3213の表示に従い、両耳装着型音響再生装置340−nから出力された音を主観評価し、評価に対応するアイコン3214〜3218の何れかをタッチまたはクリックし、確定のためのアイコン3219をタッチまたはクリックする。アイコン3214〜3219がアクティブでアイコン3219がタッチまたはクリックされるまでは、評価者350−nはアイコン3214〜3218を何度も選び直すタッチまたはクリック操作が可能である。これにより、評価カテゴリーから選択されたカテゴリーを表す評価値I−nが入力部330−nに入力される。なお、評価条件を同一とするため、上述の評価試験は、すべての評価者350−n(ただし、n=1,・・・,N)によって同時に実行されることが望ましい。一定時間以上評価が確定しない評価者がいる場合は、その評価者に対して確定を促す画面表示と、他の評価者に対しては待たせる画面表示を行ってもよい。
入力部330−nに入力された評価値I−nは集計部303に送られる。集計部303は、評価値I−nを集計し、それによって得られた集計結果を集計結果記憶部305に格納する。例えば、集計結果は、評価者350−nを表すID、評価試験に用いられた「劣化信号D」等の音響信号やその条件とともに格納される。評価値I−nの集計結果は、評価値I−nの集合であってもよいし、評価試験に用いられた音響信号ごとでの最大値、最小値、平均値、分散値等であってもよい。評価内容に疑いがある評価者350−nに対応する評価値I−nを除外してから求めた最大値、最小値、平均値、分散値等を集計結果としてもよい。その他、他の処理装置でさらに詳しい分析が行われてもよい。
≪制御部304の制御内容≫
次に、図8から図12を用い、制御部304の制御内容を例示する。これらの図の横軸は時間軸を表し、紙面の右に向かうほど後の時間を表す。これらの図の「Lch」の行は、両耳装着型音響再生装置340−nのLch側のスピーカーから出力させる音を表し、「Rch」の行は、両耳装着型音響再生装置340−nのRch側のスピーカーから出力させる音を表す。これらの図の「3211」の列は、着目内容提示部3211の提示内容(何に着目するか)を表し、「3212」の列は、評価指示提示部3212の提示内容(何を評価するか)を表し、「3213」の列は、評価カテゴリー提示部3213の提示内容(評価カテゴリー)を表す。
≪図8の例≫
図8の例では、まず、再生制御部301がデータ記憶部180から「参照信号」を読み込み、それを音響出力処理部310−n(ただし、n=1,・・・,N)に送る。音響出力処理部310−nは、出力部312−nから「参照信号」の基準音響信号を出力し、出力部311−nから「参照信号」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置340−nのLchからは基準音響信号が表す「基準音」が出力され、Rchからは近端話者からの直接音に相当する「近端話者音」が出力される。この際、表示制御部302は、着目内容Fおよび評価カテゴリーを表す表示情報を表示部320−nに送る。なお、着目内容Fは、基準音(Lch)に着目する旨の指示を表す内容(例えば「基準音(1):「女声(左側)」に着目してください」)を意味する。また、評価カテゴリーは、前述の「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての2段階以上の度合いと、の組み合わせからなる3段階以上のカテゴリーを含む評価カテゴリー」である。表示部320−nは、着目内容Fを着目内容提示部3211に提示し、評価カテゴリーを評価カテゴリー提示部3213に提示する(ステップS1)。
次に、再生制御部301がデータ記憶部180から「劣化信号D」を読み込み、それを音響出力処理部310−n(ただし、n=1,・・・,N)に送る。音響出力処理部310−nは、出力部312−nから「劣化信号D」の評価対象音響信号Tを出力し、出力部311−nから「劣化信号D」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置340−nのLchからは「劣化信号D」の評価対象音響信号Tが表す「評価音」が出力され、Rchからは近端話者音響信号が表す「近端話者音」が出力される。この際、表示制御部302は、着目内容F、評価指示S、および、評価カテゴリーを表す表示情報を表示部320−nに送る。なお、着目内容Fは、評価音(Lch)に着目する旨の指示を表す内容(例えば「評価音(1):『女声(左側)』に着目してください」)を意味する。評価指示Sは、評価音(Lch)の聞き取り易さの評価の指示(例えば「評価音の『女声(左側)』の聞き取り易さ、を評価してください」)を意味する。表示部320−nは、着目内容Fを着目内容提示部3211に提示し、評価指示Sを評価指示提示部3212に提示し、評価カテゴリーを評価カテゴリー提示部3213に提示する(ステップS2)。
次に、ステップS1をもう一度実行し(ステップS3)、さらにステップS2をもう一度実行する(ステップS4)。ステップS1、ステップS2の繰り返しを3回以上としてもよい。
その後、アイコン3214〜3219をアクティブにして、入力部330−nからの評価値I−nおよび確定の旨の入力を受け付ける(ステップS5)。
さらに、ステップS1〜S5の「劣化信号D」を「劣化信号D」に置換し、「評価対象音響信号T」を「評価対象音響信号T」に置換した処理が実行されてもよい。また、評価カテゴリー提示部3213の評価カテゴリーの提示はステップS1〜S5を通して継続的に行われてもよいし、各ステップが終了するたびに評価カテゴリーの提示が消えてもよい。
≪図9の例≫
図9の例では、「基準音」、評価対象音響信号Tが表す「評価音」、および評価対象音響信号Tが表す「評価音」のうち、対比を行う一組の音をランダムに選択し、選択した音を順番に出力する。
以下に処理の具体例を示す。
まず再生制御部301は、「参照信号」「劣化信号D」「劣化信号D」から、対比する組をランダムに選択する。対比する組の例は、「参照信号」と「劣化信号D」とからなる組、「参照信号」と「劣化信号D」とからなる組、「劣化信号D」と「劣化信号D」とからなる組である。対比する組を構成する信号のうち、先に出力する信号を「第1出力信号」とよび、後に出力する信号を「第2出力信号」とよぶ。対比する組を構成する信号のうち何れを先に出力してもかまわない。例えば、「参照信号」と「劣化信号D」とからなる組を対比する場合、「参照信号」を「第1出力信号」とし、「劣化信号D」を「第2出力信号」としてもよいし、「参照信号」を「第2出力信号」とし、「劣化信号D」を「第1出力信号」としてもよい。
次に、Lchから「第1出力信号」に対応する「基準音または評価音」が出力され、Rchから「第1出力信号」に対応する「近端話者音」が出力される(ステップS21)。「第1出力信号」が「参照信号」である場合のステップS21の処理は、前述のステップS1と同じである。「第1出力信号」が「劣化信号D」である場合のステップS21の処理は、評価指示Sを評価指示提示部3212に提示しない以外、前述のステップS2と同じである。「第1出力信号」が「劣化信号D」である場合のステップS21の処理は、前述のステップS2の処理において「劣化信号D」を「劣化信号D」に置換し、「評価対象音響信号T」を「評価対象音響信号T」に置換し、評価指示Sを評価指示提示部3212に提示しないこととした処理である。
次にLchから「第2出力信号」に対応する「基準音または評価音」が出力され、Rchから「第2出力信号」に対応する「近端話者音」が出力される(ステップS22)。「第2出力信号」が「参照信号」である場合のステップS22の処理は、前述のステップS1に加え、評価指示Sを評価指示提示部3212に提示する処理を行うものである。「第2出力信号」が「劣化信号D」である場合のステップS21の処理は、前述のステップS2と同じである。「第2出力信号」が「劣化信号D」である場合のステップS21の処理は、前述のステップS2の処理において「劣化信号D」を「劣化信号D」に置換し、「評価対象音響信号T」を「評価対象音響信号T」に置換した処理である。
最後に、評価値の入力とその確定が行われる(ステップS5)。
その他、ステップS21,22の変形例として、Lchから出力されている音が「基準音」であるか「評価音」であるかを提示しないこととしてもよい。すなわち、着目内容Fおよび着目内容Fに代えて、Lchに着目する旨の指示を表す内容(例えば「『女声(左側)』に着目してください」)を提示してもよい。この場合、評価者350−nは提示されている音が「基準音」であるか「評価音」であるかを知らされることなく、主観評価を行うことになる。
≪図10の例≫
図10の例では、1回目に「基準音」が出力され、2回目および3回目にそれぞれ「隠された基準音」または評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力される。ここで、2回目に「隠された基準音」が出力された場合、3回目には評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力される(パターン1)。一方、2回目に評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力された場合、3回目に「隠された基準音」が出力される(パターン2)。なお、「隠された基準音」とは、「基準音」であることを示さずに出力する「基準音」を意味する。また、パターン1とするかパターン2とするかはランダムに定められる。
以下に処理の具体例を示す。
まず、Lchから「参照信号」に対応する「基準音」が出力され、Rchから「参照信号」に対応する「近端話者音」が出力される(ステップS31)。ステップS31の処理は、前述のステップS21と同じである。
次に、再生制御部301は、パターン1とするかパターン2とするかをランダムに選択する。
パターン1が選択された場合、まず、Lchから「参照信号」に対応する「隠された基準音」が出力され、Rchから「参照信号」に対応する「近端話者音」が出力され(ステップS32)、次に、Lchから「劣化信号D」の評価対象音響信号Tが表す「評価音」もしくは「劣化信号D」の評価対象音響信号Tが表す「評価音」が出力され、Rchから「劣化信号D」もしくは「劣化信号D」に対応する「近端話者音」が出力される(ステップS33)。
一方、パターン2が選択された場合、Lchから評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力され、Rchから「劣化信号D」もしくは「劣化信号D」に対応する「近端話者音」が出力され(ステップS32)、次に、Lchから「参照信号」に対応する「隠された基準音」が出力され、Rchから「参照信号」に対応する「近端話者音」が出力される(ステップS33)。
Lchから「参照信号」に対応する「隠された基準音」を出力し、Rchから「参照信号」に対応する「近端話者音」を出力する処理は、着目内容Fに代えて着目内容Fを着目内容提示部3211に提示し、評価指示Sを評価指示提示部3212に提示する以外は、前述のステップS1と同じである。また、Lchから評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」を出力し、Rchから「劣化信号D」もしくは「劣化信号D」に対応する「近端話者音」を出力する処理は、前述のステップS2の処理、またはステップS2の処理において「劣化信号D」を「劣化信号D」に置換し、「評価対象音響信号T」を「評価対象音響信号T」に置換した処理と同じである。
最後に、評価値の入力とその確定が行われる(ステップS5)。ただし、評価者350−nは、ステップS32,S33で出力された音のうち、どちらが評価音かを判断し、評価音と判断した音に対してのみ評価値を入力する。評価音と判断されなかった音については自働的に「隠された基準音」と判断したとみなされ、隠された基準音に対する評価値「5」が付与される。また、評価者350−nが入力部330−nに指示入力を行うことにより、ステップS5の前に、ステップS31〜S33を所望の順序で何度でも実行できる構成であってもよい。
≪図11の例≫
図11の例でも、1回目に「基準音」が出力され、2回目および3回目にそれぞれ、ランダムに選択されたパターン1またはパターン2に従い、「隠された基準音」または評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力される。ただし、2回目および3回目の出力時にそれぞれに対する評価値が入力され(ステップS132,S133)、最後に評価値の確定入力のみがなされる(ステップS105)。なお、評価者350−nは、ステップS132,S133で出力された音のうち、「隠された基準音」と判断したほうに評価値「5」を入力し、「評価音」と判断したほうに自らの評価値を入力する。その他の詳細は、図10の例と同じである。
≪図12の例≫
図12では、1回目に「基準音」が出力され(ステップS41)、2回目からx+1回目(xは3以上の整数(例えばxは14以下))に「評価音1」から「評価音x」が出力され(ステップS42−1〜S42−x)、評価値の入力とその確定が行われる(ステップS5)。なお、「評価音1」から「評価音x」は、評価対象音響信号Tが表す「評価音」および評価対象音響信号Tが表す「評価音」の少なくとも一方、1個の「隠された基準音」、1個以上の「アンカー音」を含む。なお、「アンカー音」とは悪い音響品質の基準となる音を表す。複数のアンカー音を含む場合は、段階的に悪くなる音響品質の基準を用いてよい。また、ステップS5では、ステップS42−1〜S42−xで出力された音それぞれの評価値が入力される。また、「評価音1」から「評価音x」の出力順序はランダムに定められる。ただし、評価者350−nが入力部330−nに指示入力を行うことにより、ステップS5の前に、ステップS42−1〜S42−xを所望の順序で何度でも実行できる構成であってもよい。その他は、図10の例と同様である。
[第4実施形態]
本発明者は、第3実施形態で得られる評価値(基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての5段階評価に基づくMOS値(表1に例示))と、PESQ(これらの基準音響信号および評価対象音響信号に対応するPESQ値)との関係が線形関係に近似できることを見出した。このようなことは従来知られていない(例えば、非特許文献1の「付図V−1/JJ−201.01<PESQ値と受聴MOS値の関係の定式化>」等参照)。本実施形態では、この知見に基づき、線形演算によってPESQから煩雑な主観評価や計算量の多い非線形演算を行うことなく、演算量の少ない線形演算でMOS値を推定できる。以下、詳細に説明する。
図14は、第3実施形態で例示したように「参照信号」と「劣化信号」とを用いて評価試験を行って得られたMOS値(DMOS(Degradation MOS)値)と、それらに対応する「基準音響信号」と「評価対象音響信号」とから得られたPESQ値との関係を表したグラフである。縦軸はMOS値(DMOS値)を表し、横軸はPESQ値を表す。小さなダイヤ形のマークは主観評価試験による測定値を表し、破線直線上の大きな正方形のマークはそれらの線形関係に基づいた推定値を表す。この図に示すように、第3実施形態で得られたMOS値とそれに対応するPESQ値との関係は線形関係で近似できる。そのため、用意しておいた基準音響信号と評価対象音響信号とからなるリファレンス信号を用い、この線形関係を表す線形関数(一次関数)等を定式化しておけば、新たな基準音響信号と評価対象音響信号とからPESQ値を算出し、そのPESQ値をこの線形関数に代入してMOS値を算出できる。
<構成>
図13に例示するように、本実施形態の音響品質評価装置4は、PESQ算出部41および線形変換部42を有する。音響品質評価装置4は、例えば、前述のような1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
<前処理>
音響品質評価処理の前処理として、基準音響信号と当該基準音響信号を含む信号に基づく評価対象音響信号との組をリファレンス信号として用い、基準音響信号(第2の基準音響信号)と当該基準音響信号を含む信号に基づく評価対象音響信号(第2の評価対象音響信号)とに対応するPESQ値(第2のPESQ値)と、当該基準音響信号に対応する基準音と当該評価対象音響信号に対応する評価音との違いについての5段階評価に基づくMOS値(第2のMOS値)と、の線形関係を求めておく。このとき基準音響信号と当該基準音響信号を含む信号に基づく評価対象音響信号の組については様々な組み合わせを行い、また評価者についても複数人で主観評価試験を実施し、リファレンス信号への依存性や評価者個人差への依存性を軽減する形で、線形関係を統計的に解析する。この解析結果として得た情報が、図14に示されるPESQ値(第2のPESQ値)とMOS値(第2のMOS値)との線形関係である。このような線形関係を表す情報は線形変換部42に設定される。「線形関係を表す情報」の例は、この線形関係を表す線形関数Fや、この線形関数Fを特定するパラメータ等である。線形関数Fの例は、PESQ値を入力としてそれに対応するMOS値を出力する関数であり、例えば、MOS値=α×PESQ値+βである。なお、αおよびβはパラメータである。
なお、基準音響信号は、第1〜3実施形態で例示したような遠端話者音響信号であってもよいし、その他の音声信号であってもよいし、音楽や背景音等のその他の音響信号であってもよい。評価対象音響信号は、基準音響信号を含む信号に基づくものであればどのようなものでもよい。評価対象音響信号の例は、基準音響信号を含む信号の劣化信号であり、例えば、第1〜3実施形態で例示したような基準音響信号にエコー成分およびノイズ成分の少なくとも一方が重畳した信号である。
PESQ算出部41におけるPESQ値の算出方法は周知であり、例えば、「ITU-T Recommendation P.862」等に詳細に記載されている。「ITU-T Recommendation P.862」の記載における「original X(t)」が本発明の基準音響信号に、「degraded signal Y(t)」が本発明の評価対象音響信号に、それぞれ該当する。なお、通常のPESQ値の算出処理は、基準音響信号と評価対象音響信号との時間ずれを補正する処理が含まれる。
基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての5段階評価に基づくMOS値は、例えば、受聴された基準音と評価音との違いについて5段階評価(主観評価)の平均値である。5段階評価自体は5段階の評価カテゴリーを表す5つの値の何れかであるが、その平均値であるMOS値は1以上5以下の範囲に属する何れかの値である。「基準音と評価音との違いについて5段階評価」の内容に限定はない。このような5段階評価の例は、「基準音と評価音との違いが分かるか否かと、評価音の聞き取り易さおよび/または聞き取りにくさについての度合いと、の組み合わせからなる評価カテゴリーについての5段階評価」である。特に、このような5段階評価が「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての4段階の度合いと、の組み合わせからなる評価カテゴリーについての5段階評価」である場合、より誤差の小さな線形関係が成り立つ。より好ましくは、このような5段階評価が、「基準音と評価音との違いが分からないことを表す1段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての4段階の度合いとの組み合わせからなる4段階のカテゴリーと、を含む評価カテゴリーについての5段階評価」であることが望ましい。なお、「基準音と評価音との違いが分かるか否か」および「評価音の聞き取りにくさについての度合い」の具体例は、第3実施形態に例示した通りである。「評価音の聞き取り易さについての度合い」の具体例は、「聞き取りには問題がない」「少し聞き取り易い」「聞き取り易い」「非常に聞き取り易い」である。また、このような5段階評価に基づくMOS値は、「評価音の聞き取り易さの評価」を指示して得られた5段階評価に基づくものであることが望ましい。例えば、第3実施形態で例示したように、主観評価試験時に「評価音の『女声(左側)』の聞き取り易さ、を評価してください」等の内容が評価者に提示されて得られた5段階評価に基づくMOS値であることが望ましい。
<音響品質評価処理>
以上の前提のもと、以下のように音響品質評価処理が行われる。まず、PESQ算出部41は、基準音響信号(第1の基準音響信号)と当該基準音響信号を含む信号に基づく評価対象音響信号(第1の評価対象音響信号)とを入力とし、当該基準音響信号と当該評価対象音響信号とに対するPESQ値(第1のPESQ値)を得て出力する。このPESQ値は線形変換部42に入力される。線形変換部42は、上述した線形関係に基づいて、入力されたPESQ値を線形変換してMOSの推定値(第1のMOS値)を得て出力する。例えば、線形変換部42は、PESQ値を前述の線形関数Fに代入して得られた結果をMOSの推定値として出力する。
[第4実施形態の変形例1]
図15に例示するように、この変形例の音響品質評価装置は、PESQ算出部41、線形変換部42、遠端話者音響信号記憶部102、およびデータ記憶部180を有する。PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出し、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号Tを読み出す(図3参照)。PESQ算出部41は、これらに対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。なお、PESQ算出部41が、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出すことに代えて、データ記憶部180から基準音響信号を読み出してもよい。
[第4実施形態の変形例2]
第4実施形態の変形例1の評価対象音響信号Tを評価対象音響信号Tに置換した形態であってもよい。すなわち、PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出し、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号Tを読み出す。PESQ算出部41は、これらに対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。
[第4実施形態の変形例3]
図15に例示するように、この変形例の音響品質評価装置は、PESQ算出部41、線形変換部42、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、データ記憶部180、および信号処理部621を含む。なお、信号処理部621は、何らかの「信号処理」を行う処理部である。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。その他、「信号処理」が、エコーキャンセル処理もノイズキャンセル処理も含まない処理であってもよい。PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出す。信号処理部621は、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号Tを読み出し、近端話者音響信号記憶部101から評価対象音響信号Tに対応する近端話者音響信号を読み出す(図3参照)。信号処理部621は、これらを用いて評価対象音響信号Tに信号処理を行い、それによって得られた信号を評価対象信号としてPESQ算出部41に送る。PESQ算出部41は、入力された信号に対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。
[その他の変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、参照信号や劣化信号が音声以外の音響信号(音楽や背景音等)に基づいて得られたものであってもよい。また、参照信号や劣化信号が時系列信号でなくてもよい。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
1,2 データ生成装置
3〜6 音響品質評価装置

Claims (7)

  1. 第1の基準音響信号と前記第1の基準音響信号を含む信号に基づく第1の評価対象音響信号とに対する第1のPESQ値を得るPESQ算出部と、
    第2の基準音響信号と前記第2基準音響信号を含む信号に基づく第2の評価対象音響信号とに対応する第2のPESQ値と、前記第2の基準音響信号に対応する基準音と前記第2の評価対象音響信号に対応する評価音との違いについての5段階評価に基づく第2のMOS値と、の線形関係に基づいて、前記第1のPESQ値を線形変換して第1のMOS値を得る線形変換部と、
    を有する音響品質評価装置。
  2. 請求項1の音響品質評価装置であって、
    前記第2のMOS値は、前記基準音と前記評価音との違いが分かるか否かと、前記評価音の聞き取り易さおよび/または聞き取りにくさについての度合いと、の組み合わせからなる評価カテゴリーについての5段階評価に基づく、音響品質評価装置。
  3. 請求項1または2の音響品質評価装置であって、
    前記第2のMOS値は、前記基準音と前記評価音との違いが分かるか否かと、前記評価音の聞き取りにくさについての4段階の度合いと、の組み合わせからなる評価カテゴリーについての5段階評価に基づく、音響品質評価装置。
  4. 請求項1から3の何れかの音響品質評価装置であって、
    前記第2のMOS値は、前記基準音と前記評価音との違いが分からないことを表す1段階のカテゴリーと、前記基準音と前記評価音との違いが分かる旨と前記評価音の聞き取りにくさについての4段階の度合いとの組み合わせからなる4段階のカテゴリーと、を含む評価カテゴリーについての5段階評価に基づく、音響品質評価装置。
  5. 請求項1から4の何れかの音響品質評価装置であって、
    前記第2のMOS値は、前記評価音の聞き取り易さの評価を指示して得られた5段階評価に基づく、音響品質評価装置。
  6. 第1の基準音響信号と前記第1の基準音響信号を含む信号に基づく第1の評価対象音響信号とに対する第1のPESQ値を得るPESQ算出ステップと、
    第2の基準音響信号と前記第2基準音響信号を含む信号に基づく第2の評価対象音響信号とに対応する第2のPESQ値と、前記第2の基準音響信号に対応する基準音と前記第2の評価対象音響信号に対応する評価音との違いについての5段階評価に基づく第2のMOS値と、の線形関係に基づいて、前記第1のPESQ値を線形変換して第1のMOS値を得る線形変換ステップと、
    を有する音響品質評価方法。
  7. 請求項1から5の何れかの音響品質評価装置としてコンピュータを機能させるためのプログラム。
JP2014170109A 2014-08-25 2014-08-25 音響品質評価装置、音響品質評価方法、およびプログラム Active JP6163468B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014170109A JP6163468B2 (ja) 2014-08-25 2014-08-25 音響品質評価装置、音響品質評価方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014170109A JP6163468B2 (ja) 2014-08-25 2014-08-25 音響品質評価装置、音響品質評価方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016046695A true JP2016046695A (ja) 2016-04-04
JP6163468B2 JP6163468B2 (ja) 2017-07-12

Family

ID=55636861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014170109A Active JP6163468B2 (ja) 2014-08-25 2014-08-25 音響品質評価装置、音響品質評価方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6163468B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328167A (zh) * 2016-08-16 2017-01-11 成都市和平科技有限责任公司 一种智能语音识别机器人及控制系统
JP2018063135A (ja) * 2016-10-12 2018-04-19 日本電信電話株式会社 評価試験計画装置、主観評価装置、それらの方法、およびプログラム
JP2018064162A (ja) * 2016-10-12 2018-04-19 日本電信電話株式会社 音響品質評価装置、音響品質評価方法、およびプログラム
JP2018064161A (ja) * 2016-10-12 2018-04-19 日本電信電話株式会社 音響品質評価装置、音響品質評価方法、データ構造、およびプログラム
CN108305618A (zh) * 2018-01-17 2018-07-20 广东小天才科技有限公司 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN111614842A (zh) * 2020-05-14 2020-09-01 杭州当虹科技股份有限公司 一种基于pesq的客观语音通讯质量评价方法
JPWO2020240880A1 (ja) * 2019-05-30 2020-12-03
CN112185421A (zh) * 2020-09-29 2021-01-05 北京达佳互联信息技术有限公司 音质检测方法、装置、电子设备及存储介质
CN113096681A (zh) * 2021-04-08 2021-07-09 海信视像科技股份有限公司 显示设备、多声道回声消除电路及多声道回声消除方法
WO2021152759A1 (ja) * 2020-01-30 2021-08-05 日本電信電話株式会社 評価方法、評価装置、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003234779A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 品質推定方法および装置
JP2006345149A (ja) * 2005-06-08 2006-12-21 Kddi Corp 通話品質の客観評価サーバ、方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003234779A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 品質推定方法および装置
JP2006345149A (ja) * 2005-06-08 2006-12-21 Kddi Corp 通話品質の客観評価サーバ、方法及びプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328167A (zh) * 2016-08-16 2017-01-11 成都市和平科技有限责任公司 一种智能语音识别机器人及控制系统
JP2018063135A (ja) * 2016-10-12 2018-04-19 日本電信電話株式会社 評価試験計画装置、主観評価装置、それらの方法、およびプログラム
JP2018064162A (ja) * 2016-10-12 2018-04-19 日本電信電話株式会社 音響品質評価装置、音響品質評価方法、およびプログラム
JP2018064161A (ja) * 2016-10-12 2018-04-19 日本電信電話株式会社 音響品質評価装置、音響品質評価方法、データ構造、およびプログラム
CN108305618A (zh) * 2018-01-17 2018-07-20 广东小天才科技有限公司 语音获取及搜索方法、智能笔、搜索终端及存储介质
JPWO2020240880A1 (ja) * 2019-05-30 2020-12-03
WO2020240880A1 (ja) * 2019-05-30 2020-12-03 日本電信電話株式会社 評価装置、評価方法、およびプログラム
JP7238978B2 (ja) 2019-05-30 2023-03-14 日本電信電話株式会社 評価装置、評価方法、およびプログラム
WO2021152759A1 (ja) * 2020-01-30 2021-08-05 日本電信電話株式会社 評価方法、評価装置、およびプログラム
JPWO2021152759A1 (ja) * 2020-01-30 2021-08-05
CN111614842A (zh) * 2020-05-14 2020-09-01 杭州当虹科技股份有限公司 一种基于pesq的客观语音通讯质量评价方法
CN111614842B (zh) * 2020-05-14 2021-10-26 杭州当虹科技股份有限公司 一种基于pesq的客观语音通讯质量评价方法
CN112185421A (zh) * 2020-09-29 2021-01-05 北京达佳互联信息技术有限公司 音质检测方法、装置、电子设备及存储介质
CN112185421B (zh) * 2020-09-29 2023-11-21 北京达佳互联信息技术有限公司 音质检测方法、装置、电子设备及存储介质
CN113096681A (zh) * 2021-04-08 2021-07-09 海信视像科技股份有限公司 显示设备、多声道回声消除电路及多声道回声消除方法

Also Published As

Publication number Publication date
JP6163468B2 (ja) 2017-07-12

Similar Documents

Publication Publication Date Title
JP6163468B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
EP1913708B1 (en) Determination of audio device quality
CN112071328B (zh) 音频降噪
JP6703525B2 (ja) 音源を強調するための方法及び機器
GB2495472B (en) Processing audio signals
US8693713B2 (en) Virtual audio environment for multidimensional conferencing
JP6571623B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
US10192566B1 (en) Noise reduction in an audio system
EP3979609B1 (en) Evaluation device, evaluation method, and program
JP7310939B2 (ja) 評価方法、評価装置、およびプログラム
JP6363429B2 (ja) データ構造、データ生成装置、データ生成方法、およびプログラム
JP6126053B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
Holub et al. Delay effect on conversational quality in telecommunication networks: Do we mind?
JP6594840B2 (ja) 音響品質評価装置、音響品質評価方法、データ構造、およびプログラム
US11924368B2 (en) Data correction apparatus, data correction method, and program
JP7184173B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
JP2012094945A (ja) 音声通信システム、及び、音声通信装置
Rund et al. Objective quality assessment for the acoustic zoom
Ghimire Speech intelligibility measurement on the basis of ITU-T Recommendation P. 863
JP5698110B2 (ja) マルチチャネルエコー消去方法、マルチチャネルエコー消去装置、およびプログラム
JP2023047178A (ja) 情報処理装置及び情報処理プログラム
Kim et al. Investigation into spatial audio quality of experience in the presence of accompanying video cues with spatial mismatch
Chon et al. Sound quality assessment of earphone: A subjective assessment procedure and an objective prediction model
Gierlich et al. Wideband Hands-Free in Cars–New Challenges for System Design and Testing
Albrecht et al. Continuous Mobile Communication with Acoustic Co-Location Detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170619

R150 Certificate of patent or registration of utility model

Ref document number: 6163468

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150