[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4552533B2 - 音響信号処理装置及び音声度合算出方法 - Google Patents

音響信号処理装置及び音声度合算出方法 Download PDF

Info

Publication number
JP4552533B2
JP4552533B2 JP2004194646A JP2004194646A JP4552533B2 JP 4552533 B2 JP4552533 B2 JP 4552533B2 JP 2004194646 A JP2004194646 A JP 2004194646A JP 2004194646 A JP2004194646 A JP 2004194646A JP 4552533 B2 JP4552533 B2 JP 4552533B2
Authority
JP
Japan
Prior art keywords
decrease
increase
wavelength
acoustic signal
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004194646A
Other languages
English (en)
Other versions
JP2006017940A (ja
Inventor
哲二郎 近藤
淳一 嶋
洋 一木
哲彦 有光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004194646A priority Critical patent/JP4552533B2/ja
Priority to EP05013599A priority patent/EP1612773B1/en
Priority to DE602005027521T priority patent/DE602005027521D1/de
Priority to CNB200510081836XA priority patent/CN100479034C/zh
Priority to US11/169,667 priority patent/US7555429B2/en
Priority to KR1020050057785A priority patent/KR20060048769A/ko
Publication of JP2006017940A publication Critical patent/JP2006017940A/ja
Application granted granted Critical
Publication of JP4552533B2 publication Critical patent/JP4552533B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

本発明は、環境雑音や背景雑音等の環境音と音声とを含む入力音響信号から音声を分離したり環境音を減衰し音声を強調するために用いられる音響信号処理装置及び音声度合算出方法に関する。
携帯用電話機や音声認識等の応用において、収音された音響信号あるいは可聴信号に含まれる環境雑音や背景雑音等の雑音(ノイズ)を抑圧し音声成分を強調したり、雑音と音声とを分離することが必要とされている。
このような音声と雑音とを分離する従来の技術としては、例えば、特許文献1、2に示すように、複数のマイクロホンを利用して各マイクの受信した音響信号の差から分離をする方法が知られており、また、特許文献3、4に示すように、あるタイミングでそのときの環境音を学習する方法が知られている。また、例えば特許文献5には、一定区間内の最小の平均振幅値をノイズとし、その値との大小関係で環境音と音声の判断を行なう方法が開示されている。
特開2000−81900号公報 特開平8−79897号公報 特開2001−42886号公報 特開2000−222000号公報 特開2003−70097号公報
ところで、上述のような従来技術においては、次のような問題点がある。
上記特許文献1、2に示すような複数のマイクロホンを利用する技術の場合には、それぞれのマイク間隔が一定以上離れている必要があり、指向性マイクの場合に、対象の移動に合わせて方向を変える必要がある、といった問題点が挙げられる。
また、上記特許文献3、4に示すような環境音を学習するような技術の場合には、学習に必要十分な時間の環境音が必要であり、また汎用性に欠ける、という問題点がある。
また、上記特許文献5の技術においては、大きな振幅のノイズに対応できない点と、一定区間内がすべて音声のみまたは環境音のみである場合に判断が困難である点とが問題と考えられる。
本発明は、このような従来の実情に鑑みて提案されたものであり、1本のマイクロホンで収音された音響信号や、記録媒体から再生された音響信号を入力として、簡単な構成あるいは少ない処理量で音声らしさあるいは音声の度合を求めることができ、入力音響信号に対して、音声の分離あるいは雑音抑圧・音声強調が容易に行えるような音響信号処理装置及び音声度合算出方法を提供することを目的とする。
上述の課題を解決するために、本発明に係る音響信号処理装置は、音声及び環境音を含む入力音響信号の音声の度合を算出する音声度合算出手段と、この音声度合算出手段からの出力に基づき上記入力音響信号を処理する音声処理手段とを有し、上記音声度合算出手段は、上記入力音響信号の波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出手段と、上記入力音響信号の波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出手段と、上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力手段とを有して成る。
また、本発明に係る音響信号処理装置は、上述の課題を解決するために、音声及び環境音を含む入力音響信号を複数の周波数帯域に分割する帯域分割手段と、上記帯域分割手段により分割された各帯域毎の音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出する音声度合算出手段と、この音声度合算出手段からの各帯域の音声の度合に基づいて上記入力音響信号を各帯域毎に処理する音声処理手段とを有する。
上記音声度合算出手段は、上記入力音響信号の所定の時間長単位で切り出されたフレーム単位で音声度合を算出することことが好ましい。
また、上記音声度合算出手段は、上記入力音響信号の波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出手段と、上記入力音響信号の波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出手段と、上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力手段とを有して成ることが好ましい。上記半波長増減繰り返し割合算出手段は、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出することが好ましい。
次に、本発明に係る音声度合算出方法は、上記目的を達成するため、入力音響信号の波形を波形切り出し手段により所定長さのフレーム単位で切り出す波形切り出し工程と、上記波形切り出し工程により切り出された波形の半波長の増減の繰り返し割合を半波長増減繰り返し割合算出手段により算出する半波長増減繰り返し割合算出工程と、上記波形切り出し工程により切り出された波形の半波長のゼロクロスの割合をゼロクロス割合算出手段により算出するゼロクロス割合算出工程と、上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声度合出力手段により音声の度合を決定し出力する音声度合出力工程とを有して成る。
このような本発明では、入力音響信号をフレーム単位で波形切り出し処理し、フレーム内での半波長の増減割合を算出し、またフレーム内でのゼロクロスの割合を算出し、これらの算出された各割合を用いて音声の度合を決定する。この決定された音声度合に応じて音声と背景雑音とを分離あるいは強調減衰する
を制御する。
本発明によれば、入力音響信号がモノラル音声でも、環境音を除去して音声のみを分離することができ、また、波形の簡単な特徴量を用いているため、処理が軽くて済み、実時間で処理が可能である。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本発明の実施の形態における音声分離機能を有する音響信号処理装置の構成例を概略的に示すブロック図である。
図1に示す音響信号処理装置は、マイクロホンにより音響電気変換された音響信号や記録媒体から再生された音響信号等が入力される音響信号入力部10と、入力音響信号を所定の時間長(フレーム)単位で切り出す波形切り出し部20と、切り出された波形が音声である度合いを算出する音声度合算出部30と、音声度合算出部30から出力された値に基づいて、入力音響信号を処理する音声処理部40とを有して構成されている。音声処理部40では、例えば主として、入力音響信号の音声と環境音(環境雑音や背景雑音等のノイズ)とを分離したり、環境音を減衰し音声を強調するような処理が行われる。
図1の音声度合算出部30は、入力音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出するものであり、例えば図2に示すように、切り出されたフレーム毎の波形について、極値点間の半波長の長さが増減を繰り返す割合を算出する半波長増減繰り返し割合算出部31と、切り出された波形内に含まれる半波長のうち、ゼロクロスを有する割合を算出するゼロクロス割合算出部32と、これら半波長増減繰り返し割合算出部31及びゼロクロス割合算出部32から得られる二つの割合から、音声度合を計算し、出力する音声度合出力部33とを有して構成されている。
次に、これらの図1、図2に示す構成における各部の動作について、処理手順に従って説明する。
先ず、図1の音響信号入力部10にて音響信号を取り込む。この入力音響信号は任意であり、例えばマイクロホンにより収音された音響信号や、テレビジョン放送やラジオ放送等を受信して得られた音響信号や、CD、DVD、カセットテープ、ビデオテープ、半導体メモリカード等の記録媒体を再生して得られた音響信号等が挙げられる。音響信号入力部10からの音響信号は、例えば後段回路部でのディジタル処理に合わせてディジタル信号となっている。
次に、波形切り出し部20で、音響信号をある長さに切り分ける。ここで切り出された区間をフレームと呼ぶ。フレーム長は、例えば1000サンプルとすることが挙げられるが、このサンプル数に限定されず、また固定である必要もない。また、前後のフレームの一部をオーバーラップさせるようにしてもよい。
波形切り出し部20で切り出されたフレームの音響信号の音声度合を音声度合算出部30で求める。この音声度合算出部30は例えば図2のような構成を有し、フレーム毎の処理は、図3に示すような、極値点間の半波長毎に行なう。この図3において、極小点から極大点までを登り半波長UH、極大点から極小点までを下り半波長DHとする。
図2の半波長増減繰り返し割合算出部31では、フレーム内の登り半波長UHのみ、又は下り半波長のみを見て、半波長の長さの変化が増減交互に繰り返されている割合を算出している。すなわち、現在注目しているn番の登り半波長UHnの長さが一つ前のn−1番の登り半波長UHn−1の長さに比べて増加しているか、減少しているかを調べ、この増減が、フレーム内で「増・減・増・減」と交互になっている割合を求める。下り半波長についても同様に「増・減・増・減」と交互になっている割合を求める。二つの割合から、フレーム内の、半波長増減繰り返し割合を決定する。
例えば、図4において、登り半波長UHの各長さについて、UH1に比べてUH2が増加し、UH2に比べてUH3が減少し、UH3に比べてUH4が増加し、UH4に比べてUH5が減少している。また、下り半波長DHの各長さについて、DH1に比べてDH2が増加し、DH2に比べてDH3が減少し、DH3に比べてDH4が増加し、DH4に比べてDH5が減少している。半波長増減繰り返し割合算出部31は、このような増減が交互に繰り返し生じている部分のフレーム内の割合を、登り半波長UHと下り半波長DHとについてそれぞれ求め、これらの2つの割合の平均、積、重みつき平均等に基づいて、フレーム内の半波長増減繰り返し割合を決定し、音声度合出力部33に送っている。なお、半波長増減繰り返し割合算出部31のより具体的な構成及び動作については、後で図面を参照しながら説明する。
図2のゼロクロス割合算出部32では、フレーム内の半波長の内のゼロクロスを有する半波長の割合を求める。例えば図5において、登り及び下りの各半波長UH1、DH1、UH2、DH2、UH3、DH5はゼロクロスを有しており、DH3、UH4、DH4、UH5はゼロクロスを有していない。この図5の場合には、10の半波長の内のゼロクロスを有する半波長(6つ)の割合そのものは、6/10=0.6、として求められるが、これをフレーム内の全ての半波長に対して行い、後述するように必要に応じて出力調整を行って、フレーム内の半波長の内のゼロクロスを有する半波長の割合を求め、音声度合出力部33に送っている。
図2の音声度合出力部33では、半波長増減繰り返し割合算出部31からの割合と、ゼロクロス割合算出部32からの割合とに基づいて、音声の度合いを決定する。例えば、各出力の平均、積、重みつき和などが考えられる。音声度合出力部33からの出力(音声の度合)は、図1の音声度合算出部30からの出力として音声処理部40に送られる。
音声合成部40では、波形切り出し部20からの各フレームの音声波形に対して、音声度合算出部30から出力される音声の度合いを用いて音声と背景雑音とを分離あるいは強調減衰するような処理を施し、出力波形とする。例えば、音声度合を倍率として、フレームの音声波形との積を出力するなどの処理が考えられる。
以上の手順をフローチャートに近似した形式で図6に示す。この図6において、ステップS1で入力音響信号をフレーム単位で波形切り出し処理し、ステップS2でフレーム内での半波長の増減割合を算出し、ステップS3でフレーム内でのゼロクロスの割合を算出し、ステップS4で上記各ステップS2、S3で算出された各割合を用いて音声の度合を決定する。ステップS5では、ステップS1で切り出されたフレーム毎の音響信号に対して、ステップS4にて得られた音声度合に応じて音声と背景雑音とを分離あるいは強調減衰するような音声処理を行う。
ここで、本発明の実施の形態は、入力音響信号の波形が「音声」なのか「環境音(車の走行音や風音、ノイズ)」なのかを区別することを要旨とするものである。すなわち、従来のように、単にレベルの大きさで音声と環境音を区別する手法では、レベルの大きなノイズまで音声と見なしてしまうという欠点があった。そこで、本発明の実施の形態においては、各時刻においてその波形が「音声」なのか「環境音」なのかを「音声らしさ」として数値化することにした。環境音と音声が両方含まれるといったこともあり、どちらかの二値で判定するのは困難であるためである。一定区間内の波形が音声である確率、もしくは波形に含まれる音声波形の割合という意味合いで「音声らしさ」という言葉を使用している。
本発明の実施の形態において採用した手法は、母音部分に特化したものである。音声の母音部分は基本周波数とその倍音成分とから構成されるため、波長は定常になる。本発明の実施の形態では、一波長を極大点から次の極大点まで、もしくは極小点から次の極小点までとしている。そのため、一般的に波長の揺ぎを定義するとなればその長さが「常に一定値→揺ぎ無し」、「一定の範囲内で変動→揺ぎあり」ということになる。本発明の実施の形態では、「揺ぎ」とは、この半波長が「増減増減」となっている部分の変化を意味すると共に、音声らしさの基準としての一例としてゼロクロス(もしくは中心点のずれ)に基づく波形のレベル方向の変化を意味している。
すなわち、本発明の実施の形態においては、「波長の揺ぎ」、「レベル方向の揺ぎ」の二種類の揺ぎを定義している。それぞれの場合で揺ぎがあるのは以下の場合である。
先ず、「波長の揺ぎ」とは、登り半波長、もしくは下り半波長の長さの変化が「増減増減」と交互になっている場合である。次に、「レベル方向の揺ぎ」とは、半波長がゼロクロスしていない場合である。ここで、「レベル方向の揺ぎ」として、半波長のレベル方向の中心点がゼロクロスから離れている場合を採用してもよい。この場合は、図7に示すように、半波長の振幅方向の中心点からのずれ度合A/Bによって「レベル方向の揺ぎ」を求めるようにすることが挙げられる。
また、各揺ぎと音声らしさの関係は、「波長の揺ぎ」については揺ぎがあるほど、すなわち、半波長の長さの変化で「増減増減」となっている波長が多いほど、音声である可能性が高い。また、「レベル方向の揺ぎ」については揺ぎが小さいほど、すなわちゼロクロスしていない半波長の割合が小さいほど、あるいは半波長のレベル方向の中心点がゼロクロスに近いほど、音声である可能性が高い。
これは、音声信号波形のスペクトルをとると、ある基本周波数の倍数構造を有していることが知られているが、この基本周波数は、一般的に音の高さを表すピッチに相当しており、ピッチ周波数とも称され、例えばピッチ周波数の整数倍の位置にピークが現れる。さらに、音声信号波形における隣り合うピーク間に相当するピッチ周期に対して、実際の波形信号にはこのピッチ周期よりも長い波長の成分も含まれており、特に2倍のピッチ周期の成分も比較的有力に現れている。このような2倍のピッチ周期の成分は、上述した登り半波長、あるいは下り半波長で見ると、長さの変化で増減が交互に繰り返し現れることに相当し、半波長の長さの変化が「増減増減」となっている波長が多いほど、音声である可能性が高くなるものである。なお、これは、人の声(人声)のみならず、楽器音を含む音楽信号のようないわゆる楽音信号の場合にもある程度成立するものであり、本発明の実施の形態は、楽音を含む音声信号と、環境音(ノイズ)とを分離あるいは増強減衰することも可能である。
上述したような揺ぎと音声らしさとの関係を表にまとめたものを、図8に示し、また、入力音響信号が音声のみの場合の波形の一例を図9に、環境音が混入した音響信号の波形の一例を図10に、波長の揺ぎがない波形の一例を図11にそれぞれ示している。
図8から明らかなように、波長の揺ぎが大きい・多い場合が音声、小さい・少ない場合が環境音にそれぞれ対応し、レベル方向の揺ぎが大きい・多い場合が環境音、小さい・少ない場合が音声にそれぞれ対応している。
図9は、入力音響信号の波形の波長の揺ぎが「増減増減」と交互に現れており、音声のみである場合を示し、図10は、ゼロクロスしない部分が多くレベル方向の揺ぎが大きい場合に相当し、入力音響信号に環境音(ノイズ)が混ざっていることを示している。また、図11の波形は、半波長が増加するのみで波長の揺ぎが無いような波形の例を示すものである。
次に、音声らしさあるいは音声度合を求めるための半波長増減繰り返し割合算出及びゼロクロス割合算出のより具体的な構成例について、図面を参照しながら説明する。
図12は、上記図2の半波長増減繰り返し割合算出部31の具体的な構成例を示すブロック図、図13は、上記図2のゼロクロス割合算出部32の具体的な構成例を示すブロック図である。
図12に示す半波長増減繰り返し割合算出部31は、上記図1の波形切り出し部20にてフレーム単位で切り出された音響信号の波形が入力される登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52と、これらの登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52から出力される各割合を統合する半波長増減繰り返し割合統合部53と、この半波長増減繰り返し割合統合部53からの出力値を調整して出力する出力値調整部54とを有して構成されており、この出力値調整部54からの出力が図2の音声度合出力部33に送られる。なお、出力値調整部54は省略してもよい。
次に、図12の登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52の動作について、図14を参照しながら説明する。この場合、登り半波長、下り半波長について、同様の処理が行われる。
登り半波長増減繰り返し割合算出部51において、先ず、フレーム内の隣り合う3つの登り半波長の長さの変化が「増減」もしくは「減増」と交互になっている組の数をAupとする。フレーム内の全登り半波長数をNupとすると、登り半波長の増減繰り返し割合Rupは、
Rup=Aup/(Nup−2)
で定義される。下り半波長増減繰り返し割合算出部52の下り半波長についても、
Rdown=Adown/(Ndown−2)
で定義される。
図14の例では、登り半波長のUH1からUH2が増加、UH2からUH3が減少、UH3からUH4が減少となっており、下り半波長のDH1からDH2が減少、DH2からDH3が増加、DH3からDH4が増加、DH4からDH5が増加となっている。すなわち、UH1〜3の組が「増減」、UH2〜4の組が「減増」、UH3〜5の組が「増減」となり、DH1〜3の組が「減増」となる。従って、図14の例で、RupおよびRdownを計算すると
Rup=Aup/(Nup−2)=2/(5−2)=0.67
Rdown=Adown/(Ndown−2)=1/(5−2)=0.33
となる。
このようにして登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52にて求められた登り及び下りの半波長の増減割合Rup及びRdownが半波長増減繰り返し割合統合部53に送られて統合される。この統合方法としては、RupとRdownの積、平均、大きな方の値、小さな方の値等を求めることが挙げられる。半波長増減繰り返し割合統合部53からの出力は、値域を調節する出力値調整部54に送られ、例えば出力値を0.0から1.0の範囲にして出力している。この処理の一例としては、出力値調整部54への入力をin、出力値調整部54からの出力をoutとするとき、
Figure 0004552533
のようにすることが挙げられる。この式(1)で、THは0以上で1より小さい閾値(0≦TH<1.0)である。増減が交互になる割合の期待値は0.5であるので、THはそれ以上の値が好ましい。なお、この出力値調整部54は省略してもよい。
ところで、登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52での計算方法としては、上述したような、切り出されたフレーム内の3つの半波長の長さの変化が「増減」又は「減増」になっている個数を数える方法の他にも種々の方法が考えられる。例えば、「増減」又は「減増」が交互に続いている長さの最大値を求める方法や、「増減」又は「減増」が交互に続いている長さのばらつきを求める方法等が挙げられる。これらの方法について、図15を参照しながら説明する。図15の波形の例において、「増減」又は「減増」が交互に続いている長さとしては、登り半波長について、部分aが「3」、部分bが「2」、部分cが「2」であり、下り半波長について、部分dが「1」、部分eが「4」、部分fが「1」となっている。
上記「増減」又は「減増」が交互に続いている長さの最大値を求める方法とは、切り出されたフレーム内の登り半波長、下り半波長毎に、「増減」又は「減増」が交互に続く長さの最大値を求めるものである。例えば図15の波形の例では、増減が交互に続いている長さは、登り半波長が「3」、下り半波長が「4」となる。
また、上記「増減」又は「減増」が交互に続いている長さのばらつきを求める方法の例としては、求めるべきばらつきを、登り半波長、下り半波長をそれぞれVup、Vdownとして、以下の式で定義することが挙げられる。
Vup=(Aveup/Varup)/(Nup−2)
Vdown=(Avedown/Vardown)/(Ndown−2)
ここでAveは登り、下りそれぞれの増減の繰り返しの長さの平均値、Varは増減の繰り返しの長さの分散、 Nはフレーム内の登り、下り半波長数である。
図15の場合には、以下のように計算される。
Vup=(2.33/0.22)/(9−2)=1.5
Vdown=(2/2)/(9 − 2)=0.14
ただしこのままでは、出力値が0〜1の範囲に収まらないので、出力値調整部54で調整する必要がある。具体的には以下の式(2)のようなシグモイド関数が挙げられる。
Figure 0004552533
この式(2)中で、inは出力値調整部54への入力、outは出力値調整部54からの出力、αはパラメータである。
次に、図13に示すゼロクロス割合算出部32は、上記図1の波形切り出し部20にてフレーム単位で切り出された音響信号の波形が入力されるゼロクロス割合計算部56と、このゼロクロス割合計算部56からの出力値を調整して出力する出力値調整部57とを有して成っている。出力値調整部57からの出力は、ゼロクロス割合算出部32の出力として、上記図2の音声度合出力部33に送られる。なお、出力値調整部57は省略してもよい。
ゼロクロス割合計算部32では、ゼロクロス割合として、
ゼロクロスを有する半波長数/全半波長数
を求め、これをゼロクロス割合出力値として出力値調整部57に送っている。例えば、上述した図5の波形の例では、登り及び下りの各半波長UH1、DH1、UH2、DH2、UH3、DH5はゼロクロスを有しており、DH3、UH4、DH4、UH5はゼロクロスを有していないことから、
ゼロクロスを有する半波長数/全半波長数=6/10=0.6
と計算される。これをフレーム内の全半波長について計算するものである。
出力値調整部57では、ゼロクロス割合計算部56にて上記計算を行うことにより求められたゼロクロス割合の出力値を例えば0.0から1.0の範囲に調整して出力する。この処理は、例えば上述した出力値調整部54と同様に、上記式(1)、あるいは式(2)のような計算を行うことが挙げられ、これらの式(1)、(2)において、inは出力値調整部57への入力、outは出力値調整部57からの出力であり、式(2)のαはパラメータである。
次に、音響信号の具体的な波形例に対する上記図1、図2、図12、図13に示した構成における各部からの出力波形あるいは出力値について、図16〜図20を参照しながら説明する。
先ず図16は、入力音響信号からフィルタによって取り出した800〜2000Hzの周波数帯域の波形を示している。この図16のx軸の単位は[sec]である。この図16に示すような音響信号の波形に対する各部からの出力値を、図17〜図20に示す。これらの図17〜図20は、フレーム長は1000サンプル(約21msec)とし、100サンプル(約2.1msec)ずつフレームをずらしていくことにより得られた出力値を示している。
図17は、上記図12の登り半波長増減繰り返し割合算出部51にて求められた登り半波長の繰り返し割合の出力結果(出力値)を示し、図18は、上記図12の下り半波長増減繰り返し割合算出部52にて求められた下り半波長の繰り返し割合の出力結果を示している。また、図19は、上記図13のゼロクロス割合計算部56にて求められたゼロクロス割合の出力結果(出力値)を示している。なお、これらの図17、図18の具体例では、登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52において、例えば切り出されたフレーム内の3つの半波長の長さの変化が「増減」又は「減増」になっている個数を数え、その割合を算出した結果を示しているが、この他、上述したように、「増減」又は「減増」が交互に続いている長さの最大値を求めたり、「増減」又は「減増」が交互に続いている長さのばらつきを求めるようにしてもよい。
次に図20は、図1、図2に示す音声度合算出部30からの出力結果(出力値)を示している。この場合、図12の半波長増減繰り返し割合統合部53では、図17及び図18に示す登り半波長増減繰り返し割合算出部51及び下り半波長増減繰り返し割合算出部52からの各出力値の内の大きい方の値を出力するようにし、出力値調整部54では、上記式(1)のTH=0.6としたものを用いて調整し、半波長増減繰り返し割合算出部31からの出力値としている。また、図13の出力値調整部57では、ゼロクロス割合計算部56からの上記図19に示す出力値に対して、上記式(1)のTH=0.7としたものを用いて調整し、ゼロクロス割合算出部32からの出力値としている。図2の音声度合出力部33では、これらの半波長増減繰り返し割合算出部31からの出力値とゼロクロス割合算出部32からの出力値との積をとって、図20に示すような音声度合算出部30からの出力値としている。
上述したような本発明の実施の形態によれば、環境音ノイズが含まれていても、音声のみを分離することができ、モノラル音声でも、環境音が除去できるため、あらゆる音響信号に適用でき、また、簡単な特徴量を用いるため、処理が軽くて済み、実時間で処理が可能である。
次に、本発明の他の実施の形態について、図21を参照しながら説明する。この図21の例では、音響信号入力部10から入力された音響信号等を、波形切り出し部20にて一定の時間長(フレーム)単位で切り出した後、帯域分割部60により複数の帯域に分割して、各帯域毎に処理を行うようにしている。すなわち、帯域分割部60では、波形切り出し部20からの音響信号を、複数の周波数帯域FB0〜FBnに分割し、それぞれの周波数帯域FB0〜FBn毎に、音声度合算出部70にて音声度合を算出し、これらの各周波数帯域FB0〜FBnの音声度合に基づいて、音声処理部80で、帯域分割部60からの各周波数帯域FB0〜FBnの信号に対して処理を行い、音声と環境音(ノイズ)とを分離あるいは増強減衰し、各周波数帯域の信号を合成して出力している。音声度合算出部70での各周波数帯域毎の処理は、上記図2、図12、図13と共に説明した処理と同様な処理が行われ、音声度合算出部70には、上記図2、図12、図13と同様な構成が各周波数帯域毎に設けられている。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
本発明の実施の形態となる音響信号処理装置の概略構成を示すブロック図である。 本発明の実施の形態に用いられる音声度合算出部の構成例を示すブロック図である。 音響信号の波形の一例を示す波形図である。 半波長の増減を説明するための音響信号波形の一例を示す波形図である。 半波長のゼロクロスを説明するための音響信号波形の一例を示す波形図である。 本発明の実施の形態の動作を説明するためのフローチャート近似の説明図である。 半波長のレベル方向の中心点のずれを説明するための波形の一例を示す波形図である。 揺ぎと音声らしさとの関係を示す図である。 音声のみの場合の音響信号波形の一例を示す波形図である。 環境音の混入した音声の場合の音響信号波形の一例を示す波形図である。 波長の揺ぎが無い場合の音響信号波形の一例を示す波形図である。 本発明の実施の形態に用いられる半波長増減繰り返し割合算出部の構成例を示すブロック図である。 本発明の実施の形態に用いられるゼロクロス割合算出部の構成例を示すブロック図である。 登り半波長及び下り半波長の増減繰り返し割合を説明するための音響信号波形の一例を示す波形図である。 登り半波長及び下り半波長の増減繰り返し割合の他の計算方法を説明するための音響信号波形の一例を示す波形図である。 入力音響信号の波形の一例を示す波形図である。 登り半波長の繰り返し割合の算出結果となる出力値を示す図である。 下り半波長の繰り返し割合の算出結果となる出力値を示す図である。 ゼロクロス割合の算出結果となる出力値を示す図である。 音声度合の算出結果となる出力値を示す図である。 本発明の他の実施の形態となる音響信号処理装置の概略構成を示すブロック図である。
符号の説明
10 音響信号入力部、 20 波形切り出し部、 30 音声度合算出部、 31 半波長増減繰り返し割合算出部、 32 ゼロクロス割合算出部、 33 音声度合出力部、 51 登り半波長増減繰り返し割合算出部、 52 下り半波長増減繰り返し割合算出部、 53 半波長増減繰り返し割合統合部、 54,57 出力値調整部、 56 ゼロクロス割合計算部

Claims (7)

  1. 音声及び環境音を含む入力音響信号の音声の度合を算出する音声度合算出手段と、
    この音声度合算出手段からの出力に基づき上記入力音響信号を処理する音声処理手段とを有し、
    上記音声度合算出手段は、
    上記入力音響信号の波形の半波長の増減の繰り返し割合を算出する半波長増減繰り返し割合算出手段と、
    上記入力音響信号の波形の半波長のゼロクロスの割合を算出するゼロクロス割合算出手段と、
    上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声の度合を決定し出力する音声度合出力手段と
    を有して成る
    音響信号処理装置。
  2. 上記音声度合算出手段は、上記入力音響信号の所定の時間長単位で切り出されたフレーム単位で音声度合を算出す請求項1記載の音響信号処理装置。
  3. 上記半波長増減繰り返し割合算出手段は、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出す請求項記載の音響信号処理装置。
  4. 上記半波長増減繰り返し割合算出手段には、算出された繰り返し割合の出力値を調整する第1の出力値調整手段が設けられ、
    上記ゼロクロス割合算出手段には、算出されたゼロクロス割合の出力値を調整する第2の出力値調整手段が設けられ、
    上記第1、第2の出力調整手段により各出力値を調整して上記音声度合出力手段に送請求項記載の音響信号処理装置。
  5. 音声及び環境音を含む入力音響信号を複数の周波数帯域に分割する帯域分割手段と、
    上記帯域分割手段により分割された各帯域毎の音響信号の波形の波長方向の特徴量に基づいて音声の度合を算出する音声度合算出手段と、
    この音声度合算出手段からの各帯域の音声の度合に基づいて上記入力音響信号を各帯域毎に処理する音声処理手段とを有する
    音響信号処理装置。
  6. 入力音響信号の波形を波形切り出し手段により所定長さのフレーム単位で切り出す波形切り出し工程と、
    上記波形切り出し工程により切り出された波形の半波長の増減の繰り返し割合を半波長増減繰り返し割合算出手段により算出する半波長増減繰り返し割合算出工程と、
    上記波形切り出し工程により切り出された波形の半波長のゼロクロスの割合をゼロクロス割合算出手段により算出するゼロクロス割合算出工程と、
    上記半波長増減繰り返し割合算出手段からの出力及び上記ゼロクロス割合算出手段からの出力に基づいて音声度合出力手段により音声の度合を決定し出力する音声度合出力工程と
    を有して成音声度合算出方法。
  7. 上記半波長増減繰り返し割合算出工程では、上記入力音響信号の波形の登り半波長が増減あるいは減増と交互に変化する部分の割合と、上記入力音響信号の波形の下り半波長が増減あるいは減増と交互に変化する部分の割合とに基づいて半波長の増減の繰り返し割合を算出す請求項記載の音声度合算出方法。
JP2004194646A 2004-06-30 2004-06-30 音響信号処理装置及び音声度合算出方法 Expired - Fee Related JP4552533B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2004194646A JP4552533B2 (ja) 2004-06-30 2004-06-30 音響信号処理装置及び音声度合算出方法
EP05013599A EP1612773B1 (en) 2004-06-30 2005-06-23 Sound signal processing apparatus and degree of speech computation method
DE602005027521T DE602005027521D1 (de) 2004-06-30 2005-06-23 Vorrichtung zur Verarbeitung eines Klangsignals und Verfahren zur Bestimmung des Sprachengrad
CNB200510081836XA CN100479034C (zh) 2004-06-30 2005-06-30 声音信号处理装置和语音强度计算方法
US11/169,667 US7555429B2 (en) 2004-06-30 2005-06-30 Sound signal processing apparatus and degree of speech computation method
KR1020050057785A KR20060048769A (ko) 2004-06-30 2005-06-30 음향 신호 처리 장치 및 음성 정도 산출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004194646A JP4552533B2 (ja) 2004-06-30 2004-06-30 音響信号処理装置及び音声度合算出方法

Publications (2)

Publication Number Publication Date
JP2006017940A JP2006017940A (ja) 2006-01-19
JP4552533B2 true JP4552533B2 (ja) 2010-09-29

Family

ID=34937633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004194646A Expired - Fee Related JP4552533B2 (ja) 2004-06-30 2004-06-30 音響信号処理装置及び音声度合算出方法

Country Status (6)

Country Link
US (1) US7555429B2 (ja)
EP (1) EP1612773B1 (ja)
JP (1) JP4552533B2 (ja)
KR (1) KR20060048769A (ja)
CN (1) CN100479034C (ja)
DE (1) DE602005027521D1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4564564B2 (ja) 2008-12-22 2010-10-20 株式会社東芝 動画像再生装置、動画像再生方法および動画像再生プログラム
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
KR101211059B1 (ko) 2010-12-21 2012-12-11 전자부품연구원 보컬 멜로디 강화 장치 및 방법
JP6361271B2 (ja) * 2014-05-09 2018-07-25 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816185A (ja) * 1994-06-28 1996-01-19 Sanyo Electric Co Ltd 音声検出装置
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
WO2002080148A1 (fr) * 2001-03-28 2002-10-10 Mitsubishi Denki Kabushiki Kaisha Dispositif eliminateur de bruit
JP2003131686A (ja) * 2001-10-29 2003-05-09 Nippon Hoso Kyokai <Nhk> 音声と音楽の混合比推定方法及び装置並びにそれを用いたオーディオ装置
JP2004125944A (ja) * 2002-09-30 2004-04-22 Sony Corp 情報識別装置及び方法、並びにプログラム及び記録媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3278685A (en) * 1962-12-31 1966-10-11 Ibm Wave analyzing system
US3549806A (en) 1967-05-05 1970-12-22 Gen Electric Fundamental pitch frequency signal extraction system for complex signals
US3940565A (en) 1973-07-27 1976-02-24 Klaus Wilhelm Lindenberg Time domain speech recognition system
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
KR100566163B1 (ko) * 2000-11-30 2006-03-29 마츠시타 덴끼 산교 가부시키가이샤 음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체
JP3866165B2 (ja) 2002-07-12 2007-01-10 株式会社ケンウッド 車載用ナビゲーション装置
JP2004045238A (ja) 2002-07-12 2004-02-12 Japan Science & Technology Corp フラーレン類の分子回転速度測定方法
KR100450732B1 (ko) 2002-12-13 2004-10-01 김정식 돌기가 형성된 밑밥주걱 및 그 제조방법
JP4526791B2 (ja) 2003-07-24 2010-08-18 株式会社ブリヂストン タイヤ構成材の製造方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816185A (ja) * 1994-06-28 1996-01-19 Sanyo Electric Co Ltd 音声検出装置
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
WO2002080148A1 (fr) * 2001-03-28 2002-10-10 Mitsubishi Denki Kabushiki Kaisha Dispositif eliminateur de bruit
JP2003131686A (ja) * 2001-10-29 2003-05-09 Nippon Hoso Kyokai <Nhk> 音声と音楽の混合比推定方法及び装置並びにそれを用いたオーディオ装置
JP2004125944A (ja) * 2002-09-30 2004-04-22 Sony Corp 情報識別装置及び方法、並びにプログラム及び記録媒体

Also Published As

Publication number Publication date
US7555429B2 (en) 2009-06-30
JP2006017940A (ja) 2006-01-19
KR20060048769A (ko) 2006-05-18
EP1612773A2 (en) 2006-01-04
CN100479034C (zh) 2009-04-15
US20060004568A1 (en) 2006-01-05
EP1612773B1 (en) 2011-04-20
DE602005027521D1 (de) 2011-06-01
EP1612773A3 (en) 2009-08-19
CN1716382A (zh) 2006-01-04

Similar Documents

Publication Publication Date Title
EP1755111B1 (en) Method and device for detecting pitch
JP4818335B2 (ja) 信号帯域拡張装置
US8271292B2 (en) Signal bandwidth expanding apparatus
US8311842B2 (en) Method and apparatus for expanding bandwidth of voice signal
JP6019969B2 (ja) 音響処理装置
TW200412178A (en) Apparatus and method for audio-signal-processing
JP2010224321A (ja) 信号処理装置
EP1426926B1 (en) Apparatus and method for changing the playback rate of recorded speech
CN113241082A (zh) 变声方法、装置、设备和介质
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
US8744845B2 (en) Method for processing noisy speech signal, apparatus for same and computer-readable recording medium
CN105324815B (zh) 信号处理装置和信号处理方法
JP4552533B2 (ja) 音響信号処理装置及び音声度合算出方法
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP2009055583A (ja) 風雑音低減装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JP7533440B2 (ja) 信号処理装置および方法、並びにプログラム
JP6313619B2 (ja) 音声信号処理装置及びプログラム
KR100715013B1 (ko) 대역확장장치 및 방법
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
WO2013018092A1 (en) Method and system for speech processing
JP2008262140A (ja) 音程変換装置及び音程変換方法
JP5191459B2 (ja) 声道断面積関数の抽出装置及びその抽出方法
EP3327723A1 (en) Method for slowing down a speech in an input media content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100705

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees