WO2010122843A1

WO2010122843A1 - 音声記録装置、音声再生装置及び音声記録再生装置

Info

Publication number: WO2010122843A1
Application number: PCT/JP2010/053514
Authority: WO
Inventors: 達雄古賀; 友二山本; 悟松本; 寿敏大前
Original assignee: 三洋電機株式会社
Priority date: 2009-04-21
Filing date: 2010-03-04
Publication date: 2010-10-28
Also published as: US20120051550A1

Abstract

　マイク６により捉えた音声データを記録媒体５に記録して録音を行い、記録媒体５から音声データを取り出して再生を行う音声記録再生装置１において、人の音声と人の音声以外とを判別する判別手段２１、２２、２３、２４を備え、録音時に判別手段２１、２２、２３、２４によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力する。

Description

音声記録装置、音声再生装置及び音声記録再生装置

　本発明は、音声情報を記録媒体に記録する音声記録装置に関する。また本発明は、音声を記録媒体に記録して再生する音声記録再生装置に関する。また本発明は、記録媒体に記録された音声を再生する音声再生装置に関する。

　従来のボイスレコーダ等の音声記録再生装置は録音を開始すると会話等を行う人の音声を記録媒体に記録する。また、所定の操作によって記録媒体に格納された音声データが取り出され、再生が行われる。

特開平１１－３１２３９４号公報（第２頁－第７頁、第４図）特開２００８－１７０７８９号公報（第４頁－第１０頁、第３図）特開２００８－２８１８５０号公報（第３頁－第６頁、第２図）特開２００６－５００４５号公報（第４頁－第１２頁、第４図）

　しかしながら、上記従来の音声記録再生装置によると、録音時には人の音声に加えて、無音状態やノイズ（会議が始まる前の机を叩く音や椅子を引くような音等）等の人の音声以外の不要な音声データも記録媒体に記録される。このため、再生時に使用者は不要な部分をカットするため早送りや巻き戻し等の繁雑な作業を必要とし、音声記録再生装置の利便性が悪い問題があった。また、記録媒体に記録された音声データを取り出して再生を行う音声再生装置についても同様の問題がある。

　一方、特許文献１には音声の記録時に無音部分をカットする音声記録装置が開示される。この音声記録装置は記録の開始を指示すると、マイクから捉えられた音声データを解析して音声の平均エネルギーが所定の閾値を超えた場合に録音が開始される。これにより、会議の始まり等の無音部分をカットして録音し、無駄な録音を省くことができる。

　しかしながら、上記特許文献１に開示された音声記録装置によると、机を叩く音や椅子を引くような音等のノイズによって録音が開始され、メモリを無駄に消費する問題がある。

　この問題を解決するため、特許文献２には人の音声か否かを判別して録音を開始する音声記録装置が開示される。この音声記録装置はマイクから入力される音声データから所定区間毎にパワースペクトルの平均値が導出される。無音の区間ではパワースペクトルが小さいためその平均値も小さく、上記のノイズは短時間であるためパワースペクトルの平均値が小さくなる。これにより、無音部分やノイズと人の音声とを区別することができる。従って、人の音声を捉えた時に録音を開始することができ、メモリの消費を抑制することができる。

　しかしながら、上記特許文献２に開示された音声記録再生装置によると、マイクにより捉えた音声データを周波数分解し、パワースペクトルを取得して平均値が導出される。このため、人の音声を識別するための処理が重く、判別に時間がかかる。従って、録音の開始が遅れて音声記録装置の利便性が低下する問題があった。また、人の音声を判別する期間の音声データをメモリに記録しておいて判別後に遡って録音を行う場合には、大きなメモリ容量を必要としてコストがかかる問題もある。

　本発明は、再生時の利便性を向上できる音声記録再生装置及び音声再生装置を提供することを目的とする。また本発明は、音声の記録時に人の音声を迅速に判別して利便性の向上やコストの削減を図ることのできる音声記録装置を提供することを目的とする。

　上記目的を達成するために本発明は、マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力することを特徴としている。

　この構成によると、録音の操作が行われると、マイクにより捉えた音声データが記録媒体に記録される。この時、判別手段によって音声データの人の音声の領域と人の音声以外の領域とを判別し、人の音声の各領域に対する開始位置及び終了位置が音声データとともに記録媒体に記録される。再生の操作が行われると、記録媒体から音声データが取り出されて再生が行われる。この時、人の音声の第１番目の領域の開始位置と終了位置との間を抽出して出力し、続いて第２番目以降の各領域の開始位置と終了位置との間を順に抽出して出力する。

　また本発明は、マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置を記録するとともに、再生中に所定の操作によって次の前記開始位置にスキップさせることを特徴としている。

　この構成によると、録音の操作が行われると、マイクにより捉えた音声データが記録媒体に記録される。この時、判別手段によって音声データの人の音声の領域と人の音声以外の領域とを判別し、人の音声の各領域に対する開始位置が音声データとともに記録媒体に記録される。再生の操作が行われると、記録媒体から音声データが取り出されて再生が行われる。再生中に所定の操作を行うと次の人の音声の領域の開始位置までスキップし、該領域の再生が行われる。

　また本発明は、上記構成の音声記録再生装置において、前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断することを特徴としている。

　この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として記憶する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声と判断して少ないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。

　また本発明は、上記構成の音声記録再生装置において、前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点を検出したときに人の音声と判断することを特徴としている。

　この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として記憶する。そして、所定の判定期間内に変化点が現われるか否かが監視され、現われたときに人の音声と判断して現われないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。

　また本発明は、上記構成の音声記録再生装置において、前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴としている。この構成によると、マイクにより捉えられた音声データの音声パワーが所定値よりも小さいか否かが判別される。音声パワーが所定値よりも小さい場合は音声パワーの変化量が大きくても変化点の検出に対して無視される。

　また本発明は、記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、前記判別手段によって判別した人の音声の開始位置とこれに続く終了位置との間を抽出して出力することを特徴としている。

　この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として格納する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声と判断して少ないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。

　また本発明は、記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、再生中に所定の操作によって前記判別手段によって判別した人の音声の次の開始位置にスキップさせることを特徴としている。

　この構成によると、この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として格納する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声と判断して少ないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置が検出され、所定の操作によって次の人の音声の領域の開始位置にスキップして該領域の再生が行われる。

　また本発明の音声記録装置は、マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに録音を開始することを特徴としている。

　この構成によると、録音の開始の指示があると、マイクにより音声データが捉えられる。マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として格納する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声を捉えたと判断して録音が開始される。

　また本発明は、上記構成の音声記録装置において、前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴としている。この構成によると、マイクにより捉えられた音声データの音声パワーが所定値よりも小さいか否かが判別される。音声パワーが所定値よりも小さい場合は音声パワーの変化量が大きくても変化点の検出に対して無視される。

　また本発明は、上記構成の音声記録装置において、前記判定期間の音声データを蓄積するＦＩＦＯメモリを備え、録音開始時に前記ＦＩＦＯメモリの音声データを取り出して前記判定期間だけ遡って録音を行うことを特徴としている。

　この構成によると、録音の開始の指示があると、マイクにより捉えた音声データがＦＩＦＯメモリに格納される。判定期間で変化量検出部及び変化点検出部によって人の音声を捉えたと判断されると、ＦＩＦＯメモリから音声データを取り出して録音される。これにより、判定期間だけ遡って人の音声の開始時から録音が行われる。

　本発明の音声記録再生装置によると、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置の利便性を向上することができる。また、人の音声を録音時に判別するため再生時に判別時間を必要とせず、再生の遅延を防止することができる。

　また、本発明の音声再生装置によると、人の音声を迅速に抽出して再生することができる。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声再生装置の利便性を向上することができる。

　また、本発明の音声記録装置によると、音声パワーの単位時間内の変化量が所定値よりも大きい変化点が判定期間内に所定数よりも多いときに人の音声を捉えたと判断して録音を開始するので、人の音声を迅速に判別して音声記録装置の利便性を向上することができる。

本発明の第１実施形態の音声記録再生装置の構成を示すブロック図本発明の第１実施形態の音声記録再生装置のデータフロー図本発明の第１実施形態の音声記録再生装置のマイクで捉えたアナログ音声信号の一例を示す図本発明の第１実施形態の音声記録再生装置の変化量検出部により導出した音声パワーの変化量の一例を示す図本発明の第１実施形態の音声記録再生装置の録音時の動作を示すフローチャート本発明の第２実施形態の音声記録再生装置の録音時の動作を示すフローチャート本発明の第３実施形態の音声記録再生装置の構成を示すブロック図本発明の第３実施形態の音声記録再生装置の録音時の動作を示すフローチャート本発明の第４実施形態の音声記録再生装置の録音時の動作を示すフローチャート本発明の第５実施形態の音声記録再生装置の構成を示すブロック図本発明の第５実施形態の音声記録再生装置のデータフロー図本発明の第５実施形態の音声記録再生装置のマイクで捉えたアナログ音声信号の一例を示す図本発明の第５実施形態の音声記録再生装置の録音開始処理の動作を示すフローチャート

　以下に本発明の実施形態を図面を参照して説明する。図１は第１実施形態の音声記録再生装置の構成を示すブロック図である。音声記録再生装置１は音声を捉えるマイク６と音声を出力するスピーカ１０とを備えている。マイク６に接続されるＡ／Ｄ変換部７はマイク６で捉えたアナログ音声信号をデジタル音声信号に変換する。

　Ａ／Ｄ変換部７にはＡ／Ｄ変換部７から出力されたデジタル音声信号から成る音声データに対する種々の処理を行うＤＳＰ（Digital　Signal　Processor）８が接続される。詳細を後述するように、ＤＳＰ８に設けられるパワー変換部２１、変化量検出部２２、変化点検出部２３及び会話検出部２４（いずれも図２参照）によって人の音声と人の音声以外とを判別する処理を行う。また、ＤＳＰ８に設けられるエンコーダ２５及びデコーダ２６（いずれも図２参照）によって音声コーデックによる音声データの圧縮や復号の処理を行う。

　ＤＳＰ８はバスライン１１を介してＣＰＵ２、メモリ３、記録媒体５、操作部１２が接続される。ＣＰＵ２はＤＳＰ８等の各部を制御するとともに演算処理を行う。メモリ３はＣＰＵ２の演算処理の一時記憶を行う。記録媒体５はフラッシュメモリや磁気記録媒体等から成り、ＤＳＰ８により圧縮されたデジタル音声信号の音声データを記録する。操作部１２は使用者の操作によって音声の録音や再生の開始及び停止を指示する。また、操作部１２は時短再生部１２ａによって時短再生の開始の指示を行う。

　また、ＤＳＰ８の出力側はＤ／Ａ変換部９を介してスピーカ１０に接続される。Ｄ／Ａ変換部９はＤＳＰ８により記録媒体５の音声データを複合した非圧縮のデジタル音声信号をアナログ音声信号に変換する。

　図２は音声記録再生装置１のデータフロー図を示している。操作部１２による録音開始の指示によって音声がマイク６で捉えられる。図３はマイク６で捉えたアナログ音声信号から成る音声データの一例を示している。マイク６で捉えた音声データには、非音声領域Ａと音声領域Ｂとが含まれる。非音声領域Ａは机を叩く音や椅子を引くような音等のノイズや無音状態の人の音声以外の領域を示している。音声領域Ｂは人の音声の領域を示している。

　アナログ音声信号の音声データはＡ／Ｄ変換部７で変換され、デジタル音声信号の音声データが出力される。Ａ／Ｄ変換部７から出力された音声データはＤＳＰ８のパワー変換部２１及びエンコーダ２５に送られる。パワー変換部２１はデジタルの音声データを音声パワーに変換して変化量検出部２２に出力する。変化量検出部２２は音声パワーの単位時間内の変化量を導出し、該変化量のデータが変化点検出部２３に出力される。

　図４は変化量検出部２２により導出した音声パワーの変化量の一例を示す図である。同図において縦軸は音声パワーの変化量を示し、横軸は時間を示している。変化点検出部２３は音声パワーの変化量が所定値Ｐ０よりも大きい極大値となる点を変化点Ｃとして検出する。そして、変化点Ｃが発生した時刻の情報が会話検出部２４に出力される。

　会話検出部２４は変化点Ｃの時刻情報に基づいて所定の判定期間Ｔ０（図３参照）内で変化点Ｃが所定数よりも多いか否かを判断する。判定期間Ｔ０内で変化点Ｃが所定数よりも多い場合には人の音声が発せられたと判定する。また、判定期間Ｔ０内で変化点Ｃが所定数以下の場合には人の音声以外の領域であると判定する。これにより、各音声領域Ｂの開始位置と終了位置を検出する。従って、パワー変換部２１、変化量検出部２２、変化点検出部２３及び会話検出部２４により、音声データに対して人の音声と人の音声以外とを判別する判別手段を構成する。

　一方、エンコーダ２５に送られた音声データはエンコーダ２５によって非圧縮のデジタル音声信号がＭＰ３等の圧縮したデジタル音声信号に変換される。圧縮されたデジタル音声信号は会話検出部２４で検出した各音声領域Ｂの開始位置と終了位置のデータとともに記録媒体５に記録される。

　操作部１２により再生の指示があると記録媒体５からデジタル音声信号の音声データが取り出され、ＤＳＰ８のデコーダ２６に送られる。圧縮されたデジタル音声信号はデコーダ２６によって非圧縮のデジタル音声信号に変換される。非圧縮のデジタル音声信号はＤ／Ａ変換部９でアナログ音声信号に変換され、スピーカ１０から出力される。

　図５は音声記録再生装置１の録音時の動作をより詳細に示すフローチャートである。操作部１２による録音の指示があると、ステップ＃１１でパワー変換部２１により音声データが音声パワーに変換される。ステップ＃１２では変化量検出部２２により前述の図４に示すように音声パワーの単位時間（例えば、２６０ｍｓｅｃ）内の変化量が導出される。

　ステップ＃１３、＃２１、＃２２、＃３５は変化点検出部２３による動作を示している。また、ステップ＃１３、＃１４、＃２３～＃３４、＃４１～＃４４は会話検出部２４の動作を示している。ステップ＃１３ではカウンタｉ（変化点検出部２３）及びカウンタｋ（会話検出部２４）を初期化して０が代入される。

　ステップ＃１４では音声領域Ｂを示すフラグＦを初期化して０が代入される。ステップ＃２１では変化点検出部２３によって音声パワーの変化量を監視し、変化点Ｃを検出するまで待機する。変化点Ｃを検出するとステップ＃２２に移行し、変数ｔ（ｉ）に変化点Ｃを検出した現在時刻が代入される。後述するようにステップ＃２１～＃４４は繰り返し行われるため、変化点Ｃを検出する毎に変数ｔ（０）、ｔ（１）、ｔ（２）、・・・の順に変化点Ｃの時刻が格納される（図３に矢印で示す）。

　ステップ＃２３ではカウンタｊにカウンタｉの値が代入され、変化点Ｃを計数する変数Ｎを初期化して０が代入される。ステップ＃２４では現在時刻と変数ｔ（ｊ）との時間差が判定期間Ｔ０よりも短いか否かが判断される。

　現在時刻と変数ｔ（ｊ）との時間差が判定期間Ｔ０よりも短くない場合はステップ＃２７に移行する。現在時刻と変数ｔ（ｊ）との時間差が判定期間Ｔ０よりも短い場合、即ち現在時刻から遡って変数ｔ（ｊ）の時刻が判定期間Ｔ０内である場合はステップ＃２５に移行する。

　ステップ＃２５ではカウンタｊがデクリメントされ、変数Ｎがインクリメントされる。ステップ＃２６ではカウンタｊが０よりも小さいか否かが判断される。カウンタｊが０以上の場合はステップ＃２４に戻る。これにより、現在時刻から遡って判定期間Ｔ０内の変数ｔ（ｊ）の個数だけステップ＃２４～＃２６が繰り返し行われ、変数Ｎが変化点Ｃの個数となる。また、処理の開始初期において現在時刻から遡った判定期間Ｔ０を経過する前にカウンタｊが０よりも小さくなると、変数ｔ（ｊ）のデータがないためステップ＃２７に移行する。

　ステップ＃２７では変数Ｎが所定数Ｎ０よりも大きいか否かが判断される。変数Ｎが所定数Ｎ０以下の場合は判定期間Ｔ０内に変化点Ｃが少なく、非音声領域Ａと判断してステップ＃３１に移行する。変数Ｎが所定数Ｎ０よりも大きい場合、即ち判定期間Ｔ０内に変化点Ｃが所定数Ｎ０よりも多いことを検出すると、音声領域Ｂと判断してステップ＃４１に移行する。

　ステップ＃４１ではフラグＦが０か否かが判断される。フラグＦが０の場合は直前が非音声領域Ａの状態であり、音声領域Ｂに入ったためステップ＃４２でフラグＦに１が代入される。ステップ＃４３では音声領域Ｂの開始位置の時刻を示す変数Ｓ（ｋ）に判定期間Ｔ０内の先頭の変化点Ｃの時刻を示す変数ｔ（ｊ＋１）の値が代入される。ステップ＃４４では音声領域Ｂの終了位置の時刻を示す変数Ｅ（ｋ）に判定期間Ｔ０内の最後の変化点Ｃの時刻を示す変数ｔ（ｉ）の値が代入される。

　ステップ＃４１の判断でフラグＦが１の場合は音声領域Ｂが継続しているため、ステップ＃４４に移行して音声領域Ｂの終了位置の時刻を示す変数Ｅ（ｋ）が更新される。そして、ステップ＃３５でカウンタｉをインクリメントしてステップ＃２１に戻る。

　ステップ＃２７で非音声領域Ａと判断とした場合はステップ＃３１でフラグＦが０か否かが判断される。フラグＦが０の場合は非音声領域Ａが継続しているため、ステップ＃３５でカウンタｉをインクリメントしてステップ＃２１に戻る。これにより、ステップ＃２１～＃３１が繰り返し行われ、変化点Ｃを検出する毎に変数ｔ（ｉ）のデータを蓄積して判定期間Ｔ０内の変化点Ｃの個数が検出される。

　ステップ＃３１でフラグＦが１の場合は音声領域Ｂから非音声領域Ａに切り替ったと判断し、ステップ＃３２に移行する。ステップ＃３２ではフラグＦに０が代入される。ステップ＃３３では音声領域Ｂの開始位置及び終了位置の時刻である変数Ｓ（ｋ）、Ｅ（ｋ）が記録媒体５に送られ、音声データとともに記録される。ステップ＃３４ではカウンタｋがインクリメントされ、ステップ＃３５を介してステップ＃２１に戻る。これにより、次の音声領域Ｂの開始位置及び終了位置が検出される。また、操作部１２に録音停止の操作が行われると、録音が停止される。

　また、通常の再生の操作が行われると、記録媒体５から音声データが取り出されて再生が行われる。時短再生部１２ａの操作が行われると、記録媒体５から音声データ及び音声領域Ｂの開始位置及び終了位置の時刻データが取り出される。そして、第１番目の音声領域Ｂの開始位置（Ｓ（０））を検出して再生が開始され、これに続く終了位置（Ｅ（０））を検出すると再生を中断する。同様に、第２番目以降の音声領域Ｂの開始位置と終了位置との間を順に抽出して出力する。

　本実施形態によると、人の音声の音声領域Ｂと人の音声以外の非音声領域Ａとを判別する判別手段（パワー変換部２１、変化量検出部２２、変化点検出部２３及び会話検出部２４）によって録音時に音声領域Ｂの開始位置Ｓ（ｋ）と終了位置Ｅ（ｋ）とを記録し、時短再生時に該開始位置と該終了位置との間を抽出して再生を行う。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置１の利便性を向上することができる。

　また、音声パワーの単位時間内の変化量が所定値Ｐ０よりも大きい変化点Ｃが判定期間Ｔ０内に所定数Ｎ０よりも多いときに人の音声と判断する。このため、判定期間Ｔ０内の音声データの周波数分解等を行って人の音声を判別するよりも人の音声を容易且つ迅速に判別できる。

　また、ステップ＃２１において音声パワーが所定値よりも小さい場合に変化点Ｃの検出を省いてもよい。これにより、音声パワーの変化量が大きくても音量が小さい場合に非音声領域Ａと判断し、変数ｔ（ｉ）を格納するメモリ３の無駄な消費を抑制することができる。

　次に、図６は第２実施形態の音声記録再生装置１の録音時の動作を示すフローチャートである。本実施形態は、非音声領域Ａと音声領域Ｂとを判別する方法が第１実施形態と異なっている。同図において、ステップ＃１１～＃１４及びステップ＃３１～＃４４は前述の図５と同様であるので一部説明を省略する。

　ステップ＃２８では変化点検出部２３によって音声パワーの変化量を監視し、変化点Ｃを検出したか否かが判断される。変化点Ｃを検出しない場合はステップ＃２９に移行して判定期間Ｔ０が経過したか否かが判断される。判定期間Ｔ０が経過していない場合はステップ＃２８に戻り、ステップ＃２８、＃２９が繰り返し行われる。

　判定期間Ｔ０内に変化点Ｃを検出すると音声領域Ｂに入ったと判断し、ステップ＃４１に移行する。ステップ＃４１～＃４４は第１実施形態と同様である。但し、ステップ＃４３、＃４４では音声領域Ｂの開始位置及び終了位置の時刻を示す変数Ｓ（ｋ）、Ｅ（ｋ）に現在時刻が代入される。

　判定期間Ｔ０内に１つも変化点Ｃを検出しない場合は非音声領域Ａに入ったと判断し、ステップ＃３１に移行する。ステップ＃３１～＃３４は第１実施形態と同様である。

　本実施形態によると、第１実施形態と同様に、録音時に音声領域Ｂの開始位置Ｓ（ｋ）と終了位置Ｅ（ｋ）とを記録し、該開始位置と該終了位置との間を抽出して再生を行う。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置１の利便性を向上することができる。

　また、判定期間Ｔ０内に１つでも変化点Ｃを検出したときに人の音声の音声領域Ｂと判断するので、変数ｔ（ｉ）（図５参照）を格納するメモリ３の容量を削減することができる。

　次に、図７は第３実施形態の音声記録再生装置の構成を示すブロック図である。説明の便宜上、前述の図１～図２に示す第１実施形態と同様の部分には同一の符号を付している。本実施形態は、時短再生部１２ａ（図１参照）に替えてスキップボタン１２ｂが操作部１２に設けられる。スキップボタン１２ｂは再生中に次の音声領域Ｂの先頭にスキップさせる。その他の構成は第１実施形態と同様である。

　図８は音声記録再生装置１の録音時の動作を示すフローチャートである。前述の図５に示す第１実施形態とステップ＃３３の動作が異なり、ステップ＃４４が省かれている。その他の部分は第１実施形態と同一であるので説明を省略する。

　ステップ＃３２でフラグＦに０が代入されると、ステップ＃３３では音声領域Ｂの開始位置の時刻である変数Ｓ（ｋ）が記録媒体５に送られ、音声データとともに記録される。ステップ＃３４ではカウンタｋがインクリメントされ、ステップ＃３５を介してステップ＃２１に戻る。

　また、ステップ＃４１ではフラグＦが０か否かが判断される。フラグＦが０の場合は直前が非音声領域Ａの状態であり、音声領域Ｂに入ったためステップ＃４２でフラグＦに１が代入される。ステップ＃４３では音声領域Ｂの開始位置の時刻を示す変数Ｓ（ｋ）に判定期間Ｔ０内の先頭の変化点Ｃの時刻を示す変数ｔ（ｊ＋１）の値が代入される。そして、ステップ＃３５でカウンタｉをインクリメントしてステップ＃２１に戻る。ステップ＃４１の判断でフラグＦが１の場合は音声領域Ｂが継続しているため、ステップ＃４２、＃４３を省いてステップ＃３５に移行する。

　通常の再生の操作が行われると、記録媒体５から音声データが取り出されて再生が行われる。再生中にスキップボタン１２ｂの操作が行われると、記録媒体５から音声データ及び音声領域Ｂの開始位置の時刻データが取り出される。そして、次の音声領域Ｂの開始位置（Ｓ（ｋ））までスキップして該音声領域Ｂの再生が行われる。

　本実施形態によると、人の音声の音声領域Ｂと人の音声以外の非音声領域Ａとを判別する判別手段（パワー変換部２１、変化量検出部２２、変化点検出部２３及び会話検出部２４）によって録音時に音声領域Ｂの開始位置Ｓ（ｋ）を記録し、スキップボタン１２ｂの操作時に次の音声領域Ｂの開始位置までスキップして再生を行う。従って、無音部分やノイズをカットするために煩雑な操作を必要とせず、音声記録再生装置１の利便性を向上することができる。

　また、第１実施形態と同様に、音声パワーの単位時間内の変化量が所定値Ｐ０よりも大きい変化点Ｃが判定期間Ｔ０内に所定数Ｎ０よりも多いときに人の音声と判断する。このため、判定期間Ｔ０内の音声データの周波数分解等を行って人の音声を判別するよりも人の音声を容易且つ迅速に判別できる。

　次に、図９は第４実施形態の音声記録再生装置１の録音時の動作を示すフローチャートである。本実施形態は、非音声領域Ａと音声領域Ｂとを判別する方法が第３実施形態と異なっている。同図において、ステップ＃１１～＃１４及びステップ＃３１～＃４４は前述の図８と同様であるので一部説明を省略する。

　判定期間Ｔ０内に変化点Ｃを検出すると音声領域Ｂに入ったと判断し、ステップ＃４１に移行する。ステップ＃４１～＃４３は第３実施形態と同様である。但し、ステップ＃４３では音声領域Ｂの開始位置の時刻を示す変数Ｓ（ｋ）に現在時刻が代入される。

　判定期間Ｔ０内に１つも変化点Ｃを検出しない場合は非音声領域Ａに入ったと判断し、ステップ＃３１に移行する。ステップ＃３１～＃３４は第３実施形態と同様である。

　本実施形態によると、第３実施形態と同様に、録音時に音声領域Ｂの開始位置Ｓ（ｋ）を記録し、スキップボタン１２ｂの操作によって次の音声領域Ｂにスキップして再生を行う。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置１の利便性を向上することができる。

　また、判定期間Ｔ０内に１つでも変化点Ｃを検出したときに人の音声の音声領域Ｂと判断するので、変数ｔ（ｉ）（図８参照）を格納するメモリ３の容量を削減することができる。

　第１～第４実施形態において、図５、図６、図８、図９に示す非音声領域Ａと音声領域Ｂとを判別する動作を再生時に行ってもよい。この時、音声パワーの単位時間内の変化量が所定値Ｐ０よりも大きい変化点Ｃが判定期間Ｔ０内に所定数Ｎ０よりも多いときに人の音声と判断する。このため、判定期間Ｔ０内の音声データの周波数分解等を行って人の音声を判別するよりも人の音声を容易且つ迅速に判別でき、再生の遅延を防止することができる。

　尚、第１～第４実施形態に示すように人の音声を録音時に判別すると、再生時に判別時間を必要とせず再生の遅延をより確実に防止することができる。

　また、音声記録再生装置１により音声の録音及び再生を行っているが、録音機能を省いて再生のみを行ってもよい。この時、上記の非音声領域Ａと音声領域Ｂとを判別する動作を再生時に行って音声再生装置の利便性を向上することができる。

　次に、図１０、図１１は第５実施形態の音声記録再生装置の構成を示すブロック図及びデータフロー図を示している。説明の便宜上、前述の図１～図５に示す第１実施形態と同様の部分には同一の符号を付している。本実施形態の第１実施形態と異なる点は、メモリ３内にＦＩＦＯ（First-In/First-Out）メモリ４が形成される。ＦＩＦＯメモリ４はＡ／Ｄ変換部７から出力されるデジタル音声信号から成る音声データを順次記憶して一定量の音声データを格納する。

　また、操作部１２の時短再生部１２ａ（図１参照）が省かれるとともに、会話検出部２４（図２参照）に替えて録音開始判定部２７が設けられる。その他の部分は第１実施形態と同様である。

　操作部１２による録音開始の指示によって音声がマイク６で捉えられる。図１２はマイク６で捉えたアナログ音声信号から成る音声データの一例を示している。マイク６で捉えた音声データには、机を叩く音や椅子を引くような音等のノイズによる非音声領域Ａと、人の音声の音声領域Ｂとが含まれる。アナログ音声信号の音声データはＡ／Ｄ変換部７で変換され、デジタル音声信号の音声データが出力される。Ａ／Ｄ変換部７から出力された音声データはＦＩＦＯメモリ４に蓄積されるとともに、ＤＳＰ８のパワー変換部２１に送られる。

　パワー変換部２１はデジタルの音声データを音声パワーに変換して変化量検出部２２に出力する。変化量検出部２２は音声パワーの単位時間内の変化量を導出し、該変化量のデータが変化点検出部２３に出力される。

　前述の図４に示すように、変化点検出部２３は音声パワーの変化量が所定値Ｐ０よりも大きい極大値となる点を変化点Ｃとして検出する。そして、変化点Ｃが発生した時刻の情報が録音開始判定部２７に出力される。

　録音開始判定部２７は変化点Ｃの時刻情報に基づいて所定の判定期間Ｔ０（図１２参照）内で変化点Ｃが所定数よりも多いか否かを判断する。判定期間Ｔ０内で変化点Ｃが多い場合には人の音声が発せられたと判定して録音の開始を命令する。従って、パワー変換部２１、変化量検出部２２、変化点検出部２３及び録音開始判定部２７により、音声データに対して人の音声を判別することができる。

　一方、ＦＩＦＯメモリ４に蓄積された音声データは録音開始判定部２７による録音の開始命令により、ＤＳＰ８のエンコーダ２５に送られる。エンコーダ２５によって非圧縮のデジタル音声信号がＭＰ３等の圧縮したデジタル音声信号に変換される。圧縮されたデジタル音声信号は記録媒体５に記録される。

　図１３は音声記録再生装置１の録音開始時の動作をより詳細に示すフローチャートである。尚、ステップ＃１１～＃１３及びステップ＃２１～＃３５は前述の図５に示す第１実施形態と同様である。操作部１２による録音の指示があると、ステップ＃１０でＦＩＦＯメモリ４に音声データが蓄積される。ステップ＃１１ではパワー変換部２１により音声データが音声パワーに変換される。ステップ＃１２では変化量検出部２２により前述の図４に示すように音声パワーの単位時間（例えば、２６０ｍｓｅｃ）内の変化量が導出される。

　ステップ＃１３、＃２１、＃２２、＃３５は変化点検出部２３による動作を示している。ステップ＃１３ではカウンタｉを初期化して０が代入される。ステップ＃２１では変化点検出部２３によって音声パワーの変化量を監視し、変化点Ｃを検出するまで待機する。変化点Ｃを検出するとステップ＃２２に移行し、変数ｔ（ｉ）に変化点Ｃを検出した現在時刻が代入される。ステップ＃２１～＃３５は繰り返し行われるため、変化点Ｃを検出する毎に変数ｔ（０）、ｔ（１）、ｔ（２）、・・・の順に変化点Ｃの時刻が格納される（図１２に矢印で示す）。

　ステップ＃２３～＃２７は録音開始判定部２７の動作を示している。ステップ＃２３ではカウンタｊにカウンタｉの値が代入され、変化点Ｃを計数する変数Ｎを初期化して０が代入される。ステップ＃２４では現在時刻と変数ｔ（ｊ）との時間差が判定期間Ｔ０よりも短いか否かが判断される。

　ステップ＃２７では変数Ｎが所定数Ｎ０よりも大きいか否かが判断される。変数Ｎが所定数Ｎ０以下の場合は判定期間Ｔ０内に変化点Ｃが少なく、非音声領域Ａと判断する。そして、ステップ＃３５でカウンタｉをインクリメントしてステップ＃２１に戻る。これにより、ステップ＃２１～＃３５が繰り返し行われ、変化点Ｃを検出する毎に変数ｔ（ｉ）のデータを蓄積して判定期間Ｔ０内の変化点Ｃの個数が検出される。

　変数Ｎが所定数Ｎ０よりも大きい場合、即ち判定期間Ｔ０内に変化点Ｃが所定数Ｎ０よりも多いことを検出すると、音声領域Ｂを捉えたと判断してステップ＃３６に移行する。ステップ＃３６ではＤＳＰ８によりＦＩＦＯメモリ４から音声データが取り出され、エンコーダ２５により音声データを圧縮して録音を開始する。これにより、判定期間Ｔ０だけ遡って録音が行われる。また、操作部１２に録音停止の操作が行われると、録音が停止される。

　本実施形態によると、音声パワーの単位時間内の変化量が所定値Ｐ０よりも大きい変化点Ｃが判定期間Ｔ０内に所定数Ｎ０よりも多いときに音声領域Ｂを捉えたと判断して録音を開始するので、音声領域Ｂを迅速に判別できる。従って、ＦＩＦＯメモリ４の容量を削減することができるため、音声記録再生装置１（音声記録装置）のコストを削減することができる。

　また、録音開始時にＦＩＦＯメモリ４の音声データを取り出して判定期間Ｔ０だけ遡って録音を行うので、人の音声を最初から録音することができる。従って、音声記録再生装置１の利便性を向上することができる。

　尚、ＦＩＦＯメモリ４を設けずに録音を行ってもよい。この時、人の音声を捉えてから判定期間Ｔ０だけ録音ができないが、音声領域Ｂを迅速に判別できるため判定期間Ｔ０を短く（例えば、１秒）することができる。従って、録音を迅速に開始することができ、音声記録再生装置１の利便性を向上することができる。

　また、ステップ＃２１において音声パワーが所定値よりも小さい場合に変化点Ｃの検出を省いてもよい。これにより、音声パワーの変化量が大きくても音量が小さい場合にノイズによる非音声領域Ａと判断し、変数ｔ（ｉ）を格納するメモリ３の無駄な消費を抑制することができる。

　本実施形態において、音声記録再生装置１により音声の録音及び再生を行っているが、再生機能を省いて録音のみを行ってもよい。

　本発明によると、音声を記録媒体に記録して再生するボイスレコーダ等の音声記録再生装置に利用することができる。また本発明によると、記録媒体に記録された音声を再生する音声再生装置に利用することができる。また本発明によると、音声を記録媒体に記録するボイスレコーダ等の音声記録装置に利用することができる。

　　　１　　音声記録再生装置
　　　２　　ＣＰＵ
　　　３　　メモリ
　　　４　　ＦＩＦＯメモリ
　　　５　　記録媒体
　　　６　　マイク
　　　７　　Ａ／Ｄ変換部
　　　８　　ＤＳＰ
　　　９　　Ｄ／Ａ変換部
　　１０　　スピーカ
　　１１　　バスライン
　　１２　　操作部
　　１２ａ　時短再生部
　　１２ｂ　スキップボタン
　　２１　　パワー変換部
　　２２　　変化量検出部
　　２３　　変化点検出部
　　２４　　会話検出部
　　２５　　エンコーダ
　　２６　　デコーダ
　　２７　　録音開始判定部

Claims

　マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力することを特徴とする音声記録再生装置。
　マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置を記録するとともに、再生中に所定の操作によって次の前記開始位置にスキップさせることを特徴とする音声記録再生装置。
　前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断することを特徴とする請求項１または請求項２に記載の音声記録再生装置。
　前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴とする請求項３に記載の音声記録再生装置。
　前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点を検出したときに人の音声と判断することを特徴とする請求項１または請求項２に記載の音声記録再生装置。
　前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴とする請求項５に記載の音声記録再生装置。
　記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、前記判別手段によって判別した人の音声の開始位置とこれに続く終了位置との間を抽出して出力することを特徴とする音声再生装置。
　記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、再生中に所定の操作によって前記判別手段によって判別した人の音声の次の開始位置にスキップさせることを特徴とする音声再生装置。
　マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに録音を開始することを特徴とする音声記録装置。
　前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴とする請求項９に記載の音声記録装置。
　前記判定期間の音声データを蓄積するＦＩＦＯメモリを備え、録音開始時に前記ＦＩＦＯメモリの音声データを取り出して前記判定期間だけ遡って録音を行うことを特徴とする請求項９または請求項１０に記載の音声記録装置。