以下、図面に基づいて、本発明の実施の形態を説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成に限定されない。
<情報処理装置のハードウェア構成例>
図1は、情報処理装置のハードウェア構成例を示す図である。情報処理装置1は、プロセッサ101,主記憶装置102,マイクロフォン103,出力装置104,補助記憶装
置105,ネットワークインタフェース107,及びチューナー108を備える。それらはバス109により互いに接続されている。
マイクロフォン103は、利用者が発する音声を収集する。マイクロフォン103は、収集された音声に応じた電気信号をプロセッサ101に出力する。以降、音声に応じた電気信号を「音声信号」という。
ネットワークインタフェース107は、ネットワークとの情報の入出力を行うインタフェースである。ネットワークインタフェース107は、有線のネットワーク、および、無線のネットワークと接続する。ネットワークインタフェース107は、例えば、NIC(Network Interface Card),無線LAN(Local Area
Network)カード等である。ネットワークインタフェース107は、接続されるネットワークからインターネットラジオやインターネットテレビ等の音声信号を受信する。ネットワークインタフェース107で受信された音声信号は、プロセッサ101に出力される。
チューナー108は、受信周波数を選択することによって、選局し、ラジオやテレビなどの放送電波を受信する。チューナー108は、受信した放送電波の音声信号をプロセッサ101に出力する。
主記憶装置102は、プロセッサ101に、補助記憶装置105に格納されているプログラムをロードする記憶領域および作業領域を提供したり、バッファとして用いられたりする。主記憶装置102は、例えば、RAM(Random Access Memory)のような半導体メモリである。
補助記憶装置105は、様々なプログラムや、各プログラムの実行に際してプロセッサ101が使用するデータを格納する。補助記憶装置105は、例えば、EPROM(Erasable Programmable ROM)、又はハードディスクドライブ(Haard Disc Drive)である。補助記憶装置105は、リムーバルメディア、すなわち可搬記録媒体を含むことができる。リムーバルメディアは、例えば、USB(Universal Serial Bus),フラッシュメモリ,CD(Compact Disc),又はDVDのような記録媒体である。補助記憶装置105は、例えば、オペレーティングシステム(OS),利用者の音声入力時点から遡る範囲を決定するためのプログラム,音声データ再生プログラム、その他様々なアプリケーションプログラムを保持する。
プロセッサ101は、例えば、CPU(Central Prosessing Unit)や、DSP(Digital Signal Processor)である。プロセッサ101は、補助記憶装置105に保持されたOSや様々なアプリケーションプログラムを主記憶装置102にロードして実行することによって、音声に係る様々な処理を実行する。
例えば、プロセッサ101は、プログラムの実行によって、マイクロフォン103から入力される音声信号に対するディジタル変換処理を行い、音声データを得る。音声データは、主記憶装置102及び/又は補助記憶装置105に記憶される。
また、プロセッサ101は、プログラムの実行によって、ネットワークインタフェース107やチューナー108で受信される音声信号から音声データを生成し、主記憶装置102及び/又は補助記憶装置105に記録する。
ネットワークインタフェース107やチューナー108で受信される、リアルタイム処理で再生される音声信号から生成された音声データは、主記憶装置102内のバッファに所定時間蓄積される。プロセッサ101は、主記憶装置102のバッファに蓄積された音声データを逐次読み出し、復号化処理を行って音声信号に復号し、出力装置104に出力する。
また、プロセッサ101は、利用者の音声の入力時点から遡る範囲を決定するためのプログラムの実行によって、ネットワークインタフェース107,チューナー108等から入力される音声データの出力時系列上の利用者から音声の入力があった時点から遡る範囲を決定する処理を行う。処理の詳細は後述される。
また、プロセッサ101は、音声データ再生プログラムの実行によって、ネットワークインタフェース107,チューナー108等から逐次入力される音声データの再生中に、音声入力があった場合に、音声入力時点から所定範囲遡った時点から再生する処理を行う。処理の詳細は後述される。
出力装置104は、プロセッサ101の処理の結果を出力する。出力装置104は、ディスプレイ,スピーカ及びスピーカインターフェイス回路等を含む。
情報処理装置1は、例えば、パーソナルコンピュータなどの汎用のコンピュータである。また、情報処理装置1は、例えば、携帯電話,カーナビゲーションシステム,1セグメント部分受信サービス(一般に「ワンセグ放送」と呼ばれる)の受像機,ラジオ等の音声データ及び音声データを含む動画を再生し、音声情報を提供する装置である。また、それらに格納されるICチップ等である。
<第1実施形態>
第1実施形態の情報処理装置は、音声データの再生中に、利用者から音声の入力がある場合には、利用者の音声の入力を契機として、利用者の音声の入力時点から所定範囲遡った時点から音声を再生する情報処理装置である。例えば、再生中の音声を聞き逃した場合に利用者は何らかの音声を発声することで、情報処理装置は利用者の音声の入力時点から所定範囲遡った時点から音声データの再生を行う。
図2は、情報処理装置1のプロセッサ101が利用者の音声の入力時点から遡る範囲を決定するためのプログラムを実行することによって実現される機能の説明図である。情報処理装置1は、プロセッサ101が利用者の音声の入力時点から遡る範囲を決定するためのプログラムを実行することによって、入力部11,算出部12,制御部13,及び抽出部14を実現することができる。すなわち、情報処理装置1は、利用者の音声の入力時点から遡る範囲を決定するための決定プログラムの実行によって、入力部11,算出部12,制御部13,及び抽出部14を備えた装置として機能する。
入力部11は、マイクロフォン103を含み、マイクロフォン103に入力された利用者が発した音声の音声信号を入力として得る。入力部11は、音声信号のディジタル変換処理を行い、音声信号を音声データに変換する。入力部11は、音声データに、音声データが入力された時間をタイムスタンプとして付与する。タイムスタンプは、情報処理装置1が備えるクロック(図示せず)に基づいた情報処理装置1の起動からの経過時間,情報処理装置1が管理する時刻等の内のいずれかを付与する。入力部11は、利用者が発した音声の音声データを算出部12と抽出部14とに出力する。以降、利用者が発した音声の音声データを入力音声データという。
算出部12には、入力部11から入力音声データが入力される。算出部12は、入力音
声データから利用者の発話速度を算出する。
図3は、算出部12の構成例を示す図である。算出部12は、区間検出部121,音声認識部122,モーラ数算出部123,及び発話速度算出部124を含む。
区間検出部121は、入力部11から入力音声データを入力として得る。区間検出部121は、入力音声データの始端から終端までの時間を入力音声データに付与されたタイムスタンプより測定する。区間検出部121は、測定時間を入力音声データの音声区間長として発話速度算出部124に出力する。区間検出部121は、入力音声データを音声認識部122に出力する。
音声認識部122は、区間検出部121から入力音声データを入力として得る。音声認識部122は、入力音声データに基づき音声認識処理を行う。例えば、音声認識部122は、音声認識処理により、入力音声データの内容が「ねこ(猫)」であることを認識結果として得る。音声認識部122が行う音声認識処理として、既存のあらゆる音声認識の手法を適用することができる。音声認識部122は、音声認識処理の結果をモーラ数算出部123に出力する。
モーラ数算出部123は、音声認識部122から入力音声データの音声認識の結果を入力として得る。モーラ数算出部123は、音声認識の結果からモーラ数を算出する。
モーラとは、音韻論上、一定の時間的長さを持った音の分節単位である。日本語学においては、モーラは一般に「拍(はく)」とも呼ばれる。例えば、「ねこ(猫)」という単語のモーラ数は、「ネ」と「コ」とで2モーラである。例えば、「かっぱ(合羽)」という単語のモーラ数は、「カ」と「ッ」と「パ」とで3モーラである。例えば、「チョコレート」という単語のモーラ数は、「チョ」と「コ」と「レ」と「ー」と「ト」とで5モーラである。モーラ数算出部123は、入力音声のモーラ数を発話速度算出部124に出力する。
発話速度算出部124は、入力音声データの音声区間長とモーラ数とを入力として得る。発話速度算出部124は、入力音声データの音声区間長とモーラ数とから音声入力時の利用者の発話速度を算出する。発話速度算出部124は、例えば、発話速度=モーラ数/音声区間長として発話速度を算出する。例えば、入力音声データの音声区間長が0.5秒で、入力音声データのモーラ数が4である場合には、発話速度は、発話速度=4モーラ/0.5秒=8モーラ/秒と算出される。発話速度算出部124は、算出された発話速度を制御部13に出力する。
制御部13は、発話速度を入力として得る。制御部13は、発話速度に基づいて、音声データ(以降、再生音声データ,再生用音声データともいう)の出力時系列上での利用者の音声(入力音声)の入力時点に対応する時点から遡る範囲を決定する。
図4A,図4B,図4C,図4D,図4E,図4F,図4G,及び図4Hは、発話速度と利用者の音声の入力時点から遡る範囲との関係の例を示す図である。図4Aから図4Hに示される内の1つまたはそれ以上の発話速度と遡る範囲との対応表は、補助記憶装置105に記憶されている。制御部13は、入力音声データの発話速度が入力されると、例えば、図4Aから図4Hに示される対応表の少なくとも1つに基づいて、遡る範囲を決定する。遡る範囲は、時間長,音節数,モーラ数などいずれで定義されてもよい。第1実施形態においては、制御部13は、遡る範囲を時間で定義する場合について説明される。
人間は、慌てると早口になる、すなわち発話速度が大きくなるという性質を持つ。再生
中の音声を聞き逃して、利用者が早口で聞き逃した情報に関する音声を発する場合には、利用者が慌てている,又は焦っている心理状態であることが考えられる。従って、情報処理装置1に入力された利用者の音声データ(入力音声データ)の発話速度が大きい場合には、利用者が聞き直したい情報が、利用者の音声の入力時点から遡って近い範囲内に存在する可能性が高い。反対に、人間は、迷っていたり、考えていたりすると、ゆっくりと発声する、すなわち、発話速度が小さくなる。利用者がゆっくりと発声する場合には、利用者の音声の入力時点から遡って離れた箇所に利用者が聞き直したい情報が存在する可能性が高い。
図4Aに示される例は、このような人間の性質を鑑み、発話速度が大きいほど遡る範囲が小さくなるように対応付けられた発話速度と遡る範囲との対応表の例である。図4Aでは、発話速度と遡る範囲との関係が線形である場合の例が示される。
例えば、人間の発話速度は、かなり早口の場合には、15モーラ/秒、通常の場合で8モーラ/秒である。すなわち、人間が1秒間に発するモーラ数には限界があるため、発話速度には最小値と最大値とを設定することができる。例えば、図4Aでは、発話速度の最小値が0モーラ/秒、最大値が15モーラ/秒と設定される。また、図4Aでは、発話速度が最小値である場合に遡る範囲が最大値となり、発話速度が最大値である場合に遡る範囲が最小値となるように設定されている。また、図4Aでは、発話速度の最小値0モーラ/秒に対応する、遡る範囲の最大値は15秒に設定されている。また、図4Aでは、発話速度の最大値15モーラ/秒に対応する、遡る範囲は最小値が5秒に設定されている。
図4Aと同様に、図4B,図4C,及び図4Dに示される対応表の例も、発話速度が大きいほど遡る範囲が小さくなるように発話速度と遡る範囲との対応付けがなされている。また、図4Aと同様に、図4B,図4C,及び図4Dに示される対応表の例も、発話速度の最小値と最大値とが設定されており、発話速度が最小値となる場合に、遡る範囲が最大値になり、発話速度が最大値となる場合に、遡る範囲が最小値になる。
図4Bは、発話速度と遡る範囲との関係が階段状である場合の例を示す。図4Cは、発話速度と遡る範囲との関係が非線形である場合の例を示す。図4Cに示される例は、発話速度が小さい領域の方が制御しやすい、すなわち、人間は早口で話すことよりもゆっくりと話すことの方が制御しやすいという、人間の性質に最も合致した発話速度と遡る範囲の関係を実現する例である。図4Dは、発話速度と遡る範囲との関係が非線形である場合の例を示す。図4Cに示される例と比較すると、図4Dに示される例は非線形の凹凸が逆である。図4Dに示される例は、人間が制御しにくい早口の発声でも、すなわち、発話速度が大きい領域でも遡る範囲を広く設定可能な制御を実現する例である。
図4Eから図4Hは、発話速度が大きいほど遡る範囲が広くなるように対応付けられた発話速度と遡る範囲との対応表の例を示す。図4Aから図4Dに示される例と同様に、図4Eから図4Hに示される例にも、発話速度には、最小値と最大値とが設定可能である。図4Eから図4Hに示される対応表の例では、発話速度の最小値に対応して遡る範囲の最小値,発話速度の最大値に対応して遡る範囲の最大値が設定される。図4Eから図4Hに示される例では、発話速度が最小値となる場合に、遡る範囲が最小値になる。図4Eから図4Hに示される例では、発話速度が最大値となる場合に、遡る範囲が最大値になる。
図4Eは、発話速度と遡る範囲との関係が線形である場合の例を示す。図4Fは、発話速度と遡る範囲との関係が階段状である場合の例を示す。図4Gは、発話速度と遡る範囲との関係が非線形である場合の例を示す。図4Gに示される例は、発話速度が小さい領域の方が制御しやすい、すなわち、早口で話すことよりもゆっくりと話すことの方が制御しやすいという、人間の性質に最も合致した、発話速度と遡る範囲の関係を実現する例であ
る。図4Hは、発話速度と遡る範囲との関係が非線形である場合の例を示す。図4Gに示される例と比較すると、図4Hに示される例は非線形の凹凸が逆である。図4Hに示される例は、人間が制御しにくい早口の発声でも、すなわち、発話速度が大きい領域でも遡る範囲を広く設定可能な制御を実現する例である。
制御部13は、例えば、図4Aから図4Hの発話速度と遡る範囲との対応表を用いて、遡る範囲を決定し、抽出部14に出力する。
抽出部14は、入力部11から入力音声データと、制御部13から遡る範囲とを入力として得る。抽出部14は、入力部11に利用者の音声が入力された時点から遡る範囲に相当する時間を遡った時点から、主記憶装置102内にバッファされている再生音声データを抽出する。
再生音声データは、ネットワークインタフェース107(図1)、又は、チューナー108(図1)から入力された音声信号をディジタル信号の場合はそのまま、あるいはアナログ信号の場合はディジタル変換したものであって、主記憶装置102(図1)にバッファされている音声データである。主記憶装置102内のバッファには、現時点から、利用者の音声が入力された時点から遡る範囲よりも充分長い所定時間遡った時点までの、出力装置104から出力された音声データと同じ内容の音声データが蓄積されている。再生音声データには、再生音声データと同じ音声データが情報処理装置1から出力される時間がタイムスタンプとして付与されている。例えば、再生音声データが主記憶装置102のバッファに格納される時間を再生音声データと同じ内容の音声データが情報処理装置1から出力される時間とみなしてもよい。また、再生音声データに付与されるタイムスタンプは、情報処理装置1が備えるクロック(図示せず)に基づいた情報処理装置1の起動からの経過時間,時刻,再生音声データの先頭を始点(0:ゼロ)とした場合の出力時間の何れであってもよい。第1実施形態では、再生音声データに付与されたタイムスタンプが示す時系列は、再生音声データの出力時系列と呼ばれる。
入力音声データにも情報処理装置1に入力された時点のタイムスタンプが付与されているので、抽出部14は、入力音声データの入力時点に対応する、再生音声データの出力時系列上での時点を求めることができる。例えば、再生音声データと入力音声データともに、情報処理装置1のクロックによる起動からの経過時間がタイムスタンプとして付与されている場合には、入力音声データのタイムスタンプが示す時間が、入力音声データの入力時点に対応する、再生音声データの出力時系列上での時点となる。また、再生音声データのタイムスタンプと、入力音声データのタイムスタンプとが異なる時系列である場合には、抽出部14は、入力音声データのタイムスタンプが示す時間を、再生音声データの出力時系列上の時間に変換して、入力音声データの入力時点に対応する再生音声データの出力時系列上での時点を得る。
抽出部14は、求められた入力音声データの入力時点に対応する、再生音声データの出力時系列上での時点から、制御部13入力された遡る範囲に相当する時間を遡った時点を先頭として順次再生音声データを抽出する。抽出部14は、抽出された再生音声データを出力する。なお、第1実施形態では、入力部11から入力された入力音声データは、用いられないが、入力音声データを用いてもよい。入力音声データが用いて処理を行う情報処理装置の実施形態については、後述される。
抽出部14から出力された再生音声データは、プロセッサ101によって、復号処理により音声信号に復号され、出力装置104から再生出力される。
図5は、情報処理装置1の処理フローの例を示す図である。図5に示される例は、情報
処理装置1がインターネットラジオなどの再生音声データをリアルタイム処理によって再生中に、利用者の音声がマイクロフォン103から入力された場合を示す。
例えば、情報処理装置1から出力される音声を聴取する利用者は、音声の聞き逃しなどによって、出力された音声をすぐに聞き直したい場合などに、再度聴取を希望する情報に関連する文言を発する。例えば、情報処理装置1から「本日の電機関連株価終値は、A社X円、B社Y円・・・」という音声情報が出力されている場合に、A社の株価の聴き直しを希望する利用者が「A社」と発声する。
利用者の音声信号「A社」は、マイクロフォン103を通じて入力部11に入力される。入力部11は、利用者の音声信号「A社」が入力されると、入力音声を検出する(OP1)。入力部11は、利用者の音声信号「A社」を入力音声データ「A社」に変換して、抽出部14と、区間検出部121とに出力する。
区間検出部121は、入力音声データ「A社」が入力されると、入力音声「A社」の音声区間長を測定する(OP2)。例えば、入力音声データ「A社」の音声区間長が0.5秒であったとする。区間検出部121は、入力音声データ「A社」の音声区間長である0.5秒を発話速度算出部124に出力する。区間検出部121は、入力音声データ「A社」を音声認識部122に出力する。
音声認識部122は、入力音声データ「A社」が入力されると、音声認識処理を実行する(OP3)。音声認識部122の音声認識処理により、入力音声データの文言が「A社」であることが判明する。音声認識部122は、音声認識処理の結果である入力音声データの文言「A社」をモーラ数算出部123に出力する。
モーラ数算出部123は、音声認識処理の結果である入力音声データの文言「A社」が入力されると、入力音声データの文言「A社」のモーラ数を算出する(OP4)。音声認識処理の結果が「A社」である場合には、モーラ数算出部123は、「A社」のモーラ数を「エ」と「ー」と「シャ」とで3モーラと算出する。モーラ数算出部123は、「A社」は3モーラであることを発話速度算出部124に出力する。
発話速度算出部124は、入力音声データ「A社」の音声区間長0.5秒とモーラ数3モーラとが入力されると、入力音声データ「A社」の発話速度を算出する(OP5)。発話速度算出部124は、入力音声データ「A社」の発話速度を発話速度=入力音声データ「A社」のモーラ数÷入力音声データ「A社」の音声区間長=3モーラ÷0.5秒=6モーラ/秒と算出する。発話速度算出部124は、入力音声データ「A社」の発話速度6モーラ/秒を制御部13に出力する。
制御部13は、入力音声データ「A社」の発話速度(6モーラ/秒)が入力されると、発話速度に基づいて入力音声データの入力時点から遡る範囲を決定する(OP6)。制御部13は、補助記憶装置105に記憶された発話速度と遡る範囲との対応表(図4Aから図4H参照)を参照して、入力音声データの入力時点から遡る範囲を決定する。例えば、入力音声データ「A社」の発話速度が6モーラ/秒である場合には、制御部13は、入力音声データの入力時点から遡る範囲を9秒と決定する。制御部13は、入力音声データの入力時点から遡る範囲「9秒」を抽出部14に出力する。
抽出部14は、入力音声データ「A社」と、入力音声データの入力時点から遡る範囲「9秒」とが入力されると、主記憶装置102内のバッファに蓄積されている再生音声データの出力時系列上の入力音声データの入力時点に対応する時点を求める。抽出部14は、主記憶装置102のバッファ内に蓄積された再生音声データから、入力音声「A社」が入
力された時点に対応する再生音声データの出力時系列上の時点から遡る範囲(9秒)を遡った時点を先頭として、順次再生音声データを抽出する(OP7)。抽出部14は、抽出された再生音声データを出力する。抽出部14から出力された再生音声データは、出力装置104から再生出力される。
情報処理装置1は、利用者が発する音声の発話速度に応じて、利用者の音声の入力時点に対応する再生音声データの出力時系列上の時点から遡る範囲を設定する。例えば、発話速度が大きくなるにつれて遡る範囲が小さくなるように設定する。例えば、発話速度が大きくなるにつれて遡る範囲が大きくなるように設定する。このように、情報処理装置1によれば、発話速度に応じて、利用者の音声入力時点に対応する再生音声データの出力時系列上の時点から遡る範囲の設定を制御することが可能である。
また、情報処理装置1が、発話速度が小さいときに、すなわち、利用者がゆっくりと発話したときに、遡る範囲を大きく設定する場合には、聞き逃した情報のような再確認したい情報を再度情報処理装置1から利用者が聴取する可能性が高くなる。
また、発話速度が大きい場合、すなわち、利用者が早口で発話した場合には、利用者が再確認したい情報が利用者の音声入力時点から遡って近い時点に存在する可能性が高い。情報処理装置1が発話速度が大きい場合に遡る範囲を小さく設定することによって、情報処理装置1の処理量を低減することができ、音声データの再生処理の効率の向上が期待できる。
<第2実施形態>
第2実施形態の情報処理装置は、音声データの再生中に、利用者から聞き逃した情報などの再確認したい情報に関する音声が入力された場合に、再確認したい情報に関する音声の文言(キーワード)を認識し、その文言をバッファされている音声データから検索する。情報処理装置は検索の結果、ピンポイントでキーワードを含む音声データを再生する。また、第2実施形態の情報処理装置は、利用者が発した音声の発声速度によって、音声データの検索範囲を制御する。第2実施形態の情報処理装置の構成は、第1実施形態の情報処理装置の構成と一部共通する。第2実施形態では、第1実施形態と共通する箇所の説明は省略される。
<<情報処理装置の構成例>>
図6は、情報処理装置のプロセッサが音声データ再生プログラムを実行することによって実現される機能の説明図である。図6に示される情報処理装置2のハードウェア構成は図1に示される情報処理装置1と同様である。情報処理装置2は、プロセッサ101が音声データ再生プログラムを実行することによって、データ入力部21,記録部22,音声入力部24,算出部25,制御部26,検索部27,出力範囲決定部28,及び出力部29を実現することができる。すなわち、情報処理装置2は、音声データ再生プログラムの実行によって、データ入力部21,記録部22,記憶部23,音声入力部24,算出部25,制御部26,検索部27,出力範囲決定部28,及び出力部29を備えた装置として機能する。
データ入力部21は、図1に示されるネットワークインタフェース107,又は、チューナー108と接続し、無線通信または有線による通信により他の装置から音声信号を入力として得る。データ入力部21は、例えば、ラジオ放送電波、ワンセグ放送等の音声信号を入力として得る。データ入力部21は、音声信号を情報処理装置2で扱える音声データに変換し、記録部22と出力部29とに出力する。データ入力部21は、例えば、アナログ信号からディジタル信号へ変換し、ディジタル信号を符号化して音声データを得る。以降、データ入力部21を介して情報処理装置2に入力される音声データを再生用音声デ
ータと呼ぶ。
また、データ入力部21は、再生用音声データが出力される時間をタイムスタンプとして再生用音声データに付与する。タイムスタンプは、例えば、情報処理装置2が備えるクロック(図示せず)に基づいた情報処理装置2の起動からの経過時間,情報処理装置2が管理する時刻,再生音声データの先頭を始点(0:ゼロ)とした場合の経過時間の何れであってもよい。また、第2実施形態では、再生用音声データがデータ入力部21に入力された時点の時間に、再生用音声データが情報処理装置2に入力されて出力されるまでに要すると予測される時間を加算した時点を、再生用音声データの出力時点とみなしている。第2実施形態では、再生用音声データに付与されたタイムスタンプが示す時系列は、再生用音声データの出力時系列と呼ばれる。
記録部22は、データ入力部21から再生用音声データを入力として得る。記録部22は、再生用音声データを記憶部23に格納する。
記憶部23は、図1に示される主記憶装置102の記憶領域の一部である。記憶部23は、記録部22によって記録される再生用音声データを所定時間保持する。
音声入力部24は、図1に示されるマイクロフォン103と接続し、マイクロフォン103を通じて利用者の発した音声信号を入力として得る。音声入力部24は、入力された音声信号を情報処理装置2が扱える音声データに変換する。例えば、音声入力部24は、入力された音声信号をアナログ音声信号からディジタル音声信号に変換し、ディジタル音声信号を符号化し音声データを得る。音声入力部24は、利用者の音声データを算出部25と検索部27とに出力する。なお、利用者が発する音声の発話内容は、利用者が再確認を希望する情報を示す語句である。音声入力部24に入力された利用者の音声及び音声データは、以降、キーワード音声及びキーワード音声データと呼ばれる。
また、音声入力部24は、キーワード音声データが入力された時点の時間をタイムスタンプとしてキーワード音声データに付与する。タイムスタンプは、例えば、情報処理装置2が備えるクロック(図示せず)に基づいた情報処理装置2の起動からの経過時間,情報処理装置2が管理する時刻の何れであってもよい。
算出部25は、音声入力部24からキーワード音声データを入力として得る。算出部25は、キーワード音声データの発話速度を算出する。算出部25は、区間検出部251,音声認識部252,モーラ数算出部253,及び発話速度算出部254を含む。算出部25,及び算出部25に含まれる区間検出部251,音声認識部252,モーラ数算出部253,及び発話速度算出部254は、第1実施形態における算出部15及び算出部15に含まれる区間検出部121,音声認識部122,モーラ数算出部123,及び発話速度算出部124とそれぞれ同様である。算出部25は、算出されたキーワード音声の発話速度を制御部26に出力する。
制御部26は、キーワード音声データの発話速度を入力として得る。制御部26は、例えば、発話速度に基づいて、記憶部23に保持されている再生用音声データ内でキーワード音声の語句(キーワード)を検索するための検索範囲を決定する。制御部26は、対応表記憶部261を含む。対応表記憶部261は、図1に示される補助記憶装置105のデータ格納領域の一部であり、発話速度と検索範囲の対応表(図4Aから図4H参照)を保持する。制御部26は、第1実施形態の制御部13の遡る範囲の決定処理と同様にして、対応表記憶部261に保持された発話速度と検索範囲との対応表に基づいて検索範囲を決定する。制御部26は、決定された検索範囲を検索部27に出力する。検索範囲は、時間長,音節数,モーラ数などいずれで定義されてもよい。第2実施形態においては、制御部
26は、検索範囲を時間で定義する場合について説明される。
検索部27は、キーワード音声データと検索範囲とを入力として得る。検索部27は、キーワード音声データの入力時点に対応する、記憶部23に保持される再生用音声データの出力時系列上の時点を求める。検索部27は、キーワード音声データに付与されたタイムスタンプと、再生用音声データに付与されたタイムスタンプとから、キーワード音声データの入力時点に対応する、再生用音声データの出力時系列上の時点を求めることができる。例えば、再生用音声データとキーワード音声データともに、情報処理装置2のクロックによる起動からの経過時間がタイムスタンプとして付与されている場合には、キーワード音声データのタイムスタンプが示す時間が、キーワード音声データの入力時点に対応する、再生用音声データの出力時系列上の時点となる。また、再生用音声データのタイムスタンプと、キーワード音声データのタイムスタンプとが異なる時系列である場合には、検索部27は、キーワード音声データのタイムスタンプが示す時間を、再生音声データの出力時系列上の時間に変換して、入力音声データの入力時点に対応する再生音声データの出力時系列上での時点を得る。
検索部27は、記憶部23に保持される再生用音声データから、再生用音声データの出力時系列上の利用者のキーワード音声の入力時点に対応する時点から、検索範囲に相当する時間を遡った時点までの再生用音声データを部分音声データとして読み出す。検索部27は、読み出された部分音声データ内にキーワードが含まれるか否かの検索を行う。また、検索部27は、部分音声データとして、利用者からのキーワード音声の入力時点の直前若しくは直後の無音箇所の時点から検索範囲に相当する時間を遡った時点までの再生用音声データを記憶部23から読み出してもよい。無音箇所とは、息継ぎ時の呼気の箇所や、文章と文章の間の一定時間以上の無音箇所を指す。以降、キーワード音声の入力時点という場合には、キーワード音声の入力時点に対応する、再生用音声データの出力時系列上の時点が示されることとする。
検索部27は、記憶部23から読み出された部分音声データ内の利用者が発したキーワードの検索に、例えば、ワードスポッティングのような音声認識の技術を用いる。
図7は、検索部27がワードスポッティング技術を用いて、キーワードの検索を行う場合の例を示す。ワードスポッティングとは、音声データの周波数成分のような特徴となるパラメータを用いて、検出したい特定の単語を抽出する方法である。
図7に示される例は、情報処理装置2から再生用音声の出力中に、利用者がキーワード「A社」を発した場合に、再生用音声データから抽出された部分音声データ「今日の株価はA社500円、B社・・・」にキーワード「A社」が含まれるか否かを検索する例である。図7には、「今日の株価はA社500円、B社・・・」という内容の部分音声データの音声波形と「A社」というキーワード音声データの音声波形とが示されている。検索部27は、キーワード音声の入力時点から、検索範囲に相当する時間を遡った時点までに含まれる再生用音声データを部分音声データとして記憶部23から読み出す。検索部27は、部分音声データと、キーワード音声データ「A社」とを比較することで、部分音声データからキーワード「A社」を検出する。検索部27は、部分音声データを、例えば、音節または単語ごとに区切る。音節または単語で区切られた部分音声データごとにパラメータを算出し、このパラメータとキーワード音声データ「A社」のパラメータとをそれぞれ比較する。検索部27は、音節または単語で区切られた部分音声データうちの1つのパラメータとキーワード音声データ「A社」のパラメータとが合致する場合に、部分音声デーからキーワード「A社」を検出し、検出成功を判定する。読み出された部分音声データ内にキーワードが検出された場合には、検索部27は、検出結果を出力範囲決定部28に出力する。
音節または単語で区切られた部分音声データのパラメータとキーワード音声データ「A社」のパラメータとが合致しない場合には、検索部27は、部分音声データからキーワード「A社」を検出できず、検出失敗を判定する。読み出された部分音声データからキーワードが検出されない場合には、検索部27は制御部26に検索範囲の再設定要求を出力する。
制御部26は、検索部27から検索範囲の再設定要求を入力として得ると、検索範囲を設定し直す。
図8A,図8B,及び図8Cは、検索範囲の再設定処理の例である処理1から処理3を示す図である。制御部26は、検索範囲の再設定処理として、図8A,図8B,及び図8Cにそれぞれ示される処理1,処理2,処理3の何れを行ってもよい。図8A,図8B,及び図8Cは、いずれも1回目の検索時の検索範囲が制御部26によって5秒に設定される場合を示す。また、図8A,図8B,及び図8Cは、キーワードが「A社」である場合を示す。
図8Aは、検索範囲の再設定処理の一例である処理1を示す図である。制御部26は、検索部27から検索範囲の再設定要求が入力されると、1回目と同じサイズで2回目の検索範囲を決定する。制御部26は、決定された2回目の検索範囲を検索部27に出力する。
検索部27は、1回目の検索範囲と同じサイズである2回目の検索範囲が入力されると、キーワード音声の入力時点から1回目の検索範囲を遡った時点から、さらに2回目の検索範囲を遡った時点までの部分音声データを読み出し、キーワードの検索を行う。例えば、図8Aにおいては、検索部27は、キーワード音声「A社」の入力時点から1回目の検索範囲(5秒)を遡った時点から、さらに2回目の検索範囲(5秒)を遡った時点までの再生用音声データを部分音声データとして読み出す。すなわち、キーワード音声「A社」の入力時点の5秒前から10秒前の範囲に含まれる再生用音声データを部分音声データとして読み出す。図8Aでは、キーワード音声の入力時点の5秒前から10秒前の範囲に含まれる部分音声データ内を検索する2回目の検索で、キーワード「A社」が検出される場合を示している。検索部27は、2回目の検索でキーワード「A社」が検出されると、検出結果を出力範囲決定部28に出力する。
2回目の検索でも、キーワード「A社」が検出されない場合には、検索部27は、再度制御部26に検索範囲の再設定要求を出力する。制御部26は、再度検索範囲の再設定要求が入力されると、3回目の検索範囲を1回目及び2回目と同じ検索範囲に設定する。制御部26は、3回目の検索範囲を検索部27に出力する。検索部27は、3回目の検索範囲が入力されると、キーワード音声の入力時点から1回目の検索範囲と2回目の検索範囲とを遡った時点から、さらに3回目の検索範囲遡った時点までの部分音声データを読み出し、キーワードの検索を行う。図8Aにおいては、キーワード音声データ「A社」の入力時点から1回目の検索範囲(5秒)と2回目の検索範囲(5秒)とを遡った時点から、さらに3回目の検索範囲(5秒)を遡った時点までに含まれる再生用音声データを部分音声データとして読み出す。すなわち、検索部27は、キーワード音声データ「A社」の入力時点の10秒前から15秒前の範囲に含まれる再生用音声データを部分音声データとして読み出す。検索部27は、読み出された部分音声データ内で3回目のキーワード「A社」の検索を実行する。
検索部27及び制御部26は、記憶部23から読み出された部分音声データからキーワード「A社」が検出されるまで、上記の検索処理を予め設定されたn+1(nは0を含ま
ない自然数)回繰り返す。n+1回繰り返してもキーワード「A社」が検出されない場合には、検索部27は、「検出失敗」を出力範囲決定部28に出力する。「検出失敗」が入力されると、出力範囲決定部28から出力部29、および、出力部29に接続されている出力装置104を通じて、利用者にキーワードの検出に失敗したことが通知される。キーワードの検出が失敗する原因として、例えば、利用者の発声が不明瞭で、正しく音声認識できない場合などが考えられる。
図8Bは、検索範囲の再設定処理の一例である処理2を示す図である。制御部26は、検索部27から検索範囲の再設定要求が入力されると、1回目の検索範囲のα倍(α>1を2回目の検索範囲に決定する。決定された2回目の検索範囲は検索部27へ出力される。例えば、図8Bに示す例では、α=2であり、制御部26は2回目の検索範囲として、1回目の検索範囲(5秒)のα倍(2倍)である10秒を指定する。
検索部27は、1回目の検索範囲のα倍である2回目の検索範囲が入力されると、キーワード音声の入力時点から1回目の検索範囲を遡った時点から、さらに2回目の検索範囲を遡った時点に含まれる部分音声データを記憶部23から読み出す。図8Bにおいては、検索部27は、キーワード音声データ「A社」の入力時点から1回目の検索範囲(5秒)を遡った時点から、さらに2回目の検索範囲(10秒)を遡った時点に含まれる再生用音声データを部分音声データとして読み出す。すなわち、検索部27は、キーワード音声データ「A社」の入力時点の5秒前から15秒前の範囲に含まれる再生用音声データを部分音声データとして読み出す。図8Bでは、キーワード音声データ「A社」の入力時点の5秒前から15秒前に含まれる部分音声データ内を検索する2回目の検索で、キーワード「A社」が検出される場合を示している。
2回目の検索でも、キーワード「A社」が検出されない場合には、検索部27及び制御部26は、図8Aで示される処理1の場合と同様に、キーワード「A社」が検出されるまで検索処理をn+1回繰り返す。検索部27は、n+1回目の検索処理が失敗すると、「検索失敗」を出力範囲決定部28に出力する。
図8Cは、検索範囲の再設定処理の一例である処理3を示す図である。制御部26は、検索部27から検索範囲の再設定要求が入力されると、キーワード音声の入力時点から1回目の検索範囲を遡った時点から、記憶部23に格納される再生用音声データの先頭までを2回目の検索範囲と決定し、2回目の検索範囲を検索部27に出力する。
検索部27は、2回目の検索範囲が入力されると、キーワード音声の入力時点から1回目の検索範囲を遡った時点から、記憶部23に格納される再生用音声データの先頭までの部分音声データを記憶部23から読み出す。検索部27は、読み出された部分音声データ内で、キーワード「A社」の2回目の検索を実行する。図8Cの処理3では、検索部27がデータの先頭から検索を行うので、2回目の検索でキーワード「A社」が検出される可能性が処理1及び処理2よりも高い。
以上、図8A,図8B,及び図8Cで説明された、検索範囲の再設定処理をまとめると以下の通りである。
(処理1)2回目以降の検索範囲として、制御部26は、1回目の検索範囲と同じ範囲を設定する。
(処理2)2回目以降の検索範囲として、制御部26は、前回の検索範囲のα倍(α>1)の検索範囲を設定する。
(処理3)2回目の検索範囲として、制御部26は、再生用音声データの先頭から1回目の検索の部分音声データの開始点までを設定する。
図9Aから図9Dは、部分音声データ内でキーワードが複数検出される場合の処理の例である処理Aから処理Dを示す図である。検索部27は、部分音声データ内にキーワードが複数検出される場合には、処理Aから処理Dの何れを実行してもよい。図9Aから図9Dに示される例は、検索部27がキーワードとして「A社」の検索処理を実行する例を示す。
図9Aは、部分音声データ内にキーワードが複数検出される場合の処理の一例である処理Aを示す図である。処理Aでは、検索部27は、検出されたキーワードの中から、キーワードの入力時点から遡って時間的に最も近いキーワードを検索結果として出力範囲決定部28に出力する。
図9Bは、部分音声データ内にキーワードが複数検出される場合の処理の一例である処理Bを示す図である。処理Bでは、検索部27は、検出されたキーワードの中から、キーワードの入力時点から遡って時間的に最も遠いキーワードを検索結果として出力範囲決定部28に出力する。
図9Cは、部分音声データ内にキーワードが複数検出される場合の処理の一例である処理Cを示す図である。処理Cでは、検索部27は、検出されたキーワードの中の任意のキーワードを検索結果として出力範囲決定部28に出力する。
図9Dは、部分音声データ内にキーワードが複数検出される場合の処理の一例である処理Dを示す図である。処理Dでは、検索部27は、検出されたすべてのキーワードを検索結果として出力範囲決定部28に出力する。
出力範囲決定部28は、検索部27からキーワードの検索結果が入力されると、再生用音声データを記憶部23から読み出す際の先頭位置を決定する。再生用音声データを記憶部23から読み出す際の先頭位置は、再生用音声データの再生の開始位置である。
図10A及び図10Bは、再生用音声データを記憶部23から読み出すときの先頭位置を決定する処理の例を示す図である。図10A及び図10Bでは、例えば、「本日の電機関連株価終値は、A社X円、B社Y円・・・」という音声情報の出力中に、A社の株価を聞き直したい利用者が「A社」とキーワードを発する場合の例を示す。図10A及び図10Bに示される例では、検索部27によるキーワードの検索処理によって、キーワード「A社」が検出された場合に、出力範囲決定部28が記憶部23から再生用音声データを読み出す際の先頭を決定する例を示す。
図10Aに示される例では、出力範囲決定部28は、検出されたキーワード「A社」を、記憶部23から再生用音声データを読み出すときの先頭として決定する。出力範囲決定部28は、キーワード「A社」を先頭として、記憶部23から順次再生用音声データを読み出し、出力部29に出力する。出力部29を通じて出力装置104からは、「A社X円、B社Y円。鋼鉄関連株価は、・・・」というように、検出されたキーワード「A社」を開始位置として再生用音声データが出力される。
図10Bに示される例では、出力範囲決定部28は、検出されたキーワード「A社」の時間的に直前の無音箇所を、記憶部23から再生用音声データを読み出すときの先頭として決定する。出力範囲決定部28は、検出されたキーワード「A社」の時間的に直前の無音箇所を先頭として記憶部23から再生用音声データを読み出し、出力部29に出力する。無音箇所とは、文と文との間の一定時間以上の無音箇所、情報を読み上げる人の息継ぎ箇所等である。出力部29を通じて出力装置104からは、「本日の電機関連株価終値は、A社X円、B社Y円。・・・」というように、検出されたキーワード「A社」の時間的
に直前の無音箇所を開始位置として、再生用音声データが出力される。
情報処理装置2は、図10Aに示される処理と図10Bに示される処理とのいずれかを実行する。
出力部29は、データ入力部21から再生用音声データを入力として得る。例えば、出力部29は、再生用音声データをディジタル信号に復号する。出力部29は、スピーカ等の出力装置104(図1)に接続しており、出力装置104に復号化されたディジタル信号を出力する。出力部29から出力されたディジタル信号は、アナログ信号に変換され出力装置104から音声信号として出力される。
また、出力部29は、再生用音声の入力をデータ入力部21と出力範囲決定部28との間で切り換える。出力部29は、出力範囲決定部28から再生用音声データが入力されると、再生用音声データの入力をデータ入力部21から出力範囲決定部28に切り換える。また、その後、例えば、出力範囲決定部28から所定時間再生用音声データが入力されない場合には、出力部29は、出力範囲決定部28からデータ入力部21に再生用音声データの入力を切り換える。
出力部29は、出力範囲決定部28から順次入力される再生用音声データを1倍の速度で再生してもよい。また、出力部29は、出力範囲決定部28から順次入力される再生用音声データを、例えば、2倍の速度で再生してもよい。出力範囲決定部28から入力される再生用音声データを2倍速で再生する場合には、ある時点で出力範囲決定部28から入力される再生用音声データが入力部21から入力されるリアルタイム処理の再生用音声データに追いつく。その後、出力範囲決定部28から再生用音声データが入力されなくなるので、出力部29は、出力範囲決定部28からデータ入力部21に再生用音声データの入力を切り換え、データ入力部21から入力される再生用音声データを1倍速で再生する。
<<情報処理装置の処理フロー>>
図11は、情報処理装置2の処理フローの例を示す図である。図11に示される例は、音声データの再生中に利用者が聞き直したい情報に関するキーワードを発する場合の例である。
情報処理装置2は、出力部29からの音声データの再生開始(出力開始)とともに、図11の処理フローを開始する。
例えば、出力部29から「本日の電機関連株価終値は、A社X円、B社Y円・・・」という音声情報が出力されている場合に、A社の株価を聴き直したい希望する利用者が「A社」とキーワードを発する。
音声入力部24は、この利用者の「A社」というキーワードの発声を入力音声として検出する(OP21)。音声入力部24は、キーワード音声データ「A社」を算出部25と検索部27とに出力する。
算出部25の区間検出部251は、キーワード音声データ「A社」が入力されると、キーワード音声データ「A社」の音声区間長を測定する(OP22)。例えば、キーワード音声データ「A社」の音声区間長が0.5秒であったとする。区間検出部251は、キーワード音声データ「A社」の音声区間長を発話速度算出部254に出力する。区間検出部251は、キーワード音声データ「A社」を音声認識部252に出力する。
音声認識部252は、キーワード音声データ「A社」が入力されると、音声認識処理を
実行する(OP23)。音声認識部252の音声認識処理により、キーワードが「A社」であることが判明する。音声認識部252は、音声認識処理の結果「A社」をモーラ数算出部253に出力する。
モーラ数算出部253は、音声認識の結果「A社」が入力されると、モーラ数を算出する(OP24)。音声認識の結果が「A社」である場合には、モーラ数算出部253は、「A社」のモーラ数を「エ」と「ー」と「シャ」とで3モーラと算出する。モーラ数算出部253は、「A社」は3モーラであることを発話速度算出部254に出力する。
発話速度算出部254は、キーワード音声データ「A社」の音声区間長0.5秒とモーラ数3モーラとが入力されると、キーワード音声データ「A社」の発話速度を算出する(OP25)。発話速度算出部254は、キーワード音声データ「A社」の発話速度を発話速度=キーワード音声データ「A社」のモーラ数÷キーワード音声データ「A社」の音声区間長=3モーラ÷0.5秒=6モーラ/秒と算出する。発話速度算出部254は、キーワード音声データ「A社」の発話速度6モーラ/秒を制御部26に出力する。
制御部26は、キーワード音声データ「A社」の発話速度6モーラ/秒が入力されると、発話速度に基づいて検索範囲を決定する(OP26)。制御部26は、対応表記憶部261内に保持された発話速度と検索範囲との対応表(図4Aから図4H参照)を参照して検索範囲を決定する。例えば、入力音声データ「A社」の発話速度が6モーラ/秒の場合には、制御部26は、検索範囲を3秒と決定する。制御部26は、決定された検索範囲「3秒」を検索部27に出力する。
検索部27は、キーワード音声データ「A社」と検索範囲「3秒」とが入力されると、記憶部23から、キーワード音声データの入力時点から検索範囲遡った範囲に含まれる部分音声データを読み出し、部分音声データ内でキーワードを検索する(OP27)。検索部27は、例えば、図7で示されるワードスポッティングなどを用いて検索処理を実行する。
検索部27の検索処理が失敗した場合、すなわち、部分音声データ内でキーワード「A社」が検出されない場合には(OP28:No)、検索部27は検索範囲の再設定要求を制御部26に出力する。制御部26は、検索範囲の再設定要求が入力されると、検索範囲の再設定を行う(OP29)。制御部26は、再設定された検索範囲を検索部27に出力する。検索部27は、前回の検索の検索範囲から再設定された検索範囲遡った範囲に含まれる部分音声データを記憶部23から読み出して、キーワード「A社」を再度検索する(OP27)。
検索部27の検索処理が成功した場合、すなわち、部分音声データ内にキーワード「A社」が検出された場合には(OP28:Yes)、検索部27は、検出結果を出力範囲決定部28に出力する。出力範囲決定部28は、再生用音声データの再生の開始点を決定し、記憶部23から順次再生用音声データを読み出して出力部29に出力する。出力部29は、出力範囲決定部28から再生用音声データが入力され始めると、データ入力部21から入力される再生用音声データの出力処理を中断し、出力範囲決定部28から入力される再生用音声データを出力する(OP30)。
OP27,OP28,及びOP29における処理は、図8A,図8B,及び図8Cに示される、検索範囲の再設定処理の例である処理A,処理B,及び処理Cの何れかの処理である。
<<第2実施形態の作用効果>>
第2実施形態の情報処理装置2は、利用者が発する聞き直したい情報に関するキーワードを認識し、キーワードの入力時点から検索範囲遡った範囲に含まれる部分音声データ内でキーワードを検索する。情報処理装置2は、部分音声データ内でキーワードが検出されない場合には検索範囲を再設定する。このように、情報処理装置2は、キーワードを検索し、検索結果に応じて検索範囲を変えて再度検索することによって、利用者が聞き直したい情報を精度良く出力することができる。
また、利用者は、聞き逃しのような再確認したい情報に関するキーワードを発声するのみで、再確認したい情報を再度再生することができるので、操作が容易である。また、再確認したい情報に関連するキーワードを検索することにより、利用者は再確認したい情報をピンポイントで得ることができる。
情報処理装置2は、第1実施形態の情報処理装置1と同様に、利用者の発声の発話速度に応じて検索範囲を設定する。例えば、発話速度が大きくなるにつれて検索範囲が小さくなるように設定する。例えば、発話速度が大きくなるにつれて検索範囲が大きくなるように設定する。このように、情報処理装置1によれば、発話速度に応じて、キーワードの検索範囲の設定を制御することが可能である。
また、情報処理装置2が、発話速度が小さいときに、すなわち、利用者がゆっくりと発話したときに、検索範囲を大きく設定する場合には、キーワードが検索範囲に含まれる可能性が高くなり、1回の検索でキーワードが検出される精度が向上する。
また、発話速度が大きい場合、すなわち、利用者が早口で発話した場合には、利用者が再確認したい情報が利用者の音声入力時点から遡って近い時点に存在する可能性が高い。情報処理装置2が発話速度が大きい場合に検索範囲を小さく設定することによって、情報処理装置のキーワード検索の処理量を低減することができ、効率の向上が期待できる。
情報処理装置2は、キーワードの検索結果に従って、記憶部23に保持される再生用音声データの読み出し開始位置(再生開始位置)を制御することができる。
<変形例>
第1実施形態及び第2実施形態では、発話速度算出部124及び発話速度算出部254は、入力音声のモーラ数と時間長とから発話速度を算出した。入力音声のモーラ数に代えて、発話速度算出部124及び発話速度算出部254は、入力音声のスペクトル特性等を用いて発話速度を算出してもよい。発話速度算出部124及び発話速度算出部254は、一般的に広く用いられる発話速度の算出法を用いることができる。
第1実施形態及び第2実施形態では、制御部13及び制御部26は、それぞれ、時間を単位として遡る範囲又は検索範囲を決定した。時間を単位として遡る範囲又は検索範囲を決定することに代えて、制御部13及び制御部26は、音節数,単語数,呼気段落、無音区間等を用いて遡る範囲又は検索範囲を決定してもよい。
第1実施形態及び第2実施形態では、情報処理装置1及び情報処理装置2は、ネットワークインタフェース107やチューナー108から逐次入力される音声信号をリアルタイムに再生中に、利用者の音声入力を契機に、利用者の音声の入力時点から所定範囲遡った時点から音声データを再生する処理ついて説明された。情報処理装置1及び情報処理装置2は、補助記憶装置105などに予め保持される音声データを再生中にも、第1実施形態及び第2実施形態で説明された処理を実行することができる。
第2実施形態では、検索部27は、検索範囲でキーワードを検索する方法としてワード
スポッティング技術を用いた。ワードスポッティング技術に代えて、検索部27は、他の音声認識の技術を用いてもよい。例えば、再生用音声データはテキスト化されて記憶部23に格納されており、検索部27は、キーワード音声データをテキスト化し、検索範囲内に含まれる再生用音声データのテキストから、キーワードの検索を行ってもよい。
また、第2実施形態において、音声認識部252がキーワード音声データの音声認識処理を終了した後、利用者に対してキーワード音声データの音声認識結果を確認してもよい。例えば、音声認識部252は、キーワード音声データの音声認識結果を出力部29に出力する。出力部29は、キーワード音声データの音声認識結果が入力されると、その音声入力結果が正しいか否かを利用者に問い合わせる音声を出力する。利用者に音声認識結果を問い合わせる音声は補助記憶装置105(図1)に格納されている。例えば、キーワード音声データの音声認識結果が「A社」である場合には、出力部29は、「“A社”でよろしいですか。」という音声を出力する。このように、キーワード音声データの音声認識結果を、利用者に確認することによって、キーワードの音声認識失敗による検索部27でのキーワードの検出失敗を防止することができる。
また、第2実施形態では、利用者が明示的に聞き直したい情報に関するキーワード(単語)を発する場合の例が説明された。再生用音声データの出力中に利用者が聞き直したい情報を指定する場合には、利用者が、例えば、「A社の株価はいくらだろう。」というような文章を発することも考えられる。利用者からのキーワード音声入力が文章又は複数の単語である場合には、例えば、情報処理装置2は、以下のような処理を行う。
例えば、「A社の株価はいくらだろう。」というキーワード音声入力があった場合を例とする。補助記憶装置105(図1)はキーワード候補のリストを保持する。音声認識部252は、「A社の株価はいくらだろう。」というキーワード音声データが入力されると、キーワード音声データから、補助記憶装置105に保持されているリスト中のキーワード候補を、例えば、ワードスポッティング技術を用いて、検出する。音声認識部252は、リスト中のキーワード候補を用いて、キーワード音声データから気ワード「A社」と「株価」とを検出することができる。音声認識部252は、検出されたキーワード「A社」と「株価」との双方を検索部27に出力してもよい。または、キーワード候補のリスト内では、単語の種類(例えば、固有名詞、一般名詞等)によって優先度が付けられており、優先度に従って検出されたキーワード「A社」と「株価」との何れかを検索部27に出力してもよい。キーワードが入力されると、検索部27は、第2実施形態で説明された処理を実行する。このように情報処置装置2は、キーワード候補のリストを備え、キーワード音声データからキーワードを抽出することによって、利用者が発した音声が文章などである場合にも、適正に利用者が聞きたい情報を出力することができる。
<その他>
以上の実施形態に関し、更に以下を開示する。
(付記1)
音声データを再生する情報処理装置であって、
利用者が発する音声を受け付ける入力部と、
前記音声の発話速度を算出する算出部と、
前記発話速度に応じて、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から遡る範囲を決定する制御部と、
を備える情報処理装置。
(付記2)
前記制御部は、前記発話速度が大きくなるにつれて前記遡る範囲が小さくなるように前記範囲を決定する
付記1の情報処理装置。
(付記3)
前記制御部は、前記発話速度の下限値に対応する前記遡る範囲の最大値を設定し、前記発話速度の上限値に対応する前記遡る範囲の最小値を設定し、前記発話速度が前記下限値から前記上限値までの間で大きくなるにつれて、前記遡る範囲が前記最大値から前記最小値までの間で狭くなるように設定する
付記1に記載の情報処理装置。
(付記4)
前記制御部は、前記音声の発話速度が大きくなるにつれて前記遡る範囲が大きくなるように、前記遡る範囲を決定する
付記1の情報処理装置。
(付記5)
前記音声データの出力時系列上の前記音声の入力時点に対応する時点から前記遡る範囲遡った時点までの部分音声データを抽出する抽出部を
さらに含む付記1から4のいずれか1項に記載の情報処理装置。
(付記6)
前記音声データの出力時系列上の前記音声の入力時点に対応する時点から前記遡る範囲遡った時点までの部分音声データに、前記音声の発話内容が含まれるか否かを検索する検索部をさらに含む
付記1から4のいずれか1項に記載の情報処理装置。
(付記7)
前記制御部は、前記部分音声データに前記音声の発話内容が含まれない場合に、前記遡る範囲を拡大し、
前記検索部は、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から前記制御部によって前記拡大された前記遡る範囲遡った時点までに含まれる部分音声データに、前記音声の発話内容が含まれるか否かを検索する
付記6に記載の情報処理装置。
(付記8)
前記検索部は、前記部分音声データ内に、複数の前記音声の発話内容が検出された場合には、前記検出された前記複数の前記音声の発話内容の内の少なくとも1つを検索結果とする
付記6又は7に記載の情報処理装置。
(付記9)
前記検索部の検索結果に基づいて、前記音声データの出力開始点を決定する決定部
をさらに含む付記6から8のいずれか1項に記載の情報処理装置。
(付記10)
前記決定部は、前記検索部によって検出された前記音声の発話内容を前記音声データの出力開始点として決定する
付記9に記載の情報処理装置。
(付記11)
前記決定部は、前記検索部によって検出された前記音声の発話内容よりも遡った箇所に存在する無音箇所を前記音声データの出力開始点として決定する
付記10に記載の情報処理装置。
(付記12)
音声データを再生する情報処理装置に、
利用者が発する音声を受け付けるステップと、
前記音声の発話速度を算出するステップと、
前記発話速度に応じて、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から遡る範囲を決定するステップと、
を実行させるためのプログラム。