JP5223843B2

JP5223843B2 - 情報処理装置およびプログラム

Info

Publication number: JP5223843B2
Application number: JP2009243144A
Authority: JP
Inventors: 良介濱崎; 恭士大田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-10-22
Filing date: 2009-10-22
Publication date: 2013-06-26
Anticipated expiration: 2029-10-22
Also published as: JP2011090483A

Description

本発明は、音声データを再生する情報処理装置に関する。

音声は生成されてもすぐに消滅するために、人は音声情報を人の記憶容量の範囲内でしか覚えられない。そのために、音声データの再生中に聞き逃しなどによって聞き直したい情報がある場合には、通常、人は、音声データを巻き戻して聞き直したい情報が含まれている箇所を検索する。

音声データの再確認箇所を指示する指示部からの指示に基づいて、予め決められた方法によって音声データを遡って取得する取得範囲が決定され、取得範囲内の単語が抽出されて表示される技術がある（例えば、特許文献１）。

また、聞き返しの指示があった場合に遡って音声の切れ目を検出し、その検出点から再度音声を再生する技術がある（例えば、特許文献２，３）。

特開２００７−２５７３４１号公報特開昭６２−４０５７７号公報特開２０００−２６７６８７号公報

しかしながら、特許文献１記載の技術では、音声データの取得範囲が初期設定から変更されない。このため、特許文献１には、必ずしも指定された取得範囲に再確認したい情報が含まれているとは限らないこという問題があった。また、初期設定の取得範囲が大きすぎる場合には、再確認したい情報の位置から大きく遡って音声データが取得され、単語の抽出処理の効率が低下するという問題があった。

また、特許文献２，３記載の技術では、文節の区切り（音声の切れ目）まで遡って再生がされるが、特定のワードが含まれるかどうかは制御できず、所望の音声データを含む音声を必ずしも聞き返すことはできないという問題があった。

本発明の一態様は、音声データの出力時系列上の音声の入力時点に対応する時点から遡る範囲を適正に制御可能な情報処理装置を提供することを目的とする。

本発明の態様の一つは、情報処理装置である。この情報処理装置は、
音声データを再生する情報処理装置であって、
利用者が発する音声を受け付ける入力部と、
前記音声の発話速度を算出する算出部と、
前記発話速度に応じて、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から遡る範囲を決定する制御部と、
を備える。

本発明の他の態様の一つは、上述した音声入力時点から遡る範囲の決定方法である。ま
た、本発明の他の態様は、情報処理装置を音声入力時点から遡る範囲の決定装置として機能させるプログラム、及び当該プログラムを記録したコンピュータ読み取り可能な記録媒体を含むことができる。

開示の情報処理装置によれば、音声データの出力時系列上の音声の入力時点に対応する時点から遡る範囲を適正に制御することができる。

情報処理装置のハードウェア構成例を示す図である。情報処理装置のプロセッサが遡る範囲を決定するためのプログラムを実行することによって実現される機能の説明図である。算出部の構成例を示す図である。発話速度と遡る範囲との関係の一例を示す図である。発話速度と遡る範囲との関係の一例を示す図である。発話速度と遡る範囲との関係の一例を示す図である。発話速度と遡る範囲との関係の一例を示す図である。発話速度と遡る範囲との関係の一例を示す図である。発話速度と遡る範囲との関係の一例を示す図である。発話速度と遡る範囲との関係の一例を示す図である。発話速度と遡る範囲との関係の一例を示す図である。情報処理装置の処理フローの例を示す図である。情報処理装置のプロセッサが音声データ再生プログラムを実行することによって実現される機能の説明図である。検索部がワードスポッティング技術を用いて、キーワードの検索を行う場合の例を示す。検索範囲の再設定処理の一例を示す図である。検索範囲の再設定処理の一例を示す図である。検索範囲の再設定処理の一例を示す図である。部分音声データ内でキーワードが複数検出される場合の処理の一例を示す図である。部分音声データ内でキーワードが複数検出される場合の処理の一例を示す図である。部分音声データ内でキーワードが複数検出される場合の処理の一例を示す図である。部分音声データ内でキーワードが複数検出される場合の処理の一例を示す図である。再生用音声データを記憶部から読み出すときの先頭位置を決定する処理の一例を示す図である。再生用音声データを記憶部から読み出すときの先頭位置を決定する処理の一例を示す図である。情報処理装置の処理フローの例を示す図である。

以下、図面に基づいて、本発明の実施の形態を説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成に限定されない。

＜情報処理装置のハードウェア構成例＞
図１は、情報処理装置のハードウェア構成例を示す図である。情報処理装置１は、プロセッサ１０１，主記憶装置１０２，マイクロフォン１０３，出力装置１０４，補助記憶装
置１０５，ネットワークインタフェース１０７，及びチューナー１０８を備える。それらはバス１０９により互いに接続されている。

マイクロフォン１０３は、利用者が発する音声を収集する。マイクロフォン１０３は、収集された音声に応じた電気信号をプロセッサ１０１に出力する。以降、音声に応じた電気信号を「音声信号」という。

ネットワークインタフェース１０７は、ネットワークとの情報の入出力を行うインタフェースである。ネットワークインタフェース１０７は、有線のネットワーク、および、無線のネットワークと接続する。ネットワークインタフェース１０７は、例えば、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ），無線ＬＡＮ（ＬｏｃａｌＡｒｅａ
Ｎｅｔｗｏｒｋ）カード等である。ネットワークインタフェース１０７は、接続されるネットワークからインターネットラジオやインターネットテレビ等の音声信号を受信する。ネットワークインタフェース１０７で受信された音声信号は、プロセッサ１０１に出力される。

チューナー１０８は、受信周波数を選択することによって、選局し、ラジオやテレビなどの放送電波を受信する。チューナー１０８は、受信した放送電波の音声信号をプロセッサ１０１に出力する。

主記憶装置１０２は、プロセッサ１０１に、補助記憶装置１０５に格納されているプログラムをロードする記憶領域および作業領域を提供したり、バッファとして用いられたりする。主記憶装置１０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような半導体メモリである。

補助記憶装置１０５は、様々なプログラムや、各プログラムの実行に際してプロセッサ１０１が使用するデータを格納する。補助記憶装置１０５は、例えば、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、又はハードディスクドライブ（ＨａａｒｄＤｉｓｃＤｒｉｖｅ）である。補助記憶装置１０５は、リムーバルメディア、すなわち可搬記録媒体を含むことができる。リムーバルメディアは、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ），フラッシュメモリ，ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ），又はＤＶＤのような記録媒体である。補助記憶装置１０５は、例えば、オペレーティングシステム（ＯＳ），利用者の音声入力時点から遡る範囲を決定するためのプログラム，音声データ再生プログラム、その他様々なアプリケーションプログラムを保持する。

プロセッサ１０１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｓｅｓｓｉｎｇＵｎｉｔ）や、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）である。プロセッサ１０１は、補助記憶装置１０５に保持されたＯＳや様々なアプリケーションプログラムを主記憶装置１０２にロードして実行することによって、音声に係る様々な処理を実行する。

例えば、プロセッサ１０１は、プログラムの実行によって、マイクロフォン１０３から入力される音声信号に対するディジタル変換処理を行い、音声データを得る。音声データは、主記憶装置１０２及び／又は補助記憶装置１０５に記憶される。

また、プロセッサ１０１は、プログラムの実行によって、ネットワークインタフェース１０７やチューナー１０８で受信される音声信号から音声データを生成し、主記憶装置１０２及び／又は補助記憶装置１０５に記録する。

ネットワークインタフェース１０７やチューナー１０８で受信される、リアルタイム処理で再生される音声信号から生成された音声データは、主記憶装置１０２内のバッファに所定時間蓄積される。プロセッサ１０１は、主記憶装置１０２のバッファに蓄積された音声データを逐次読み出し、復号化処理を行って音声信号に復号し、出力装置１０４に出力する。

また、プロセッサ１０１は、利用者の音声の入力時点から遡る範囲を決定するためのプログラムの実行によって、ネットワークインタフェース１０７，チューナー１０８等から入力される音声データの出力時系列上の利用者から音声の入力があった時点から遡る範囲を決定する処理を行う。処理の詳細は後述される。

また、プロセッサ１０１は、音声データ再生プログラムの実行によって、ネットワークインタフェース１０７，チューナー１０８等から逐次入力される音声データの再生中に、音声入力があった場合に、音声入力時点から所定範囲遡った時点から再生する処理を行う。処理の詳細は後述される。

出力装置１０４は、プロセッサ１０１の処理の結果を出力する。出力装置１０４は、ディスプレイ，スピーカ及びスピーカインターフェイス回路等を含む。

情報処理装置１は、例えば、パーソナルコンピュータなどの汎用のコンピュータである。また、情報処理装置１は、例えば、携帯電話，カーナビゲーションシステム，１セグメント部分受信サービス（一般に「ワンセグ放送」と呼ばれる）の受像機，ラジオ等の音声データ及び音声データを含む動画を再生し、音声情報を提供する装置である。また、それらに格納されるＩＣチップ等である。

＜第１実施形態＞
第１実施形態の情報処理装置は、音声データの再生中に、利用者から音声の入力がある場合には、利用者の音声の入力を契機として、利用者の音声の入力時点から所定範囲遡った時点から音声を再生する情報処理装置である。例えば、再生中の音声を聞き逃した場合に利用者は何らかの音声を発声することで、情報処理装置は利用者の音声の入力時点から所定範囲遡った時点から音声データの再生を行う。

図２は、情報処理装置１のプロセッサ１０１が利用者の音声の入力時点から遡る範囲を決定するためのプログラムを実行することによって実現される機能の説明図である。情報処理装置１は、プロセッサ１０１が利用者の音声の入力時点から遡る範囲を決定するためのプログラムを実行することによって、入力部１１，算出部１２，制御部１３，及び抽出部１４を実現することができる。すなわち、情報処理装置１は、利用者の音声の入力時点から遡る範囲を決定するための決定プログラムの実行によって、入力部１１，算出部１２，制御部１３，及び抽出部１４を備えた装置として機能する。

入力部１１は、マイクロフォン１０３を含み、マイクロフォン１０３に入力された利用者が発した音声の音声信号を入力として得る。入力部１１は、音声信号のディジタル変換処理を行い、音声信号を音声データに変換する。入力部１１は、音声データに、音声データが入力された時間をタイムスタンプとして付与する。タイムスタンプは、情報処理装置１が備えるクロック（図示せず）に基づいた情報処理装置１の起動からの経過時間，情報処理装置１が管理する時刻等の内のいずれかを付与する。入力部１１は、利用者が発した音声の音声データを算出部１２と抽出部１４とに出力する。以降、利用者が発した音声の音声データを入力音声データという。

算出部１２には、入力部１１から入力音声データが入力される。算出部１２は、入力音
声データから利用者の発話速度を算出する。

図３は、算出部１２の構成例を示す図である。算出部１２は、区間検出部１２１，音声認識部１２２，モーラ数算出部１２３，及び発話速度算出部１２４を含む。

区間検出部１２１は、入力部１１から入力音声データを入力として得る。区間検出部１２１は、入力音声データの始端から終端までの時間を入力音声データに付与されたタイムスタンプより測定する。区間検出部１２１は、測定時間を入力音声データの音声区間長として発話速度算出部１２４に出力する。区間検出部１２１は、入力音声データを音声認識部１２２に出力する。

音声認識部１２２は、区間検出部１２１から入力音声データを入力として得る。音声認識部１２２は、入力音声データに基づき音声認識処理を行う。例えば、音声認識部１２２は、音声認識処理により、入力音声データの内容が「ねこ（猫）」であることを認識結果として得る。音声認識部１２２が行う音声認識処理として、既存のあらゆる音声認識の手法を適用することができる。音声認識部１２２は、音声認識処理の結果をモーラ数算出部１２３に出力する。

モーラ数算出部１２３は、音声認識部１２２から入力音声データの音声認識の結果を入力として得る。モーラ数算出部１２３は、音声認識の結果からモーラ数を算出する。

モーラとは、音韻論上、一定の時間的長さを持った音の分節単位である。日本語学においては、モーラは一般に「拍（はく）」とも呼ばれる。例えば、「ねこ（猫）」という単語のモーラ数は、「ネ」と「コ」とで２モーラである。例えば、「かっぱ（合羽）」という単語のモーラ数は、「カ」と「ッ」と「パ」とで３モーラである。例えば、「チョコレート」という単語のモーラ数は、「チョ」と「コ」と「レ」と「ー」と「ト」とで５モーラである。モーラ数算出部１２３は、入力音声のモーラ数を発話速度算出部１２４に出力する。

発話速度算出部１２４は、入力音声データの音声区間長とモーラ数とを入力として得る。発話速度算出部１２４は、入力音声データの音声区間長とモーラ数とから音声入力時の利用者の発話速度を算出する。発話速度算出部１２４は、例えば、発話速度＝モーラ数／音声区間長として発話速度を算出する。例えば、入力音声データの音声区間長が０．５秒で、入力音声データのモーラ数が４である場合には、発話速度は、発話速度＝４モーラ／０．５秒＝８モーラ／秒と算出される。発話速度算出部１２４は、算出された発話速度を制御部１３に出力する。

制御部１３は、発話速度を入力として得る。制御部１３は、発話速度に基づいて、音声データ（以降、再生音声データ，再生用音声データともいう）の出力時系列上での利用者の音声(入力音声)の入力時点に対応する時点から遡る範囲を決定する。

図４Ａ，図４Ｂ，図４Ｃ，図４Ｄ，図４Ｅ，図４Ｆ，図４Ｇ，及び図４Ｈは、発話速度と利用者の音声の入力時点から遡る範囲との関係の例を示す図である。図４Ａから図４Ｈに示される内の１つまたはそれ以上の発話速度と遡る範囲との対応表は、補助記憶装置１０５に記憶されている。制御部１３は、入力音声データの発話速度が入力されると、例えば、図４Ａから図４Ｈに示される対応表の少なくとも１つに基づいて、遡る範囲を決定する。遡る範囲は、時間長，音節数，モーラ数などいずれで定義されてもよい。第１実施形態においては、制御部１３は、遡る範囲を時間で定義する場合について説明される。

人間は、慌てると早口になる、すなわち発話速度が大きくなるという性質を持つ。再生
中の音声を聞き逃して、利用者が早口で聞き逃した情報に関する音声を発する場合には、利用者が慌てている，又は焦っている心理状態であることが考えられる。従って、情報処理装置１に入力された利用者の音声データ（入力音声データ）の発話速度が大きい場合には、利用者が聞き直したい情報が、利用者の音声の入力時点から遡って近い範囲内に存在する可能性が高い。反対に、人間は、迷っていたり、考えていたりすると、ゆっくりと発声する、すなわち、発話速度が小さくなる。利用者がゆっくりと発声する場合には、利用者の音声の入力時点から遡って離れた箇所に利用者が聞き直したい情報が存在する可能性が高い。

図４Ａに示される例は、このような人間の性質を鑑み、発話速度が大きいほど遡る範囲が小さくなるように対応付けられた発話速度と遡る範囲との対応表の例である。図４Ａでは、発話速度と遡る範囲との関係が線形である場合の例が示される。

例えば、人間の発話速度は、かなり早口の場合には、１５モーラ／秒、通常の場合で８モーラ／秒である。すなわち、人間が１秒間に発するモーラ数には限界があるため、発話速度には最小値と最大値とを設定することができる。例えば、図４Ａでは、発話速度の最小値が０モーラ／秒、最大値が１５モーラ／秒と設定される。また、図４Ａでは、発話速度が最小値である場合に遡る範囲が最大値となり、発話速度が最大値である場合に遡る範囲が最小値となるように設定されている。また、図４Ａでは、発話速度の最小値０モーラ／秒に対応する、遡る範囲の最大値は１５秒に設定されている。また、図４Ａでは、発話速度の最大値１５モーラ／秒に対応する、遡る範囲は最小値が５秒に設定されている。

図４Ａと同様に、図４Ｂ，図４Ｃ，及び図４Ｄに示される対応表の例も、発話速度が大きいほど遡る範囲が小さくなるように発話速度と遡る範囲との対応付けがなされている。また、図４Ａと同様に、図４Ｂ，図４Ｃ，及び図４Ｄに示される対応表の例も、発話速度の最小値と最大値とが設定されており、発話速度が最小値となる場合に、遡る範囲が最大値になり、発話速度が最大値となる場合に、遡る範囲が最小値になる。

図４Ｂは、発話速度と遡る範囲との関係が階段状である場合の例を示す。図４Ｃは、発話速度と遡る範囲との関係が非線形である場合の例を示す。図４Ｃに示される例は、発話速度が小さい領域の方が制御しやすい、すなわち、人間は早口で話すことよりもゆっくりと話すことの方が制御しやすいという、人間の性質に最も合致した発話速度と遡る範囲の関係を実現する例である。図４Ｄは、発話速度と遡る範囲との関係が非線形である場合の例を示す。図４Ｃに示される例と比較すると、図４Ｄに示される例は非線形の凹凸が逆である。図４Ｄに示される例は、人間が制御しにくい早口の発声でも、すなわち、発話速度が大きい領域でも遡る範囲を広く設定可能な制御を実現する例である。

図４Ｅから図４Ｈは、発話速度が大きいほど遡る範囲が広くなるように対応付けられた発話速度と遡る範囲との対応表の例を示す。図４Ａから図４Ｄに示される例と同様に、図４Ｅから図４Ｈに示される例にも、発話速度には、最小値と最大値とが設定可能である。図４Ｅから図４Ｈに示される対応表の例では、発話速度の最小値に対応して遡る範囲の最小値，発話速度の最大値に対応して遡る範囲の最大値が設定される。図４Ｅから図４Ｈに示される例では、発話速度が最小値となる場合に、遡る範囲が最小値になる。図４Ｅから図４Ｈに示される例では、発話速度が最大値となる場合に、遡る範囲が最大値になる。

図４Ｅは、発話速度と遡る範囲との関係が線形である場合の例を示す。図４Ｆは、発話速度と遡る範囲との関係が階段状である場合の例を示す。図４Ｇは、発話速度と遡る範囲との関係が非線形である場合の例を示す。図４Ｇに示される例は、発話速度が小さい領域の方が制御しやすい、すなわち、早口で話すことよりもゆっくりと話すことの方が制御しやすいという、人間の性質に最も合致した、発話速度と遡る範囲の関係を実現する例であ
る。図４Ｈは、発話速度と遡る範囲との関係が非線形である場合の例を示す。図４Ｇに示される例と比較すると、図４Ｈに示される例は非線形の凹凸が逆である。図４Ｈに示される例は、人間が制御しにくい早口の発声でも、すなわち、発話速度が大きい領域でも遡る範囲を広く設定可能な制御を実現する例である。

制御部１３は、例えば、図４Ａから図４Ｈの発話速度と遡る範囲との対応表を用いて、遡る範囲を決定し、抽出部１４に出力する。

抽出部１４は、入力部１１から入力音声データと、制御部１３から遡る範囲とを入力として得る。抽出部１４は、入力部１１に利用者の音声が入力された時点から遡る範囲に相当する時間を遡った時点から、主記憶装置１０２内にバッファされている再生音声データを抽出する。

再生音声データは、ネットワークインタフェース１０７（図１）、又は、チューナー１０８（図１）から入力された音声信号をディジタル信号の場合はそのまま、あるいはアナログ信号の場合はディジタル変換したものであって、主記憶装置１０２（図１）にバッファされている音声データである。主記憶装置１０２内のバッファには、現時点から、利用者の音声が入力された時点から遡る範囲よりも充分長い所定時間遡った時点までの、出力装置１０４から出力された音声データと同じ内容の音声データが蓄積されている。再生音声データには、再生音声データと同じ音声データが情報処理装置１から出力される時間がタイムスタンプとして付与されている。例えば、再生音声データが主記憶装置１０２のバッファに格納される時間を再生音声データと同じ内容の音声データが情報処理装置１から出力される時間とみなしてもよい。また、再生音声データに付与されるタイムスタンプは、情報処理装置１が備えるクロック（図示せず）に基づいた情報処理装置１の起動からの経過時間，時刻，再生音声データの先頭を始点（０：ゼロ）とした場合の出力時間の何れであってもよい。第１実施形態では、再生音声データに付与されたタイムスタンプが示す時系列は、再生音声データの出力時系列と呼ばれる。

入力音声データにも情報処理装置１に入力された時点のタイムスタンプが付与されているので、抽出部１４は、入力音声データの入力時点に対応する、再生音声データの出力時系列上での時点を求めることができる。例えば、再生音声データと入力音声データともに、情報処理装置１のクロックによる起動からの経過時間がタイムスタンプとして付与されている場合には、入力音声データのタイムスタンプが示す時間が、入力音声データの入力時点に対応する、再生音声データの出力時系列上での時点となる。また、再生音声データのタイムスタンプと、入力音声データのタイムスタンプとが異なる時系列である場合には、抽出部１４は、入力音声データのタイムスタンプが示す時間を、再生音声データの出力時系列上の時間に変換して、入力音声データの入力時点に対応する再生音声データの出力時系列上での時点を得る。

抽出部１４は、求められた入力音声データの入力時点に対応する、再生音声データの出力時系列上での時点から、制御部１３入力された遡る範囲に相当する時間を遡った時点を先頭として順次再生音声データを抽出する。抽出部１４は、抽出された再生音声データを出力する。なお、第１実施形態では、入力部１１から入力された入力音声データは、用いられないが、入力音声データを用いてもよい。入力音声データが用いて処理を行う情報処理装置の実施形態については、後述される。

抽出部１４から出力された再生音声データは、プロセッサ１０１によって、復号処理により音声信号に復号され、出力装置１０４から再生出力される。

図５は、情報処理装置１の処理フローの例を示す図である。図５に示される例は、情報
処理装置１がインターネットラジオなどの再生音声データをリアルタイム処理によって再生中に、利用者の音声がマイクロフォン１０３から入力された場合を示す。

例えば、情報処理装置１から出力される音声を聴取する利用者は、音声の聞き逃しなどによって、出力された音声をすぐに聞き直したい場合などに、再度聴取を希望する情報に関連する文言を発する。例えば、情報処理装置１から「本日の電機関連株価終値は、Ａ社Ｘ円、Ｂ社Ｙ円・・・」という音声情報が出力されている場合に、Ａ社の株価の聴き直しを希望する利用者が「Ａ社」と発声する。

利用者の音声信号「Ａ社」は、マイクロフォン１０３を通じて入力部１１に入力される。入力部１１は、利用者の音声信号「Ａ社」が入力されると、入力音声を検出する（ＯＰ１）。入力部１１は、利用者の音声信号「Ａ社」を入力音声データ「Ａ社」に変換して、抽出部１４と、区間検出部１２１とに出力する。

区間検出部１２１は、入力音声データ「Ａ社」が入力されると、入力音声「Ａ社」の音声区間長を測定する（ＯＰ２）。例えば、入力音声データ「Ａ社」の音声区間長が０．５秒であったとする。区間検出部１２１は、入力音声データ「Ａ社」の音声区間長である０．５秒を発話速度算出部１２４に出力する。区間検出部１２１は、入力音声データ「Ａ社」を音声認識部１２２に出力する。

音声認識部１２２は、入力音声データ「Ａ社」が入力されると、音声認識処理を実行する（ＯＰ３）。音声認識部１２２の音声認識処理により、入力音声データの文言が「Ａ社」であることが判明する。音声認識部１２２は、音声認識処理の結果である入力音声データの文言「Ａ社」をモーラ数算出部１２３に出力する。

モーラ数算出部１２３は、音声認識処理の結果である入力音声データの文言「Ａ社」が入力されると、入力音声データの文言「Ａ社」のモーラ数を算出する（ＯＰ４）。音声認識処理の結果が「Ａ社」である場合には、モーラ数算出部１２３は、「Ａ社」のモーラ数を「エ」と「ー」と「シャ」とで３モーラと算出する。モーラ数算出部１２３は、「Ａ社」は３モーラであることを発話速度算出部１２４に出力する。

発話速度算出部１２４は、入力音声データ「Ａ社」の音声区間長０．５秒とモーラ数３モーラとが入力されると、入力音声データ「Ａ社」の発話速度を算出する（ＯＰ５）。発話速度算出部１２４は、入力音声データ「Ａ社」の発話速度を発話速度＝入力音声データ「Ａ社」のモーラ数÷入力音声データ「Ａ社」の音声区間長＝３モーラ÷０．５秒＝６モーラ／秒と算出する。発話速度算出部１２４は、入力音声データ「Ａ社」の発話速度６モーラ／秒を制御部１３に出力する。

制御部１３は、入力音声データ「Ａ社」の発話速度（６モーラ／秒）が入力されると、発話速度に基づいて入力音声データの入力時点から遡る範囲を決定する（ＯＰ６）。制御部１３は、補助記憶装置１０５に記憶された発話速度と遡る範囲との対応表（図４Ａから図４Ｈ参照）を参照して、入力音声データの入力時点から遡る範囲を決定する。例えば、入力音声データ「Ａ社」の発話速度が６モーラ／秒である場合には、制御部１３は、入力音声データの入力時点から遡る範囲を９秒と決定する。制御部１３は、入力音声データの入力時点から遡る範囲「９秒」を抽出部１４に出力する。

抽出部１４は、入力音声データ「Ａ社」と、入力音声データの入力時点から遡る範囲「９秒」とが入力されると、主記憶装置１０２内のバッファに蓄積されている再生音声データの出力時系列上の入力音声データの入力時点に対応する時点を求める。抽出部１４は、主記憶装置１０２のバッファ内に蓄積された再生音声データから、入力音声「Ａ社」が入
力された時点に対応する再生音声データの出力時系列上の時点から遡る範囲（９秒）を遡った時点を先頭として、順次再生音声データを抽出する（ＯＰ７）。抽出部１４は、抽出された再生音声データを出力する。抽出部１４から出力された再生音声データは、出力装置１０４から再生出力される。

情報処理装置１は、利用者が発する音声の発話速度に応じて、利用者の音声の入力時点に対応する再生音声データの出力時系列上の時点から遡る範囲を設定する。例えば、発話速度が大きくなるにつれて遡る範囲が小さくなるように設定する。例えば、発話速度が大きくなるにつれて遡る範囲が大きくなるように設定する。このように、情報処理装置１によれば、発話速度に応じて、利用者の音声入力時点に対応する再生音声データの出力時系列上の時点から遡る範囲の設定を制御することが可能である。

また、情報処理装置１が、発話速度が小さいときに、すなわち、利用者がゆっくりと発話したときに、遡る範囲を大きく設定する場合には、聞き逃した情報のような再確認したい情報を再度情報処理装置１から利用者が聴取する可能性が高くなる。

また、発話速度が大きい場合、すなわち、利用者が早口で発話した場合には、利用者が再確認したい情報が利用者の音声入力時点から遡って近い時点に存在する可能性が高い。情報処理装置１が発話速度が大きい場合に遡る範囲を小さく設定することによって、情報処理装置１の処理量を低減することができ、音声データの再生処理の効率の向上が期待できる。

＜第２実施形態＞
第２実施形態の情報処理装置は、音声データの再生中に、利用者から聞き逃した情報などの再確認したい情報に関する音声が入力された場合に、再確認したい情報に関する音声の文言（キーワード）を認識し、その文言をバッファされている音声データから検索する。情報処理装置は検索の結果、ピンポイントでキーワードを含む音声データを再生する。また、第２実施形態の情報処理装置は、利用者が発した音声の発声速度によって、音声データの検索範囲を制御する。第２実施形態の情報処理装置の構成は、第１実施形態の情報処理装置の構成と一部共通する。第２実施形態では、第１実施形態と共通する箇所の説明は省略される。

＜＜情報処理装置の構成例＞＞
図６は、情報処理装置のプロセッサが音声データ再生プログラムを実行することによって実現される機能の説明図である。図６に示される情報処理装置２のハードウェア構成は図１に示される情報処理装置１と同様である。情報処理装置２は、プロセッサ１０１が音声データ再生プログラムを実行することによって、データ入力部２１，記録部２２，音声入力部２４，算出部２５，制御部２６，検索部２７，出力範囲決定部２８，及び出力部２９を実現することができる。すなわち、情報処理装置２は、音声データ再生プログラムの実行によって、データ入力部２１，記録部２２，記憶部２３，音声入力部２４，算出部２５，制御部２６，検索部２７，出力範囲決定部２８，及び出力部２９を備えた装置として機能する。

データ入力部２１は、図１に示されるネットワークインタフェース１０７，又は、チューナー１０８と接続し、無線通信または有線による通信により他の装置から音声信号を入力として得る。データ入力部２１は、例えば、ラジオ放送電波、ワンセグ放送等の音声信号を入力として得る。データ入力部２１は、音声信号を情報処理装置２で扱える音声データに変換し、記録部２２と出力部２９とに出力する。データ入力部２１は、例えば、アナログ信号からディジタル信号へ変換し、ディジタル信号を符号化して音声データを得る。以降、データ入力部２１を介して情報処理装置２に入力される音声データを再生用音声デ
ータと呼ぶ。

また、データ入力部２１は、再生用音声データが出力される時間をタイムスタンプとして再生用音声データに付与する。タイムスタンプは、例えば、情報処理装置２が備えるクロック（図示せず）に基づいた情報処理装置２の起動からの経過時間，情報処理装置２が管理する時刻，再生音声データの先頭を始点（０：ゼロ）とした場合の経過時間の何れであってもよい。また、第２実施形態では、再生用音声データがデータ入力部２１に入力された時点の時間に、再生用音声データが情報処理装置２に入力されて出力されるまでに要すると予測される時間を加算した時点を、再生用音声データの出力時点とみなしている。第２実施形態では、再生用音声データに付与されたタイムスタンプが示す時系列は、再生用音声データの出力時系列と呼ばれる。

記録部２２は、データ入力部２１から再生用音声データを入力として得る。記録部２２は、再生用音声データを記憶部２３に格納する。

記憶部２３は、図１に示される主記憶装置１０２の記憶領域の一部である。記憶部２３は、記録部２２によって記録される再生用音声データを所定時間保持する。

音声入力部２４は、図１に示されるマイクロフォン１０３と接続し、マイクロフォン１０３を通じて利用者の発した音声信号を入力として得る。音声入力部２４は、入力された音声信号を情報処理装置２が扱える音声データに変換する。例えば、音声入力部２４は、入力された音声信号をアナログ音声信号からディジタル音声信号に変換し、ディジタル音声信号を符号化し音声データを得る。音声入力部２４は、利用者の音声データを算出部２５と検索部２７とに出力する。なお、利用者が発する音声の発話内容は、利用者が再確認を希望する情報を示す語句である。音声入力部２４に入力された利用者の音声及び音声データは、以降、キーワード音声及びキーワード音声データと呼ばれる。

また、音声入力部２４は、キーワード音声データが入力された時点の時間をタイムスタンプとしてキーワード音声データに付与する。タイムスタンプは、例えば、情報処理装置２が備えるクロック（図示せず）に基づいた情報処理装置２の起動からの経過時間，情報処理装置２が管理する時刻の何れであってもよい。

算出部２５は、音声入力部２４からキーワード音声データを入力として得る。算出部２５は、キーワード音声データの発話速度を算出する。算出部２５は、区間検出部２５１，音声認識部２５２，モーラ数算出部２５３，及び発話速度算出部２５４を含む。算出部２５，及び算出部２５に含まれる区間検出部２５１，音声認識部２５２，モーラ数算出部２５３，及び発話速度算出部２５４は、第１実施形態における算出部１５及び算出部１５に含まれる区間検出部１２１，音声認識部１２２，モーラ数算出部１２３，及び発話速度算出部１２４とそれぞれ同様である。算出部２５は、算出されたキーワード音声の発話速度を制御部２６に出力する。

制御部２６は、キーワード音声データの発話速度を入力として得る。制御部２６は、例えば、発話速度に基づいて、記憶部２３に保持されている再生用音声データ内でキーワード音声の語句（キーワード）を検索するための検索範囲を決定する。制御部２６は、対応表記憶部２６１を含む。対応表記憶部２６１は、図１に示される補助記憶装置１０５のデータ格納領域の一部であり、発話速度と検索範囲の対応表（図４Ａから図４Ｈ参照）を保持する。制御部２６は、第１実施形態の制御部１３の遡る範囲の決定処理と同様にして、対応表記憶部２６１に保持された発話速度と検索範囲との対応表に基づいて検索範囲を決定する。制御部２６は、決定された検索範囲を検索部２７に出力する。検索範囲は、時間長，音節数，モーラ数などいずれで定義されてもよい。第２実施形態においては、制御部
２６は、検索範囲を時間で定義する場合について説明される。

検索部２７は、キーワード音声データと検索範囲とを入力として得る。検索部２７は、キーワード音声データの入力時点に対応する、記憶部２３に保持される再生用音声データの出力時系列上の時点を求める。検索部２７は、キーワード音声データに付与されたタイムスタンプと、再生用音声データに付与されたタイムスタンプとから、キーワード音声データの入力時点に対応する、再生用音声データの出力時系列上の時点を求めることができる。例えば、再生用音声データとキーワード音声データともに、情報処理装置２のクロックによる起動からの経過時間がタイムスタンプとして付与されている場合には、キーワード音声データのタイムスタンプが示す時間が、キーワード音声データの入力時点に対応する、再生用音声データの出力時系列上の時点となる。また、再生用音声データのタイムスタンプと、キーワード音声データのタイムスタンプとが異なる時系列である場合には、検索部２７は、キーワード音声データのタイムスタンプが示す時間を、再生音声データの出力時系列上の時間に変換して、入力音声データの入力時点に対応する再生音声データの出力時系列上での時点を得る。

検索部２７は、記憶部２３に保持される再生用音声データから、再生用音声データの出力時系列上の利用者のキーワード音声の入力時点に対応する時点から、検索範囲に相当する時間を遡った時点までの再生用音声データを部分音声データとして読み出す。検索部２７は、読み出された部分音声データ内にキーワードが含まれるか否かの検索を行う。また、検索部２７は、部分音声データとして、利用者からのキーワード音声の入力時点の直前若しくは直後の無音箇所の時点から検索範囲に相当する時間を遡った時点までの再生用音声データを記憶部２３から読み出してもよい。無音箇所とは、息継ぎ時の呼気の箇所や、文章と文章の間の一定時間以上の無音箇所を指す。以降、キーワード音声の入力時点という場合には、キーワード音声の入力時点に対応する、再生用音声データの出力時系列上の時点が示されることとする。

検索部２７は、記憶部２３から読み出された部分音声データ内の利用者が発したキーワードの検索に、例えば、ワードスポッティングのような音声認識の技術を用いる。

図７は、検索部２７がワードスポッティング技術を用いて、キーワードの検索を行う場合の例を示す。ワードスポッティングとは、音声データの周波数成分のような特徴となるパラメータを用いて、検出したい特定の単語を抽出する方法である。

図７に示される例は、情報処理装置２から再生用音声の出力中に、利用者がキーワード「Ａ社」を発した場合に、再生用音声データから抽出された部分音声データ「今日の株価はＡ社５００円、Ｂ社・・・」にキーワード「Ａ社」が含まれるか否かを検索する例である。図７には、「今日の株価はＡ社５００円、Ｂ社・・・」という内容の部分音声データの音声波形と「Ａ社」というキーワード音声データの音声波形とが示されている。検索部２７は、キーワード音声の入力時点から、検索範囲に相当する時間を遡った時点までに含まれる再生用音声データを部分音声データとして記憶部２３から読み出す。検索部２７は、部分音声データと、キーワード音声データ「Ａ社」とを比較することで、部分音声データからキーワード「Ａ社」を検出する。検索部２７は、部分音声データを、例えば、音節または単語ごとに区切る。音節または単語で区切られた部分音声データごとにパラメータを算出し、このパラメータとキーワード音声データ「Ａ社」のパラメータとをそれぞれ比較する。検索部２７は、音節または単語で区切られた部分音声データうちの１つのパラメータとキーワード音声データ「Ａ社」のパラメータとが合致する場合に、部分音声デーからキーワード「Ａ社」を検出し、検出成功を判定する。読み出された部分音声データ内にキーワードが検出された場合には、検索部２７は、検出結果を出力範囲決定部２８に出力する。

音節または単語で区切られた部分音声データのパラメータとキーワード音声データ「Ａ社」のパラメータとが合致しない場合には、検索部２７は、部分音声データからキーワード「Ａ社」を検出できず、検出失敗を判定する。読み出された部分音声データからキーワードが検出されない場合には、検索部２７は制御部２６に検索範囲の再設定要求を出力する。

制御部２６は、検索部２７から検索範囲の再設定要求を入力として得ると、検索範囲を設定し直す。

図８Ａ，図８Ｂ，及び図８Ｃは、検索範囲の再設定処理の例である処理１から処理３を示す図である。制御部２６は、検索範囲の再設定処理として、図８Ａ，図８Ｂ，及び図８Ｃにそれぞれ示される処理１，処理２，処理３の何れを行ってもよい。図８Ａ，図８Ｂ，及び図８Ｃは、いずれも１回目の検索時の検索範囲が制御部２６によって５秒に設定される場合を示す。また、図８Ａ，図８Ｂ，及び図８Ｃは、キーワードが「Ａ社」である場合を示す。

図８Ａは、検索範囲の再設定処理の一例である処理１を示す図である。制御部２６は、検索部２７から検索範囲の再設定要求が入力されると、１回目と同じサイズで２回目の検索範囲を決定する。制御部２６は、決定された２回目の検索範囲を検索部２７に出力する。

検索部２７は、１回目の検索範囲と同じサイズである２回目の検索範囲が入力されると、キーワード音声の入力時点から１回目の検索範囲を遡った時点から、さらに２回目の検索範囲を遡った時点までの部分音声データを読み出し、キーワードの検索を行う。例えば、図８Ａにおいては、検索部２７は、キーワード音声「Ａ社」の入力時点から１回目の検索範囲（５秒）を遡った時点から、さらに２回目の検索範囲（５秒）を遡った時点までの再生用音声データを部分音声データとして読み出す。すなわち、キーワード音声「Ａ社」の入力時点の５秒前から１０秒前の範囲に含まれる再生用音声データを部分音声データとして読み出す。図８Ａでは、キーワード音声の入力時点の５秒前から１０秒前の範囲に含まれる部分音声データ内を検索する２回目の検索で、キーワード「Ａ社」が検出される場合を示している。検索部２７は、２回目の検索でキーワード「Ａ社」が検出されると、検出結果を出力範囲決定部２８に出力する。

２回目の検索でも、キーワード「Ａ社」が検出されない場合には、検索部２７は、再度制御部２６に検索範囲の再設定要求を出力する。制御部２６は、再度検索範囲の再設定要求が入力されると、３回目の検索範囲を１回目及び２回目と同じ検索範囲に設定する。制御部２６は、３回目の検索範囲を検索部２７に出力する。検索部２７は、３回目の検索範囲が入力されると、キーワード音声の入力時点から１回目の検索範囲と２回目の検索範囲とを遡った時点から、さらに３回目の検索範囲遡った時点までの部分音声データを読み出し、キーワードの検索を行う。図８Ａにおいては、キーワード音声データ「Ａ社」の入力時点から１回目の検索範囲（５秒）と２回目の検索範囲（５秒）とを遡った時点から、さらに３回目の検索範囲（５秒）を遡った時点までに含まれる再生用音声データを部分音声データとして読み出す。すなわち、検索部２７は、キーワード音声データ「Ａ社」の入力時点の１０秒前から１５秒前の範囲に含まれる再生用音声データを部分音声データとして読み出す。検索部２７は、読み出された部分音声データ内で３回目のキーワード「Ａ社」の検索を実行する。

検索部２７及び制御部２６は、記憶部２３から読み出された部分音声データからキーワード「Ａ社」が検出されるまで、上記の検索処理を予め設定されたｎ＋１（ｎは０を含ま
ない自然数）回繰り返す。ｎ＋１回繰り返してもキーワード「Ａ社」が検出されない場合には、検索部２７は、「検出失敗」を出力範囲決定部２８に出力する。「検出失敗」が入力されると、出力範囲決定部２８から出力部２９、および、出力部２９に接続されている出力装置１０４を通じて、利用者にキーワードの検出に失敗したことが通知される。キーワードの検出が失敗する原因として、例えば、利用者の発声が不明瞭で、正しく音声認識できない場合などが考えられる。

図８Ｂは、検索範囲の再設定処理の一例である処理２を示す図である。制御部２６は、検索部２７から検索範囲の再設定要求が入力されると、１回目の検索範囲のα倍（α＞１を２回目の検索範囲に決定する。決定された２回目の検索範囲は検索部２７へ出力される。例えば、図８Ｂに示す例では、α＝２であり、制御部２６は２回目の検索範囲として、１回目の検索範囲（５秒）のα倍（２倍）である１０秒を指定する。

検索部２７は、１回目の検索範囲のα倍である２回目の検索範囲が入力されると、キーワード音声の入力時点から１回目の検索範囲を遡った時点から、さらに２回目の検索範囲を遡った時点に含まれる部分音声データを記憶部２３から読み出す。図８Ｂにおいては、検索部２７は、キーワード音声データ「Ａ社」の入力時点から１回目の検索範囲（５秒）を遡った時点から、さらに２回目の検索範囲（１０秒）を遡った時点に含まれる再生用音声データを部分音声データとして読み出す。すなわち、検索部２７は、キーワード音声データ「Ａ社」の入力時点の５秒前から１５秒前の範囲に含まれる再生用音声データを部分音声データとして読み出す。図８Ｂでは、キーワード音声データ「Ａ社」の入力時点の５秒前から１５秒前に含まれる部分音声データ内を検索する２回目の検索で、キーワード「Ａ社」が検出される場合を示している。

２回目の検索でも、キーワード「Ａ社」が検出されない場合には、検索部２７及び制御部２６は、図８Ａで示される処理１の場合と同様に、キーワード「Ａ社」が検出されるまで検索処理をｎ＋１回繰り返す。検索部２７は、ｎ＋１回目の検索処理が失敗すると、「検索失敗」を出力範囲決定部２８に出力する。

図８Ｃは、検索範囲の再設定処理の一例である処理３を示す図である。制御部２６は、検索部２７から検索範囲の再設定要求が入力されると、キーワード音声の入力時点から１回目の検索範囲を遡った時点から、記憶部２３に格納される再生用音声データの先頭までを２回目の検索範囲と決定し、２回目の検索範囲を検索部２７に出力する。

検索部２７は、２回目の検索範囲が入力されると、キーワード音声の入力時点から１回目の検索範囲を遡った時点から、記憶部２３に格納される再生用音声データの先頭までの部分音声データを記憶部２３から読み出す。検索部２７は、読み出された部分音声データ内で、キーワード「Ａ社」の２回目の検索を実行する。図８Ｃの処理３では、検索部２７がデータの先頭から検索を行うので、２回目の検索でキーワード「Ａ社」が検出される可能性が処理１及び処理２よりも高い。

以上、図８Ａ，図８Ｂ，及び図８Ｃで説明された、検索範囲の再設定処理をまとめると以下の通りである。
（処理１）２回目以降の検索範囲として、制御部２６は、１回目の検索範囲と同じ範囲を設定する。
（処理２）２回目以降の検索範囲として、制御部２６は、前回の検索範囲のα倍（α＞１）の検索範囲を設定する。
（処理３）２回目の検索範囲として、制御部２６は、再生用音声データの先頭から１回目の検索の部分音声データの開始点までを設定する。

図９Ａから図９Ｄは、部分音声データ内でキーワードが複数検出される場合の処理の例である処理Ａから処理Ｄを示す図である。検索部２７は、部分音声データ内にキーワードが複数検出される場合には、処理Ａから処理Ｄの何れを実行してもよい。図９Ａから図９Ｄに示される例は、検索部２７がキーワードとして「Ａ社」の検索処理を実行する例を示す。

図９Ａは、部分音声データ内にキーワードが複数検出される場合の処理の一例である処理Ａを示す図である。処理Ａでは、検索部２７は、検出されたキーワードの中から、キーワードの入力時点から遡って時間的に最も近いキーワードを検索結果として出力範囲決定部２８に出力する。

図９Ｂは、部分音声データ内にキーワードが複数検出される場合の処理の一例である処理Ｂを示す図である。処理Ｂでは、検索部２７は、検出されたキーワードの中から、キーワードの入力時点から遡って時間的に最も遠いキーワードを検索結果として出力範囲決定部２８に出力する。

図９Ｃは、部分音声データ内にキーワードが複数検出される場合の処理の一例である処理Ｃを示す図である。処理Ｃでは、検索部２７は、検出されたキーワードの中の任意のキーワードを検索結果として出力範囲決定部２８に出力する。

図９Ｄは、部分音声データ内にキーワードが複数検出される場合の処理の一例である処理Ｄを示す図である。処理Ｄでは、検索部２７は、検出されたすべてのキーワードを検索結果として出力範囲決定部２８に出力する。

出力範囲決定部２８は、検索部２７からキーワードの検索結果が入力されると、再生用音声データを記憶部２３から読み出す際の先頭位置を決定する。再生用音声データを記憶部２３から読み出す際の先頭位置は、再生用音声データの再生の開始位置である。

図１０Ａ及び図１０Ｂは、再生用音声データを記憶部２３から読み出すときの先頭位置を決定する処理の例を示す図である。図１０Ａ及び図１０Ｂでは、例えば、「本日の電機関連株価終値は、Ａ社Ｘ円、Ｂ社Ｙ円・・・」という音声情報の出力中に、Ａ社の株価を聞き直したい利用者が「Ａ社」とキーワードを発する場合の例を示す。図１０Ａ及び図１０Ｂに示される例では、検索部２７によるキーワードの検索処理によって、キーワード「Ａ社」が検出された場合に、出力範囲決定部２８が記憶部２３から再生用音声データを読み出す際の先頭を決定する例を示す。

図１０Ａに示される例では、出力範囲決定部２８は、検出されたキーワード「Ａ社」を、記憶部２３から再生用音声データを読み出すときの先頭として決定する。出力範囲決定部２８は、キーワード「Ａ社」を先頭として、記憶部２３から順次再生用音声データを読み出し、出力部２９に出力する。出力部２９を通じて出力装置１０４からは、「Ａ社Ｘ円、Ｂ社Ｙ円。鋼鉄関連株価は、・・・」というように、検出されたキーワード「Ａ社」を開始位置として再生用音声データが出力される。

図１０Ｂに示される例では、出力範囲決定部２８は、検出されたキーワード「Ａ社」の時間的に直前の無音箇所を、記憶部２３から再生用音声データを読み出すときの先頭として決定する。出力範囲決定部２８は、検出されたキーワード「Ａ社」の時間的に直前の無音箇所を先頭として記憶部２３から再生用音声データを読み出し、出力部２９に出力する。無音箇所とは、文と文との間の一定時間以上の無音箇所、情報を読み上げる人の息継ぎ箇所等である。出力部２９を通じて出力装置１０４からは、「本日の電機関連株価終値は、Ａ社Ｘ円、Ｂ社Ｙ円。・・・」というように、検出されたキーワード「Ａ社」の時間的
に直前の無音箇所を開始位置として、再生用音声データが出力される。

情報処理装置２は、図１０Ａに示される処理と図１０Ｂに示される処理とのいずれかを実行する。

出力部２９は、データ入力部２１から再生用音声データを入力として得る。例えば、出力部２９は、再生用音声データをディジタル信号に復号する。出力部２９は、スピーカ等の出力装置１０４（図１）に接続しており、出力装置１０４に復号化されたディジタル信号を出力する。出力部２９から出力されたディジタル信号は、アナログ信号に変換され出力装置１０４から音声信号として出力される。

また、出力部２９は、再生用音声の入力をデータ入力部２１と出力範囲決定部２８との間で切り換える。出力部２９は、出力範囲決定部２８から再生用音声データが入力されると、再生用音声データの入力をデータ入力部２１から出力範囲決定部２８に切り換える。また、その後、例えば、出力範囲決定部２８から所定時間再生用音声データが入力されない場合には、出力部２９は、出力範囲決定部２８からデータ入力部２１に再生用音声データの入力を切り換える。

出力部２９は、出力範囲決定部２８から順次入力される再生用音声データを１倍の速度で再生してもよい。また、出力部２９は、出力範囲決定部２８から順次入力される再生用音声データを、例えば、２倍の速度で再生してもよい。出力範囲決定部２８から入力される再生用音声データを２倍速で再生する場合には、ある時点で出力範囲決定部２８から入力される再生用音声データが入力部２１から入力されるリアルタイム処理の再生用音声データに追いつく。その後、出力範囲決定部２８から再生用音声データが入力されなくなるので、出力部２９は、出力範囲決定部２８からデータ入力部２１に再生用音声データの入力を切り換え、データ入力部２１から入力される再生用音声データを１倍速で再生する。

＜＜情報処理装置の処理フロー＞＞
図１１は、情報処理装置２の処理フローの例を示す図である。図１１に示される例は、音声データの再生中に利用者が聞き直したい情報に関するキーワードを発する場合の例である。

情報処理装置２は、出力部２９からの音声データの再生開始（出力開始）とともに、図１１の処理フローを開始する。

例えば、出力部２９から「本日の電機関連株価終値は、Ａ社Ｘ円、Ｂ社Ｙ円・・・」という音声情報が出力されている場合に、Ａ社の株価を聴き直したい希望する利用者が「Ａ社」とキーワードを発する。

音声入力部２４は、この利用者の「Ａ社」というキーワードの発声を入力音声として検出する（ＯＰ２１）。音声入力部２４は、キーワード音声データ「Ａ社」を算出部２５と検索部２７とに出力する。

算出部２５の区間検出部２５１は、キーワード音声データ「Ａ社」が入力されると、キーワード音声データ「Ａ社」の音声区間長を測定する（ＯＰ２２）。例えば、キーワード音声データ「Ａ社」の音声区間長が０．５秒であったとする。区間検出部２５１は、キーワード音声データ「Ａ社」の音声区間長を発話速度算出部２５４に出力する。区間検出部２５１は、キーワード音声データ「Ａ社」を音声認識部２５２に出力する。

音声認識部２５２は、キーワード音声データ「Ａ社」が入力されると、音声認識処理を
実行する（ＯＰ２３）。音声認識部２５２の音声認識処理により、キーワードが「Ａ社」であることが判明する。音声認識部２５２は、音声認識処理の結果「Ａ社」をモーラ数算出部２５３に出力する。

モーラ数算出部２５３は、音声認識の結果「Ａ社」が入力されると、モーラ数を算出する（ＯＰ２４）。音声認識の結果が「Ａ社」である場合には、モーラ数算出部２５３は、「Ａ社」のモーラ数を「エ」と「ー」と「シャ」とで３モーラと算出する。モーラ数算出部２５３は、「Ａ社」は３モーラであることを発話速度算出部２５４に出力する。

発話速度算出部２５４は、キーワード音声データ「Ａ社」の音声区間長０．５秒とモーラ数３モーラとが入力されると、キーワード音声データ「Ａ社」の発話速度を算出する（ＯＰ２５）。発話速度算出部２５４は、キーワード音声データ「Ａ社」の発話速度を発話速度＝キーワード音声データ「Ａ社」のモーラ数÷キーワード音声データ「Ａ社」の音声区間長＝３モーラ÷０．５秒＝６モーラ／秒と算出する。発話速度算出部２５４は、キーワード音声データ「Ａ社」の発話速度６モーラ／秒を制御部２６に出力する。

制御部２６は、キーワード音声データ「Ａ社」の発話速度６モーラ／秒が入力されると、発話速度に基づいて検索範囲を決定する（ＯＰ２６）。制御部２６は、対応表記憶部２６１内に保持された発話速度と検索範囲との対応表（図４Ａから図４Ｈ参照）を参照して検索範囲を決定する。例えば、入力音声データ「Ａ社」の発話速度が６モーラ／秒の場合には、制御部２６は、検索範囲を３秒と決定する。制御部２６は、決定された検索範囲「３秒」を検索部２７に出力する。

検索部２７は、キーワード音声データ「Ａ社」と検索範囲「３秒」とが入力されると、記憶部２３から、キーワード音声データの入力時点から検索範囲遡った範囲に含まれる部分音声データを読み出し、部分音声データ内でキーワードを検索する（ＯＰ２７）。検索部２７は、例えば、図７で示されるワードスポッティングなどを用いて検索処理を実行する。

検索部２７の検索処理が失敗した場合、すなわち、部分音声データ内でキーワード「Ａ社」が検出されない場合には（ＯＰ２８：Ｎｏ）、検索部２７は検索範囲の再設定要求を制御部２６に出力する。制御部２６は、検索範囲の再設定要求が入力されると、検索範囲の再設定を行う（ＯＰ２９）。制御部２６は、再設定された検索範囲を検索部２７に出力する。検索部２７は、前回の検索の検索範囲から再設定された検索範囲遡った範囲に含まれる部分音声データを記憶部２３から読み出して、キーワード「Ａ社」を再度検索する（ＯＰ２７）。

検索部２７の検索処理が成功した場合、すなわち、部分音声データ内にキーワード「Ａ社」が検出された場合には（ＯＰ２８：Ｙｅｓ）、検索部２７は、検出結果を出力範囲決定部２８に出力する。出力範囲決定部２８は、再生用音声データの再生の開始点を決定し、記憶部２３から順次再生用音声データを読み出して出力部２９に出力する。出力部２９は、出力範囲決定部２８から再生用音声データが入力され始めると、データ入力部２１から入力される再生用音声データの出力処理を中断し、出力範囲決定部２８から入力される再生用音声データを出力する（ＯＰ３０）。

ＯＰ２７，ＯＰ２８，及びＯＰ２９における処理は、図８Ａ，図８Ｂ,及び図８Ｃに示される、検索範囲の再設定処理の例である処理Ａ，処理Ｂ，及び処理Ｃの何れかの処理である。

＜＜第２実施形態の作用効果＞＞
第２実施形態の情報処理装置２は、利用者が発する聞き直したい情報に関するキーワードを認識し、キーワードの入力時点から検索範囲遡った範囲に含まれる部分音声データ内でキーワードを検索する。情報処理装置２は、部分音声データ内でキーワードが検出されない場合には検索範囲を再設定する。このように、情報処理装置２は、キーワードを検索し、検索結果に応じて検索範囲を変えて再度検索することによって、利用者が聞き直したい情報を精度良く出力することができる。

また、利用者は、聞き逃しのような再確認したい情報に関するキーワードを発声するのみで、再確認したい情報を再度再生することができるので、操作が容易である。また、再確認したい情報に関連するキーワードを検索することにより、利用者は再確認したい情報をピンポイントで得ることができる。

情報処理装置２は、第１実施形態の情報処理装置１と同様に、利用者の発声の発話速度に応じて検索範囲を設定する。例えば、発話速度が大きくなるにつれて検索範囲が小さくなるように設定する。例えば、発話速度が大きくなるにつれて検索範囲が大きくなるように設定する。このように、情報処理装置１によれば、発話速度に応じて、キーワードの検索範囲の設定を制御することが可能である。

また、情報処理装置２が、発話速度が小さいときに、すなわち、利用者がゆっくりと発話したときに、検索範囲を大きく設定する場合には、キーワードが検索範囲に含まれる可能性が高くなり、１回の検索でキーワードが検出される精度が向上する。

また、発話速度が大きい場合、すなわち、利用者が早口で発話した場合には、利用者が再確認したい情報が利用者の音声入力時点から遡って近い時点に存在する可能性が高い。情報処理装置２が発話速度が大きい場合に検索範囲を小さく設定することによって、情報処理装置のキーワード検索の処理量を低減することができ、効率の向上が期待できる。

情報処理装置２は、キーワードの検索結果に従って、記憶部２３に保持される再生用音声データの読み出し開始位置（再生開始位置）を制御することができる。

＜変形例＞
第１実施形態及び第２実施形態では、発話速度算出部１２４及び発話速度算出部２５４は、入力音声のモーラ数と時間長とから発話速度を算出した。入力音声のモーラ数に代えて、発話速度算出部１２４及び発話速度算出部２５４は、入力音声のスペクトル特性等を用いて発話速度を算出してもよい。発話速度算出部１２４及び発話速度算出部２５４は、一般的に広く用いられる発話速度の算出法を用いることができる。

第１実施形態及び第２実施形態では、制御部１３及び制御部２６は、それぞれ、時間を単位として遡る範囲又は検索範囲を決定した。時間を単位として遡る範囲又は検索範囲を決定することに代えて、制御部１３及び制御部２６は、音節数，単語数，呼気段落、無音区間等を用いて遡る範囲又は検索範囲を決定してもよい。

第１実施形態及び第２実施形態では、情報処理装置１及び情報処理装置２は、ネットワークインタフェース１０７やチューナー１０８から逐次入力される音声信号をリアルタイムに再生中に、利用者の音声入力を契機に、利用者の音声の入力時点から所定範囲遡った時点から音声データを再生する処理ついて説明された。情報処理装置１及び情報処理装置２は、補助記憶装置１０５などに予め保持される音声データを再生中にも、第１実施形態及び第２実施形態で説明された処理を実行することができる。

第２実施形態では、検索部２７は、検索範囲でキーワードを検索する方法としてワード
スポッティング技術を用いた。ワードスポッティング技術に代えて、検索部２７は、他の音声認識の技術を用いてもよい。例えば、再生用音声データはテキスト化されて記憶部２３に格納されており、検索部２７は、キーワード音声データをテキスト化し、検索範囲内に含まれる再生用音声データのテキストから、キーワードの検索を行ってもよい。

また、第２実施形態において、音声認識部２５２がキーワード音声データの音声認識処理を終了した後、利用者に対してキーワード音声データの音声認識結果を確認してもよい。例えば、音声認識部２５２は、キーワード音声データの音声認識結果を出力部２９に出力する。出力部２９は、キーワード音声データの音声認識結果が入力されると、その音声入力結果が正しいか否かを利用者に問い合わせる音声を出力する。利用者に音声認識結果を問い合わせる音声は補助記憶装置１０５（図１）に格納されている。例えば、キーワード音声データの音声認識結果が「Ａ社」である場合には、出力部２９は、「“Ａ社”でよろしいですか。」という音声を出力する。このように、キーワード音声データの音声認識結果を、利用者に確認することによって、キーワードの音声認識失敗による検索部２７でのキーワードの検出失敗を防止することができる。

また、第２実施形態では、利用者が明示的に聞き直したい情報に関するキーワード（単語）を発する場合の例が説明された。再生用音声データの出力中に利用者が聞き直したい情報を指定する場合には、利用者が、例えば、「Ａ社の株価はいくらだろう。」というような文章を発することも考えられる。利用者からのキーワード音声入力が文章又は複数の単語である場合には、例えば、情報処理装置２は、以下のような処理を行う。

例えば、「Ａ社の株価はいくらだろう。」というキーワード音声入力があった場合を例とする。補助記憶装置１０５（図１）はキーワード候補のリストを保持する。音声認識部２５２は、「Ａ社の株価はいくらだろう。」というキーワード音声データが入力されると、キーワード音声データから、補助記憶装置１０５に保持されているリスト中のキーワード候補を、例えば、ワードスポッティング技術を用いて、検出する。音声認識部２５２は、リスト中のキーワード候補を用いて、キーワード音声データから気ワード「Ａ社」と「株価」とを検出することができる。音声認識部２５２は、検出されたキーワード「Ａ社」と「株価」との双方を検索部２７に出力してもよい。または、キーワード候補のリスト内では、単語の種類（例えば、固有名詞、一般名詞等）によって優先度が付けられており、優先度に従って検出されたキーワード「Ａ社」と「株価」との何れかを検索部２７に出力してもよい。キーワードが入力されると、検索部２７は、第２実施形態で説明された処理を実行する。このように情報処置装置２は、キーワード候補のリストを備え、キーワード音声データからキーワードを抽出することによって、利用者が発した音声が文章などである場合にも、適正に利用者が聞きたい情報を出力することができる。

＜その他＞
以上の実施形態に関し、更に以下を開示する。
（付記１）
音声データを再生する情報処理装置であって、
利用者が発する音声を受け付ける入力部と、
前記音声の発話速度を算出する算出部と、
前記発話速度に応じて、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から遡る範囲を決定する制御部と、
を備える情報処理装置。
（付記２）
前記制御部は、前記発話速度が大きくなるにつれて前記遡る範囲が小さくなるように前記範囲を決定する
付記１の情報処理装置。
（付記３）
前記制御部は、前記発話速度の下限値に対応する前記遡る範囲の最大値を設定し、前記発話速度の上限値に対応する前記遡る範囲の最小値を設定し、前記発話速度が前記下限値から前記上限値までの間で大きくなるにつれて、前記遡る範囲が前記最大値から前記最小値までの間で狭くなるように設定する
付記１に記載の情報処理装置。
（付記４）
前記制御部は、前記音声の発話速度が大きくなるにつれて前記遡る範囲が大きくなるように、前記遡る範囲を決定する
付記１の情報処理装置。
（付記５）
前記音声データの出力時系列上の前記音声の入力時点に対応する時点から前記遡る範囲遡った時点までの部分音声データを抽出する抽出部を
さらに含む付記１から４のいずれか１項に記載の情報処理装置。
（付記６）
前記音声データの出力時系列上の前記音声の入力時点に対応する時点から前記遡る範囲遡った時点までの部分音声データに、前記音声の発話内容が含まれるか否かを検索する検索部をさらに含む
付記１から４のいずれか１項に記載の情報処理装置。
（付記７）
前記制御部は、前記部分音声データに前記音声の発話内容が含まれない場合に、前記遡る範囲を拡大し、
前記検索部は、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から前記制御部によって前記拡大された前記遡る範囲遡った時点までに含まれる部分音声データに、前記音声の発話内容が含まれるか否かを検索する
付記６に記載の情報処理装置。
（付記８）
前記検索部は、前記部分音声データ内に、複数の前記音声の発話内容が検出された場合には、前記検出された前記複数の前記音声の発話内容の内の少なくとも１つを検索結果とする
付記６又は７に記載の情報処理装置。
（付記９）
前記検索部の検索結果に基づいて、前記音声データの出力開始点を決定する決定部
をさらに含む付記６から８のいずれか１項に記載の情報処理装置。
（付記１０）
前記決定部は、前記検索部によって検出された前記音声の発話内容を前記音声データの出力開始点として決定する
付記９に記載の情報処理装置。
（付記１１）
前記決定部は、前記検索部によって検出された前記音声の発話内容よりも遡った箇所に存在する無音箇所を前記音声データの出力開始点として決定する
付記１０に記載の情報処理装置。
（付記１２）
音声データを再生する情報処理装置に、
利用者が発する音声を受け付けるステップと、
前記音声の発話速度を算出するステップと、
前記発話速度に応じて、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から遡る範囲を決定するステップと、
を実行させるためのプログラム。

１，２情報処理装置
１１入力部
１２，２５算出部
１３，２６制御部
１４抽出部
２１データ入力部
２２記録部
２３記憶部
２４音声入力部
２７検索部
２８出力範囲決定部
２９出力部
１０１プロセッサ
１０２主記憶装置
１０３マイクロフォン
１０４出力装置
１０５補助記憶装置
１０７ネットワークインタフェース
１０８チューナー
１０９バス
１２１，２５１区間検出部
１２２，２５２音声認識部
１２３，２５３モーラ数算出部
１２４，２５４発話速度算出部
２６１対応表記憶部

Claims

音声データを再生する情報処理装置であって、
利用者が発する音声を受け付ける入力部と、
前記音声の発話速度を算出する算出部と、
前記発話速度に応じて、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から遡る範囲を決定する制御部と、
を備える情報処理装置。
前記制御部は、前記発話速度が大きくなるにつれて前記遡る範囲が小さくなるように前記遡る範囲を決定する
請求項１に記載の情報処理装置。
前記音声データの出力時系列上の前記音声の入力時点に対応する時点から前記遡る範囲遡った時点までの部分音声データに、前記音声の発話内容が含まれるか否かを検索する検索部をさらに含む
請求項１又は２に記載の情報処理装置。
前記制御部は、前記部分音声データに前記音声の発話内容が含まれない場合に、前記遡る範囲を拡大し、
前記検索部は、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から前記制御部によって前記拡大された前記遡る範囲遡った時点までに含まれる部分音声データに、前記音声の発話内容が含まれるか否かを検索する
請求項３に記載の情報処理装置。
音声データを再生する情報処理装置に、
利用者が発する音声を受け付けるステップと、
前記音声の発話速度を算出するステップと、
前記発話速度に応じて、前記音声データの出力時系列上の前記音声の入力時点に対応する時点から遡る範囲を決定するステップと、
を実行させるためのプログラム。