WO2013183078A1

WO2013183078A1 - 自動記録装置

Info

Publication number: WO2013183078A1
Application number: PCT/JP2012/003652
Authority: WO
Inventors: 裕生山下; 知弘岩崎
Original assignee: 三菱電機株式会社
Priority date: 2012-06-04
Filing date: 2012-06-04
Publication date: 2013-12-12
Also published as: CN104350545B; JPWO2013183078A1; CN104350545A; JP5591428B2

Abstract

　この発明の自動記録装置によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。

Description

自動記録装置

　この発明は、放送データを音声認識して得られた認識結果から情報を自動的に抽出して記録する自動記録装置に関するものである。

　例えば特許文献１には、放送局より放送される放送データを分析して楽曲等のコンテンツデータと会話とに分類して抽出し、抽出したコンテンツデータを数値化して、その数値化されたコンテンツデータを外部機器に送信して照合し、そのコンテンツデータに対応するアーティスト名等の識別データを受信して、その受信した識別データを抽出したコンテンツデータに対応付けて保存するデータ処理装置が開示されている。

特開２００８－２７５７３号公報

　しかしながら、例えば特許文献１のような従来のデータ処理装置は、コンテンツデータの識別を行うために、録音したコンテンツデータの特徴量を外部機器へ送信して識別データを受信する必要があり、外部機器との通信が確立しない場合にはデータ処理を行うことができない、という課題があった。また、新曲などの新規のコンテンツに対応するためには外部機器が持つデータベースを更新する必要があり、また、多くのコンテンツを識別可能とするためには、外部機器が持つコンテンツのデータ数を増やさなければいけない、という課題もあった。

　この発明は、上記のような課題を解決するためになされたものであり、放送データから抽出されたコンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを取得し、当該識別データをコンテンツと対応付けて自動的に記録することのできる自動記録装置を提供することを目的とする。

　上記目的を達成するため、この発明の自動記録装置は、放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する音声取得部と、前記コンテンツを紹介する際の文言を記憶する定型文記憶部と、前記音声取得部により取得された音声データを認識するとともに、当該認識結果と前記定型文記憶部に記憶されている文言とに基づいて、前記コンテンツの識別データを抽出して出力する音声認識部と、前記音声認識部から前記コンテンツの識別データを受け取った場合に、前記コンテンツの開始時点および終了時点を検知するよう指示する制御部と、前記制御部からの指示にしたがって、前記音声取得部により取得された音声データから前記コンテンツの開始時点および終了時点を検知するコンテンツ区間検出部と、前記コンテンツ区間検出部により検出された開始時点と終了時点の間のコンテンツ区間におけるコンテンツを記録する映像音声記録部と、少なくとも前記映像音声記録部により記録されたコンテンツと、前記コンテンツの識別データとを記憶する情報記憶部とを備え、前記制御部は、前記コンテンツの識別データを前記映像音声記録部により記録されたコンテンツと対応付けて前記情報記憶部に保存することを特徴とする。

実施の形態１による自動記録装置の一例を示すブロック図である。定型文記憶部に記憶されている曲紹介文言の一例を示す図である。情報記憶部に記憶されている曲名・アーティスト名および楽曲が対応付けられているデータの一例を示す図である。実施の形態１における自動記録装置の動作を示すフローチャートである。実施の形態２による自動記録装置の一例を示すブロック図である。情報記憶部に記憶されている曲名・アーティスト名、楽曲および取得回数が対応付けられている情報の一例を示す図である。実施の形態２における自動記録装置の動作を示すフローチャートである。実施の形態３における自動記録装置の動作を示すフローチャートである。実施の形態４による自動記録装置の一例を示すブロック図である。実施の形態４における自動記録装置の動作を示すフローチャートである。実施の形態５による自動記録装置の一例を示すブロック図である。実施の形態５における自動記録装置の動作を示すフローチャートである。実施の形態６による自動記録装置の一例を示すブロック図である。実施の形態６による自動記録装置の別の一例を示すブロック図である。実施の形態６における自動記録装置の動作を示すフローチャートである。

　以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態１．
　図１は、この発明の実施の形態１による自動記録装置の一例を示すブロック図である。この実施の形態では、ラジオ、テレビなどで放送される放送データから、コンテンツおよび当該コンテンツの識別データを音声取得、音声認識して記録する自動記録装置として、音楽コンテンツ（楽曲）とそのコンテンツ（楽曲）の識別データである曲名とアーティスト名を対応付けて保存する場合を例として説明する。なお、以下の実施の形態においても同様とする。

　この自動記録装置は、音声取得部１、音声認識部２、定型文記憶部３、制御部４、情報記憶部５、コンテンツ区間検出部６、映像音声記録部７を備えている。また、この実施の形態１では図示は省略したが、この自動記録装置は、キーやタッチパネル等による入力信号を取得する入力部８や、データを表示または音声により出力する出力部９も備えている（後述する実施の形態４における図９参照）。

　そして、この自動記録装置は、ラジオやテレビなどのオーディオ機器から出力される放送データから音声を取得して認識し、当該認識した結果から、放送されている楽曲（コンテンツ）の名称（曲名）やアーティストの名称（アーティスト名）などの識別データを抽出し、楽曲（コンテンツ）に対応付けて曲名やアーティスト名などの識別データを自動的に情報記憶部に記録するものである。

　音声取得部１は、放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する。この際、オーディオ機器から出力される音声をライン入力などで取得する。アナログで取得した場合はＡ／Ｄ変換して、例えばＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）形式などのデジタル形式に変換して取得する。

　音声認識部２は、認識辞書（図示せず）を有し、音声取得部１により取得された音声データを認識する。具体的には、搭乗者発話等の内容に該当する音声区間を検出し、当該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果を文字列で出力する。なお、認識処理としては、例えばＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）法のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。また、音声認識部２は、後述のようにネットワーク上のサーバにあるものとしてもよい。

　ここで利用する音声認識は予め認識辞書で登録した認識語彙を認識する構文型の音声認識と、「あ」「い」「う」「え」「お」などの一文字の音節を連続で認識することにより、任意の文字列を認識可能とする大語彙連続音声認識の両方を併用する。なお、認識全てを大語彙連続認識で行い、認識結果を形態素解析する方法をとってもよい。形態素解析については例えばＨＭＭ法のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。

　定型文記憶部３は、楽曲（コンテンツ）を紹介する際の文言として、例えば図２に示すように「次の曲は＜アーティスト名＞の＜曲名＞です」、「お聴きいただいたのは＜アーティスト名＞の＜曲名＞です」のようなディスクジョッキーやプレゼンテーターなどが曲を紹介する時によく使われる文言を記憶している。以下、これを曲紹介文言と呼ぶ。

　そして前述の音声認識部２は、音声取得部１により取得された音声データを認識するとともに、定型文記憶部３を参照して、すなわち、音声データを認識した認識結果と定型文記憶部３に記憶されている文言とに基づいて、楽曲（コンテンツ）の曲名、アーティスト名など（識別データ）を抽出して出力する。具体的な抽出方法としては、定型文記憶部３に記憶されている曲紹介文言については＜アーティスト名＞と＜曲名＞の部分を大語彙連続認識で認識して抽出し、それ以外の部分を構文型音声認識で認識する。

　制御部４は、音声認識部２により出力された認識結果である曲名、アーティスト名など（識別データ）の文字列を入力とし、その楽曲（コンテンツ）の曲名、アーティスト名など（識別データ）を受け取った場合に、後述するコンテンツ区間検出部６へ動作開始の命令を出力、すなわち、楽曲（コンテンツ）の開始時点および終了時点を検知するよう指示を行う。

　情報記憶部５は、例えば図３に示すように、少なくとも楽曲（コンテンツ）と、その楽曲（コンテンツ）のアーティスト名や曲名（識別データ）とを記憶している。なお、この図３に示すように、アーティスト名、曲名（識別データ）を楽曲（コンテンツ）に対応付けて保存するとともに、その楽曲（コンテンツ）を取得（録音）した取得日時なども関連付けて保存するようにしてもよい。また、図３（ａ）に示すように、曲名ごとのデータとしてもよいし、図３（ｂ）に示すように、アーティストごとにまとめたデータであってもよい。なお、情報記憶部５は、ハードディスクでもよいし、ＳＤカードなどであっても構わない。

　コンテンツ区間検出部６は、制御部４からの指示にしたがって、音声取得部１により取得された音声データから楽曲（コンテンツ）の開始時点および終了時点を検知する。具体的には、音声取得部１から出力されるデジタル音声データを入力とし、入力されたデジタル音声データが持つ周波数の特徴量などを利用して、音声データの中の楽曲（コンテンツ）と会話（コンテンツ以外の部分）の境界区間を検知する。そして、楽曲の開始区間を検知すると、後述する映像音声記録部７に記録開始の命令を送り、楽曲の終了区間を検知すると、映像音声記録部７に記録終了の命令を送る。なお、開始区間や終了区間の検知には時間－周波数解析のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。

　映像音声記録部７は、コンテンツ区間検出部６の命令により、すなわち、コンテンツ区間検出部６により検出された開始時点と終了時点の間のコンテンツ区間における楽曲（コンテンツ）部分のみを記録し、情報記憶部５に保存する。
　そして前述の制御部４は、音声認識部２から受け取った曲名とアーティスト名（識別データ）を映像音声記録部７により記録された楽曲（コンテンツ）と対応付けて情報記憶部５に保存する。

　次に、図４に示すフローチャートを用いて、実施の形態１の自動記録装置の動作を説明する。
　まず、音声取得部１は、オーディオ機器より入力された音声をライン入力で取得する（ステップＳＴ１１）。この時、オーディオ機器から入力された音声がアナログ形式の場合はＡ／Ｄ変換を行い、例えばＰＣＭ形式に変換してデジタルデータとして取得する。
　次に、音声認識部２は、音声取得部１により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部３と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する（ステップＳＴ１２）。

　制御部４は、音声認識部２から曲名・アーティスト名を受け取ると、コンテンツ区間検出部６を動作させる指示を行う。コンテンツ区間検出部６は、音声取得部１により取得されたオーディオ音声に対し信号処理技術を用いて周波数などの特徴量を抽出し、楽曲部分の開始区間を検知して（ステップＳＴ１３）、映像音声記録部７に記録開始の命令を送る。
　そして、映像音声記録部７は、コンテンツ区間検出部６からの命令を受けて、ステップＳＴ１３で検知された楽曲の開始位置から楽曲の記録を開始する（ステップＳＴ１４）。

　また、コンテンツ区間検出部６は、取得されたオーディオ音声に対し信号処理技術を用いて特徴量を抽出し、楽曲部分の終了区間を検知して（ステップＳＴ１５）、映像音声記録部７に記録終了の命令を送る。
　そして、映像音声記録部７は、コンテンツ区間検出部６からの命令を受けて楽曲の記録を停止し（ステップＳＴ１６）、その録音された楽曲を情報記憶部５に保存する（ステップＳＴ１７）。

　最後に、制御部４は、ステップＳＴ１２で抽出されて音声認識部２から取得した曲名・アーティスト名を、ステップＳＴ１７で保存された楽曲と関連付けて、情報記憶部５に保存する（ステップＳＴ１８）。
　この結果、例えば図３に示すような関連付けテーブルが保存される。

　このようにして、ラジオやテレビなどの放送データだけに基づいて、大語彙連続音声認識を利用した音声認識を行うことにより、コンテンツの識別データを参照するための外部データベースが不要となり、当該外部データベースの作成、更新の手間も省くことができ、さらに、その外部データベースとの通信も不要となる。
　また、識別データと、コンテンツ開始部分が抽出できたことを条件にコンテンツを記録するため、記憶媒体の容量を圧迫せずに曲部分のみを効率的に保存することができる。

　以上のように、この実施の形態１によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。

実施の形態２．
　図５は、この発明の実施の形態２による自動記録装置の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態２では、実施の形態１と比べると、制御部４が情報記憶部５に保存されている情報を参照することにより、ユーザの嗜好にあったコンテンツのみを記録するものである。

　情報記憶部５には、例えば図６に示すような形式で、音声認識部２から出力されたアーティスト名、曲名（識別データ）が楽曲（コンテンツ）に対応付けて保存されているだけではなく、それぞれの楽曲（コンテンツ）やそのアーティストの楽曲（コンテンツ）が取得された回数を含むデータが保存されており、この情報記憶部５に記憶されているデータは制御部４より参照可能とする。

　そして制御部４は、音声認識部２から出力された曲名、アーティスト名など（識別データ）の文字列を入力とし、当該曲名とアーティスト名（識別データ）を情報記憶部５に記録するとともに、情報記憶部５に記憶されている当該データ（取得回数を含む当該コンテンツに関する情報）を参照することにより、そのコンテンツを取得した回数が所定の回数以上である場合にのみ、コンテンツ区間検出部６へ動作開始の命令を出力する。

　次に、図７に示すフローチャートを用いて実施の形態２における自動記録装置の動作を説明する。
　まず、音声取得部１は、オーディオ機器より入力された音声をライン入力で取得する（ステップＳＴ２１）。この時、オーディオ機器から入力された音声がアナログ形式の場合はＡ／Ｄ変換を行い、例えばＰＣＭ形式に変換してデジタルデータとして取得する。
　次に、音声認識部２は、音声取得部１により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部３と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する（ステップＳＴ２２）。

　制御部４は、音声認識部２から曲名・アーティスト名を取得すると、取得した曲名・アーティスト名について情報記憶部５に記憶されているデータを参照し、当該曲名・アーティスト名のコンテンツを取得した回数が所定の回数以上である場合（ステップＳＴ２３のＹＥＳの場合）には、コンテンツ区間検出部６を動作させ、ステップＳＴ２４～ＳＴ２９の処理を行う。
　なお、ステップＳＴ２４～ＳＴ２９の処理については、実施の形態１における図４に示したステップＳＴ１３～ＳＴ１８の処理と同一であるため、説明を省略する。

　一方、ステップＳＴ２３において、ステップＳＴ２２で抽出された曲名・アーティスト名の楽曲の取得回数が所定の回数未満である場合（ステップＳＴ２３のＮＯの場合）には、制御部４は音声認識部２から出力された曲名・アーティスト名を、その取得回数を１回追加して情報記憶部５に保存する（ステップＳＴ３０）。

　このように、既に所定の回数以上取得している曲名・アーティスト名の楽曲、すなわち、ユーザの嗜好に合ったコンテンツのみを記録することができるので、記憶媒体の容量を圧迫せずに曲部分のみを効率的に記録することができる。

　以上のように、この実施の形態２によれば、実施の形態１における効果に加え、ユーザの嗜好に合ったコンテンツのみを記録することができるので、記憶媒体の容量を圧迫せずに曲部分のみを効率的に記録することができる。

実施の形態３．
　この発明の実施の形態３による自動記録装置の一例を示すブロック図は、実施の形態２の図５に示したブロック図と同じであるため、図示および説明を省略する。そして、以下に示す実施の形態３では、実施の形態２と比べると、楽曲（コンテンツ）の区間検出開始の命令を行うかどうかを、その楽曲（コンテンツ）がユーザの嗜好に合ったものであるか否かによるのではなく、音声認識の尤度によって決定するものである。
　なお、この実施の形態３では、音声認識部２が認識結果を制御部４に出力する際に、その認識結果とともにその認識の尤度も出力する。

　次に、図８に示すフローチャートを用いて実施の形態３における自動記録装置の動作を説明する。
　まず、音声取得部１は、オーディオ機器より入力された音声をライン入力で取得する（ステップＳＴ３１）。この時、オーディオ機器から入力された音声がアナログ形式の場合はＡ／Ｄ変換を行い、例えばＰＣＭ形式に変換してデジタルデータとして取得する。
　次に、音声認識部２は、音声取得部１により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部３と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する（ステップＳＴ３２）。

　また、音声認識部２により認識結果が出力される際に、音声認識部２において認識された音声の確からしさ（もっともらしさ）を示す尤度もともに出力され、制御部４は、その認識の尤度も同時に取得し、当該認識の尤度が所定の値以上である場合（ステップＳＴ３３のＹＥＳの場合）にのみ、コンテンツ区間検出部６を動作させ、ステップＳＴ３４～ＳＴ３９の処理を行う。
　なお、ステップＳＴ３４～ＳＴ３９の処理については、実施の形態１における図４に示したステップＳＴ１３～ＳＴ１８の処理と同一であるため、説明を省略する。

　一方、ステップＳＴ３３において、音声認識の尤度が所定の値未満である場合（ステップＳＴ３３のＮＯの場合）には、そのまま処理を終了する。

　ここで、尤度の具体例について説明する。例えば、大語彙連続音声認識において、認識された音声一音ずつの確からしさ（もっともらしさ）は、放送データから聞こえてくる司会者などの滑舌の良さや雑音の少なさによって高くなるものであり、通常は６０～７０％以上の尤度であれば、その音（文字）が出力されたと判断される。そこで、ステップＳＴ３３における所定の値として、例えば８０％を設定しておくことにより、正しく音声認識された場合にのみステップＳＴ３４以降の処理に進むようにする。

　また、例えば、定型文記憶部３に記憶されている曲紹介文言（図２）と比較した構文型音声認識において、一致する文言が何％あるかによって、認識された音声が曲紹介であるか否かという尤度を算出するようにしてもよい。この場合にも、ステップＳＴ３３における所定の値としては、例えば８０％と設定しておくことにより、曲紹介の構文が正しく音声認識された場合にのみステップＳＴ３４以降の処理に進むようにする。

　これにより、低い尤度の音声認識結果に基づいて、誤ってコンテンツ区間検出部６が動作することを防ぐことができるとともに、誤った曲名やアーティスト名（識別データ）を関連付けた楽曲（コンテンツ）を保存してしまうことを防ぐことができる。

　以上のように、この実施の形態３によれば、実施の形態１における効果に加え、音声認識の尤度が所定の値以上である場合のみコンテンツの識別データとコンテンツとを記録することができるので、誤った識別データを関連付けたコンテンツを保存してしまい、記憶媒体の容量を圧迫するのを防ぐことができる。

実施の形態４．
　図９は、この発明の実施の形態４による自動記録装置の一例を示すブロック図である。なお、実施の形態１～３で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。この実施の形態４のブロック図には、実施の形態１～３では図示を省略した、キーやタッチパネル等による入力信号を取得することによりユーザからの操作入力を受け付ける入力部８と、データを表示または音声出力することによりユーザにデータを提示する出力部９も図示されており、以下に示す実施の形態４では、これらの入力部８および出力部９を介して、ユーザが楽曲（コンテンツ）の保存の要否を選択することができるものである。

　そして制御部４は、音声認識部２から出力された曲名、アーティスト名など（識別データ）の文字列を取得すると、それらの曲名、アーティスト名など（識別データ）を出力部９を介して提示することにより保存の要否をユーザに確認し、入力部８を介してユーザからの入力を受け付けることにより、楽曲（コンテンツ）の保存要否を判断する。具体的には、入力部を介して保存要である旨の入力を受け付けた場合には、楽曲（コンテンツ）の曲名、アーティスト名など（識別データ）を楽曲（コンテンツ）に対応付けて情報記憶部５に保存し、保存否である旨の入力を受け付けた場合には、楽曲（コンテンツ）の曲名、アーティスト名など（識別データ）のみを保存する。

　入力部８は、ユーザの意思を入力するものであり、例えばボタンやタッチディスプレイなどでもよいし、マイク等による音声認識を用いた音声入力や、ジェスチャー入力によるものでもよい。また、それらを組み合わせたものであっても構わない。
　出力部９は、制御部４により出力された曲名、アーティスト名（識別データ）を、例えば合成音声を利用して出力するものでもよいし、ディスプレイ画面に文字を表示するものでもよい。また、それら両方に出力しても構わない。

　次に、図１０に示すフローチャートを用いて実施の形態４における自動記録装置の動作を説明する。
　ステップＳＴ４１～ＳＴ４６の処理については、実施の形態１における図４に示したステップＳＴ１１～ＳＴ１６の処理と同一であるため、説明を省略する。

　そして、ステップＳＴ４６において、映像音声記録部７が、コンテンツ区間検出部６からの命令を受けて楽曲の記録を停止した後、制御部４は、出力部９に対して曲名・アーティスト名を出力するよう指示を行い、ユーザにその楽曲の保存をするかどうか確認を求める（ステップＳＴ４７）。

　ユーザが、入力部８を介して曲名・アーティスト名が示された楽曲について保存要の選択をした場合、すなわち、入力部８が楽曲の保存要否について保存要である旨のユーザの入力を受け付けると（ステップＳＴ４８のＹＥＳの場合）、映像音声記録部７に録音された楽曲を情報記憶部５に保存し（ステップＳＴ４９）、曲名・アーティスト名をその楽曲と関連付けて情報記憶部５に保存する（ステップＳＴ５０）。

　一方、ステップＳＴ４８において、ユーザが保存要の選択をしなかった場合、すなわち、入力部８が楽曲の保存要否について保存否である旨のユーザの入力を受け付けた場合（ステップＳＴ４８のＮＯの場合）には、曲名・アーティスト名だけを情報記憶部５に保存して、その曲名・アーティスト名の取得回数など、曲名・アーティスト名情報を更新する（ステップＳＴ５１）。

　以上のように、この実施の形態４によれば、実施の形態１における効果に加え、コンテンツを記録した後でさらに、ユーザに対して保存要否の確認を行ってから必要な場合にだけ保存するようにしたので、ユーザが所望しないコンテンツの保存を防ぐことができる。

実施の形態５．
　図１１は、この発明の実施の形態５による自動記録装置の一例を示すブロック図である。なお、実施の形態１～４で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態５では、実施の形態４と比べると、制御部４がコンテンツ区間検出部６による楽曲の終了区間検知時に映像音声記録部７で記録された楽曲と、情報記憶部５に保存されている楽曲とを比較して、既に同一の曲名・アーティスト名の楽曲が保存済みの場合には、音質の良い方を保存するようにしたものである。

　制御部４は、コンテンツ区間検出部６による楽曲の終了区間検知時に映像音声記録部７で録音された楽曲を取得して、当該楽曲の音質の良さを数値化する。この時、音質の良さを数値化する方法としては、Ｓ／Ｎ比などの一般的な手法を用いればよいので、ここでは説明を省略する。なお、音質の良さの基準としては、録音時間を用いてもよいし、Ｓ／Ｎ比と録音時間とを組み合わせてもよい。

　さらに制御部４は、情報記憶部５に記憶されているデータを参照することにより、音声認識部２において抽出されたコンテンツの識別データについて、同一のデータ（曲名、アーティスト名を持つ曲）が情報記憶部５に存在するか否かを判別し、存在する場合には、映像音声記録部７で録音された楽曲（コンテンツ）と、情報記憶部５に保存されている楽曲（コンテンツ）の音質とを比較し、新たに映像音声記録部７により録音された楽曲（コンテンツ）の方が既存の楽曲より音質が高い場合にのみ、自動的に情報記憶部５に保存されている楽曲（コンテンツ）に上書きして保存する。

　次に、図１２に示すフローチャートを用いて実施の形態５における自動記録装置の動作を説明する。
　ステップＳＴ６１～ＳＴ６６の処理については、実施の形態１における図４に示したステップＳＴ１１～ＳＴ１６の処理と同一であるため、説明を省略する。

　そして、ステップＳＴ６６において、映像音声記録部７が、コンテンツ区間検出部６からの命令を受けて楽曲の記録を停止した後、制御部４は、ステップＳＴ６２で音声認識部２により検出された曲名・アーティスト名と同一の楽曲が既に情報記憶部５に保存されているか否かを判別し（ステップＳＴ６７）、既に同一の楽曲が保存済みである場合（ステップＳＴ６７のＹＥＳの場合）には、さらにステップＳＴ６４～ＳＴ６６において映像音声記録部７に録音された楽曲を取得して、当該楽曲の音質の良さを数値化した音質情報を、情報記憶部５に保存されている楽曲の音質と比較する（ステップＳＴ６８）。

　ステップＳＴ６４～ＳＴ６６において映像音声記録部７に録音された楽曲の音質が既存の楽曲の音質より高い場合（ステップＳＴ６８のＹＥＳの場合）、映像音声記録部７に録音された楽曲を情報記憶部５に保存し（ステップＳＴ６９）、曲名・アーティスト名をその楽曲と関連付けて情報記憶部５に保存する（ステップＳＴ７０）。
　また、ステップＳＴ６７の判断において、同一の楽曲が情報記憶部５に保存されていない場合（ステップＳＴ６７のＮＯの場合）にも、上記ステップＳＴ６９およびＳＴ７０の処理を行う。

　一方、ステップＳＴ６８において、映像音声記録部７に録音された楽曲の音声津が既存の楽曲の音質以下だった場合（ステップＳＴ６８のＮＯの場合）には、曲名・アーティスト名だけを情報記憶部５に保存して、その曲名・アーティスト名の取得回数など、曲名・アーティスト名情報を更新する（ステップＳＴ７１）。

　以上のように、この実施の形態５によれば、実施の形態１における効果に加え、既に取得している曲名・アーティスト名について、新しく取得した楽曲の音質が高い場合には、その楽曲（コンテンツ）を記録し、既存の楽曲の音質以下だった場合には、楽曲（コンテンツ）を上書きしないようにすることにより、常に音質の良いコンテンツに自動で更新することができる。

　なお、この実施の形態５では、新たに録音された曲の音質が既存の曲の音質より高かった場合に、自動的に上書き保存を行うものとして説明したが、ユーザに上書き保存の要否を確認してから保存するようにしてもよい。
　この場合には、既存の楽曲の音質以下だった場合には楽曲（コンテンツ）を上書きしないことに加え、既存の楽曲の音質より高かった場合であっても、ユーザの確認を得た上で上書き保存するようにしたので、ユーザの都合により、音質の良い方を保存するよう選択したり、音質は多少悪くても好みの録音状態の楽曲を残すように選択したりすることができる。

実施の形態６．
　図１３は、この発明の実施の形態６による自動記録装置の一例を示すブロック図である。なお、実施の形態１～５で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態６では、実施の形態２と比べると、音声認識部２が複数の音声認識器２１，２２，２３，・・・により構成されており、複数の言語ごとに認識辞書（図示せず）を有するものであり、それら言語ごとの複数の音声認識エンジンを使用して、複数の言語ごとに音声認識を行うようにしたものである。

　一般的に、例えば日本語の音声認識エンジンは、外国語の音声認識には弱く、英語が発話された場合には、英語の音声認識エンジンを使用した方が認識精度が高い。そこで、日本語用の音声認識器２－１、英語用の音声認識器２－２、ドイツ語用の音声認識器２－３、・・・等のように、それぞれが各言語ごとの認識辞書を有する各言語ごとの音声認識器２１，２２，２３，・・・を備えるようにした。ここでは、それら複数の音声認識器２１，２２，２３，・・・を並列に接続した音声認識部２を使用する場合を例として説明する。

　そして、音声認識部２が音声取得部１から出力された音声を認識する際に、複数の言語に対応する音声認識器２１，２２，２３，・・・とそれぞれの認識辞書（図示せず）とを並列に動作させて、各音声認識器２１，２２，２３，・・・により複数の言語ごとに音声認識を行い、その結果を制御部４に出力する。その時、各音声認識器２１，２２，２３，・・・は、認識結果とともにその認識の尤度も出力する。

　制御部４は、複数の音声認識器２１，２２，２３，・・・により認識された結果の中で最も尤度の高い結果から認識された音声の言語を特定し、その認識の尤度が最も高い言語により抽出された楽曲（コンテンツ）の曲名、アーティスト名など（識別データ）を情報記憶部５に保存する。

　なお、図１３に示す音声認識部２に代えて、図１４に示すように、１つの音声認識器２０で複数の音声認識辞書２０－１，２０－２，２０－３，・・・を切り替えて認識を行う音声認識部２を使用するようにしてもよい。

　次に、図１５に示すフローチャートを用いて実施の形態６における自動記録装置の動作を説明する。
　まず、音声取得部１は、オーディオ機器より入力された音声をライン入力で取得する（ステップＳＴ８１）。この時、オーディオ機器から入力された音声がアナログ形式の場合はＡ／Ｄ変換を行い、例えばＰＣＭ形式に変換してデジタルデータとして取得する。
　次に、音声認識部２は、音声取得部１により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部３と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する（ステップＳＴ８２）。

　制御部４は、音声認識部２においてに認識された各言語の音声の確からしさ（もっともらしさ）を示す尤度も同時に取得し、その認識の尤度に基づいて、曲名・アーティスト名の言語を決定する（ステップＳＴ８３）。例えば、最も尤度の高い言語を、曲名・アーティスト名の言語であると特定する。これにより、多言語の音声認識辞書を用いて精度の低い音声認識が行われることを防ぎ、外国語の曲名・アーティスト名であっても正しく認識することができる。

　さらに制御部４は、ステップＳＴ８３で決定した言語の音声認識の尤度が所定の値以上である場合（ステップＳＴ８４のＹＥＳの場合）には、コンテンツ区間検出部６を動作させ、ステップＳＴ８５～ＳＴ９０の処理を行う。
　なお、ステップＳＴ８５～ＳＴ９０の処理については、実施の形態１における図４に示したステップＳＴ１３～ＳＴ１８の処理と同一であるため、説明を省略する。

　なお、ステップＳＴ８３において、認識の尤度に基づいて曲名・アーティスト名の言語を特定する方法としては、音声認識辞書を備えている複数の言語すべてに対して音声認識を行い、それらの認識の尤度を比較して最も尤度の高いものを特定する方法や、認識の尤度の閾値を設定しておき、認識の尤度が設定された閾値以上であればその言語であると判断して残りの言語については音声認識を行わずに特定する方法など、様々な方法が考えられるが、それらのいずれを用いても構わない。

　以上のように、この実施の形態６によれば、実施の形態１における効果に加え、各種言語の音声認識エンジンを用いた音声認識を行って、その認識の尤度に基づいて言語を決定することにより、外国語の曲名・アーティスト名であっても正しく認識して保存することができる。

　なお、上記の実施の形態では、コンテンツが楽曲である場合、すなわち、音楽コンテンツの場合を例として説明したが、音楽コンテンツに限らず、例えばスポーツ中継のコンテンツについて区間を抽出、記録を行ってもよいし、トーク番組のコンテンツについて区間を抽出、記録を行ってもよいし、ドキュメンタリーのコンテンツについて区間を抽出、記録を行うようにしてもよい。

　この発明の自動記録装置は、ラジオやテレビなどの放送データを受信することができる装置であれば、外部との通信手段を備えていない場合や、インターネットの接続状態が悪い環境であっても、適用することができる。

　なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　１　音声取得部、２　音声認識部、３　定型文記憶部、４　制御部、５　情報記憶部、６　コンテンツ区間検出部、７　映像音声記録部、８　入力部、９　出力部、２０，２１，２２，２３，・・・　音声認識器、２０－１，２０－２，２０－３，・・・　認識辞書。

Claims

　放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する音声取得部と、
　前記コンテンツを紹介する際の文言を記憶する定型文記憶部と、
　前記音声取得部により取得された音声データを認識するとともに、当該認識結果と前記定型文記憶部に記憶されている文言とに基づいて、前記コンテンツの識別データを抽出して出力する音声認識部と、
　前記音声認識部から前記コンテンツの識別データを受け取った場合に、前記コンテンツの開始時点および終了時点を検知するよう指示する制御部と、
　前記制御部からの指示にしたがって、前記音声取得部により取得された音声データから前記コンテンツの開始時点および終了時点を検知するコンテンツ区間検出部と、
　前記コンテンツ区間検出部により検出された開始時点と終了時点の間のコンテンツ区間におけるコンテンツを記録する映像音声記録部と、
　少なくとも前記映像音声記録部により記録されたコンテンツと、前記コンテンツの識別データとを記憶する情報記憶部とを備え、
　前記制御部は、前記コンテンツの識別データを前記映像音声記録部により記録されたコンテンツと対応付けて前記情報記憶部に保存する
　ことを特徴とする自動記録装置。
　前記情報記憶部に記憶されているデータは、前記コンテンツを取得した回数を含み、
　前記制御部は、前記情報記憶部に記憶されているデータを参照することにより、前記コンテンツを取得した回数が所定の回数以上である場合にのみ、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
　ことを特徴とする請求項１記載の自動記録装置。
　前記音声認識部は、前記認識結果とともに当該認識の尤度も出力し、
　前記制御部は、前記認識の尤度が所定の値以上である場合にのみ、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
　ことを特徴とする請求項１記載の自動記録装置。
　ユーザからの操作入力を受け付ける入力部と、
　前記ユーザにデータを提示する出力部とをさらに備え、
　前記制御部は、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する際に、前記出力部を介して前記保存の要否を前記ユーザに確認し、前記入力部を介して保存要である旨の入力を受け付けた場合には、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存し、前記入力部を介して保存否である旨の入力を受け付けた場合には、前記コンテンツの識別データのみを前記情報記憶部に保存する
　ことを特徴とする請求項１記載の自動記録装置。
　前記制御部は、前記情報記憶部に記憶されているデータを参照することにより、前記抽出されたコンテンツの識別データと同一のデータが前記情報記憶部に存在するか否かを判別し、存在する場合には、前記映像音声記録部により記録されたコンテンツと、前記情報記憶部に保存されているコンテンツの音質を比較し、前記映像音声記録部により記録されたコンテンツの方が音質が高い場合にのみ、当該映像音声記録部により記録されたコンテンツを前記情報記憶部に保存されているコンテンツに上書きして保存する
　ことを特徴とする請求項１記載の自動記録装置。
　前記音声認識部は、複数の言語ごとに認識辞書を有するものであり、前記複数の言語ごとに音声認識を行い、その認識結果とともに当該認識の尤度も出力し、
　前記制御部は、前記認識の尤度に基づいて前記コンテンツの識別データの言語を特定し、当該特定された言語により抽出されたコンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
　ことを特徴とする請求項１記載の自動記録装置。