[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPWO2005010868A1 - 音声認識システム及びその端末とサーバ - Google Patents

音声認識システム及びその端末とサーバ Download PDF

Info

Publication number
JPWO2005010868A1
JPWO2005010868A1 JP2005504586A JP2005504586A JPWO2005010868A1 JP WO2005010868 A1 JPWO2005010868 A1 JP WO2005010868A1 JP 2005504586 A JP2005504586 A JP 2005504586A JP 2005504586 A JP2005504586 A JP 2005504586A JP WO2005010868 A1 JPWO2005010868 A1 JP WO2005010868A1
Authority
JP
Japan
Prior art keywords
server
acoustic model
voice
voice recognition
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005504586A
Other languages
English (en)
Inventor
知宏 成田
知宏 成田
貴志 須藤
貴志 須藤
利行 花沢
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2005010868A1 publication Critical patent/JPWO2005010868A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

多様な環境で使用されても、高精度の音声認識を行う音声認識システムを提供する。外部マイクロホン1が収集した音声信号から音声特徴量を算出し、複数の音響モデルを記憶し、前記複数の音響モデルから外部マイクロホン1が集音する環境に適した音響モデルを選択し、前記音響モデルの標準パターンと前記音声特徴量とのパターンマッチングを行って認識結果を出力する音声認識処理を、ネットワークに接続された音声認識端末2と音声認識サーバ6とにより分担して実行するクライアントサーバ型音声認識システムにおいて、外部マイクロホン1の集音環境を検知するために、音声認識端末2にセンサ12を設け、センサ12の出力を音声認識サーバ6に送信する送信部13を設けた。

Description

この発明は、音声認識システム及びその端末とサーバに係るものであり、特にさまざまな使用状況を想定して準備された複数の音響モデルから、使用状況に応じて適切な音響モデルを選択し音声認識を行う技術に関するものである。
音声認識は、入力音声から音声特徴量の時系列を抽出し、この音声特徴量の時系列と予め準備された音響モデルとの照合によって、候補語を算出することにより行われる。
しかし現実の使用環境で発声された音声には、背景騒音が重畳しているため、音声認識の精度が劣化する。背景騒音の種類及び重畳の仕方は、使用環境によって異なる。そのため、精度の高い音声認識を行うには、複数の音響モデルを準備し、さらに複数の音響モデルの中から現在の使用環境に適した音響モデルを選択する必要がある。このような音響モデルの選択方法として、例えば、特開2000−29500(特許文献1)がある。
特許文献1による音響モデルの選択方法は、例えば車載用音声認識装置において、速度センサなどの各種車載センサが出力する値(センサからのアナログ信号をA/D変換して得たデータをいう。以後、この値のことをセンサ情報と呼ぶこととする)に対応する雑音から雑音スペクトルを算出して、この雑音スペクトルと各種車載センサからのセンサ情報とを関連づけて記憶しておき、次回の音声認識時に得られる各種車載センサからのセンサ情報と、予め記憶している雑音スペクトルのセンサ情報との類似度が所定値以内の場合に、このセンサ情報に対応する雑音スペクトルを音声特徴量の時系列から減算する、というものである。
しかしこの方法では、今まで使用したことのない環境下で音声認識の精度を向上させることができないという問題がある。そこで、例えば工場出荷時に、予め各種センサの出力値の中から所定の値をいくつか選択し、センサがこれらの値を出力する環境条件下で学習した音響モデルを作成しておく。そして、現実の使用環境で得られたセンサ情報と音響モデルの環境条件とを比較して、適切な音響モデルを選択する方法が考えられる。
ところで、1つの音響モデルのデータサイズは、音声認識システムの設計方法や実装方法によっても異なるものの、数百キロバイトにも及ぶ場合がある。カーナビゲーションシステムや携帯電話のようなモバイル機器では、筐体サイズや重量の制約から、搭載可能な記憶装置の容量が厳しく制限される。したがって、モバイル機器に、これほどのデータサイズを有する音響モデルを複数個記憶させる構成を採用するのは現実的ではない。
特にセンサが複数個ある場合に、各センサのセンサ情報の値をそれぞれ複数選択して、それらの組み合わせに対応した音響モデルを準備しようとすると、膨大な記憶容量が必要となってしまう。
この発明は、上記課題を解決するためになされたもので、複数の音響モデルを記憶している音声認識サーバに、音声認識端末からネットワークを介してセンサ情報を送信することにより、現実の使用環境に適した音響モデルを選択して高精度な音声認識処理を実現することを目的としている。
この発明に係る音声認識システムは、
音声認識サーバと複数の音声認識端末とをネットワークにより接続した音声認識システムであって、
前記音声認識端末は、
外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
前記ネットワークを介して前記センサ情報を前記音声認識サーバに送信するクライアント側送信手段と、
前記音声認識サーバから音響モデルを受信するクライアント側受信手段と、
前記音響モデルと前記音声特徴量とを照合するクライアント側照合手段と、を備え、
前記音声認識サーバは、
前記クライアント側送信手段が送信したセンサ情報を受信するサーバ側受信手段と、
複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
前記複数の音響モデルから前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
前記サーバ側音響モデル選択手段が選択した音響モデルを前記音声認識端末に送信するサーバ側送信手段と、を備えたものである。
このように、この音声認識システムでは、記憶容量に制限のない音声認識サーバに、様々な集音環境に対応した複数の音響モデルを記憶させておき、各音声認識端末に備えられたセンサからの情報に基づいてその音声認識端末の集音環境に適合した音響モデルを選択して、音声認識端末に送信するようにした。これにより、音声認識端末は、筐体サイズや重量などの制約から、その端末自身の記憶容量が制限される場合であっても、その集音環境に適合した音響モデルを取得し、その音響モデルを用いて音声認識を行うので、音声認識の精度を向上できるのである。
図1はこの発明の実施例1による音声認識端末及びサーバの構成を示したブロック図、
図2はこの発明の実施例1による音声認識端末及びサーバの動作を示すフローチャート、
図3はこの発明の実施例2による音声認識端末及びサーバの構成を示したブロック図、
図4はこの発明の実施例2による音響モデルのクラスタリング処理示すフローチャート、
図5はこの発明の実施例2による音声認識端末及びサーバの動作を示すフローチャート、
図6はこの発明の実施例3による音声認識端末及びサーバの構成を示したブロック図、
図7はこの発明の実施例3による音声認識端末及びサーバの動作を示すフローチャート、
図8はこの発明の実施例4による音声認識端末及びサーバの構成を示すブロック図、
図9はこの発明の実施例4による音声認識端末及びサーバの動作を示すフローチャート、
図10はこの発明の実施例4による音声認識端末から音声認識サーバに送信されるセンサ情報及び音声データのデータフォーマットの構成図、
図11はこの発明の実施例5による音声認識端末から音声認識サーバの構成を示すブロック図、
図12はこの発明の実施例5による音声認識端末及びサーバの動作を示すフローチャートである。
図1は、この発明の一実施例による音声認識端末及びサーバの構成を示すブロック図である。図において、マイクロホン1は音声を収集する装置または部品であって、音声認識端末2は入力端3を介してマイクロホン1が収集した音声を音声認識して、認識結果4を出力する装置である。また入力端3は、オーディオ端子またはマイクロホン接続端子である。
音声認識端末2はネットワーク5を介して音声認識サーバ6と接続されている。ネットワーク5はインターネットやLAN(Local Area Network)、公衆回線網、携帯電話網、人工衛星を用いた通信網などディジタル情報を通信するネットワーク網である。ただしネットワーク5は、結果として、このネットワークに接続されている機器間でディジタルデータを送受信するようになっていればよいのであって、ネットワーク5上に伝送されている情報の形式を問うものではない。したがって、例えば、USB(Universal Serial Bus)やSCSI(Small Computer Systems Interface)などのように複数の機器を接続するように設計されたバスであっても構わない。また、音声認識端末2が車載用の音声認識装置である場合には、ネットワーク5は移動体通信のデータ通信サービスを利用することになる。データ通信サービスでは、送受信するデータをパケットと呼ばれる単位に分割して一つ一つ送受信する通信方式を使用する。パケットには、送信側機器が受信側機器に送信しようとしているデータの他に、受信側機器を特定するための受信側機器を識別する情報(送信先アドレス)、そのパケットがデータ全体のどの部分を構成するかを示す位置情報、誤り訂正符号などの制御情報が付加されている。
音声認識サーバ6は、ネットワーク5を介して音声認識端末2と接続されるように構成されているサーバコンピュータである。音声認識サーバ6は、音声認識端末2よりも大きな記憶容量のハードディスク装置またはメモリなどの記憶装置を有しており、音声認識に必要となる標準パターンを記憶している。また、複数の音声認識端末2が、ネットワーク5を介して音声認識サーバ6と接続されるようになっている。
次に音声認識端末2の詳細な構成について説明する。音声認識端末2は、端末側音響分析部11とセンサ12、端末側送信部13、端末側受信部14、端末側音響モデル記憶部15、端末側音響モデル選択部16、端末側照合部17を備えている。
端末側音響分析部11は、入力端3から入力された音声信号に基づいて音響分析を行い、音声特徴量を算出する部位である。
センサ12は、マイクロホン1が取得する音声信号に重畳する騒音の種別に関する情報を得ることを目的として、環境条件を検出するセンサであって、マイクロホン1が設置されている環境における物理量や、その変化量を検出又は取得する素子、または装置である。しかし、それのみならず、さらに検出量を適切な信号に変換して出力する素子又は装置をも含んでよい。また、ここでいう物理量とは、温度・圧力・流量・光・磁気の他、時間や電磁波なども含むものとする。したがって、例えばGPSアンテナはGPS信号に対するセンサである。また必ずしも外界から何らかの信号を取得して物理量を検出するものである必要はなく、例えば内蔵クロックに基づいてマイクロホンのおかれている地点の時刻を取得するようになっている回路も、ここでいうセンサに含まれる。
なお、以降の説明では、これらの物理量を総称して、センサ情報と呼ぶこととする。また一般に、センサはアナログ信号を出力するようになっており、出力されたアナログ信号をA/D変換器又は素子によって、ディジタル信号にサンプリングするのが通常の構成である。したがって、センサ12は、このようなA/D変換器又は素子を含むものであってもよい。さらに、複数種類のセンサ、例えば音声認識端末2が車載用ナビゲーションシステムの端末である場合には、速度センサやエンジンの回転数をモニタリングするセンサ、ワイパーの稼働状況をモニタリングするセンサ、ドアのガラスの開閉状況をモニタリングするセンサ、カーオーディオのボリュームをモニタリングするセンサなど、複数のセンサを組み合わせてもよい。
端末側送信部13は、センサ12によって得られたマイクロホン1近傍のセンサ情報を音声認識サーバ6に送信する部位である。
端末側受信部14は、音声認識サーバ6からの情報を受信する部位であり、端末側音響モデル選択部16に受信した情報を出力するようになっている。端末側送信部13と端末側受信部14は、ネットワークケーブルに信号を送出し、またネットワークケーブルから信号を受信する回路又は素子から構成されているが、この回路又は素子を制御するためのコンピュータプログラムを端末側送信部13と端末側受信部14の一部に含めてもよい。もっとも、ネットワーク5が無線通信網である場合には、端末側送信部13と端末側受信部14は通信波を送受信するようなアンテナを備えることになる。なお、端末側送信部13と端末側受信部14とを別体の部位として構成してもよいが、同一のネットワーク入出力装置で構成するようにしてもよい。
端末側音響モデル記憶部15は、音響モデルを記憶するための記憶素子又は回路である。ここで、音響モデルは、学習環境に応じて複数個存在しうるものとし、そのうちの一部のみが端末側音響モデル記憶部15に記憶されているものとする。また各音響モデルは、その音響モデルを学習した環境条件を表すセンサ情報と関連づけられており、センサ情報の数値から、その環境条件に適した音響モデルが特定できるようになっている。例えば、音声認識端末2が車載用音声認識装置である場合には、自動車が時速40kmで走行している場合の騒音環境下で発声されたサンプルに基づいて作成された音響モデル、自動車が時速50kmで走行している場合の騒音環境下で発声されたサンプルに基づいて作成された音響モデル、といったものが準備されている。ただし、後述するように、音声認識サーバ6にもさまざまな環境条件に対応した音響モデルが記憶されているので、端末側音響モデル記憶部15に、すべての環境条件下で学習された音響モデルが記憶されている必要はない。このような構成を採用することで、音声認識端末2が搭載しなくてはならない記憶装置の記憶容量は極めて小さく済む。
端末側音響モデル選択部16は、端末側受信部14が取得した音響モデル(あるいは端末側音響モデル記憶部15に記憶されている音響モデル)と、端末側音響分析部11が出力した音声特徴量との尤度を算出する部位である。端末側照合部17は、端末側音響モデル選択部16が算出した尤度に基づいて語彙を選択し、認識結果4として出力する部位である。
なお、音声認識端末2の構成要素のうち、端末側音響分析部11、端末側送信部13、端末側受信部14、端末側音響モデル記憶部15、端末側音響モデル選択部16、端末側照合部17はそれぞれ専用の回路により構成してもよいが、中央演算装置(CPU)及びネットワークI/O装置(ネットワークアダプタ装置など)、記憶装置に、それぞれの機能に相当する処理を実行させるコンピュータプログラムとして構成するようにしてもよい。
続いて、音声認識サーバ6の詳細な構成について説明する。音声認識サーバ6はサーバ側受信部21、サーバ側音響モデル記憶部22、サーバ側音響モデル選択部23、サーバ側送信部24とを備えている。サーバ側受信部21は、ネットワーク5を介して音声認識端末2の端末側送信部13から送信されてくるセンサ情報を受信する部位である。
サーバ側音響モデル記憶部22は、複数の音響モデルを記憶するための記憶装置である。このサーバ側音響モデル記憶部22はハードディスク装置や、CD−ROM媒体とCD−ROMドライブとの組み合わせなどによる大容量記憶装置として構成される。
サーバ側音響モデル記憶部22は、端末側音響モデル記憶部15とは異なり、この音声認識システムで使用する可能性のある音響モデルをすべて記憶しており、さらにそうするのに十分な記憶容量を有しているものとする。
サーバ側音響モデル選択部23は、サーバ側音響モデル記憶部22が記憶する音響モデルから、サーバ側受信部21が受信したセンサ情報に適する音響モデルを選択する部位である。
サーバ側送信部24は、サーバ側音響モデル選択部23が選択した音響モデルをネットワーク5を介して音声認識端末2に送信する部位である。
なお、音声認識サーバ6の構成要素のうち、サーバ側受信部21、サーバ側音響モデル記憶部22、サーバ側音響モデル選択部23、サーバ側送信部24はそれぞれ専用の回路により構成してもよいが、中央演算装置(CPU)及びネットワークI/O装置(ネットワークアダプタ装置など)、記憶装置に、それぞれの機能に相当する処理を実行させるコンピュータプログラムとして構成するようにしてもよい。
次に音声認識端末2及び音声認識サーバ6の動作について、図を参照しながら説明する。図2は実施例1による音声認識端末2と音声認識サーバ6との処理を示したフローチャートである。図において、利用者がマイクロホン1から音声入力を行うと(ステップS101)、入力端3を介して端末側音響分析部11に音声信号が入力される。続いて、端末側音響分析部11においてA/D変換器によりディジタル信号に変換されて、LPCケプストラム(Linear Predictive Coding Cepstrum)などの音声特徴量の時系列を算出する(ステップS102)。
次に、センサ12はマイクロホン1周辺の物理量を取得する(ステップS103)。例えば、音声認識端末2がカーナビゲーションシステムであって、センサ12が、このカーナビゲーションシステムが搭載されている車両(自動車)の速度などを検出する速度センサである場合には、速度がこのような物理量に相当する。なお図2において、ステップS103によるセンサ情報の収集をステップS102による音響分析の次に行うこととしている。しかし、ステップS103の処理はステップS101〜S102の処理よりも前に行ってもよいし、また同時に、または並行して行うようにしてもよいことはいうまでもない。
続いて、端末側音響モデル選択部16は、センサ12が得たセンサ情報、すなわちマイクロホン1が音声を収集する環境に最も近い条件で学習した音響モデルを選択する。ここで、音響モデルの環境条件は複数通り考えられ、さらに端末側音響モデル記憶部15はそのすべてを記憶しているわけではない。そこで、端末側音響モデル記憶部15が現在記憶している音響モデルの中に、マイクロホン1の環境条件に近い環境条件で学習されたものがない場合には、音声認識サーバ6より音響モデルを取得するのである。
次に処理の説明に先立って、用語と表記の定義を行っておく。音響モデルmが学習された条件下のセンサkについてのセンサ情報を、単に「音響モデルmのセンサ情報」と呼ぶこととする。端末側音響モデル記憶部15は、M個の音響モデルを記憶しているものとし、各音響モデルを音響モデルm(ただしm=1,2,…,M)として表す。またセンサ12はK個のセンサから構成されており、それぞれのセンサをセンサk(ただしk=1,2,…,K)とする。さらに音響モデルmが学習された環境条件下におけるセンサkについてのセンサ情報をSm,kで表すことにし、またセンサkの現在のセンサ情報(ステップS103で出力したセンサ情報)をxとする。
以下、これらの処理をより具体的に説明する。まず、端末側音響モデル選択部16は、音響モデルmのセンサ情報Sm,kと、センサ12によって取得されたセンサ情報xとの距離値D(m)を算出する(ステップS104)。いま、あるセンサkにおけるセンサ情報xと音響モデルmのセンサ情報Sm,kとの距離値をD(x,Sm,k)とする。距離値D(x,Sm,k)の具体的な値としては、例えばセンサ情報の差分の絶対値などを採用すればよい。すなわちセンサ情報が速度であるならば、学習時の速度(例えばSm,k=40km/h)と現在の速度(例えばx=50km/h)の差(10km/h)を距離値D(x,Sm,k)とする。
また距離値D(m)については、センサ毎の距離値D(x,Sm,k)を用いて、次のように算出する。
Figure 2005010868
ここで、wは各センサに対する重み係数である。
ここで、物理量としてのセンサ情報と距離値D(m)との関係について説明しておく。センサ情報が位置(経度や緯度に基づいて定めてもよいし、特定の場所を原点として、そこからの距離によって定めてもよい)である場合と、速度である場合とでは、センサ情報の物理量としての次元が相違する。しかしここでは、重み係数wを調整することで、w(x,Sm,k)の距離値への寄与度を適切に設定できるので、次元の相違を無視しても問題がない。また単位系が相違する場合であっても同様である。例えば、速度の単位としてkm/hを用いる場合と、mphを用いる場合では、物理的に同じ速度であっても、センサ情報として異なる値をとりうる。このような場合、例えばkm/hで算出した速度値に対しては1.6の重み係数を与え、mphで算出した速度値に対しては1.0の重み係数を与えれば、距離値の算出における速度の効果を等しくすることができる。
次に、端末側音響モデル選択部16は、式(1)で算出した各mに対する距離値D(m)の最小値min{D(m)}を求め、このmin{D(m)}が所定の値Tよりも小さいかどうかを評価する(ステップS105)。すなわち、端末側音響モデル記憶部15が記憶している端末側音響モデルの環境条件中に、マイクロホン1が集音する現在の環境条件に十分近いものが存在するかどうかを検定するのである。所定の値Tとは、このような条件を満たすかどうかを検定するために予め設定された値である。
min{D(m)}が所定の値Tよりも小さい場合には(ステップS105:Yes)、ステップS106に進む。端末側音響モデル選択部16は、マイクロホン1が集音する現在の環境に適する音響モデルとして、端末側の音響モデルmを選択する(ステップS106)。そして照合処理(ステップS112)に進む。以降の処理については後述する。
また、min{D(m)}が所定の値T以上である場合には(ステップS105:No)、ステップS107に進む。この場合には、端末側音響モデル記憶部15が記憶している音響モデルの環境条件中に、マイクロホン1が集音する現在の環境条件に十分近いものが存在しないことになる。そこで、端末側送信部13は、音声認識サーバ6にセンサ情報を送信する(ステップS107)。
なお、所定の値Tを大きくすると、min{D(m)}がTよりも小さいと判断される頻度が多くなり、ステップS107が実行される回数が減少する。すなわち、Tの値を大きくとれば、ネットワーク5を介した送受信の回数を削減できる。したがってネットワーク5の伝送量を抑制する効果が発生する。
また反対に、Tの値を小さくすると、ネットワーク5の送受信回数が増えることになる。しかしこの場合には、センサ12が取得したセンサ情報と音響モデルが学習された条件との距離値がより小さな音響モデルを使用して、音声認識が行われるので、音声認識の精度を向上させることができる。以上のことから、ネットワーク5の伝送量と目標とする音声認識精度とを考慮してTの値を決定するとよい。
音声認識サーバ6において、端末側受信部21はネットワーク5を介してセンサ情報を受信する(ステップS108)。そしてサーバ側音響モデル選択部23は、サーバ側音響モデル記憶部22によって記憶されている音響モデルが学習された環境条件とサーバ側受信部21が受信したセンサ情報との距離値を、ステップS104と同様にして算出し、この距離値が最小となる音響モデルを選択する(ステップS109)。続いてサーバ側送信部24は、サーバ側音響モデル選択部23が選択した音響モデルを音声認識端末2に送信する(ステップS110)。
音声認識端末2の端末側受信部14は、サーバ側送信部24が送信した音響モデルをネットワーク5を介して受信する(ステップS111)。
次に、端末側照合部17は、端末側音響分析部11が出力した音声特徴量と音響モデルとの照合処理を行う(ステップS112)。ここでは、音響モデルとして記憶されている標準パターンと音声特徴量の時系列との間で最も尤度の高い候補を認識結果4とする。例えば、DP(Dynamic Programming)マッチングによるパターンマッチングを行い、距離値が最小のものを認識結果4とする。
以上のように、実施例1による音声認識端末2及びサーバ6によれば、音声認識端末2に少数の音響モデルしか記憶できない場合であっても、マイクロホン1の集音環境をセンサ12によって取得し、音声認識サーバ6が記憶している多数の音響モデルの中から、この集音環境に近い環境条件で学習した音響モデルを選択して音声認識を行うことができる。
したがって、音声認識端末2には大容量の記憶素子や回路、記憶媒体を搭載する必要がなくなり、機器構成を簡素化し、廉価に高精度の音声認識を行う音声認識端末を提供できる。前述の通り、一つの音響モデルのデータサイズは、実装の仕方にもよるが、数百キロバイト程度のサイズを有する場合がある。したがって、音声認識端末が記憶する必要のある音響モデルの個数を削減することによる効果は大きい。
なお、センサ情報は連続的な値をとりうるが、通常はその連続値からいくつかの値を選択し、この値をセンサ情報とする音響モデルを学習することになる。今、センサ12が複数種類のセンサ(第1のセンサ、及び第2のセンサとする)から構成されていて、音声認識端末2及び音声認識サーバ6が記憶している各音響モデルの第1のセンサに関するセンサ情報として選択された値の個数をM1、第2のセンサに関するセンサ情報として選択された値の個数をM2とすると、音声認識端末2及び音声認識サーバ6が記憶している音響モデルの総数はM1×M2として算出される。
この場合において、M1<M2が成立する場合、つまり第1のセンサのセンサ情報として選択された値の個数の方が、第2のセンサのセンサ情報として選択された値の個数よりも小さい場合に、第1のセンサのセンサ情報に対する重み係数を第2のセンサのセンサ情報に対する重み係数よりも小さくすることで、マイクロホン1の集音環境に応じた音響モデルを選択することができる。
また、音声認識端末2には端末側音響モデル記憶部15と端末側音響モデル選択部16を備えて、音声認識端末2が記憶する音響モデルと、音声認識サーバ6が記憶する音響モデルとを、適切に選択して音声認識処理を行うこととした。しかし音声認識端末2に端末側音響モデル記憶部15と端末側音響モデル選択部16を備えることは必須ではない。すなわち、センサ12の取得するセンサ情報に基づいて、無条件に音声認識サーバ6が記憶する音響モデルを転送するような構成も可能であることはいうまでもない。このような構成を採用しても、音声認識端末2の記憶容量を削減しつつ、センサ12によるマイクロホン1の集音環境に即した音響モデルを選択し、精度の高い音声認識処理を行うことができるというこの発明の特徴が損なわれることがないのである。
また上記に説明した構成に加えて、音声認識サーバ6より受信した音響モデルを端末側音響モデル記憶部15に新たに記憶させたり、音声認識端末2側の音響モデルの一部に代えて音声認識サーバ6より受信した音響モデルを記憶させる構成も可能である。こうすることで、次回再び同じ音響モデルを用いて音声認識する場合に、音声認識サーバ6より再度音響モデルを転送する必要がなくなるので、ネットワーク5の伝送負荷を軽減できるし、送受信に要する時間を短縮することもできる。
実施例1による音声認識端末によれば、センサ情報に対応した音響モデルを音声認識端末が記憶していない場合には、音声認識サーバからセンサ情報に適した音響モデルを転送する構成とした。
しかし音響モデル1個あたりのデータサイズを考慮すると、音声認識サーバから音響モデル全体をネットワークを介して音声認識端末に転送することは、ネットワークに大きな負荷を与え、また音響モデルのデータ転送に要する時間がよって全体の処理性能に与える影響も無視することができない。
このような問題を回避する一つの方法は、音響モデルのデータサイズがなるべく小さくなるように音声認識処理を設計することである。音響モデルのサイズを小さければ、音響モデルを音声認識サーバから音声認識端末に転送しても、ネットワークにはそれほど負荷を与えることにはならないからである。
一方、相互に類似する複数の音響モデルをクラスタリングし、同一クラスタ内の音響モデル間で差分を予め求めておいた上で、音声認識サーバの記憶している音響モデルを転送する必要がある場合に、音声認識端末が記憶している音響モデルとの差分のみを転送し、音声認識端末が記憶している音響モデルと差分から音声認識サーバの音響モデルを合成する方法も考えられる。実施例2による音声認識端末及びサーバは、かかる原理に基づいて動作するものである。
図3は、実施例2による音声認識端末及びサーバの構成を示すブロック図である。図において、音響モデル合成部18は、端末側受信部14の受信内容と端末側音響モデル記憶部15が記憶している音響モデルから、音声認識サーバ6の記憶する音響モデルと等価な音響モデルを合成する部位である。また音響モデル差分算出部25は端末側音響モデル記憶部15が記憶している音響モデルとサーバ側音響モデル記憶部22が記憶している音響モデルとの差分を算出する部位である。その他、図1と同一の符号を付した部位については実施例1と同様であるので、説明を省略する。
前述の通り、実施例2の音声認識装置2及びサーバ6は、音響モデルを予めクラスタリングしている点を特徴とする。そこで、まず音響モデルのクラスタリング方法について説明する。なお音響モデルのクラスタリングは、音声認識装置2及びサーバ6によって音声認識処理がなされる前に完了しているものである。
音響モデルは、多数の話者によって発声された大量の音声から各音韻(または音素あるいは音節)の音声特徴量の統計量を示したものである。統計量は、平均値ベクトルμ={μ(1),μ(2),…,μ(K)}と、対角共分散ベクトルΣ={σ(1),σ(2),…,σ(K)}から構成される。そこで、音韻pの音響モデルをN{μ、Σ}で表すこととする。
音響モデルのクラスタリングは、以下に述べるように、最大VQ歪クラスタを逐次分割するように改良したLBGアルゴリズムにより行う。図4は、音響モデルのクラスタリング処理を示すフローチャートである。
まず、初期クラスタの作成を行う(ステップS201)。ここでは、この音声認識システムで使用される可能性のあるすべての音響モデルから、一つの初期クラスタを作成する。初期クラスタrの統計量の算出には、式(2)と式(3)を用いる。ここで、Nはクラスタに属する分布の数を、またKは音声特徴量の次元数を表す。
Figure 2005010868
次に、これまで実行してきたクラスタリング処理によって、すでに必要となるクラスタの個数が得られているかどうかを判定する(ステップS202)。必要なクラスタの個数は、音声認識処理システム設計時に決定される。一般的にいって、クラスタ数が多ければ多いほど、同一クラスタ内の音響モデル間の距離が小さくなる。その結果、差分データの情報量を小さくなり、ネットワーク5を介して送受信される差分データのデータ量も抑制できる。特に、音声認識端末2及びサーバ6が記憶している音響モデルの総数が多い場合には、クラスタ数を多くするとよい。
しかし、あらゆる場合に単純にクラスタの数を多くすればよいというわけにはいかない。その理由は次のとおりである。すなわち、実施例2では、音声認識端末2が記憶している音響モデル(以下、ローカル音響モデルと呼ぶ)と差分とを組み合わせて音声認識サーバ6の記憶する音響モデルを合成する、あるいは音声認識サーバ6の記憶する音響モデルと同等の音響モデルを得ようとするものである。
ここで使用される差分は、ローカル音響モデルと組み合わせるものであり、このローカル音響モデルと同じクラスタに属する音響モデルとの間で求められたものでなければならない。差分によって合成される音響モデルはセンサ情報に対応したものだから、そうすると、センサ情報に対応した音響モデルとローカル音響モデルが同一のクラスタに分類されている状態が最も効率のよい状態ということになる。
ところで、クラスタ数が多くなると、それぞれのクラスタに属する音響モデルの個数は少なくなって、各音響モデルは多数のクラスタに分断された状態となる。このような場合、音声認識端末2が記憶しているローカル音響モデルと同じクラスタに属する音響モデル数も少なくなる傾向にある。さらに、センサ情報に対応した音響モデルと音声認識端末2が記憶するローカル音響モデルとが同じクラスタに属する確率も小さくなる。
その結果、このような場合、異なるクラスタに属する音響モデル間の差分を準備できない状況や、あるいは差分を準備してもそのデータサイズが十分小さいものにはならない状況が生じる。
このような理由から、ローカル音響モデルの個数を多くすることができない場合、つまり音声認識端末2に搭載するメモリやハードディスクなどの記憶装置の記憶容量が確保できない場合には、クラスタ数を多くしない方がよい。
なお、必要なクラスタ数が2以上であれば、初期クラスタ作成直後はクラスタ数が1であるので、ステップS203に進む(ステップS202:No)。またすでに後述する処理によって複数のクラスタが得られており、その個数が必要なクラスタの個数以上であれば、終了する(ステップS202:Yes)。
次に、最大VQ歪クラスタ分割を行う(ステップS203)。ここでは、VQ歪が最も大きいクラスタrmax(1回目のループの時は初期クラスタ)をr1、r2の2つのクラスタに分割する。これにより、クラスタの個数が増加する。分割後のクラスタ統計量は、以下の式によって算出する。なお、Δ(k)は、音声特徴量の各次元毎に予め定められた微小値とする。
Figure 2005010868
続いて、各音響モデルの統計量と各クラスタ(ステップS203で分割されたすべてのクラスタ)の統計量との距離値を算出する(ステップS204)。ここでは、すべての音響モデルと、すでに求められているすべてのクラスタからそれぞれ一つずつ選択されて距離が算出される。ただしすでに距離が算出されている音響モデルとクラスタの組み合わせについては再び距離が算出されることはない。そのような制御を行うために、クラスタ毎に距離を算出済みの音響モデルのフラグを設けるようにしてもよい。この音響モデルの統計量と各クラスタの統計量の距離値には、例えば式(8)で定義するバタチャリア(Bhattacharyya)距離値を用いる。
Figure 2005010868
なお、式(8)において、1をサフィックスとするパラメータは音響モデルの統計量であり、2をサフィックスとするパラメータはクラスタの統計量である。
以上求められた距離値に基づいて、各音響モデルを最も距離値の小さいクラスタに属するようにする。なお、式(8)以外の方法で、音響モデルの統計量とクラスタの統計量との距離値を算出してもよい。その場合であっても、式(1)によって算出される距離値が近い場合に、同一のクラスタに属するような距離値が得られる式を採用することが望ましい。ただしこのことは必須ではない。
次に各クラスタのコードブックの更新を行う(ステップS205)。そのために、式(2)及び(3)を用いて、クラスタに属する音響モデルの統計量の代表値を算出する。また式(8)を用いて、クラスタに属する音響モデルの統計量と、代表値との距離を累積し、これを現在のクラスタのVQ歪と定義する。
続いてクラスタリングの評価値を算出する(ステップS206)。ここでは、全クラスタのVQ歪の総和をクラスタリングの評価値とする。なおステップS204〜ステップS207は複数回実行されるループを構成する。そして、ステップS206で算出された評価値は、次回のループ実行まで記憶されている。そして、この評価値と前回ループ実行時に算出された評価値との差分を求め、その絶対値が所定の閾値未満か否かを判定する(ステップS207)。この差分が所定の閾値未満である場合は、すべての音響モデルがすでに求められているクラスタのうち、適切なクラスタに所属したので、ステップS202に戻る(ステップS207:Yes)。一方、差分が所定の閾値以上である場合は、まだ適切なクラスタに属していない音響モデルが存在するので、ステップS204に戻る(ステップS207:No)。
以上がクラスタリング処理である。次に、このようにしてクラスタリングされた音響モデルに基づいて行われる実施例2の音声認識装置2及びサーバ6における音声認識処理について、図を用いて説明する。図5は、音声認識装置2及びサーバ6の動作のフローチャートである。図において、ステップS101〜S105においては、実施例1と同様に音声がマイクロホン1から入力され、音響分析とセンサ情報の取得を行った後に、このセンサ情報に適したローカル音響モデルが存在するかどうかを判定する。
そして、センサ情報との距離が最も小さいローカル音響モデル(このローカル音響モデルを識別する番号または名前をmと呼ぶ)をもってしても、その距離が所定の閾値T未満とならない場合には、ステップS208に進む(ステップS105:No)。
次に、端末側送信部13は、センサ情報とローカル音響モデルを識別する情報mとを、音声認識サーバ6に送信する(ステップS208)。
サーバ側受信部21は、センサ情報とmとを受信し(ステップS209)、サーバ側音響モデル選択部23は、受信したセンサ情報に最も適した音響モデルを選択する(ステップS109)。そして、この音響モデルとローカル音響モデルmとが同一のクラスタに属するか否かを判断する(ステップS210)。同一のクラスタに属する場合には、ステップS211に進み(ステップS210:Yes)、音響モデル差分算出部25は、この音響モデルとローカル音響モデルmとの差分を算出して(ステップS211)、サーバ側送信部24は差分を音声認識端末2に送信する(ステップS212)。
なお差分を求めるには、例えば、音声特徴量の各次元の成分の値の差異やオフセットのずれ(それぞれの要素の格納位置の差)に基づいて算出すればよい。異なるバイナリデータ間(バイナリファイル間など)の差分値を求める技術は公知となっているので、それを利用してもよい。また、実施例2による技術は、音響モデルのデータ構造をついて特別な要求を求めるものではないので、差分を求めやすいデータ構造を設計しておく方法も考えられる。
一方、同一のクラスタに属さない場合には、直接ステップS212に進む(ステップS210:No)。この場合は、差分ではなく、選択した音響モデルそのものを送信する(ステップS212)。
なお、上記の処理においては、音声認識端末2側でセンサ情報に最も適していると判断したローカル音響モデル(ステップS105で、センサ情報との距離が最も小さいと判断した音響モデル)を基準に差分を生成することを前提としている。そのため、このようなローカル音響モデルmに関する情報を前もってステップS208で送信した。しかし、この他にも音声認識サーバ6側で音声認識端末2が記憶しているローカル音響モデルの種類を把握(あるいは管理)しておき、さらに音声認識サーバがセンサ情報に近い音響モデルを選択した後に、選択された音響モデルと同じクラスタに属するローカル音響モデルを管理しているローカル音響モデルから選択して、それらの差分を算出するようにしてもよい。この場合には、音声認識サーバ6によって算出された差分がどのローカル音響モデルに基づいているかを音声認識端末2に通知する必要があるので、ステップS212において、音声認識サーバ6が差分算出の基礎としたローカル音響モデルを識別する情報を送信する。
次に音声認識端末2の端末側受信部14は、差分データ、あるいは音響モデルを受信する(ステップS213)。受信したデータ差分である場合には、音響モデル合成部18が差分の基礎となるローカル音響モデルmと差分から音響モデルを合成する(ステップS214)。そして、端末側照合部17が音響モデルの標準パターンと音声特徴量とのパターンマッチングを行って最も尤度の高い認識候補を認識結果4として出力する。
以上から明らかなように、実施例2の音声認識端末2が記憶するローカル音響モデルと音声認識サーバ6が記憶する音響モデルとの差分のみをネットワークを介して送受信することとした。そのため、音声認識端末2の記憶容量が小さい場合でも、マイクロホン1の集音環境に即した多様な音響モデルに基づいて高精度な音声認識を行うことができるという実施例1の効果に加えて、ネットワークに与える負荷を低減し、データ転送に要する時間を短くすることによって処理性能を向上するという効果を奏するのである。
実施例1及び2による音声認識端末2では、音声認識処理に必要となる音響モデルを記憶していない場合であっても、音声認識サーバ6が記憶する音響モデルを、ネットワーク5を介して受信することにより、マイクロホン1の集音環境に即した音声認識を行うものであった。しかし、音響モデルの送受信に代えて、音声特徴量を送受信するようにしてもよい。実施例3による音声認識端末及びサーバはこのような原理に基づいて動作するものである。
図6は、実施例3による音声認識端末及びサーバの構成を示すブロック図である。図において、図1と同一の符号を付した部位については実施例1と同様であるので、説明を省略する。実施例3においても、音声認識端末2と音声認識サーバ6はネットワーク5を介して接続されている。しかし、音声認識端末2から音声認識サーバ6に対して音声特徴量とセンサ情報が送信されるようになっており、また認識結果7が音声認識サーバ6より出力されるようになっている点で、実施例1と異なる。なお、音声認識サーバ6において、サーバ側照合部27は、実施例1の端末側照合部17と同様に音声特徴量と音響モデルとの照合を行う部位である。
次に実施例3における音声認識端末2及び音声認識サーバ6の動作について、図を参照しながら説明する。図7は、実施例2による音声認識端末2と音声認識サーバ6との処理を示したフローチャートである。なおこのフローチャートにおいて、図2と同一の符号を付した処理については実施例1と同様である。そこで以下においては、このフローチャート独自の符号を付した処理を中心に説明を行う。
まず、利用者がマイクロホン1から音声入力を行うと、入力端3を介して音声認識端末2に音声信号が入力され(ステップS101)、入力された音声信号から音響分析部11によって音声特徴量の時系列が算出されるとともに(ステップS102)、センサ12によってセンサ情報が収集される(ステップS103)。
次に端末側送信部13によってセンサ情報と音声特徴量がネットワーク5を介して音声認識サーバ6に転送され(ステップS301)、サーバ側受信部21によってセンサ情報と音声特徴量が音声認識サーバ6に取り込まれる(ステップS302)。音声認識サーバ6のサーバ側音響モデル記憶部22は、音響モデルを複数のセンサ情報に合わせて予め準備しており、サーバ側音響モデル選択部23は、サーバ側受信部21によって取得されたセンサ情報と、各音響モデルのセンサ情報との距離値を式(1)によって算出して、最も距離値の小さい音響モデルを選択する(ステップS109)。
続いてサーバ側照合部27は、選択された音響モデルにおける標準パターンとサーバ側受信部21によって取得された音声特徴量とのパターンマッチングを行って、最も尤度の高い語彙を認識結果7として出力する(ステップS303)。この処理は、実施例1の照合処理(ステップS112)と同様であるので、詳細な説明については省略する。
以上のように、実施例3による音声認識端末2およびサーバ6によれば、音声認識端末2において音声特徴量の算出とセンサ情報の取得のみを行い、このセンサ情報に基づいて、音声認識サーバ6に音声特徴が記憶する音響モデルから適切な音響モデルを選択して、音声認識することとした。こうすることで、音声認識端末2に音響モデルを記憶するための記憶装置、あるいは素子又は回路が不要となり、音声認識端末2の構成を簡素化することができる。
また、音声特徴量とセンサ情報のみをネットワーク5を介して音声認識サーバ6に転送するようにしたので、ネットワーク5に伝送負荷をかけずに音声認識を行うことができる。
なお、前述の通り、音響モデルのデータサイズは数百キロバイトに及ぶ場合がある。したがってネットワークの帯域幅が制限されている場合には、音響モデルそのものを送信しようとすると伝送能力の限界に達してしまう場合もある。しかし音声特徴量であれば、せいぜい20kbpsの帯域幅が確保できれば、実時間内に十分転送が可能である。したがって極めてネットワーク負荷が軽いクライアントサーバ側音声認識システムを構築できるとともに、マイクロホン1の集音環境に合わせた高精度な音声認識処理を行うことができる。
なお実施例1とは異なり、実施例3では認識結果7を音声認識端末2から出力するのではなく、音声認識サーバ6から出力する構成とした。例えば音声認識端末2がインターネットを閲覧しており、発話によってURL(Uniform Resource Location)を音声入力し、このURLから決定されるWebページを音声認識サーバ6が取得して、音声認識端末2に送信して表示させるような場合は、このような構成で十分である。
しかしながら、実施例1と同じように、音声認識端末2が認識結果を出力するような構成とすることもできる。この場合は、音声認識端末2に端末側受信部、音声認識サーバ6にサーバ側送信部を備えるようにし、照合部27の出力結果を音声認識サーバ6の送信部からネットワーク5を介して音声認識端末2の受信部に送信し、この受信部から所望の出力先に出力するように構成すればよい。
実施例1及び2における音響モデルの送受信、実施例3における音声特徴量の送受信に代えて、音声データを送受信する方法も考えられる。実施例4による音声認識端末及びサーバはこのような原理に基づいて動作するものである。
図8は、実施例4による音声認識端末及びサーバの構成を示すブロック図である。図において、図1と同一の符号を付した部位については実施例1と同様であるので、説明を省略する。実施例4においても、音声認識端末2と音声認識サーバ6はネットワーク5を介して接続されている。しかし、音声認識端末2から音声認識サーバ6に対して音声データとセンサ情報が送信されるようになっており、また認識結果7が音声認識サーバ6より出力されるようになっている点で、実施例1と異なる。
音声ディジタル処理部19は入力端3から入力された音声をディジタルデータに変換する部位であって、A/D変換器あるいは素子又は回路を備えるものである。さらにA/D変換されたサンプリングデータをネットワーク5を介して伝送するのに適する形式に変換する専用回路、またはこのような専用回路と同等の処理を行うコンピュータプログラムとこのプログラムを実行する中央演算装置をさらに備えるようにしてもよい。また、サーバ側音響分析部28は音声認識サーバ6上で入力音声から音声特徴量を算出する部位であって、実施例1及び2における端末側音響分析部11と同様の機能を有する。
次に実施例4における音声認識端末2及び音声認識サーバ6の動作について、図を参照しながら説明する。図9は、実施例1による音声認識端末2と音声認識サーバ6との処理を示したフローチャートである。なおこのフローチャートにおいて、図2と同一の符号を付した処理については実施例1と同様である。そこで以下においては、このフローチャート独自の符号を付した処理を中心に説明を行う。
まず、利用者がマイクロホン1から音声入力を行うと、入力端3を介して音声認識端末2に音声信号が入力され(ステップS101)、音声ディジタル処理部19は、ステップS101で入力された音声信号をA/D変換によってサンプリングする(ステップS401)。なお、音声ディジタル処理部19では、音声信号のA/D変換だけでなく、音声データの符号化、あるいは圧縮処理を行うことが望ましいが、このことは必須ではない。具体的な音声の圧縮方法としては、ディジタル方式の公衆有線電話網(ISDNなど)で使用されているu−law 64kbps PCM方式(Pulse Coded Modulation、ITU−T G.711)や、PHSで使用されている適応差分符号化PCM方式(Adaptive Differential encoding PCM、ADPCM.ITU−T G.726)、携帯電話で使用されているVSELP方式(Vector Sum Excited Linear Prediction)、CELP方式(Code Excited Linear Prediction)等を適用する。通信網の使用可能帯域幅やトラフィックに応じて、これらの方式のうちのいずれかを選択するとよい。例えば、帯域幅が64kbpsである場合にはu−law PCM方式、16〜40kbpsである場合にはADPCM方式、11.2kbpsである場合にはVSELP方式、5.6kbpsである場合にはCELP方式が適していると考えられる。ただし他の符号化方式を適用しても、この発明の特徴が失われるわけではない。
次に、センサ12によってセンサ情報が収集され(ステップS103)、さらに収集されたセンサ情報と符号化された音声データは、例えば図10で示すようなデータフォーマットに並べ替えられて、端末側送信部13によってネットワーク5を介して音声認識サーバ6に転送される(ステップS402)。
なお、図10において領域701には、音声データの処理時刻を表すフレーム番号が格納される。このフレーム番号は、例えば音声データのサンプリング時刻に基づいて、一意に決定される。ここで、「一意に決定される」という語の意義は、音声認識端末2と音声認識サーバ6との間で調整された相対的な時刻に基づいて決定される場合を含み、この相対的な時刻が異なる場合には、異なるフレーム番号が与えられるようにする、という意味である。あるいは、音声認識端末2と音声認識サーバ6との外部に存在する時計より絶対的な時刻の供給を受け、この時刻に基づいてフレーム番号を一意に決定するようにしてもよい。時刻からフレーム番号を算出するには、例えば年(西暦4桁が望ましい)、月(値域1〜12で2桁を割り当てる)、日(値域1〜31で2桁を割り当てる)、時(値域0〜23で2桁を割り当てる)、分(値域0〜59で2桁を割り当てる)、秒(値域0〜59で2桁を割り当てる)、千分の一秒(値域0〜999で3桁を割り当てる)の各数値をそれぞれの桁数でパディングし、これらの順に数字列として連結してもよいし、ビット単位で年・月・日・時・分・秒・ミリ秒の各値をパックして一定の値を得るようにしてもよい。
また、図10のデータフォーマットの領域702には、センサ情報の占有するデータサイズが格納される。例えばセンサ情報が32ビット値であるならば、センサ情報を格納するのに必要な領域の大きさ(4バイト)をバイトで表現して4が格納される。センサ12が複数個のセンサから構成される場合には、それぞれのセンサ情報を格納するのに必要となる配列領域のデータサイズが格納されることになる。さらに領域703には、ステップS103においてセンサ12によって取得されたセンサ情報が格納される領域である。センサ12が複数個のセンサから構成される場合は、領域703にセンサ情報の配列が格納される。また領域703のデータサイズは、領域702に保持されたデータサイズと一致する。
領域704には音声データサイズが格納される。なお、送信部13は音声データを複数のパケット(その構造は図7で示されるデータフォーマットと等しいものとする)に分割して送信する場合がある。その場合、領域704に格納されるのは、それぞれのパケットに含まれる音声データのデータサイズである。複数のパケットに分割する場合については、後に再び述べることにする。続いて領域705には音声データが格納される。
ネットワーク5の特性から、パケットサイズの上限が定められている場合には、端末側送信部13は入力端3を介して入力された音声データを複数のパケットに分割する。図7のデータフォーマットにおいて、領域701に格納されるフレーム番号は、その音声データの処理時刻を表す情報であり、このフレーム番号は、それぞれのパケットに含まれる音声データのサンプリング時刻に基づいて決定される。さらにすでに述べたように、領域704にそれぞれのパケットに含まれる音声データのデータサイズを格納する。またセンサ12を構成するセンサの出力結果が短時間の間に刻々と変化する性質を有する場合には、領域703に格納されるセンサ情報もパケット間で異なることになる。例えば音声認識端末2が車載用音声認識装置であり、センサ12が背景重畳雑音の大きさを取得するセンサ(マイクロホン1とは別のマイクロホンなど)の場合、話者の発話の最中に自動車がトンネルを出入りすると、背景重畳雑音の大きさは著しく異なることになる。このような場合に、図10のデータフォーマットによるパケットを送信することで、発話の途中であってもセンサ情報を適切に反映させることが可能となる。そのために端末側送信部13は、発話の最中にセンサ情報が大きく変化した場合に、ネットワーク5の特性とは関係なく、センサ情報が変化した時点で音声データを分割し、異なるセンサ情報を格納したパケットを送信するのが望ましい。
引き続き、音声認識端末2及び音声認識サーバ6の動作を説明する。サーバ側受信部21によってセンサ情報と音声データ音声認識サーバ6に取り込まれる(ステップS403)。サーバ側音響分析部28は、取り込まれた音声データを音響分析して、音声特徴量の時系列を算出する(ステップS404)。さらにサーバ側音響モデル選択部23は、取得したセンサ情報に基づいて、最も適切な音響モデルを選択し(ステップS109)、サーバ側照合部26はこの音響モデルの標準パターンと音声特徴量とを照合する(ステップS405)。
以上より明らかなように、この実施例4では、音声認識端末2がセンサ情報と音声データを音声認識サーバ6に転送することとしたので、音声認識端末2側で音響分析を行うことなく、集音環境に適した音響モデルに基づいて高精度な音声認識処理を行うことができる。
したがって、音声認識端末2に音声認識のための特別な部品や回路、コンピュータプログラムなどを設けなくても音声認識機能を実現することができる。
また実施例4によれば、フレーム毎にセンサ情報を送信するようにしたので、発話中にマイクロホン1が集音する環境条件が急激に変化した場合であっても、フレーム毎に適切な音響モデルを選択して、音声認識を行うことができる。
なお、音声認識端末2からの送信を複数のフレームに分割するという方法は、実施例3の音声特徴量の送信にも適用できる。すなわち、音声特徴量は時系列成分を有するから、フレームに分割する場合には、その時系列順にフレーム分割するとよい。またそれぞれのフレームに、その時系列の時刻におけるセンサ情報を実施例4と同様に格納し、音声認識サーバ6側で、各フレームに含まれる最新のセンサ情報に基づいて最適な音響モデルを選択するようにすれば、さらに音声認識の精度を向上させることができる。
実施例1〜4の音声認識システムでは、音声認識端末2の備えるセンサ12が取得した環境条件に基づいて、音声認識端末2及びサーバ6の記憶する音響モデルを選択することにより、実環境に対応した音声認識処理を行うというものであった。しかし、センサ12が取得した環境条件だけでなく、インターネットなどから得られる付加情報を組み合わせて、音響モデルを選択する方法も考えられる。実施例5の音声認識システムはこのような特徴を有するものである。
なお、実施例5の特徴は上記のとおり、インターネットから得られる付加情報とセンサ情報とを組み合わせて、音響モデルを選択する、というものなので、実施例1〜4のいずれの音声認識システムと組み合わせることも可能であり、得られる効果についても同じであるが、ここでは例として実施例1の音声認識システムにインターネットから得られる付加情報を組み合わせた場合について説明することにする。
図11は、実施例5による音声認識システムの構成を示すブロック図である。この図から明らかなとおり、実施例5の音声認識システムは、実施例1の音声認識システムに、インターネット情報取得部29を付加したものであって、図1と同一の符号を付した構成要素は実施例1と同様であるので、説明を省略する。また、インターネット情報取得部29は、インターネットを介して付加情報を取得する部位であり、具体的にはhttp(Hyper Text Transfer Protocol)によってWebページを取得するインターネットブラウザ相当の機能を有するものである。さらに、実施例5における音声認識サーバ6が記憶している音響モデルでは、その音響モデルを学習した環境条件をセンサ情報と付加情報とで表現するようにしているものとする。
ここで、付加情報とは、例えば気象情報や交通情報である。インターネットには気象情報や交通情報を提供するWebサイトが存在しており、これらのWebサイトによれば、各地の気象条件や渋滞情報、工事状況などを入手することができる。
そこで、このような付加情報を利用して、より精度の高い音声認識を行うために、入手できる付加情報にあわせた音響モデルを準備する。例えば、気象情報が付加情報である場合は、豪雨や強風などによって生じる背景雑音の影響を加味して音響モデルが学習される。また例えば交通情報の場合は、道路工事などによって生じる背景雑音の影響を加味して音響モデルが学習される。
次に実施例5による音声認識端末2及びサーバ6の動作について説明する。図12は、実施例5による音声認識端末2及びサーバ6の動作を示すフローチャートである。図12のフローチャートと図2のフローチャートとが異なるのは、ステップS501の有無のみである。そこで、以降では、ステップS501の処理を中心に説明することとする。
音声認識サーバ6において、センサ情報を受信した後に(ステップS108)、インターネット情報取得部29は、音声認識端末2に接続されたマイクロホン1が集音する環境に影響を与える情報をインターネットから収集する(ステップS501)。例えば、センサ12にGPSアンテナが備えられている場合、センサ情報には音声認識端末2及びマイクロホン1の存在する位置情報が含まれることになる。そこで、インターネット情報取得部29は、この位置情報に基づいて音声認識端末2及びマイクロホン1の存在する場所の気象情報や交通情報などの付加情報をインターネットから収集する。
続いて、サーバ側音響モデル選択部23は、センサ情報と付加情報とに基づいて音響モデルを選択する。具体的には、まず現在の音声認識端末2及びマイクロホン1の存在する場所の付加情報と音響モデルの付加情報が一致しているかどうかが判定される。そして付加情報が一致している音響モデルの中から、次にセンサ情報について、実施例1で示した式(1)に基づいて算出された距離値が最小となる音響モデルを選択する。
以後の処理については実施例1と同様であるので、説明を省略する。
以上から明らかなように、実施例5の音声認識システムによれば、音響モデルを学習した環境条件が、センサ情報だけでは完全に表現できないものであっても、付加情報を用いて表現することができるので、マイクロホン1の集音環境についてより適切な音響モデルを選択することができる。またこの結果として、音声認識精度を向上させることができる、という効果を奏する。
なお上記において、付加情報を入手する方法としてインターネットを経由する方法について説明したが、付加情報を用いる技術的意義は、音声認識の精度を劣化させる環境的諸要因のうち、あくまでもセンサ情報では表現できない要素に基づいて音響モデルを準備することにある。したがって、このような付加情報を入手する方法は、インターネットに限定されるものではなく、例えば、付加情報を提供するための専用システムや専用コンピュータを準備してもよい。
産業上の利用の可能性
以上のように、この発明に係る音声認識システム並びに端末及びサーバは、使用する場所が変化しても高精度の音声認識処理を実現するために有用であり、特にカーナビゲーションシステムや携帯電話など、筐体の大きさや重量、価格帯等の制限から、搭載可能な記憶装置の容量が限られた機器に音声認識機能を提供するのに適している。

Claims (20)

  1. 音声認識サーバと複数の音声認識端末とをネットワークにより接続した音声認識システムにおいて、
    前記音声認識端末は、
    外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
    前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
    前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
    前記ネットワークを介して前記センサ情報を前記音声認識サーバに送信するクライアント側送信手段と、
    前記音声認識サーバから音響モデルを受信するクライアント側受信手段と、
    前記音響モデルと前記音声特徴量とを照合するクライアント側照合手段と、を備え、
    前記音声認識サーバは、
    前記クライアント側送信手段が送信したセンサ情報を受信するサーバ側受信手段と、
    複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
    前記複数の音響モデルから前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
    前記サーバ側音響モデル選択手段が選択した音響モデルを前記音声認識端末に送信するサーバ側送信手段と、を備えることを特徴とする音声認識システム。
  2. 音声認識サーバと複数の音声認識端末とをネットワークにより接続した音声認識システムにおいて、
    前記音声認識端末は、
    外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
    前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
    前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
    前記ネットワークを介して前記センサ情報と前記音声特徴量とを前記音声認識サーバに送信するクライアント側送信手段とを備え、
    前記音声認識サーバは、
    前記センサ情報と前記音声特徴量とを受信するサーバ側受信手段と、
    複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
    前記複数の音響モデルから前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
    前記サーバ側音響モデル選択手段が選択した音響モデルと前記音声特徴量とを照合するサーバ側照合手段と、を備えることを特徴とする音声認識システム。
  3. 音声認識サーバと複数の音声認識端末とをネットワークにより接続した音声認識システムにおいて、
    前記音声認識端末は、
    外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
    前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
    前記ネットワークを介して前記センサ情報と前記音声信号とを前記音声認識サーバに送信するクライアント側送信手段とを備え、
    前記音声認識サーバは、
    前記センサ情報と前記音声信号とを受信するサーバ側受信手段と、
    前記音声信号から音声特徴量を算出するサーバ側音響分析手段と
    複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
    前記複数の音響モデルから前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
    前記サーバ側音響モデル選択手段が選択した音響モデルと前記音声特徴量とを照合するサーバ側照合手段と、を備えることを特徴とする音声認識システム。
  4. 前記音声認識サーバは、
    インターネットから交通情報を取得する交通情報取得手段をさらに備え、
    前記サーバ側音響モデル選択手段は、前記センサ情報と前記交通情報取得手段により取得された交通情報との双方に適合する音響モデルを、前記複数の音響モデルから選択することを特徴とする請求の範囲第1項〜第3項のいずれか一項に記載の音声認識システム。
  5. 前記音声認識サーバは、
    インターネットから気象情報を取得する気象情報取得手段をさらに備え、
    前記サーバ側音響モデル選択手段は、前記センサ情報と前記気象情報取得手段により取得された気象情報との双方に適合する音響モデルを、前記複数の音響モデルから選択することを特徴とする請求の範囲第1項〜第3項のいずれか一項に記載の音声認識システム。
  6. 外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
    前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
    前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
    複数の音響モデルから前記センサ情報に適合する音響モデルを選択し、ネットワークを介してこの音響モデルを送信する音声認識サーバに、前記センサ情報を送信するクライアント側送信手段と、
    前記音声認識サーバが送信した前記音響モデルを受信するクライアント側受信手段と、
    前記音響モデルと前記音声特徴量とを照合するクライアント側照合手段と、を備えることを特徴とする音声認識端末。
  7. 複数の音響モデルを記憶するとともに、複数の音声認識端末の集音環境に適合した音響モデルを前記複数の音響モデルから選択し、その音響モデルを前記各音声認識端末にネットワークを介して送信する音声認識サーバにおいて、
    前記集音環境を表すセンサ情報を前記各音声認識端末から受信するサーバ側受信手段と、
    前記複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
    前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
    前記サーバ側音響モデル選択手段が選択した音響モデルを前記各音声認識端末に送信するサーバ側送信手段とを備えたことを特徴とする音声認識サーバ。
  8. 前記音声認識端末が記憶している音響モデルと前記サーバ側音響モデル選択手段が選択した音響モデルとの差分を算出する音響モデル差分算出手段、
    をさらに備え、
    前記サーバ側送信手段は、前記音響モデルに代えて、前記差分を送信する、
    ことを特徴とする請求の範囲第7項に記載の音声認識サーバ。
  9. 前記サーバ側音響モデル記憶手段は、音響モデルの統計量に基づいて予めクラスタリングされた複数の音響モデルをさらに記憶し、
    前記音響モデル差分算出手段は、前記クラスタリングされた複数の音響モデルの差分を算出する、
    ことを特徴とする請求の範囲第8項に記載の音声認識サーバ。
  10. 前記音声認識サーバが記憶する複数の音響モデルのうち、一部の音響モデルを記憶するローカル音響モデル記憶手段と、
    前記ローカル音響モデル記憶手段が記憶している音響モデルに、その音響モデルと前記音声認識サーバが前記センサ情報に適合する音響モデルとして選択した音響モデルとの差分を加えて、前記センサ情報に適合する音響モデルを生成する音響モデル合成手段と、をさらに備え、
    前記クライアント側受信手段は、前記音響モデルに代えて、前記音声認識サーバより送信される前記差分を受信することを特徴とする請求の範囲第6項に記載の音声認識端末。
  11. 複数の音響モデルを記憶するとともに、複数の音声認識端末により抽出された入力音声の音声特徴量をネットワークを介して受信し、前記各音声認識端末の集音環境に適合した音響モデルを前記複数の音響モデルから選択して、その音響モデルを用いて前記音声特徴量を認識する音声認識サーバにおいて、
    前記各音声認識端末から前記集音環境を表すセンサ情報と前記音声特徴量を受信するサーバ側受信手段と、
    前記複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
    前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
    前記音声特徴量と前記サーバ側音響モデル選択手段により選択された音響モデルとを照合するサーバ側照合手段とを備えたことを特徴とする音声認識サーバ。
  12. 外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
    前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
    前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
    複数の音響モデルから前記センサ情報に適合する音響モデルを選択し、その音響モデルに基づいて、ネットワークを介して受信した音声特徴量の音声認識を行う音声認識サーバに、前記センサ情報と前記音声特徴量とを送信するクライアント側送信手段と、
    を備えることを特徴とする音声認識端末。
  13. 前記クライアント側送信手段は、前記音声特徴量を時系列順に複数のフレームに分割し、前記時系列の各時刻において前記センサが検出した前記センサ情報を前記各フレームに付加して送信することを特徴とする請求の範囲第12項に記載の音声認識端末。
  14. 前記サーバ側受信手段は、フレーム毎に前記センサ情報と前記音声特徴量とを受信し、
    前記サーバ側音響モデル選択手段は、前記フレーム毎に前記センサ情報に適合する音響モデルを選択し、
    前記サーバ側照合手段は、前記サーバ側音響モデル選択手段により前記フレーム毎に選択された音響モデルと前記フレームの音声特徴量との照合を行うことを特徴とする請求の範囲第11項に記載の音声認識サーバ。
  15. ネットワークを介して複数の音声認識端末から音声ディジタル信号を受信するとともに、前記各音声認識端末の集音環境に適合した音響モデルを複数の音響モデルから選択して、その音響モデルを用いて前記音声ディジタル信号の音声認識を行う音声認識サーバにおいて、
    前記各音声認識端末から前記集音環境を表すセンサ情報と前記音声ディジタル信号とを受信するサーバ側受信手段と、
    前記音声ディジタル信号から音声特徴量を算出するサーバ側音響分析手段と
    前記複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
    前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
    前記音声特徴量と前記サーバ側音響モデル選択手段により選択された音響モデルとを照合するサーバ側照合手段とを備えたことを特徴とする音声認識サーバ。
  16. 外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
    前記入力端から入力された音声信号から音声ディジタル信号を算出する音声ディジタル処理手段と、
    前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
    複数の音響モデルから前記センサ情報に適合する音響モデルを選択し、その音響モデルに基づいて、ネットワークを介して受信した音声信号ディジタル信号を音声認識する音声認識サーバに、前記センサ情報と前記音声ディジタル信号とを送信するクライアント側送信手段と、
    を備えることを特徴とする音声認識端末。
  17. 前記クライアント側送信手段は、前記音声ディジタル信号を時系列順に複数のフレームに分割し、前記時系列の各時刻において前記センサが検出したセンサ情報を前記各フレームに付加して送信することを特徴とする請求の範囲第16項に記載の音声認識端末。
  18. 前記サーバ側受信手段は、フレーム毎に音声ディジタル信号とセンサ情報とを受信し、
    前記サーバ側音響分析手段は、前記音声ディジタル信号から前記フレーム毎に音声特徴量を算出し、
    前記サーバ側音響モデル選択手段は、前記フレームの前記フレーム毎に前記センサ情報に適合する音響モデルを選択し、
    前記サーバ側照合手段は、前記サーバ側音響モデル選択手段により前記フレーム毎に選択された音響モデルと、前記フレームの音声特徴量との照合を行うことを特徴とする請求の範囲第15項に記載の音声認識サーバ。
  19. インターネットから交通情報を取得する交通情報取得手段をさらに備え、
    前記サーバ側音響モデル選択手段は、前記センサ情報と前記交通情報取得手段により取得された交通情報との双方に適合する音響モデルを、前記複数の音響モデルから選択することを特徴とする請求の範囲第7項〜第9項、第11項、第14項、第15項、第18項のいずれか一項に記載の音声認識サーバ。
  20. 前記サーバ側音響モデル選択手段は、インターネットから気象情報を取得する気象情報取得手段をさらに備え、
    前記サーバ側音響モデル選択手段は、前記センサ情報と前記気象情報取得手段により取得された気象情報との双方に適合する音響モデルを、前記複数の音響モデルから選択することを特徴とする請求の範囲第7項〜第9項、第11項、第14項、第15項、第18項のいずれか一項に記載の音声認識サーバ。
JP2005504586A 2003-07-29 2003-07-29 音声認識システム及びその端末とサーバ Pending JPWO2005010868A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/009598 WO2005010868A1 (ja) 2003-07-29 2003-07-29 音声認識システム及びその端末とサーバ

Publications (1)

Publication Number Publication Date
JPWO2005010868A1 true JPWO2005010868A1 (ja) 2006-09-14

Family

ID=34090568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005504586A Pending JPWO2005010868A1 (ja) 2003-07-29 2003-07-29 音声認識システム及びその端末とサーバ

Country Status (2)

Country Link
JP (1) JPWO2005010868A1 (ja)
WO (1) WO2005010868A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5229216B2 (ja) * 2007-02-28 2013-07-03 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP2011118124A (ja) * 2009-12-02 2011-06-16 Murata Machinery Ltd 音声認識システムと認識方法
CN109213970B (zh) * 2017-06-30 2022-07-29 北京国双科技有限公司 笔录生成方法及装置
US11367449B2 (en) 2017-08-09 2022-06-21 Lg Electronics Inc. Method and apparatus for calling voice recognition service by using Bluetooth low energy technology
US11011162B2 (en) * 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
CN112970059B (zh) 2018-11-07 2023-11-24 三星电子株式会社 用于处理用户话语的电子装置及其控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003122395A (ja) * 2001-10-19 2003-04-25 Asahi Kasei Corp 音声認識システム、端末およびプログラム、並びに音声認識方法
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置

Also Published As

Publication number Publication date
WO2005010868A1 (ja) 2005-02-03

Similar Documents

Publication Publication Date Title
EP2538404B1 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
KR100578260B1 (ko) 인식장치및인식방법과,학습장치및학습방법
US8571861B2 (en) System and method for processing speech recognition
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
EP2581901B1 (en) Server device, searching system and corresponding searching method
KR20240037205A (ko) 시각 보조 음성 처리
EP2438590B1 (en) Navigation system with speech processing mechanism and method of operation thereof
US20070073539A1 (en) Speech recognition method and system
CN104040626B (zh) 多译码模式信号分类
EP2956939B1 (en) Personalized bandwidth extension
EP0661688A2 (en) System and method for location specific speech recognition
CN101354887A (zh) 用在语音识别中的环境噪声注入
CN1138386A (zh) 分布式话音识别系统
JP6475426B2 (ja) 意図推定装置、及び、モデルの学習方法
CN112017642B (zh) 语音识别的方法、装置、设备及计算机可读存储介质
JPWO2005010868A1 (ja) 音声認識システム及びその端末とサーバ
JPWO2005098820A1 (ja) 音声認識装置及び音声認識方法
JP4996156B2 (ja) 音声信号変換装置
JP2003241788A (ja) 音声認識装置及び音声認識システム
CN111312236A (zh) 语音识别系统的域管理方法
US20040243414A1 (en) Server-client type speech recognition apparatus and method
US10061554B2 (en) Adjusting audio sampling used with wideband audio
US20070136063A1 (en) Adaptive nametag training with exogenous inputs
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP2017181667A (ja) 音声認識装置および音声認識方法