[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP3848319B2 - 情報処理方法及び情報処理装置 - Google Patents

情報処理方法及び情報処理装置 Download PDF

Info

Publication number
JP3848319B2
JP3848319B2 JP2003381637A JP2003381637A JP3848319B2 JP 3848319 B2 JP3848319 B2 JP 3848319B2 JP 2003381637 A JP2003381637 A JP 2003381637A JP 2003381637 A JP2003381637 A JP 2003381637A JP 3848319 B2 JP3848319 B2 JP 3848319B2
Authority
JP
Japan
Prior art keywords
character
recognition
information
speech
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003381637A
Other languages
English (en)
Other versions
JP2005150841A (ja
Inventor
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003381637A priority Critical patent/JP3848319B2/ja
Priority to US10/982,382 priority patent/US7515770B2/en
Publication of JP2005150841A publication Critical patent/JP2005150841A/ja
Application granted granted Critical
Publication of JP3848319B2 publication Critical patent/JP3848319B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Character Discrimination (AREA)
  • Television Signal Processing For Recording (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、画像データと音声データを対応付ける情報処理方法及び情報処理装置に関する。
近年、デジタルカメラで静止画像を撮影するとともに、撮影された当該静止画像に対して音声メモ機能を用いて当該静止画像についてのコメント等を録音するといった、画像データと音声データを関連付ける技術が開発されている。例えば、Exif (EXchangeable Image File Format) と呼ばれるデジタルカメラ用画像ファイルの標準規格では、1枚の静止画像ファイルの中に付属情報として音声データを関連付けることができる。このようにして静止画像に関連付けられた音声データは、単に静止画像に音声データが付与されたものであるだけではなく、当該音声データを音声認識することによって付与された音声データを認識して文字情報に変換し、文字又は音声をキーとして、複数の静止画像の中から所望の静止画像を検索するといった目的に利用することができる。
また、ボイスレコーダー機能を搭載したデジタルカメラや、デジタルカメラ機能を搭載したボイスレコーダーでは、最大で数時間程度の音声データを録音することが可能である。
しかしながら、上述したような従来の技術は、1枚の静止画像全体に対して1つ又は複数の音声データを関連付けるに留まっており、1枚の静止画像中の特定の部分領域と、それに対する音声データ中の特定の音声区間とを関連付ける技術ではない。すなわち、デジタルカメラで撮影された静止画像中の部分領域とボイスレコーダーで録音された音声データ中の部分音声データとを関連付けるような技術については、現時点において出願人は発見していない。
ここで、展示会等において1枚のパネルを用いて、発表者が口頭で製品のプレゼンテーションをしている場面を想定する。このとき、当該プレゼンテーションの聴講者は、ボイスレコーダーで発表者のプレゼンテーションに関する音声を録音する一方で、展示されているポスター(例えば、ポスター全体)をデジタルカメラで静止画像として撮影することがある。そして、その後、当該聴講者が、プレゼンテーション終了後、自宅等において、プレゼンテーション時に撮影した静止画像と録音した音声を再生して、撮影した静止画像中のある部分領域(例えば、展示されていたポスター中の一部に記載されている「製品の特徴」に関する部分)に関するプレゼンテーションを聞く場合を考える。
この場合、当該聴講者は、録音した音声データから該当する部分領域についての録音音声を人手によって探す必要があるため、非常に時間のかかる作業となるという問題がある。特に、当日プレゼンテーション会場に居合わせておらず、自宅等で初めて当該プレゼンテーションを視聴する人にとっては、撮影されたポスターの上記部分領域に対するプレゼンテーションが、録音された音声データ全体のどのあたりに記録されているのかが全く分からないため、所望の部分音声を探すためには、録音音声を最初から聞いていく必要があり非常に手間がかかるという問題がある。
本発明は、このような事情を考慮してなされたものであり、画像データ中の部分画像領域と音声データ中の部分音声データとを好適に対応付けることができる情報処理方法及び情報処理装置を提供することを目的とする。
上記課題を解決するために、本発明は、画像データと音声データを対応付ける情報処理方法であって、
文字を含む前記画像データから文字領域を検出する検出工程と、
検出された前記文字領域に含まれる文字情報を認識して複数の文字情報を取得する第1の認識工程と、
前記音声データ中の複数の音声区間のそれぞれに対応する音声認識結果を取得する第2の認識工程と、
前記第1の認識工程により取得された前記複数の文字情報と前記第2の認識工程により取得された前記複数の音声認識結果とをそれぞれ照合することによって該文字情報と該音声認識結果を対応付ける対応付け工程と
を有することを特徴とする。
また、上記課題を解決するために、本発明は、画像データと音声データを対応付ける情報処理装置であって、
文字を含む前記画像データから文字領域を検出する検出手段と、
検出された前記文字領域に含まれる文字情報を認識して複数の文字情報を取得する第1の認識手段と、
前記音声データ中の複数の音声区間それぞれに対応する音声認識結果を取得する第2の認識手段と、
前記第1の認識手段により取得された前記複数の文字情報と前記第2の認識手段により取得された前記複数の音声認識結果とをそれぞれ照合することによって、該文字情報と該音声認識結果を対応付ける対応付け手段と
を有することを特徴とする。
本発明によれば、画像データ中の部分画像領域と音声データ中の部分音声データとを好適に対応付けることができる。これにより、例えば、画像データと音声データとから画像データ中の部分画像領域に関連する音声データ中の部分音声区間を人手によって探す手間が省け、大幅に時間を節約することができる。
以下、図面を参照して、本発明の好適な実施例について詳細に説明する。
図1は、本発明の第1の実施例に係る画像データと音声データの部分データ同士を対応付ける静止画像・音声処理装置の構成を示すブロック図である。図1において、CPU101は、ROM102に記憶された制御プログラム或いは外部記憶装置104からRAM103にロードされた制御プログラムに従って、本実施例の静止画像・音声処理装置の各種制御・処理を行う。ROM102は、各種パラメータやCPU101が実行する制御プログラム等を格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供するとともに、CPU101により実行される制御プログラムを記憶する。
外部記憶装置104は、ハードディスク、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカード等で実現される固定式記憶装置或いは着脱可能な可搬記憶装置であり、例えば、外部記憶装置104がハードディスクの場合には、CD−ROMやフレキシブルディスク等からインストールされた各種プログラムが記憶される。105は、マイクロフォン等による音声入力装置であり、音声入力装置105から取り込まれた音声は、CPU101による音声認識又は音響信号分析によって静止画像に関連した音声が認識又は分析される。106は、デジタルカメラ等による画像入力装置であり、取り込まれた画像は静止画像に変換され、文字認識やオブジェクト認識が行われる。
107は、CRT、液晶ディスプレイ等の表示装置であり、処理内容の設定・入力に関する表示・出力を行う。108は、ボタン、テンキー、キーボード、マウス、ペン等の補助入出力装置である。109は、上記各部を互いに接続するバスである。尚、静止画像及び当該静止画像に対応付けられるための音声データは、それぞれ画像入力装置106及び音声入力装置105によって入力してもよいし、別の装置等によって獲得したものをROM102、RAM103、外部記憶装置104若しくはネットワークを介して接続された外部装置に記憶しておいてもよい。
図2は、第1の実施例で互いに部分データ同士の対応付け処理の対象となる静止画像(a)と当該静止画像に関連する音声(b)の一例について示す図である。図2に示すように、この静止画像には、白地に「春」、「夏」、「秋」、「冬」という4つの文字が撮像されている(以降、静止画像の左下を原点として、水平方向をx軸、垂直方向をy軸とする座標軸を用いる。尚、座標単位にはピクセルを用いることができるが、特にこれに限定されることはない。)。また、この静止画像に関連した音声は、「フユ」、「ハル」、「アキ」、「ナツ」という4つの発声がこの順で録音されている(以降、音声の開始時間を0とした時間軸を用いる。尚、時間単位としてはサンプル数や秒を用いることができるが、特にこれらに限定されることはない。)。また、この音声は、各発声間に十分な無音区間を含んでいるものとする。
尚、この音声は、発声場所、発声時間、発声者に制限はない。すなわち、静止画像を撮影した場所、時間、撮影者は、当該音声の発声場所、発声時間、発声者と同じでもあっても異なっていてもよい。また、音声データは、Exif等のように静止画像ファイルの一部として含まれていてもよいし、静止画像とは別のファイルであってもよい。さらに、静止画像データと音声データは、同じ装置又は同じ記憶媒体に記憶されていてもよいし、ネットワーク等を介して別の場所に格納されているものであってもよい。
図3は、本発明の第1の実施例において静止画像と音声を入力して静止画像と音声との対応関係(画像音声対応情報)を求める際のモジュール構成を示すブロック図である。図2において、201は文字検出部であり、静止画像から文字部分を含む所定領域(文字領域)を検出する。図2の例では、「春」、「夏」、「秋」、「冬」の4つの文字領域が矩形の部分画像として、座標情報(図2のx、yの値)と共に検出される。尚、文字検出部201で検出される当該部分画像は、あくまで画像データであって、文字データではない。ここで、図7は、図2に示す静止画像と音声の例に対する文字認識結果情報と音声認識結果情報を対応させた結果を示す図である。図7(a)に示すように、各部分画像データの座標情報は、各文字領域(部分画像)の中心座標を表している。
また、図3において、202は文字認識部であり、文字検出部201で検出された各文字領域に対して文字認識を行う。尚、文字認識処理自体については、既存の技術を用いることが可能である。図2の例では、4つの文字領域の部分画像データから、文字認識部202によって、「春」、「夏」、「秋」、「冬」の4文字の文字データが認識される。ここで、図6は、図7に示す文字認識結果情報と音声認識結果情報の例を示す図である。図6(a)に示すように、文字認識部202によって、各文字データと中心座標とが認識結果から対応付けられている。
図3において、203は音声検出部であり、音声データから例えば人が発声した部分(音声区間)を検出する。図2の例では、「フユ」、「ハル」、「アキ」、「ナツ」の4つの音声区間が部分音声データとして、時間情報(図2のtの値)と共に検出される。図7(b)に示すように、各音声区間の時間情報は、各音声区間の開始及び終了時間を表している。
図3において、204は音声認識部であり、音声検出部203で検出された各音声区間に対して音声認識を行う。尚、音声認識処理自体については、既存の技術を用いることができる。ここでは、簡単のため、「春(ハル)」、「夏(ナツ)」、「秋(アキ)」、「冬(フユ)」の4単語のみを認識対象語彙とする単語音声認識を行った場合について考える。この場合、図2の例では、4つの音声区間の音声データが、音声認識部204によって、「冬」、「春」、「秋」、「夏」の4単語の文字データに変換される。図6(b)に示すように、音声認識部204によって、各音声区間の音声データと時間情報とが認識結果から対応付けられている。
図3において、205は静止画音声対応部であり、文字検出部201と文字認識部202の処理結果として得られる静止画像内の文字認識結果及びその座標情報(文字認識結果情報)と、音声検出部203と音声認識部204の処理結果として得られる音声内の音声認識結果及びその時間情報(音声認識結果情報)を用いて、静止画像と音声データの対応付けを行う。例えば、図2に示す静止画像と音声の例では、図6(a)に示される文字認識結果情報による文字列と、図6(b)に示される音声認識結果情報に基づく文字列とを比較・照合する。図8は、第1の実施例における静止画像と音声との対応付けの一例を示す図である。
図9は、静止画像と音声との対応結果を用いたアプリケーションの例である。図9に示す例では、静止画像中の文字が位置する部分(例えば、図9では座標(x1,y1)付近)にマウスカーソル(図9の矢印マーク)を持っていくと、この文字に対応した音声データ(図9では、図7(b)に示す時刻s2からe2までの音声データ)が再生され、スピーカー等の音声出力装置から出力される。
尚、図9に示す例とは逆に、音声を先頭から、或いはマウス、キーボード等で任意の時間を指定することによってその間の音声を再生し、再生されている音声区間に対応する静止画像の対応部分に枠を付与して表示することも可能である。図60は、図2に示す静止画像と音声との対応結果を用いた別のアプリケーションに基づく表示例を示す図である。図60に示す例では、利用者が「フユ」と音声認識された音声区間(図7のs1からe1)にマウスカーソル(図60の矢印マーク)を持っていくと、当該音声区間に対応した文字領域(すなわち、「冬」)に文字領域分の外枠が生成・表示される。この結果、本装置の操作者は、出力されている音声が静止画像のどの部分に対応しているかを容易に理解することができる。
以下、図3に示す文字検出部201から静止画音声対応部205の各モジュールの動作についてさらに詳細に説明する。
文字検出部201は、静止画像中から写真、絵、文字、図形、図表等の所定領域を切り出す技術(セグメンテーション)を用いる。セグメンテーションの方法としては、文書中に存在する文字の部分を他の図表や画像等の部分と区別するための技術である文書認識技術といった既存の技術を用いることができる。尚、上述した文字領域の検出に関する説明では、簡単のため、文字領域の座標情報として、図7(a)に示したように文字領域の中心座標としているが、矩形領域を表すことが可能な座標(2点の座標)とするものが一般的であり、融通性があるため好適である。
文字認識部202は、文字検出部201で検出された文字領域からなる部分画像データを入力として、これに含まれる文字を認識する。文字認識の方法としては、既存の文字認識技術を用いればよいが、本実施例では静止画像を入力としているため、オンライン文字認識技術は適用することはできず、オフライン文字認識又はOCR (Optical Character Recognition) 技術を用いる必要がある。また、文字の種類が文字認識を行う前に分かっている場合、或いは文字認識時に利用者等によって与えることが可能な場合には、その文字の種類に応じた文字認識方法を適用することができる。
ここでいう文字の種類とは、例えば、手書き文字と印刷活字文字である。手書き文字は、さらに、制限付き手書き文字(点線上にそって文字が書かれる文字等)、常用手書き文字、自由手書き文字に分類することもできる。また、印刷活字文字は、さらに、フォント種が1つのシングルフォント、複数のフォント種が混在するマルチフォントに分類することもできる。また、文字の種類が予め分からない場合には、これらの全ての手法を適用して最も信頼度やスコアの高い結果を利用する方法や、各文字の種類を文字認識前に判定して、判定結果に基づいた文字認識方法を適用する方法等を用いればよい。
図4は、第1の実施例における文字認識部202の細部モジュール構成を示すブロック図である。図4において、301は前処理部であり、文字認識処理を行い易くするための各種処理を施し、正規化データとして出力する。具体的には、雑音成分の除去、文字の大きさの正規化等を行う。302は特徴抽出部であり、その文字が表わす特徴を抽出する。これは正規化データを、よりその文字の特徴を捉えた次元数の低いデータへ変換・圧縮する。例えば、2値画像の輪郭におけるchain-code等を特徴として抽出する。
また、303は識別部であり、特徴抽出部302で得られた入力の特徴量を文字認識用テンプレート305と比較・照合(マッチング)することによって、入力特徴量の文字の識別を行う。マッチング方法としては、DPマッチング法や2次元HMM(Hidden Markov Model)法等を用いればよい。ここで、文字間の言語的な関係を言語知識として確率的に利用することにより、文字認識性能が向上する場合がある。306は、この場合に用いる文字認識用の言語モデルであり、具体的には、2つ組み文字の出現確率(文字バイグラム)等である。しかし、文字認識用言語モデル306は必ずしも必要なものではない。304は文字認識結果情報出力部であり、識別部303で得られる文字認識の結果と、対応する文字領域の静止画像における座標情報を文字認識結果情報として出力する。
204は、音声検出部203で検出された音声区間からなる音声データを入力としてこれを音声認識する音声認識部である。音声認識部204における音声認識の方法としては、HMMに基づく方法等の既存の音声認識技術を用いればよい。音声認識の方法としては、単語音声認識、文法ベースの連続音声認識、N−gramベースの大語彙連続音声認識、単語単位を用いない音素認識もしくは音節認識を用いることがある。上述した音声認識の説明では、簡単のため、単語音声認識を用いたが、実際には、単語単位で発声される保障はなく、発声内容も事前に分からないため、大語彙連続音声認識又は音素認識(音節認識)による方法を利用することが望ましい。
図5は、第1の実施例における音声認識部204の細部モジュール構成を示すブロック図である。図5において、401は、音声分析部で、音声をスペクトル分析し、特徴量を求める。音声分析の方法としては、MFCC分析 (Mel-Frequency Cepstrum Coefficient) や線形予測分析等を用いればよい。405は、音声認識を行う際の辞書(表記と読み)及び言語制約(単語N-gramや音素N-gram等の確率値)が格納されている。402は、探索部で、401で得られた入力音声の特徴量を404の音声認識用音響モデルと405の音声認識用言語モデルを用いることによって音声認識結果を得る。403は、音声認識結果情報出力部で、403で得られる音声認識の結果と、対応する音声区間の音声における時間情報を音声認識結果情報として出力する。
205は、文字認識部202から得られる文字認識結果情報と、音声認識部204から得られる音声認識結果情報を入力として静止画像と音声を対応付け、静止画音声対応情報を出力する。対応付けは、文字認識の結果得られる文字もしくは文字列と、音声認識の結果得られる表記(単語)から得られる文字もしくは文字列のマッチングを取ることによって行う。或いは、文字認識の結果得られた文字列の発音列と音声認識の結果得られた発音列との照合によって行う。尚、これらの詳細については、以降の実施例において詳細に説明する。図2の例では、説明を簡単にするため、静止画像中の文字と音声の発声が1対1に対応している例を示した。
よって、文字列のマッチングは、完全に一致するものを探すことにより対応付けが行える。しかしながら、実際にプレゼンテーション等で録音される音声は、静止画像の文字をそのまま発声することはほとんどないと考えられる。このような場合には、文字認識の結果得られる文字列を音声認識の結果得られる文字列に対して部分マッチングさせて対応付けを行う。
例えば、「ここにある春は、…」や、「つまり、これは夏になると…」という発声がなされていた場合、文字認識結果の「春」は前者、「夏」は後者の音声認識結果の部分文字列と一致するため、これらを対応付ける。さらに一般的には、文字領域に対する音声区間がない、文字領域とは関係のない音声区間がある、文字認識結果に誤りがある、音声認識結果に誤りがあることが考えられるため、一致するか否かといった決定的なマッチングではなく、どの程度マッチングするかといった確率的な柔軟なマッチングを行う必要がある。
以上の説明から明らかなように、本実施形態によれば、静止画像データから静止画像の部分画像領域と抽出し、音声データから音声の部分音声区間を抽出し、お互いに関連のあるものを好適に対応付けることができるようになり、その結果として、画像データ中の部分画像領域に関連した音声データ中の音声区間(部分音声データ)を従来のように人手によって探す手間が省け、大幅に時間を節約することが可能となる。
上述した第1の実施例における静止画音声対応部205では、文字認識の結果として得られる文字列と、音声認識の結果として得られる文字列とを直接比較して対応付けていた。しかし、音声認識方法が音素(音節)認識であったり、同音異表記が出力された場合には、文字列の直接比較を行うことができない。例えば、文字認識結果が「春」であり、音声認識結果が「haru」、「ハル」、「張る」等の場合である。そこで、一般に、音声認識では入力音声の読み情報(発音列)が分かっていることから、文字認識結果を読み情報(発音列)に変換した後に、発音列同士でマッチングを取ることによって、文字列同士の比較ができないような場合においても文字認識結果情報と音声認識結果情報の対応を取ることが可能となる。
図10は、本発明の第2の実施例における発音列マッチングによる静止画音声対応部の細部モジュール構成を示すブロック図である。図10において、501は、文字認識部202から得られる文字認識結果情報の文字認識結果を発音列に変換する文字認識結果発音列変換部である。502は、文字列を発音に変換するために文字認識結果発音列変換部501で用いられる発音変換辞書である。ここで、文字と発音の対応は、一般に、1対1ではなく1対多となるため、1つの文字列に対する発音列は多くの場合1種類ではなく、発音列候補として1つ又は複数出力される。
具体的には、図6(a)に示される文字認識結果情報の、「春」、「夏」、「秋」、「冬」という文字列から、それぞれ「ハル/シュン」、「ナツ/カ」、「アキ/シュウ」、「フユ/トウ」というような発音列候補を得る。図11は、第2の実施例における文字認識結果と音声認識結果に対する発音列の例を示す図である。すなわち、図6(a)に示される文字認識結果情報から図11(a)に示されるような発音列候補を得る。
図10において、503は、音声認識部204から得られる音声認識結果情報から発音列を抽出する音声認識結果発音列抽出部である。具体的には、図6(b)に示される音声認識結果情報から、図11(b)に示すように、「フユ」、「ハル」、「アキ」、「ナツ」という発音列を抽出する。
また、図10において、504は発音列マッチング部であり、文字認識結果の文字列を発音列に変換したものと音声認識結果の発音列とのマッチングを取る。このマッチング処理によって、図11に示す例では、文字認識結果の複数の発音列候補から「ハル」、「ナツ」、「アキ」、「フユ」が選択され、音声認識結果の発音列と対応付けられる。
さらに、図10において、505は静止画音声対応情報出力部であり、マッチング結果を図8に示すような静止画音声対応情報として出力する。尚、この例では、発音列としてカタカナ表記を用いているが、これに限らず音素表現等別の表記を用いてもよいことは言うまでもない。また、文字認識結果の発音列候補は「シュウ」や「トウ」と書き言葉の発音列を生成していたが、「シュー」や「トー」といった話し言葉の発音列に変換した結果や、これを書き言葉の発音列に加えた結果を用いてもよい。
以上の説明から明らかなように、本実施例によれば、文字認識結果の文字列と音声認識結果の文字列が直接比較できない場合においても、静止画像と音声の対応付けを行うことが可能となる。
上述した第2の実施例では、文字認識の結果として得られる文字列を発音列に変換し、音声認識の結果として得られる発音列とマッチングしていたが、これとは逆に、音声認識の発音列を文字列に変換し、文字認識結果の文字列とマッチングすることも可能である。
図12は、本発明の第3の実施例における文字列マッチングを行う静止画音声対応部205の細部モジュール構成を示すブロック図である。図12において、601は、文字認識部202から得られる文字認識結果情報の文字認識結果から文字列を抽出する文字認識結果文字列抽出部である。具体的には、図6(a)に示される文字認識結果情報から、図13(a)に示されるように「春」、「夏」、「秋」、「冬」という文字列を抽出する。すなわち、図13は、第3の実施例における文字認識結果と音声認識結果に対する文字列の例である。
図12において、602は、音声認識部204から得られる音声認識結果情報の音声認識結果(発音列)を文字列に変換する音声認識結果文字列変換部である。また、603は、音声認識結果文字列変換部602で発音列を文字列に変換する際に用いられる文字変換辞書である。ここで、発音と文字の対応は、一般に、1対1ではなく1対多となるため、1つの発音列に対する文字列は1種類ではなく、文字列候補として複数出力する。
具体的には、図6(b)に示される音声認識結果情報の、「フユ」、「ハル」、「アキ」、「ナツ」という発音列から、図13(b)に示すように、それぞれ「冬/不輸」、「春/張る/貼る」、「空/飽き/秋」、「夏/奈津/捺」という文字列候補を得る。
604は、文字列マッチング部であり、文字認識結果の文字列と音声認識結果の発音列を文字列に変換したものとのマッチングを行う。このマッチング処理によって、図13に示す例では、音声認識結果の複数の文字列候補から「冬」、「春」、「秋」、「夏」が選択され、文字認識結果の文字列と対応付けられる。また、605は、静止画音声対応情報出力部であり、文字列マッチング部604によるマッチング結果を図8に示すように静止画音声対応情報として出力する。
以上の説明から明らかなように、本実施例によれば、文字認識結果の文字列と音声認識結果の文字列が直接比較できないような場合においても、発音列でのマッチングを行うことによって、静止画像と音声の対応付けを行うことが可能となる。
上述した実施例では、文字認識結果及び音声認識結果はいずれも1つの認識結果のみであり、また、静止画像と音声との対応付け処理では、認識結果の文字列又は発音列のみを用いて対応付けを行っていたが、認識結果に尤度や確率等のスコア情報を保持した複数候補を出力し、このスコア付きの複数候補を用いて文字認識結果と音声認識結果を対応付けることも可能である。
ここで、N個の文字領域I1,…,INに対して、M個の音声区間S1,…,SMの1つと対応付けを行った結果をC1,…,CN(但し、Cn=(In,Sm),1≦n≦N,1≦m≦M)とするとき、Cnは、
Cn=argmax(PIni,PSmj,δRIni,RSmj)
によって求めることができる。
ここで、PIniは文字領域Inのi番目の文字認識結果候補のスコア(1≦i≦K,但し、Kは文字認識結果の候補数。)、PSmjは音声区間Smのj番目の音声認識結果候補のスコア(1≦j≦L,但し、Lは音声認識結果の候補数)である。また、Inの第i位の文字認識結果の文字列(又は、発音列)をRIni、Smの第j位の音声認識結果の文字列(又は、発音列)をRSmjとするとき、δRIni,RSmjは、RIni=RSmjの場合はδRIni,RSmj=1、それ以外の場合はδRIni,RSmj=0という関数で与えられる。さらに、argmaxは、PIni,PSmj,δRIni,RSmjを最大にするi,m,jの組を求める演算を表し、これを求めることによって、Inに対するSm、すなわちCnを決めることができる。
以下、図14、15、16を用いて、対応付けの具体例について説明する。
図14は、第4の実施例における文字認識結果(a)と音声認識結果(b)のスコア情報(尤度や確率等で表された認識結果)を保持した複数候補の例を示す図である。図14に示す例では、N=4,M=4,K=3,L=3である。ここで、第1の実施例で説明したように、文字認識結果と音声認識結果の文字列を直接比較することによって、静止画と音声の対応付けを行うことにする。例えば、図14に示すように、I1は「春」、S1は「冬」、PI11=0.7,PS43=0.1,RI13は「空」、RS32は「足」等となる。
このとき、n=1、すなわち「春」、「香」、「空」と文字認識された文字領域に対する音声区間は、i=1,m=2,j=1の場合、PI11=0.7、PS21=0.7、RI11は「春」、RS32は「春」でδRI11,RS21=1となり、上記argmaxの中が最大0.49(=0.7×0.7×1)となる。尚、その他の場合は、いずれもδRIni,RSmj=0となるため、argmaxの中は0となる。よって、C1=(I1,S2)と決定される。同様の計算を行うことによって、C2=(I2,S3)、C3=(I3,S4)、C4=(I4,S1)と対応付けがなされる。
次に、第2の実施例で説明したように、文字認識結果を発音列に変換し、これと音声認識結果の発音列を比較することによって静止画と音声の対応付けを行う際に、スコア付きの複数候補を用いる例について説明する。
図15は、第4の実施例における文字認識結果を発音列に変換した結果(a)と音声認識結果から得られる発音列(b)のスコア情報を保持した複数候補の例を示す図である。この場合、文字認識結果のスコア情報をそのまま発音列のスコア情報とする。また、1つの文字認識結果から複数の発音列が得られる場合には、それぞれの発音列に対して同じスコア情報を用いる。
例えば、n=1の場合は、i=1で「ハル」と「シュン」の2通り、i=2で「カ」と「コウ」の2通り、i=3で「ソラ」と「アキ」と「クウ」の3通りの発音列に対して、図14に示した例の場合と同様の計算を行う。この結果、例えば、n=1,i=1の「ハル」とm=2,j=1の「ハル」のargmaxの中は0.49(=0.7×0.7×1)であり、n=1,i=3の「アキ」とm=3,j=1の「アキ」のargmaxの中は0.06(=0.1×0.6×1)であり、C1=(I1,S2)と対応付けられる。また、n=4,i=2の「フユ」とm=1,j=1の「フユ」は0.15(=0.3×0.5×1)であり、n=4,i=3の「ツ」とm=4,j=2の「ツ」は0.02(=0.2×0.1×1)であり、C4=(I4,S1)と対応付けられる。同様に、C2=(I2,S3)、C3=(I3,S4)と対応付けがなされる。
次に、第3の実施例で説明したように、音声認識結果を文字列に変換し、これと文字認識結果の文字列を比較することによって静止画と音声の対応付けを行う際に、スコア付きの複数候補を用いる例について説明する。
図16は、第4の実施例における文字認識結果から得られる文字列(a)と音声認識結果を文字列に変換した結果(b)のスコア情報を保持した複数候補の例を示す図である。この場合も、図15で示した発音列の対応付けと同様であり、例えば、n=1,i=1の「春」とm=2,j=1の「春」は0.49(=0.7×0.7×1)であり、n=1,i=3の「空」とm=3,j=1の「空」は0.06(=0.1×0.6×1)であり、C1=(I1,S2)と対応付けられる。
尚、上述したように本実施例では、δは完全に一致する場合に1、一致しない場合は0という2値の値のいずれかをとる関数を用いていたが、これに限らず、例えば一致の度合いに応じた値とする等、別の定義でもよい。また、文字認識結果のスコアと音声認識結果のスコアは同等に扱っているが、例えば、文字認識のスコアを音声認識のスコアよりも重視する等、これらのスコアに重みをつけてもよい。
以上の説明から明らかなように、本実施例によれば、文字認識結果と音声認識結果をスコア付きで複数候補出力することで、1位の候補に正解の認識結果が含まれない場合でも、より正確に静止画像と音声の対応付けを行うことが可能となる。
上述した第2〜第4の実施例では、静止画音声対応部205において、発音列又は文字列のどちらかに変換された結果に基づいて静止画像と音声の対応付けを行っていたが、これらの両方を用いて対応付けを行うこともできる。すなわち、文字認識結果を読みに変換した文字認識結果発音列と音声認識結果として得られる音声認識結果発音列のマッチングと、文字認識結果として得られる文字認識結果文字列と音声認識結果を文字列に変換した音声認識結果文字列のマッチングの両方を用いる。これは、図10と図12のそれぞれで示されるモジュール構成を併用することによって実現することができる。
上述した実施例では、文字認識に関する処理と音声認識に関する処理は、それぞれ独立に行われていたが、文字認識の結果を音声認識で利用することも可能である。この際、以下に説明するように様々な利用の仕方が考えられる。
まず、文字認識結果を音声認識結果情報出力部で利用する場合について説明する。図17は、本発明の第6の実施例における静止画像・音声認識装置のモジュール構成を示すブロック図である。図17において、文字認識部701は文字認識部202と、また、音声分析部702、探索部703、音声認識用音響モデル704及び音声認識用言語モデル705は、それぞれ音声分析部401、探索部402、音声認識用音響モデル404、音声認識部言語モデル405と、さらに静止画音声対応部707は静止画音声対応部205と同じであるため説明は省略する。
706は音声認識結果情報出力部であり、探索部703の探索結果に加えて、文字認識部701の文字認識で得られる結果も利用する。例えば、図14に示す場合、図14(b)に示される音声認識結果に対して、図14(a)の結果に含まれない「古」、「露」、「樽」、「白」、「足」、「薪」、「松」、「津」の8種類の文字列は音声認識結果候補としない。この結果、これらの8種類の文字列に対しては、第4の実施例で説明した計算を行う必要がなくなり、処理の効率化が図れる。
次に、文字認識結果を音声認識の探索部で利用する場合について説明する。図18は、本発明の第6の実施例における文字認識結果を音声認識に利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。
図18において、文字認識部801は文字認識部202と、また音声分析部802及び音声認識用音響モデル804から音声認識結果情報出力部806はそれぞれ音声分析部401及び音声認識用音響モデル404、音声認識用言語モデル405、音声認識結果情報出力部403と、さらに静止画音声対応部807は静止画音声対応部205と同じであるため説明は省略する。
探索部803は、音声認識用音響モデル804と音声認識用言語モデル805の2つのモデルを用いて音声認識を行う際に、文字認識部801で得られる結果を利用する。例えば、図14(a)に示された結果が文字認識の結果として得られた場合、探索部803は、これらの12種類の文字列(単語)のみを用いた探索処理を行う。すなわち、探索部803は、音声認識用言語モデル805に含まれる音声認識対象語としてこれらの12種類のみを用いて音声認識を行う。この結果、探索部803の計算が大幅に低減され、文字認識の結果候補に正解が含まれている場合、文字認識と音声認識を独立に行うものと比較して、音声認識の性能も一般に向上させることができる。
次に、文字認識結果を発音列に変換し、これを音声認識結果情報出力部で利用する場合について説明する。図19は、第6の実施例における文字認識結果を発音列に変換して利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。
図19において、文字認識部901は文字認識部202と、また文字認識結果発音列変換部902は文字認識結果発音列変換部501と、さらに音声分析部903から音声認識用言語モデル906はそれぞれ音声分析部401、探索部402、音声認識用音響モデル404、音声認識用言語モデル405と、さらにまた静止画音声対応部908は静止画音声対応部205と同じであるため説明は省略する。尚、図19では、文字認識結果発音列変換部902の処理を行う際に必要な発音変換辞書502は省略している。
図19において、音声認識結果情報出力部907は、探索部903の結果に加えて、文字認識部901の文字認識結果を発音列に変換した結果も利用する。例えば、図15に示す例の場合、図15(b)に示される音声認識結果に対して、図15(a)の結果に含まれない「フル」、「ツユ」、「タル」、「ハク」、「アシ」、「マキ」、「マツ」の7種類の発音列は音声認識結果候補としない。この結果、これらの7種類の文字列に対しては、第4の実施例で説明した計算を行う必要がなくなる。
次に、文字認識結果から得られる発音列を音声認識の探索部1004で利用する場合について説明する。図20は、第6の実施例における文字認識結果を発音列に変換して探索部で利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。
図20において、文字認識部1001は文字認識部202と、また文字列認識結果発音列変換部1002は文字列認識結果発音列変換部501と、さらに音声分析部1003及び音声認識用音響モデル1005から音声認識結果情報出力部1007はそれぞれ音声分析部401及び音声認識用音響モデル404、音声認識用言語モデル405、音声認識結果情報出力部403と、さらにまた静止画音声対応部1008は静止画音声対応部205と同じであるため説明は省略する。尚、図20では、文字認識結果発音列変換部1002の処理を行う際に必要な発音変換辞書502は省略している。
図20において、探索部1004は、音声認識用音響モデル1005と音声認識用言語モデル1006の2つのモデルを用いて音声認識を行う際に、文字認識結果発音列変換部1002で文字認識結果を発音列に変換した結果も利用する。例えば、図15(a)に示された結果が文字認識の結果から得られる発音列であるとき、探索部1004は、これらの25種類の発音列のみを用いた探索処理を行う、すなわち、探索部1004は、音声認識用言語モデル1006に含まれる音声認識対象語として、これらの25種類のみを用いて音声認識を行う。
この結果、探索部1004の計算が大幅に低減され、文字認識の結果から得られる発音列候補に正解が含まれている場合、文字認識と音声認識を独立に行うものと比較して、音声認識の性能も一般に向上させることができる。
次に、文字認識結果から得られる文字列を音声認識結果から文字列に変換する際に利用する静止画音声対応処理について説明する。
図21は、第6の実施例における文字認識結果の文字列を音声認識結果を文字列に変換する際に利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。図21において、文字認識結果文字列抽出部1101は文字認識結果文字列抽出部601と、文字変換辞書1103から静止画音声対応情報出力部1105はそれぞれ文字変換辞書603から静止画音声対応情報出力部605と同じであるため説明は省略する。
図21において、1102は音声認識結果文字列変換部であり、音声認識結果を文字列に変換する際に、文字認識結果文字列抽出部1101による文字認識結果から抽出される文字列も利用する。例えば、図16(a)に示された結果が文字認識の結果から抽出される文字列であるとき、音声認識結果文字列変換部1102の音声認識結果を文字列に変換する際に、これらの16種類の文字列に変換しうる音声認識結果のみを文字列変換候補として選択する。
以上の説明から明らかなように、本実施例によれば、文字認識で得られる結果を音声認識において利用することで、計算量の低減や、音声認識性能を向上させることが可能となる。
前述した実施例における、文字認識の結果を音声認識の探索部で利用する処理は、文字認識の結果の文字列をそのまま用いることによって行われていたが、一般に文字認識の結果通りに音声が発声されるとは限らないため、文字認識の結果から音声として発声されると予想される重要語を抽出し、これを音声認識の探索部で利用することが好ましい。
図22は、第7の実施例における文字認識結果から重要語を抽出して探索部で利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。図22において、文字認識部1201は文字認識部202と、また音声分析部1203及び音声認識用音響モデル1205から音声認識結果情報出力部1207はそれぞれ音声分析部401及び音声認識用音響モデル404、音声認識用言語モデル405、音声認識結果情報出力部403と、さらに静止画音声対応部1208は静止画音声対応部205と同じであるため説明は省略する。
図22において、1202は重要語抽出部であり、文字認識の結果から重要語を抽出する。例えば、文字認識の結果が、「提案法は、統計的言語モデルを用いたアプローチです。」といった文字列であり、重要語の抽出方法が文字列を形態素解析し、この結果から自立語を抽出するものであるとすると、この結果から、「提案法」、「統計的」、「言語」、「モデル」、「アプローチ」の5単語が重要語として抽出される。
また、1204は探索部であり、音声認識用音響モデル1205と音声認識用言語モデル1206の2つのモデルを用いて音声認識を行う際に、重要語抽出部1202で抽出された単語を利用する。具体的には、上述した5単語をキーワードとしたキーワードスポッティングによる音声認識を行う、または、大語彙連続音声認識の場合には、音声認識結果からこれらの5単語が含まれる部分を抽出する、若しくは、上記5単語に関する音声認識用言語モデルの確率値を増加させて音声認識を行う。尚、重要語の抽出規則は、ここでは自立語の抽出としたが、これに限らず他の規則や手法を適用してもよい。また、1209は重要語を抽出ための規則やデータ(単語辞書)である。
以上の説明から明らかなように、本実施例によれば、文字認識の結果通りの音声でない場合においても、静止画像と音声の対応付けを好適行うことが可能となる。
一般に、静止画像に含まれる文字に関する情報は、単なる文字列のみではなく、フォントサイズ、文字種、色、斜体やアンダーライン等スタイルや文字飾りに関する情報も含まれているため、これらのフォント情報を抽出し、これを音声認識で利用することによって、より正確に静止画像と音声を対応付けることができる。
そこで、例えば、図23に示されるような静止画像からフォント情報を抽出し、これを音声認識で利用する実施例を考える。図23は、第8の実施例における種々のフォント情報をもった静止画像の例である。また、図24は、第8の実施例における文字領域からフォント情報を抽出して文字認識結果情報として出力する静止画像・音声認識装置のモジュール構成を示すブロック図である。
図24において、1301はフォント情報抽出部であり、文字領域に対して、フォントサイズ、文字種、色、斜体やアンダーラインの有無等のフォント情報を抽出する。また、他のモジュールは、図4に示す例と同じであるため省略する。
図25は、図23に示す静止画像からの文字認識結果と各文字領域のフォント情報を示す図である。次に、図25に示されるフォント情報を音声認識で利用する。尚、このときのモジュール構成は、図18に示す装置と同様である。但し、図18の文字認識部801は、図24に示した構成となる点で異なる。
ここで、フォント情報の音声認識での利用の仕方は様々であるが、例えば、フォントサイズが大きい文字列や斜体やアンダーラインが施されている文字列は、キーワードスポッティングの対象とする、又は統計的言語モデルの確率値を増加させて音声認識を行う。他にも、黒以外の色については、色の情報を音声認識の対象語彙に追加するといったことができる。
以上の説明から明らかなように、本実施例によれば、静止画像に含まれる文字領域のフォント情報を音声認識で利用することによって、より正確に静止画像と音声を対応付けることが可能となる。
上述した第6の実施例では、文字認識の結果を音声認識で利用する場合について説明したが、これとは逆に、音声認識の結果を文字認識で利用することもできる。この際、以下に説明するように様々な利用の仕方が考えられる。
まず、音声認識結果を文字認識結果情報出力部で利用する場合について説明する。図26は、第9の実施例における文字認識結果情報出力部の細部モジュール構成を示すブロック図である。図26において、音声認識部1401は音声認識部204と、また前処理部1402から文字認識用言語モデル1406はそれぞれ前処理部301、特徴抽出部302、識別部303、文字認識用テンプレート305、文字認識用言語モデル306と、さらに静止画音声対応部1408は静止画音声対応部205と同じであるため説明は省略する。
1407は文字認識結果情報出力部であり、識別部1404の識別結果に加えて、音声認識部1401の音声認識で得られる結果も利用する。例えば、図14の場合、図14(a)に示される文字認識結果に対して、図14(b)の結果に含まれない「香」、「空」、「科」、「和」、「新」、「厚」、「各」、「尽」の8種類の文字列は文字認識結果候補としない。この結果、これらの8種類の文字列に対しては、第4の実施例で説明した計算を行う必要がなくなる。
次に、音声認識結果を文字認識の識別部で利用する場合について説明する。図27は、第9の実施例における静止画像・音声認識装置のモジュール構成を示すブロック図である。図27において、音声認識部1501は音声認識部204と、また前処理部1502、特徴抽出部1503及び文字認識用テンプレート1505から文字認識結果情報出力部1507はそれぞれ前処理部301、特徴抽出部302及び文字認識用テンプレート305、文字認識用言語モデル306、文字認識結果情報出力部304と、さらに静止画音声対応部1508は静止画音声対応部205と同じであるため説明は省略する。
識別部1504は、文字認識用テンプレート1505と文字認識用言語モデル1506の2つのモデルを用いて文字認識を行う際に、音声認識部1501の音声認識で得られる結果を利用する。例えば、図14(b)に示された結果が音声認識の結果として得られた場合、識別部1504は、これらの16種類の文字列のみを用いた識別処理を行う。すなわち、識別部1504に含まれる文字認識対象語としてこれらの16種類のみを用いて文字認識を行う。この結果、識別部の計算が大幅に低減され、音声認識の結果候補に正解が含まれている場合、文字認識と音声認識を独立に行うものと比較して、文字認識の性能も一般に向上させることができる。
次に、音声認識結果を文字列に変換し、これを文字認識結果情報出力部で利用する場合について説明する。図28は、第9の実施例における音声認識結果を文字列に変換して利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。図28において、音声認識部1601は音声認識部204と、また音声認識結果文字列変換部1602は音声認識結果文字列変換部602と、さらに前処理部1603から文字認識用言語モデル1607はそれぞれ図4に示す前処理部301、特徴抽出部302、識別部303、文字認識用テンプレート305、文字認識用言語モデル306と、さらにまた静止画音声対応部1609は図3に示す静止画音声対応部205と同じであるため説明は省略する。尚、図28では、音声認識結果文字列変換部1602の処理を行う際に必要な文字変換辞書602は省略している。
図28において、1608は文字認識結果情報出力部であり、識別部1605の識別結果に加えて、音声認識部1602の音声認識結果を文字列に変換した結果も利用する。例えば、図16に示す例の場合、図16(a)に示される文字認識結果に対して、図16(b)の結果に含まれない「香」、「科」、「和」、「真」、「厚」、「各」、「尽」の7種類の文字列は文字認識結果候補としない。この結果、これらの7種類の文字列に対しては、第4の実施例で説明した計算を行う必要がなくなる。
次に、音声認識結果から得られる文字列を文字認識の識別部で利用する場合について説明する。図29は、第9の実施例における音声認識結果から得られる文字列を文字認識で利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。図29において、音声認識部1701は図3に示す音声認識部204と、また音声認識結果文字列変換部1702は図12に示す音声認識結果文字列変換部602と、さらに前処理部1703、特徴抽出部1704及び文字認識用モデル1706から文字認識結果情報出力部1708はそれぞれ図4に示す前処理部301、特徴抽出部302及び文字認識用テンプレート305、文字認識用言語モデル306、文字認識結果情報出力部304と、さらにまた静止画音声対応部1709は図3に示す静止画音声対応部205と同じであるため説明は省略する。尚、図29では、音声認識結果文字列変換部1702の処理を行う際に必要な図12に示す文字変換辞書603は省略している。
識別部1705は、文字認識用モデル1706と文字認識用言語モデル1707の2つのモデルを用いて文字認識を行う際に、音声認識結果文字列変換部1702の音声認識結果を文字列に変換した結果も利用する。例えば、図16(b)に示された結果が音声認識の結果から得られる文字列であるとき、識別部1705は、これらの32種類の文字列のみを用いた識別処理を行う。すなわち、識別部1705は、文字認識用モデル1706や文字認識用言語モデル1707に含まれる文字認識対象語としてこれらの32種類のみを用いて文字認識を行う。
この結果、識別部の計算が大幅に低減され、音声認識の結果から得られる文字列候補に正解が含まれている場合、文字認識と音声認識を独立に行うものと比較して、文字認識の性能も一般に向上させることができる。
次に、音声認識結果から得られる発音列を文字認識結果の発音列の変換で利用する際の静止画音声対応手段について説明する。図30は、第9の実施例における音声認識結果から得られる発音列を文字認識結果の発音列の変換に利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。図30において、音声認識結果発音列抽出部1801は図10に示す音声認識結果発音列抽出部503と、発音変換辞書1803から静止画音声対応情報出力部1805はそれぞれ発音変換辞書502、発音列マッチング部504、静止画音声対応情報出力部505と同じであるため説明は省略する。
図30において、1802は文字認識結果発音列変換部であり、文字認識結果を発音列に変換する際に、音声認識結果発音列抽出部1801の音声認識結果から抽出される発音列も利用する。例えば、図15(b)に示された結果が音声認識の結果から抽出される発音列であるとき、文字認識結果発音列変換部1802の文字認識結果を発音列に変換する際に、これらの16種類の発音列に変換しうる文字認識結果のみを発音列変換候補として選択する。
以上の説明から明らかなように、本実施例によれば、音声認識で得られる結果を文字認識において利用することで、計算量の低減や、文字認識性能を向上させることが可能となる。
前述した実施例で示した図2(a)や図23に示す静止画像の例は、非常に単純なものであったが、本発明をより複雑な静止画像に対して音声との対応付けを行うためには、静止画像から単純に文字領域を見つけるだけでなく、静止画像の構造を正確に捉える必要がある。すなわち、まず大局的に静止画像を複数の領域に分割し、次に個々の分割静止画像領域に対して文字領域を抽出し、文字認識を行う。
図31は、より複雑な静止画像(a)とそれに関連付けられた音声(b)の一例を示す図である。また、図32は、図31に示すような複雑な静止画像を分割する機能を有する静止画像・音声認識装置のモジュール構成を示すブロック図である。また、図62は、第10の実施例に係る静止画像・音声認識装置の処理動作を説明するためのフローチャートである。
図32に示すように、静止画像分割部1901は、1つの静止画像を複数の静止画像領域に分割する(ステップS11)。尚、この分割方法としては、既存の技術を利用すればよい。また、文字検出部1902から静止画音声対応部1906は、図3に示す文字検出部201から静止画音声対応部205と同様であるため説明は省略する。但し、図3の文字検出部201は静止画像全体が入力であったが、本実施例では静画像分割部1901で分割された個々の静止画像が入力となる点で異なる。
図33は、図31(a)の静止画像を静止画像分割部1901によって5つの領域に分割された結果を示す図である。また、図34は、図33に示す各分割領域に対して領域IDを付与して図32(a)の座標系における座標情報を表した図である。尚、図35は、図34と図32(a)の対応関係について示す図である。
次に、各分割画像に対して文字検出部1902によって文字領域の検出処理を施す(ステップS12)。図36は、文字検出部1902による文字領域の検出結果例を示す図である。さらに、図36に示す文字領域に対して文字認識部1903による文字認識を行うとともに(ステップS13)、図31(b)の音声に対して音声検出部1904による音声検出(ステップS14)及び音声認識部1905による音声認識を行う(ステップS15)。尚、ステップS11〜S13の文字認識、ステップS14〜S15の音声認識は、両認識処理を同時にしてもよく、どちらの処理を先にしてもよい。
図37は、文字認識及び音声認識の結果得られる文字認識結果情報(a)及び音声認識結果情報を(b)示す図である。尚、文字認識結果情報の座標情報は、図38に示すような矩形領域として2点の座標で表している。すなわち、図38は、図36に示す文字領域の検出結果に文字認識結果情報を対応させた結果を示す図である。そして、静止画音声対応部1906で、前述した実施例と同様の方法によって、図37(a)の文字認識結果と図37(b)の音声認識結果を対応付け、静止画音声対応情報を得る(ステップS16)。
以上の説明から明らかなように、本実施例によれば、静止画像領域を大局的に分割することにより、複雑な静止画像に対しても文字領域と音声との対応付けを行うことが可能となる。
前述した実施例で示した図2(b)や図31(b)の音声の例は、各発声区間の間には十分な無音区間が含まれ、また、発声される内容は静止画像の文字領域のいずれかと全く同じであるという非常に単純なものであった。しかしながら、実際の音声は、文字領域の内容と同じ発声をするとは限らず、さらに、ある文字領域の内容に関する発声は全くされていなかったり、どの文字領域とも関係のない発声が含まれていたりする場合がある。また、複数の文字領域に関する音声が十分な無音区間なしに連続的に発声される場合や、雑音や音楽といった音声以外のものも含まれている場合もある。よって、本発明をより一般的な音声であっても静止画像との対応付けが行えるようにするためには、音声区間の正確な抽出、音声認識結果と文字認識結果の柔軟なマッチングを行う必要がある。
そこで、音声区間の正確な抽出に関しては、まず、雑音や音楽といった音声以外のものが入力音声に含まれている場合の対処について説明する。このような音声が入力される場合には、最初に音声を複数のセグメントに大局的に分割し、次に個々の音声セグメントに対して、音声/非音声の判定や音声区間の検出を行うことが望ましい。
図40は、第11の実施例に係る静止画像・音声認識装置のモジュール構成を示すブロック図である。図40において、文字検出部2001、文字認識部2002及び音声認識部2005、静止画音声対応部2006は、それぞれ図3に示す文字検出部201、文字認識部202、音声認識部204、静止画音声対応部205と同じであるため説明は省略する。
図40において、2003は音声分割部であり、音声を大局的に捉え、複数のセグメントに分割する。具体的には、音声信号をフレーム処理し、スペクトル情報を求め、複数フレーム間のスペクトルの類似性から着目しているフレームをセグメント境界とするか否かを判定する等の方法によって分割することができる。
次に、音声検出部2004では、音声分割部2003で分割された各セグメントに音声が含まれるか否かを判定し、音声が含まれる場合には音声区間を検出する。具体的には、音声及び非音声のそれぞれに対して事前にGMM(Gaussian Mixture Model)を作成し、入力音声をフレーム処理することによって得られるスペクトル情報とこれらのGMMを用いて、当該セグメントに音声が含まれるか否かを判定する。そして、音声が含まれていないと判定された場合は音声認識の対象とせず、音声が含まれていると判定された場合は、2004における次の処理として音声区間を検出し、検出された音声区間を2005の音声認識部に入力する。
ここで、セグメント数は、セグメント間又はセグメント境界における音声スペクトルに関する尤度基準を用いて音声から決定する方法が考えられるが、これに限らず、静止画像分割、文字領域、文字認識結果によって得られる情報を用いて決定することもできる。具体的には、静止画像分割および文字領域の情報としては、分割数又は領域数に応じてセグメント数を変更する。文字認識結果の情報としては、文字認識結果全体の確からしさが高い場合にはセグメント数を増やすといった方法である。
次に、文字領域の内容と同じ発声がされていない場合、一部の文字領域の内容に関する発声は全くされていない場合、どの文字領域とも関係のない発声が含まれていたりする場合、複数の文字領域に関する音声が十分な無音区間なしに連続的に発声される場合について説明する。
図39は、図31(a)に示す静止画像に関連する音声を説明するための図である。この例では、図36の文字領域の内容と同じ発声がなされておらず、また、図39の3番目の音声区間である「これまでの研究では、...」の部分は静止画像のどの文字領域とも関係のない発声であるとする。さらに、図39に示されるように、2番目から4番目の音声には十分な無音区間が存在しないものとする。
図39に示すような発声に対しては、音声分割部2003又は音声検出部2004が、正確に静止画像の文字領域に対応した音声分割又は音声区間を検出することは困難である。そこで、音声検出部2004で検出された音声区間に対して音声認識部2005で音声認識を行い、音声認識の結果から音声検出部2004で決定された音声区間を必要に応じてさらに分割するようにする。
具体的には、無音区間が十分に存在しない音声に対しては、音声認識部2005による音声認識として大語彙連続音声認識に基づく方法を用いれば、句点を推定することによって文の区切りが分かるため、図41に示すように、この情報を用いて音声区間を分割することができる。ここで、図41は、図31の例に対する文字認識結果情報と音声認識結果情報の一例を示す図である。また、文字領域の内容に関する発声がない場合、又はどの文字領域とも関係のない発声がなされている音声に対しては、音声認識結果と文字認識の結果をそれぞれ部分マッチングすることによって対応付けを行うことが可能である。
また、第7の実施例で説明したように、文字認識の結果から重要語を検出すれば、この重要語をキーワードとしたワードスポッティングに基づく方法を音声認識部2005による音声認識とすれば、より直接的に文字認識の結果と音声認識の結果を対応付けることが可能となる。図42は、重要語抽出によるワードスポッティングを用いた場合の音声認識結果情報の一例を示す図である。図42に示す例では、文字認識結果から重要語として抽出された「音声認識」、「文字認識」、「統計的言語モデル」、「目的」等の言葉を音声認識のワードスポッティングとしている。なお、図42における「*」は、これらのキーワード以外の音声区間を表し、また、「NO_RESUTLS」は、この音声区間に対してはどのキーワードもマッチングしなかったことを表している。このワードスポッティング結果と文字認識結果から得られる重要語をマッチングさせることによって、文字領域と音声の対応付けを行うことができる。
以上の説明から明らかなように、本実施例によれば、音声に雑音や音楽といった音声以外のものが含まれている場合や、無音区間が十分に存在しない場合、文字領域の内容に関する発声がない場合、どの文字領域とも関係のない発声がなされている場合の音声であっても文字領域と音声との対応付けを行うことが可能となる。
上記第10の実施例では、複雑な静止画像に対しても文字領域と音声との対応付けを行えるようにするために、静止画像領域を大局的に分割する方法について説明した。本実施例では、この静止画像分割処理を分割数の異なる分割静止画像を階層的な構造として得ることによって、より柔軟な対応付けを行うことができることを説明する。
図43は、図33で示した静止画像の分割をさらに行った場合の分割結果(a)(一点破線)、(a)をさらに分割した場合の結果(b)(二点破線)を示す図である。尚、分割数の増減は、分割するか否かの基準(例えば、尤度基準に対する閾値)を変化させることによって制御することができる。ここで、図43(a)は図33の結果を元に分割されており、また、図43(b)は図43(a)の結果を元に分割されているため、分割は階層的に行われている。
図44は、階層的な静止画像の分割を木構造で表現した例を示す図である。図44において、黒丸はルートノードであって静止画像全体を表している。また、I1〜I5の5個のノードは、図33の分割領域に対する静止画像であり、I1は、図33の分割領域の「音声認識・文字認識のための統計的言語モデルの利用」を含む画像領域、I2は、「目的」、「音声認識性能の向上」、「文字認識性能の向上」を含む画像領域、I3は、「提案法」、「統計的言語モデルの利用」、「単語間、文字間の...可能となる」を含む画像領域、I4は、「実験結果」、「認識率」、「音声認識」、「文字認識」を含む画像領域、I5は、「結論」、「統計的言語モデルは、...分かった。」を含む画像領域である。
また、次の階層のI21〜I52の11個のノードは、図43(a)の分割領域に対する静止画像であり、I21は、「目的」を含む画像領域、I22は、「音声認識性能の向上」及び「文字認識性能の向上」を含む画像領域、I31は、「提案法」を含む画像領域、I32は、「統計的言語モデルの利用」を含む画像領域、I33は、下矢印記号を含む画像領域である。尚、図43(a)の分割時にはI1の画像領域分割が施されていないため、I1のノード分割はない。
同様に、最下階層のI221〜I432の4個のノードは、図43(b)の分割領域に対する静止画像であり、I221は、「音声認識性能の向上」を含む画像領域、I222は、「文字認識性能の向上」を含む画像領域、I431は、「音声認識」を含む画像領域、I432は、「文字認識」を含む画像領域である。
本実施例では、音声のセグメント分割又は音声区間検出は必ずしも階層的に行う必要はないが、ここでは階層的に行った場合の例を示す。図45は、階層的に音声分割を行った場合の例を示す図である。また、図46は、図45で階層的に分割された音声を木構造で表現した例である。
次に、前述した実施例で説明したいずれかの方法によって、図44に示す各ノードに対応する画像領域から文字領域を抽出し、文字認識を施すことによって、文字認識結果情報を得ることができる。同様に、前述した実施例で説明したいずれかの方法によって、図46に示す各ノードに対応する音声セグメントから音声区間を検出し、音声認識を施すことによって、音声認識結果情報を得ることができる。
そして、これらの文字認識結果情報に音声認識結果情報を対応付ける。対応付けの方法は、前述した実施例で説明したいずれの方法を用いればよい。また、木構造の特徴を生かした対応付けの方法として、静止画像の上位ノードから下位ノードの順に対応付けを行い、その際に、上位ノードの対応付けの結果を下位ノードの対応付けにおいて制約として利用することができる。例えば、下位ノードの音声を対応付ける際に、上位ノードで対応付けられた音声区間に含まれる音声を優先的にもしくは限定的に選択する。他にも、上位ノードほど時間的に長い音声区間を優先的に選択し、下位ノードほど時間的に短い音声区間を優先的に選択する等の方法を用いることができる。
図47は、静止画像の木構造ノードに複数候補の分割音声を対応付けた結果の一例を示す図である。図47において、「NULL」は音声区間の候補がなかった場合を示しており、特にI33に対しては、どの音声区間にも対応付けられなかったことを表している。図48は、図31の例に対する静止画像と音声の対応結果を用いたアプリケーションの一例を示す図である。図48に示す例では、静止画像の文字の場所にマウスカーソル(矢印マーク)を持っていくと、この文字に対応した音声データが再生され、スピーカー等の音声出力装置から出力される。
また、図48とは逆に、音声を先頭から、或いはマウス等で任意の時間を指定することによって音声を再生し、再生されている音声区間に対応する静止画像に枠を付与して表示することも可能である。図61は、図43に示す静止画像と音声との対応結果を用いた別のアプリケーションに基づく表示例を示す図である。この例では、利用者が「そこで、本研究では、統計的...」と音声認識された音声区間(s4からe4)にマウスカーソル(矢印マーク)を持っていくと、この音声区間に対応した文字領域の座標に文字領域分の外枠が生成・表示される。この結果、出力されている音声が静止画像のどの部分に対応しているかを理解することができる。
本実施例で説明した静止画像を木構造表現すること、また、複数候補の音声を対応付けることは、静止画像と音声の対応付けに誤りを含む場合に特に有効である。図49は、静止画像の木構造の結果及び複数候補音声を利用する際のユーザインタフェースの一例を示す図ある。図49では、上位候補の音声出力に左矢印キー「←」を、下位候補の音声出力に右矢印キー「→」を、静止画像の親ノードへ移動して1位候補の音声出力をするために上矢印キー「↑」を、静止画像の子ノードへ移動して1位候補の音声出力をするために下矢印キー「↓」をそれぞれ割り当てている。そして、利用者がマウス等によって所望の画像領域を選択(クリック等)すると、選択領域に含まれる画像領域の最下位ノードに対応する文字領域を枠で囲み画面上に表示し、さらに1位候補の音声を出力する。この際、音声又は画像領域が所望のものでない場合には、これら4つのキーのみを用いて他を選択する簡単な操作によって、他の候補を効率よく探すことが可能となる。
前述した実施例では、文字認識の結果又はこれから抽出された重要語と音声認識の結果をマッチングしていたため、文字認識から得られる文字列と音声認識結果から得られる文字列が少なくとも部分的には同じである必要があった。すなわち、例えば、「題目」という文字認識結果に対して「タイトル」という発声がなされたり、「夏」に対して「暑い」という発声がなされた場合には対応付けを行うことはできない。そこで、本実施例は、このような場合においても静止画像と音声を対応付けることが可能となる方法を提供する。
図50は、第13の実施例における静止画像と音声の例を示す図である。図50より明らかなように、静止画像に含まれる「春」、「夏」、「秋」、「冬」という単語列は、音声の中に一切含まれていない。この場合、文字認識の結果と、音声認識の結果をそれぞれ抽象化、すなわち概念に変換し、それぞれの概念レベルでマッチングを行うことによって図50のような場合であっても静止画像と音声を対応付けることが可能となる。
図51は、第13の実施例における文字概念変換機能及び音声概念変換機能を有する静止画像・音声認識装置のモジュール構成を示すブロック図である。図51において、文字検出部2101、文字認識部2102、音声検出部2104、音声認識部2105は、それぞれ図3に示す静止画像・音声認識装置のモジュールと同様であるため説明は省略する。図51において、2103は文字概念変換部であり、文字認識部2102で得られる文字認識の結果を予め定められた概念に抽象化する。
また、2016は音声概念変換部であり、音声認識部2105で得られる音声認識の結果を予め定められた概念に抽象化する。2107は概念対応部であり、文字概念変換部2103と音声概念変換部2106で得られる結果に対して概念レベルでマッチングを行う。静止画音声対応部2108は、概念対応部2107で対応付けられた概念に対して静止画像と音声を対応付ける。
例えば、$SPRING、$SUMMER、$AUTUMN、$WINTERという4つの概念が定義されており、各概念に含まれる文字列として、S$SPRING={春、spring、桜、入学式、...}、$SUMMER={夏、summer、hot、暑、...}、$AUTUMN={秋、autumn、fall、紅葉、...}、$WINTER={冬、winter、cold、寒、...}が定義されているとする。図52は、文字概念変換結果と静止画像の座標情報、及び音声概念変換結果と音声の時間情報の一例を示す図である。そこで、図50における静止画像及び音声に対して、図52に示すような関係があるとする。尚、この例の場合は、音声認識として英語が認識できるものを用いているとする。
そこで、この結果を概念対応部2107で対応付けることによって、$SPRING同士、$SUMMER同士等がそれぞれ対応付けられ、静止画音声対応部2108では、「春」の画像領域に対して「入学式の...」の音声が、「夏」の画像領域に対して「暑くなって...」の音声が、「秋」の画像領域に対して「紅葉狩りに...」の音声が、「冬」の画像領域に対して「Winter is a...」の音声がそれぞれ対応付けられる。
以上の説明から明らかなように、本実施例によれば、文字列ではなく概念レベルでマッチングを行うことによって、文字認識から得られる文字列と音声認識結果から得られる文字列が全く一致しない場合であっても文字領域と音声との対応付けを好適に行うことが可能となる。
前述した実施例では、静止画像の文字領域の部分に対してのみ音声と対応付けることが可能であり、静止画像中の文字以外の、例えば円や三角形等の図形や、人、車等のオブジェクトに対しては音声を対応付けることはできなかった。そこで、本実施例では、このような場合においても静止画像と音声を対応付けることが可能な方法を提供する。
図53は、第14の実施例において用いる静止画像とそれに対応付けられる音声の例を示す図である。図53より明らかなように、静止画像には文字列が一切含まれていない。この場合、前述した実施例における文字認識の代わりに、オブジェクト認識を行い、その認識結果と音声認識の結果をマッチングすることによって図53のような場合であっても静止画像と音声を対応付けることが可能となる。
図54は、本発明の第14の実施例に係るオブジェクト認識処理機能を有する静止画像・音声処理装置のモジュール構成を示すブロック図である。図54において、音声検出部2203及び音声認識部2204は、図3に示すそれぞれのモジュールと同様であるため説明は省略する。図54において、2201はオブジェクト検出部であり、静止画像からオブジェクト領域を抽出する。また、2202はオブジェクト認識部であり、オブジェクト検出部2201で抽出されたオブジェクトを認識する。尚、オブジェクト検出処理及びオブジェクト認識処理については、既存の技術を用いることができる。
本実施例では、例えば、円、三角形、長方形、正方形等の図形の形状、棒グラフ、折れ線グラフ、円グラフ等のグラフの形状、およびそれぞれの形状に対する代表的な色の抽出が可能なオブジェクト検出処理及びオブジェクト認識処理が実施できるとする。この場合、図54(a)の静止画像に対して、図55(a)に示されるようなオブジェクト認識結果情報が得られる。
図55は、オブジェクト認識結果情報の例(a)とオブジェクト認識結果情報から得られる画像領域の例(b)を示す図である。 図55に示すように、オブジェクト認識結果として得られる「長方形」、「黒」、「正方形」、「白」といったオブジェクトの形状や色を表す言葉を文字列とし、この文字列と音声認識結果を2205で比較することによって、静止画像と音声を対応付けることができる。この結果、図55(b)で示されるように、静止画像のオブジェクトと音声が対応付けられる。
以上の説明から明らかなように、本実施例によれば、オブジェクトを検出・認識する機能を備えることによって、静止画像に文字列が含まれない場合であっても音声との対応付けを好適に行うことが可能となる。
前述した実施例では、静止画像と音声を対応付ける場合に、音声は音声認識を行っていたが、静止画像に人物が含まれ、この人物もしくは人物のクラスが特定でき、さらに、音声は、静止画像の人物もしくは人物クラスに関連している場合には、音声認識を行う代わりに、話者もしくは話者クラスの識別を行うことによって、静止画像と音声を対応付けることが可能となる。
図56は、第15の実施例において用いる静止画像とそれに対応付けられる音声の例を示す図である。図56より明らかなように、静止画像には文字列が一切含まれていない。また、音声は、高齢者・男性音声で「戦争の頃は...」、成人・男性音声で「僕は来年受験が...」、子供・女性音声で「今日の給食は...」、成人・女性音声で「今夜のドラマは...」という発声がなされているものとする。
図57は、本発明の第15の実施例に係る人物認識機能及び話者認識機能を有する静止画像・音声認識装置のモジュール構成を示すブロック図である。図57において、2301は人物検出部であり、静止画像から人物に関する画像領域を検出する。2302は人物認識部であり、人物検出部2301で検出された画像領域に対して、人物又は人物クラスの認識を行う。2303は音声検出部であり、音声区間の検出を行う。2304は話者認識部であり、音声検出部2303で検出された音声区間に対して、話者又は話者クラスの認識を行う。
いま、人物認識部2302が、男性/女性の性別、及び子供/成人/高齢者の年代からなる人物クラスが認識できるとし、話者認識部2304も同様に男性/女性の性別、及び子供/成人/高齢者の年代からなる話者クラスが認識できるものとする。図58は、第15の実施例における人物認識結果情報及び話者認識結果情報の一例を示す図である。ここで、静止画音声対応部2305は、人物クラスと話者クラスのマッチングをとることによって、図59に示すように静止画像と音声の対応付けをすることができる。すなわち、図59は、人物認識結果情報から得られる画像領域を示す図である。
以上の説明から明らかなように、本実施例によれば、人物又は人物クラスを検出・認識する機能と話者又は話者クラスを認識する機能を備えることによって、静止画像に文字列が含まれない場合に、音声認識を行うことなく音声との対応付けを行うことが可能となる。
前述した実施例では、静止画像と音声がそれぞれ1つずつ存在する場合の対応方法について説明したが、本発明の適用はこれだけに限られることなく、例えば静止画像2つと音声3つを対応付ける等、任意の数の静止画像と音声を対応付けるようにしてもよい。
尚、上述した第1〜第15の実施例では静止画像を対象として説明したが、動画像が例えば複数のカテゴリ等に分割されており、各カテゴリの代表的なフレーム(静止画像)に対して本発明を適用することで、所望の動画像を検索することも可能である。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
本発明の第1の実施例に係る画像データと音声データの部分データ同士を対応付ける静止画像・音声処理装置の構成を示すブロック図である。 第1の実施例で互いに部分データの対応付け処理の対象となる静止画像(a)と当該静止画像に関連する音声(b)の一例について示す図である。 本発明の第1の実施例において静止画像と音声を入力して静止画像と音声との対応関係(画像音声対応情報)を求める際のモジュール構成を示すブロック図である。 第1の実施例における文字認識部202の細部モジュール構成を示すブロック図である。 第1の実施例における音声認識部204の細部モジュール構成を示すブロック図である。 図7に示す文字認識結果情報と音声認識結果情報の例を示す図である。 図2に示す静止画像と音声の例に対する文字認識結果情報と音声認識結果情報を対応させた結果を示す図である。 第1の実施例における静止画像と音声との対応付けの一例を示す図である。 静止画像と音声との対応結果を用いたアプリケーションの例である。 本発明の第2の実施例における発音列マッチングによる静止画音声対応部205の細部モジュール構成を示すブロック図である。 第2の実施例における文字認識結果と音声認識結果に対する発音列の例を示す図である。 本発明の第3の実施例における文字列マッチングを行う静止画音声対応部205の細部モジュール構成を示すブロック図である。 第3の実施例における文字認識結果と音声認識結果に対する文字列の例である。 第4の実施例における文字認識結果(a)と音声認識結果(b)のスコア情報(尤度や確率等で表された認識結果)を保持した複数候補の例を示す図である。 第4の実施例における文字認識結果を発音列に変換した結果(a)と音声認識結果から得られる発音列(b)のスコア情報を保持した複数候補の例を示す図である。 第4の実施例における文字認識結果から得られる文字列(a)と音声認識結果を文字列に変換した結果(b)のスコア情報を保持した複数候補の例を示す図である。 本発明の第6の実施例における静止画像・音声認識装置のモジュール構成を示すブロック図である。 本発明の第6の実施例における文字認識結果を音声認識に利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。 第6の実施例における文字認識結果を発音列に変換して利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。 第6の実施例における文字認識結果を発音列に変換して探索部で利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。 第6の実施例における文字認識結果の文字列を音声認識結果を文字列に変換する際に利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。 第7の実施例における文字認識結果から重要語を抽出して探索部で利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。 第8の実施例における種々のフォント情報をもった静止画像の例である。 第8の実施例における文字領域からフォント情報を抽出して文字認識結果情報として出力する静止画像・音声認識装置のモジュール構成を示すブロック図である。 図23に示す静止画像からの文字認識結果と各文字領域のフォント情報を示す図である。 第9の実施例における文字認識結果情報出力部の細部モジュール構成を示すブロック図である。 第9の実施例における静止画像・音声認識装置のモジュール構成を示すブロック図である。 第9の実施例における音声認識結果を文字列に変換して利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。 第9の実施例における音声認識結果から得られる文字列を文字認識で利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。 第9の実施例における音声認識結果から得られる発音列を文字認識結果の発音列の変換に利用する静止画像・音声認識装置のモジュール構成を示すブロック図である。 より複雑な静止画像(a)とそれに関連付けられた音声(b)の一例を示す図である。 図31に示すような複雑な静止画像を分割する機能を有する静止画像・音声認識装置のモジュール構成を示すブロック図である。 図31(a)の静止画像を静止画像分割部1901によって5つの領域に分割された結果を示す図である。 図33に示す各分割領域に対して領域IDを付与して図32(a)の座標系における座標情報を表した図である。 図34と図32(a)の対応関係について示す図である。 文字検出部1902による文字領域の検出結果例を示す図である。 文字認識及び音声認識の結果得られる文字認識結果情報(a)及び音声認識結果情報を(b)示す図である。 図36に示す文字領域の検出結果に文字認識結果情報を対応させた結果を示す図である。 図31(a)に示す静止画像に関連する音声を説明するための図である。 第11の実施例に係る静止画像・音声認識装置のモジュール構成を示すブロック図である。 図31の例に対する文字認識結果情報と音声認識結果情報の一例を示す図である。 重要語抽出によるワードスポッティングを用いた場合の音声認識結果情報の一例を示す図である。 図33で示した静止画像の分割をさらに行った場合の分割結果(a)(一点破線)、(a)をさらに分割した場合の結果(b)(二点破線)を示す図である。 階層的な静止画像の分割を木構造で表現した例を示す図である。 階層的に音声分割を行った場合の例を示す図である。 図45で階層的に分割された音声を木構造で表現した例である。 静止画像の木構造ノードに複数候補の分割音声を対応付けた結果の一例を示す図である。 図31の例に対する静止画像と音声の対応結果を用いたアプリケーションの一例を示す図である。 静止画像の木構造の結果及び複数候補音声を利用する際のユーザインタフェースの一例を示す図ある。 第13の実施例における静止画像と音声の例を示す図である。 第13の実施例における文字概念変換機能及び音声概念変換機能を有する静止画像・音声認識装置のモジュール構成を示すブロック図である。 文字概念変換結果と静止画像の座標情報、及び音声概念変換結果と音声の時間情報の一例を示す図である。 第14の実施例において用いる静止画像とそれに対応付けられる音声の例を示す図である。 本発明の第14の実施例に係るオブジェクト認識処理機能を有する静止画像・音声処理装置のモジュール構成を示すブロック図である。 オブジェクト認識結果情報の例(a)とオブジェクト認識結果情報から得られる画像領域の例(b)を示す図である。 第15の実施例において用いる静止画像とそれに対応付けられる音声の例を示す図である。 本発明の第15の実施例に係る人物認識機能及び話者認識機能を有する静止画像・音声認識装置のモジュール構成を示すブロック図である。 第15の実施例における人物認識結果情報及び話者認識結果情報の一例を示す図である。 人物認識結果情報から得られる画像領域を示す図である。 図2に示す静止画像と音声との対応結果を用いた別のアプリケーションに基づく表示例を示す図である。 図43に示す静止画像と音声との対応結果を用いた別のアプリケーションに基づく表示例を示す図である。 第10の実施例に係る静止画像・音声認識装置の処理動作を説明するためのフローチャートである。
符号の説明
201 文字検出部
202 文字認識部
203 音声検出部
204 音声認識部
205 静止画音声対応部
301 前処理部
302 特徴抽出部
303 識別部
304 文字認識結果情報出力部
305 文字認識用テンプレート
306 文字認識用言語モデル
401 音声分析部
402 探索部
403 音声認識結果情報出力部
404 音声認識用音響モデル
405 音声認識用言語モデル

Claims (25)

  1. 画像データと音声データを対応付ける情報処理方法であって、
    文字を含む前記画像データから文字領域を検出する検出工程と、
    検出された前記文字領域に含まれる文字情報を認識して複数の文字情報を取得する第1の認識工程と、
    前記音声データ中の複数の音声区間のそれぞれに対応する音声認識結果を取得する第2の認識工程と、
    前記第1の認識工程により取得された前記複数の文字情報と前記第2の認識工程により取得された前記複数の音声認識結果とをそれぞれ照合することによって該文字情報と該音声認識結果を対応付ける対応付け工程と
    を有することを特徴とする情報処理方法。
  2. 前記対応付け工程は、前記複数の文字情報と前記複数の音声認識結果の対応付けに基づいて、該文字情報に対応する前記文字領域と該音声認識結果、該文字情報と該音声認識結果に対応する音声区間、又は該文字情報に対応する前記文字領域と該音声認識結果に対応する音声区間のいずれかを対応付けることを特徴とする請求項1記載の情報処理方法。
  3. 前記文字情報を発音列に変換する発音列変換工程をさらに有し、
    前記対応付け工程は、前記文字情報に基づく発音列と前記音声認識結果の発音列との照合結果に基づいて前記文字情報と前記音声認識結果を対応付ける
    ことを特徴とする請求項に記載の情報処理方法。
  4. 前記音声認識結果を文字列に変換する文字列変換工程をさらに有し、
    前記対応付け工程は、前記文字情報の文字列と前記音声認識結果に基づく文字列との照合結果に基づいて前記文字情報と前記音声認識結果を対応付ける
    ことを特徴とする請求項に記載の情報処理方法。
  5. 前記文字情報を発音列に変換する発音列変換工程と、
    前記音声認識結果を文字列に変換する文字列変換工程をさらに有し、
    前記対応付け工程は、前記文字情報に基づく発音列と前記音声認識結果の発音列との照合結果と、前記文字情報の文字列と前記音声認識結果に基づく文字列との照合結果とに基づいて、前記文字情報と前記音声認識結果を対応付ける
    ことを特徴とする請求項に記載の情報処理方法。
  6. 前記第1の認識工程が、前記複数の文字情報のそれぞれについて、候補と該候補の度合いを取得し、
    前記第2の認識工程が、前記複数の音声認識結果のそれぞれについて、候補と該候補の度合い取得し、
    前記文字情報の候補の度合いと前記音声認識結果の候補の度合いとに基づいて、それぞれの候補間の関連の度合いを算出する算出工程とをさらに有し、
    前記対応付け工程が、前記関連の度合いの高さに応じて、前記文字情報の候補と前記音声認識結果の候補とを対応付ける
    ことを特徴とする請求項に記載の情報処理方法。
  7. 前記候補の度合いは、前記候補の認識確率又は認識尤度であることを特徴とする請求項に記載の情報処理方法。
  8. 前記算出工程が、前記文字情報の候補又は前記音声認識結果の候補に重み付けを付与して前記候補間の関連の度合いを算出することを特徴とする請求項に記載の情報処理方法。
  9. 前記第2の認識工程は、前記音声データ中の複数の音声区間それぞれに対応する音声認識結果を文字列に変換し、該音声認識結果の文字列中の前記第1の認識工程で取得した文字情報に含まれない文字列を除外したものを、前記音声認識結果として取得することを特徴とする請求項1記載の情報処理方法。
  10. 前記第2の認識工程は、前記第1の認識工程で取得した文字情報を音声認識対象として音声認識を行い、前記音声認識結果を取得することを特徴とする請求項1記載の情報処理方法。
  11. 前記第2の認識工程は、前記音声データ中の複数の音声区間それぞれに対応する音声認識結果から、前記第1の認識工程で取得した文字情報を発音列に変換したものに含まれない音声認識結果を除外したものを、前記音声認識結果として取得することを特徴とする請求項1記載の情報処理方法。
  12. 前記第2の認識工程は、前記第1の認識工程で取得した文字情報を発音列に変換したものを音声認識対象として音声認識を行い、前記音声認識結果を取得することを特徴とする請求項1記載の情報処理方法。
  13. 少なくとも自立語を含む重要語を抽出するためのデータに基づいて、前記文字情報に含まれる重要語を抽出する重要語抽出工程をさらに有し、
    前記第2の認識工程、前記重要語をキーワードスポッティングの対象とするか、前記重要語の音声認識用言語モデルの確率値を増加させるかの少なくともいずれかを行って音声認識を行うことで、前記音声認識結果を取得する
    ことを特徴とする請求項に記載の情報処理方法。
  14. 前記第1の認識工程により認識された前記文字情報について、該文字情報のフォントサイズ、色、アンダーライン、太字、斜体、又はフォント種の少なくとも何れか1つを含むフォント情報を抽出するフォント情報抽出工程をさらに有し、
    前記第2の認識工程が、前記フォント情報を利用して特定された文字列をキーワードスポッティングの対象するか、特定された文字列の統計的言語モデルの確率値を増加させるかの少なくともいずれかを行って音声認識を行い、前記音声認識結果を取得する
    ことを特徴とする請求項に記載の情報処理方法。
  15. 前記第1の認識工程は、前記第2の認識工程により取得された音声認識結果を文字列に変換したものに含まれない文字列を、前記検出された文字領域に含まれる文字情報を認識して取得した複数の文字情報から除外したものを、前記複数の文字情報として取得することを特徴とする請求項1記載の情報処理方法。
  16. 前記第1の認識工程は、前記第2の認識工程により取得された音声認識結果を文字列に変換したものを文字認識対象として文字認識を行い、前記文字情報を取得することを特徴とする請求項1記載の情報処理方法。
  17. 前記画像データを複数の領域に分割して分割画像を取得する画像分割工程をさらに有し、
    それぞれの分割画像に関して文字情報を認識する
    ことを特徴とする請求項に記載の情報処理方法。
  18. 前記第1の認識工程により認識された前記文字情報を文字概念表現に変換する文字概念変換工程と、
    前記第2の認識工程により認識された前記音声認識結果を音声概念表現に変換する音声概念変換工程と、
    前記文字概念表現と前記音声概念表現とを照合する概念対応工程とをさらに有し、
    前記対応付け工程が、前記概念対応工程によって得られる概念間の照合結果に基づいて、前記文字情報と前記音声認識結果とを対応付ける
    ことを特徴とする請求項に記載の情報処理方法。
  19. 画像データと音声データを対応付ける情報処理方法であって、
    前記画像データに含まれるオブジェクト領域を検出する第1の検出工程と、
    検出された前記オブジェクト領域からオブジェクト情報を認識する第1の認識工程と、
    前記音声データ中の複数の音声区間のそれぞれに対応する音声認識結果を取得する第2の認識工程と、
    前記第1の認識工程により認識された前記オブジェクト情報の特徴情報に対応する文字情報と前記第2の認識工程により認識された前記音声認識結果とを照合することによって該オブジェクト情報と該音声認識結果とを対応付ける対応付け工程と
    を有することを特徴とする情報処理方法。
  20. 前記オブジェクト情報は図形情報であり、
    前記オブジェクト情報の特徴情報は、前記図形情報の形状、色の少なくともいずれかであることを特徴とする請求項19記載の情報処理方法。
  21. 画像データと音声データを対応付ける情報処理方法であって、
    前記画像データに含まれる人物領域を検出する第1の検出工程と、
    検出された前記人物領域から人物又は少なくとも人物の性別、年代のいずれかを含む人物のクラスを認識する第1の認識工程と、
    前記音声データ中の複数の音声区間それぞれに対応する話者又は少なくとも話者の性別、年代のいずれかを含む話者クラスを認識する第2の認識工程と、
    前記第1の認識工程により認識された人物又は人物のクラスと、前記第2の認識工程により認識された話者又は話者クラスとを対応付ける対応付け工程と
    を有することを特徴とする情報処理方法。
  22. 請求項1乃至21に記載の情報処理方法をコンピュータに実行させるための制御プログラム。
  23. 画像データと音声データを対応付ける情報処理装置であって、
    文字を含む前記画像データから文字領域を検出する検出手段と、
    検出された前記文字領域に含まれる文字情報を認識して複数の文字情報を取得する第1の認識手段と、
    前記音声データ中の複数の音声区間それぞれに対応する音声認識結果を取得する第2の認識手段と、
    前記第1の認識手段により取得された前記複数の文字情報と前記第2の認識手段により取得された前記複数の音声認識結果とをそれぞれ照合することによって、該文字情報と該音声認識結果を対応付ける対応付け手段と
    を有することを特徴とする情報処理装置。
  24. 画像データと音声データを対応付ける情報処理方法であって、
    前記画像データに含まれるオブジェクト領域を検出する第1の検出手段と、
    検出された前記オブジェクト領域からオブジェクト情報を認識する第1の認識手段と、
    前記音声データ中の複数の音声区間それぞれに対応する音声認識結果を取得する第2の認識手段と、
    前記第1の認識手段により認識された前記オブジェクト情報の特徴情報に対応する文字情報と前記第2の認識手段により認識された前記音声認識結果とを照合することによって該オブジェクト情報と該音声認識結果とを対応付ける対応付け手段と
    を有することを特徴とする情報処理装置。
  25. 画像データと音声データを対応付ける情報処理方法であって、
    前記画像データに含まれる人物領域を検出する第1の検出手段と、
    検出された前記人物領域から人物又は少なくとも人物の性別、年代のいずれかを含む人物のクラスを認識する第1の認識手段と、
    前記音声データ中の複数の音声区間それぞれに対応する話者又は少なくとも話者の性別、年代のいずれかを含む話者クラスを認識する第2の認識手段と、
    前記第1の認識手段により認識された人物又は人物のクラスと、前記第2の認識手段により認識された話者又は話者クラスとを対応付ける対応付け工程と
    を有することを特徴とする情報処理装置。
JP2003381637A 2003-11-11 2003-11-11 情報処理方法及び情報処理装置 Expired - Fee Related JP3848319B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003381637A JP3848319B2 (ja) 2003-11-11 2003-11-11 情報処理方法及び情報処理装置
US10/982,382 US7515770B2 (en) 2003-11-11 2004-11-05 Information processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003381637A JP3848319B2 (ja) 2003-11-11 2003-11-11 情報処理方法及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2005150841A JP2005150841A (ja) 2005-06-09
JP3848319B2 true JP3848319B2 (ja) 2006-11-22

Family

ID=34544640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003381637A Expired - Fee Related JP3848319B2 (ja) 2003-11-11 2003-11-11 情報処理方法及び情報処理装置

Country Status (2)

Country Link
US (1) US7515770B2 (ja)
JP (1) JP3848319B2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2428124B (en) * 2005-07-07 2010-04-14 Hewlett Packard Development Co Data input apparatus and method
US8571320B2 (en) 2005-12-12 2013-10-29 Core Wireless Licensing S.A.R.L. Method and apparatus for pictorial identification of a communication event
JP4910420B2 (ja) * 2006-02-24 2012-04-04 カシオ計算機株式会社 画像処理装置および画像処理のプログラム
GB2451371B (en) * 2006-04-17 2011-02-23 Vovision Llc Method and systems for correcting transcribed audio files
WO2009073768A1 (en) * 2007-12-04 2009-06-11 Vovision, Llc Correcting transcribed audio files with an email-client interface
CN101553799B (zh) * 2006-07-03 2012-03-21 英特尔公司 用于快速音频搜索的方法和设备
CA2567505A1 (en) * 2006-11-09 2008-05-09 Ibm Canada Limited - Ibm Canada Limitee System and method for inserting a description of images into audio recordings
CA2572116A1 (en) * 2006-12-27 2008-06-27 Ibm Canada Limited - Ibm Canada Limitee System and method for processing multi-modal communication within a workgroup
JP2008197229A (ja) * 2007-02-09 2008-08-28 Konica Minolta Business Technologies Inc 音声認識辞書構築装置及びプログラム
WO2008111760A1 (en) * 2007-03-12 2008-09-18 Ti Square Technology Ltd. Method and apparatus for providing video synthesizing call service using voice recognition
KR100893546B1 (ko) 2007-03-12 2009-04-17 (주)티아이스퀘어 음성 인식을 이용한 영상 합성 통화 서비스 방법 및 장치
US8385588B2 (en) * 2007-12-11 2013-02-26 Eastman Kodak Company Recording audio metadata for stored images
KR100992174B1 (ko) * 2008-06-13 2010-11-04 (주)티아이스퀘어 음성/문자 인식을 이용한 멀티미디어 콘텐츠 합성 메시지전송 방법 및 장치
TWI423144B (zh) * 2009-11-10 2014-01-11 Inst Information Industry Combined with the audio and video behavior identification system, identification methods and computer program products
WO2011064829A1 (ja) * 2009-11-30 2011-06-03 株式会社 東芝 情報処理装置
RU2012121711A (ru) * 2009-12-04 2013-11-27 Сони Корпорейшн Устройство поиска, способ поиска программы
WO2011116514A1 (en) * 2010-03-23 2011-09-29 Nokia Corporation Method and apparatus for determining a user age range
US9355683B2 (en) * 2010-07-30 2016-05-31 Samsung Electronics Co., Ltd. Audio playing method and apparatus
TWI431563B (zh) * 2010-08-03 2014-03-21 Ind Tech Res Inst 語言學習系統、語言學習方法及其程式產品
US8239366B2 (en) * 2010-09-08 2012-08-07 Nuance Communications, Inc. Method and apparatus for processing spoken search queries
JP5716328B2 (ja) * 2010-09-14 2015-05-13 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
JP5899743B2 (ja) * 2011-09-21 2016-04-06 富士ゼロックス株式会社 画像表示装置及び画像表示プログラム
JP5857704B2 (ja) * 2011-12-13 2016-02-10 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5210440B2 (ja) * 2012-01-04 2013-06-12 インテル・コーポレーション 高速音声検索のための方法、プログラムおよび装置
JP2014021905A (ja) * 2012-07-23 2014-02-03 Fujitsu Ltd 入力支援プログラム、入力支援方法および入力支援装置
RU2510624C1 (ru) * 2013-01-10 2014-04-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ маркирования и распознавания сигналов
JP2014170295A (ja) * 2013-03-01 2014-09-18 Honda Motor Co Ltd 物体認識システム及び物体認識方法
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
US20150370891A1 (en) * 2014-06-20 2015-12-24 Sony Corporation Method and system for retrieving content
JP6432405B2 (ja) * 2015-03-18 2018-12-05 富士通株式会社 プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
US9916832B2 (en) * 2016-02-18 2018-03-13 Sensory, Incorporated Using combined audio and vision-based cues for voice command-and-control
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
CN111062236A (zh) * 2019-05-05 2020-04-24 杭州魔蝎数据科技有限公司 一种基于人工智能的数据授权方法和装置
CN109934210B (zh) * 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN112149653B (zh) * 2020-09-16 2024-03-29 北京达佳互联信息技术有限公司 信息处理方法、装置、电子设备及存储介质
CN112087653A (zh) * 2020-09-18 2020-12-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN112507080A (zh) * 2020-12-16 2021-03-16 北京信息科技大学 文字识别矫正的方法
WO2022259304A1 (ja) * 2021-06-07 2022-12-15 日本電信電話株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1994135A (en) * 1933-12-18 1935-03-12 John Schrott Diaper
US2145137A (en) * 1937-02-13 1939-01-24 Kendall & Co Diaper
US2634459A (en) * 1951-02-03 1953-04-14 Dow Chemical Co Process for the manufacture of crystalline vinylidene chloride polymer tubing whose walls do not cohere
US2935828A (en) * 1957-04-16 1960-05-10 Standard Packing Corp Continuous vacuum packaging machine
US3442686A (en) * 1964-03-13 1969-05-06 Du Pont Low permeability transparent packaging films
US3343663A (en) * 1965-10-24 1967-09-26 Dow Chemical Co Package and laminate thereof
US3605746A (en) * 1969-12-10 1971-09-20 Kendall & Co Diapering of infants
US3645060A (en) * 1970-07-06 1972-02-29 Kimberly Clark Co Container loader for compressible product
US3716961A (en) * 1970-12-29 1973-02-20 Procter & Gamble In-package sterilization
US3710797A (en) * 1971-02-26 1973-01-16 Procter & Gamble Disposable diaper
US3794033A (en) * 1972-03-01 1974-02-26 Weyerhaeuser Co Disposable diaper with center constriction
US3824759A (en) * 1973-01-18 1974-07-23 Owens Corning Fiberglass Corp Method and apparatus for handling stackable bodies
US3963029A (en) * 1974-07-12 1976-06-15 Domtar Limited Diaper package
US3938523A (en) * 1974-10-17 1976-02-17 Scott Paper Company Prefolded and packaged disposable diaper
JPS51125468A (en) * 1975-03-27 1976-11-01 Sanyo Chem Ind Ltd Method of preparing resins of high water absorbency
US3970217A (en) * 1975-12-23 1976-07-20 Lawrence Peska Associates, Inc. Coin-operable packaged diaper dispensing machine
US4034760A (en) * 1976-03-18 1977-07-12 Filitsa Amirsakis Self contained disposable diaper
US4050482A (en) * 1976-03-31 1977-09-27 The Gates Rubber Company Battery plate pasting method and apparatus
US4221221A (en) * 1978-05-19 1980-09-09 Ehrlich Jimmie L Utility diaper structure
US4286082A (en) * 1979-04-06 1981-08-25 Nippon Shokubai Kagaku Kogyo & Co., Ltd. Absorbent resin composition and process for producing same
US4242854A (en) * 1979-07-23 1981-01-06 Kimberly-Clark Corporation Automatic bag loader
US4265070A (en) * 1979-08-07 1981-05-05 Hayssen Manufacturing Company Method of and apparatus for packaging
ATE11761T1 (de) * 1980-08-11 1985-02-15 Imperial Chemical Industries Plc Beutel und verfahren zu seiner herstellung.
IT1153034B (it) * 1982-11-15 1987-01-14 Grace W R & Co Procedimento ed apparecchiatura per il confezionamento sottovuoto e reativa confezione
US4566130A (en) * 1983-02-10 1986-01-21 Fredrica Coates Combination carrying bag for infant accessories and diapering station
US4577453A (en) * 1984-02-01 1986-03-25 The Procter & Gamble Company Method of and apparatus for forming and cartoning multi-stack arrays of compressible articles
US5176668A (en) * 1984-04-13 1993-01-05 Kimberly-Clark Corporation Absorbent structure designed for absorbing body fluids
US4598528A (en) * 1984-11-16 1986-07-08 Kimberly-Clark Corporation Packaging of absorbent products
SE450461B (sv) * 1984-11-26 1987-06-29 Moelnlycke Ab For sanitera engangsartiklar avsedd forpackning samt sett for framstellning av dylik forpackning
SE450462B (sv) * 1984-11-26 1987-06-29 Moelnlycke Ab Forpackning for enskilda sanitera engangsartiklar samt sett att forpacka dessa
US4585448A (en) * 1984-12-19 1986-04-29 Kimberly-Clark Corporation Disposable garment having high-absorbency area
US4641381A (en) * 1985-01-10 1987-02-10 Kimberly-Clark Corporation Disposable underpants, such as infant's training pants and the like
US4646362A (en) * 1985-01-10 1987-03-03 Kimberly-Clark Corporation Disposable underpants, such as child's training pants and the like
CA1284823C (en) * 1985-10-22 1991-06-11 Kenneth K. York Systems and methods for creating rounded work surfaces by photoablation
SE453720B (sv) * 1986-07-17 1988-02-29 Moelnlycke Ab Sett att i samband med framstellningen vika en absorberande engangsartikel, t ex en bloja, till forpackningstillstand
US4673608A (en) * 1986-08-18 1987-06-16 Corra-Board Products Co. Book panel construction
US5016778A (en) * 1987-05-19 1991-05-21 Four D, Incorporated System for low cost dispensing of soft packaged articles
US4808175A (en) * 1987-07-27 1989-02-28 Hansen William T Disposable diaper and wet wipe pad package
US4798603A (en) * 1987-10-16 1989-01-17 Kimberly-Clark Corporation Absorbent article having a hydrophobic transport layer
US4923455A (en) * 1988-05-04 1990-05-08 Personal Hygiene Research Associates Disposable diaper with integral disposal envelope
US5176670A (en) * 1988-12-20 1993-01-05 Kimberly-Clark Corporation Disposable diaper with improved mechanical fastening system
US4934535A (en) * 1989-04-04 1990-06-19 The Procter & Gamble Company Easy open flexible bag filled with compressed flexible articles and method and apparatus for making same
US5042227A (en) * 1989-12-15 1991-08-27 659897 Ontario Limited Method & apparatus for compression packaging
FR2671054B1 (fr) * 1990-12-26 1994-08-26 Peaudouce Sac en materiau flexible pour l'emballage de produits compressibles, notamment de produits d'hygiene tels que des couches-culottes, et paquet de produits d'hygiene comprimes emballes dans un tel sac.
US5192606A (en) * 1991-09-11 1993-03-09 Kimberly-Clark Corporation Absorbent article having a liner which exhibits improved softness and dryness, and provides for rapid uptake of liquid
ZA92308B (en) * 1991-09-11 1992-10-28 Kimberly Clark Co Thin absorbent article having rapid uptake of liquid
ZA929044B (en) * 1991-12-19 1993-05-19 Kimberly Clark Co Disposable protective garment adapted to stretchably conform to a wearer.
US5295988A (en) * 1992-09-04 1994-03-22 The Procter & Gamble Company Individually wrapped disposable absorbent article which becomes elasticized when unwrapped
US5304158A (en) * 1993-01-19 1994-04-19 Webb Joseph A Disposable diaper system
US5413668A (en) * 1993-10-25 1995-05-09 Ford Motor Company Method for making mechanical and micro-electromechanical devices
CA2115284A1 (en) * 1993-12-09 1995-06-10 Mark Kevin Melius Formed incontinence article and method of manufacture
US6408872B1 (en) * 1993-12-15 2002-06-25 New West Products, Inc. Evacuable container having one-way valve with filter element
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
US5439154A (en) * 1994-05-02 1995-08-08 Delligatti; Anna Diaper bag
US5520674A (en) * 1994-05-31 1996-05-28 The Procter & Gamble Company Disposable absorbent article having a sealed expandable component
US5443161A (en) * 1994-07-26 1995-08-22 Jonese; David R. Disposable baby change kit
DE69627304T2 (de) * 1995-01-24 2003-10-16 The Procter & Gamble Company, Cincinnati Verpackung von saugkörpern
US5745922A (en) * 1995-01-31 1998-05-05 Kimberly Clark Corporation Disposable garment and related manufacturing equipment and methods
DE19504157A1 (de) * 1995-02-08 1996-08-14 Johnson & Johnson Gmbh Beutel
EP0778015A1 (en) * 1995-12-04 1997-06-11 The Procter & Gamble Company Bags for disposable diapers
US5638661A (en) * 1995-12-19 1997-06-17 Banks; Percival C. Method and packaging system for packaging a sterilizable item
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US5706950A (en) * 1996-05-31 1998-01-13 Kimberly-Clark Worldwide, Inc. Disposable diaper changing pack
US6318555B1 (en) * 1996-06-27 2001-11-20 Kimberly-Clark Worldwide, Inc. Flexible packaging bag with visual display feature
JP3589528B2 (ja) * 1996-08-08 2004-11-17 ユニ・チャーム株式会社 おむつ
SE9701807D0 (sv) * 1997-05-15 1997-05-15 Moelnlycke Ab Skummaterial, dess tillverkningsförfarande och användning, samt en absorberande engångsartikel innefattande ett sådant skummaterial
US6387085B1 (en) * 1997-12-31 2002-05-14 Kimberly-Clark Worldwide, Inc. Personal care article having a stretch outer cover and non-stretch grasping panels
US6092658A (en) * 1998-01-20 2000-07-25 Goldberger Doll Mfg. Co., Inc. Simulated baby bottle gift package
US6168022B1 (en) * 1998-03-25 2001-01-02 Ashley H. Ward Baby supplies carrying case
KR100253112B1 (ko) * 1998-05-23 2000-04-15 문국현 개별 포장된 흡수 제품 및 그의 제조 방법
US6307550B1 (en) * 1998-06-11 2001-10-23 Presenter.Com, Inc. Extracting photographic images from video
US6575947B1 (en) * 1998-10-05 2003-06-10 The Procter & Gamble Company Individually packaged absorbent article
US6116781A (en) * 1999-08-13 2000-09-12 New West Products, Inc. Storage bag with one-way air valve
US6723080B1 (en) * 1999-09-21 2004-04-20 Peter D. Habib Prepackaged diaper changing kit
US6761013B2 (en) * 1999-11-08 2004-07-13 Kimberly-Clark Worldwide, Inc. Packaging article and method
US6264972B1 (en) * 1999-11-10 2001-07-24 Tolland Development Company, Llc Tampon
US6213304B1 (en) * 1999-12-17 2001-04-10 Tara Juliussen Infant care tote bag
US6423045B1 (en) * 2000-01-11 2002-07-23 The Procter & Gamble Company Disposable garment having an expandable component
US6443938B1 (en) * 2000-06-27 2002-09-03 Kimberly-Clark Worldwide, Inc. Method of making a prefolded prefastened diaper with latent elastics
US6705465B2 (en) * 2000-11-15 2004-03-16 Kimberly-Clark Worldwide, Inc. Package for feminine care articles
US20020056655A1 (en) * 2000-11-15 2002-05-16 Kimberly-Clark Worldwide, Inc. Package for absorbent articles
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US20020078665A1 (en) * 2000-12-21 2002-06-27 Salman Nabil Enrique Portable packaging device and method for forming individually packaged articles
US6970185B2 (en) * 2001-01-31 2005-11-29 International Business Machines Corporation Method and apparatus for enhancing digital images with textual explanations
US6581641B2 (en) * 2001-04-05 2003-06-24 Illinois Tool Works Inc. One-way valve for use with vacuum pump
US7076429B2 (en) * 2001-04-27 2006-07-11 International Business Machines Corporation Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
GB0119636D0 (en) * 2001-08-11 2001-10-03 Rolls Royce Plc a method of manufacturing a fibre reinforced metal component
JP3815992B2 (ja) * 2001-09-27 2006-08-30 ユニ・チャーム株式会社 おむつの収納形態
JP4426163B2 (ja) * 2001-10-02 2010-03-03 ユニ・チャーム株式会社 吸収性物品の個別包装体およびその製造方法
JP3875059B2 (ja) * 2001-10-17 2007-01-31 ユニ・チャーム株式会社 体液吸収製品の個包装体
US6528768B1 (en) * 2001-10-26 2003-03-04 Branimir Simic-Glavaski Electron source for food treating apparatus and method
JP2004124816A (ja) * 2002-10-02 2004-04-22 Honda Motor Co Ltd 船外機の回転数制御装置
US20040092901A1 (en) * 2002-11-11 2004-05-13 Ronald Wayne Reece Diaper changing kit
US20040167489A1 (en) * 2003-02-14 2004-08-26 Kellenberger Stanley R. Compact absorbent article
US7306093B2 (en) * 2003-02-14 2007-12-11 Eastman Chemical Company Packages, packaging systems, methods for packaging and apparatus for packaging
US20040167493A1 (en) * 2003-02-21 2004-08-26 Sca Hygiene Products Ab Arrangement and method for applying elastic element to a material web
US20050131368A2 (en) * 2003-03-04 2005-06-16 Diaperoos, Llc Vacuum-packed diaper
US20050015052A1 (en) * 2003-07-17 2005-01-20 Michelle Klippen Compression packed absorbent article

Also Published As

Publication number Publication date
JP2005150841A (ja) 2005-06-09
US7515770B2 (en) 2009-04-07
US20050102139A1 (en) 2005-05-12

Similar Documents

Publication Publication Date Title
JP3848319B2 (ja) 情報処理方法及び情報処理装置
CN109255113B (zh) 智能校对系统
US7092870B1 (en) System and method for managing a textual archive using semantic units
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7177795B1 (en) Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
US11721329B2 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
US7966173B2 (en) System and method for diacritization of text
US7792671B2 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
US20080221890A1 (en) Unsupervised lexicon acquisition from speech and text
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
CN112784696A (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
van Esch et al. Future directions in technological support for language documentation
Hanani et al. Spoken Arabic dialect recognition using X-vectors
US8219386B2 (en) Arabic poetry meter identification system and method
CN117010907A (zh) 一种基于语音和图像识别的多模态客户服务方法及系统
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
CN115312030A (zh) 虚拟角色的显示控制方法、装置及电子设备
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Ballard et al. A multimodal learning interface for word acquisition
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
JP3444108B2 (ja) 音声認識装置
JP4738847B2 (ja) データ検索装置および方法
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060824

R150 Certificate of patent or registration of utility model

Ref document number: 3848319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130901

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees