JP2005121815A

JP2005121815A - 携帯情報端末、情報処理システム、情報処理方法ならびにプログラム、記憶媒体

Info

Publication number: JP2005121815A
Application number: JP2003355384A
Authority: JP
Inventors: Makoto Hirota; 誠廣田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-10-15
Filing date: 2003-10-15
Publication date: 2005-05-12

Abstract

【課題】携帯情報端末を介して入力された音声についての音声認識処理において、高い認識率を実現するとともに、利用方法に適した音声認識機能を付加することで、携帯情報端末の利便性を向上させることを目的とする。
【解決手段】入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末における情報処理方法であって、入力された音声を解析し（ステップＳ５０３）、抽出された特徴量を蓄積する工程（ステップＳ５０４）と、前記蓄積する工程において蓄積された特徴量を、前記情報処理装置に送信するための送信指示を受け付ける指示受付工程（ステップＳ５０１）と、前記特徴量を前記情報処理装置に送信するための送信工程（ステップＳ５０５）と、を備え、前記送信工程は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量を送信することを特徴とする。
【選択図】図５

Description

本発明は、音声認識技術に関するものである。

音声認識技術の向上と情報機器のマシンパワーの向上により、ディクテーションと呼ばれる大語彙音声認識技術をＰＣ上で動作させる製品が登場して久しい。一方で、情報機器はＰＣ中心の時代から、ＰＤＡ、携帯電話、デジタルカメラ、情報家電などの所謂ｎｏｎ−ＰＣを含む多様化の時代へと遷移してきている。このため、ＰＣ以外の情報機器（ハードウェアリソースの少ない小型機器）上での音声認識技術の実現が強く望まれている。ここで、ＰＣ以外の情報機器への音声認識技術の適用ニーズの一例としてデジタルカメラの場合について説明する。

デジタルカメラはカメラ付き携帯電話・ＰＤＡなどとともに、現在、爆発的に普及している情報機器の一つであり、ハードウエアリソースの少ない小型機器である。一般に、デジタルカメラで撮影した写真は、紙に出力することはもちろん、ＰＣに取り込んだり、フォトサイトなどと呼ばれる画像保管サービスを行うＷｅｂサイトにアップロードして保持される。このように、写真をコンピュータ上で管理するのは、多数蓄積した写真の中から容易に検索を行えるからである。ここで、検索するための技術としては、画像情報を手がかりにするもののほか、各写真に付与されたテキスト情報（テキストアノテーション）を手がかりに、従来のテキスト検索技術に基づく手法で検索するものが挙げられる。後者の場合、各写真にテキストを付与するのはユーザであり、たとえば、運動会の写真を撮った場合に、「ＸＸＸ小学校秋の運動会開会式の様子」といったテキストを付与しておくことで、検索の際に「運動会」「開会式」などのキーワードを入力して検索することが可能である。しかし、このようなテキスト入力は、通常、写真をＰＣ上に取り込んでからキーボードを用いて行うため、各写真について行うことは非常に手間がかかる。このため、実際には、多数の写真一つ一つにテキストを付与するといった利用形態はあまり普及しておらず、ＰＣに多数の画像が蓄積されていく一方で、その検索は困難なものとなってしまっている。

このような状況において音声認識技術を適用することは有用であり、かかる技術はテキストの入力を簡単にするための手段としても注目されている。つまり、写真を撮影するたびに、デジタルカメラに向かって「ＸＸＸ小学校秋の運動会開会式の様子」と発声することでその写真にテキストアノテーションが付与できれば、テキスト入力が非常に楽になるからである。このように、音声認識技術は、デジタルカメラをはじめとする各種情報機器の利便性を向上させる上で重要な技術といえる。

しかしながら、こうした小型機器は、年々マシンパワーが向上しているとはいうもののＰＣには劣り、音声認識技術を快適に動作させるという観点からは不十分なことが多い。認識語彙数の少ない単語音声認識に限定するなどすれば小型機器上でも動作可能なアプリケーションの例もあるが、その分、機能も限定され認識率も低下してしまう。このため、実際には、こうした音声認識技術をデジタルカメラのようなハードウエアリソースの小さい小型機器に実装することは困難である。

これに対して、こうしたリソースの少ない小型機器に音声認識技術を適用するための手段として、クライアント・サーバ型の音声認識技術が提案されている(下記特許文献１参照)。一般に、音声認識処理は、入力音声を分析して特徴パラメータを抽出するフロントエンド処理と、その特徴パラメータから認識処理を行うデコード処理とに大別され、フロントエンド処理は処理が軽く少ないハードウエアリソースで実行可能であるのに対し、デコード処理のほうは処理が重いという性質を有する。そしてかかる性質を利用して、小型機器(クライアント)の上で、フロントエンド処理だけを行って特徴パラメータを抽出し、これをネットワークを経由してハードウエアリソースの大きなサーバに送信し、サーバ側でデコード処理を行って、その出力である音声認識結果をやはりネットワークを経由して小型機器に送り返すことで、マシンパワーの劣る小型機器への音声認識技術の適用が図られている。この結果、小型機器に入力された音声についての高い認識率を実現している。
特開２００２-０４９３９０号公報

しかしながら、上記従来技術に示したクライアント・サーバ型音声認識処理は、リアルタイムでの音声認識処理を前提としており、利用時（音声入力時）にクライアントである機器がサーバとネットワークで接続されていることが必要である。このため、例えば、写真へのテキストアノテーションの付与に、当該クライアント・サーバ型音声認識処理をそのまま適用しようとすると、写真撮影時においても無線で常時接続されていなければならないこととなる。しかし、デジタルカメラやＰＤＡなどのように、小型機器のうちモバイル機器として持ち歩いて使用する、いわゆる携帯情報端末の場合、無線によりサーバと常時接続しておくことは携帯情報端末本来の機能を制約することとなり妥当でない。また、音声認識を利用するたびにダイアルアップ接続することも考えられるが、これは非常に煩わしい。

一方、携帯情報端末の場合、上述の写真へのテキストアノテーションの付与の例に示すように、必ずしもリアルタイム性を必要としない音声認識処理の利用方法もあり、目的に即した音声認識機能が望まれている。

本発明は、上記課題に鑑みてなされたものであり、携帯情報端末を介して入力された音声についての音声認識処理において、高い認識率を実現するとともに、利用方法に適した音声認識機能を付加することで、携帯情報端末の利便性を向上させることを目的とする。

上記の目的を達成するために本発明に係る携帯情報端末は以下のような構成を備える。即ち、
入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末であって、
入力された音声を解析し、抽出された特徴量に関する情報を蓄積する蓄積手段と、
前記蓄積手段に蓄積された特徴量に関する情報を、前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記特徴量に関する情報を前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量に関する情報を送信することを特徴とする。

本発明によれば、携帯情報端末を介して入力された音声についての音声認識処理において、高い認識率を実現するとともに、利用方法に適した音声認識機能を付加することで、携帯情報端末の利便性を向上させることが可能となる。

以下、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。

[第１の実施形態]
本実施形態では、図１に示すように、ユーザが携帯情報端末としてＰＤＡを用いて音声入力を行い、これをＰＣに取り込んでＰＣ側で音声データをテキストに変換するケースを想定する。図１において、１０１はユーザが使用するＰＤＡ、１０２はＰＣである。

図２は、本実施形態に係るＰＤＡ１０１およびＰＣ１０２のブロック図である。同図において、２０１は、ユーザの発声を取り込む音声入力部であり、２０２は、入力された音声データを分析し、特徴パラメータを抽出する特徴分析部である。また、２０３は、特徴パラメータを保持する特徴パラメータ保持部であり、２０４は、特徴パラメータをＰＣ１０２に送信する特徴パラメータ送信部である。

さらに、２０５は、ＰＤＡ１０１から特徴パラメータを受信する特徴パラメータ受信部、２０６は、特徴パラメータを入力として音声認識処理を行い、認識結果であるテキストを出力する音声認識部、２０７は、音声認識部２０６が出力したテキストをテキストファイルとして保持するテキストファイル保持部である。

図３は、本実施形態に係るＰＤＡ１０１のハードウエア構成を示す図である。同図において、３０１はＣＰＵであり、後述するＰＤＡ１０１の動作手順を実現するプログラムに従って動作する。

３０２はＲＡＭであり、上記プログラムの動作に必要な記憶領域を提供する。３０３はＲＯＭであり、上記プログラムの動作手順を実現するプログラムを保持する。３０４は液晶表示装置（ＬＣＤ）であり、ＧＵＩの表示やスタイラスによるタッチ入力を受け付ける。

３０５はマイクであり、ユーザからの音声入力を取り込む。３０６は通信デバイスであり、ＰＣ１０２と無線でデータをやり取りする。本実施形態ではブルートゥースを想定している。３０７はバスである。

図４は、本実施形態に係るＰＣ１０２のハードウエア構成を示す図である。同図において、４０１はＣＰＵであり、後述するＰＣ１０２の動作手順を実現するプログラムに従って動作する。４０２はＲＡＭであり、上記プログラムの動作に必要な記憶領域を提供する。４０３はＲＯＭであり、後述する手順を実現するプログラムを保持する。４０４はＣＲＴであり、ＧＵＩの表示などを行う。４０５はキーボード、４０６はマウスである。また、４０７は通信デバイスであり、ＰＤＡ１０１と無線でデータをやり取りする。本実施形態ではブルートゥースを想定している。４０８はバスである。

では、図５のフローチャートに沿って、本実施形態におけるＰＤＡ１０１およびＰＣ１０２の動作を説明する。まず、ＰＤＡ１０１では、すでに保存されている特徴パラメータのデータをＰＣ１０２へアップロードする指示がユーザによってなされたか否かをチェックし(ステップＳ５０１)、指示があれば、ＰＣ１０２へアップロードする(ステップＳ５０５)。本実施形態では、アップロードはブルートゥースによる無線通信を用いている。一方、アップロード指示がない場合は、ユーザからの音声入力があるか否かをチェックし(ステップＳ５０２)、音声入力があれば、その音声を取り込む。取り込んだ音声を分析して特徴パラメータを抽出し(ステップＳ５０３)、これを保持する(ステップＳ５０４)。この特徴パラメータの抽出方法やそのデータ形式は従来技術を利用するものとし、本発明の対象外である。従来技術として、例えば、ＥＴＳＩ（the European Telecommunications Standards Institute）は、ＥＳ２０１１０８ＤＳＲｆｒｏｎｔｅｎｄという標準仕様を勧告している。

以上の一連の処理は、なんらかの終了条件(ステップＳ５０６)が成立しない限り、ステップＳ５０１に戻って継続されることとなる。

一方、ＰＣ１０２においては、まず、ＰＤＡ１０１から特徴パラメータの受信をチェックし(ステップＳ５０７)、受信があれば、これを入力として音声認識処理を行い(ステップＳ５０８)、その出力である認識結果のテキストを保持する(ステップＳ５０９)。なんらかの終了条件(ステップＳ５１０)が成立しない限り、ステップＳ５０７に戻って動作を継続する。

以上の説明から明らかなように、本実施形態によれば、ＰＤＡにフロントエンド処理を行わせ、ＰＣにデコード処理を行わせることで、小メモリのＰＤＡに入力された音声を高い認識率で音声認識することが可能となる。また、入力された音声から抽出された特徴量は、ＰＣへのアップロード指示を受けてアップロードされ、アップロード時にＰＣ側にて音声認識処理が実行される構成とすることにより、ＰＤＡとＰＣとを常時通信可能な状態にしておく必要がなくなる。この結果、ユーザは、ＰＤＡを持ち歩いて、メモを残したい場合にその内容を音声入力しておき、オフィスに戻ってＰＣにＰＤＡのデータを取り込んだ後、音声入力した内容をテキスト情報として利用できることとなるなど、利用目的に即した音声認識機能の付加により、ＰＤＡの利便性が向上する。

[第２の実施形態]
続いて、図面を参照して本発明の第２の実施形態について詳細を説明する。

本実施形態では、図６に示すように、ユーザが携帯情報端末としてデジタルカメラを用いて写真を撮影し、その写真にテキストアノテーションとして付与したい内容を音声で入力し、これをＰＣに取り込んで所定のアプリケーションに与えた際に、そのアプリケーションでテキストアノテーションに変換するケースを想定する。図６において、６０１は、ユーザが使用するデジタルカメラ、６０２はＰＣ、６０３は、デジタルカメラからＰＣへ画像データを取り込むときに用いるＵＳＢケーブルである。

図７は、本実施形態に係るデジタルカメラ６０１およびＰＣ６０２のブロック図である。同図において、７０１は、ユーザの発声を取り込む音声入力部、７０２は、入力された音声データを分析し、特徴パラメータを抽出する特徴分析部、７０３は、特徴パラメータを撮影した写真の画像データにメタデータとして付与する特徴パラメータ付与部である。

また、７０４は撮像部、７０５は撮像部７０４で撮像した画像データを保持する画像保持部、７０６は画像保持部７０５に保持された画像データをＰＣ６０２に送信する画像送信部である。

さらに、７０７はデジタルカメラ６０１から画像データを受信する画像受信部、７０８は画像データに付与された特徴パラメータを入力として音声認識処理を行い、認識結果であるテキストを出力する音声認識部、７０９は音声認識部７０８が出力したテキストを対象画像にテキストアノテーションとして付与するテキストアノテーション付与部、７１０はテキストアノテーション付与部７０９でテキストアノテーションを付与された画像データを保持し管理する画像管理部である。

図８は、本実施形態に係るデジタルカメラ６０１のハードウエア構成を示す図である。同図において、８０１はＣＰＵであり、後述するデジタルカメラ６０１の動作手順を実現するプログラムに従って動作する。

８０２はＲＡＭであり、上記プログラムの動作に必要な記憶領域を提供する。８０３はＲＯＭであり、上記プログラムの動作手順を実現するプログラムを保持する。８０４は液晶表示装置（ＬＣＤ）であり、ＧＵＩの表示を行う。８０５は通信デバイスであり、ＰＣ６０２とデータをやり取りする。本実施形態ではＵＳＢを想定している。８０６はＣＣＤであり画像を撮像する。８０７はバスである。

図９は、本実施形態に係るＰＣ６０２のハードウエア構成を示す図である。同図において、９０１はＣＰＵであり、後述するＰＣ６０２の動作手順を実現するプログラムに従って動作する。９０２はＲＡＭであり、上記プログラムの動作に必要な記憶領域を提供する。９０３はＲＯＭであり、後述する手順を実現するプログラムを保持する。９０４はＣＲＴであり、ＧＵＩの表示などを行う。９０５はキーボード、９０６はマウスである。９０７は通信デバイスであり、デジタルカメラ６０１とデータのやり取りをする。本実施形態ではＵＳＢを想定している。９０８はバスである。

では、図１０のフローチャートに沿って、本実施形態におけるデジタルカメラ６０１およびＰＣ６０２の動作を説明する。まず、デジタルカメラ６０１では、すでに保存されている画像データをＰＣ６０２へアップロードする指示がユーザによってなされたか否かをチェックし(ステップＳ１００１)、指示があれば、ＰＣ６０２へアップロードする(ステップＳ１００８)。本実施形態では、アップロードにはＵＳＢを用いている。

アップロード指示がない場合は、次に写真の撮像がなされたか否かをチェックし(ステップＳ１００２)、撮像がなされた場合はこれを保持し(ステップＳ１００３)、続いて、ユーザからの音声入力があるか否かをチェックする(ステップＳ１００４)。音声入力は、シャッターを押した直後に行うケースや、特定のボタンの押下など、撮像後所定の操作に伴って行うケースもある。音声入力でアノテーションを付与したい画像が指示できさえすればどのようなやり方でもよい。

音声入力があれば、その音声を取り込む。取り込んだ音声を分析して特徴パラメータを抽出し(ステップＳ１００５)、これを撮像した写真の画像データのメタデータとして付与する(ステップＳ１００６)。この特徴パラメータの抽出方法やそのデータ形式は、従来技術を利用するものとし、本発明の対象外である。従来技術として、例えば、ＥＴＳＩ（the European Telecommunications Standards Institute）は、ＥＳ２０１１０８ＤＳＲｆｒｏｎｔｅｎｄという標準仕様を勧告している。画像データに特徴パラメータをメタデータとして付与したものは、図１１の（ａ）のようになる。以上の一連の処理は、なんらかの終了条件(ステップＳ１００７)が成立しない限り、ステップＳ１００１に戻って継続される。

一方、ＰＣ６０２においては、まず、デジタルカメラ６０１から画像データの受信をチェックし(ステップＳ１００９)、受信があれば、各画像データからメタデータとして付与された特徴パラメータを取り出す(ステップＳ１０１０)。これを入力として音声認識処理を行い(ステップＳ１０１１)、その出力である認識結果のテキストをテキストアノテーションとしてその画像データに付与する(ステップＳ１０１２)。画像データにテキストアノテーションを付与したものは、図１１の（ｂ）のようになる。以上の一連の処理は、なんらかの終了条件(ステップＳ１０１３)が成立しない限り、ステップＳ１００９に戻って継続される。

以上の説明から明らかなように、本実施形態によれば、デジタルカメラにフロントエンド処理を行わせ、ＰＣにデコード処理を行わせることで、小メモリのデジタルカメラに入力された音声を高い認識率で音声認識することが可能となる。また、入力された音声から抽出された特徴量は、ＰＣへの画像データのアップロード指示を受けて画像データとともにアップロードされ、アップロード時にＰＣ側にて音声認識処理が実行される構成とすることにより、デジタルカメラとＰＣとを常時通信可能な状態にしておく必要がなくなる。この結果、ユーザは、デジタルカメラを持ち歩いて写真を撮影し、その写真の簡単な説明などを音声入力し、自宅でデジタルカメラに撮りためた写真の画像データをＰＣに取り込んで所定のアプリケーションで処理することで、音声入力した内容をテキスト情報として各写真の画像データに付与することができ、これをその後の検索などに利用できることとなる。このように、利用目的に即した音声認識機能を付加することにより、デジタルカメラの利便性が向上する。

[第３の実施形態]
上記第２の実施形態では、デジタルカメラ６０１で画像に付与した特徴パラメータのメタデータおよびＰＣ６０２上で画像に付与したテキストアノテーションを、図１１のような形式で表現していたが、例えば、図１２のように、ＸＭＬを用いた表現にしてもよい。

[第４の実施形態]
上記第２の実施形態では、デジタルカメラで撮った写真をＰＣに送信するケースを扱っていた。これに対し、デジタルカメラで撮った写真をインターネット経由でアップロードすることで、これらを保管・管理するサービスがあり、フォトサイトなどと呼ばれている。こうしたフォトサイトのサーバが、上記第２の実施形態のＰＣ６０２の同様の処理を行い、画像データに付与された特徴パラメータからテキストアノテーションの付与を行うようにしても、上記第２の実施形態と同様の効果を得ることができる。なお、図１３にその場合の構成図を示す。

[第５の実施形態]
上記第１および第２の実施形態では、入力された音声データに対し、特徴パラメータのみを送信することとしたが、この場合、ＰＣ側に取り込んだ後、ＰＣ側にてその入力音声を再生できない。一方、音声認識処理において誤認識が生じた場合、ＰＣ側にて元の音声をユーザが確認できた方が望ましい。そこで、本実施形態にかかる携帯情報端末では、特徴パラメータとともに、音声データを送信できる機能を有する。ただし、入力された音声データをそのままの形で送信するのはデータサイズが増えるという問題があるため、音声データは適当な圧縮をかけることとする。このようにすることで、音声認識に用いるデータは圧縮前の音声データから抽出した特徴パラメータであるため認識率の低下を抑えることができ、さらに、誤認識が生じた場合の再生確認用のデータは圧縮した音声データであるため、データサイズを抑えることができる。

[他の実施形態]
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピ（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される情報機器などの装置が含まれることは言うまでもない。

本発明の第１の実施形態に係るシステムの構成図である。本発明の第１の実施形態に係るＰＤＡ１０１およびＰＣ１０２のブロック図である。本発明の第１の実施形態に係るＰＤＡ１０１のハードウエア構成を示す図である。本発明の第１の実施形態に係るＰＣ１０２のハードウエア構成を示す図である。本発明の第１の実施形態に係るＰＤＡ１０１およびＰＣ１０２の動作示すフローチャートである。本発明の第２の実施形態に係るシステムの構成図である。本発明の第２の実施形態に係るデジタルカメラ６０１およびＰＣ６０２のブロック図である。本発明の第２の実施形態に係るデジタルカメラ６０１のハードウエア構成を示す構成図である。本発明の第２の実施形態に係るＰＣ６０２のハードウエア構成を示す構成図である。本発明の第２の実施形態に係るデジタルカメラ６０１およびＰＣ６０２の動作を示すフローチャートである。本発明の第２の実施形態に係るデジタルカメラ６０１で画像に付与したメタデータの例およびＰＣ６０２で画像に付与したテキストアノテーションの例を示す図である。本発明の第３の実施形態に係るデジタルカメラ６０１で画像に付与したメタデータおよびＰＣ６０２で画像に付与したテキストアノテーションをＸＭＬベースのフォーマットで表現した例を示す図である。本発明の第４の実施形態に係るシステムの構成図である。

Claims

入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末であって、
入力された音声を解析し、抽出された特徴量に関する情報を蓄積する蓄積手段と、
前記蓄積手段に蓄積された特徴量に関する情報を、前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記特徴量に関する情報を前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量に関する情報を送信することを特徴とする携帯情報端末。
入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末であって、
撮像された画像を蓄積する画像蓄積手段と、
前記撮像された画像と関連付けて入力された音声を解析し、抽出された特徴量に関する情報を前記画像と関連付けて蓄積する特徴量蓄積手段と、
前記画像蓄積手段に蓄積された画像と、該画像と関連付けられた特徴量に関する情報とを前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記画像と特徴量に関する情報とを前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記画像と特徴量に関する情報を送信することを特徴とする携帯情報端末。
情報処理装置と、該情報処理装置と通信可能な携帯情報端末とを備える情報処理システムであって、
前記携帯情報端末は、
撮像された画像を蓄積する画像蓄積手段と、
前記撮像された画像と関連付けて入力された音声を解析し、抽出された特徴量に関する情報を前記画像と関連付けて蓄積する特徴量蓄積手段と、
前記画像蓄積手段に蓄積された画像と、該画像と関連付けられた特徴量に関する情報とを前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記画像と特徴量に関する情報とを前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記画像と特徴量に関する情報を送信し、
前記情報処理装置は、
前記送信手段により送信された前記画像と特徴量に関する情報とを受信する受信手段と、
前記受信された特徴量に関する情報に基づいて音声認識処理し、テキストデータを生成する音声認識手段と、
前記生成されたテキストデータを前記受信した画像の付帯情報として該画像と関連付けて保存する保存手段と
を備えることを特徴とする情報処理システム。
入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末における情報処理方法であって、
入力された音声を解析し、抽出された特徴量に関する情報を蓄積する蓄積工程と、
前記蓄積工程において蓄積された特徴量に関する情報を、前記情報処理装置に送信するための送信指示を受け付ける指示受付工程と、
前記特徴量に関する情報を前記情報処理装置に送信するための送信工程と、を備え、
前記送信工程は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記画像と特徴量に関する情報を送信することを特徴とする情報処理方法。
入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末における情報処理方法であって、
撮像された画像を蓄積する画像蓄積工程と、
前記撮像された画像と関連付けて入力された音声を解析し、抽出された特徴量に関する情報を前記画像と関連付けて蓄積する特徴量蓄積工程と、
前記画像蓄積工程において蓄積された画像と、該画像と関連付けられた特徴量に関する情報とを前記情報処理装置に送信するための送信指示を受け付ける指示受付工程と、
前記画像と特徴量に関する情報とを前記情報処理装置に送信するための送信工程と、を備え、
前記送信工程は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量に関する情報を送信することを特徴とする情報処理方法。
請求項４または５のいずれか１つに記載の情報処理方法をコンピュータによって実現させるための制御プログラムを格納した記憶媒体。
請求項４または５のいずれか１つに記載の情報処理方法をコンピュータによって実現させるための制御プログラム。