JP2005121815A - 携帯情報端末、情報処理システム、情報処理方法ならびにプログラム、記憶媒体 - Google Patents
携帯情報端末、情報処理システム、情報処理方法ならびにプログラム、記憶媒体 Download PDFInfo
- Publication number
- JP2005121815A JP2005121815A JP2003355384A JP2003355384A JP2005121815A JP 2005121815 A JP2005121815 A JP 2005121815A JP 2003355384 A JP2003355384 A JP 2003355384A JP 2003355384 A JP2003355384 A JP 2003355384A JP 2005121815 A JP2005121815 A JP 2005121815A
- Authority
- JP
- Japan
- Prior art keywords
- information
- image
- information processing
- feature amount
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title claims abstract 8
- 230000005540 biological transmission Effects 0.000 claims abstract description 30
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000009825 accumulation Methods 0.000 claims 2
- 238000000034 method Methods 0.000 abstract description 36
- 230000008569 process Effects 0.000 abstract description 15
- 229920001690 polydopamine Polymers 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 230000000386 athletic effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- WBMKMLWMIQUJDP-STHHAXOLSA-N (4R,4aS,7aR,12bS)-4a,9-dihydroxy-3-prop-2-ynyl-2,4,5,6,7a,13-hexahydro-1H-4,12-methanobenzofuro[3,2-e]isoquinolin-7-one hydrochloride Chemical compound Cl.Oc1ccc2C[C@H]3N(CC#C)CC[C@@]45[C@@H](Oc1c24)C(=O)CC[C@@]35O WBMKMLWMIQUJDP-STHHAXOLSA-N 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
Abstract
【課題】 携帯情報端末を介して入力された音声についての音声認識処理において、高い認識率を実現するとともに、利用方法に適した音声認識機能を付加することで、携帯情報端末の利便性を向上させることを目的とする。
【解決手段】 入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末における情報処理方法であって、入力された音声を解析し(ステップS503)、抽出された特徴量を蓄積する工程(ステップS504)と、前記蓄積する工程において蓄積された特徴量を、前記情報処理装置に送信するための送信指示を受け付ける指示受付工程(ステップS501)と、前記特徴量を前記情報処理装置に送信するための送信工程(ステップS505)と、を備え、前記送信工程は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量を送信することを特徴とする。
【選択図】 図5
【解決手段】 入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末における情報処理方法であって、入力された音声を解析し(ステップS503)、抽出された特徴量を蓄積する工程(ステップS504)と、前記蓄積する工程において蓄積された特徴量を、前記情報処理装置に送信するための送信指示を受け付ける指示受付工程(ステップS501)と、前記特徴量を前記情報処理装置に送信するための送信工程(ステップS505)と、を備え、前記送信工程は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量を送信することを特徴とする。
【選択図】 図5
Description
本発明は、音声認識技術に関するものである。
音声認識技術の向上と情報機器のマシンパワーの向上により、ディクテーションと呼ばれる大語彙音声認識技術をPC上で動作させる製品が登場して久しい。一方で、情報機器はPC中心の時代から、PDA、携帯電話、デジタルカメラ、情報家電などの所謂non−PCを含む多様化の時代へと遷移してきている。このため、PC以外の情報機器(ハードウェアリソースの少ない小型機器)上での音声認識技術の実現が強く望まれている。ここで、PC以外の情報機器への音声認識技術の適用ニーズの一例としてデジタルカメラの場合について説明する。
デジタルカメラはカメラ付き携帯電話・PDAなどとともに、現在、爆発的に普及している情報機器の一つであり、ハードウエアリソースの少ない小型機器である。一般に、デジタルカメラで撮影した写真は、紙に出力することはもちろん、PCに取り込んだり、フォトサイトなどと呼ばれる画像保管サービスを行うWebサイトにアップロードして保持される。このように、写真をコンピュータ上で管理するのは、多数蓄積した写真の中から容易に検索を行えるからである。ここで、検索するための技術としては、画像情報を手がかりにするもののほか、各写真に付与されたテキスト情報(テキストアノテーション)を手がかりに、従来のテキスト検索技術に基づく手法で検索するものが挙げられる。後者の場合、各写真にテキストを付与するのはユーザであり、たとえば、運動会の写真を撮った場合に、「XXX小学校秋の運動会開会式の様子」といったテキストを付与しておくことで、検索の際に「運動会」「開会式」などのキーワードを入力して検索することが可能である。しかし、このようなテキスト入力は、通常、写真をPC上に取り込んでからキーボードを用いて行うため、各写真について行うことは非常に手間がかかる。このため、実際には、多数の写真一つ一つにテキストを付与するといった利用形態はあまり普及しておらず、PCに多数の画像が蓄積されていく一方で、その検索は困難なものとなってしまっている。
このような状況において音声認識技術を適用することは有用であり、かかる技術はテキストの入力を簡単にするための手段としても注目されている。つまり、写真を撮影するたびに、デジタルカメラに向かって「XXX小学校秋の運動会開会式の様子」と発声することでその写真にテキストアノテーションが付与できれば、テキスト入力が非常に楽になるからである。このように、音声認識技術は、デジタルカメラをはじめとする各種情報機器の利便性を向上させる上で重要な技術といえる。
しかしながら、こうした小型機器は、年々マシンパワーが向上しているとはいうもののPCには劣り、音声認識技術を快適に動作させるという観点からは不十分なことが多い。認識語彙数の少ない単語音声認識に限定するなどすれば小型機器上でも動作可能なアプリケーションの例もあるが、その分、機能も限定され認識率も低下してしまう。このため、実際には、こうした音声認識技術をデジタルカメラのようなハードウエアリソースの小さい小型機器に実装することは困難である。
これに対して、こうしたリソースの少ない小型機器に音声認識技術を適用するための手段として、クライアント・サーバ型の音声認識技術が提案されている(下記特許文献1参照)。一般に、音声認識処理は、入力音声を分析して特徴パラメータを抽出するフロントエンド処理と、その特徴パラメータから認識処理を行うデコード処理とに大別され、フロントエンド処理は処理が軽く少ないハードウエアリソースで実行可能であるのに対し、デコード処理のほうは処理が重いという性質を有する。そしてかかる性質を利用して、小型機器(クライアント)の上で、フロントエンド処理だけを行って特徴パラメータを抽出し、これをネットワークを経由してハードウエアリソースの大きなサーバに送信し、サーバ側でデコード処理を行って、その出力である音声認識結果をやはりネットワークを経由して小型機器に送り返すことで、マシンパワーの劣る小型機器への音声認識技術の適用が図られている。この結果、小型機器に入力された音声についての高い認識率を実現している。
特開2002-049390号公報
しかしながら、上記従来技術に示したクライアント・サーバ型音声認識処理は、リアルタイムでの音声認識処理を前提としており、利用時(音声入力時)にクライアントである機器がサーバとネットワークで接続されていることが必要である。このため、例えば、写真へのテキストアノテーションの付与に、当該クライアント・サーバ型音声認識処理をそのまま適用しようとすると、写真撮影時においても無線で常時接続されていなければならないこととなる。しかし、デジタルカメラやPDAなどのように、小型機器のうちモバイル機器として持ち歩いて使用する、いわゆる携帯情報端末の場合、無線によりサーバと常時接続しておくことは携帯情報端末本来の機能を制約することとなり妥当でない。また、音声認識を利用するたびにダイアルアップ接続することも考えられるが、これは非常に煩わしい。
一方、携帯情報端末の場合、上述の写真へのテキストアノテーションの付与の例に示すように、必ずしもリアルタイム性を必要としない音声認識処理の利用方法もあり、目的に即した音声認識機能が望まれている。
本発明は、上記課題に鑑みてなされたものであり、携帯情報端末を介して入力された音声についての音声認識処理において、高い認識率を実現するとともに、利用方法に適した音声認識機能を付加することで、携帯情報端末の利便性を向上させることを目的とする。
上記の目的を達成するために本発明に係る携帯情報端末は以下のような構成を備える。即ち、
入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末であって、
入力された音声を解析し、抽出された特徴量に関する情報を蓄積する蓄積手段と、
前記蓄積手段に蓄積された特徴量に関する情報を、前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記特徴量に関する情報を前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量に関する情報を送信することを特徴とする。
入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末であって、
入力された音声を解析し、抽出された特徴量に関する情報を蓄積する蓄積手段と、
前記蓄積手段に蓄積された特徴量に関する情報を、前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記特徴量に関する情報を前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量に関する情報を送信することを特徴とする。
本発明によれば、携帯情報端末を介して入力された音声についての音声認識処理において、高い認識率を実現するとともに、利用方法に適した音声認識機能を付加することで、携帯情報端末の利便性を向上させることが可能となる。
以下、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。
[第1の実施形態]
本実施形態では、図1に示すように、ユーザが携帯情報端末としてPDAを用いて音声入力を行い、これをPCに取り込んでPC側で音声データをテキストに変換するケースを想定する。図1において、101はユーザが使用するPDA、102はPCである。
本実施形態では、図1に示すように、ユーザが携帯情報端末としてPDAを用いて音声入力を行い、これをPCに取り込んでPC側で音声データをテキストに変換するケースを想定する。図1において、101はユーザが使用するPDA、102はPCである。
図2は、本実施形態に係るPDA101およびPC102のブロック図である。同図において、201は、ユーザの発声を取り込む音声入力部であり、202は、入力された音声データを分析し、特徴パラメータを抽出する特徴分析部である。また、203は、特徴パラメータを保持する特徴パラメータ保持部であり、204は、特徴パラメータをPC102に送信する特徴パラメータ送信部である。
さらに、205は、PDA101から特徴パラメータを受信する特徴パラメータ受信部、206は、特徴パラメータを入力として音声認識処理を行い、認識結果であるテキストを出力する音声認識部、207は、音声認識部206が出力したテキストをテキストファイルとして保持するテキストファイル保持部である。
図3は、本実施形態に係るPDA101のハードウエア構成を示す図である。同図において、301はCPUであり、後述するPDA101の動作手順を実現するプログラムに従って動作する。
302はRAMであり、上記プログラムの動作に必要な記憶領域を提供する。303はROMであり、上記プログラムの動作手順を実現するプログラムを保持する。304は液晶表示装置(LCD)であり、GUIの表示やスタイラスによるタッチ入力を受け付ける。
305はマイクであり、ユーザからの音声入力を取り込む。306は通信デバイスであり、PC102と無線でデータをやり取りする。本実施形態ではブルートゥースを想定している。307はバスである。
図4は、本実施形態に係るPC102のハードウエア構成を示す図である。同図において、401はCPUであり、後述するPC102の動作手順を実現するプログラムに従って動作する。402はRAMであり、上記プログラムの動作に必要な記憶領域を提供する。403はROMであり、後述する手順を実現するプログラムを保持する。404はCRTであり、GUIの表示などを行う。405はキーボード、406はマウスである。また、407は通信デバイスであり、PDA101と無線でデータをやり取りする。本実施形態ではブルートゥースを想定している。408はバスである。
では、図5のフローチャートに沿って、本実施形態におけるPDA101およびPC102の動作を説明する。まず、PDA101では、すでに保存されている特徴パラメータのデータをPC102へアップロードする指示がユーザによってなされたか否かをチェックし(ステップS501)、指示があれば、PC102へアップロードする(ステップS505)。本実施形態では、アップロードはブルートゥースによる無線通信を用いている。一方、アップロード指示がない場合は、ユーザからの音声入力があるか否かをチェックし(ステップS502)、音声入力があれば、その音声を取り込む。取り込んだ音声を分析して特徴パラメータを抽出し(ステップS503)、これを保持する(ステップS504)。この特徴パラメータの抽出方法やそのデータ形式は従来技術を利用するものとし、本発明の対象外である。従来技術として、例えば、ETSI(the European Telecommunications Standards Institute)は、ES201 108 DSR frontendという標準仕様を勧告している。
以上の一連の処理は、なんらかの終了条件(ステップS506)が成立しない限り、ステップS501に戻って継続されることとなる。
一方、PC102においては、まず、PDA101から特徴パラメータの受信をチェックし(ステップS507)、受信があれば、これを入力として音声認識処理を行い(ステップS508)、その出力である認識結果のテキストを保持する(ステップS509)。なんらかの終了条件(ステップS510)が成立しない限り、ステップS507に戻って動作を継続する。
以上の説明から明らかなように、本実施形態によれば、PDAにフロントエンド処理を行わせ、PCにデコード処理を行わせることで、小メモリのPDAに入力された音声を高い認識率で音声認識することが可能となる。また、入力された音声から抽出された特徴量は、PCへのアップロード指示を受けてアップロードされ、アップロード時にPC側にて音声認識処理が実行される構成とすることにより、PDAとPCとを常時通信可能な状態にしておく必要がなくなる。この結果、ユーザは、PDAを持ち歩いて、メモを残したい場合にその内容を音声入力しておき、オフィスに戻ってPCにPDAのデータを取り込んだ後、音声入力した内容をテキスト情報として利用できることとなるなど、利用目的に即した音声認識機能の付加により、PDAの利便性が向上する。
[第2の実施形態]
続いて、図面を参照して本発明の第2の実施形態について詳細を説明する。
続いて、図面を参照して本発明の第2の実施形態について詳細を説明する。
本実施形態では、図6に示すように、ユーザが携帯情報端末としてデジタルカメラを用いて写真を撮影し、その写真にテキストアノテーションとして付与したい内容を音声で入力し、これをPCに取り込んで所定のアプリケーションに与えた際に、そのアプリケーションでテキストアノテーションに変換するケースを想定する。図6において、601は、ユーザが使用するデジタルカメラ、602はPC、603は、デジタルカメラからPCへ画像データを取り込むときに用いるUSBケーブルである。
図7は、本実施形態に係るデジタルカメラ601およびPC602のブロック図である。同図において、701は、ユーザの発声を取り込む音声入力部、702は、入力された音声データを分析し、特徴パラメータを抽出する特徴分析部、703は、特徴パラメータを撮影した写真の画像データにメタデータとして付与する特徴パラメータ付与部である。
また、704は撮像部、705は撮像部704で撮像した画像データを保持する画像保持部、706は画像保持部705に保持された画像データをPC602に送信する画像送信部である。
さらに、707はデジタルカメラ601から画像データを受信する画像受信部、708は画像データに付与された特徴パラメータを入力として音声認識処理を行い、認識結果であるテキストを出力する音声認識部、709は音声認識部708が出力したテキストを対象画像にテキストアノテーションとして付与するテキストアノテーション付与部、710はテキストアノテーション付与部709でテキストアノテーションを付与された画像データを保持し管理する画像管理部である。
図8は、本実施形態に係るデジタルカメラ601のハードウエア構成を示す図である。同図において、801はCPUであり、後述するデジタルカメラ601の動作手順を実現するプログラムに従って動作する。
802はRAMであり、上記プログラムの動作に必要な記憶領域を提供する。803はROMであり、上記プログラムの動作手順を実現するプログラムを保持する。804は液晶表示装置(LCD)であり、GUIの表示を行う。805は通信デバイスであり、PC602とデータをやり取りする。本実施形態ではUSBを想定している。806はCCDであり画像を撮像する。807はバスである。
図9は、本実施形態に係るPC602のハードウエア構成を示す図である。同図において、901はCPUであり、後述するPC602の動作手順を実現するプログラムに従って動作する。902はRAMであり、上記プログラムの動作に必要な記憶領域を提供する。903はROMであり、後述する手順を実現するプログラムを保持する。904はCRTであり、GUIの表示などを行う。905はキーボード、906はマウスである。907は通信デバイスであり、デジタルカメラ601とデータのやり取りをする。本実施形態ではUSBを想定している。908はバスである。
では、図10のフローチャートに沿って、本実施形態におけるデジタルカメラ601およびPC602の動作を説明する。まず、デジタルカメラ601では、すでに保存されている画像データをPC602へアップロードする指示がユーザによってなされたか否かをチェックし(ステップS1001)、指示があれば、PC602へアップロードする(ステップS1008)。本実施形態では、アップロードにはUSBを用いている。
アップロード指示がない場合は、次に写真の撮像がなされたか否かをチェックし(ステップS1002)、撮像がなされた場合はこれを保持し(ステップS1003)、続いて、ユーザからの音声入力があるか否かをチェックする(ステップS1004)。音声入力は、シャッターを押した直後に行うケースや、特定のボタンの押下など、撮像後所定の操作に伴って行うケースもある。音声入力でアノテーションを付与したい画像が指示できさえすればどのようなやり方でもよい。
音声入力があれば、その音声を取り込む。取り込んだ音声を分析して特徴パラメータを抽出し(ステップS1005)、これを撮像した写真の画像データのメタデータとして付与する(ステップS1006)。この特徴パラメータの抽出方法やそのデータ形式は、従来技術を利用するものとし、本発明の対象外である。従来技術として、例えば、ETSI(the European Telecommunications Standards Institute)は、ES201 108 DSR frontendという標準仕様を勧告している。画像データに特徴パラメータをメタデータとして付与したものは、図11の(a)のようになる。以上の一連の処理は、なんらかの終了条件(ステップS1007)が成立しない限り、ステップS1001に戻って継続される。
一方、PC602においては、まず、デジタルカメラ601から画像データの受信をチェックし(ステップS1009)、受信があれば、各画像データからメタデータとして付与された特徴パラメータを取り出す(ステップS1010)。これを入力として音声認識処理を行い(ステップS1011)、その出力である認識結果のテキストをテキストアノテーションとしてその画像データに付与する(ステップS1012)。画像データにテキストアノテーションを付与したものは、図11の(b)のようになる。以上の一連の処理は、なんらかの終了条件(ステップS1013)が成立しない限り、ステップS1009に戻って継続される。
以上の説明から明らかなように、本実施形態によれば、デジタルカメラにフロントエンド処理を行わせ、PCにデコード処理を行わせることで、小メモリのデジタルカメラに入力された音声を高い認識率で音声認識することが可能となる。また、入力された音声から抽出された特徴量は、PCへの画像データのアップロード指示を受けて画像データとともにアップロードされ、アップロード時にPC側にて音声認識処理が実行される構成とすることにより、デジタルカメラとPCとを常時通信可能な状態にしておく必要がなくなる。この結果、ユーザは、デジタルカメラを持ち歩いて写真を撮影し、その写真の簡単な説明などを音声入力し、自宅でデジタルカメラに撮りためた写真の画像データをPCに取り込んで所定のアプリケーションで処理することで、音声入力した内容をテキスト情報として各写真の画像データに付与することができ、これをその後の検索などに利用できることとなる。このように、利用目的に即した音声認識機能を付加することにより、デジタルカメラの利便性が向上する。
[第3の実施形態]
上記第2の実施形態では、デジタルカメラ601で画像に付与した特徴パラメータのメタデータおよびPC602上で画像に付与したテキストアノテーションを、図11のような形式で表現していたが、例えば、図12のように、XMLを用いた表現にしてもよい。
上記第2の実施形態では、デジタルカメラ601で画像に付与した特徴パラメータのメタデータおよびPC602上で画像に付与したテキストアノテーションを、図11のような形式で表現していたが、例えば、図12のように、XMLを用いた表現にしてもよい。
[第4の実施形態]
上記第2の実施形態では、デジタルカメラで撮った写真をPCに送信するケースを扱っていた。これに対し、デジタルカメラで撮った写真をインターネット経由でアップロードすることで、これらを保管・管理するサービスがあり、フォトサイトなどと呼ばれている。こうしたフォトサイトのサーバが、上記第2の実施形態のPC602の同様の処理を行い、画像データに付与された特徴パラメータからテキストアノテーションの付与を行うようにしても、上記第2の実施形態と同様の効果を得ることができる。なお、図13にその場合の構成図を示す。
上記第2の実施形態では、デジタルカメラで撮った写真をPCに送信するケースを扱っていた。これに対し、デジタルカメラで撮った写真をインターネット経由でアップロードすることで、これらを保管・管理するサービスがあり、フォトサイトなどと呼ばれている。こうしたフォトサイトのサーバが、上記第2の実施形態のPC602の同様の処理を行い、画像データに付与された特徴パラメータからテキストアノテーションの付与を行うようにしても、上記第2の実施形態と同様の効果を得ることができる。なお、図13にその場合の構成図を示す。
[第5の実施形態]
上記第1および第2の実施形態では、入力された音声データに対し、特徴パラメータのみを送信することとしたが、この場合、PC側に取り込んだ後、PC側にてその入力音声を再生できない。一方、音声認識処理において誤認識が生じた場合、PC側にて元の音声をユーザが確認できた方が望ましい。そこで、本実施形態にかかる携帯情報端末では、特徴パラメータとともに、音声データを送信できる機能を有する。ただし、入力された音声データをそのままの形で送信するのはデータサイズが増えるという問題があるため、音声データは適当な圧縮をかけることとする。このようにすることで、音声認識に用いるデータは圧縮前の音声データから抽出した特徴パラメータであるため認識率の低下を抑えることができ、さらに、誤認識が生じた場合の再生確認用のデータは圧縮した音声データであるため、データサイズを抑えることができる。
上記第1および第2の実施形態では、入力された音声データに対し、特徴パラメータのみを送信することとしたが、この場合、PC側に取り込んだ後、PC側にてその入力音声を再生できない。一方、音声認識処理において誤認識が生じた場合、PC側にて元の音声をユーザが確認できた方が望ましい。そこで、本実施形態にかかる携帯情報端末では、特徴パラメータとともに、音声データを送信できる機能を有する。ただし、入力された音声データをそのままの形で送信するのはデータサイズが増えるという問題があるため、音声データは適当な圧縮をかけることとする。このようにすることで、音声認識に用いるデータは圧縮前の音声データから抽出した特徴パラメータであるため認識率の低下を抑えることができ、さらに、誤認識が生じた場合の再生確認用のデータは圧縮した音声データであるため、データサイズを抑えることができる。
[他の実施形態]
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される情報機器などの装置が含まれることは言うまでもない。
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される情報機器などの装置が含まれることは言うまでもない。
Claims (7)
- 入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末であって、
入力された音声を解析し、抽出された特徴量に関する情報を蓄積する蓄積手段と、
前記蓄積手段に蓄積された特徴量に関する情報を、前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記特徴量に関する情報を前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量に関する情報を送信することを特徴とする携帯情報端末。 - 入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末であって、
撮像された画像を蓄積する画像蓄積手段と、
前記撮像された画像と関連付けて入力された音声を解析し、抽出された特徴量に関する情報を前記画像と関連付けて蓄積する特徴量蓄積手段と、
前記画像蓄積手段に蓄積された画像と、該画像と関連付けられた特徴量に関する情報とを前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記画像と特徴量に関する情報とを前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記画像と特徴量に関する情報を送信することを特徴とする携帯情報端末。 - 情報処理装置と、該情報処理装置と通信可能な携帯情報端末とを備える情報処理システムであって、
前記携帯情報端末は、
撮像された画像を蓄積する画像蓄積手段と、
前記撮像された画像と関連付けて入力された音声を解析し、抽出された特徴量に関する情報を前記画像と関連付けて蓄積する特徴量蓄積手段と、
前記画像蓄積手段に蓄積された画像と、該画像と関連付けられた特徴量に関する情報とを前記情報処理装置に送信するための送信指示を受け付ける指示受付手段と、
前記画像と特徴量に関する情報とを前記情報処理装置に送信するための送信手段と、を備え、
前記送信手段は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記画像と特徴量に関する情報を送信し、
前記情報処理装置は、
前記送信手段により送信された前記画像と特徴量に関する情報とを受信する受信手段と、
前記受信された特徴量に関する情報に基づいて音声認識処理し、テキストデータを生成する音声認識手段と、
前記生成されたテキストデータを前記受信した画像の付帯情報として該画像と関連付けて保存する保存手段と
を備えることを特徴とする情報処理システム。 - 入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末における情報処理方法であって、
入力された音声を解析し、抽出された特徴量に関する情報を蓄積する蓄積工程と、
前記蓄積工程において蓄積された特徴量に関する情報を、前記情報処理装置に送信するための送信指示を受け付ける指示受付工程と、
前記特徴量に関する情報を前記情報処理装置に送信するための送信工程と、を備え、
前記送信工程は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記画像と特徴量に関する情報を送信することを特徴とする情報処理方法。 - 入力された音声を解析することで得られた特徴量に関する情報を受信し、当該特徴量に関する情報に基づいて音声認識処理する情報処理装置と通信可能な携帯情報端末における情報処理方法であって、
撮像された画像を蓄積する画像蓄積工程と、
前記撮像された画像と関連付けて入力された音声を解析し、抽出された特徴量に関する情報を前記画像と関連付けて蓄積する特徴量蓄積工程と、
前記画像蓄積工程において蓄積された画像と、該画像と関連付けられた特徴量に関する情報とを前記情報処理装置に送信するための送信指示を受け付ける指示受付工程と、
前記画像と特徴量に関する情報とを前記情報処理装置に送信するための送信工程と、を備え、
前記送信工程は、前記情報処理装置と通信可能な状態において前記送信指示を受け付けた場合に、前記特徴量に関する情報を送信することを特徴とする情報処理方法。 - 請求項4または5のいずれか1つに記載の情報処理方法をコンピュータによって実現させるための制御プログラムを格納した記憶媒体。
- 請求項4または5のいずれか1つに記載の情報処理方法をコンピュータによって実現させるための制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003355384A JP2005121815A (ja) | 2003-10-15 | 2003-10-15 | 携帯情報端末、情報処理システム、情報処理方法ならびにプログラム、記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003355384A JP2005121815A (ja) | 2003-10-15 | 2003-10-15 | 携帯情報端末、情報処理システム、情報処理方法ならびにプログラム、記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005121815A true JP2005121815A (ja) | 2005-05-12 |
Family
ID=34613000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003355384A Withdrawn JP2005121815A (ja) | 2003-10-15 | 2003-10-15 | 携帯情報端末、情報処理システム、情報処理方法ならびにプログラム、記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005121815A (ja) |
-
2003
- 2003-10-15 JP JP2003355384A patent/JP2005121815A/ja not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11616820B2 (en) | Processing files from a mobile device | |
EP1583346B1 (en) | Image input apparatus | |
US20070245223A1 (en) | Synchronizing multimedia mobile notes | |
CN101101779B (zh) | 数据记录和再现设备以及产生元数据的方法 | |
CN101340500B (zh) | 用于产生具有物体信息的图像文件的方法和装置 | |
US20070245229A1 (en) | User experience for multimedia mobile note taking | |
JP2005276187A (ja) | 画像識別方法および端末装置 | |
JP2006190296A (ja) | マルチメディア通信システムにおけるコンテキスト抽出及びこれを用いた情報提供装置及び方法 | |
JP2006085681A (ja) | データ転換及びシェアのシステム及び方法 | |
JP6396021B2 (ja) | カメラの画像データ圧縮方法及びこれを支援する端末 | |
JP2005121815A (ja) | 携帯情報端末、情報処理システム、情報処理方法ならびにプログラム、記憶媒体 | |
JP2019135609A (ja) | 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム | |
JP2003204506A (ja) | 画像入力装置 | |
JP2004078837A (ja) | 情報処理装置およびその制御方法、ならびにプログラム | |
JP2002044598A (ja) | 記録装置および記録方法 | |
JP2007334553A (ja) | 情報端末装置、情報処理装置、作業記録データ変換装置、作業記録保管用サーバ装置、閲覧装置、作業記録編集装置、活動支援システム、情報端末プログラム、情報処理プログラム、作業記録データ変換プログラム、作業記録保管用サーバプログラム、閲覧プログラム、編集プログラム、情報端末プログラム、情報処理プログラム、作業記録データ変換プログラム、作業記録保管用サーバプログラムまたは編集プログラムを記録した記録媒体 | |
CN118861382A (zh) | 资源推荐方法、装置、设备及存储介质 | |
JP2001307108A (ja) | 情報処理装置、動作認識待機状態表示方法及びプログラム格納媒体 | |
JP2001318929A (ja) | 情報発信装置、情報受信装置、システム及び制御方法 | |
CN118963762A (zh) | 一种.rsp文件解析与编译的方法、装置、终端及存储介质 | |
JP2002176674A (ja) | 撮像手段付き携帯電話装置 | |
JP2006146651A (ja) | ウェブページ生成装置、ウェブページ生成方法、ウェブページ表示装置、ウェブページ表示方法、およびコンピュータプログラム | |
JP2019159333A (ja) | 文字入力支援システム、文字入力支援プログラム | |
JP2000285168A (ja) | 情報処理装置、情報処理方法、媒体及び画像編集処理システム | |
KR20060065914A (ko) | 휴대 단말기의 다운로드 파일 예약 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070109 |