[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6068901B2 - 情報端末、音声操作プログラムおよび音声操作方法 - Google Patents

情報端末、音声操作プログラムおよび音声操作方法 Download PDF

Info

Publication number
JP6068901B2
JP6068901B2 JP2012211731A JP2012211731A JP6068901B2 JP 6068901 B2 JP6068901 B2 JP 6068901B2 JP 2012211731 A JP2012211731 A JP 2012211731A JP 2012211731 A JP2012211731 A JP 2012211731A JP 6068901 B2 JP6068901 B2 JP 6068901B2
Authority
JP
Japan
Prior art keywords
application
category
search term
voice
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012211731A
Other languages
English (en)
Other versions
JP2014068170A (ja
Inventor
神田 敦彦
敦彦 神田
勇人 竹之内
勇人 竹之内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2012211731A priority Critical patent/JP6068901B2/ja
Priority to PCT/JP2013/074975 priority patent/WO2014050625A1/ja
Priority to US14/431,728 priority patent/US20150262583A1/en
Publication of JP2014068170A publication Critical patent/JP2014068170A/ja
Application granted granted Critical
Publication of JP6068901B2 publication Critical patent/JP6068901B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72469User interfaces specially adapted for cordless or mobile telephones for operating the device by selecting functions from two or more displayed items, e.g. menus or icons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72469User interfaces specially adapted for cordless or mobile telephones for operating the device by selecting functions from two or more displayed items, e.g. menus or icons
    • H04M1/72472User interfaces specially adapted for cordless or mobile telephones for operating the device by selecting functions from two or more displayed items, e.g. menus or icons wherein the items are sorted according to specific criteria, e.g. frequency of use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明は、情報端末、音声操作プログラムおよび音声操作方法に関し、特に音声入力によって操作可能な、情報端末、音声操作プログラムおよび音声操作方法に関する。
音声入力によって操作可能な情報端末の一例が特許文献1に開示されている。特許文献1の音声認識/応答型携帯電話では、利用者は音声操作によって電話発信機能およびメール機能などを任意に実行することが出来る。
特開2008−53937号公報[H04M 1/00, G10L 15/00, H04M 1/26, G06F 3/16]
近頃の携帯電話機では、利用者は任意のアプリケーションを携帯電話機に自由にインストールすることが出来る。この場合、自由にアプリケーションがインストールされた場合、類似するアプリケーションが複数インストールされることがある。また、利用者は、多数のアプリケーションをインストールした場合、自身がインストールしたアプリケーションの全てを把握できなくなることがある。このような状態では、以下の問題が発生する。
たとえば、カメラに関するアプリケーションが複数インストールされている携帯電話機に対して、音声操作として「カメラを起動」が音声入力されても、カメラに関するアプリケーションが複数あるため、携帯電話機はどのアプリケーションを実行すればよいか判断できない。この場合、アプリケーション名を音声入力すれば、そのアプリケーションを起動することは可能ではあるが、利用者がインストールしたアプリケーションを把握できていなければ、ユーザは、所望のアプリケーションを指定することが出来ない。
それゆえに、この発明の主たる目的は、新規な、情報端末、音声操作プログラムおよび音声操作方法を提供することである。
この発明の他の目的は、音声操作の利便性が高い、情報端末、音声操作プログラムおよび音声操作方法を提供することである。
この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために記述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。
第1の発明は、実行可能なアプリケーションについて、カテゴリと各カテゴリに対応するアプリケーション名を含むアプリケーションテーブルを記憶するアプリケーションテーブル記憶部、入力音声の認識結果から検索語を抽出する検索語抽出部、検索語がアプリケーションテーブルに含まれるどれかのカテゴリであるとき、当該カテゴリに含まれるアプリケーションを実行する第1アプリケーション実行部、検索語がアプリケーションテーブルに含まれるどれかのアプリケーション名であるとき、当該アプリケーション名が示すアプリケーションを実行する第2アプリケーション実行部、検索語がアプリケーションテーブルに含まれるカテゴリでもなくかつアプリケーション名でもないとき、ブラウザ機能を実行するブラウザ機能実行部を備える、情報端末である。
第2の発明は、第1の発明に従属し、それぞれのアプリケーションの利用履歴を記憶する利用履歴記憶部をさらに備え、第1アプリケーション実行部は、検索語がアプリケーションテーブルに含まれるどれかのカテゴリであって当該カテゴリに複数のアプリケーション名が含まれているとき、利用履歴に基づいて、実行すべきアプリケーションを絞り込む絞り込み部を含む、情報端末である
第3の発明は、第2の発明に従属し、絞り込み部によって絞り込まれた複数のアプリケーションを表示する表示部をさらに備え、第1アプリケーション実行部は、絞り込まれた結果に対して選択操作がされたとき、選択された結果に基づいてアプリケーションを実行する、情報端末である。
第4の発明は、第2または第3の発明に従属し、現在位置を測位する測位部をさらに備え、利用履歴は位置情報を含み、絞り込み部は現在位置から所定範囲内で実行されたアプリケーションをまず絞り込み、さらに利用履歴に基づいてアプリケーションを絞り込む、情報端末である
第5の発明は、第1ないし第4のいずれかの発明に従属し、ウェブページの閲覧頻度を記憶する閲覧頻度記憶部をさらに備え、ブラウザ実行部は、閲覧頻度の多いフェブページに接続する、情報端末である。
第6の発明は、実行可能なアプリケーションについて、カテゴリと各カテゴリに対応するアプリケーション名を含むアプリケーションテーブルを記憶するアプリケーションテーブル記憶部を備える情報端末のプロセッサを、入力音声の認識結果から検索語を抽出する検索語抽出部、検索語がアプリケーションテーブルに含まれるどれかのカテゴリであるとき、当該カテゴリに含まれるアプリケーションを実行する第1アプリケーション実行部、検索語がアプリケーションテーブルに含まれるどれかのアプリケーション名であるとき、当該アプリケーション名が示すアプリケーションを実行する第2アプリケーション実行部、検索語がアプリケーションテーブルに含まれるカテゴリでもなくかつアプリケーション名でもないとき、ブラウザ機能を実行するブラウザ機能実行部として機能させる、音声操作プログラムである。
第7の発明は、実行可能なアプリケーションについて、カテゴリと各カテゴリに対応するアプリケーション名を含むアプリケーションテーブルを記憶するアプリケーションテーブル記憶部を備える、情報端末のプロセッサが、入力音声の認識結果から検索語を抽出し、検索語がアプリケーションテーブルに含まれるどれかのカテゴリであるとき、当該カテゴリに含まれるアプリケーションを実行し、検索語がアプリケーションテーブルに含まれるどれかのアプリケーション名であるとき、当該アプリケーション名が示すアプリケーションを実行し、そして検索語がアプリケーションテーブルに含まれるカテゴリでもなくかつアプリケーション名でもないとき、ブラウザ機能を実行する、音声操作方法である。
この発明によれば、音声操作の利便性を向上させることが出来る。
この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1はこの発明の一実施例の携帯電話機を示す外観図であり、図1(A)は携帯電話機の主面を示し、図1(B)は携帯電話機の他面を示す。 図2は図1に示す携帯電話機の電気的な構成を示す図解図である。 図3は図1に示すRAMに記憶されるローカルデータベースの構成の一例を示す図解図である。 図4は図1に示すRAMに記憶される利用履歴データの構成の一例を示す図解図である。 図5は図1に示すRAMに記憶されるアプリケーションテーブルの構成の一例を示す図解図である。 図6は図1に示すディスプレイに表示される待機画面の一例を示す図解図である。 図7は図1に示すマイクおよびスピーカを利用して行われる音声操作の一例を示す図解図であり、図7(A)は音声操作機能が有効な状態を示し、図7(B)は音声操作が行われている状態の一例を示し、図7(C)は音声操作によって標準カメラが実行されている状態の一例を示す。 図8は図1に示すマイクおよびスピーカを利用して行われる音声操作の一例を示す図解図であり、図8(A)は音声操作機能が有効な状態を示し、図8(B)は音声操作が行われている状態の他の一例を示し、図8(C)は候補一覧が表示されている状態の一例を示す。 図9は図2に示すRAMのメモリマップの一例を示す図解図である。 図10は図2に示すプロセッサの履歴記録処理の一例を示すフロー図である。 図11は図2に示すプロセッサの音声操作処理の一部の一例を示すフロー図である。 図12は図2に示すプロセッサの音声操作処理の他の一部の一例であって、図11に後続するフロー図である。 図13は図2に示すプロセッサの音声操作処理のその他の一部の一例であって、図12に後続するフロー図である。 図14は図1に示すRAMに記憶される閲覧履歴データの構成の一例を示す図解図である。 図15は図1に示すRAMに記憶されるURLテーブルの構成の一例を示す図解図である。 図16は図1に示すマイクおよびスピーカを利用して行われる音声操作の一例を示す図解図であり、図16(A)は音声操作機能が有効な状態を示し、図16(B)は音声操作が行われている状態のその他の一例を示し、図16(C)は音声操作によってブラウザ機能が実行されている状態の一例を示す。 図17は図2に示すRAMのメモリマップ一部の一例を示す図解図である。 図18は図2に示すプロセッサの音声操作処理のさらにその他の一部の一例である。
<第1実施例>
図1(A),(B)を参照して、この発明の一実施例の携帯電話機10は、一例としてスマートフォン(smart phone)であり、縦長の扁平矩形のハウジング12を含む。ただし、この発明は、タブレット端末、PDAおよびナビゲーション端末など任意の情報端末に適用可能であることを予め指摘しておく。
ハウジング12の主面(表面)には、表示装置とも呼ばれる、たとえば液晶や有機ELなどのディスプレイ14が設けられる。ディスプレイ14の上には、タッチパネル16が設けられる。したがって、この実施例の携帯電話機10では、後述のハードキーの操作によるものを除く大部分の入力操作は、このタッチパネル16を介して行われる。
ハウジング12の縦方向一端の主面側に第1スピーカ18が内蔵され、縦方向他端の主面側にマイク20が内蔵される。
ハウジング12の主面には、タッチパネル16と共に入力操作手段を構成するハードキーとして、この実施例では、通話キー22a、終話キー22bおよびメニューキー22cが設けられる。
また、ハウジング12の裏面(他面)の縦方向一端には、カメラモジュール52(図2参照)に通じるレンズ開口24が設けられている。また、ハウジング12の裏面には、第2スピーカ26が内蔵される。
たとえば、ユーザは、ディスプレイ14に表示されたダイヤルキーに対して、タッチパネル16によってタッチ操作を行うことで電話番号を入力でき、通話キー22aを操作して音声通話を開始することが出来る。ユーザは終話キー22bを操作すれば、音声通話を終了することが出来る。なお、ユーザは、終話キー22bを長押しすることによって、携帯電話機10の電源をオン/オフすることが出来る。
また、メニューキー22cを操作すれば、ディスプレイ14にメニュー画面が表示され、その状態でディスプレイ14に表示されているソフトキーやメニューアイコンなどに対して、タッチパネル16によるタッチ操作を行うことによって所望の機能を実行することが出来る。
さらに、詳細な説明は後述するが、カメラ機能が実行されると、カメラモジュール52が起動し、ディスプレイ14に被写界と対応するプレビュー画像(スルー画像)が表示される。そして、ユーザは、レンズ開口24が設けられている裏面を被写体に向けて撮影操作を行うことで、被写体を撮影することが出来る。
また、携帯電話機10には、複数のアプリケーションがインストールされている。まず、カメラ系のアプリケーションとして、標準カメラおよびAR(Augmented Reality)カメラがインストールされている。標準カメラは、携帯電話機10にプレインストール(プリインストールとも言う。)されているものであり、撮影操作に応じて画像を保存するアプリケーションである。ARカメラは、ユーザが任意にインストールしたものであり、スルー画像に重ねて情報を表示するアプリケーションである。
また、メール系のアプリケーションとしては、電子メール(Eメール)、SMS(Short Message Service)およびMMS(Multimedia Message Service)がインストールされている。
さらに、ブラウザ、アドレス帳、スケジュール、時刻、音楽プレーヤ、動画プレーヤなどのアプリケーションもインストールされており、ユーザはこれらのアプリケーションを任意に起動させることが出来る。
図2を参照して、図1に示す実施例の携帯電話機10は、コンピュータまたはCPUと呼ばれるプロセッサ30などを含む。プロセッサ30には、無線通信回路32、A/D変換器36、第1D/A変換器38、第2D/A変換機40、入力装置42、表示ドライバ44、フラッシュメモリ46、RAM48、タッチパネル制御回路50およびカメラモジュール52などが接続される。
また、無線通信回路32はアンテナ34を介して、ネットワーク(通信網、電話網)100と無線接続される。サーバ102は、有線または無線で、ネットワーク100と接続される。
プロセッサ30は、携帯電話機10の全体制御を司る。また、プロセッサ30は、日時情報を出力するRTC30aを含む。記憶部として機能するRAM48には、フラッシュメモリ46に予め設定されているプログラムの全部または一部が使用に際して展開され、プロセッサ30はこのRAM48上のプログラムに従って動作する。なお、RAM48はさらに、プロセッサ30のワーキング領域ないしバッファ領域として用いられる。
入力装置42は、図1に示す、ハードキー22a−cを含むものであり、操作部または入力部を構成する。ユーザが操作したハードキーの情報(キーデータ)はプロセッサ30に入力される。
無線通信回路32は、アンテナ34を通して、音声通話やメールなどのための電波を送受信するための回路である。実施例では、無線通信回路32は、CDMA方式での無線通信を行うための回路である。たとえば、ユーザが入力装置42を操作して電話発信(発呼)を指示すると、無線通信回路32は、プロセッサ30の指示の下、電話発信処理を実行し、アンテナ34を介して電話発信信号を出力する。電話発信信号は、基地局および通信網を経て相手の電話機に送信される。そして、相手の電話機において着信処理が行われると、通信可能状態が確立され、プロセッサ30は通話処理を実行する。
A/D変換器36には図1に示すマイク20が接続される。マイク20からの音声信号はこのA/D変換器36を通してディジタルの音声データとしてプロセッサ30に入力される。一方、第1D/A変換器38には第1スピーカ18が接続され、第2D/A変換機40には第2スピーカ26が接続される。第1D/A変換器38および第2D/A変換機40は、ディジタルの音声データを音声信号に変換して、アンプを介して第1スピーカ18および第2スピーカ26に与える。したがって、音声データの音声が第1スピーカ18および第2スピーカ26から出力される。そして、通話処理が実行されている状態では、マイク20によって集音された音声が相手の電話機に送信され、相手の電話機で集音された音声が、第1スピーカ18から出力される。また、着信音や、後述する音声操作における音声が、第2スピーカ26から出力される。
表示ドライバ44には図1に示すディスプレイ14が接続され、ディスプレイ14はプロセッサ30から出力される映像または画像データに従って映像または画像を表示する。つまり、表示ドライバ44は、プロセッサ30の指示の下、当該表示ドライバ44に接続されたディスプレイ14の表示を制御する。また、表示ドライバ44は表示する画像データを一時的に記憶するビデオメモリを含む。ディスプレイ14には、たとえばLEDなどを光源とするバックライトが設けられており、表示ドライバ44はプロセッサ30の指示に従って、そのバックライトの明るさや、点灯/消灯を制御する。
タッチパネル制御回路50には、図1に示すタッチパネル16が接続される。タッチパネル制御回路50は、タッチパネル16に必要な電圧などを付与するとともに、ユーザによるタッチの開始を示すタッチ開始信号、ユーザによるタッチの終了を示す終了信号、およびタッチ位置を示す座標データをプロセッサ30に入力する。したがって、プロセッサ30はこの座標データに基づいて、ユーザが、どのアイコンやキーにタッチしたかを判断することができる。
実施例では、タッチパネル16は、その表面と表面に接近した指などの物体との間に生じる静電容量の変化を検出する静電容量方式のタッチパネルである。タッチパネル16は、たとえば1本または複数本の指がタッチパネル16に触れたことを検出する。そのため、タッチパネル16はポインティングデバイスとも呼ばれる。タッチパネル制御回路50は検出部として機能し、タッチパネル16のタッチ有効範囲内でのタッチ操作を検出して、そのタッチ操作の位置を示す座標データをプロセッサ30に出力する。つまり、ユーザは、タッチパネル16の表面に対してタッチ操作を行うことによって、操作位置や、操作方向などを携帯電話機10に入力する。なお、本実施例のタッチ操作には、タップ操作、ロングタップ操作、フリック操作、スライド操作などが含まれる。
カメラモジュール52は制御回路、レンズおよびイメージセンサなどを含む。プロセッサ30は、カメラ機能を実行する操作がされると、制御回路およびイメージセンサを起動する。そして、イメージセンサから出力された信号に基づく画像データがプロセッサ30に入力されると、被写体に対応するプレビュー画像がディスプレイ14に表示される。
また、携帯電話機10は、マイク20に入力された音声を認識する音声認識機能および合成音声のデータベースに基づいて音声メッセージを出力する発話機能と、これらの機能を利用する音声操作機能とを有している。そして、本実施例の音声操作機能は、自然言語の音声入力に対応している。
たとえば、音声操作機能が実行されている携帯電話機10に対して、ユーザが「自宅に電話をかける。」と携帯電話機10に音声を入力すれば、音声認識機能によってユーザの音声が認識される。また、認識された音声に基づいて、携帯電話機10は、発話機能によって「自宅に発信しますか。」と応答メッセージを出力する。このとき、ユーザが「発信する」と応答すれば、携帯電話機10は、アドレス帳から自宅として登録されている電話番号を読み出し、その電話番号に対して発呼する。このように、音声操作機能が実行されていれば、ユーザはタッチパネル16に対するタッチ操作を行うことなく、携帯電話機10を操作できる。そして、ユーザは、音声ガイダンス(応答メッセージ)の内容を聞くことで、携帯電話機10の状態を把握しやすくなる。
図3は入力音声を認識するためのローカルデータベース332(図9参照)である。図3を参照して、ローカルデータベース332は、文字列と特徴量との列を含む。文字列の列には、たとえば「カメラ」および「メール」などの文字列が記録されおり、対応する特徴量の内容を表す。特徴量の列には、特徴量が格納されている場所を示すメモリアドレスが記録されている。特徴量とは、特定の文字列を発声した音声データから抽出されたものである。そして、入力音声が認識される際、この特徴量が利用される。
具体的に説明すると、ユーザが音声入力を行い音声認識の処理が開始されると、入力音声からユーザの特徴量(以下、単にユーザ特徴量)が抽出され、ローカルデータベース332から読み出された各特徴量と比較される。ユーザ特徴量と各特徴量との各比較結果は尤度として算出され、最も大きい尤度と対応する特徴量が特定される。そして、特定された特徴量と対応する文字列が、ローカルデータベース332から読み出され、読み出された文字列が認識結果となる。たとえば、ユーザが音声入力を行い、入力音声のユーザ特徴量に基づいて読み出された文字列が「カメラ」であれば、認識結果は「カメラ」となる。
ただし、最も大きい尤度が所定値以下の場合、つまり入力音声がローカルデータベースに登録されていない場合、入力音声をサーバ102に送信し、サーバ102で音声認識処理が実行されてもよい。そして、サーバ102で行われた音声認識の結果が、携帯電話機10に返送される。このように、音声入力に対して、携帯電話機10にてローカルデータベースを利用した一部の音声認識処理を行うことで、音声認識の結果を得るまでの時間を短縮することが出来る。また、サーバ102に係る音声認識処理の負担を軽減することも出来る。
図4はユーザが携帯電話機10で利用したアプリケーションの履歴を示す利用履歴データの構成を示す図解図である。利用履歴データには、日時の列とアプリケーション名の列とが含まれる。日時の列には、アプリケーションが実行された日時が記録される。アプリケーション名の列には、実行されたアプリケーションの名称が記録される。たとえば、20XX年8月XX日、13時19分33秒にSMSが実行されると、日時の列には、その時の日時を表す文字列として「20XX/08/XX 13:19:33」が記録され、アプリケーション名の欄には「SMS」が記録される。
なお、日時を表す文字列、つまり時刻情報はRTC30aから取得される。また、利用履歴データは、ユーザログと呼ばれることもある。
図5は各アプリケーションの利用頻度を示すアプリケーションテーブルの構成の一例を示す図解図である。図5を参照して、アプリケーションテーブルには、カテゴリの列、アプリケーション名の列および利用頻度の列が含まれる。カテゴリの列には、インストールされているアプリケーションのカテゴリとして、「カメラ」および「メール」などが記録される。アプリケーション名の列には、カテゴリの欄に対応してアプリケーションの名称が記録される。たとえば、「カメラ」のカテゴリに対応するアプリケーションとして「標準カメラ」および「ARカメラ」が記録され、「メール」のカテゴリに対応するアプリケーションとして「電子メール」、「SMS」および「MMS」が記録される。利用頻度の列には、アプリケーション名の欄に対応して、所定期間(たとえば、一週間)内でそのアプリケーションが実行された回数(頻度)が記録される。
たとえば、カテゴリが「カメラ」に分類される、「標準カメラ」のアプリケーションは一週間以内に7回起動されており、「ARカメラ」のアプリケーションは一週間以内に1回起動されている。また、カテゴリが「メール」に分類される「電子メール」および「MMS」は一週間以内に、それぞれ4回ずつ起動され、「SMS」は一週間以内に3回起動されている。
図6を参照して、ディスプレイ14は状態表示領域70および機能表示領域72を含み、機能表示領域72には待機画面が表示されている。状態表示領域70には、アンテナ34による電波受信状態を示すアイコン(ピクト)、二次電池の残電池容量を示すアイコンおよび日時が表示される。機能表示領域72には、アプリケーションの実行や、携帯電話機10の設定を変更するためのアイコンが表示される。
ここで、音声操作機能が実行されると、図7(A)に示すように、音声操作アイコンVIが状態表示領域70に表示される。上述したように、音声操作機能は、自然言語の音声入力に対応している。ところが、自然言語の音声入力の場合、ユーザの音声入力による指示が曖昧になってしまうことがある。曖昧な音声入力の例として、たとえば「カメラを使いたい」のように、アプリケーション名ではなく、カテゴリが指示されることがある。このような入力がされた場合、カメラのカテゴリには「標準カメラ」および「ARカメラ」が含まれているため、携帯電話機10はどのアプリケーションを実行すればよいか判断できない。
そこで、本実施例では、各アプリケーションの利用頻度に基づいて、曖昧な音声入力に対応する。具体的には、アプリケーションテーブルに記録される、各アプリケーションの利用頻度に基づいて、音声入力の結果が絞り込まれる。
たとえば、図7(B)に示すように、ユーザが「カメラを使いたい」と音声入力を行った場合、音声認識の認識結果には「カメラ」が含まれるため、「カメラ」が検索語として抽出される。検索語が抽出されると、その検索語がアプリケーションテーブルに含まれるか検索される。ここでは、検索語がカテゴリである「カメラ」と一致するため、「カメラ」の内容、つまり「標準カメラ」および「ARカメラ」の2つが検索結果(特定情報)として取得される。
そして、検索結果が複数の場合、各アプリケーションに対応する利用頻度に基づいて、検索結果が絞り込まれる。ここでは、「標準カメラ」の利用頻度が「7」であり、「ARカメラ」の利用頻度が「1」であるため、「標準カメラ」だけに絞り込まれる。したがって、携帯電話機10は、「カメラを起動します」の音声メッセージを出力した後に、「標準カメラ」を起動する。
図7(C)を参照して、「標準カメラ」が起動すると、ディスプレイ14にはスルー画像表示される。また、撮影操作を行うための撮影キーSKが表示される。そして、撮影キーSKに対してタッチ操作がされると、撮影処理が行われる。なお、撮影キーSKが表示されている状態で、ユーザが「撮影する」と音声入力を行っても、撮影処理が行われる。
このように、ユーザの利用履歴に基づいて検索結果を絞り込むことで、音声操作の利便性を向上させることが出来る。
次に、絞り込まれたアプリケーションが複数の場合について説明する。図8(A),(B)を参照して、音声操作機能が実行されている状態でユーザが「メールを送る」と音声入力を行った場合、「メール」が検出語として抽出される。また、この検索語に基づいて、「電子メール」、「SMS」および「MMS」の3つが検索結果として取得され、利用頻度に基づいて絞り込まれる。ところが、「電子メール」および「MMS」の利用頻度はそれぞれが同じ値であり、かつ最大値であるため、1つに絞り込むことが出来ない。そのため、携帯電話機10は、「複数の候補があります」と音声メッセージを出力したのちに、アプリケーションの候補一覧をディスプレイ14に表示する。
図8(C)を参照して、ディスプレイ14には、候補一覧として、電子メールを実行するための第1実行キーAK1およびMMSを実行するための第2実行キーAK2が表示される。そして、ユーザは、表示されている候補一覧のうち、実行しようとしているアプリケーションと対応する実行キーAKを操作すれば、所望のアプリケーションを利用することが出来る。
このように、検索結果を絞り込むことが出来ない場合は、候補一覧を表示することで、ユーザに利用するアプリケーションを選択させることが出来る。
また、ユーザの音声入力でアプリケーション名が指示された場合は、認識結果に対応するアプリケーションが実行される。ただし、所定時間(たとえば、15秒)以内にアプリケーションが終了されると、音声認識の認識結果のおける2番目の候補に基づいて、候補一覧が表示される。
たとえば、音声認識の認識結果において最も尤度が高い特徴量に対応する文字列が「SMS」であり、次に尤度が高い特徴量に対応する文字列が「MMS」であった場合、認識結果は「SMS」となり、SMSが実行される。この状態で、所定時間以内にSMSが終了されると、音声認識の認識結果において次に尤度が高い「MMS」が検索語として再取得される。検索語が再取得されると、アプリケーションテーブルにおいて検索語が再検索され、ここでは「MMS」のアプリケーション名が検索結果として再取得される。検索結果としてアプリケーション名が再取得された場合は、そのアプリケーションが属するカテゴリのアプリケーションが候補一覧として表示される。つまり、「電子メール」、「SMS」および「MMS」を含む候補一覧が、ディスプレイ14に表示される。
また、音声入力に基づく検索語によって検索した結果、検索結果を取得することが出来なければ、つまり検索語に対応するアプリケーションがアプリケーションテーブルに登録されていなければ、ブラウザ機能が実行される。ブラウザ機能が実行されると、所定の検索サイトに接続され、検索サイトにおいて検索語が検索される。そして、検索サイトで検索された結果がディスプレイ14に表示される。つまり、アプリケーションテーブルに登録されていない言葉が音声入力されたとしても、ユーザに対して検索語に基づく情報を提供することが出来る。
なお、検索結果の全てのアプリケーションの利用頻度が同じであっても、候補一覧が表示されてもよい。また、他の実施例では、各アプリケーションの利用頻度の差が所定値以下(たとえば、「1」)の場合でも、候補一覧が表示されてもよい。
また、音声操作機能は、メニューキー22cが長押しされると、音声操作機能が実行される。ただし、他の実施例では、音声操作機能を実行するためのソフトキー(アイコン)がディスプレイ14に表示されていてもよい。
また、アプリケーションが実行されているときに、「違う」または「ほかのアプリケーション」などの音声が入力されると、実行中のアプリケーションは終了される。また、他の実施例では、アプリケーションが終了した後に、音声操作機能が再び実行されてもよい。
以上で実施例の特徴を概説したが、以下には、図9に示すメモリマップおよび図10、図11−図13に示すフロー図を用いて詳細に説明する。
図9を参照して、図2に示すRAM48には、プログラム記憶領域302とデータ記憶領域304とが形成される。プログラム記憶領域302は、先に説明したように、フラッシュメモリ46(図2)に予め設定しているプログラムデータの一部または全部を読み出して記憶(展開)しておくための領域である。
プログラム記憶領域302には、利用履歴を記録するための利用履歴記録プログラム310、音声入力によって携帯電話機10を操作するための音声操作プログラム312および入力音声を認識するための音声認識プログラム314などが記憶される。なお、プログラム記憶領域302には、各アプリケーションを実行するためのプログラムも含まれる。
続いて、RAM48のデータ記憶領域304には、音声認識バッファ330が設けられると共に、ローカルデータベース332、利用履歴データ334およびアプリケーションテーブル336が記憶される。また、データ記憶領域304には、誤判定カウンタ338も設けられる。
音声認識バッファ330には、音声入力された音声のデータおよび音声認識の結果が一時的に記憶される。ローカルデータベース332は、たとえば図3に示す構成のデータベースである。利用履歴データ334は、たとえば図4に示す構成のデータである。アプリケーションテーブル336は、たとえば図5に示す構成のテーブルである。
誤判定カウンタ338は、音声操作によってアプリケーションが実行されてからの時間をカウントするためのカウンタである。誤判定カウンタ338は初期化されると、カウントを開始し所定時間(たとえば、15秒)が経過すると満了する。そのため、誤判定カウンタ340は、誤判定タイマと呼ばれることもある。
なお、データ記憶領域304には、コピーまたは切り取りによって記憶される文字列のデータや、待機状態で表示される画像データなどが記憶されると共に、携帯電話機10の動作に必要なカウンタや、フラグも設けられる。
プロセッサ30は、Android(登録商標)およびREXなどのLinux(登録商標)ベースのOSや、その他のOSの制御下で、図10に示す履歴記録処理、図11−図13に示す音声操作処理などを含む、複数のタスクを並列的に処理する。
図10を参照して、履歴記録処理は、携帯電話機10の電源がオンにされると、開始される。ステップS1でプロセッサ30は、アプリケーションが実行されたか否かを判断する。たとえば、アプリケーションを実行する操作がされたかが判断される。ステップS1で“NO”であれば、つまりアプリケーションが実行されなければ、プロセッサ30はステップS1の処理を繰り返す。一方、ステップS1で“YES”であれば、つまりアプリケーションが実行されると、プロセッサ30は、ステップS3で日時を取得し、ステップS5でアプリケーション名を取得する。つまり、アプリケーションが実行されると、アプリケーションが実行された日時とアプリケーション名とが取得される。なお、日時はRTC30aが出力する時刻情報を利用して取得される。
続いて、ステップS7でプロセッサ30は、利用履歴を記録する。つまり、上記ステップS3,S5で取得された日時とアプリケーション名とを関連付けて、アプリケーションテーブル336に記録する。なお、ステップS7の処理が終了すると、プロセッサ30はステップS1に戻る。
図11は、音声操作処理の一部のフロー図である。音声操作機能を実行する操作がされると、プロセッサ30は、ステップS21でアイコンを表示する。つまり、情報表示領域70に、音声操作アイコンVIが表示される。続いて、ステップS23でプロセッサ30は、アプリケーションテーブルの利用頻度を更新する。つまり、アプリケーションテーブルの利用頻度の列の値が、現時点から所定期間内に利用されたアプリケーションの利用頻度に基づいて更新される。具体的には、アプリケーションテーブルの利用頻度の列に記録されている数値が一度「0」に置き換えられる。その後、利用履歴データ334に記録されている所定期間分の利用履歴が読み出され、各アプリケーションの利用頻度が再び記録される。
続いて、ステップS25でプロセッサ30は、音声が入力されたか否かを判断する。つまり、ユーザが発した音声がマイク20によって収音されたかが判断される。ステップS25で“NO”であれば、つまり音声が入力されていなければ、プロセッサ30はステップS25の処理を繰り返す。ステップS25で“YES”であれば、つまり音声が入力されると、ステップS27でプロセッサ30は、音声認識処理を実行する。つまり、入力された音声からユーザ特徴量を抽出して各特徴量との尤度を求め、最も尤度が高い特徴量と対応する文字列が認識結果とされる。
続いて、ステップS29でプロセッサ30は、認識結果から検索語を抽出する。たとえば、音声入力の認識結果から、「カメラ」の文字列が検索語として抽出される。続いて、ステップS31でプロセッサ30は、検索語に基づいて検索する。つまり、検索語がアプリケーションテーブルに含まれているかを検索する。そして、検索語がアプリケーションテーブルに記録される文字列のうち、いずれかと一致すれば、一致した文字列に基づいて検索結果が得られる。
続いて、図12を参照して、ステップS33でプロセッサ30は、検索結果はカテゴリか否かを判断する。つまり、プロセッサ30は、検索語がアプリケーションテーブルの「カテゴリ」の列の文字列と一致したかを判断する。ステップS33で“NO”であれば、つまり検索結果がカテゴリではなければ、ステップS51に進む。
また、ステップS33で“YES”であれば、たとえば検索結果が「カメラ」であり、アプリケーションテーブルの「カメラ」のカテゴリと一致していた場合、ステップS35でプロセッサ30は、検索結果に対応するカテゴリの内容を取得する。たとえば、「カメラ」のカテゴリに含まれる、「標準カメラ」および「ARカメラ」が取得される。なお、ステップS35の処理を実行するプロセッサ30は取得部として機能する。
続いて、ステップS37でプロセッサ30は、複数のアプリケーションが含まれているか否かを判断する。つまり、プロセッサ30は、ステップS35で取得されたカテゴリの内容に複数のアプリケーションが含まれているかを判断する。ステップS37で“NO”であれば、つまり取得されたカテゴリの内容に複数のアプリケーションが含まれていなければ、プロセッサ30はステップS49に進む。
また、ステップS37で“YES”であれば、複数のアプリケーションが含まれていれば、ステップS39でプロセッサ30は、絞り込み処理を実行する。つまり、複数のアプリケーションに対応する利用履歴に基づいて、最も利用履歴が多いアプリケーションを選択する。そして、選択されたアプリケーションが、絞り込まれた結果となる。なお、ステップS39の処理を実行するプロセッサ30は絞り込み部として機能する。
続いて、ステップS41でプロセッサ30は、絞り込んだ結果が1つだけか否かを判断する。つまり、プロセッサ30は、利用履歴に基づいて絞り込まれたアプリケーションが1つだけであるかを判断する。ステップS41で“YES”であれば、たとえば絞り込まれたアプリケーションが「標準カメラ」だけであれば、プロセッサ30はステップS49に進む。
また、ステップS41で“NO”であれば、たとえば絞り込まれたアプリケーションが「電子メール」および「MMS」であれば、ステップS43でプロセッサ30は、候補一覧を表示する。たとえば、図8(C)に示すように、候補一覧として電子メールおよびMMSをそれぞれ実行するために、アプリケーション名が書かれた第1実行キーAK1および第2実行キーAK2がディスプレイ14に表示される。なお、ステップS43の処理を実行するプロセッサ30は表示部として機能する。
続いて、ステップS45でプロセッサ30は、選択されたか否かを判断する。つまり、表示された候補一覧に基づいて、任意のアプリケーションが選択されたかが判断される。具体的には、プロセッサ30は、表示された候補一覧のなかから、任意の実行キーAKに対してタッチ操作がされたかを判断する。ステップS45で“NO”であれば、つまりアプリケーションが選択されていなければ、プロセッサ30はステップS45の処理を繰り返す。一方、ステップS45で“YES”であれば、たとえば「電子メール」に対応する第1実行キーAK1に対してタッチ操作がされると、ステップS47でプロセッサ30は、選択されたアプリケーションを実行する。たとえば、ステップS47では、電子メールが実行される。そして、ステップS47の処理が終了すれば、プロセッサ30は音声操作処理を終了する。
また、検索結果のカテゴリに含まれるアプリケーションが1つであるか、絞り込み処理によって絞り込まれたアプリケーションが1つであれば、プロセッサ30はステップS49で、アプリケーションを実行する。たとえば、絞り込まれたアプリケーションが「標準カメラ」だけであれば、プロセッサ30は標準カメラを実行する。そして、ステップS49の処理が終了すれば、プロセッサ30は音声操作処理を終了する。
なお、ステップS47およびステップS49の処理を実行するプロセッサ30は実行部として機能する。
図13を参照して、検索結果がカテゴリと一致していなければ、ステップS51でプロセッサ30は、検索結果はアプリケーション名か否かを判断する。つまり、ステップS51で“YES”であれば、たとえばアプリケーションテーブルの「SMS」と一致すれば、ステップS53でプロセッサ30は、検索結果に対応するアプリケーション名を取得する。たとえば、アプリケーション名として「SMS」が取得される。
続いて、ステップS55でプロセッサ30は、アプリケーションを実行する。たとえば、取得されたアプリケーション名(「SMS」)に基づいて、SMSが実行される。続いて、ステップS57でプロセッサ30は、誤判定タイマを初期化する。つまり、アプリケーションが実行されてからの時間を計測するために、誤判定カウンタ338が初期化される。
続いて、ステップS59でプロセッサ30は、誤判定タイマが満了したか否かを判断する。つまり、アプリケーションが実行されてから所定時間が経過したかが判断される。ステップS59で“NO”であれば、つまりアプリケーションが実行されてから所定時間が経過していなければ、ステップS61でプロセッサ30は、終了が指示されたか否かを判断する。つまり、プロセッサ30は、実行中のアプリケーションを終了させる音声入力や、入力操作があるかを判断する。ステップS61で“NO”であれば、つまり実行中のアプリケーションを終了する操作がされなければ、プロセッサ30はステップS59に戻る。また、ステップS59で“YES”であれば、つまりアプリケーションが実行されてから所定時間が経過すれば、プロセッサ30は音声操作処理を終了する。
ステップS61で“YES”であれば、たとえば音声により「違う」と入力されると、ステップS63でプロセッサ30は、認識結果を再取得する。ステップS63では、まず実行中のアプリケーションが終了される。次に、音声認識バッファ330から、音声認識の認識結果のおける2番目の候補が取得される。続いて、プロセッサ30はステップS43に進み、候補一覧を表示する。たとえば、ステップS43では、再取得された認識結果が「MMS」である場合、MMSが分類されているカテゴリに含まれているアプリケーションが、候補一覧としてディスプレイ14に表示される。
また、検索結果がアプリケーション名ではなければ、つまり検索語がアプリケーションテーブルに含まれていなければ、プロセッサ30は、ステップS65でブラウザ機能を実行し、ステップS67で検索サイトに接続する。なお、ステップS65の処理を実行するプロセッサ30はブラウザ機能実行部として機能し、ステップS67の処理を実行するプロセッサ30は検索部として機能する。
続いて、プロセッサ30は、ステップS69で検索語を検索サイトで検索し、ステップS71でweb(ウェブ)ページを表示する。たとえば、検索語が「晩御飯」であれば、検索サイトで「晩御飯」の文字列を含むサイトが検索され、その検索結果を示すwebページがディスプレイ14に表示される。そして、ステップS71の処理が終了すれば、プロセッサ30は音声操作処理を終了する。なお、ステップS71の処理を実行するプロセッサ30は、webページ表示部として機能する。
<第2実施例>
第2実施例では、音声操作によってブラウザ機能が実行されたときに、ユーザのwebページの閲覧頻度に基づいて、webページが表示される。なお、携帯電話機10の基本的な構成については、第1実施例と略同じであるため、詳細な説明は省略する。
図14はユーザがブラウザ機能によって閲覧したwebページの履歴を示す閲覧履歴データの構成を示す図解図である。図14を参照して、閲覧履歴データには、日時の列およびURLの列が含まれる。日時の列には、webページが閲覧された日時が記録される。URLの列には、閲覧したwebページに対応するURLが記録される。たとえば、20XX年7月17日、14時35分40秒に、「http://sports.***.com/」に対応するwebページが、ブラウザ機能によって表示されると、時刻の欄には、その時の日時を表す文字列として「20XX/07/17 14:35:42」が記録され、URLの欄には「http://sports.***.com/」が記録される。
図15はwebページの閲覧頻度が記録されるURLテーブルの構成の一例を示す図解図である。図15を参照して、URLテーブルには、URLの列および閲覧頻度の列が含まれる。URLの列には、今までに閲覧されたwebページのURLが記録される。閲覧頻度の列には、URLの欄に対応して、記録されるURLに対応するwebページが所定期間内に閲覧された頻度が記録される。たとえば、図15に示すURLテーブルによれば、「http://sports.***.com/」に対応するwebページは、所定期間内に30回閲覧されたことが分かる。
次に、音声入力によってブラウザ機能が実行される場合について説明する。図16(A),(B)を参照して、音声操作機能が実行されている状態でユーザが「昨日の野球の試合結果を教えて」と音声入力を行った場合、「野球」および「試合結果」が検索語として抽出される。2つの検索語はアプリケーションテーブルには含まれていないため、ブラウザ機能が実行される。このとき、URLテーブル342(図17参照)に基づいて最も閲覧頻度が高いwebページに接続される。そして、接続されたwebページで検索語が検索され、その検索結果がディスプレイ14に表示される。
図16(C)を参照して、閲覧頻度が最も高い「*** sports」のwebページで検索された、前日の野球の試合結果がディスプレイ14に表示される。このように、ユーザのwebページの閲覧頻度に基づいて、検索結果を提供することが出来る。
なお、webページで検索語を検索する場合、ページ内に検索フォームが設けられていればその検索フォームを利用して、検索結果が取得される。一方、検索フォームが設けられていない場合は、文字列検索によって検索語と一致するリンクを特定し、そのリンク先のwebページが検索結果として取得される。
以上で第2実施例の特徴を概説したが、以下には、図17に示すメモリマップおよび図18に示すフロー図を用いて詳細に説明する。
第2実施例のRAM48のデータ記憶領域304には、閲覧履歴データ340およびURLテーブル342が記憶される。閲覧履歴データ340は、たとえば図14に示す構成のデータである。URLテーブル342は、たとえば図15に示す構成のテーブルである。
図18は、第2実施例の音声操作処理のフロー図の一部である。なお、第2実施例の音声操作処理では、ステップS21−S65は、第1実施例と同じであるため、詳細な説明は省略する。
ステップS65でブラウザ機能が実行されると、ステップS91でプロセッサ30は、閲覧頻度が高いwebページに接続する。つまり、URLテーブル342を読み出し、最も閲覧頻度が高いURLに対応するwebページに接続する。たとえば、ステップS91では、図15に示すURLテーブル342に基づいて、「http://sports.***.com/」に対応するwebページに接続される。
続いて、ステップS93でプロセッサ30は、検索語を接続したwebページで検索する。たとえば、検索語が「野球」および「試合結果」であれば、これらの検索語が接続されたwebページ内の検索フォームなどを利用して検索される。
続いて、ステップS71でプロセッサ30は、webページを表示する。たとえば、図16(C)に示すように、最も閲覧頻度が高いwebページにおいて検索語が検索された結果が、ディスプレイ14に表示される。
なお、第1実施例および第2実施例については、任意に組み合わせることが可能であり、その組み合わせについては容易に想像できるため、ここでの詳細な説明は省略する。
また、アプリケーションのカテゴリは、「カメラ」および「メール」以外にも、「ゲーム」および「地図」などが含まれていてもよい。
また、携帯電話機10がGPS回路およびGPSアンテナをさらに備え、現在位置を測位することが出来る場合、アプリケーションの利用履歴には、位置情報が含まれていてもよい。そして、検索結果を絞り込む場合に、この位置情報が利用されてもよい。具体的には、複数のアプリケーションのうち、現在位置から所定範囲内で実行されたことのあるアプリケーションに絞り込まれてから、利用履歴に基づいてアプリケーションがさらに絞り込まれる。たとえば、自宅では標準カメラのアプリケーションが主に利用されるが、自宅外ではARカメラが主に利用される場合、自宅外で音声操作機能によって「カメラ」が実行されると、ARカメラが自動的に実行されるようになる。
また、他の実施例では、携帯電話機10は、特定情報に対する絞り込み処理の結果としてARカメラおよび標準カメラが得られた場合、2つのアプリケーションの選択画面をディスプレイ14に表示してもよい。その際、自宅外であれば、ARカメラは上位の位置に表示し、標準カメラはARカメラの下位の位置に表示する。一方、自宅であれば、標準カメラは上位の位置に表示し、ARカメラは標準カメラの下位の位置に表示する。
さらに、その他の実施例としては、アプリケーション名を上位の位置に表示せずに、アプリケーション名を示す文字列の色やサイズが変更されてもよい。
このように処理することで、ユーザは、複数の候補が表示されたとしても、特定の場所で主に利用するアプリケーションが、どのアプリケーションであるかを容易に認識することが出来る。つまり、ユーザは、特定の場所で主に利用するアプリケーションを容易に選択することが出来る。
上記実施例では、携帯電話機10にローカルデータベース(音声認識用辞書)を設けることで、一次的な音声認識処理は携帯電話機10で行い、二次的な音声認識処理はサーバ102で実行したが、他の実施例では携帯電話機10だけで音声認識処理を行うようにしてもよいし、サーバ102だけで音声認識処理を行うようにしてもよい。
また、携帯電話機10が視線入力に対応している場合、キー操作およびタッチ操作に加えて、視線操作によって携帯電話機10が操作されてもよい。
また、本実施例で用いられたプログラムは、データ配信用のサーバのHDDに記憶され、ネットワークを介して携帯電話機10に配信されてもよい。また、CD,DVD,BDなどの光学ディスク、USBメモリおよびメモリカードなどの記憶媒体に複数のプログラムを記憶させた状態で、その記憶媒体が販売または配布されてもよい。そして、上記したサーバや記憶媒体などを通じてダウンロードされた、プログラムが本実施例と同等の構成の情報端末にインストールされた場合、本実施例と同等の効果が得られる。
そして、本明細書中で挙げた、具体的な数値は、いずれも単なる一例であり、製品の仕様変更などに応じて適宜変更可能である。
10 … 携帯電話機
14 … ディスプレイ
16 … タッチパネル
30 … プロセッサ
30a … RTC
42 … 入力装置
46 … フラッシュメモリ
48 … RAM
100 … ネットワーク
102 … サーバ

Claims (7)

  1. 実行可能なアプリケーションについて、カテゴリと各カテゴリに対応するアプリケーション名を含むアプリケーションテーブルを記憶するアプリケーションテーブル記憶部、
    入力音声の認識結果から検索語を抽出する検索語抽出部、
    前記検索語が前記アプリケーションテーブルに含まれるどれかのカテゴリであるとき、当該カテゴリに含まれるアプリケーションを実行する第1アプリケーション実行部、
    前記検索語が前記アプリケーションテーブルに含まれるどれかのアプリケーション名であるとき、当該アプリケーション名が示すアプリケーションを実行する第2アプリケーション実行部、
    前記検索語が前記アプリケーションテーブルに含まれるカテゴリでもなくかつアプリケーション名でもないとき、ブラウザ機能を実行するブラウザ機能実行部を備える、情報端末。
  2. それぞれのアプリケーションの利用履歴を記憶する利用履歴記憶部をさらに備え、
    前記第1アプリケーション実行部は、前記検索語が前記アプリケーションテーブルに含まれるどれかのカテゴリであって当該カテゴリに複数のアプリケーション名が含まれているとき、前記利用履歴に基づいて、実行すべきアプリケーションを絞り込む絞り込み部を含む、請求項1記載の情報端末。
  3. 前記絞り込み部によって絞り込まれた複数のアプリケーションを表示する表示部をさらに備え、
    前記第1アプリケーション実行部は、前記絞り込まれた結果に対して選択操作がされたとき、選択された結果に基づいてアプリケーションを実行する、請求項2記載の情報端末。
  4. 現在位置を測位する測位部をさらに備え、
    前記利用履歴は位置情報を含み、
    前記絞り込み部は前記現在位置から所定範囲内で実行されたアプリケーションをまず絞り込み、さらに前記利用履歴に基づいてアプリケーションを絞り込む、請求項2または3記載の情報端末。
  5. ウェブページの閲覧頻度を記憶する閲覧頻度記憶部をさらに備え、
    前記ブラウザ実行部は、前記閲覧頻度の多いフェブページに接続する、請求項1ないし4のいずれかに記載の情報端末。
  6. 実行可能なアプリケーションについて、カテゴリと各カテゴリに対応するアプリケーション名を含むアプリケーションテーブルを記憶するアプリケーションテーブル記憶部を備える情報端末のプロセッサを、
    入力音声の認識結果から検索語を抽出する検索語抽出部、
    前記検索語が前記アプリケーションテーブルに含まれるどれかのカテゴリであるとき、当該カテゴリに含まれるアプリケーションを実行する第1アプリケーション実行部、
    前記検索語が前記アプリケーションテーブルに含まれるどれかのアプリケーション名であるとき、当該アプリケーション名が示すアプリケーションを実行する第2アプリケーション実行部、
    前記検索語が前記アプリケーションテーブルに含まれるカテゴリでもなくかつアプリケーション名でもないとき、ブラウザ機能を実行するブラウザ機能実行部
    として機能させる、音声操作プログラム。
  7. 実行可能なアプリケーションについて、カテゴリと各カテゴリに対応するアプリケーション名を含むアプリケーションテーブルを記憶するアプリケーションテーブル記憶部を備える、情報端末のプロセッサが、
    入力音声の認識結果から検索語を抽出し、
    前記検索語が前記アプリケーションテーブルに含まれるどれかのカテゴリであるとき、当該カテゴリに含まれるアプリケーションを実行し、
    前記検索語が前記アプリケーションテーブルに含まれるどれかのアプリケーション名であるとき、当該アプリケーション名が示すアプリケーションを実行し、そして
    前記検索語が前記アプリケーションテーブルに含まれるカテゴリでもなくかつアプリケーション名でもないとき、ブラウザ機能を実行する、音声操作方法。
JP2012211731A 2012-09-26 2012-09-26 情報端末、音声操作プログラムおよび音声操作方法 Active JP6068901B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012211731A JP6068901B2 (ja) 2012-09-26 2012-09-26 情報端末、音声操作プログラムおよび音声操作方法
PCT/JP2013/074975 WO2014050625A1 (ja) 2012-09-26 2013-09-17 情報端末および音声操作方法
US14/431,728 US20150262583A1 (en) 2012-09-26 2013-09-17 Information terminal and voice operation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012211731A JP6068901B2 (ja) 2012-09-26 2012-09-26 情報端末、音声操作プログラムおよび音声操作方法

Publications (2)

Publication Number Publication Date
JP2014068170A JP2014068170A (ja) 2014-04-17
JP6068901B2 true JP6068901B2 (ja) 2017-01-25

Family

ID=50388031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012211731A Active JP6068901B2 (ja) 2012-09-26 2012-09-26 情報端末、音声操作プログラムおよび音声操作方法

Country Status (3)

Country Link
US (1) US20150262583A1 (ja)
JP (1) JP6068901B2 (ja)
WO (1) WO2014050625A1 (ja)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102380145B1 (ko) 2013-02-07 2022-03-29 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
KR102069322B1 (ko) * 2013-06-05 2020-02-11 삼성전자주식회사 프로그램 실행 방법 및 그 전자 장치
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10270901B2 (en) * 2014-01-15 2019-04-23 Yulong Computer Telecommunication Scientific (Shenzhen) Co., Ltd. Message prompting method and message prompting apparatus
US10073603B2 (en) * 2014-03-07 2018-09-11 Nokia Technologies Oy Method and apparatus for providing notification of a communication event via a chronologically-ordered task history
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
JP6575518B2 (ja) * 2014-06-25 2019-09-18 ソニー株式会社 表示制御装置、表示制御方法およびプログラム
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
JP6413443B2 (ja) * 2014-07-31 2018-10-31 カシオ計算機株式会社 電子機器、プログラム及び通信システム
CN105488042B (zh) * 2014-09-15 2019-07-09 小米科技有限责任公司 音频信息的存储方法及装置
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
JP6960716B2 (ja) * 2015-08-31 2021-11-05 株式会社デンソーテン 入力装置、表示装置、入力装置の制御方法およびプログラム
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017167366A (ja) * 2016-03-16 2017-09-21 Kddi株式会社 通信端末、通信方法及びプログラム
US10282218B2 (en) * 2016-06-07 2019-05-07 Google Llc Nondeterministic task initiation by a personal assistant module
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
KR102038147B1 (ko) * 2018-11-27 2019-10-29 이정오 음성인식 앱/위젯 관리를 수행하는 휴대 단말기 및 앱/위젯 관리 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
JP7441028B2 (ja) * 2019-10-29 2024-02-29 キヤノン株式会社 制御装置、制御方法、及びプログラム
CN113129887B (zh) * 2019-12-31 2024-07-05 华为技术有限公司 一种语音控制方法及装置
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922810B1 (en) * 2000-03-07 2005-07-26 Microsoft Corporation Grammar-based automatic data completion and suggestion for user input
US6985865B1 (en) * 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US20030101060A1 (en) * 2001-11-29 2003-05-29 Bickley Corine A. Use of historical data for a voice application interface
WO2004077291A1 (ja) * 2003-02-25 2004-09-10 Matsushita Electric Industrial Co., Ltd. アプリケーションプログラムの予測方法及び移動体端末
US8073697B2 (en) * 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
EP2275953B1 (en) * 2009-06-30 2018-10-24 LG Electronics Inc. Mobile terminal
JP5638210B2 (ja) * 2009-08-27 2014-12-10 京セラ株式会社 携帯電子機器
JP2011071937A (ja) * 2009-09-28 2011-04-07 Kyocera Corp 電子機器
JP5351855B2 (ja) * 2010-08-10 2013-11-27 ヤフー株式会社 情報家電システム、情報取得方法及びプログラム
JP5101759B2 (ja) * 2010-11-10 2012-12-19 楽天株式会社 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
US8938391B2 (en) * 2011-06-12 2015-01-20 Microsoft Corporation Dynamically adding personalization features to language models for voice search
US20130018659A1 (en) * 2011-07-12 2013-01-17 Google Inc. Systems and Methods for Speech Command Processing
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US20150088523A1 (en) * 2012-09-10 2015-03-26 Google Inc. Systems and Methods for Designing Voice Applications

Also Published As

Publication number Publication date
US20150262583A1 (en) 2015-09-17
WO2014050625A1 (ja) 2014-04-03
JP2014068170A (ja) 2014-04-17

Similar Documents

Publication Publication Date Title
JP6068901B2 (ja) 情報端末、音声操作プログラムおよび音声操作方法
US10841265B2 (en) Apparatus and method for providing information
US9213467B2 (en) Interaction method and interaction device
KR101713167B1 (ko) 폴더블 디바이스 및 그 제어 방법
US9582146B2 (en) Causing display of search results
CN112955856B (zh) 在分屏上显示可执行应用的列表的电子装置及其操作方法
JP6051338B2 (ja) ページロールバック制御方法、ページロールバック制御装置、端末、プログラム及び記録媒体
JP2014194786A (ja) 移動通信装置及びそれによる文脈検索方法
CN103841656A (zh) 移动终端及其数据提供方法
CN110989847B (zh) 信息推荐方法、装置、终端设备及存储介质
JP2013225226A (ja) 情報端末、表示制御プログラムおよび表示制御方法
KR101947462B1 (ko) 사용자 디바이스에서 단축번호 제공 방법 및 장치
JP6403368B2 (ja) 携帯端末、画像検索プログラムおよび画像検索方法
CN105446602B (zh) 定位文章关键词的装置和方法
JP2013125372A (ja) 文字表示装置、補助情報出力プログラムおよび補助情報出力方法
CN109240512A (zh) 计算机设备、键盘及界面展示方法、装置
KR20120026458A (ko) 데이터 관리 장치, 데이터 관리 방법 및 기록 매체
CN101605164A (zh) 手持装置的信息关联系统及方法
JP5947145B2 (ja) 携帯通信端末、情報表示プログラムおよび情報表示方法
WO2010134363A1 (ja) 携帯端末
CN111818225B (zh) 音频数据的处理方法、终端设备及存储介质
KR101431274B1 (ko) 휴대용 단말기의 터치 입력 인식 방법 및 이를 수행하는휴대용 단말기
KR101212943B1 (ko) 브라우저에서 키 이벤트 발생에 따른 최상위 페이지 제공 방법
KR20160072466A (ko) 주소록 검색 기능을 제공하는 통신 단말기 및 이 방법을 실행시키기 위하여 매체에 저장된 프로그램
KR20150022588A (ko) 전자 장치 및 전자 장치의 태그 정보 처리 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161226

R150 Certificate of patent or registration of utility model

Ref document number: 6068901

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150