[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2008052676A - コンピュータ実行可能なプログラム、方法、および処理装置 - Google Patents

コンピュータ実行可能なプログラム、方法、および処理装置 Download PDF

Info

Publication number
JP2008052676A
JP2008052676A JP2006231236A JP2006231236A JP2008052676A JP 2008052676 A JP2008052676 A JP 2008052676A JP 2006231236 A JP2006231236 A JP 2006231236A JP 2006231236 A JP2006231236 A JP 2006231236A JP 2008052676 A JP2008052676 A JP 2008052676A
Authority
JP
Japan
Prior art keywords
sheet
cell
information
input
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006231236A
Other languages
English (en)
Inventor
Yoshinori Miyamoto
義徳 宮本
Isao Kobayashi
功 小林
Shinji Sonehara
真二 曽根原
Yoshiharu Asai
芳治 浅井
Masaaki Uto
正明 宇渡
Haruna Aizawa
はる奈 相沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRESCENT ONE CO Ltd
Tokyo Electric Power Company Holdings Inc
Original Assignee
CRESCENT ONE CO Ltd
Tokyo Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRESCENT ONE CO Ltd, Tokyo Electric Power Co Inc filed Critical CRESCENT ONE CO Ltd
Priority to JP2006231236A priority Critical patent/JP2008052676A/ja
Priority to PCT/JP2007/067105 priority patent/WO2008032594A1/ja
Priority to KR1020097006388A priority patent/KR20090107012A/ko
Priority to EP07806578A priority patent/EP2090977A1/en
Publication of JP2008052676A publication Critical patent/JP2008052676A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】データ設定可能な要素を含む、コンピュータ画面上のシートに対して、そのコンピュータ画面上のシートを構成するプログラムを改変することなく、音声認識機能を付加する。
【解決手段】コンピュータを、コンピュータの入力手段を通じたユーザインターフェースへの操作に係る情報をコンピュータプログラムから受信する手段と、ユーザインターフェースがシート上の複数の位置のいずれかの選択を受け付けたときに、その選択を受け付けたシート上の位置に対応して入力されるべき、発話によって特定される対象となる文字に係る情報の入力を受け付ける手段と、シート上の位置と関連付けて文字に係る情報を記憶する手段、として機能させる。
【選択図】図2

Description

本発明は、音声認識処理を支援するコンピュータ実行可能なプログラム、方法、および情報処理装置に関する。
情報を蓄積し、管理するコンピュータ上の一般的なツールとして、スプレッドシートと呼ばれるものが知られている。スプレッドシートは、表計算プログラムと呼ばれるコンピュータプログラムによって表示される。スプレッドシートは、セルと呼ばれるデータエントリが表形式で配置された構成をとる。それぞれのセルは、表の行と列とによって特定され、数値、文字列等様々な情報が入力され、あるいは表示される。スプレッドシートは、キーボード、ポインティングデバイス等の入力手段と連動し、データを入力し、表示し、処理するユーザインターフェースを提供する。一方、今日、キーボード、ポインティングデバイス等によるユーザインターフェースの他、音声認識を利用したユーザインターフェースも提案されている(特許文献1参照)。
しかしながら、このようなスプレッドシートへのデータ入力を音声認識によって実現することは試みられてこなかった。
特に、通常の画面を通じてのユーザインターフェースに、音声認識機能を追加するためには、音声認識エンジン(例えば、非特許文献1参照)を端末にインストールするとともに、ユーザインターフェースを構成するコンピュータプログラム(以下、単にプログラムという)に、音声認識エンジンから認識された情報を取得するためのインターフェース部分を設ける必要がある。
このようなインターフェース部分をプログラムに設けるためには、通常は、ソースプログラムの改造、および再コンパイルが必要となる。すなわち、音声認識エンジンとのインターフェースを組み込んだプログラムの新たな開発が必要となる。
特開2004−246865号公報 "音声認識エンジン"、[online]、日本アイ・ビー・エム株式会社、[平成18年8月8日検索]、インターネット(URL:http://www-06.ibm.com/jp/voiceland/technology/p03.html)
本発明の目的は、データ設定可能な要素を含む、コンピュータ画面上のシートに対して、そのコンピュータ画面上のシートを構成するプログラムを改変することなく、音声認識機能を付加することができる技術を提供することにある。
本発明は前記課題を解決するために、以下の手段を採用した。すなわち、本発明は、コンピュータ画面に形成されるシート上の複数の位置にそれぞれ関連付けられる複数のデータ設定部を有し、前記データ設定部にデータが設定されたときに、そのデータ設定部に対応する前記シート上の位置に所定の表示形式で前記データを表示する、そのようなユーザインターフェースを含むコンピュータプログラムを実行するコンピュータを、前記コンピュータの入力手段を通じた前記ユーザインターフェースへの操作に係る情報を前記コンピュータプログラムから受信する手段と、前記ユーザインターフェースが前記シート上の複数の位置のいずれかの選択を受け付けたときに、その選択を受け付けたシート上の位置に
対応して入力されるべき、発話によって特定される対象となる文字に係る情報の入力を受け付ける手段と、前記シート上の位置と関連付けて前記文字に係る情報を記憶する手段、として機能させる連係支援プログラムである。
ここで、シートとは、例えば、表計算プログラムが表示するスプレッドシートである。また、スプレッドシートが紙面を模擬した1枚以上の模擬シートを含む場合には、シートは、個々の模擬シートであってもよい。
本発明によれば、ユーザインターフェースがシート上の複数の位置のいずれかの選択を受け付けたときに、その選択を受け付けたシート上の位置に対応して入力されるべき、発話によって特定される対象となる文字に係る情報の入力を受け付け、記憶できる。したがって、このユーザインターフェースを含むコンピュータプログラムと連係して、発話によって特定される対象となる文字に係る情報をシート上の位置と関連付けて記憶でき、発話によって文字を特定する準備をすることができる。
また、本発明は、発話を受け付けてその発話の表す文字情報を認識する音声認識手段から前記文字情報を受け取る音声認識連係手段と、前記文字情報に応じた処理を実行する処理手段、としてさらにコンピュータを機能させてもよい。本発明によれば、音声認識連係手段から受け取った文字情報に応じた処理を実行できる。
前記文字情報に応じた処理は、前記受け取った文字情報と前記記憶された文字に係る情報との照合処理、前記受け取った文字情報を前記記憶された文字に係る情報にしたがって所定の書式に変更する処理、前記文字情報または前記所定の書式に変更された文字情報を前記データ設定部へ設定させるため前記コンピュータプログラムへ指示する処理、前記シート上の位置で前記文字情報または前記所定の書式に変更された文字情報を表示させるため前記コンピュータプログラムへ指示する処理、前記シート上の位置を選択させるため前記コンピュータプログラムへ指示する処理、および前記シート以外の他のシートが前記画面上にシートを重畳させて階層的に表示されている場合の前記シートと前記他のシートとの階層関係を変更させるため前記コンピュータプログラムへの指示する処理の少なくとも1つが好ましい。
以上のような構成により、発話の表す文字情報を認識する音声認識手段から文字情報を受け取るための文字に係る情報を事前に記憶し、その文字に係る情報にしたがって、受け取った文字情報を処理できる。また、受け取った文字情報あるいは、処理された文字情報をシート上の該当する個所に設定し、表示できる。
前記文字情報の前記データ設定部への設定の指示が終了したときに次に文字情報を設定すべき前記シート上の位置を予めユーザに指定させる指定手段としてさらに機能し、前記処理手段は、前記設定の指示が終了したときに前記予め指定されている前記シート上の位置に処理の対象を移動するようにしてもよい。本発明によれば、1つの文字情報の処理が終了したときに、次に文字情報を設定すべき位置に処理の対象を移動できる。
前記音声認識手段を介して受け付けた発話を前記シート上の位置と関連付けて音声データとして記録する手段と、前記ユーザインターフェースが前記シート上のいずれかの位置の選択を受け付けたときにその選択を受け付けたシート上の位置と関連付けて記録されている音声データから、前記再生手段を通じて発話を再生させる手段、としてさらにコンピュータを機能させるようにしてもよい。本発明によれば、シート上の位置と関連付けて記録された音声データを再生できる。したがって、シート上の位置と関連付けて音声認識処理を実行したときの音声を容易に確認できる。
前記シートは前記データ設定部に対応する要素を配列した表を含み、前記シート上の位置は前記表の行を識別する行識別情報および前記表の列を識別する列識別情報によって特定されるものでもよい。
また、本発明は、以上のような機能を備える処理装置であってもよい。また、本発明は、以上のような処理をコンピュータが実行する方法であってもよい。また、本発明は、本発明は、上記いずれかの手段としてコンピュータを機能させるコンピュータ実行可能なプログラムをコンピュータが読み取り可能な記録媒体に記録したものであってもよい。
データ設定可能なセルを含む、コンピュータ画面上のシートに対して、そのコンピュータ画面上のシートを構成するプログラムを改変することなく、音声認識機能を付加することができる。
以下、図面を参照して本発明を実施するための最良の形態(以下、実施形態という)に係る情報処理装置について説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成には限定されない。
<発明の骨子>
本実施形態に係る情報処理装置は、アプリケーションプログラムに対して音声認識機能の追加を支援する支援プログラム(本発明の連係支援プログラムに相当)を実行する。例えば、本情報処理装置は、一般的なコンピュータ上のアプリケーションプログラムである表計算プログラム(本発明のコンピュータプログラムに相当)と、マイクロフォン等の外部インターフェースから入力される音声を認識する音声認識エンジンと、本支援プログラムを実行する。
本支援プログラムは、表計算プログラムおよび音声認識エンジンと協働し、表計算プログラムが表示するスプレッドシートへのデータ入力機能の1つとして音声認識機能を表計算プログラムに追加する。一般に、スプレッドシートは、1枚の紙面を模擬した模擬シートまたは2枚以上の模擬シートを含む。スプレッドシートが2枚以上の模擬シートを含む場合、各模擬シートは、コンピュータ画面上に階層的に表示される。この場合に、それぞれの模擬シートは、識別名称である模擬シート名で識別される。本実施形態では、模擬シート名を単にシート名という。
また、本実施形態では、スプレッドシートが特定のアプリケーションに適用された場合、例えば、プラントの点検項目を列記したチェックリストとして構成された場合、そのスプレッドシートを帳票と呼ぶことがある。その場合に、個々の各模擬シートをも帳票と呼ぶことがある。本実施形態でいうスプレッドシートまたは個々の模擬シートが、本発明のシートに相当する。この支援プログラムは、以下の機能を有する。
(1)音声認識設定支援機能
本支援プログラムは、スプレッドシートで指定された位置、例えば、行と列で識別されるスプレッドシート上のセルに設定すべきデータの属性、設定すべき文字情報、その文字情報を表示するときの書式等(本発明の文字に係る情報に相当)を受け付ける。そして、所定のデータベースに、そのスプレッドシートに対応する管理情報、例えば、スプレッドシートの情報を格納するコンピュータファイルのファイル名、シート名、行の識別情報、列の識別情報とともに、設定を受け付けたデータの属性、設定すべき文字情報、その文字情報を表示するときの書式等を格納する。
(2)音声入力支援機能
上記設定の後、ユーザは、本支援プログラムを音声入力モードで実行する。ユーザは、
表計算プログラムを起動し、スプレッドシートを表示する。そして、音声入力すべき帳票、すなわち、ファイル名とシート名とを指定する。さらに、ユーザは、その模擬シート上で音声入力すべき模擬シート上のセルを指定する。そのようなセルの指定は、入力手段を介して行ってもよい。このように、特定のアプリケーションを実現するスプレッドシートである帳票を構成する模擬シートと、その模擬シート上の位置が特定された状態で、音声入力が受け付けられる。
ある文字列の言葉を発話した音声が入力された場合、音声認識エンジンがその音声を文字列に変換する。そして、本支援プログラムは、音声認識エンジンと連係し、発話内容に対応する文字情報を音声認識エンジンから受け取る。そして、支援プログラムは、現在処理対象であるファイル名、シート名から特定される模擬シート上の対象位置のセルにその文字情報を設定する。
さらに、本支援ツールは、音声認識エンジンで認識された文字情報を基に、データベースを検索し、その文字情報を設定すべき行と列とを決定することもできる。そして、本支援ツールは、さらに次の音声認識結果を受け付けてその該当する行と列に位置するセルにその文字情報を設定することもできる。
例えば、装置の定期点検記録表を実現する帳票において、該当個所に異常があるか、ないかを記録する場合、データベースには、「異常あり」「異常なし」の2種類の文字列を本支援プログラムによって当該セルと関連付けて格納しておく。
点検者が装置を点検する際、点検者は、情報処理装置上で、点検記録に相当するファイルをスプレッドシートに表示しておく。そして、点検者が、「異常なし」と発声すれば、音声認識エンジンが「いじょうなし」という言葉を認識し、「異常なし」という文字列に変換する。音声認識エンジンは、変換された文字列を本支援プログラムに引き渡す。本支援プログラムは、引き渡された文字列がデータベースに事前に設定されている文字列と一致するか否かを判定する。そして、一致が確認されると、本支援プログラムは当該セルにその文字列を設定する。
この場合に、上記データが設定されるセルに、タイトルを示す文字列を設けておいてもよい。例えば、「第1ファン:」というタイトルとテキスト領域を当該セルに設けておく。データベースには、当該セルのタイトル「第1ファン:」、および設定されるべき文字列である「異常あり」「異常なし」が格納されることになる。さらに、このセルを選択状態にする音声として「第1ファン」を使用すればよい。
点検者が、「第1ファン 異常なし」と発話すると、音声認識エンジンが「だいいちふぁん いじょうなし」という音声を認識し、「第1ファン」「異常なし」という文字列に変換する。
支援プログラムは、「第1ファン」によって、データベースの定義から当該セルの行と列を決定する。そして、支援プログラムは、その行と列に相当するセルのテキスト入力領域、すなわち、タイトル「第1ファン:」の後のテキスト領域に「異常なし」を設定する。
ただし、「異常なし」または「異常あり」が設定されるべきセルに隣接するセルに「第1ファン:」というタイトルを付しておいてもよい。いずれにしても、「第1ファン」という文字列が認識されたときに、「異常なし」または「異常あり」が設定されるべきセルが選択されるようにしておけばよい。
選択するとは、ポインティングデバイスに応答するポインタが、当該セル上に置かれた状態にすること、あるいは、キーボード操作に応じて移動するカーソルをそのセルに置くことをいう。「セルを選択状態にする」ことを、「セルをフォーカスする」「セルにフォーカスを移動する」ともいう。このような特定のセルを選択するために使用される文字列を移動語という。移動語は、そのスプレッドシート上で専用に使用される予約語の1種である。なお、移動語によって、複数階層に重畳された模擬シートのうち、特定の模擬シートをフォーカスするようにしてもよい。この場合、移動語としては、その模擬シートの名称、すなわちシート名を定義しておけばよい。
また、複数の表計算プログラムが起動され、複数のウィンドウがコンピュータの画面表示されている場合に、移動語によって、特定のウィンドウを選択するようにしてもよい。この場合、移動語として、その表計算プログラムを識別する名称、バージョン、または処理する帳票の名称等を定義しておけばよい。いずれにしても、このような移動語の処理は、発明の文字情報に応じた処理に相当する。
このように、本支援プログラムは、音声認識されるべきデータ、例えば、スプレッドシート上のタイトル、設定すべき文字情報の候補、選択肢等を事前に受け付けて、そのセルを識別する情報とともに、データベースに登録する。そして、実際にスプレッドシートが表示された状態で、ユーザが発話した音声から文字列を入手し、所定の処理を実行する。
所定の処理とは、例えば、スプレッドシートの上のセルへのフォーカスの移動、すなわちセルの選択、スプレッドシート上への文字列の設定、選択肢のうちの1つの選択等である。また、所定の処理として、表計算プログラムに対するコマンドを予約後として定義しておき、そのコマンドを実行してもよい。例えば、「セーブ」と発話されると、現在のスプレッドシートのデータを「セーブしますか?」という問い合わせ画面を表示させ、さらに、「OK」が発声されると、実際にスプレッドシートのデータがファイルに保存される等の処理である。
(3)音声ログ機能
本支援プログラムは、発話された音声の音声データを音声ログファイルとしてセルを識別する情報と関連付けて蓄積する。そして、ユーザが音声再生モードを選択した後、音声入力されたセルの1つを選択すると、本支援プログラムは、そのセルに関連付けされた音声ログファイルを検索する。そして、音声ログファイルが1つだけ検索された場合には、本支援プログラムは、その音声ログファイルから音声を再生する。また、2以上の音声ログファイルが検索された場合には、本支援プログラムは、音声ログファイルの一覧を表示する。そして、ユーザがその一覧から音声ログファイルを選択し、再生を指示すると、本支援プログラムは、選択された音声ログファイルから音声を再生する。
このようにして、そのセルに上記音声認識によってデータが設定されたときの発話音声がそのまま再生される。本支援プログラムは、セルごとに音声認識時の発話状況を再現することができる。
<ハードウェア構成>
本支援プログラムは、一般的な情報処理装置(本発明のコンピュータおよび処理装置に相当)、例えば、パーソナルコンピュータ、携帯情報端末(PDA)、携帯電話、PHS(Personal Handyphone System)、複数の端末にサービスを提供するネットワーク上のサーバ等において実行される。
このような情報処理装置は、いずれも、CPU、メモリ、入出力インターフェース、表示装置、ハードディスク、ネットワークとの通信インターフェース、ユーザの発話内容収集するマイクロフォン、音声を出力するスピーカ、着脱可能な可搬型記憶媒体の駆動装置
等を有している。情報処理装置は、コンピュータプログラムを実行することにより、その機能を実現している。いずれにしても、このような情報処理装置の構成要素および作用は広く知られているので、その説明は省略する。
<操作概要>
図1から図4によって、本情報処理装置の操作概要を説明する。図1は、情報処理装置において、本支援プログラムを起動するときの操作手順を示す図である。図1は、情報処理装置の画面上でのマウス等のポインティングデバイス等による操作を示している。情報処理装置の画面には、音声認識処理が追加されるべき帳票の定義がなされたスプレッドシートが表示されている。ここで、帳票とは、例えば、プラント内の特定設備の定期点検記録表である。
また、画面上には本支援プログラムを示すグラフィックオブジェクト(以下、アイコンという)が表示されている。アイコンは、マウス等のポインティングデバイスによって操作可能なポインタ、あるいは、所定のキーによって画面上で移動可能なカーソル等によって、操作可能である。このようなポインタ、あるいは、カーソルがアイコンに位置づけられた状態で、所定のボタンを押下することにより、アイコンの選択が可能である。また、アイコンが選択された状態で、ポインタ、あるいはカーソルを画面上で移動することにより、そのアイコンを移動することが可能である。この操作をドラッグするという。また、アイコンを画面上の所定のエリア内に移動後、押下状態を開放することで、そのアイコンをその領域に移すことが可能である。この操作をドラッグアンドドロップともいう
ユーザが、例えば、パーソナルコンピュータの画面上で、本支援プログラムを示すアイコン上に帳票の定義がなされたスプレッドシートをドラッグアンドドロップすることで、本支援プログラムおよびスプレッドシートを処理する表計算プログラムが起動される。このとき、本支援プログラムの開発元を示す起動ロゴが表示される。
図1では、表計算プログラムのスプレッドシートに隣接して、本支援プログラムの操作メニュー1が表示されている。この状態で、本支援プログラムは、その表計算プログラムの操作状態を監視する。なお、上記ドラッグアンドドロップ操作前に、表計算プログラムが、既存のファイルと模擬シートを表示中であった場合には、上記操作時に、支援プログラムは、そのファイル名とシート名とを獲得する。
図2に、音声認識設定モードでの操作手順を示す。ユーザが、本支援プログラムの操作メニュー1上で、ポインティングデバイスによって音声化の設定モードアイコン1Aを選択すると(ウィンドウW1(以下ウィンドウを省略する))、支援プログラムは、その選択操作に応答し、音声認識のためのデータ設定モードとなり、設定モード画面2を表示する(W2)。図2では、音声化の設定モードアイコン1Aは、ハンマと、スパナとを×印状に組み合わせた形状の絵柄で示されている。
次に、ユーザが、スプレッドシート上で、セルを選択する(W3)。図2のウィンドウW3では、選択されたセルが斜線のハッチングで示されている。すると、その選択操作のイベントが、表計算プログラムから、OSのプロセス間通信を介して支援プログラムに通知される。この選択操作イベントでは、OSから提供されるアプリケーションインターフェースのライブラリを介して、スプレッドシート上の行と列の名称、いわゆるセル座標が通知される。
支援プログラムは、通知されたセル座標を上記ライブラリを通じて取得し、音声化の設定モード画面2の該当欄(セル座標の欄)に設定する。次に、ユーザが、設定モード画面2で音声認識のための必須設定項目をキーボード等の入力装置によって入力する。ここでは、文字列「異常あり」とそのふりがなである「いじょうあり」が設定されている(W4
)。なお、このような設定自体を音声認識にて設定するようにしてもよい。例えば、図2のウィンドウW4がフォーカスされた状態で、ユーザが「いじょうあり」と発話すると、その音声から文字列「いじょうあり」を画面に表示するようにすればよい。変換を指示するキーボード入力または変換を意味する予約語(例えば、「へんかん」)の発話入力によって、文字列「いじょうあり」を「異常あり」に変換して、ウィンドウW4の文字列で指定された箇所に設定するようにすればよい。
ユーザは、スプレッドシート上のそれぞれのデータ入力すべきセルに対して、同様の設定を繰り返す。そして、ユーザが、登録アイコンをポインティングデバイスで選択すると、以上の設定がデータベースに登録される。各セルに対する設定は、それぞれのセルの行および列と関連付けて登録されることになる。以上のような操作によって、このスプレッドシートに対する音声入力が可能となる。
図3に、音声認識情報が設定されたスプレッドシートへの音声入力手順を示す。ユーザは、まず、本支援プログラムと、表計算プログラムを起動する。起動手順は、図2の場合と同様である。例えば、プラントの設備について、定期点検を行う点検者が、定期点検結果を記録する帳票が定義されたスプレッドシートを本支援プログラムのアイコンにドラッグアンドドロップすればよい。すると、対応するスプレッドシートとともに、本支援プログラムの操作メニュー1が表示される。
本支援プログラムは、初期状態では音声入力モード(例えば、マイクロフォンのマーク)が選択されている(W11)。
次に、ユーザは、データを入力すべきセルを選択する。セルの選択は、ポインティングデバイスによって選択してもよいし、移動語を発話するようにしてもよい。図3の例では、ウィンドウW12内の斜線でハッチングされたセルが選択されたと仮定している。また、選択されたセルと、そのセルの左側に隣接するセルが拡大して表示されている。
選択されたセルは、テキストを設定するためのセルであると仮定する。この選択されているセルの左側に隣接するセルには、「作業場所」というタイトルが付されている。
次に、ユーザは、例えば、「にほんばしいっちょうめ」と発話する。すると、その音声がマイクロフォンを通じて情報処理装置に取り込まれ、音声認識エンジンに引き渡される。音声認識エンジンは、その音声から「日本橋1丁目」を認識し、認識結果を所定のアプリケーションインターフェースを通じて、本支援プログラムに引き渡す。
一方、データベースには、「作業場所」として設定されるべき場所を示す文字列がすべて格納されている。それらの作業場所の候補の1つに「日本橋1丁目」が含まれているとする。すると、本支援プログラムは、音声認識された「日本橋1丁目」が、「作業場所」として設定されるべき場所の候補と一致したと判断する。
この場合には、本支援プログラムは、現在選択されているセルに、「日本橋1丁目」を設定する。より具体的には、アプリケーションインターフェースを通じて、表計算プログラムへファイル名、シート名、座標、値というパラメータと、セルへの格納および模擬シート上への所定の書式での表示が指示される。これにより、「作業場所」というタイトルが付されたテキスト領域に「日本橋1丁目」が設定される(W14)。なお、ここでは、テキスト入力領域に、音声入力する例を示したが、例えば、複数の選択肢を設定しておいて、音声入力によって選択するようにしてもよい。例えば、「ファン1:」というメニュータイトルに対して、「異常あり」「異常なし」という2個の選択肢を含むプルダウンメニューを選択するような場合である。
なお、上記では、ポインティングデバイス等の入力装置によって、データを入力すべきセルを指定した。これに代えて、入力対象のセルをフォーカスするために移動語を使用してもよい。例えば、上述の入力対象のセルへの移動語として、「作業場所」が定義されていると仮定する。その場合には、ユーザが「作業場所」と発話することにより、このセルが選択される。また、移動語が定義されていない場合であっても、本スプレッドシートに対応するデータベースに、「作業場所」という文字列のタイトルが1つだけ設定されている場合には、ユーザが「作業場所」と発話することにより、このセルが選択されるようにしてもよい。また、「日本橋1丁目」を入力値の候補として設定されたセルが1つしかない場合、そのセルを選択して、「日本橋1丁目」という値を設定すればよい。
また、図3に示したようなドラッグアンドドロップに代えて、本支援プログラムを先に起動した後、本支援プログラムの画面メニューから帳票が定義されたスプレッドシートを監視するようにしてもよい。
さらにまた、本支援プログラムを先に起動した後、表計算プログラムによって、処理対象の帳票を実現するスプレッドシートを起動するようにしてもよい。本支援プログラムは、OSから提供されるアプリケーションインターフェースのライブラリを介して、一定の間隔で表計算プログラムを監視している。新たにスプレッドシートの起動が確認された場合は アプリケーションインターフェースのライブラリより、そのスプレッドシートによって表示された帳票のファイル名・シート名・セル座標を取得することになる。また、複数のスプレッドシートを起動した場合は、最前面に表示されているスプレッドシート(あるいはウィンドウ)を処理の対象とすればよい。
さらに、1つのスプレッドシートに複数の模擬シートが重畳されて含まれている場合、最前面に表示されているものを選択すればよい。
図4に、音声ログを再生するときの処理手順を示す。すでに述べたように、本支援プログラムは、音声入力モードで音声認識によってスプレッドシート上のセルにデータが設定されたとき、発話された音声の音声データをそのセルと関連付けて記録する。図4は、そのような音声データを再生する処理手順を示す。
この処理では、ユーザは、起動されている本支援プログラムの操作メニュー1上で、ポインティングデバイスによって音声ログ再生モードアイコン1B(例えば、スピーカのマークが付されたアイコン)を選択する(W21)。すると、本支援プログラムは、操作メニュー1に代えて、音声ログ再生画面4を表示する(W22)。
次に、ユーザが、スプレッドシート上で、音声ログを再生したいセルを選択する。ここでは、図4のハッチングされたセルが選択されたとする。すると、本支援プログラムは、選択されたセルの座標、すなわち、スプレッドシート上の行と列に関連付けて記録された音声ログのファイル一覧をリスト3に表示する。
ユーザが、ポインティングデバイスによって、リスト3の中からファイルを選択し、さらに再生ボタンを押下すると、発話音声が再生される。このように、本支援プログラムは、個々のセルについて音声ログを記録するとともに、ユーザ所望のセルの選択を受け付けて、その音声データを再生できる。
<設定画面の構成>
図5から図7を参照し、音声認識のためのデータの設定モードで使用される設定モード画面2の構成を説明する。本支援プログラムの設定モード画面2の機能は、3種類の異な
る画面によって実現されている。ユーザは、ポインティングデバイスによって、タブと呼ばれる見出し部分を操作することにより、3種類の画面を切り替えることができる。これらの画面は、基本設定タブ画面、型/書式タブ画面、および入力タブ画面である。
図5に、基本設定タブ画面の構成を示す。基本設定タブ画面は、主としてスプレッドシート上の移動を制御する情報を設定する画面である。基本設定タブ画面では、シート名とセル座標が設定対象のセルを特定するために表示されている。このシート名は、例えば、図2のドラッグアンドドロップ操作で特定されたスプレッドシート上の最上位に表示された模擬シートの名称である。また、セル座標は、図2のセル選択(W3)にて選択されたセルの座標、すなわち、模擬シート上の行を識別する情報および列を識別する情報である。
このようなシート名とセル座標に対して、ユーザは、セル名称および読みがなを入力する。入力は、例えば、キーボードから文字列を入力すればよい。このセル名称は、このシート名の模擬シート内で、そのセル座標のセルを選択状態にするときに使用される。
例えば、あるセルにおいて、「第1ファン:」というタイトルが設定されたセルに隣接して、テキスト入力領域が定義されている場合を想定する。このテキスト入力領域には、第1ファンの点検結果を記録すると仮定する。このようなテキスト入力領域を有するセルに対して、「第1ファン」という文字列を移動語として登録しておく。この模擬シートに対する音声入力時、ユーザが、「だいいちふぁん」と発話すると、音声認識エンジンがその音声を「第1ファン」という文字列に変換して、本支援プログラムに引き渡す。すると、本支援プログラムは、データベースの設定情報から、この移動語が定義されたセルを特定し、そのセルをフォーカスする。
また、この画面では、処理対象のセルにデータが入力された後、次に移動すべき先のセルを定義することができる。すなわち、「次移動セル」にセルIDを設定し、「発話後移動する」にチェックマークを付しておく。この設定により、音声認識によるデータ入力時、本支援プログラムは、現在設定モード画面にて設定中のセルについて、音声認識された文字情報の入力が完了すると、「次移動セル」で設定されたセルIDのセルにフォーカスを移動する。このように、「次移動セル」を設定することにより、セルを次々に移動しつつ、一連のデータを音声入力できる。このような次移動セルを定義する機能が、本発明のシート上の位置を予めユーザに指定させる指定手段に相当する。
基本設定タブ画面画面で、「前回値参照セル」とは、現在入力中のセルに設定すべき値がすでに設定されているセルをいう。「前回値参照セル」に、そのセルのセルIDを設定することで、そのセルの値が参照され、現在入力中のセルに設定される。前回値参照セルには、例えば、現在入力中のセル(処理中のセル)に前回入力した値を保持しておけばよい。また、例えば、値が共通する複数のセル間で、前回値設定セルを定義しておけばよい。
さらに、基本設定タブ画面で、「連続発話チェック」とは、1つのセルに複数の値を入力することを許容する指定である。例えば、担当者というタイトルが付され、担当者名を入力すべきセルに、山田、斎藤、田中という3名の担当者が設定されていた場合を考える。「連続発話チェック」ではない、通常の指定では、ユーザが、このセルをフォーカスし、「やまだ」と発話すると、「山田」という担当者の名前が設定される。その後、他のセルにフォーカスを移動しない状態で、ユーザが「さいとう」と発話すると、このセルの「山田」という文字列が「斎藤」によって上書きされる。
一方、「連続発話チェック」が指定されていると、「山田」という文字列が設定された
状態で、ユーザが「さいとう」と発話すると、そのセルには、「山田」と「斎藤」が設定される。他のセルにフォーカスを移動しない状態で、さらに、ユーザが、「たなか」と発話すると、「山田」、「斎藤」および「田中」がセルに設定される。このように、「連続発話チェック」の指定により、当該セルに複数の値を設定することが可能になる。
図6に、型/書式タブ画面の構成を示す。この画面では、現在設定モード画面にて設定中のセルに入力されるデータのデータ型と、そのデータがセルに表示されるときの書式を設定する。データ型としては、例えば、数値、通貨、日付、時刻、郵便番号、電話番号、文字等が用意されている。
ユーザは、図6の画面上で、これらのデータ型を選択し、「追加」というラベルが付されたボタンをポインティングデバイスで押下する。この操作により、そのデータ型が現在設定対象となっているセルに設定される。さらに、本支援プログラムでは、1つのセルに対して、データ型を追加登録できる。その場合には、さらに、他のデータ型を選択し、「追加」というラベルが付された押しボタンを押下すればよい。
書式は、通常の文字列以外のデータ、例えば、日付、時刻などに関して設定される。設定は、書式のリストから、「年月日」「月日」「00:00::00」等の表示書式を選択することによる。
設定された型/書式は、「入力値の一覧表示欄」に一覧表形式で表示される。さらに、一覧表形式で表示された型/書式のいずれかを選択し、「修正」「削除」の付されたボタンを押下することにより、修正、あるいは、削除できる。
型/書式タブ画面にある「接頭語」とは、音声入力時に、本来の音声の前に発話される可能性のある音声の文字列を事前に登録しておく機能を示す。例えば、「第1ファン」というタイトルが付されたセルに、「異常あり」「異常なし」を設定する場合を想定する。このセルがすでにフォーカスされている場合には、ユーザは、「いじょうあり」「いじょうなし」だけを発話すればよい。しかしながら、ユーザによっては、「だいいちふぁん いじょうなし」のように、項目のタイトルを含めて発話する癖がある人もいる。そのような場合に音声認識の不具合を防止するため、このセルで、「第1ファン」を接頭語として登録しておく。すると、「だいいちふぁん いじょうなし」が発話され、音声認識エンジンが「第1ファン」「異常なし」を本支援プログラムに引き渡した場合も、適切な処理をすることができる。例えば、型/書式タブ画面の「接頭語」の右側にある「出力」のチェックマークがチェックされていない場合には、「第1ファン」「異常なし」が引き渡されたとき、本支援プログラムは、接頭語である「第1ファン」を無視し、「異常なし」をセルに設定する。この場合、単に「いじょうなし」が発話された場合も、本支援プログラムは、音声認識エンジンから「異常なし」という文字列を受け取り、接頭語は発話されていないと判断する。その結果、正常に、「異常なし」がセルに設定される。
また、例えば、1つのセル内に、すでに、「第1ファン:」が入力済みであり、「第1ファン:」の後ろに「異常なし」または「異常あり」を付加すべきセルにおいては、「第1ファン:」を接頭語として定義し、かつ、「出力」のチェックマークをチェックしておけばよい。この場合には、ユーザが、「だいいちふぁん いじょうなし」と発話すると「第1ファン:異常なし」がセルに設定されることになる。また、ユーザが、単に「いじょうなし」と発話しても、本支援プログラムは接頭語である「第1ファン:」が省略されたと判断する。そして、本支援プログラムは、「出力」のチェックマークにしたがって、接頭語である「第1ファン:」を音声認識された文字情報「異常なし」に付加する。その結果、「第1ファン:異常なし」がセルに設定される。このように、接頭語は、ユーザの発話の前に発話される可能性があるが、確実に発話されるか否か不明な音声を定義するとと
もに、その接頭語で指定される文字列を付加するか否かを制御する機能を提供する。
同様に、「接尾語」は、ユーザの発話の後に発話される可能性があるが、確実に発話されるか否か不明な音声を定義するとともに、その接尾語で指定される文字列を付加するか否かを制御する機能を提供する。例えば、日付を入力すべきセルに、接尾語として「です」を設定し、「出力」のチェックマークをチェックなしにしておけば、「いちがつとおかです」と発話された場合も、「です」が除外され、日付の書式に応じて「1月10日」のような文字列が設定されることになる。
図7に、入力値タブ画面の構成を示す。入力値タブ画面では、設定対象のセルのうち、図6の型/書式タブ画面で、文字という型が選択されたセルに入力される入力値と、その読みがなが設定される。例えば、型が文字であるセルに対して、入力値「異常なし」と、読みがな「いじょうなし」が登録される。
この場合、型/書式タブ画面で、文字という型が1つ設定された場合、当該セルには、複数個の入力値を定義してもよい。すなわち、入力値タブ画面でも、型/書式タブ画面と同様に、「追加」の押しボタンが設けられている。この押しボタンの押下によって、次々に、入力値と読みがなを設定することができる。例えば、型が文字であるセルに対して、入力値「異常あり」と、読みがな「いじょうあり」が登録される。さらに、第2の入力値として「異常なし」、読みがな「いじょうなし」を登録しておいてもよい。
追加登録された入力値は、入力値の一覧の表示欄に一覧表形式で表示される。さらに、一覧表形式で表示された入力値のいずれかを選択し、「修正」「削除」の付されたボタンを押下することにより、修正、あるいは、削除できる。
「検索」とは、一覧の表示欄から所望の入力値を検索する機能である。例えば、多数の入力値が追加され、所望の入力値を見出しにくい場合、あるいは、一覧の表示欄に表示可能な数よりも入力値が定義された場合、「検索」の欄にその文字列を入力して検索すればよい。
住所、氏名のように多数の文字列を入力値として定義すべき場合には、キーボードのような入力装置から逐一入力する代わりに、外部ファイルから一括して取り込む機能(いわゆる、エクスポート機能)を設けてもよい。
<データベースの構成>
図8および図9に、本支援プログラムが管理するデータベース(本発明の記憶する手段、および記録する手段に相当)のデータ構造を示す。このデータベースは、不図示のハードディスク上に記憶される。また、これらのデータベースを構成するテーブルは、ハードディスクから読み出されてメモリ上に保持される。図8は、音声認識された認識結果をセルに入力するときに、本支援プログラムが参照するテーブルと、そのテーブル間の関連を示す図である。
本支援プログラムは、認識結果の入力時には、セル詳細設定テーブル、次移動セルテーブル、セル入力値テーブル、およびセルデータ型テーブルを使用する。
セル詳細設定テーブルは、セルID(CELL#ID)、セルが所属する帳票のファイル名(FILE#NAME)、シート名(SHEET#NAME)、セル座標(行(COORDINATE#ROW)と列(COORDINATE#COLUMN))、セル名称(CELL#NAME)、発話後移動することを示すフラグ(DO#MOVE#AFTER)、前回
値参照セルの行(LAST#TIME#CELL#ROW)と列(LAST#TIME#CELL#COLUMN)、データ入力日付(INS#DATE)、データ入力ユーザ(INS#USER)、データ更新日付(UPD#DATE)、データ更新ユー
ザ(UPD#USER)の各フィールドを有している。
セルID(CELL#ID)は、図5の音声化のモード設定画面にて、設定された情報の登録時
に、本支援プログラムが、セルごとに決定するユニークな識別子である。
ファイル名(FILE#NAME)、シート名(SHEET#NAME)、セル座標(行(COORDINATE#ROW)と
列(COORDINATE#COLUMN))によって、処理対象のセルがすべての帳票を通じてユニークに
識別されることになる。
なお、セル詳細テーブルのセル名称(CELL#NAME)以下の情報は、図5に示した基本設定
タブ画面を通じて設定される。
次移動セルテーブルは、セルID(CELL#ID)、次に移動するセルの座標(NEXT#MOVE#CELL#ROW、NEXT#MOVE#CELL#COLUMN)、データ入力日付、データ入力ユーザ、データ更新日付、データ更新ユーザを有している。次移動セルテーブルの情報は、図5に示した基本設定タブ画面の「次移動セル」の欄を通じて設定される。
セル入力値テーブルは、セルID(CELL#ID)、セルへの入力値(INPUT#VALUE)、入力値の読みがな(SPOKEN#FORM)等のフィールドを有している。セル入力値テーブルへの情報は
、図7の入力値タブ画面を通じてセルごとに設定される。
このうち、セルへの入力値(INPUT#VALUE)は、音声認識エンジンから受け取った文字
情報が正しい値であるか否かを判定するために使用される。また、読みがな(SPOKEN#FORM)は、音声認識エンジンが使用する辞書のうち、ユーザ設定可能な辞書の定義に使用され
る。すなわち、セル入力値テーブルに定義された入力値(INPUT#VALUE)と入力値の読み
がな(SPOKEN#FORM)の組合せが、辞書に追加される。
セルデータ型テーブルは、セルID(CELL#ID)、データ型(CELL#DATA#TYPE#ID)、書式(FORMAT#ID)等を有している。セルデータ型テーブルへの情報は、図6の型/書式タブ画
面を通じてセルごとに設定される。
なお、図示されていないが移動語テーブルは、当該セルをフォーカスするための文字列である移動語を定義する。すなわち、読みがな(SPOKEN#FORM)で指定される音声が、文字
情報に変換されて音声認識エンジンから引き渡されると、その文字情報を基に移動語テーブルからセルIDが確定され、セル詳細テーブルからセル座標(行(COORDINATE#ROW)と列(COORDINATE#COLUMN))が決定される。これにより、本支援プログラムは、スプレッドシ
ート上で、そのセルにフォーカスを移動する。
なお、図8の矢印は、テーブル間の親子関係を示している。例えば、次移動セルテーブル、セル入力値テーブル、およびセルデータ型テーブルは、いずれも、セル詳細設定テーブルに付随するテーブルである。
図9に、音声ログ再生時に本支援プログラムが使用するテーブルとそれらの関連を示す。音声ログ再生時には、セル詳細テーブルとログテーブルとが使用される。このうち、セルデータ詳細テーブルについては、すでに図8において説明した。また、矢印がテーブル間の親子関係を示しているのは、図8と同様である。
ログテーブルは、セルID(CELL#ID)、タイムスタンプ情報(LOG#DATE)、ユーザプロフ
ァイルID(USER#ID)、ファイルパス(LOG#FILE#PATH)、ファイル名(LOG#FILENAME)を有している。
このうち、ファイルパスとファイル名で指定されるファイルに、当該セルへの音声入力時の音声データが格納される。このうち、ファイル名は、その音声入力時の年月日と時刻(時分秒)から生成される。したがって、通常の音声入力時には、同一の情報処理装置では、各音声データファイルは、ユニークに識別されることになる。ユーザが、セルを選択して、再生指示をすると、本支援プログラムは、スプレッドシート上の行と列とを認識し、行と列とを用いてセル詳細テーブルからセルIDを決定する。そして、本支援プログラムは、セルIDからログテーブルを検索し、ファイルパス(LOG#FILE#PATH)と、ファイル
名(LOG#FILENAME)とから音声ログのデータファイルを特定し、一覧を表示する。音声ログのデータファイルが1つだけ特定された場合には、本支援プログラムは、その音声ログから音声を再生する。音声ログのデータファイルが2以上特定された場合には、本支援プログラムは、ユーザの選択操作を待ち、ユーザが選択した音声ログから音声を再生する。音声ログを格納するデータベースが、本発明の記録する手段に相当する。
<処理フロー>
図10から図13の図面を参照して本情報処理装置の処理フローを示す。図10は、スプレッドシートを表示する表計算プログラムと、本支援プログラムとの間のイベント処理の手順を示している。本支援プログラムは、その起動中に、情報処理装置のOS(オペレーティングシステム)から提供されるアプリケーションインターフェースを通じて、イベントの発生を監視している。
例えば、表計算プログラムが表示するスプレッドシート上で、ポインティングデバイスを通じたユーザ操作によって特定のセルが選択された場合を仮定する(S1)。すると、OSは、セルチェンジイベントを発生させる(S2)。セルチェンジイベントは、OSが提供するプロセス間通信によって、本支援プログラムに通知される。
本支援プログラムを実行する情報処理装置は、イベントの通知によって、イベント処理を実行する。すなわち、アプリケーションインターフェースを通じて、そのイベントの通知を受ける(S3)。S3の処理を実行する情報処理装置が、本発明の受信する手段に相当する。
さらに、本情報処理装置は、アプリケーションインターフェースを通じて、そのセルチェンジイベントを発生させたスプレッドシートのファイル名、シート名、セル座標をグローバル変数に設定する(S4)。その後、本支援プログラムは、本来のアプリケーションである音声認識設定処理、音声入力処理、および音声ログ再生処理を実行する。
なお、音声認識エンジンと本支援プログラムとのインターフェースも、同様である。すなわち、ユーザが発話し、音声認識エンジンで文字情報が認識されると、音声入力があったことを示すイベントが音声認識エンジンから、OSが提供するプロセス間通信を介して、本支援プログラムに通知される。本支援プログラムは、音声認識エンジンの提供するアプリケーションインターフェースを通じて、認識された文字情報を取得する。
さらに、認識された入力値は、アプリケーションインターフェースを介して、プロセス間通信により、本支援プログラムから、表計算プログラムに引き渡される。このとき、入力値を設定すべきファイル名、シート名、セルの座標、セルへの入力値が指示される。
図11に、音声認識設定処理の概要フローを示す。この処理では、例えば、ユーザ操作により、図1に示したようなスプレッドシートの本支援プログラムのアイコンへのドラッグアンドドロップがなされる。ただし、ドラッグアンドドロップに代えて本支援プログラム起動後に、ユーザがスプレッドシート上に保存した帳票を表示するようにしてもよい。
このような操作によりファイルが開かれる(S11)。
すると、図10で説明したセルの選択と同様に、本支援プログラムを実行する情報処理装置がイベントの通知を受ける。そして、情報処理装置は、OSのアプリケーションインターフェースを通じて、開かれたファイル名、およびそのときの最上位の階層に位置するシート名を取得する(S12)。
さらに、ユーザが、音声認識を設定すべき所望のセルを選択する(S13)。すると、情報処理装置は、OSのアプリケーションインターフェースを通じて、選択されたセルの座標を取得する(S14)。S12およびS14の処理を実行する情報処理装置もまた、本発明の受信する手段に相当する。
次に、情報処理装置は、このセルが新規に設定されるセルであるか、すでに情報設定済みのセルであるかを判定する(S15)。このセルが新規に設定されるセルである場合、情報処理装置は、ユーザ操作にしたがってこのセルに対する設定処理を実行する(S16)。S16の処理を実行する情報処理装置が、本発明の入力を受け付ける手段に相当する。この手順は、図2に示した通りである。
次に、情報処理装置は、セルIDを採番する(S17)。
次に、ユーザ操作により他に設定すべきセルが存在するか否かが入力され、情報処理装置は、その入力操作に応じて処理を分岐する(S18)。すなわち、他に設定すべきセルがある場合、ユーザが、そのセルを選択するので、情報処理装置は、制御をS13に戻す。
一方、他に設定すべきセルがない場合、ユーザは、ポインティングデバイスによって保存アイコンを押下する(S19)。すると、これまでの操作で設定された情報がデータベースに保存される(S20)。その後、情報処理装置は、処理を終了する。
また、S15の判定で、選択されたセルがすでに情報設定済みのセルであった場合、情報処理装置は設定内容を表示する(S21)。そして、情報処理装置は、ユーザ操作に応じて、設定内容を変更する(S22)。その後、S18以降の処理は、すでに説明したものと同様である。
図12に、音声認識による帳票入力処理の概要フローを示す。この処理では、本支援プログラムを起動し、かつ、入力対象の帳票を実現するスプレッドシートを表示した状態で、ユーザがマイクロフォンに向かって発話する。すると、情報処理装置は、所定のインターフェースを通じて、音声を取り込み、デジタル化し、音声データを生成する。さらに、情報処理装置は、音声データを音声認識エンジンに引き渡す。音声認識エンジンは、既存の音声認識処理を実行し、その音声データを文字列に変換する(S30)。そして、音声認識エンジンは、本支援プログラムを実行する情報処理装置に、アプリケーションインターフェースを通じて認識結果である文字列を引き渡す(S31)。S31の処理を実行する情報処理装置が、本発明の音声認識連係手段に相当する。また、S32以下の処理が、本発明の文字情報に応じた処理に相当する。
次に、情報処理装置は、現在選択されているセルに音声入力の定義がされているか否かを判定する(S32)。現在選択されているセルに音声入力の定義がされている場合、情報処理装置は、音声認識エンジンに取得されている音声データを音声ログに保存する(S33)。この処理を実行する情報処理装置が、本発明の記録する手段に相当する。
次に、情報処理装置は、特別処理が定義されているか否かを判定する(S35)。ここで、特別の処理とは、発話内容に対する変換後の文字列が定型的に表される、数値、日付、通貨等に関する処理をいう。
そのセルに関して特別処理が定義されている場合、情報処理装置は、特別処理を実行する。ここでは、数字と文字列からなる情報の入力を例に説明する。例えば、日付を入力すべきセルがあり、年/月/日の書式が指定されているものに音声入力する場合を説明する。
このセルがフォーカスされているときに、「にせんろくねんじゅうにがつにじゅうろくにち」と発話されたと仮定する。この場合、音声認識エンジンは、2000|6|年|10|2|月|2|10|6|日という文字をそれぞれ生成し、分離を示す記号”|”で区切って、本支援プログラムに引き渡す。すなわち、本情報処理装置では、数字については、位ごとに音声認識エンジンから本支援プログラムに引き渡される。
本支援プログラムを実行する情報処理装置は、数字部分について、それぞれの位ごとの数字を加算する。その結果、2006、12、および26という日付を構成する数字が生成され、「2006年12月26日」という文字列が形成される。次に、情報処理装置は、日付の書式を年/月/日に変更し、2006/12/26という文字列を生成し、セルに設定する。このように、特別処理は、複数桁の数字についての各桁の数の加算と、書式の整形の処理からなる。
その後、本支援プログラムは、アプリケーションインターフェースを通じて、表計算プログラムに対して、上記入力値のセルへの設定と上記書式での表示を指示する。これにより、情報処理装置は、対象セルに入力されたデータを表示する(S36)。そして、情報処理装置は、現在処理中のセルに次入力セル座標が定義されているか否かを判定する(S37)。次入力セルが定義されている場合、情報処理装置は、次入力セルへフォーカスを移動する(S38)。そして、情報処理装置は、次の音声入力待ちとなる。
また、S37の判定で次入力セルが定義されていない場合、情報処理装置は、現在のセルにて処理を停止する。これにより、情報処理装置としては、ユーザからの操作待ちの状態となる。
一方、S34の判定で、そのセルに関して特別処理が定義されていない場合、情報処理装置は、数字を含まない通常の文字列(書式のない文字列)の入力の処理を実行する。この処理では、情報処理装置は、発話内容が対象セルに事前に定義されているいずれかの語彙と一致するか否かを判定する(S39)。一致する場合には、情報処理装置は、対象セルに入力されたデータを表示する(S36)。
S39の判定で、一致しない場合、情報処理装置は、さらに、次の音声入力待ちとなる。発話された音声の認識結果が正しくないと判断され、再度発話を待つためである。
図13に音声ログの再生処理の概要フローを示す。この処理では、まず、ユーザがポインティングデバイスを使用してセルを選択する(S50)。ただし、ユーザが移動語を発話することで、その移動語で特定されるセルを選択するようにしてもよい。
次に、情報処理装置は、セル座標にリンクされた音声ログファイルが存在するか否かを判定する(S51)。そして、そのセル座標にリンクされた音声ログファイルが存在する場合、情報処理装置は、ファイル一覧を生成する(S52)。
次に、情報処理装置は、そのファイル一覧中に音声ログファイルが複数存在するか否かを判定する(S53)。音声ログファイルが複数存在する場合、情報処理装置は、ユーザにファイルの選択を促す(S54)。そして、情報処理装置は、選択された音声ログのファイルから音声を再生する。また、S51の判定で、音声ログファイルが1つだけ存在する場合には、そのファイルから音声を再生する(S55)。発話の再生は、具体的には、アプリケーションインターフェースを通じて、音声認識エンジンの再生部に再生を依頼する。この処理を実行する情報処理装置が、本発明の発話を再生させる手段に相当する。
次に、情報処理装置は、プログラムを終了するか否かの入力を促す(S56)。プログラムを終了しない操作がなされた場合、情報処理装置は、制御をS50に戻す。一方、プログラムを終了する操作がなされた場合、情報処理装置は、処理を終了する。
<実施形態の効果>
以上述べたように、本実施形態の情報処理装置は、帳票を構成するスプレッドシートを表示する表計算プログラムと、音声認識エンジンとを接続する支援プログラムを実行する。
本支援プログラムは、音声認識設定モードでは、スプレッドシート上で音声認識された文字列が入力されるべきセルについて、ユーザに入力されるべきデータの文字列および読みがなを設定を促し、そのような文字列および読みがなのデータベースへの保存を支援する。また、読みがなと文字情報との組合せは、ユーザが追加定義可能な辞書に登録される。そして、この支援プログラムは、音声入力モードでは、フォーカスされているセルごとにマイクロフォンおよび音声認識エンジンを通じて音声認識後の文字列を取得する。そして、音声認識設定モードで設定された文字列と合致する音声認識後の文字列をセルに設定する。このような、音声認識設定モードでの認識対象の文字情報のデータベースへの設定処理と、音声入力モードでのデータ取得された入力値との突き合わせ処理とによって、スプレッドシートに構築された帳票入力に、誤認識の少ない音声認識機能を追加できる。
また、本支援プログラムは、数字を含む情報を入力すべきセルに対しては、そのセルに入力すべき型と、表示すべき書式の設定を支援する。例えば、数字情報、通貨、日付、時刻、郵便番号、電話番号等である。そして、数字部分に関しては、位ごとに数字を音声認識エンジンから受け取り、加算して全体の数字を算出する。一方、数字以外の部分に関しては指定された書式にしたがって整形する。このようにして、本支援プログラムでは、音声認識エンジンと連係し、数字を含む入力値をユーザ所望の形式で、セルに設定できる。
また、このような音声認識時、本支援プログラムは、現在入力中のセルと関連付けた音声ログファイルに、マイクロフォンから取得された音声データを保存する。その結果、本支援プログラムは、音声入力が終了した後、個々のセルをそれぞれフォーカスして、入力された音声データを再生させることができる。
さらに、以上のような音声認識機能、およびログ取得機能をスプレッドシートに付加するあたり、本支援プログラムは、OSのアプリケーションインターフェースを通じて、ユーザのスプレッドシートに対する操作イベントを取得し、処理を実行する。すなわち、そのような操作イベントに応じて、操作されたセルにおいて音声認識に必要なデータを受け付けデータベースに保存する。また、ユーザの発話に伴い、音声認識エンジンで発生したイベントを検知し、音声認識結果の文字情報を受け付ける。そして、現在ユーザ操作によってフォーカスされているスレッドシート上のセルに認識された文字情報を設定する。このため、本支援プログラムは、スプレッドシートを表示する表計算プログラムに対して、既存の音声認識エンジンを用いて、スプレッドシートを表示する表計算プログラムの改造をすることなく、音声認識機能を付加できる。
<その他>
以上説明した支援プログラムは、ネットワークを通じて、ユーザのコンピュータにインストールするようにしてもよい。これらのプログラムをコンピュータが読み取り可能な記録媒体(例えば、DVD,CD−ROM、着脱可能なディスク等)に格納して配布するようにしてもよい。
情報処理装置において支援プログラムを起動するときの操作手順を示す図である。 音声認識設定モードでの操作手順を示す図である。 音声認識情報が設定されたスプレッドシートへの入力手順を示す図である。 音声ログを再生するときの処理手順を示す図である。 基本設定タブ画面の構成を示す図である。 型/書式タブ画面の構成を示す図である。 入力値タブ画面の構成を示す図である。 音声認識された認識結果をセルに入力するときに、支援プログラムが参照するテーブルと、そのテーブル間の関連を示す図である。 音声ログ再生時に本支援プログラムが使用するテーブルとそれらの関連を示す図である。 スプレッドシートを表示する表計算プログラムと、本支援プログラムとの間のイベント処理の手順を示す図である。 音声認識設定処理の概要フローを示す図である。 音声認識による帳票入力処理の概要フローを示す図である。 音声ログの再生処理の概要フローを示す図である。
符号の説明
1 操作メニュー
2 設定モード画面
3 リスト
W1−W4、W11−W14、W21−W23 ウィンドウ

Claims (10)

  1. コンピュータ画面に形成されるシート上の複数の位置にそれぞれ関連付けられる複数のデータ設定部を有し、前記データ設定部にデータが設定されたときに、そのデータ設定部に対応する前記シート上の位置に所定の表示形式で前記データを表示する、そのようなユーザインターフェースを含むコンピュータプログラムを実行するコンピュータを、
    前記コンピュータの入力手段を通じた前記ユーザインターフェースへの操作に係る情報を前記コンピュータプログラムから受信する手段と、
    前記ユーザインターフェースが前記シート上の複数の位置のいずれかの選択を受け付けたときに、その選択を受け付けたシート上の位置に対応して入力されるべき、発話によって特定される対象となる文字に係る情報の入力を受け付ける手段と、
    前記シート上の位置と関連付けて前記文字に係る情報を記憶する手段、
    として機能させる連係支援プログラム。
  2. 発話を受け付けてその発話の表す文字情報を認識する音声認識手段から前記文字情報を受け取る音声認識連係手段と、
    前記文字情報に応じた処理を実行する処理手段、としてさらにコンピュータを機能させる請求項1に記載の連係支援プログラム。
  3. 前記文字情報に応じた処理は、前記受け取った文字情報と前記記憶された文字に係る情報との照合処理、前記受け取った文字情報を前記記憶された文字に係る情報にしたがって所定の書式に変更する処理、前記文字情報または前記所定の書式に変更された文字情報を前記データ設定部へ設定させるため前記コンピュータプログラムへの指示する処理、前記シート上の位置で前記文字情報または前記所定の書式に変更された文字情報を表示させるため前記コンピュータプログラムへ指示する処理、前記シート上の位置を選択させるため前記コンピュータプログラムへ指示する処理、および前記シート以外の他のシートが前記画面上にシートを重畳させて階層的に表示されている場合の前記シートと前記他のシートとの階層関係を変更させるため前記コンピュータプログラムへ指示する処理の少なくとも1つである請求項2に記載の連係支援プログラム。
  4. 前記文字情報の前記データ設定部への設定の指示が終了したときに次に文字情報を設定すべき前記シート上の位置を予めユーザに指定させる指定手段としてさらに機能し、
    前記処理手段は、前記設定の指示が終了したときに前記予め指定されている前記シート上の位置に処理の対象を移動する請求項3に記載の連係支援プログラム。
  5. 前記音声認識手段を介して受け付けた発話を前記シート上の位置と関連付けて音声データとして記録する手段と、
    前記ユーザインターフェースが前記シート上のいずれかの位置の選択を受け付けたときにその選択を受け付けたシート上の位置と関連付けて記録されている音声データから、前記再生手段を通じて発話を再生させる手段、としてさらにコンピュータを機能させる請求項1から4のいずれかに記載の連係支援プログラム。
  6. 前記シートは前記データ設定部に対応する要素を配列した表を含み、前記シート上の位置は前記表の行を識別する行識別情報および前記表の列を識別する列識別情報によって特定される請求項1から5のいずれかに記載の連係支援プログラム。
  7. コンピュータ画面に形成されるシート上の複数の位置にそれぞれ関連付けられる複数のデータ設定部を有し、前記データ設定部にデータが設定されたときに、そのデータ設定部に対応する前記シート上の位置に所定の表示形式で前記データを表示する、そのようなユーザインターフェースを含むコンピュータプログラムを実行するコンピュータが、
    前記コンピュータの入力手段を通じた前記ユーザインターフェースへの操作に係る情報を前記コンピュータプログラムから受信するステップと、
    前記ユーザインターフェースが前記シート上の複数の位置のいずれかの選択を受け付けたときに、その選択を受け付けたシート上の位置に対応して入力されるべき、発話によって特定される対象となる文字に係る情報の入力を受け付けるステップと、
    前記シート上の位置と関連付けて前記文字に係る情報を記憶するステップとを、実行する連係支援方法。
  8. 発話を受け付けてその発話の表す文字情報を認識する音声認識手段から前記文字情報を受け取る音声認識連係ステップと、
    前記文字情報に応じた処理を実行する処理ステップとをさらに実行する請求項7に記載の連係支援方法。
  9. コンピュータ画面に形成されるシート上の複数の位置にそれぞれ関連付けられる複数のデータ設定部を有し、前記データ設定部にデータが設定されたときに、そのデータ設定部に対応する前記シート上の位置に所定の表示形式で前記データを表示する、そのようなユーザインターフェースを含むコンピュータプログラムを実行する処理装置であって、
    ユーザ操作に応じて情報の入力を受け付ける入力手段と、
    前記入力手段を通じた前記ユーザインターフェースへの操作に係る情報を前記コンピュータプログラムから受信する手段と、
    前記ユーザインターフェースが前記シート上の複数の位置のいずれかの選択を受け付けたときに、その選択を受け付けたシート上の位置に対応して入力されるべき、発話によって特定される対象となる文字に係る情報の入力を受け付ける手段と、
    前記シート上の位置と関連付けて前記文字に係る情報を記憶する手段とを、備える処理装置。
  10. 発話を受け付けてその発話の表す文字情報を認識する音声認識手段から前記文字情報を受け取る音声認識連係手段と、
    前記文字情報に応じた処理を実行する処理手段とをさらに備える請求項9に記載の処理装置。
JP2006231236A 2006-08-28 2006-08-28 コンピュータ実行可能なプログラム、方法、および処理装置 Pending JP2008052676A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006231236A JP2008052676A (ja) 2006-08-28 2006-08-28 コンピュータ実行可能なプログラム、方法、および処理装置
PCT/JP2007/067105 WO2008032594A1 (en) 2006-08-28 2007-08-28 Computer-executable program, method, and processing device
KR1020097006388A KR20090107012A (ko) 2006-08-28 2007-08-28 컴퓨터 실행 가능한 프로그램, 방법, 및 처리장치
EP07806578A EP2090977A1 (en) 2006-08-28 2007-08-28 Computer-executable program, method, and processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006231236A JP2008052676A (ja) 2006-08-28 2006-08-28 コンピュータ実行可能なプログラム、方法、および処理装置

Publications (1)

Publication Number Publication Date
JP2008052676A true JP2008052676A (ja) 2008-03-06

Family

ID=39183655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006231236A Pending JP2008052676A (ja) 2006-08-28 2006-08-28 コンピュータ実行可能なプログラム、方法、および処理装置

Country Status (4)

Country Link
EP (1) EP2090977A1 (ja)
JP (1) JP2008052676A (ja)
KR (1) KR20090107012A (ja)
WO (1) WO2008032594A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014134869A (ja) * 2013-01-08 2014-07-24 Mitsubishi Electric Corp 電力系統監視制御装置およびその制御プログラム
JP2017228030A (ja) * 2016-06-21 2017-12-28 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
JP2018005679A (ja) * 2016-07-05 2018-01-11 株式会社ビジー・ビー 支援プログラム
JP2021039389A (ja) * 2019-08-30 2021-03-11 シャープ株式会社 表示装置、表示システム、及び表示方法
WO2022019145A1 (ja) * 2020-07-20 2022-01-27 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP2022539673A (ja) * 2019-10-15 2022-09-13 グーグル エルエルシー グラフィカルユーザインターフェース内への内容の音声制御入力

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331107A (ja) * 1999-05-20 2000-11-30 Dainippon Printing Co Ltd 電子帳票システム
JP2003295884A (ja) * 2002-03-29 2003-10-15 Univ Waseda 音声入力モード変換システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08129476A (ja) * 1994-10-31 1996-05-21 Kitsusei Comtec Kk 音声データ入力装置
JP2002351652A (ja) * 2001-05-23 2002-12-06 Nec System Technologies Ltd 音声認識操作支援システム、音声認識操作支援方法、および、音声認識操作支援プログラム
JP2007164732A (ja) * 2005-12-16 2007-06-28 Crescent:Kk コンピュータ実行可能なプログラム、および情報処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331107A (ja) * 1999-05-20 2000-11-30 Dainippon Printing Co Ltd 電子帳票システム
JP2003295884A (ja) * 2002-03-29 2003-10-15 Univ Waseda 音声入力モード変換システム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014134869A (ja) * 2013-01-08 2014-07-24 Mitsubishi Electric Corp 電力系統監視制御装置およびその制御プログラム
JP2017228030A (ja) * 2016-06-21 2017-12-28 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
JP2018005679A (ja) * 2016-07-05 2018-01-11 株式会社ビジー・ビー 支援プログラム
JP2021039389A (ja) * 2019-08-30 2021-03-11 シャープ株式会社 表示装置、表示システム、及び表示方法
JP7289243B2 (ja) 2019-08-30 2023-06-09 シャープ株式会社 表示装置、表示システム、及び表示方法
JP2022539673A (ja) * 2019-10-15 2022-09-13 グーグル エルエルシー グラフィカルユーザインターフェース内への内容の音声制御入力
JP7250180B2 (ja) 2019-10-15 2023-03-31 グーグル エルエルシー グラフィカルユーザインターフェース内への内容の音声制御入力
US11853649B2 (en) 2019-10-15 2023-12-26 Google Llc Voice-controlled entry of content into graphical user interfaces
US12093609B2 (en) 2019-10-15 2024-09-17 Google Llc Voice-controlled entry of content into graphical user interfaces
WO2022019145A1 (ja) * 2020-07-20 2022-01-27 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
KR20090107012A (ko) 2009-10-12
WO2008032594A1 (en) 2008-03-20
EP2090977A1 (en) 2009-08-19

Similar Documents

Publication Publication Date Title
JP5257330B2 (ja) 発言記録装置、発言記録方法、プログラム及び記録媒体
KR100650427B1 (ko) 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴
US8620667B2 (en) Flexible speech-activated command and control
RU2360281C2 (ru) Представление данных на основе введенных пользователем данных
JP4218758B2 (ja) 字幕生成装置、字幕生成方法、及びプログラム
WO1999063425A1 (fr) Procede et appareil de traitement d'informations et support de fourniture d'informations
JP2005055782A (ja) データ入力装置、ハンディターミナル、データ入力方法、プログラム及び記録媒体
US7742924B2 (en) System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context
JP2008052676A (ja) コンピュータ実行可能なプログラム、方法、および処理装置
WO2004001570A1 (ja) 自然言語による既存データの記述方法及びそのためのプログラム
JP2013182410A (ja) 業務分析設計支援装置、業務分析設計支援方法、および業務分析設計支援プログラム
JP2013257719A (ja) 議事録作成支援装置及び議事録作成支援システム
WO2020080375A1 (ja) 報告書作成装置、方法、および記録媒体
KR20230015489A (ko) 회의록 관리 방법 및 장치
KR102677498B1 (ko) 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP5108642B2 (ja) ユースケースシナリオ作成支援システム、ユースケースシナリオ作成支援方法、およびユースケースシナリオ作成支援プログラム
WO2021205832A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US20140156593A1 (en) Information processing apparatus, information processing method, and program
WO2007097014A1 (ja) 情報システムの動作確認方法、その動作確認プログラム、記録媒体及び動作確認システム
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP2010002830A (ja) 音声認識装置
JP2005044103A (ja) 文書作成装置、文書作成方法およびプログラム
JP4805491B2 (ja) 辞書管理プログラム及びコンピュータシステム
JP7163845B2 (ja) 情報処理装置、およびプログラム
JP4847210B2 (ja) 入力変換学習プログラム、入力変換学習方法及び入力変換学習装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20080305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090708

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426