JP2009514005A

JP2009514005A - 口述筆記された情報を処理する方法及びシステム

Info

Publication number: JP2009514005A
Application number: JP2008537255A
Authority: JP
Inventors: メーメットエムオズ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-10-27
Filing date: 2006-10-16
Publication date: 2009-04-02
Also published as: CN101297351B; EP1943641B1; CN101297351A; US20080235014A1; US20130262113A1; US8452594B2; EP1943641A1; CN103050117A; US8712772B2; JP2014013399A; WO2007049183A1; CN103050117B

Abstract

口述筆記された情報を動的なフォームへ処理する方法及びシステムが開示される。その方法は、画像カテゴリに属する画像3をユーザに提示するステップと、上記画像カテゴリに関連付けられる第１の部分の音声を口述筆記するステップと、上記第１の部分の音声に関連付けられる過去に規定された文書構造4を持つ電子文書を取得して、上記文書構造を上記画像に関連付けるステップであって、上記文書構造が少なくとも１つのテキストフィールドを有する、ステップと、提示ユニット5において上記文書構造4を持つ上記電子文書の少なくとも一部を提示するステップと、第２の部分の音声を口述筆記し、音声認識エンジン6において上記第２の部分の音声を口述筆記されたテキストへと処理するステップと、上記口述筆記されたテキストを上記テキストフィールドに関連付けるステップとを有する。

Description

本発明は、一般に、音声認識を介した文書作成の分野に関する。より詳細には、本発明は、口述筆記された(dictated)情報を動的なフォームへ処理して、その口述筆記されたフォームに基づき認識精度(学習率又は適合率)を増大させる方法及びシステムに関する。更に詳細には、本発明は、文書の内容を一般的なリレーショナルデータベースに関連付ける方法及びシステムに関する。

音声認識システムは、今日、ますます有効さを増しており、複数の分野において良く使用されている。音声認識(SR)は、マイクで受信される音響信号が、単語のセットを有する文書へとコンピュータにより変換される処理のことである。その後、これらの認識された単語は、異なる目的の様々なアプリケーションにおいて使用されることができる。音声をテキストに変換する自動音声認識システムは、結果として、コスト効率の良いレポート作成手段であり、トランスクリプションの生産性を高めることができる。

これらのレポートが、検索が非常に困難で間違いの元になりやすい情報の宝庫であるという事実により、有益な情報がそのレポートから容易に収集されることができるように、その情報を処理する必要性が増大している。

現在、レポートを口述筆記する主な方法は、プレーンテキストを口述筆記することであることが知られている。これは、口述筆記して完全に利用したいと思っている文書の構造、つまり文法的かつ意味的に正確な文をユーザが知っていることを必要とする。音声認識の観点からは、プレーンテキストの口述筆記は単純であるが、一定の改良がまだ実現されることができていない。なぜなら、音声認識(SR)エンジンは、レポートの構造に関して、信頼性高く認識誤り(interference)を処理(make)することができないからである。

口述筆記のための別の方法は、テンプレートを極端なまでに利用するフォーム記入方式(form filling)である。この方法によれば、最も一般に使用されるレポートがフォームに変換され、その結果、ユーザは、どこに何を口述筆記すべきかを正確に知る。これは、レポートから情報を抽出することも簡単にする。なぜなら、そのレポートフォームは、ユーザには知られているからである。この方法は、「頻繁に使用される」レポートにおいてはうまく機能するが、あまり頻繁には使用されない場合には対処できないか、又はすべての可能性を検討するのが非常に困難であるため非実用的となる。

音声認識の観点から言えば、フォーム記入口述筆記法は、精度の改善にはつながる。なぜなら、個別の分野に対して、文脈及び文法が細かく調整されることができるからである。しかし、この精度は、複雑な開発工程という犠牲の上に成り立つものである。なぜなら、そのフォームは通常顧客側で決定されるので、SRエンジン及びSRアプリケーションで使用されることができるフォーマットにそのフォームを変換するための賢いアルゴリズム及び／又は使い安いツールが必要とされるからである。

レポートを口述筆記して処理する方法を改善するための複数のアイデアが過去数年にわたり提案されてきた。１つの例が、米国特許第6 813 603号に開示されている。その文献は、フォームを完成させるのにテキスト入力を口述筆記しつつ、ユーザが選択した分野における標準的なテキストをユーザ制御により挿入するシステム及び方法を開示する。

例えば医療レポートといった頻繁に使用されるレポートにおける情報は、使いづらい形式で(heavily)フォーマット化されており、自動化処理のための構造をほとんど又は全く持たないことも知られている。このことは、所定の薬剤、所定の状態の診断回数といった、完了レポートからの有益な情報を収集することを非常に困難にしている。完了レポートの内容に基づき請求書が作成される(言い換えるとコード化される)が、それも、レポート単体を解析することを介して実現することは困難である。

１つの問題は、認識されたテキストの処理が容易ではないことである。これに対処するのにコーディングツールのようなツールが存在するが、高価でエラーの原因になるためそれらは最適ではない。別の問題は、レポートの構造である。レポートを口述筆記するためのガイドラインは通常支配的に(centrally)決定され、口述のとき著者はこれらのガイドラインを常に守るわけではない。更に、各著者は独自の口述スタイルを持っている。通常、著者は同じレポート構造を用い、更には同じフレーズを用いる。著者の中には、同じことを何度も何度も繰り返し口述するものもいる。彼らは、必要とされるいくつかのポイントを口述し忘れるか、又は対処し忘れる場合がある。

ヘルスケアの分野においては、プライバシーへの関心も存在する。なぜなら、文書、医療レポートは、倫理的にも法的にも保護される必要がある個人の健康状態情報に満ちているからである。

以上により、口述筆記された情報を処理するための改善された方法が有利である。

従って、本発明は、添付された請求項によれば、口述筆記された情報を動的なフォームへと処理することが可能であり、かつその動的なフォームにおける口述情報を外部データベースに関連付けることができる方法及びシステムを提供することにより、好ましくは、従来技術における上述の欠陥と単独又は組み合わされた形式での不都合点とのうちの１つ又は複数を緩和し、軽減し、及び削減することを模索すると共に、少なくとも部分的に上述の問題の少なくとも１つを解決する。

本発明は、すべての関連データがマークされ、外部データベースに関連付けられるような文書レポートを作成する方法を提供することを可能にする。本発明によるシステムは、ボイスマクロにより自動的に作成される構成ブロックを含むレポートテンプレートを与える。ボイスマクロは、著者により埋められることになるワークタイプフィールドを規定し、その結果、著者はそのフィールドを見ることができるので、そのフィールドへ何を口述すべきか又は何を入れるべきかを忘れることがない。例えば、著者が一旦患者の胸部x線を口述筆記したいと指示するだけで、斯かるレポートの関連構成ブロックが自動的に挿入される。これらのブロックは、一旦その文書が完成すると、文書内におけるディスティンクトノードを作成するのに使用されることができるマーカも含むことができる。そのノードは、拡張可能マークアップ言語(xml)といった一般的なマークアップ言語により作成される。こうして、その文書の特定の部分が、外部データベースに間違いのない態様でマッピングされることができる。それにより、パーシング又はコーディングは不要となる。

本発明の１つの側面によれば、口述筆記された情報を動的なフォームへ処理する方法が与えられる。その方法は、画像カテゴリに属する画像をユーザに提示するステップを有する。その方法は、上記画像カテゴリに関連付けられる第１の部分の音声を口述筆記するステップと、上記第１の部分の音声に関連付けられる過去に規定された文書構造を持つ電子文書を取得して、上記文書構造を上記画像に関連付けるステップであって、上記文書構造が少なくとも１つのテキストフィールドを有する、ステップと、提示ユニットにおいて上記文書構造を持つ上記電子文書の少なくとも一部を提示するステップと、第２の部分の音声を口述筆記し、音声認識エンジンにおいて上記第２の部分の音声を口述筆記されたテキストへと処理するステップと、上記口述筆記されたテキストを上記テキストフィールドに関連付けるステップとを更に有する。

本発明の別の側面によれば、口述筆記された情報を動的なフォームへ処理するシステムが与えられる。そのシステムは、画像カテゴリに属する画像をユーザに提示する手段を有する。そのシステムは、上記画像カテゴリに関連付けられる第１の部分の音声を口述筆記する手段と、上記第１の部分の音声に関連付けられる過去に規定された文書構造を持つ電子文書を取得して、上記文書構造を前記画像に関連付ける手段であって、上記文書構造が少なくとも１つのテキストフィールドを有する、手段を更に有する。更に、そのシステムは、上記文書構造を持つ上記電子文書の少なくとも一部を提示する提示ユニットと、第２の部分の音声を口述筆記する手段と、上記第２の部分の音声を口述筆記されたテキストへと処理する音声認識エンジンと、上記口述筆記されたテキストを上記テキストフィールドに関連付ける手段とを有する。

本発明は、例えば、音声認識を介して作成される文書において、すべての関連データがマークされることができ、外部データベースに関連付けられることができるという点において従来技術に対する利点を持つ。

更に、同じ手法が、文書部分の順序及び構造を内容から分離することもできる。著者は、好きな順番で、望むなら別のキーワードを用いて口述筆記することができる。最終的な文書はそれでも一様であるように見える。

本発明が実行可能なこれらの及び他の側面、特徴及び利点が、対応する図面を参照しながら、本発明の実施形態の以下の説明から明らかとなり、及びそれらの説明から理解されることになろう。

以下の説明は、医療用途において、即ち、非限定的な例としてのMRI(磁気共鳴イメージング)検査において口述筆記された情報を動的なフォームへと処理し、より詳細にはその動的なフォームにおける上記口述筆記された情報を外部データベースに関連付けるのに適用可能な本発明の例示に焦点を当てる。しかしながら、本発明は、この用途に限定されるものではなく、法律業務及び保険業務といった他の多くの口述筆記の流れ(chain)に適用されることができることを理解されたい。

図は単に概略的であることを理解されるであろう。本発明による口述筆記の流れが図１に示される。その流れは、本例では医師である著者２が画像３を受信することから始まる。画像３は、本例では、MRI検査の間MRI(磁気共鳴イメージング)モダリティにより作成される例えば患者の頭部の画像である。その画像は、コンピュータ断層撮影(CT)又は超音波装置といった他の医療画像モダリティから得られることもできる。医師は、例えば、医療ワークステーションのディスプレイ上でこの画像を調査する。それから、医師は、(図示省略された)テンプレートデータベースに送信されるボイスマクロ「MRIレポート」を口述筆記する。例えば、そのボイスマクロは、その医療ワークステーション又は別のコンピュータ上で起動されるSRアプリケーションとSRエンジンとにおいて、マイクを介して受信される音響信号として記録される。その記録信号は、例えば、ネットワークにおいて配信され、口述筆記のため医師もアクセス可能である。その音響信号は、SRエンジンにより処理され、音響ボイスマクロに対応するコンピュータコマンドに変換される。この例では、MRI検査のためのレポートテンプレート４が使用されるべきであることをボイスマクロが指示する。テンプレート４が、テンプレートデータベース(図示省略)から要求される。すると、レポートテンプレート４がテンプレートデータベースから取得されて受信され、スクリーン５上に、例えば、上述の医療ワークステーションのスクリーンに表示される。MRI検査のためのテンプレート４が、スクリーン５に表示されるとき、医師は、プレーンテキスト又は他のボイスマクロといった関連情報をレポートテンプレート４へと指示する。口述筆記の間、口述筆記された情報は、それが処理される音声認識エンジン６へと連続的に送信される。音声認識エンジン６は、ボイスマクロの上述の音声認識のために使用されることもできる。最終的なレポート７及び関連画像３が、互いに関連付けられデータベース８に格納される。それは、その後、例えば、病院情報システム(HIS)の一部として、電子患者カルテ(EPR)に収容されることができる。ここでは、上述した処理の説明目的の例示が与えられる。レポートテンプレートに結果として生じるテキストは、以下のようなものとなる。

臨床表現：[臨床表現が口述筆記されてこの欄に入る]
履歴：調査は、[過去の調査日が口述筆記されてこの欄に入る]日付けの過去の調査と比較された
所見事項：[医療的所見が口述筆記されてこの欄に入る]
所感：[調査から得られる所感が口述筆記されてこの欄に入る]
薬剤：[所定の薬剤がリスト表示される]

コロンの左側のボールドテキストは、テンプレート４から自動的に入力され、[]で囲まれるイタリック体テキストは、口述筆記により医師により埋められるワークタイプフィールドである。各フィールドの認識のため、SRエンジンは一般に、放射線コンテキスト全体(数万個の単語及び関連する統計モデル)を使用する。コンピュータシステムの認識精度が高くなればなるほど、口述筆記されるテキストがより明確になっていく。これは人間の聴者にも当てはまることではあるが、システムの場合努力を必要とせずに実現されるので、気付かないうちに(noticeably)行われることになる。例として、ある人が先週末に見た野球の試合について話す場合、「マンモグラフィ」又は「フィブロシスティック(fibrocystic:線維嚢胞性)」といった言葉はあまり使用しない。しかし、いつかは話題を変える可能性がある。それでも、彼が医師であり、自分が直面したいくつかの稀な状態に関する話をしていることが分かっている場合には、彼がしゃべることに付いていくことができる。

例えばソフトウェアで実現されるある方法において、この問題は、ターゲット化された適合(targeted adaptation)ConTextを介して解決される。ConTextは、放射線学といったある題材に特有なデータセットとして規定されることができ、放射線学レポートにおいてよく発見されがちな多数の(a population of)単語(特殊な用語集及び統計言語モデル)と、これらの単語がどのように使用されることができるかの尤度の複雑な統計モデルとを含む。いわゆるSubConText(大きな用語集及び統計言語モデルのサブセット)も作成されることができる。これらのSubContextは、レポートにおける位置に応じて、実行中であっても正確かつ迅速に切り替えられることができる。この切り替えは、構成ブロックが所定のワークタイプフィールドを持つような、本発明の実施形態によるレポートにおいては自動的に行われる。例えば、そのフィールドが「測定：」と呼ばれるものなら、数字、番号、単位及び測定タイプ用語が口述筆記される可能性が高い。ConTextは最適化され、認識率がはっきり増大される。この特定のフィールドに医師が何と口述しているかソフトウェアは知っているので、複雑な推測アルゴリズムを使用する必要がない。ConTextがより限定されるようないくつかのフィールド、例えばデータフィールドでは、SRエンジンが、このフィールドに対するSubConText又は文法を切り替えることができ、SR精度が劇的に上昇することになる。

ボイスマクロにより規定されるワークタイプフィールドは、一旦レポートが作成されると、xml文書においてディスティンクト(distinct:重複排除された)ノードを作成するのに使用されることができるマーカを含む。その結果、パーシング(parsing:解析)は必要とされない。こうして、その特定の部分が、間違えようのない態様で外部データベースにマッピングされることができる。その外部データベースは、電子患者カルテを含むがそれには限定されない。薬剤ワークタイプフィールドに含まれる口述筆記されるテキストは、例えば、以下のようなものである。

薬剤：[
薬剤 A
薬剤 B
薬剤 C
]。

この情報は、特殊なxmlコードへとテキストとしてエクスポートされ、そのマーカが、このコードにおけるノードとなる。例えば、薬剤フィールドにおける情報が、

となる。更に、同じ手法が、文書部分の順序及び構造を内容から分離するのにも適用されることができる。医師は、好きな順番で、望むなら別のキーワードを用いて口述筆記することができる。最終的な文書はそれでも一様であるように見える。SRアプリケーションにおいてそのフィールドは明示的に特定されるので、ポストプロセス・ステップにおいて、口述筆記の順序は変更されることができる。例えば、医師は、比較日の日付を最初に口述し、次に、所見事項を述べ、そこで、自分が臨床表現を忘れたことに気付き、その臨床表現を口述するといったことが可能である。

別の実施形態においては、任意の順序で実行が可能であるよう、ボイスマクロが規定される。こうして、医師は、自分が好きな順序で口述筆記することができる。しかし、供給(delivery)の間、外部ツールが、例えば、病院により過去に規定された所望の順序及びフォーマットとなるよう、そのフィールドを再ソートし、それらを再フォーマット化することになる。以下の例は、その方法の各ステップにおいてレポートがどのように見えるかを示す。

最初のステップにおいて、医師は、ボイスマクロ「履歴の挿入」を口述し、その後、「２０．０９．２００４」と口述する。

レポートは以下のようになる。

続けて医師はボイスマクロ「所見事項の挿入」を口述する。レポートは以下のようになる。

その後医師は、所見事項を後述する。レポートは以下のようになる。

そして、医師は、臨床的表現を口述したいと思い、ボイスマクロ「臨床表現の挿入」とその内容とを口述する。レポートは以下のようになる。

医師は、別のボイスマクロ「所感の挿入」を口述する。レポートは以下のようになる。

医師は、「カテゴリ４マンモ」を口述することにより所感フィールドを完成させる。レポートは以下のようになる。

すると、ポストプロセス・ステップにおいて、臨床表現部分は、先頭に容易に移動されることができ、より意味のあるものとなる。レポートは以下のようになる。

これは、ちょっとした例である。テキストの構成ブロックは、所望の態様でソートされることができる。

本発明の別の例においては、ユーザにより見られるレポートフォームの複雑さが、「できるだけ簡単に、でも簡単過ぎない」態様で管理されるよう、動的にワークタイプフィールドを拡張又は削減することができる。

医師は、例えば、マンモグラフィ検査の実施要求に伴いマンモグラフィ画像を受信する。医師が、ボイスマクロ「マンモグラフィ検査」を実行すると、斯かるレポートを口述筆記するのに必要なすべてのヒントが画面に表示される。例えば、

所見事項が良性の可能性のある所見であると仮定する。医師は、ボイスマクロ「カテゴリ０マンモ」を実行し、結果としてレポートに所定のテキストが挿入されたものを生じさせる。

このレポートは、良性の所見に関する追加的な情報にまで自動的に拡張される。こうして、医師は、探すべき物、この例ではどの薬剤が通常処方されるべきかを自動的に知る。同様に、状態に応じて、いくつかのフィールドがレポートから除去されることができる。

本発明による上述のシステム及び方法の用途及び使用は、様々であり、(心臓学、腫瘍学、緊急医療等を含む)任意の他の医療専門領域といった例示的な分野を含むが、法律分野、保険分野及び口述されたスピーチから文書が作成されるような任意の他の分野も含む(PDA又はボイスレコーダ等といった携帯型デバイスを介して行われることもできる。なぜなら、それらも認識エンジンに与えられることができるからである)。

本発明は、特定の実施形態を参照して説明されてきたが、本書に説明された特定の形式に限定されることを意図するものではない。むしろ、本発明は、対応する請求項によってのみ定まるものである。上述した特定の例以外の他の例は、これらの添付された請求項の範囲内で同様に可能である。

請求項において、単語「comprises/comprising(有する)」は、他の構成要素又はステップの存在を排除するものではない。更に、別々に記載されていても、複数の手段、要素又は方法ステップが、例えば単一ユニット又はプロセッサにより実現されることができる。加えて、個別の特徴が異なる請求項に含まれる場合であっても、結合させることが有利である可能性もある。異なる請求項に含まれることは、その特徴の組み合わせが実現できない及び／又は有利ではないことを意味するものではない。更に、単一の参照は、複数性を排除するものではない。単語「a」「an」「第１の」「第２の」等は、複数性を排除するものではない。請求項におけるいかなる参照符号は、例を分類するものとして単に与えられるに過ぎず、請求項の範囲をいかなる態様でも限定するものとして解釈されるべきでない。

本発明による口述筆記の流れを示すフローチャートの形式で概略的なダイアグラムを示す図である。

Claims

口述筆記された情報を動的なフォームへ処理する方法において、
画像カテゴリに属する画像をユーザに提示するステップと、
前記画像カテゴリに関連付けられる第１の部分の音声を口述筆記するステップと、
前記第１の部分の音声に関連付けられる過去に規定された文書構造を持つ電子文書を取得して、前記文書構造を前記画像に関連付けるステップであって、前記文書構造が少なくとも１つのテキストフィールドを有する、ステップと、
提示ユニットにおいて前記文書構造を持つ前記電子文書の少なくとも一部を提示するステップと、
第２の部分の音声を口述筆記し、音声認識エンジンにおいて前記第２の部分の音声を口述筆記されたテキストへと処理するステップと、
前記口述筆記されたテキストを前記テキストフィールドに関連付けるステップとを有する、方法。
前記文書構造を持つ前記電子文書と前記口述筆記されたテキストとに前記画像を関連付けるステップと、前記画像及び前記電子文書をデータベースに格納するステップとを更に有する、請求項１に記載の方法。
前記テキストフィールドをマーカで特定するステップと、
前記マークされたテキストフィールドをコード文字列に変換するステップと、
前記関連画像と共に前記コード文字列をデータベースに格納するステップとを更に有する、請求項２に記載の方法。
前記テキストフィールドをマーカで特定するステップを自動的に実行するステップを有する、請求項３に記載の方法。
前記マークされたテキストフィールドをコード文字列に変換するステップが、前記マークされたテキストフィールドをテキストとしてエクスポートするステップと、前記文書構造を持つ文書における、一般的なマークアップ言語により作成されるノードへと前記マーカを変換するステップとを有する、請求項３又は４に記載の方法。
前記過去に規定された文書構造を持つ電子文書が、放射線学といった所定の題材に特有なデータセットを有し、前記過去に規定された文書構造に基づく文書において良く発見されがちな多数の単語を含み、及び前記単語がどのように使用されるかを示す尤度の統計モデルの使用を含む、請求項１に記載の方法。
前記データセットが、前記過去に規定された文書構造における特定のテキストフィールドに特有なデータのサブセットを有し、前記テキストフィールドへのテキストの口述筆記のため前記ユーザにより選択される現在のテキストフィールドに基づき前記データのサブセット間で自動的に切替が行われる、請求項６に記載の方法。
前記過去に規定された文書構造が、複数の前記テキストフィールドを有し、前記方法は、前記テキストフィールドの特殊なテキストフィールドに関連付けられるボイスマクロを規定するステップを有し、前記ボイスマクロが前記ユーザにより口述筆記されるとき、前記特殊なテキストフィールドが、前記第２の部分の音声を口述筆記するために選択される、請求項１に記載の方法。
前記複数のテキストフィールドを任意の順に埋めるステップを有する、請求項８に記載の方法。
前記ユーザに提示されるテキストフィールドの数を動的に増加又は減少させて、前記ユーザにより見られる前記過去に規定された文書構造の複雑さを管理するステップを有する、請求項１に記載の方法。
口述筆記された情報を動的なフォームへ処理するシステムであって、
画像カテゴリに属する画像をユーザに提示する手段と、
前記画像カテゴリに関連付けられる第１の部分の音声を口述筆記する手段と、
前記第１の部分の音声に関連付けられる過去に規定された文書構造を持つ電子文書を取得して、前記文書構造を前記画像に関連付ける手段であって、前記文書構造が少なくとも１つのテキストフィールドを有する、手段と、
前記文書構造を持つ前記電子文書の少なくとも一部を提示する提示ユニットと、
第２の部分の音声を口述筆記する手段と、
前記第２の部分の音声を口述筆記されたテキストへと処理する音声認識エンジンと、
前記口述筆記されたテキストを前記テキストフィールドに関連付ける手段とを有する、システム。
コンピュータによる処理のためのコンピュータプログラムが格納されるコンピュータ可読媒体であって、前記コンピュータプログラムが、口述筆記された情報を動的なフォームへ処理するよう構成されており、前記コンピュータ可読媒体は、
画像カテゴリに属する画像をユーザに提示するコードセグメントと、
前記画像カテゴリに関連付けられる第１の部分の音声を口述筆記するコードセグメントと、
前記第１の部分の音声に関連付けられる過去に規定された文書構造を持つ電子文書を取得して、前記文書構造を前記画像に関連付けるコードセグメントであって、前記文書構造が少なくとも１つのテキストフィールドを有する、コードセグメントと、
提示ユニットにおいて前記文書構造を持つ前記電子文書の少なくとも一部を提示するコードセグメントと、
音声認識エンジンにおいて第２の部分の音声の口述筆記を口述筆記されたテキストへと処理するコードセグメントと、
前記口述筆記されたテキストを前記テキストフィールドに関連付けるコードセグメントとを有する、コンピュータ可読媒体。