WO2022019275A1

WO2022019275A1 - 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法

Info

Publication number: WO2022019275A1
Application number: PCT/JP2021/026992
Authority: WO
Inventors: 拓也南; 好成奥野
Original assignee: 昭和電工株式会社
Priority date: 2020-07-22
Filing date: 2021-07-19
Publication date: 2022-01-27
Also published as: CN115917527A; JPWO2022019275A1; US20230229683A1

Abstract

文書検索の正確性と網羅性の均衡を保ち精度を向上させる。本発明の一実施形態に係る文書検索装置は、文書検索のキーワードの入力を受け付ける入力受付部と、前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出する、文書検索部と、前記尤度に基づいて文書検索の結果を出力する検索結果表示部と、を有する。

Description

文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法

　本願は、日本特許庁に２０２０年７月２２日に出願された基礎出願２０２０-１２５３４１号の優先権を主張するものであり、その全内容を参照によりここに援用する。

　本発明は、文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法に関する。

　従来、ユーザが指定したキーワードをもとに文書を検索する文書検索が知られている。文書検索では、キーワードと完全に一致する文字列を抽出する完全一致検索と呼ばれる手法と、キーワードの一部と一致する文字列を抽出する部分一致検索と呼ばれる手法（例えば、特許文献１）と、が知られている。

　例えば、文書が誤字を含む場合、完全一致検索では、ユーザが望む文字列が抽出されず、検索漏れが生じてしまう。一方、部分一致検索では、文書内を網羅的に検索することができる。

特許６３７４２８９号公報

　しかしながら、部分一致検索では、文字列がキーワードの一部にさえ一致すれば抽出されるので、キーワードとは無関係な文字列が抽出されてしまうことがあった。つまり、完全一致検索は正確性に優れているが網羅性に欠け、部分一致検索は網羅性に優れているが正確性に欠けていた。

　そこで、本発明では、文書検索の正確性と網羅性の均衡を保ち精度を向上させることを目的とする。

［１］文書検索のキーワードの入力を受け付ける入力受付部と、
　前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、
　前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出する、文書検索部と、
　前記尤度に基づいて文書検索の結果を出力する検索結果表示部と
　を有する、文書検索装置。
［２］前記文書検索部は、順方向の尤度をもとに前記ヒット文字列の尤度を算出する、［１］に記載の文書検索装置。
［３］前記文書検索部は、順方向の尤度および逆方向の尤度をもとに前記ヒット文字列の尤度を算出する、［１］に記載の文書検索装置。
［４］前記文書検索部は、前記ヒット文字列の各文字の尤度をもとに前記ヒット文字列の尤度を算出する、［１］から［３］のいずれかに記載の文書検索装置。
［５］前記文書検索部は、前記ヒット文字列のうち前記ワイルドカードではない文字の尤度を１００パーセントとみなす、［４］に記載の文書検索装置。
［６］前記入力受付部は、前記ヒット文字列の尤度の閾値の入力を受け付け、
　前記検索結果表示部は、前記閾値以上の尤度である前記ヒット文字列、および、前記ヒット文字列を含む周辺の文章を表示する、［１］から［５］のいずれかに記載の文書検索装置。
［７］前記検索結果表示部は、前記閾値以上の尤度である前記ヒット文字列、および、前記ヒット文字列を含む周辺の文章、に対応する手書き文書の画像をさらに表示する、［６］に記載の文書検索装置。
［８］前記検索結果表示部は、前記ヒット文字列の尤度が高い順に前記文書検索の結果を出力する、［１］から［７］のいずれかに記載の文書検索装置。
［９］文書検索装置とユーザ端末とを含む文書検索システムであって、
　前記文書検索装置は、
　文書検索のキーワードの入力を前記ユーザ端末から受け付ける入力受付部と、
　前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、
　前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出する、文書検索部と、
　前記尤度に基づいて文書検索の結果を前記ユーザ端末に出力する検索結果表示部と、を有する、文書検索システム。
［１０］コンピュータを、
　文書検索のキーワードの入力を受け付ける入力受付部、
　前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、
　前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出する、文書検索部、
　前記尤度に基づいて文書検索の結果を出力する、検索結果表示部
　として機能させるためのプログラム。
［１１］文書検索装置が実行する方法であって、
　文書検索のキーワードの入力を受け付けるステップと、
　前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、
　前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出するステップと、
　前記尤度に基づいて文書検索の結果を出力するステップと
　を含む方法。

　本発明では、文書検索の正確性と網羅性の均衡を保ち精度を向上させることができる。

本発明の一実施形態に係る文書検索装置を含む全体のシステム構成を示す図である。本発明の一実施形態に係る文書検索装置の文字生成モデル構築部の機能ブロックを示す図である。本発明の一実施形態に係る文字生成モデルの構築の処理の流れを示すフローチャートである。本発明の一実施形態に係る文書検索装置の文書検索機能部の機能ブロックを示す図である。本発明の一実施形態に係る文書の検索の処理の流れを示すフローチャートである。本発明の一実施形態に係る順方向文字生成モデルの学習データの一例である。本発明の一実施形態に係る逆方向文字生成モデルの学習データの一例である。本発明の一実施形態に係る検索を説明するための図である。本発明の一実施形態に係る尤度の算出を説明するための図である。本発明の一実施形態に係る検索精度を比較するための図である。本発明の一実施形態に係る文書検索装置、ユーザ端末のハードウェア構成を示す図である。

　以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

＜用語の説明＞
　本発明は、任意の１つまたは複数の文書を検索する文書検索に適用することができる。例えば、「文書」は、ＯＣＲ（Optical character recognition）を用いて手書きの文書の画像から変換された文書、文書作成ソフトウェアを用いて作成された文書等である。「文書」は、誤字を含みうる。

＜システム構成＞
　図１は、本発明の一実施形態に係る文書検索装置１０を含む全体のシステム構成を示す図である。図１に示されているように、文書検索システム１は、文書検索装置１０と、ユーザ端末２０と、を含む。文書検索装置１０は、任意のネットワークを介してユーザ端末２０とデータを送受信することができる。以下、それぞれについて説明する。

　文書検索装置１０は、文書検索の処理を行う装置（例えば、サーバ）である。文書検索装置１０は、入力受付部と、文書検索部と、検索結果表示部と、を有する。具体的には、文書検索装置１０は、文字生成モデル構築部１００と、入力受付部と、文書検索部と、検索結果表示部とを有する文書検索機能部２００と、を有することができる。入力受付部、文書検索部および検索結果表示部は後述する。後段で、図２を参照しながら文字生成モデル構築部１００について詳細に説明し、図４を参照しながら文書検索機能部２００について詳細に説明する。なお、本明細書では、文字生成モデル構築部１００と文書検索機能部２００とが１つの装置にある場合を説明するが、文字生成モデル構築部１００と文書検索機能部２００とが別々の装置にあってもよい。

　ユーザ端末２０は、文字生成モデルを構築するときに利用する端末、および、文書を検索するときに利用する端末である。例えば、ユーザ端末２０は、パーソナルコンピュータ等である。なお、本明細書では、文字生成モデルを構築するときに利用する端末と、文書を検索するときに利用する端末と、が１つの端末である場合を説明するが、文字生成モデルを構築するときに利用する端末と、文書を検索するときに利用する端末と、が別々の端末であってもよい。また、文書検索装置１０に、複数のユーザ端末２０が接続されていてもよい。

　なお、文書検索装置１０がユーザ端末２０の一部または全部の機能を有するようにしてもよい。

＜文字生成モデル構築部１００の機能ブロック＞
　図２は、本発明の一実施形態に係る文書検索装置１０の文字生成モデル構築部１００の機能ブロックを示す図である。文字生成モデル構築部１００は、文書検索機能部２００が用いる予測モデル（文字生成モデルとも呼ぶ）を構築する。図２に示されているように、文字生成モデル構築部１００は、入力受付部１０１と、文書取得部１０２と、文字種類取得部１０３と、文章逆転部１０４と、文字列切出し部１０５と、学習部１０６と、予測モデル保存部１０７と、学習文書データベース（ＤＢ）１０８と、文字生成モデルデータベース（ＤＢ）１０９と、を有することができる。また、文書検索装置１０は、プログラムを実行することで、入力受付部１０１と、文書取得部１０２と、文字種類取得部１０３と、文章逆転部１０４と、文字列切出し部１０５と、学習部１０６と、予測モデル保存部１０７と、して機能することができる。

　入力受付部１０１は、ユーザからの入力を受け付ける。以下、機械学習するときに入力される文字列の文字数の指定と、機械学習に用いられる文書の指定と、に分けて説明する。

　入力受付部１０１は、学習部１０６が機械学習するときに入力する文字列の文字数（以下、指定文字数とも呼ぶ）の指定を受け付ける。例えば、入力受付部１０１は、ユーザがユーザ端末２０に入力した、文字数の指定を受け付けることができる。

　入力受付部１０１は、学習部１０６が機械学習に用いる文書（以下、機械学習に用いられる文書を「学習文書」とも呼ぶ）の指定を受け付ける。例えば、入力受付部１０１は、ユーザがユーザ端末２０に入力した、学習文書の指定を受け付けることができる。例えば、学習文書は、学習文書ＤＢ１０８内の全文書、あるいは、ユーザが検索したい文書と類似する内容を含む文書である。

　文書取得部１０２は、入力受付部１０１が受け付けた指定に応じて、学習文書ＤＢ１０８から学習文書を取得する。例えば、文書取得部１０２は、学習文書ＤＢ１０８内の全文書を取得する、あるいは、ユーザが検索したい文書と類似する内容を含む文書を学習文書ＤＢ１０８内で選択して取得する。

　学習文書ＤＢ１０８には、任意の文書が保存されている。なお、学習文書ＤＢ１０８内の文書と、後述する文書検索機能部２００のデジタル文書ＤＢ２０６内の文書とは、同一であってもよいし、一部または全部が異なっていてもよい。例えば、学習文書ＤＢ１０８内の文書は、誤字を含まない文書である。

　文字種類取得部１０３は、文書取得部１０２が取得した学習文書に含まれている全ての文字の種類を取得する。文字の種類は、文字生成モデルによる予測の出力として利用される。具体的には、文字種類取得部１０３は、学習文書から全ての文字を取得し、重複する文字を除外した文字の集合を作成する。

　文章逆転部１０４は、文書取得部１０２が取得した学習文書に含まれている文字を、文字列の順序が逆の順序（反転）になるよう並べ替える（つまり、文書の末尾の文字が冒頭となり、文書の冒頭の文字が末尾となる）。なお、文字列の順序が逆の順序になるよう並べ替えられた文書を「逆文書」と呼び、文字列の順序が逆の順序になるよう並べ替えられていない文書（つまり、学習文書ＤＢ１０８に保存されていた文書）を「順文書」と呼ぶこととする。

　文字列切出し部１０５は、文書取得部１０２が取得した学習文書（つまり、順文書）から、機械学習して順方向文字生成モデルを構築するための文字列Ｘとyとの組を切り出す。また、文字列切出し部１０５は、文章逆転部１０４が文字を並べ替えた文書（つまり、逆文書）から、機械学習して逆方向文字生成モデルを構築するための文字列Ｘとyとの組を切り出す。Ｘは、文字生成モデルに入力される文字列であり、ｙは、文字生成モデルから出力される文字である。なお、Ｘの文字数は、入力受付部１０１が受け付けた指定文字数である。ｙの文字の種類は、文字種類取得部１０３が取得した文字の種類である。言い換えると、ｙは、文字種類取得部１０３により作成された、重複する文字を除外した文字の集合に含まれるいずれかの文字である。

　以下、図６および図７を参照しながら、学習データの例について説明する。

　図６は、本発明の一実施形態に係る順方向文字生成モデルの学習データの一例である。図６は、指定文字数を５とした場合における、順文書から切り出された文字列の一例を示す図である。図６に示されるように、順文書から切り出された５つの連なる文字列をＸとし、その後に続く一文字をｙとする。

　図７は、本発明の一実施形態に係る逆方向文字生成モデルの学習データの一例である。図７は、指定文字数を５とした場合における、逆文書から切り出された文字列の一例を示す図である。図７に示されるように、逆文書から切り出された５つの連なる文字列をＸとし、その後に続く一文字をｙとする。

　図２の説明に戻る。学習部１０６は、文字列切出し部１０５が切り出した文字列Ｘの集合と、文字yの集合とを用いて機械学習し、文字列が入力されるとその文字列の後に続く一文字を出力する文字生成モデルを構築する。

　具体的には、学習部１０６は、文字列切出し部１０５が"順文書"から切り出した文字列Ｘとｙの組を用いて機械学習し、順方向文字生成モデルを構築する。また、学習部１０６は、文字列切出し部１０５が"逆文書"から切り出した文字列Ｘとｙの組を用いて機械学習し、逆方向文字生成モデルを構築する。例えば、学習部１０６は、機械学習（深層学習）の手法として、文字列等のシーケンスデータを扱うことができる学習（例えば、Recurrent Neural Network（ＲＮＮ）やLong short-term memory（ＬＳＴＭ）等）を用いることができる。そのため、文字列の順序を考慮して予測することができる。

　予測モデル保存部１０７は、学習部１０６が構築した順方向文字生成モデルと、逆方向文字生成モデルとを、文字生成モデルＤＢ１０９に保存する。

　文字生成モデルＤＢ１０９には、順方向文字生成モデルと、逆方向文字生成モデルと、が保存されている。

＜処理方法＞
　図３は、本発明の一実施形態に係る文字生成モデルの構築の処理の流れを示すフローチャートである。

　ステップ１００（Ｓ１００）において、入力受付部１０１は、学習部１０６が機械学習するときに入力する文字列の文字数の指定を受け付ける。例えば、入力受付部１０１は、ユーザがユーザ端末２０に入力した、文字数の指定を受け付けることができる。また、入力受付部１０１は、学習部１０６が機械学習に用いる学習文書の指定を受け付ける。例えば、入力受付部１０１は、ユーザがユーザ端末２０に入力した、学習文書の指定を受け付けることができる。

　ステップ１０１（Ｓ１０１）において、文書取得部１０２は、入力受付部１０１が受け付けた指定に応じて、学習文書ＤＢ１０８から学習文書を取得する。例えば、文書取得部１０２は、学習文書ＤＢ１０８内の全学習文書を対象として逐次取得する、あるいは、ユーザが検索したい文書と類似する内容を含む文書を学習文書ＤＢ１０８内で選択し、選択された学習文書を対象として、選択された学習文書が複数ある場合には逐次、取得する。

　ステップ１０２（Ｓ１０２）において、文字種類取得部１０３は、Ｓ１０１で文書取得部１０２が取得した学習文書に含まれている全ての文字の種類を取得する。

　以下、順方向文字生成モデルを構築するための切り出しについて（ステップ１０３）と、逆方向文字生成モデルを構築するための切り出しについて（ステップ１０４およびステップ１０５）と、に分けて説明する。

　ステップ１０３（Ｓ１０３）において、文字列切出し部１０５は、Ｓ１０１で文書取得部１０２が取得した学習文書から、機械学習して順方向文字生成モデルを構築するための文字列Ｘとyとの組を切り出す。文字列Ｘの文字数は、Ｓ１００で受け付けた指定文字数である。

　ステップ１０４（Ｓ１０４）において、文章逆転部１０４は、Ｓ１０１で文書取得部１０２が取得した学習文書に含まれている文字を、文字列の順序が逆の順序（反転）になるよう並べ替える。

　ステップ１０５（Ｓ１０５）において、文字列切出し部１０５は、Ｓ１０４で文章逆転部１０４が文字列の順序を反転した文書から、機械学習して逆方向文字生成モデルを構築するための文字列Ｘとyとの組を切り出す。文字列Ｘの文字数は、Ｓ１００で受け付けた指定文字数である。

　ステップ１０６（Ｓ１０６）において、文字列切出し部１０５は、Ｓ１０１で文書取得部１０２が取得する対象とした全ての学習文書において切り出し処理が完了したか否かを判断する。完了している場合にはステップ１０７とステップ１０８とへそれぞれ進み、完了していない場合にはステップ１０１へ戻る。

　以下、順方向文字生成モデルの構築について（ステップ１０７）と、逆方向文字生成モデルの構築について（ステップ１０８）と、に分けて説明する。

　ステップ１０７（Ｓ１０７）において、学習部１０６は、Ｓ１０３で文字列切出し部１０５が"順文書"から切り出した文字列Ｘとｙの組を用いて機械学習し、順方向文字生成モデルを構築する。

　ステップ１０８（Ｓ１０８）において、学習部１０６は、Ｓ１０５で文字列切出し部１０５が"逆文書"から切り出した文字列Ｘとｙの組を用いて機械学習し、逆方向文字生成モデルを構築する。

　ステップ１０９（Ｓ１０９）において、予測モデル保存部１０７は、Ｓ１０７で学習部１０６が構築した順方向文字生成モデルと、Ｓ１０８で学習部１０６が構築した逆方向文字生成モデルとを、文字生成モデルＤＢ１０９に保存する。

＜文書検索機能部２００の機能ブロック＞
　図４は、本発明の一実施形態に係る文書検索装置１０の文書検索機能部２００の機能ブロックを示す図である。文書検索機能部２００は、文字生成モデル構築部１００が構築した予測モデル（文字生成モデル）を用いて、文書検索の処理を行う。図４に示されているように、文書検索機能部２００は、入力受付部２０１と、文書取得部２０２と、文字生成モデル取得部２０３と、文書検索部２０４と、検索結果表示部２０５と、デジタル文書データベース（ＤＢ）２０６と、文字生成モデルデータベース（ＤＢ）２０７と、を有することができる。また、文書検索機能部２００は、プログラムを実行することで、入力受付部２０１と、文書取得部２０２と、文字生成モデル取得部２０３と、文書検索部２０４と、検索結果表示部２０５と、して機能することができる。

　入力受付部２０１は、ユーザからの入力を受け付ける。以下、ユーザが検索したい文書と、ユーザが検索したいキーワードと、キーワード内の文字に置き換えられるワイルドカードの比率あるいは文字数と、文字生成モデルに入力される文字列の文字数と、尤度の閾値と、に分けて説明する。

　入力受付部２０１は、ユーザが検索したい１つまたは複数の文書の指定を受け付ける。例えば、入力受付部２０１は、ユーザがユーザ端末２０に入力した、１つまたは複数の文書の指定を受け付けることができる。本発明では、ユーザが指定したキーワードをもとに、ユーザが指定した１つまたは複数の文書内を検索する。

　入力受付部２０１は、ユーザが検索したいキーワードの指定を受け付ける。例えば、入力受付部２０１は、ユーザがユーザ端末２０に入力した、キーワードの指定を受け付けることができる。本発明では、ユーザが指定したキーワード内の文字をワイルドカードに置き換えて文書を検索する。

　入力受付部２０１は、キーワードの文字数に対するワイルドカードの文字数の比率、あるいは、ワイルドカードの文字数の指定を受け付ける。例えば、入力受付部２０１は、ユーザがユーザ端末２０に入力した、ワイルドカードの比率あるいは文字数の指定を受け付けることができる。なお、ワイルドカードは、キーワード内の文字に置き換えられるアスタリスクや疑問符等の特殊文字である。検索において、ワイルドカードは、どのような文字にも一致するとみなされる。

　入力受付部２０１は、文字生成モデルに入力される文字列の文字数の指定を受け付ける。具体的には、入力受付部２０１は、ユーザがユーザ端末２０に入力した、文字数の指定を受け付けることができる。

　入力受付部２０１は、尤度（詳細については後述する）の閾値の指定を受け付ける。具体的には、入力受付部２０１は、ユーザがユーザ端末２０に入力した、尤度の閾値の指定を受け付けることができる。

　文書取得部２０２は、入力受付部１０１が受け付けた指定に応じて、デジタル文書ＤＢ２０６から、ユーザが検索したい１つまたは複数の文書を取得する。

　デジタル文書ＤＢ２０６には、任意の文書が保存されている。なお、デジタル文書ＤＢ２０６内の文書と、文字生成モデル構築部１００の学習文書ＤＢ１０８内の文書とは、同一であってもよいし、一部または全部が異なっていてもよい。例えば、デジタル文書ＤＢ２０６内の文書は、誤字を含む文書である。

　文字生成モデル取得部２０３は、文字生成モデルＤＢ２０７から、順方向文字生成モデルと逆方向文字生成モデルとを取得する。

　文字生成モデルＤＢ２０７には、文字生成モデル構築部１００が構築した、順方向文字生成モデルと、逆方向文字生成モデルと、が保存されている。

　文書検索部２０４は、文書取得部２０２が取得した全ての文書に対して、（１）キーワードからワイルドカードを含む文字列を生成し、（２）ワイルドカードを含む文字列を使用して文書を検索し、ワイルドカードを含む文字列がヒットした箇所（ヒット文字列）とその前後の文字列を取得し、（３）ヒット文字列の前の文字列と順方向文字生成モデルとを用いて、ヒット文字列の尤度（順方向尤度）を算出し、（４）ヒット文字列の後ろの文字列と逆方向文字生成モデルとを用いて、ヒット文字列の尤度（逆方向尤度）を算出し、（５）順方向尤度と逆方向尤度の平均を、ヒット文字列の有効尤度として算出する。以下、詳細に説明する。

（１）ワイルドカードを含む文字列の生成
　文書検索部２０４は、入力受付部２０１が受け付けたキーワードの一部の文字をワイルドカードに置換して、ワイルドカードを含む文字列を生成する。ワイルドカードに置換される文字の数は、入力受付部２０１が受け付けたワイルドカードの比率あるいは文字数をもとに決められる。

（２）検索およびヒット文字列と前後の文字列の取得
　文書検索部２０４は、ワイルドカードを含む文字列を使用して文書取得部２０２が取得した全ての文書を検索し、ワイルドカードを含む文字列がヒットした箇所（ワイルドカードを含む文字列と一致する文字列を「ヒット文字列」とも呼ぶ）の前後の文字列も含めて取得する。つまり、文書検索部２０４は、ワイルドカードを含む文字列と一致する文字列（ヒット文字列）と、そのヒット文字列の前に位置する文字列およびそのヒット文字列の後ろに位置する文字列と、を取得する。ヒット文字列とともに取得される前後の文字列の文字数は、それぞれ、入力受付部２０１が受け付けた文字生成モデルに入力される文字列の文字数である。

（３）順方向尤度の算出
　文書検索部２０４は、ヒット文字列の前の文字列を用いて、順方向文字生成モデルに入力する文字列（以下、入力文字列という）を作成し、ヒット文字列の尤度を算出する。具体的には、ヒット文字列が検索キーワードであると仮定した場合の順方向尤度を算出する。

　以下、キーワードの文字数と、ヒット文字列の前の文字列の文字数と、が同数である場合について説明する。文書検索部２０４は、ヒット文字列の前の文字列を順方向文字生成モデルに入力し、ヒット文字列の先頭の文字の尤度を算出する。続いて、文書検索部２０４は、ヒット文字列の先頭の文字を入力文字列の末尾に追加して入力文字列の先頭の文字を除いた文字列を順方向予測モデルに入力し、ヒット文字列の先頭から数えて二文字目の文字の尤度を算出する。文書検索部２０４は、この処理をヒット文字列に含まれる全ての文字に対して行う。このように算出された、ヒット文字列に含まれる全ての文字の尤度の平均値を、ヒット文字列の順方向尤度とする。平均の取り方は限定されないが、相加平均であることが望ましい。

（４）逆方向尤度の算出
　文書検索部２０４は、ヒット文字列の後ろの文字列を逆転させたもの（つまり、文字列の順序が逆の順序になるよう文字を並べ替えたもの）を用いて、逆方向文字生成モデルに入力する文字列（以下、入力文字列という）を作成し、ヒット文字列の尤度を算出する。具体的には、ヒット文字列が検索キーワードであると仮定した場合の逆方向尤度を算出する。

　以下、キーワードの文字数と、ヒット文字列の後ろの文字列の文字数と、が同数である場合について説明する。文書検索部２０４は、ヒット文字列の後ろの文字列を逆転させたものを逆方向文字生成モデルに入力し、ヒット文字列の末尾の文字の尤度を算出する。続いて、文書検索部２０４は、ヒット文字列の末尾の文字を入力文字列の末尾に追加して入力文字列の先頭の文字を除いた文字列を逆方向予測モデルに入力し、ヒット文字列の末尾から数えて二文字目の文字の尤度を算出する。文書検索部２０４は、この処理をヒット文字列に含まれる全ての文字に対して行う。このように算出された、ヒット文字列に含まれる全ての文字の尤度の平均値を、ヒット文字列の逆方向尤度とする。平均の取り方は限定されないが、相加平均であることが望ましい。

＜他の実施形態＞
　ワイルドカードを含む文字列において、ワイルドカードではない文字は、文書中に必ず存在する。そのため、ワイルドカードではない文字の尤度を１００パーセントとみなすことができる。

（５）有効尤度の算出
　文書検索部２０４は、順方向尤度と逆方向尤度の平均値を、ヒット文字列の有効尤度として算出する。平均の取り方は限定されないが、相加平均であることが望ましい。

　以下、図８および図９を参照しながら、検索および尤度の算出について具体的に説明する。

　図８は、本発明の一実施形態に係る検索を説明するための図である。図８に示されているように、ユーザが検索したいキーワードが"おめでとう"であったとする。そうすると、キーワード"おめでとう"の一部の文字がワイルドカードに置換された、ワイルドカードを含むキーワードとして"おめでと＊"、"おめで＊う"、"おめ＊とう"、"お＊でとう"、"＊めでとう"が生成される。そして、ヒット文字列"おあでとう"が検索されたとする。ヒット文字列"おあでとう"の前の文字列"あけまして"が取得されて順方向尤度が算出され、かつ、ヒット文字列"おあでとう"の後ろの文字列"ございます"が取得されて逆方向尤度が算出される。

　図９は、本発明の一実施形態に係る尤度の算出を説明するための図である。図９に示されているように、ユーザが検索したいキーワードが"おめでとう"であったとする。そして、ヒット文字列"おあでとう"が検索されたとする。ヒット文字列"おあでとう"の前の文字列"あけまして"、および、ヒット文字列"おあでとう"の後ろの文字列"ございます"が取得される。順方向尤度と逆方向尤度が算出され、両者を平均した平均尤度が有効尤度となる。

　順方向尤度について説明する。尤度として、ヒット文字列が検索キーワードであると仮定した場合の尤度を算出する。図９においては、検索キーワードに含まれる各文字、「お」「め」「で」「と」「う」、のそれぞれの尤度を算出する。"あけまして"の後に"お"が続くときの尤度を算出する（１００パーセントであったとする）。また、"けましてお"の後に"め"が続くときの尤度を算出する（７０パーセントであったとする）。また、"ましておめ"の後に"で"が続くときの尤度を算出する（１００パーセントであったとする）。また、"しておめで"の後に"と"が続くときの尤度を算出する（１００パーセントであったとする）。また、"ておめでと"の後に"う"が続くときの尤度を算出する（１００パーセントであったとする）。そして、全尤度（つまり、"お"の尤度と"め"の尤度と"で"の尤度と"と"の尤度と"う"の尤度）の平均が順方向尤度（順方向平均尤度）となる。

　逆方向尤度について説明する。尤度として、前述した順方向尤度の場合と同様にして算出する。"すまいざご"の後に"う"が続くときの尤度を算出する（１００パーセントであったとする）。また、"まいざごう"の後に"と"が続くときの尤度を算出する（１００パーセントであったとする）。また、"いざごうと"の後に"で"が続くときの尤度を算出する（１００パーセントであったとする）。また、"ざごうとで"の後に"め"が続くときの尤度を算出する（９５パーセントであったとする）。また、"ごうとでめ"の後に"お"が続くときの尤度を算出する（１００パーセントであったとする）。そして、全尤度（つまり、"う"の尤度と"と"の尤度と"で"の尤度と"め"の尤度と"お"の尤度）の平均が逆方向尤度（逆方向平均尤度）となる。

　さらに、順方向尤度と逆方向尤度との平均が有効尤度（平均尤度）となる。

　図４の説明に戻る。検索結果表示部２０５は、検索の結果を出力する。具体的には、検索結果表示部２０５は、文書検索部２０４が算出した有効尤度が、ユーザが指定した尤度の閾値以上である文書を、ユーザ端末２０の画面に表示する。

　例えば、検索結果表示部２０５は、ヒット文字列とその周辺の文章を表示することができる。また、例えば、検索結果表示部２０５は、ＯＣＲを用いて手書きの文書の画像から変換された文書である場合には、有効尤度が閾値以上である文書とともに、手書きの文書の画像を検索結果として表示することができる。また、例えば、検索結果表示部２０５は、有効尤度が高い順に文書を表示することができる。

　なお、本明細書では、順方向尤度と逆方向尤度の平均である有効尤度を用いる場合を説明するが、順方向尤度のみを用いてもよいし、逆方向尤度のみを用いてもよい。

　＜処理方法＞
　図５は、本発明の一実施形態に係る文書の検索の処理の流れを示すフローチャートである。

　ステップ２００（Ｓ２００）において、入力受付部２０１は、ユーザが検索したいキーワードの指定を受け付ける。例えば、入力受付部２０１は、ユーザがユーザ端末２０に入力した、キーワードの指定を受け付けることができる。

　ステップ２０１（Ｓ２０１）において、文字生成モデル取得部２０３は、文字生成モデルＤＢ２０７から、順方向文字生成モデルと逆方向文字生成モデルとを取得する。

　ステップ２０２（Ｓ２０２）において、文書取得部２０２は、入力受付部２０１が受け付けた指定に応じて、デジタル文書ＤＢ２０６から、ユーザが検索したい１つまたは複数の文書を取得する。

　ステップ２０３（Ｓ２０３）において、文書検索部２０４は、Ｓ２００のキーワードから生成したワイルドカードを含む文字列を使用してＳ２０２の文書を検索し、ヒット文字列を得、順方向文字生成モデルと逆方向文字生成モデルとを用いて、ヒット文字列の順方向尤度と逆方向尤度の平均をヒット文字列の有効尤度として算出する。

　ステップ２０４（Ｓ２０４）において、文書検索部２０４は、Ｓ２０２で文書取得部２０２が取得した全ての文書の検索処理が完了したか否かを判断する。完了している場合にはステップ２０５へ進み、完了していない場合にはステップ２０２へ戻る。

　ステップ２０５（Ｓ２０５）において、検索結果表示部２０５は、Ｓ２０３で文書検索部２０４が算出した有効尤度が、ユーザが指定した尤度の閾値以上である文書があるか否かを判断する。文書がある場合にはステップ２０６へ進み、文書がない場合にはステップ２１０へ進む。なお、ステップ２１０（Ｓ２１０）において、検索結果表示部２０５は、該当する文書が存在しないことを示す通知を出力して処理を終了する。

　ステップ２０６（Ｓ２０６）において、検索結果表示部２０５は、ヒット文字列を含む周辺の文章を取得する。

　ステップ２０７（Ｓ２０７）において、検索結果表示部２０５は、取得した結果の出力として、ヒット文字列を含む周辺の文章を表示する。

　ステップ２０８（Ｓ２０８）において、検索結果表示部２０５は、ＯＣＲを用いて文書に変換された手書きの文書の画像を表示させる旨の指示および文章の選択をユーザから受け付けたか否かを判断する。受け付けている場合にはステップ２０９へ進み、受け付けていない場合には処理を終了する。

　ステップ２０９（Ｓ２０９）において、検索結果表示部２０５は、Ｓ２０８で選択された文章に対応する、手書きの文書の画像を表示する。

＜検索精度の評価＞
　以下、検索精度の評価について説明する。

　小説「吾輩は猫である」において検索精度を評価した。この文書中には、２２４５段落が含まれている。文書中の２割の文字を無作為に別の文字に置換することにより、誤字を含む文書を疑似的に生成した。

　キーワードとして、細君（１０７）と、蕎麦（６）と、鰹節（１０）と、迷亭君（６４）と、大和魂（７）と、風呂敷（６）と、神経衰弱（６）と、ダムダム弾（４）と、シャンパン（６）と、ヴァイオリン（６１）と、を使用した。かっこ内の数字は、それぞれキーワードが含まれる段落の数を表す。

＜文書検索装置１０による文書検索（ＬＳＴＭ検索）＞
　キーワードの一部の文字をワイルドカードに置換した文字列を使用して文書を検索することにより、ワイルドカードを含む文字列が含まれる段落を取得し、それが正解か否かを判定することにより、検索精度を定量的に評価した。文字列等のシーケンスデータを扱うことができる学習として、Long short-term memory（ＬＳＴＭ）を使用した。ＬＳＴＭの学習は、機械学習に用いるためのソフトウェアライブラリであるTensorFlow（登録商標）により実行した。学習のエポック数は２００とした。入力する文字列の文字数は８文字とした。

　検索精度の評価指標として、「Precision」、「Recall」、「F値」を算出した。

　「Precision」は、検索でヒットした正解文書の数を、検索でヒットした文書の総数で除して算出される値であり、検索の正確性を表す指標とみなすことができる。

　「Recall」は、検索でヒットした正解文書の数を、全ての正解文書の数で除して算出される値であり、検索の網羅性を表す指標とみなすことができる。

　「F値」は、「Precision」と「Recall」の調和平均により算出される値であり、検索の正確性と網羅性のバランスを表す指標とみなすことができる。

　それぞれのキーワードにおいて、「Precision」、「Recall」、「F値」を求め、それらのマクロ平均値を、「平均Precision」、「平均Recall」、「平均F値」として算出した。

　本発明の文書検索装置１０による文書検索では、検索精度に影響するハイパーパラメータとして、キーワードにおけるワイルドカードの比率（ワイルドカード比率）と、ヒット文字列の有効尤度の閾値と、を設定する必要ある。ここでは、文書中の５０パーセントの段落を学習データとして、学習文書における「F値」が最も高くなるように、ハイパーパラメータをチューニングした。その結果、ワイルドカード比率が０．６、ヒット文字列の有効尤度の閾値が０．８となった。これらのハイパーパラメータを用いて、ワイルドカードを含む文字列を使用して文書検索を実施した。ここでは、学習データ以外の、残り５０パーセントの段落をテストデータとして文書検索を実施し、その検索精度を評価した。テストデータにキーワードが存在しない場合、そのキーワードを除外して検索精度を評価した。

＜比較例１（キーワード検索）＞
　比較例１では、ワイルドカードも有効尤度も使用せず、キーワードのみで文書検索を実施（つまり、完全一致検索）した。その他については、＜文書検索装置１０による文書検索（ＬＳＴＭ検索）＞と同様の手順により検索精度を評価した。

＜比較例２（ワイルドカード検索）＞
　比較例２では、有効尤度を使用せず、ワイルドカードを含む文字列を使用して文書検索を実施（つまり、部分一致検索）した。比較例２では、検索精度に影響するハイパーパラメータとして、ワイルドカード比率を設定する必要がある。そこで、＜文書検索装置１０による文書検索（ＬＳＴＭ検索）＞と同様の手順によりハイパーパラメータをチューニングした。その結果、ワイルドカードの比率は、０．３となった。その他については、＜文書検索装置１０による文書検索（ＬＳＴＭ検索）＞と同様の手順により検索精度を評価した。

　図１０は、本発明の一実施形態に係る検索精度を比較するための図である。具体的には、図１０は、本発明の文書検索装置１０による文書検索と、比較例１と、比較例２との検索精度を示す図である。図１０に示されているように、本発明の文書検索装置１０を用いることにより、「平均Precision」と「平均Recall」の両方がバランスよく高い数値となる。その結果として、比較例と比べて「平均F値」が高い数値となることがわかる。以上の結果から、本明細書に記載される文書検索装置１０を用いることで、文書検索の正確性と網羅性の両方をバランスよく改善することができる。

＜効果＞
　このように、本発明では、人間が前後の文脈から推測することで誤字であるか否かを判定するように、文書検索装置が、ワイルドカードを含む文字列を使用した検索で抽出した文字列の尤もらしさを算出することができる。そのため、文書が誤字を含んでいたとしても、所望の文書を正確にかつ網羅的に取得することができる。

　また、前から尤度を算出するか、後ろから尤度を算出するかで、尤度が異なる。文章の前後から予測した尤度を算出して両方の尤度の平均を取ることによって、より人間の直感に合致した尤度を得ることができる。

＜ハードウェア構成＞
　図１１は、本発明の一実施形態に係る文書検索装置１０、ユーザ端末２０のハードウェア構成図である。文書検索装置１０、ユーザ端末２０は、ＣＰＵ（Central Processing Unit）１００１、ＲＯＭ（Read Only Memory）１００２、ＲＡＭ（Random Access Memory）１００３を有する。ＣＰＵ１００１、ＲＯＭ１００２、ＲＡＭ１００３は、いわゆるコンピュータを形成する。

　また、文書検索装置１０、ユーザ端末２０は、補助記憶装置１００４、表示装置１００５、操作装置１００６、Ｉ／Ｆ（Interface）装置１００７、ドライブ装置１００８を有することができる。

　なお、文書検索装置１０、ユーザ端末２０の各ハードウェアは、バスＢを介して相互に接続されている。

　ＣＰＵ１００１は、補助記憶装置１００４にインストールされている各種プログラムを実行する演算デバイスである。

　ＲＯＭ１００２は、不揮発性メモリである。ＲＯＭ１００２は、補助記憶装置１００４にインストールされている各種プログラムをＣＰＵ１００１が実行するために必要な各種プログラム、データ等を格納する主記憶デバイスとして機能する。具体的には、ＲＯＭ１００２は、ＢＩＯＳ（Basic Input/Output System）やＥＦＩ（Extensible Firmware Interface）等のブートプログラム等を格納する、主記憶デバイスとして機能する。

　ＲＡＭ１００３は、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）等の揮発性メモリである。ＲＡＭ１００３は、補助記憶装置１００４にインストールされている各種プログラムがＣＰＵ１００１によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。

　補助記憶装置１００４は、各種プログラムや、各種プログラムが実行される際に用いられる情報を格納する補助記憶デバイスである。

　表示装置１００５は、文書検索装置１０、ユーザ端末２０の内部状態等を表示する表示デバイスである。

　操作装置１００６は、文書検索装置１０、ユーザ端末２０を操作する者が文書検索装置１０、ユーザ端末２０に対して各種指示を入力する入力デバイスである。

　Ｉ／Ｆ装置１００７は、ネットワークに接続し、他の装置と通信を行うための通信デバイスである。

　ドライブ装置１００８は記録媒体１００９をセットするためのデバイスである。ここでいう記録媒体１００９には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体１００９には、ＥＰＲＯＭ (Erasable Programmable Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置１００４にインストールされる各種プログラムは、例えば、配布された記録媒体１００９がドライブ装置１００８にセットされ、該記録媒体１００９に記録された各種プログラムがドライブ装置１００８により読み出されることでインストールされる。あるいは、補助記憶装置１００４にインストールされる各種プログラムは、Ｉ／Ｆ装置１００７を介して、ネットワークよりダウンロードされることでインストールされてもよい。

　以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１　文書検索システム
１０　文書検索装置
２０　ユーザ端末
１００　文字生成モデル構築部
２００　文書検索機能部
１０１　入力受付部
１０２　文書取得部
１０３　文字種類取得部
１０４　文章逆転部
１０５　文字列切出し部
１０６　学習部
１０７　予測モデル保存部
１０８　学習文書ＤＢ
１０９　文字生成モデルＤＢ
２０１　入力受付部
２０２　文書取得部
２０３　文字生成モデル取得部
２０４　文書検索部
２０５　検索結果表示部
２０６　デジタル文書ＤＢ
２０７　文字生成モデルＤＢ
１００１　ＣＰＵ
１００２　ＲＯＭ
１００３　ＲＡＭ
１００４　補助記憶装置
１００５　表示装置
１００６　操作装置
１００７　Ｉ／Ｆ装置
１００８　ドライブ装置
１００９　記録媒体

Claims

　文書検索のキーワードの入力を受け付ける入力受付部と、
　前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、
　前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出する、文書検索部と、
　前記尤度に基づいて文書検索の結果を出力する検索結果表示部と
　を有する、文書検索装置。
　前記文書検索部は、順方向の尤度をもとに前記ヒット文字列の尤度を算出する、請求項１に記載の文書検索装置。
　前記文書検索部は、順方向の尤度および逆方向の尤度をもとに前記ヒット文字列の尤度を算出する、請求項１に記載の文書検索装置。
　前記文書検索部は、前記ヒット文字列の各文字の尤度をもとに前記ヒット文字列の尤度を算出する、請求項１から３のいずれか一項に記載の文書検索装置。
　前記文書検索部は、前記ヒット文字列のうち前記ワイルドカードではない文字の尤度を１００パーセントとみなす、請求項４に記載の文書検索装置。
　前記入力受付部は、前記ヒット文字列の尤度の閾値の入力を受け付け、
　前記検索結果表示部は、前記閾値以上の尤度である前記ヒット文字列、および、前記ヒット文字列を含む周辺の文章を表示する、請求項１から５のいずれか一項に記載の文書検索装置。
　前記検索結果表示部は、前記閾値以上の尤度である前記ヒット文字列、および、前記ヒット文字列を含む周辺の文章、に対応する手書き文書の画像をさらに表示する、請求項６に記載の文書検索装置。
　前記検索結果表示部は、前記ヒット文字列の尤度が高い順に前記文書検索の結果を出力する、請求項１から７のいずれか一項に記載の文書検索装置。
　文書検索装置とユーザ端末とを含む文書検索システムであって、
　前記文書検索装置は、
　文書検索のキーワードの入力を前記ユーザ端末から受け付ける入力受付部と、
　前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、
　前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出する、文書検索部と、
　前記尤度に基づいて文書検索の結果を前記ユーザ端末に出力する検索結果表示部と、を有する、文書検索システム。
　コンピュータを、
　文書検索のキーワードの入力を受け付ける入力受付部、
　前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、
　前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出する、文書検索部、
　前記尤度に基づいて文書検索の結果を出力する、検索結果表示部
　として機能させるためのプログラム。
　文書検索装置が実行する方法であって、
　文書検索のキーワードの入力を受け付けるステップと、
　前記キーワードの一部の文字をワイルドカードに置換した文字列と一致するヒット文字列、および、前記ヒット文字列の前後の文字列を文書から取得し、
　前記ヒット文字列、および、前記ヒット文字列の前後の文字列に基づいて、前記ヒット文字列の尤度を算出するステップと、
　前記尤度に基づいて文書検索の結果を出力するステップと
　を含む方法。