[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPWO2007105273A1 - Confidential information management program, method and apparatus - Google Patents

Confidential information management program, method and apparatus Download PDF

Info

Publication number
JPWO2007105273A1
JPWO2007105273A1 JP2008504927A JP2008504927A JPWO2007105273A1 JP WO2007105273 A1 JPWO2007105273 A1 JP WO2007105273A1 JP 2008504927 A JP2008504927 A JP 2008504927A JP 2008504927 A JP2008504927 A JP 2008504927A JP WO2007105273 A1 JPWO2007105273 A1 JP WO2007105273A1
Authority
JP
Japan
Prior art keywords
document
confidential
character string
confidential information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008504927A
Other languages
Japanese (ja)
Other versions
JP4824750B2 (en
Inventor
太郎 藤本
太郎 藤本
西野 文人
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007105273A1 publication Critical patent/JPWO2007105273A1/en
Application granted granted Critical
Publication of JP4824750B2 publication Critical patent/JP4824750B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

特徴情報抽部は、機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する。機密情報判定部は、判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書か機密情報を含むか否か判定する。頻出表現抽出部は、収集された機密文書及び一般文書から頻出表現を抽出し、特徴情報抽出部は機密対照文書から頻出表現を除去した後に一定文字列長の文字列を切り出す。The feature information extraction unit cuts out a character string having a fixed character string length n as feature information while shifting one character at a time from the beginning of the secret document, assigns a secret document identifier to each cut character string, and hashes each character string as a key Register in the table. The confidential information determination unit extracts a character string having a fixed character string length n while shifting character by character from the beginning of the determination target document, and compares each extracted character string with a hash table to determine whether the determination target document includes confidential information. judge. The frequent expression extraction unit extracts a frequent expression from the collected confidential document and general document, and the feature information extraction unit cuts out a character string having a certain character string length after removing the frequent expression from the confidential reference document.

Description

本発明は、企業や各種団体等の組織内の機密情報が外部に漏洩しないように管理する機密情報管理プログラム、方法及び装置に関し、特に、電子メール等の電子文書に機密情報が含まれるか否かリアルタイムで判定して情報セキュリティを図る機密情報管理プログラム、方法及び装置に関する。
The present invention relates to a confidential information management program, method and apparatus for managing confidential information in an organization such as a company or various organizations so as not to be leaked to the outside, and in particular, whether or not confidential information is included in an electronic document such as an electronic mail. The present invention relates to a confidential information management program, method and apparatus for determining information security in real time.

従来、企業のイントラネット上のサーバやデータベースで管理している文書情報には、外部に漏洩してはならない機密情報を含む機密文書が多数存在しており、このような機密情報については、例えば機密文書を管理する専用の機密情報管理サーバとデータベースを配置し、機密文書を一元的に管理することで、機密情報のセキュリティを確立している。   Conventionally, there are many confidential documents including confidential information that should not be leaked to the outside in the document information managed by servers and databases on the company intranet. A dedicated confidential information management server and database for managing documents are arranged, and the security of confidential information is established by centrally managing confidential documents.

このような機密文書の管理システムにあっては、機密文書毎に閲覧する権限を設定し、データベースの機密文書にアクセスした際に、ユーザIDとパスワードによる認証に加え、閲覧権限の有無をチェックし、閲覧権限を有する端末からのアクセスに対してのみ機密文書の利用を許可している。   In such a confidential document management system, the authority to browse for each confidential document is set, and when accessing a confidential document in the database, in addition to the authentication by the user ID and password, the presence / absence of the browsing authority is checked. The use of a confidential document is permitted only for access from a terminal having browsing authority.

しかしながら、企業内にあっては、必ずしもデータベースにアクセスしなくとも閲覧権限のない担当者が機密文書の内容を知ったり、閲覧権限のある担当者から機密文書を資料として入手することで知る機会がある。このため機密文書であることを意識せずに、機密文書そのものや、機密文書の中の一部の文書をメールに添付して外部に送るようなことがあり、専用サーバによる機密文書の一元管理だけでは十分なセキュリティを確保することが困難である。   However, within a company, a person who does not necessarily have access to the database, who does not necessarily have access to the database, has the opportunity to know the contents of a confidential document or obtain a confidential document from a person with authority to view it as a document. is there. For this reason, there is a case where the confidential document itself or a part of the confidential document is attached to an e-mail and sent to the outside without being conscious of the confidential document. It is difficult to ensure sufficient security by itself.

そのため人的管理を通じて担当者に機密文書の管理意識を徹底させる努力を続けているが、機密文書に関連する機密情報の漏洩は完全に防止するには至っていない。   For this reason, efforts have been made to ensure that the person in charge is thoroughly aware of the management of confidential documents through human management, but leakage of confidential information related to confidential documents has not been completely prevented.

このため電子メールなど電子文書を外部に送信するネットワーク系統に、転送情報を抜き出して機密文書か否か判定する機密情報管理装置を配置し、電子メールの添付などで転送される情報に機密情報が含まれるか否か判定することが考えられる。   For this reason, a confidential information management device that extracts the transfer information and determines whether it is a confidential document is arranged in a network system that transmits an electronic document such as an e-mail to the outside. It is conceivable to determine whether or not it is included.

このように機密情報管理装置としては、専用のデータベースで管理している機密文書毎に機密文書の特徴を表すキーワードや文字パターンを抽出して辞書を作成し、転送文書と辞書の登録内容を照合して機密文書か否か判定している。
特開2003−288366号公報 W004/034282
In this way, the confidential information management device creates a dictionary by extracting keywords and character patterns that represent the characteristics of a confidential document for each confidential document managed by a dedicated database, and compares the transferred document with the registered contents of the dictionary. It is then determined whether it is a confidential document.
JP 2003-288366 A W004 / 034282

しかしながら、従来の辞書を使用した機密文書の判定にあっては、特定の機密文書につき抽出したキーワードや文字パターンの全てを含む文書を機密文書と判定しており、そのため適合率が低いという問題がある。   However, in the determination of a confidential document using a conventional dictionary, a document including all of the keywords and character patterns extracted for a specific confidential document is determined as a confidential document, and thus there is a problem that the relevance rate is low. is there.

この問題を解決するためキーワードや文字パタンとの一致割合に閾値設け、閾値以上の一致割合をもつ文書を機密文書としているが、一般文書を機密文書と誤判定する比率が高くなる。判定精度を高めるためには人的な判断が必要となり、手間と工数がかかり、日常的に送受信される膨大な数のメールやファイルを判定対象とした機密文書の管理は運用が難しいという問題がある。   In order to solve this problem, a threshold is set for the matching ratio with the keyword and the character pattern, and a document having a matching ratio equal to or higher than the threshold is set as a confidential document. However, the ratio of misjudging a general document as a confidential document increases. In order to improve the judgment accuracy, human judgment is required, which takes time and man-hours, and it is difficult to manage confidential documents with a huge number of emails and files sent and received on a daily basis. is there.

更に、機密文書そのものではなく、機密文書に含まれる一部の文書を含むファイルがメール添付されているような場合には、機械判定でも人手による判定でも発見することが困難な場合が多い。   Further, when a file including a part of a document included in the confidential document is attached to the email instead of the confidential document itself, it is often difficult to find it by machine determination or manual determination.

このように従来システムでは、組織内の機密文書および同等の情報がネットワークを通して組織外に持ち出される際に、内容を全てチェックすることが困難であり、特に、本人が意図しないミスなどで持ち出される場合は防ぎようがなく、組織外に流出する文書全てを判定することで機密文書が出ていかないようにする必要があったが、精度と処理速度とも低いという問題がある。   In this way, with the conventional system, it is difficult to check all the contents when the confidential documents and equivalent information in the organization are taken out of the organization through the network, especially when it is taken out due to an unintended mistake etc. However, there is a problem that both accuracy and processing speed are low, although it is necessary to prevent all confidential documents from coming out by judging all documents that flow out of the organization.

本発明は、組織外に持ち出される電子的な機密文書の判定を高精度且つ高速に処理可能とする機密情報管理プログラム、方法及び装置を提供する。
The present invention provides a confidential information management program, method, and apparatus that can process determination of an electronic confidential document taken out of an organization with high accuracy and high speed.

(プログラム)
本発明は、コンピュータにより実行される機密情報管理プログラムを提供する。本発明の機密情報管理プログラムは,コンピュータに、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して判定対象文書か機密情報を含むか否か判定する機密情報判定ステップと、
を実行させることを特徴とする。
(program)
The present invention provides a confidential information management program executed by a computer. The confidential information management program of the present invention is stored in a computer.
Character information with a fixed character string length n is extracted as feature information while shifting one character at a time from the beginning of the confidential document, a confidential document identifier is assigned to each extracted character string, and each extracted character string is registered in the hash table as a key. An extraction step;
Confidential information determination in which a character string having a fixed character string length n is cut out while shifting character by character from the beginning of the determination target document, and each cut-out character string is checked against the hash table to determine whether the determination target document includes confidential information. Steps,
Is executed.

ここで、特徴情報抽出ステップ及び機密情報判定ステップで文字列を切出すための一定文字列長nを、特徴抽出ステップにより文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して機密情報判定ステップで機密文書を判定した際の、文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長とする。   Here, the fixed character string length n for extracting the character string in the feature information extraction step and the confidential information determination step is classified using the hash table created while increasing the character string length by one character in the feature extraction step. When a confidential document is determined in the information determination step, the character string length that matches the discovery rate of the confidential document with respect to the change in the character string length and the character string matching rate in the discovered confidential document, or a character string length in the vicinity thereof And

本発明の機密情報管理プログラムは、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを実行させ、
特徴情報抽出ステップは機密対照文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長nの文字列を切り出す。
The confidential information management program of the present invention further executes a frequent expression extraction step of extracting a frequent expression from the collected confidential document and general document and registering it in the frequent expression table,
In the feature information extraction step, after the frequent expression in the frequent expression table is removed from the confidential control document, a character string having a fixed character string length n is cut out.

特徴抽出ステップは、
複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出しステップと、
機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、
機密部分文書から頻出表現テーブルの頻出表現を除去する頻出表現除去ステップと、
機密部分文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出す文字列切出しステップと、
全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録ステップと、
を備える。
The feature extraction step
A partial document extraction step of extracting a confidential partial document having a semantic unit such as a file unit from a plurality of confidential documents;
An identifier providing step for assigning a confidential document identifier of the confidential document corresponding to the confidential partial document;
A frequent expression removal step of removing the frequent expression of the frequent expression table from the confidential partial document;
A character string extracting step of extracting a character string having a fixed character string length n while shifting one character at a time from the beginning of the confidential partial document;
A table registration step of registering the corresponding confidential document identifier in the hash table using all the extracted character strings as keys;
Is provided.

機密情報判定ステップは、
判定対象文書を取得する文書取得ステップと、
判定対象文書に文書識別子を付与する識別子付与ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出す文字列切出しステップと、
全ての切出し文字列をハッシュテーブルのキーである登録文字列と照合し、照合一致の場合に対応する機密情報識別子を取得するテーブル照合ステップと、
テーブル照合ステップから1又は複数の機密文書識別子が取得された場合に判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、
を備える。
The confidential information judgment step
A document acquisition step for acquiring a determination target document;
An identifier assigning step for assigning a document identifier to the determination target document;
A character string extraction step of extracting a character string having a constant character string length n while shifting character by character from the beginning of the determination target document;
A table collation step for collating all cut character strings with a registered character string that is a key of a hash table, and obtaining a confidential information identifier corresponding to a collation match
When one or more confidential document identifiers are acquired from the table matching step, a determination result indicating that the determination target document includes confidential information is output. When no confidential document identifier is acquired, the determination target document is confidential information. A determination output step for outputting a determination result indicating that it does not include,
Is provided.

頻出表現抽出ステップは、
機密文書及び一般文書を収集する文書収集ステップと、
収集文書から文字列長を順次増加させながら各文字列長の文字列を切出す文字列切出しステップと、
各文字列長毎に出現頻度を検出する頻度検出ステップと、
各文字列長毎に所定の閾値以上の出現頻度を持つ文字列を頻出表現候補として抽出する候補抽出ステップと、
頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、
候補除去ステップによる候補除去で残った候補を頻出表現として頻出表現テーブルに登録する登録ステップと、
を備える。
The frequent expression extraction step
A document collection step for collecting confidential and general documents;
A character string extraction step of extracting character strings of each character string length while sequentially increasing the character string length from the collected document;
A frequency detection step of detecting the appearance frequency for each character string length;
A candidate extraction step of extracting a character string having an appearance frequency equal to or higher than a predetermined threshold for each character string length as a frequent expression candidate;
A candidate removal step of investigating the inclusion relationship of frequent expression candidates and removing the included frequent candidate character strings;
A registration step for registering the candidate remaining in the candidate removal in the candidate removal step in the frequent expression table as a frequent expression;
Is provided.

機密情報判定ステップの判定対象文書は、電子メールの本文と添付文書、ネットワークにより転送する転送ファイル文書、表示デバイスに転送して表示する表示文書、プリンタに転送して印刷する印刷文書、及び情報機器のメモリに保存した文書を含む。   The determination target document of the confidential information determination step includes an e-mail body and attached document, a transfer file document transferred via a network, a display document transferred to a display device for display, a print document transferred to a printer for printing, and an information device Contains documents stored in the memory.

機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、判定対象文書の処理を禁止させる。   The confidential information determination step prohibits processing of the determination target document when it is determined that the determination target document includes confidential information.

機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、機密文書の処理権限を確認して処理を許可する。   In the confidential information determination step, when it is determined that the determination target document includes confidential information, the processing authority of the confidential document is confirmed and the process is permitted.

機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、管理者端末に判定結果を通知して許可応答を受けた場合、判定対象文書の処理を許可する。   The confidential information determination step permits processing of the determination target document when it is determined that the determination target document includes confidential information, when the determination result is notified to the administrator terminal and a permission response is received.

(方法)
本発明は機密情報管理方法を提供する。本発明の機密情報管理方法は、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定ステップと、
を備えたことを特徴とする。
(Method)
The present invention provides a confidential information management method. The confidential information management method of the present invention includes:
Character information with a fixed character string length n is extracted as feature information while shifting one character at a time from the beginning of the confidential document, a confidential document identifier is assigned to each extracted character string, and each extracted character string is registered in the hash table as a key. An extraction step;
A confidential information determination step of cutting out a character string having a fixed character string length n while shifting character by character from the beginning of the determination target document and determining whether or not the determination target document includes confidential information by comparing each extracted character string with a hash table. When,
It is provided with.

本発明の機密情報管理方法は、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを備え、特徴情報抽出ステップは判定対象文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出す。   The confidential information management method of the present invention further includes a frequent expression extracting step of extracting a frequent expression from the collected confidential document and general document and registering the frequent expression in a frequent expression table, and the feature information extracting step includes the frequent expression from the determination target document. After removing the frequent expression of the table, a character string having a certain character string length is cut out.

(装置)
本発明は、機密情報管理装置を提供する。本発明の機密情報管理装置は、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽部と、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定部と、
を備えたことを特徴とする。
(apparatus)
The present invention provides a confidential information management device. The confidential information management device of the present invention is
Character information with a fixed character string length n is extracted as feature information while shifting one character at a time from the beginning of the confidential document, a confidential document identifier is assigned to each extracted character string, and each extracted character string is registered in the hash table as a key. The draw part,
A confidential information determination unit that extracts a character string having a constant character string length n while shifting character by character from the beginning of the determination target document and determines whether or not the determination target document includes confidential information by comparing each extracted character string with a hash table. When,
It is provided with.

本発明の機密情報管理装置は、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を備え、特徴情報抽出部は判定対象文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出す。
The confidential information management apparatus according to the present invention further includes a frequent expression extracting unit that extracts a frequent expression from the collected confidential document and general document and registers the frequent expression in a frequent expression table, and the feature information extraction unit performs the frequent expression from the determination target document. After removing frequent expressions in the table, cut out a character string of a certain character string length.

本発明によれば、機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、切り出した文字列をキーとしてハッシュテーブルに機密文書IDを登録し、企業などの組織から外部に送ろうとしている文書につき、先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出してハッシュテーブルと照合してマッチングし、機密情報IDが1つでも得られたら機密文書と機械的に判定し、送信禁止などの対応処理を実行することで、機密文書あるいは同等の情報が漏洩することを確実に防止する。   According to the present invention, a character string having a fixed character string length n is extracted as feature information while shifting one character at a time from the beginning of the confidential document, and the confidential document ID is registered in the hash table using the extracted character string as a key. For a document that is going to be sent from the organization to the outside, a character string of a fixed character string length n is cut out by shifting one character at a time from the beginning, matched against a hash table, and if even one confidential information ID is obtained, the confidential document is obtained. And the corresponding processing such as prohibition of transmission is executed to reliably prevent leakage of confidential documents or equivalent information.

この場合、機密文書の特徴抽出及び機密情報の判定で文字列を切出すための一定文字列長nを、文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率との関係が一致する文字列長またはその付近の文字列長に最適化することで、機密文書を高精度に判定することができる。   In this case, the fixed character string length n for extracting the character string by the feature extraction of the confidential document and the determination of the confidential information, the discovery rate of the confidential document with respect to the change of the character string length, and the character string in the detected confidential document A confidential document can be determined with high accuracy by optimizing the length of a character string having a matching relationship with the matching rate or a character string length in the vicinity thereof.

また機密情報の特徴情報である切り出し文字列をキーとして機密文書IDをハッシュテーブルに登録して判定対象文書から切出した文字列との照合を行っているため、高速の比較照合が可能となり、組織外に出て行く全ての情報につき機密文書か否かの機械判定ができる。   Also, since the confidential document ID is registered in the hash table using the cut-out character string that is the characteristic information of the confidential information as a key and collation is performed with the character string cut out from the determination target document, high-speed comparison and collation are possible. It is possible to make a machine judgment as to whether or not all information going out is a confidential document.

また機密文書の特徴情報を登録するハッシュテーブルを生成する際に、機密文書に頻出するけれども文書の本質的な部分でなく、機密文書においても複製されても問題がない表現である頻出表現を除去しておくことで、機密情報の特徴とはならない不必要な切出し文字列をキーとした機密文書IDの登録を回避し、機密情報の判定精度と処理速度を高めることができる。
Also, when generating a hash table for registering the feature information of confidential documents, frequent expressions that appear frequently in confidential documents but are not essential parts of the document, and that can be reproduced in confidential documents, are eliminated. By doing so, it is possible to avoid registration of a confidential document ID using an unnecessary extracted character string that is not a feature of confidential information as a key, and to improve the accuracy and processing speed of confidential information.

本発明の機密情報管理装置の実施形態を示した機能構成のブロック図The block diagram of the function structure which showed embodiment of the confidential information management apparatus of this invention 図1の実施形態の詳細な機能構成のブロック図Block diagram of a detailed functional configuration of the embodiment of FIG. 本実施形態が適用されるコンピュータのハードウェア環境のブロック図Block diagram of a hardware environment of a computer to which this embodiment is applied 本実施形態による機密情報管理の全体処理のフローチャートFlow chart of overall processing of confidential information management according to this embodiment 図4のステップS1における頻出表現抽出処理の詳細を示したフローチャートThe flowchart which showed the detail of the frequent expression extraction process in step S1 of FIG. 本実施形態による頻出表現抽出処理の処理内容の説明図Explanatory drawing of the processing contents of frequent expression extraction processing according to this embodiment 図4のステップS2における機密情報特徴抽出処理の詳細を示したフローチャートThe flowchart which showed the detail of the confidential information feature extraction process in step S2 of FIG. 本実施形態による機密情報特徴抽出処理の処理内容の説明図Explanatory drawing of processing contents of confidential information feature extraction processing according to this embodiment 本実施形態で文字切出しの一定文字列長nを決定するための特性図Characteristic chart for determining a fixed character string length n for character extraction in this embodiment 本実施形態における一定文字列長nによる文字列切出し処理の説明図Explanatory drawing of the character string extraction process by fixed character string length n in this embodiment 図4のステップS4における機密情報判定処理の詳細を示したフローチャートThe flowchart which showed the detail of the confidential information determination process in step S4 of FIG. 本実施形態による機密情報判定処理の処理内容の説明図Explanatory drawing of processing contents of confidential information determination processing according to this embodiment

図1は本発明の機密情報管理装置の実施形態を示した機能構成のブロック図である。図1において、本実施形態の機密情報管理装置10は、企業などの組織内のネットワーク24に接続されており、頻出表現抽出部12、機密情報特徴抽出部14、機密情報判定部16、頻出表現テーブル18、ハッシュテーブル20及び判定ログファイル22を備えている。   FIG. 1 is a block diagram of a functional configuration showing an embodiment of a confidential information management apparatus of the present invention. In FIG. 1, a confidential information management apparatus 10 of this embodiment is connected to a network 24 in an organization such as a company, and a frequent expression extraction unit 12, a confidential information feature extraction unit 14, a confidential information determination unit 16, a frequent expression. A table 18, a hash table 20, and a determination log file 22 are provided.

本実施形態の機密情報管理装置10を接続した組織内のネットワーク24に対しては、機密文書管理サーバ26を介して機密文書データベース28が接続され、機密文書データベース28で、組織内で取り扱っている全ての機密文書を保存管理している。もちろん、機密文書管理サーバ26による集中管理によらず、他の複数のサーバに分散する分散的な機密文書であってもよい。   A confidential document database 28 is connected to the network 24 in the organization to which the confidential information management apparatus 10 of the present embodiment is connected via a confidential document management server 26, and is handled in the organization by the confidential document database 28. All confidential documents are stored and managed. Of course, distributed confidential documents distributed to a plurality of other servers may be used instead of the centralized management by the confidential document management server 26.

またネットワーク24には組織内の担当者が使用する複数のクライアント30−1〜30−3が接続され、それぞれディスプレイ32−1〜32−3を備えている。またネットワーク24には共用装置としてプリンタ34が接続される。   A plurality of clients 30-1 to 30-3 used by persons in charge in the organization are connected to the network 24, and are provided with displays 32-1 to 32-3, respectively. A printer 34 is connected to the network 24 as a shared device.

更にネットワーク24は、インターネットなどの外部のネットワーク44を介して外部装置46−1〜46−4に接続される。内部のネットワーク24から外部のネットワーク44に対する出入口に相当する位置には、本実施形態にあっては、電子メールを集中的に処理するプロキシサーバ36、FTPなどのファイル転送を行うゲートウェイサーバ38、ファクシミリ電文の処理を行うファクシミリサーバ40が設けられている。   Further, the network 24 is connected to external devices 46-1 to 46-4 via an external network 44 such as the Internet. In the present embodiment, a proxy server 36 that centrally processes e-mails, a gateway server 38 that performs file transfer such as FTP, and the like are located at positions corresponding to the gateways from the internal network 24 to the external network 44. A facsimile server 40 for processing electronic messages is provided.

更にネットワーク24にはスキャンステーション42が設置されている。スキャンステーション42は企業の出入口などに設置されており、企業の担当者が携帯しているパーソナルコンピュータなどの携帯情報機器45に保存されている電子的な文書に対するアクセスを可能としている。   Further, a scan station 42 is installed in the network 24. The scan station 42 is installed at a company entrance and exit, and allows access to electronic documents stored in a portable information device 45 such as a personal computer carried by a person in charge of the company.

機密情報管理装置10の機密情報特徴抽出部14は、機密文書データベース28に保存している機密文書を対象に、機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切出し文字列に対応する機密文書IDを付与し、各切出し文字列をキーとしてハッシュテーブル20に登録する。   The confidential information feature extraction unit 14 of the confidential information management apparatus 10 targets a confidential document stored in the confidential document database 28 as a feature information by shifting a character string having a fixed character string length n while shifting the confidential document one character at a time. And a confidential document ID corresponding to each extracted character string is assigned, and each extracted character string is registered in the hash table 20 as a key.

機密情報判定部16はネットワーク24を経由して、判定要求のあった文書、例えばプロキシサーバ36から外部に送信する電子メールの本文や添付ファイルを判定対象文書として取得し、判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切出し文字列をハッシュテーブル20と照合し、判定対象文書が機密情報を含むか否か判定する。   The confidential information determination unit 16 acquires, as a determination target document, a document for which a determination request has been made, for example, the body or attached file of an e-mail transmitted to the outside from the proxy server 36 via the network 24, and starts from the top of the determination target document. A character string having a fixed character string length n is cut out while shifting character by character, and each cut-out character string is checked against the hash table 20 to determine whether the determination target document includes confidential information.

頻出表現抽出部12は、収集された機密文書及び一般文書を対象に、出現頻度の高い頻出表現を抽出して頻出表現テーブル18に登録する。機密情報特徴抽出部14において、判定対象文書から頻出表現テーブル18に登録されている頻出表現を除去した後に、一定文字列長nの文字切出しに基づくハッシュテーブル20の登録を行う。   The frequent expression extraction unit 12 extracts frequent expressions having a high appearance frequency for the collected confidential documents and general documents, and registers them in the frequent expression table 18. In the confidential information feature extraction unit 14, after the frequent expression registered in the frequent expression table 18 is removed from the determination target document, the hash table 20 is registered based on the character extraction with a fixed character string length n.

このようにハッシュテーブル20を作成する際に機密対象文書に含まれる頻繁に出現する出現頻度の高い頻出情報となる文字列、即ち機密文書に限らず一般文書において行われている一般的な言い回しや当然書かなければならない内容、例えば「このロゴは○○社の登録商標です」といったような表現につき、これを頻出表現として抽出し、機密文書を判定するに除外することで、機密文書の判定精度を高めるようにしている。   As described above, when the hash table 20 is created, a character string that is frequently appearing frequently appearing information included in a confidential document, that is, a general wording used in a general document as well as a confidential document. Naturally, content that must be written, such as “This logo is a registered trademark of XX Company”, is extracted as a frequent expression and excluded from the determination of confidential documents. To increase.

図2は図1の機密情報管理装置10に設けている頻出表現抽出部12、機密情報特徴抽出部14及び機密情報判定部16の詳細な機能構成のブロック図である。図2において、頻出表現抽出部12は、文書収集部48、文字列切出し部50、頻度検出部52、候補抽出部54、包含候補除去部56及びテーブル登録部58で構成されている。   FIG. 2 is a block diagram of detailed functional configurations of the frequent expression extraction unit 12, the confidential information feature extraction unit 14, and the confidential information determination unit 16 provided in the confidential information management apparatus 10 of FIG. In FIG. 2, the frequent expression extraction unit 12 includes a document collection unit 48, a character string extraction unit 50, a frequency detection unit 52, a candidate extraction unit 54, an inclusion candidate removal unit 56, and a table registration unit 58.

文書収集部48は、企業内のネットワーク上から機密文書及び一般文書を収集する。文字列切出し部50は、収集文書から文字列長を順次増加させながら各文字列長毎に文字列を切り出す。頻度検出部52は、各文字列長毎に文字列の出現頻度を検出する。   The document collection unit 48 collects confidential documents and general documents from the network in the company. The character string cutout unit 50 cuts out a character string for each character string length while sequentially increasing the character string length from the collected document. The frequency detection unit 52 detects the appearance frequency of the character string for each character string length.

候補抽出部54は、各文字列長毎に決定した所定の閾値以上の出現頻度をもつ文字列を頻出表現候補として抽出する。包含候補除去部56は、頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する。テーブル登録部58は、包含候補除去部56による候補除去で残った候補を頻出表現として頻出表現テーブル18に登録する。   The candidate extraction unit 54 extracts a character string having an appearance frequency equal to or higher than a predetermined threshold determined for each character string length as a frequent expression candidate. The inclusion candidate removal unit 56 investigates the inclusion relation of the frequent expression candidates and removes the included frequent candidate character strings. The table registration unit 58 registers candidates remaining after candidate removal by the inclusion candidate removal unit 56 in the frequent expression table 18 as frequent expressions.

機密情報特徴抽出部14には、部分文書切出し部60、ID付与部62、頻出表現除去部64、文字列切出し部66及びテーブル登録部68が設けられる。部分文書切出し部60は、特徴情報抽出のために準備された複数の機密文書からファイル単位などの意味的なまとまりを持つ機密部分文書を取り出す。   The confidential information feature extraction unit 14 includes a partial document extraction unit 60, an ID addition unit 62, a frequent expression removal unit 64, a character string extraction unit 66, and a table registration unit 68. The partial document cutout unit 60 extracts a confidential partial document having a semantic unit such as a file unit from a plurality of confidential documents prepared for feature information extraction.

ID付与部62は、部分文書切出し部60で取り出された機密部分文書に対応する機密文書の機密文書IDを付与する。頻出表現除去部64は、機密部分文書から頻出表現テーブル18に登録されている頻出表現を検出して除去する。   The ID assigning unit 62 assigns the confidential document ID of the confidential document corresponding to the confidential partial document extracted by the partial document cutout unit 60. The frequent expression removal unit 64 detects and removes frequent expressions registered in the frequent expression table 18 from the confidential partial document.

文字列切出し部66は、機密部分文書の先頭から文字ずつずらしながら一定文字列長nの文字列を切り出す。例えば切出し対象となる機密部分文書の文字列長をmとすると、一定文字列長nの文字列の切出しにより、(m−n)個の文字列が切り出されることになる。テーブル登録部68は、全ての切出し文字列をキーとして、対応する機密文書IDをハッシュテーブル20に登録する。   The character string cutout unit 66 cuts out a character string having a fixed character string length n while shifting characters one by one from the beginning of the confidential partial document. For example, if the character string length of the confidential partial document to be cut out is m, (mn) character strings are cut out by cutting out a character string having a fixed character string length n. The table registration unit 68 registers the corresponding confidential document ID in the hash table 20 using all the extracted character strings as keys.

機密情報判定部16には、文書取得部70、識別子付与部72、文字列切出し部74、照合部76及び判定出力部78が設けられる。文書取得部70は、ネットワーク上の機器装置などから判定要求があった判定対象文書を取得する。識別子付与部72は、判定対象文書に文書IDを付与する。   The confidential information determination unit 16 includes a document acquisition unit 70, an identifier assignment unit 72, a character string cutout unit 74, a collation unit 76, and a determination output unit 78. The document acquisition unit 70 acquires a determination target document for which a determination request has been received from a device on the network. The identifier assigning unit 72 assigns a document ID to the determination target document.

文字列切出し部74は、判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出す。照合部76は、全ての切出し文字列をハッシュテーブル20のキーである登録文字列と照合し、照合一致の場合に対応する機密文書IDを取得する。判定出力部78は、照合部76から1または複数の機密文書IDが取得された場合に、判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書IDが取得されなかった場合には判定対象文書は機密文書を含まないことを示す判定結果を出力する。   The character string cutout unit 74 cuts out a character string having a fixed character string length n while shifting character by character from the beginning of the determination target document. The collation unit 76 collates all the extracted character strings with the registered character string that is the key of the hash table 20, and acquires the confidential document ID corresponding to the collation match. When one or more confidential document IDs are acquired from the collating unit 76, the determination output unit 78 outputs a determination result indicating that the determination target document includes confidential information, and the confidential document ID is not acquired. Outputs a determination result indicating that the determination target document does not include a confidential document.

判定出力部78から機密文書の判定結果が得られた場合には、機密文書の判定結果に対応したセキュリティ対応処理が行われ、この機密文書に対するセキュリティ対応処理は原則的には機密文書に対するアクセスを一切禁止する処理となるが、処理を行っている端末の担当者が閲覧権限を有する場合には機密文書であってもその処理を許可する。また機密文書につき、機密文書を管理している管理端末に判定結果を通知し、管理者端末から許可応答を受けた場合にのみ機密文書に対するアクセスを許可するようにしてもよい。   When the determination result of the confidential document is obtained from the determination output unit 78, a security response process corresponding to the determination result of the confidential document is performed. Although the processing is prohibited at all, if the person in charge of the terminal performing the processing has the viewing authority, the processing is permitted even for a confidential document. For the confidential document, the determination result may be notified to the management terminal that manages the confidential document, and access to the confidential document may be permitted only when an authorization response is received from the administrator terminal.

図3は本実施形態が適用されるコンピュータのハードウェア環境のブロック図である。図3において、CPU80のバス82に対しては、RAM84、ROM86、ハードディスクドライブ88、キーボード92,マウス94,ディスプレイ96を接続するデバイスインタフェース90、及びネットワークアダプタ98が設けられている。   FIG. 3 is a block diagram of a hardware environment of a computer to which this embodiment is applied. In FIG. 3, a RAM 82, a ROM 86, a hard disk drive 88, a keyboard 92, a mouse 94, a device interface 90 for connecting a display 96, and a network adapter 98 are provided for the bus 82 of the CPU 80.

ハードディスクドライブ88には、本実施形態の機密情報管理装置10としての機能を実現する機密情報管理プログラムが格納されており、コンピュータを起動した際のブートアップ後にRAM84にOSを展開した状態で、ハードディスクドライブ88からRAM84に読み出され、CPU80により実行されることになる。   The hard disk drive 88 stores a confidential information management program that realizes the function as the confidential information management apparatus 10 of the present embodiment, and the hard disk drive 88 is loaded with the OS in the RAM 84 after the computer is booted up. The data is read from the drive 88 to the RAM 84 and executed by the CPU 80.

図4は本実施形態による機密情報管理の全体処理のフローチャートであり、図1を参照して説明すると次のようになる。図4において、機密情報管理処理は、まずステップS1で頻出表現抽出部12による頻出表現抽出処理を実行し、抽出した頻出表現を頻出表現テーブル18に格納する。   FIG. 4 is a flowchart of the entire process of confidential information management according to the present embodiment, which will be described below with reference to FIG. In FIG. 4, the confidential information management process first executes a frequent expression extraction process by the frequent expression extraction unit 12 in step S <b> 1, and stores the extracted frequent expression in the frequent expression table 18.

続いてステップS2で、機密情報特徴抽出部14により機密情報特徴抽出処理が実行され、抽出された特徴情報、具体的には一定文字列長nの文字列をキーとして機密情報IDをハッシュテーブル20に登録する処理が行われる。   Subsequently, in step S2, confidential information feature extraction processing is executed by the confidential information feature extraction unit 14, and the secret information ID is stored in the hash table 20 using the extracted feature information, specifically, a character string having a fixed character string length n as a key. Registration processing is performed.

続いてステップS3で文書判定要求の有無をチェックしており、判定要求を受けるとステップS4に進み、機密情報判定部16による判定処理を実行する。この判定結果につき、ステップS5で機密情報の判定を認識した場合には、ステップS7に進み、機密文書対応処理として例えば判定対象文書のアクセスを禁止する処理などを行う。ステップS5で機密情報でないことが判定された場合には、ステップS6で文書処理を許可することになる。   Subsequently, whether or not there is a document determination request is checked in step S3. When the determination request is received, the process proceeds to step S4, and determination processing by the confidential information determination unit 16 is executed. If it is determined in step S5 that the confidential information has been determined, the process proceeds to step S7, where, for example, processing for prohibiting access to the determination target document is performed as confidential document handling processing. If it is determined in step S5 that the information is not confidential information, document processing is permitted in step S6.

続いてステップS8で機密情報判定処理の処理結果を判定ログファイル22に記録する。次にステップS9で機密情報の追加更新などがあることを判定した場合には、ステップS2に戻り、追加更新された機密文書を対象に機密情報特徴抽出処理を行ってハッシュテーブル20を追加更新する。このようなステップS2〜S9の処理を、ステップS10で停止指示があるまで繰り返すことになる。   Subsequently, the processing result of the confidential information determination process is recorded in the determination log file 22 in step S8. Next, when it is determined in step S9 that there is an additional update of confidential information, the process returns to step S2, and the confidential information feature extraction process is performed on the additionally updated confidential document to additionally update the hash table 20. . Such processes in steps S2 to S9 are repeated until a stop instruction is issued in step S10.

図5は図4のステップS1の頻出表現抽出処理の詳細を示したフローチャートである。図5において、頻出表現抽出処理は、ステップS1で機密文書及び一般文書をネットワーク上から収集し、ステップS2で、収集した文書から例えば数十文字から数百文字程度の文字列長の単位で文字列を切り出す。   FIG. 5 is a flowchart showing details of the frequent expression extraction process in step S1 of FIG. In FIG. 5, in the frequent expression extraction process, confidential documents and general documents are collected from the network in step S1, and character strings in units of character string lengths of, for example, tens to hundreds of characters are collected from the collected documents in step S2. Cut out.

続いてステップS3で、切出し文字列を対象に文字列長を順次増加させた各文字列長ごとに出現頻度を求め、同時に出現頻度の判定閾値を決定する。次にステップS4で各文字列長ごとに閾値以上の頻度を持つ文字列を頻出表現候補として抽出する。続いてステップS5で、抽出された頻出表現候補の間で包含関係を調査し、包含される候補を除去する。最終的にステップS6で、包含される候補の除去により残った候補を頻出表現として頻出表現テーブル18に登録する。   Subsequently, in step S3, the appearance frequency is obtained for each character string length obtained by sequentially increasing the character string length for the cut character string, and the appearance frequency determination threshold is determined at the same time. Next, in step S4, a character string having a frequency equal to or higher than a threshold for each character string length is extracted as a frequent expression candidate. Subsequently, in step S5, the inclusion relationship is examined among the extracted frequent expression candidates, and the included candidates are removed. Finally, in step S6, candidates remaining after removal of the included candidates are registered in the frequent expression table 18 as frequent expressions.

図6は本実施形態による頻出表現抽出処理の処理内容を具体的に示している。図6において、まず機密文書及び一般文書の文書収集処理100が行われ、文書ファイル102に示すように、ファイルID、ファイル名及びファイルデータからなる複数文書が収集される。   FIG. 6 specifically shows the processing contents of the frequent expression extraction processing according to the present embodiment. In FIG. 6, first, a document collection process 100 for confidential documents and general documents is performed, and as shown in a document file 102, a plurality of documents including a file ID, a file name, and file data are collected.

次に、文書ファイル102の各文書を対象に数十文字から数百文字程度の範囲で文字列を切り出し、切り出した文字列を対象に各文字列長ごとに統計的な出現頻度を検出する頻度検出処理104を実行する。この頻度検出処理104により、ワークテーブル106−1に示すように、文字列112、文字列長114及び出現頻度116に示す内容が得られる。   Next, a frequency detection is performed in which a character string is cut out in the range of several tens to several hundred characters for each document in the document file 102, and a statistical appearance frequency is detected for each character string length in the cut character string. Processing 104 is executed. By the frequency detection process 104, as shown in the work table 106-1, the contents shown in the character string 112, the character string length 114, and the appearance frequency 116 are obtained.

次に頻出表現候補抽出処理108を実行する。頻出表現候補抽出処理108にあっては、ワークテーブル106−2に示すように、所定の閾値を超える出現頻度の文字列に対し、頻出表現候補118に示すように「1」をセットし、閾値未満の文字列については候補でないことを示す「0」をセットする。   Next, frequent expression candidate extraction processing 108 is executed. In the frequent expression candidate extraction process 108, as shown in the work table 106-2, a character string having an appearance frequency exceeding a predetermined threshold is set to “1” as shown in the frequent expression candidate 118, and the threshold value is set. For character strings less than "0" indicating that they are not candidates are set.

次に包含候補除去処理110を実行し、ワークテーブル106−3のように包含関係120に、もし包含候補であった場合には「1」をセットし、包含関係がなければ「0」をセットする。この包含候補除去処理110により、ワークテーブル106−3の例えば文字列「□○△■」が頻出表現として抽出されて頻出表現テーブル18に登録されることになる。   Next, the inclusion candidate removal processing 110 is executed, and the inclusion relationship 120 is set to “1” if it is an inclusion candidate as in the work table 106-3, and “0” is set if there is no inclusion relationship. To do. By this inclusion candidate removal processing 110, for example, the character string “□ ΔΔ ■” in the work table 106-3 is extracted as a frequent expression and registered in the frequent expression table 18.

図7は図4のステップS2の機密情報特徴抽出処理の詳細を示したフローチャートである。図7において、機密情報特徴抽出処理は、ステップS1で機密文書群を読み込み、ステップS2で、機密文書群から例えば1つの意味的まとまりを持つ部分文書として、例えばファイル単位に文書を切り出す。   FIG. 7 is a flowchart showing details of the confidential information feature extraction processing in step S2 of FIG. In FIG. 7, the confidential information feature extraction process reads a confidential document group in step S <b> 1, and in step S <b> 2, for example, extracts a document in units of files as a partial document having one semantic group.

次にステップS3で切り出した文書に文書IDを付与する。次にステップS4で図5の頻出情報抽出処理で得られている頻出表現テーブル18の登録内容に基づき、頻出表現を機密文書から除去する。続いてステップS5で、機密文書につき先頭から1文字ずつずらしながら一定文字列長nで文字切出しを行う。   Next, a document ID is assigned to the document cut out in step S3. In step S4, the frequent expression is removed from the confidential document based on the registered contents of the frequent expression table 18 obtained by the frequent information extraction process of FIG. Subsequently, in step S5, characters are extracted with a fixed character string length n while shifting the confidential document by one character from the beginning.

続いてステップS6で、切り出した全ての文字列をキーとして文書IDをハッシュテーブル20に登録する。このようなステップS2〜S6の処理を、ステップS7でファイル単位の切出しが終了するまで繰り返す。   In step S6, the document ID is registered in the hash table 20 using all the extracted character strings as keys. Such processes in steps S2 to S6 are repeated until the file unit is cut out in step S7.

図8は本実施形態による機密情報抽出処理の処理内容に説明図である。図8において、複数の文書情報122−1〜122−3を読み込んだ後、切り出し処理124により例えばファイル単位に機密文書を切り出す。続いて文書ID付与処理126により、切り出した機密文書に対し、切出し元の切出し文書に設定されている機密文書IDを付与する。これにより、文書ファイル128に示すようにファイルIDとファイル名が付与されたファイルデータが作成される。   FIG. 8 is an explanatory diagram showing the processing contents of the confidential information extraction processing according to this embodiment. In FIG. 8, after reading a plurality of pieces of document information 122-1 to 122-3, a confidential document is cut out, for example, in units of files by a cutout process 124. Subsequently, the document ID assigning process 126 assigns the confidential document ID set in the cut-out source document to the cut-out secret document. Thereby, as shown in the document file 128, file data to which a file ID and a file name are assigned is created.

次にテキスト情報抽出処理130により、文書ファイル128の特定のファイルを取り出して、その中からテキスト情報を抽出する。次に頻出表現除去処理130により頻出情報テーブル18に登録されている頻出表現をテキスト情報から除去する。続いて一定文字列切り出し処理134を実行し、一定文字列長nの文字列をテキスト文書の先頭から1文字ずつずらしながら切り出す。最終的に、ハッシュ登録処理136により全文字列をキーとして機密文書IDをハッシュテーブル20に登録する。   Next, a specific file of the document file 128 is taken out by the text information extraction process 130, and the text information is extracted therefrom. Next, the frequent expression registered in the frequent information table 18 is removed from the text information by the frequent expression removal processing 130. Subsequently, a fixed character string cutout process 134 is executed, and a character string having a fixed character string length n is cut out while shifting one character at a time from the beginning of the text document. Finally, the confidential document ID is registered in the hash table 20 by using the hash registration process 136 with all character strings as keys.

ここで、本実施形態の機密情報特徴抽出処理で機密文書から文字列を切り出すための一定文字列長nの最適値について説明する。図9は本実施形態で機密文書の特徴抽出のための文字列切出しを行う一定文字列長nを決定するための特性図である。   Here, the optimum value of the fixed character string length n for extracting the character string from the confidential document in the confidential information feature extraction processing of this embodiment will be described. FIG. 9 is a characteristic diagram for determining a fixed character string length n for performing character string extraction for feature extraction of a confidential document in this embodiment.

図9において、横軸は機密文書の判定に使用する文字列長であり、1文字から文書サイズで決まる最大文字数までの値をとる。縦軸はパーセント表示となる。特性曲線138は文字列長を1文字から順次増加させていったときの機密文書発見率であり、文字列長が増加するに従って機密文書発見率は減少する特性となる。   In FIG. 9, the horizontal axis represents the length of a character string used to determine a confidential document, and takes a value from one character to the maximum number of characters determined by the document size. The vertical axis is displayed as a percentage. A characteristic curve 138 is a confidential document discovery rate when the character string length is sequentially increased from one character, and the confidential document discovery rate decreases as the character string length increases.

特性曲線140は、文字列長の変化に対し判定した機密文書の中の文字列の一致割合であり、文字列長が増加するほど、発見した機密文書中における文字列長の一致する割合は増大する。究極的には、機密文書の全文字列を文字列長とした場合には特性曲線140の値は100%、即ち機密文書と文字列長は完全に一致することになる。   The characteristic curve 140 is the matching ratio of the character string in the confidential document determined with respect to the change in the character string length, and as the character string length increases, the ratio of the matching character string length in the discovered confidential document increases. To do. Ultimately, when all character strings of the confidential document are character string lengths, the value of the characteristic curve 140 is 100%, that is, the confidential document and the character string length completely coincide.

このような機密文書発見率の特性曲線138と、発見した機密文書における一致文字列長の一致率の特性曲線140につき、両者が交差する交点142の文字列長nを、本実施形態にあっては最適な文字列切出しのための文字列長としている。   In this embodiment, the character string length n of the intersection 142 where the confidential document discovery rate characteristic curve 138 and the coincidence character string length coincidence rate characteristic curve 140 in the found confidential document intersect is the same. Is the character string length for optimal character string extraction.

日本語文書の場合、図9の特性曲線138,140の交点142で与えられる文字列長nはn=20文字であることが、本願発明者らの考察を通じて取得されている。この最適文字列長n=20文字は日本語の場合であるが、英語や他の言語にあっても同様な手法により、図9の交点142の一致文字列長nを求めることで、20文字の前後の値が得られる。   In the case of a Japanese document, it has been obtained through consideration by the inventors of the present application that the character string length n given by the intersection 142 of the characteristic curves 138 and 140 in FIG. 9 is n = 20 characters. This optimum character string length n = 20 characters is in the case of Japanese, but even in English and other languages, 20 characters can be obtained by obtaining the matching character string length n at the intersection 142 in FIG. The values before and after are obtained.

図10は本実施形態における一定文字列長nによる文字列切出し処理の説明図である。図10において、切出し対象となるファイル文字列150に対し、図9により決定した文字列長nの一定文字列を、ファイル文字列150の先頭から1文字ずつずらしながら、文字列152−1,152−2,152−3,・・・のように、一定文字列nの末尾がファイル文字列150の最後に達するまで切り出す。この文字列切出しは、ファイル文字列150の文字数をmとすると(m−n)個の文字列が切り出されることになる。   FIG. 10 is an explanatory diagram of a character string cut-out process with a constant character string length n in the present embodiment. In FIG. 10, the character strings 152-1 and 152 are shifted from the beginning of the file character string 150 by shifting the constant character string of the character string length n determined in FIG. As shown in −2, 152-3,..., Clipping is performed until the end of the fixed character string n reaches the end of the file character string 150. In this character string extraction, if the number of characters in the file character string 150 is m, (mn) character strings are extracted.

図11は図4のステップS4の機密情報判定処理の詳細を示したフローチャートである。図11において、機密情報判定処理は、ステップS1で要求のあった判定対象文書を読み込み、ステップS2で文書IDを付与した後、ステップS3で判定対象文書からテキスト情報を抽出する。   FIG. 11 is a flowchart showing details of the confidential information determination processing in step S4 of FIG. In FIG. 11, the confidential information determination process reads the determination target document requested in step S1, assigns a document ID in step S2, and extracts text information from the determination target document in step S3.

続いてステップS4で、テキスト情報の先頭から1文字ずつずらしながら、一定文字列長nで文字列の切出しを行う。次にステップS5で、切り出した全ての文字列によりハッシュテーブル20を検索して、マッチングした機密文書IDを取得する。   Subsequently, in step S4, a character string is cut out with a constant character string length n while shifting character by character from the head of the text information. In step S5, the hash table 20 is searched with all the extracted character strings, and the matched confidential document ID is acquired.

ステップS6で機密文書IDの取得を判別すると、ステップS7で重複する機密文書IDを1つにまとめるマージ処理を行った後、ステップS8で機密文書IDを判定結果にセットして出力する。ステップS6で機密文書IDの取得がなければ、ステップS9で機密文書該当なしの判定結果をセットして出力する。   If it is determined in step S6 that the confidential document ID is acquired, a merge process is performed in step S7 to combine duplicate confidential document IDs into one, and then in step S8, the confidential document ID is set and output as a determination result. If the confidential document ID is not acquired in step S6, a determination result indicating that the confidential document is not applicable is set and output in step S9.

図12は本実施形態による機密情報判定処理の処理内容の説明図である。図12にあっては、判定対象文書として電子メール154を対象文書取得処理156により取得した場合であり、取得した電子メール154に文書ID付与処理158により文書IDを付与し、メールファイル160を作成する。   FIG. 12 is an explanatory diagram of the processing contents of the confidential information determination processing according to the present embodiment. In FIG. 12, the e-mail 154 is acquired as the determination target document by the target document acquisition process 156, and a document ID is assigned to the acquired e-mail 154 by the document ID assignment process 158, and the mail file 160 is created. To do.

このメールファイル160のメールデータを対象に、テキスト情報抽出処理162によりテキスト情報を抽出する。テキスト情報はメール本文及びメールの添付ファイルから抽出されることになる。   Text information is extracted by text information extraction processing 162 for the mail data of the mail file 160. The text information is extracted from the mail body and the attached file of the mail.

次に一定文字列長切出し処理164により、テキスト情報の先頭から1文字ずつずらしながら、一定文字列長nで文字列を切り出す。次にハッシュ検索処理166によりハッシュテーブル20を全切出し文字により検索し、マッチングした登録文字列に対応した機密文書IDを取得する。   Next, by a constant character string length cutout process 164, a character string is cut out with a constant character string length n while shifting one character at a time from the beginning of the text information. Next, the hash search process 166 searches the hash table 20 using all cut-out characters, and acquires a confidential document ID corresponding to the registered character string matched.

ワークテーブル168はハッシュ検索処理の処理結果であり、文字列170、文字列長172に対応して検索された機密文書のファイルID174が格納されている。次に重複IDマージ処理176を実行し、判定結果出力処理178により判定出力ファイル180に示すように、検索された複数の機密文書IDを出力し、この場合には処理要求のあった電子メール154が機密文書を含んでいることの判定結果が出力されることになる。   The work table 168 is a processing result of the hash search process, and stores the file ID 174 of the confidential document searched corresponding to the character string 170 and the character string length 172. Next, a duplicate ID merge process 176 is executed, and as shown in the determination output file 180 by the determination result output process 178, a plurality of searched confidential document IDs are output. In this case, the electronic mail 154 requested to be processed is output. A determination result indicating that contains a confidential document is output.

次に本実施形態の機密情報判定部16で対象文書から機密情報を判定した場合のセキュリティ対応処理を説明する。図1に示したように、本実施形態の機密情報管理装置10に設けた機密情報判定部16は、内部のネットワーク24に接続しているクライアント30−1〜30−3で処理する文書、プロキシサーバ36で外部に送信する電子メール、ゲートウェイサーバ38で外部に転送するFTPファイルなどの転送ファイル、ファクシミリサーバ40で送信するファクシミリファイル、スキャンステーション42で検出する携帯情報機器45の文書ファイル、更にネットワーク24に接続されているプリンタ34に対する印刷文書ファイル等を、機密情報の判定対象としている。   Next, security handling processing when the confidential information determination unit 16 of the present embodiment determines confidential information from the target document will be described. As shown in FIG. 1, the confidential information determination unit 16 provided in the confidential information management apparatus 10 according to the present exemplary embodiment includes a document and a proxy processed by the clients 30-1 to 30-3 connected to the internal network 24. E-mail transmitted to the outside by the server 36, a transfer file such as an FTP file transferred to the outside by the gateway server 38, a facsimile file transmitted by the facsimile server 40, a document file of the portable information device 45 detected by the scan station 42, and a network A print document file or the like for the printer 34 connected to the printer 24 is a confidential information determination target.

更にクライアント30−1〜30−3にあっては、機密文書を担当者がディスプレイ32−1〜32−3に表示する際に、機密情報判定部16に判定要求を行い、判定結果に基づいた機密文書の表示の有無が制御されることになる。   Further, in the clients 30-1 to 30-3, when the person in charge displays the confidential document on the displays 32-1 to 32-3, the client 30-1 to 30-3 makes a determination request to the confidential information determination unit 16, and based on the determination result. Whether or not a confidential document is displayed is controlled.

機密情報判定部16で判定対象文書に機密情報が含まれることが判定された場合、判定要求元におけるアクセスや出力処理は全て禁止することが原則となる。しかしながら、機密文書については、機密文書に対しアクセスの権限のある担当者が利用する場合もあることから、機密情報と判定した場合には送信元に閲覧権限があるか否か判定し、閲覧権限があれば機密文書であってもアクセスを許可する。   When the confidential information determination unit 16 determines that confidential information is included in the determination target document, in principle, all access and output processing at the determination request source are prohibited. However, since the person in charge of access to the confidential document may use the confidential document, if it is determined as confidential information, it is determined whether or not the transmission authority has the browsing authority. If there is, allow access even for confidential documents.

また機密文書については、その利用を管理者が管理している場合があり、閲覧権限がなかった場合に、管理者端末に機密文書の判定結果を通知し、管理者端末からの許可応答を待って、機密文書を含む文書のアクセスを許可するようにしてもよい。   In addition, the use of confidential documents may be managed by the administrator, and if the user does not have viewing authority, the administrator terminal is notified of the determination result of the confidential document and waits for a permission response from the administrator terminal. Thus, access to a document including a confidential document may be permitted.

また機密情報判定部16で判定された対象ファイルの機密情報を含むことの判定結果は全て判定ログファイル22に記録されており、機密情報の漏洩問題などが発生した場合に、漏洩経路を後から探索することができるようにしている。   In addition, all the determination results including the confidential information of the target file determined by the confidential information determination unit 16 are recorded in the determination log file 22, and when a leakage problem of confidential information or the like occurs, the leakage path is changed later. To be able to explore.

本実施形態における機密情報判定部16は、企業内から外部に機密情報が無断もしくは不注意に持ち出されることを阻止するものであるが、外部装置46−1〜46−4との間で機密情報をやり取りするような場合にも、送受信される文書ファイルから機密情報を判定してセキュリティを管理することができる。   The confidential information determination unit 16 in the present embodiment prevents confidential information from being taken out of the company to the outside without permission or carelessness. However, the confidential information is determined between the external devices 46-1 to 46-4. Even when exchanging information, security information can be managed by determining confidential information from a document file to be transmitted and received.

例えば本実施形態の機密情報管理装置10を設置している企業と機密情報開示先である例えば個人事業者間に設けている外部装置46−1との間の送受信される文書ファイルにつき、機密情報判定部16で機密情報を判定した場合、機密情報の送信記録と受信記録を作成して照合しながら文書管理を行い、外部装置46−1から受信したメール文書についても機密情報判定部16で判定処理を行い、もし機密情報が含まれていたような場合には、外部装置46−1を取り扱っている事業者に対し機密情報が誤って流出していることを通知して対応を促すことが可能となる。   For example, with respect to a document file transmitted / received between a company in which the confidential information management device 10 of the present embodiment is installed and an external device 46-1 provided between confidential business disclosure destinations, for example, individual business operators, When the determination unit 16 determines the confidential information, the confidential information determination unit 16 also determines the mail document received from the external device 46-1, by managing the document while creating and collating the transmission record and the reception record of the confidential information. If confidential information is included, the operator handling the external device 46-1 is notified that the confidential information has been accidentally leaked and encouraged to respond. It becomes possible.

また図1の機密情報をやり取りする外部装置46−1側にも本実施形態の機密情報管理装置10における対象となる機密文書について特定的に作成されたハッシュテーブル20と機密情報判定部16及び判定ログファイル22を組み込んでおくことで、送信元及び送信先のそれぞれで機密情報のやり取りにつき機密文書IDを判定して記録しておき、送信した機密情報IDと受信した機密情報IDをリアルタイムで照合することで全ての機密情報が正しく送受信され、送受信漏れによる機密情報の漏洩がないことを確認するセキュリティ管理が可能となる。   Also, the hash table 20, the confidential information determination unit 16, and the determination that are specifically created for the confidential document that is the target in the confidential information management apparatus 10 of this embodiment are also provided on the external device 46-1 side that exchanges confidential information in FIG. By incorporating the log file 22, the confidential document ID is determined and recorded for each exchange of confidential information at the transmission source and the transmission destination, and the transmitted confidential information ID is compared with the received confidential information ID in real time. By doing so, all confidential information can be correctly transmitted and received, and security management can be performed to confirm that there is no leakage of confidential information due to transmission / reception leakage.

本実施形態は更にコンピュータで実行される機密情報管理プログラムを提供するものであり、本実施形態の機密情報管理プログラムは、図4、図5、図7、図11のフローチャートに示した処理内容を持つことになる。   This embodiment further provides a confidential information management program to be executed by a computer. The confidential information management program of this embodiment has the processing contents shown in the flowcharts of FIGS. 4, 5, 7, and 11. Will have.

また本発明は機密情報管理処理プログラムを記録したコンピュータ可読の記録媒体を提供するものであり、この記録媒体はCD−ROM、フロッピィ(R)ディスク、DVDディスク、光磁気ディスク、ICカードなどの可搬型記憶媒体や、コンピュータシステムの内外に備えられたハードディスクなどの記憶装置の他、回線を介してプログラムを保持するデータベース、あるいは他のコンピュータシステム並びにそのデータベース、更には回線上の伝送媒体を含むものである。   The present invention also provides a computer-readable recording medium in which a confidential information management processing program is recorded. This recording medium can be a CD-ROM, floppy (R) disk, DVD disk, magneto-optical disk, IC card, or the like. In addition to portable storage media, storage devices such as hard disks provided inside and outside the computer system, a database for holding programs via a line, other computer systems and their databases, and further transmission media on the line .

また上記の実施形態は、機密情報特徴抽出部及び機密情報判定処理における文字列の切出しに図9の特性関係から設定した一定文字列長nの文字列を切り出す場合を例にとっているが、この文字列の切出しは最適な一定文字列長nに加え、1文字多い(n+1)または1文字少ない(n−1)のそれぞれにつき文字列切出しを行ってハッシュテーブル20を作成し、この場合には機密情報判定処理につき、一定文字列長n,(n+1),(n−1)の順番で機密IDを検索するまで処理を繰り返すことで、更に機密情報の判定精度を高めることができる。   In the above embodiment, the character string having a certain character string length n set from the characteristic relationship of FIG. 9 is extracted as an example of character string extraction in the confidential information feature extraction unit and confidential information determination processing. In addition to the optimum constant character string length n, the hash table 20 is created by cutting out the character string for each of one more character (n + 1) or one less character (n-1). In the information determination process, it is possible to further increase the accuracy of determining the confidential information by repeating the process until the confidential ID is searched in the order of the fixed character string lengths n, (n + 1), and (n−1).

また本発明は、その目的と利点を損なうことのない適宜の変形を含み、上記の実施形態に示した数値による限定は受けない。   The present invention includes appropriate modifications that do not impair the object and advantages thereof, and is not limited by the numerical values shown in the above embodiments.

Claims (20)

コンピュータに、
機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書が機密情報を含むか否か判定する機密情報判定ステップと、
を実行させることを特徴とする機密情報管理プログラム。
On the computer,
Character information extraction that extracts a character string of a fixed character string length as feature information while shifting it from the beginning of a confidential document, assigns a confidential document identifier to each extracted character string, and registers each extracted character string in a hash table as a key Steps,
Whether a character string having the same character string length as the fixed character string length is extracted while shifting one character at a time from the beginning of the determination target document, and each of the extracted character strings is checked against the hash table to determine whether the determination target document includes confidential information. A confidential information determination step for determining whether or not
A confidential information management program characterized in that
請求項1記載の機密情報管理プログラムに於いて、前記特徴情報抽出ステップ及び機密情報判定ステップで文字列を切出すための一定文字列長は、前記特徴情報抽出ステップにより文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定ステップで機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密情報管理プログラム。
2. The confidential information management program according to claim 1, wherein the fixed character string length for extracting the character string in the feature information extraction step and the confidential information determination step is set to character string length by one character in the feature information extraction step. When a confidential document is determined in the confidential information determination step using a hash table created while increasing the confidential document discovery rate with respect to the change in the character string length, and the character string matching rate in the discovered confidential document A confidential information management program characterized by having a character string length matching or near the character string length.
請求項1記載の機密情報管理プログラムに於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを実行させ、
前記特徴情報抽出ステップは機密文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密情報管理プログラム。
The confidential information management program according to claim 1, further comprising: a frequent expression extracting step of extracting a frequent expression from the collected confidential document and general document and registering the frequent expression in a frequent expression table;
The confidential information management program, wherein the characteristic information extraction step extracts a character string having a fixed character string length after removing a frequent expression of the frequent expression table from a confidential document.
請求項3記載の機密情報管理プログラムに於いて、前記特徴情報抽出ステップは、
複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出しステップと、
前記機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、
前記機密部分文書から前記頻出表現テーブルの頻出表現を除去する頻出表現除去ステップと、
前記機密部分文書の先頭から1文字ずつずらしながら一定文字列長の文字列を切り出す文字列切出しステップと、
全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録ステップと、
を備えたことを特徴とする機密情報管理プログラム。
4. The confidential information management program according to claim 3, wherein the feature information extraction step includes:
A partial document extraction step of extracting a confidential partial document having a semantic unit such as a file unit from a plurality of confidential documents;
An identifier giving step for giving a confidential document identifier of a confidential document corresponding to the confidential partial document;
A frequent expression removal step of removing the frequent expression of the frequent expression table from the confidential partial document;
A character string extracting step of extracting a character string of a certain character string length while shifting character by character from the beginning of the confidential partial document;
A table registration step of registering the corresponding confidential document identifier in the hash table using all the extracted character strings as keys;
A confidential information management program characterized by comprising:
請求項1記載の機密情報管理プログラムに於いて、
前記機密情報判定ステップは、
判定対象文書を取得する文書取得ステップと、
前記判定対象文書に文書識別子を付与する識別子付与ステップと、
前記判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長の文字列を切り出しす文字列切出しステップと、
全ての切出し文字列を前記ハッシュテーブルのキーである登録文字列と照合し,照合一致の場合に対応する機密文書識別子を取得するテーブル照合ステップと、
前記テーブル照合ステップから1又は複数の機密文書識別子が取得された場合に前記判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に前記判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、
を備えたことを特徴とする機密情報管理プログラム。
In the confidential information management program according to claim 1,
The confidential information determining step includes:
A document acquisition step for acquiring a determination target document;
An identifier giving step for giving a document identifier to the determination target document;
A character string extracting step of cutting out the character string having the fixed character string length while shifting character by character from the beginning of the determination target document;
A table collation step of collating all the extracted character strings with a registered character string that is a key of the hash table, and obtaining a confidential document identifier corresponding to a collation match;
When one or more confidential document identifiers are acquired from the table collating step, a determination result indicating that the determination target document includes confidential information is output, and when the confidential document identifier is not acquired, the determination target document is output. Is a determination output step for outputting a determination result indicating that confidential information is not included, and
A confidential information management program characterized by comprising:
請求項3記載の機密情報管理プログラムに於いて、前記頻出表現抽出ステップは、
機密文書及び一般文書を収集する文書収集ステップと、
前記収集文書から順次増加する文字列長毎の文字列を切出す文字列切出しステップと、
各文字列長毎に出現頻度を検出する頻度検出ステップと、
各文字列長毎に所定の閾値以上の出現頻度を持つ文字列を頻出表現候補として抽出する候補抽出ステップと、
前記頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、
前記候補除去ステップによる候補除去で残った候補を頻出表現として前記頻出表現テーブルに登録する登録ステップと、
を備えたことを特徴とする機密情報管理プログラム。
4. The confidential information management program according to claim 3, wherein the frequent expression extraction step includes:
A document collection step for collecting confidential and general documents;
A character string cutting step of cutting out character strings for each character string length that sequentially increases from the collected document;
A frequency detection step of detecting the appearance frequency for each character string length;
A candidate extraction step of extracting a character string having an appearance frequency equal to or higher than a predetermined threshold for each character string length as a frequent expression candidate;
A candidate removal step of investigating the inclusion relationship of the frequent expression candidates and removing the included frequent candidate character strings;
A registration step of registering the candidate remaining in the candidate removal in the candidate removal step in the frequent expression table as a frequent expression;
A confidential information management program characterized by comprising:
請求項1記載の機密情報管理プログラムに於いて、前記機密情報判定ステップの判定対象文書は、電子メールの本文と添付文書、ネットワークにより転送する転送ファイル文書、表示デバイスに転送して表示する表示文書、プリンタに転送して印刷する印刷文書、及び情報機器のメモリに保存した文書を含むことを特徴とする機密情報管理プログラム。
2. The confidential information management program according to claim 1, wherein the determination target document of the confidential information determination step is a body and attached document of an e-mail, a transfer file document transferred via a network, and a display document transferred to a display device for display. A confidential information management program comprising: a print document transferred to a printer for printing; and a document stored in a memory of an information device.
請求項1記載の機密情報管理プログラムに於いて、前記機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、前記判定対象文書の処理を禁止させることを特徴とする機密情報管理プログラム。
2. The confidential information management program according to claim 1, wherein the confidential information determination step prohibits processing of the determination target document when it is determined that the determination target document includes confidential information. Management program.
請求項1記載の機密情報管理プログラムに於いて、前記機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、機密文書の処理権限を確認して処理を許可することを特徴とする機密情報管理プログラム。
2. The confidential information management program according to claim 1, wherein in the confidential information determination step, when it is determined that the determination target document includes confidential information, the processing authority of the confidential document is confirmed and the processing is permitted. A confidential information management program.
請求項1記載の機密情報管理プログラムに於いて、前記機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、管理者端末に判定結果を通知して許可応答を受けた場合、前記判定対象文書の処理を許可することを特徴とする機密情報管理プログラム。
2. The confidential information management program according to claim 1, wherein in the confidential information determination step, when it is determined that the determination target document includes confidential information, the determination result is notified to the administrator terminal and a permission response is received. A confidential information management program that permits processing of the determination target document.
機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定ステップと、
を備えたことを特徴とする機密情報管理方法。
Character information extraction that extracts a character string of a fixed character string length as feature information while shifting it from the beginning of a confidential document, assigns a confidential document identifier to each extracted character string, and registers each extracted character string in a hash table as a key Steps,
Whether a character string having the same character string length as the fixed character string length is extracted while shifting one character at a time from the beginning of the determination target document, and each of the extracted character strings is checked against the hash table to determine whether the determination target document or confidential information is included. A confidential information determination step for determining whether or not
A method for managing confidential information, comprising:
請求項11記載の機密情報管理方法に於いて、前記特徴情報抽出ステップ及び機密情報判定ステップで文字列を切出すための一定文字列長を、前記特徴情報抽出ステップにより文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定ステップで機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密情報管理方法。
12. The confidential information management method according to claim 11, wherein a fixed character string length for extracting a character string in the feature information extraction step and the confidential information determination step is set to one character string by the feature information extraction step. When a confidential document is determined in the confidential information determination step using a hash table created while increasing the confidential document discovery rate with respect to the change in the character string length, and the character string matching rate in the discovered confidential document A confidential information management method characterized in that the character string length matches or is near the character string length.
請求項11記載の機密情報管理方法に於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを設け、
前記特徴情報抽出ステップは機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密情報管理方法。
The confidential information management method according to claim 11, further comprising a frequent expression extraction step of extracting a frequent expression from the collected confidential document and general document and registering the frequent expression in a frequent expression table.
The feature information extraction step is characterized in that after a frequent expression in the frequent expression table is removed from a confidential reference document, a character string having a fixed character string length is cut out.
請求項13記載の機密情報管理方法に於いて、前記特徴抽出ステップは、
複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出しステップと、
前記機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、
前記機密部分文書から前記頻出表現テーブルの頻出表現を除去する頻出表現除去ステップと、
前記機密部分文書の先頭から1文字ずつずらしながら前記一定文字列長の文字列を切り出す文字列切出しステップと、
全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録ステップと、
を備えたことを特徴とする機密情報管理方法。
14. The confidential information management method according to claim 13, wherein the feature extraction step includes:
A partial document extraction step of extracting a confidential partial document having a semantic unit such as a file unit from a plurality of confidential documents;
An identifier giving step for giving a confidential document identifier of a confidential document corresponding to the confidential partial document;
A frequent expression removal step of removing the frequent expression of the frequent expression table from the confidential partial document;
A character string cutting step of cutting out the character string having the fixed character string length while shifting character by character from the beginning of the confidential partial document;
A table registration step of registering the corresponding confidential document identifier in the hash table using all the extracted character strings as keys;
A method for managing confidential information, comprising:
請求項11記載の機密情報管理方法に於いて、
前記機密情報判定ステップは、
判定対象文書を取得する文書取得ステップと、
前記判定対象文書に文書識別子を付与する識別子付与ステップと、
前記判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長の文字列を切り出しす文字列切出しステップと、
全ての切出し文字列を前記ハッシュテーブルのキーである登録文字列と照合し、照合一致の場合に対応する機密情報識別子を取得するテーブル照合ステップと、
前記テーブル照合ステップから1又は複数の機密情報識別子が取得された場合に前記判定対象文書は機密情報を含むことを示す判定結果を出力し、機密識別情報画取得されなかった場合に前記判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、
を備えたことを特徴とする機密情報管理方法。
In the confidential information management method according to claim 11,
The confidential information determining step includes:
A document acquisition step for acquiring a determination target document;
An identifier giving step for giving a document identifier to the determination target document;
A character string extracting step of cutting out the character string having the fixed character string length while shifting character by character from the beginning of the determination target document;
A table collation step for collating all cut character strings with a registered character string that is a key of the hash table, and obtaining a confidential information identifier corresponding to a collation match;
When one or more confidential information identifiers are acquired from the table collating step, a determination result indicating that the determination target document includes confidential information is output, and when the confidential identification information image is not acquired, the determination target document is output. Is a determination output step for outputting a determination result indicating that confidential information is not included, and
A method for managing confidential information, comprising:
請求項13記載の機密情報管理方法に於いて、前記頻出表現抽出ステップは、
機密文書及び一般文書を収集する文書収集ステップと、
前記収集文書から順次増加する文字列長毎の文字列を切出す文字列切出しステップと、
各文字列長毎に出現頻度を検出する頻度検出ステップと、
各文字列長毎に所定の閾値以上の出現頻度を持つ文字列を頻出表現候補として抽出する候補抽出ステップと、
前記頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、
前記候補除去ステップによる候補除去で残った候補を頻出表現として前記頻出表現テーブルに登録する登録ステップと、
を備えたことを特徴とする機密情報管理方法。
14. The confidential information management method according to claim 13, wherein the frequent expression extraction step includes:
A document collection step for collecting confidential and general documents;
A character string cutting step of cutting out character strings for each character string length that sequentially increases from the collected document;
A frequency detection step of detecting the appearance frequency for each character string length;
A candidate extraction step of extracting a character string having an appearance frequency equal to or higher than a predetermined threshold for each character string length as a frequent expression candidate;
A candidate removal step of investigating the inclusion relationship of the frequent expression candidates and removing the included frequent candidate character strings;
A registration step of registering the candidate remaining in the candidate removal in the candidate removal step in the frequent expression table as a frequent expression;
A method for managing confidential information, comprising:
請求項11記載の機密情報管理方法に於いて、前記機密情報判定ステップの判定対象文書は、電子メールの本文と添付文書、ネットワークにより転送する転送ファイル文書、表示デバイスに転送して表示する表示文書、プリンタに転送して印刷する印刷文書、及び情報機器のメモリに保存した文書を含むことを特徴とする機密情報管理方法。
12. The confidential information management method according to claim 11, wherein the determination target document of the confidential information determination step is a body and attached document of an e-mail, a transfer file document transferred via a network, and a display document transferred to a display device for display. A confidential information management method comprising: a print document to be transferred to a printer for printing; and a document stored in a memory of an information device.
請求項11記載の機密情報管理方法に於いて、前記機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、前記判定対象文書の処理を禁止させることを特徴とする機密情報管理方法。
12. The confidential information management method according to claim 11, wherein the confidential information determination step prohibits processing of the determination target document when it is determined that the determination target document includes confidential information. Management method.
機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出部と、
判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長の同じ文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書が機密情報を含むか否か判定する機密情報判定部と、
を備えたことを特徴とする機密情報管理装置。
Character information extraction that extracts a character string of a fixed character string length as feature information while shifting it from the beginning of a confidential document, assigns a confidential document identifier to each extracted character string, and registers each extracted character string in a hash table as a key And
Whether or not the determination target document contains confidential information by cutting out character strings of the same character string length of the constant character string length while shifting character by character from the beginning of the determination target document and comparing each cut character string with the hash table A confidential information determination unit for determining whether or not
A confidential information management device comprising:
請求項19記載の機密情報管理装置に於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を設け、
前記特徴情報抽出部は機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密情報管理装置。
The confidential information management device according to claim 19, further comprising a frequent expression extraction unit that extracts frequent expressions from the collected confidential documents and general documents and registers them in the frequent expression table,
The feature information extraction unit extracts a character string having a fixed character string length after removing a frequent expression of the frequent expression table from a confidential reference document.
JP2008504927A 2006-03-10 2006-03-10 Confidential information management program, method and apparatus Expired - Fee Related JP4824750B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/304740 WO2007105273A1 (en) 2006-03-10 2006-03-10 Confidential information managing program, method and device

Publications (2)

Publication Number Publication Date
JPWO2007105273A1 true JPWO2007105273A1 (en) 2009-07-23
JP4824750B2 JP4824750B2 (en) 2011-11-30

Family

ID=38509123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008504927A Expired - Fee Related JP4824750B2 (en) 2006-03-10 2006-03-10 Confidential information management program, method and apparatus

Country Status (2)

Country Link
JP (1) JP4824750B2 (en)
WO (1) WO2007105273A1 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5456425B2 (en) * 2008-10-22 2014-03-26 株式会社日立ソリューションズ Content authorization device
JP5471415B2 (en) * 2009-12-21 2014-04-16 日本電気株式会社 Information leakage prevention system, information leakage prevention method, and information leakage prevention program
JP2011170509A (en) * 2010-02-17 2011-09-01 Nec Corp Device, system, method and program for learning degree of secrecy
JP2011170510A (en) * 2010-02-17 2011-09-01 Nec Corp Device, system, method and program for automatically managing file
EP2893480B1 (en) * 2012-09-07 2017-11-08 Kroll Information Assurance, LLC Snippet matching in file sharing networks
KR101459676B1 (en) * 2013-01-25 2014-11-12 킹스정보통신(주) Apparatus for secreting information security in printed documents using user terminal and method thereof
JP5906229B2 (en) * 2013-11-05 2016-04-20 日本電信電話株式会社 Continuous citation determination apparatus and method
JP6045533B2 (en) * 2014-05-26 2016-12-14 京セラドキュメントソリューションズ株式会社 Document management apparatus and document management program
WO2023132046A1 (en) * 2022-01-07 2023-07-13 富士通株式会社 Determination method, information processing device, and determination program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288366A (en) * 2002-03-28 2003-10-10 Fujitsu Ltd Similar text retrieval device
JP4088167B2 (en) * 2003-02-03 2008-05-21 株式会社東芝 Text classification rule creation device
JP2005043977A (en) * 2003-07-23 2005-02-17 Hitachi Ltd Method and device for calculating degree of similarity between documents

Also Published As

Publication number Publication date
JP4824750B2 (en) 2011-11-30
WO2007105273A1 (en) 2007-09-20

Similar Documents

Publication Publication Date Title
JP4824750B2 (en) Confidential information management program, method and apparatus
US8254698B2 (en) Methods for document-to-template matching for data-leak prevention
US11188657B2 (en) Method and system for managing electronic documents based on sensitivity of information
US9092636B2 (en) Methods and systems for exact data match filtering
US8606795B2 (en) Frequency based keyword extraction method and system using a statistical measure
CN112262388A (en) Protecting Personal Identity Information (PII) using tagging and persistence of PII
JP4995950B2 (en) Forensic system, forensic method, and forensic program
US9852122B2 (en) Method of automated analysis of text documents
WO2004040464B1 (en) A method and system for managing confidential information
JP2006209649A (en) Confidential document retrieval system, confidential document retrieval method and confidential document retrieval program
US20060277169A1 (en) Using the quantity of electronically readable text to generate a derivative attribute for an electronic file
US8365247B1 (en) Identifying whether electronic data under test includes particular information from a database
US20120254166A1 (en) Signature Detection in E-Mails
US20240095289A1 (en) Data enrichment systems and methods for abbreviated domain name classification
JP2012182737A (en) Secret data leakage preventing system, determining apparatus, secret data leakage preventing method and program
CN109918638B (en) Network data monitoring method
JP3918023B2 (en) Personal information management system
US20090287654A1 (en) Device for identifying electronic file based on assigned identifier
CN116055067A (en) Weak password detection method, device, electronic equipment and medium
JP4082520B2 (en) Personal information search program
US20130246455A1 (en) Document management apparatus, non-transitory computer readable medium, and document management method
US20060277177A1 (en) Identifying electronic files in accordance with a derivative attribute based upon a predetermined relevance criterion
JP5062134B2 (en) Information diffusion system, information diffusion apparatus, information diffusion method, and information diffusion program
CN113297617A (en) Authority data acquisition method and device, computer equipment and storage medium
JP2004206468A (en) Document management system and document management program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees