JP5398077B2 - Importance determination method, storage system, and program for data stored in storage device - Google Patents
Importance determination method, storage system, and program for data stored in storage device Download PDFInfo
- Publication number
- JP5398077B2 JP5398077B2 JP2010026445A JP2010026445A JP5398077B2 JP 5398077 B2 JP5398077 B2 JP 5398077B2 JP 2010026445 A JP2010026445 A JP 2010026445A JP 2010026445 A JP2010026445 A JP 2010026445A JP 5398077 B2 JP5398077 B2 JP 5398077B2
- Authority
- JP
- Japan
- Prior art keywords
- file data
- importance
- value
- database
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ストレージ装置に保存されたファイルデータの重要性を予め設定された条件に従って判定する方法及び判定結果に基づいて重要度の高いデータの複製を更新及び消去が不可能なストレージ装置に保存する方法及びシステム並びにプログラム関するものである。 The present invention relates to a method for determining the importance of file data stored in a storage device according to preset conditions, and a copy of highly important data is stored in a storage device that cannot be updated or deleted based on the determination result. The present invention relates to a method, a system, and a program.
利用できるストレージ装置の大容量化と低コスト化に伴って、企業は多くの情報を電子化してストレージ装置に蓄積している。
最近、企業内にあるストレージ装置に保存されているファイルデータに対して検索処理を行い、有効利用するためのエンタープライズサーチシステムが普及しつつある。
また、企業で使用されるストレージシステムの中には、ファイルデータを参照はできるが改変および削除操作をできないようするWORM(Write Once Read Many、更新禁止)機能を持つものがある。
さらに、複数の利用者が同一の電子文書に対して、同時に参照・編集を行うことができるWikiと呼ばれるハイパーテキストを扱うWebアプリケーションがファイルデータの整理・収集に利用されている。
With the increase in capacity and cost of storage devices that can be used, companies are digitizing and storing a large amount of information in the storage devices.
Recently, an enterprise search system for performing a search process on file data stored in a storage device in a company and using it effectively is becoming widespread.
In addition, some storage systems used in enterprises have a WORM (Write Once Read Many) function that allows file data to be referenced but cannot be altered or deleted.
Furthermore, a web application that handles hypertext called Wiki, which allows multiple users to view and edit the same electronic document at the same time, is used to organize and collect file data.
図9は、エンタープライズサーチシステムの概要を示すブロック構成図であり、ストレージ装置90にあるキーワードを取り出して検索インデックスの構成を行うインデックス作成部91、インデックスデータを格納するインデックスデータベース92、ユーザからの検索要求の入力を受け付ける検索要求入力部93、検索要求からインデックスデータベース92を参照して検索結果を作成する検索処理部94、検索結果を表示する検索結果表示部95とから構成されている。
FIG. 9 is a block configuration diagram showing an overview of the enterprise search system. An
このような構成のエンタープライズサーチシステムにおいては、インデックス作成部91はストレージ装置90に登録されている情報を取得し、取得した情報に含まれるキーワードと取得元の情報の場所をインデックスデータベース92に登録する。
一方、検索要求入力部93から入力された検索要求は、検索処理部94においてインデックスデータベース92を参照して処理され、検索結果表示部95で検索結果を表示させる。この時、表示する検索結果には検索要求に合致する情報の名称と保存されている場所が含まれる。
なお、本発明に関連する公知技術文献としては下記の特許文献1がある。
In the enterprise search system having such a configuration, the
On the other hand, the search request input from the search
In addition, there exists the following patent document 1 as a well-known technical document relevant to this invention.
ところで、e-Discovery関連法案の整備により、企業においては業務文書等のデータの長期保存を義務付ける法規制が強化されている。
WORM機能を持つストレージ装置を利用すれば、消去及び更新が不可能であるので長期にわたって重要なデータを消去または更新することなく保存することができる。しかし、データをそのまま保存した場合、ストレージ装置の記憶容量が膨大なものとなってしまう。
従って、重要度の高いデータのみについてその複製をWORM機能を持つストレージ装置に保存するのが望ましい。
しかしながら、従来においては、ストレージ装置に保存されたデータの重要性を如何にして判定するかについて適切な方法が存在しない。
By the way, due to the development of bills related to e-Discovery, laws and regulations that require long-term storage of data such as business documents are strengthened in companies.
If a storage device having a WORM function is used, erasure and update are impossible, so that important data can be stored for a long time without being erased or updated. However, if the data is stored as it is, the storage capacity of the storage device becomes enormous.
Therefore, it is desirable to store a copy of only highly important data in a storage apparatus having the WORM function.
However, conventionally, there is no appropriate method for determining the importance of data stored in the storage apparatus.
本発明の目的は、ストレージ装置に保存されたデータの重要性を適切に判定する方法および判定結果に基づいて重要データであった場合にはその複製をWORM機能を持つストレージ装置に保存し、原本が失われたり改変されたりした場合であっても、元の内容を取得することができるシステム並びにプログラムを提供することにある。 An object of the present invention is to appropriately determine the importance of data stored in a storage device and to store a copy of the data in a storage device having a WORM function if it is important data based on the determination result. It is an object to provide a system and program capable of acquiring the original contents even when the contents are lost or modified.
上記目的を達成するために、本発明の方法は、ストレージ装置に保存されたデータの重要性を判定するコンピュータにおいて、ストレージ装置に保存された検索対象ファイルデータのキーワードが既登録のものであるか否かをハッシュ値によって判定し、未登録のものであれば当該ファイルデータに含まれるキーワードを取得すると共にハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録し、既登録のものであり、更新されたファイルデータであれば当該ファイルデータに含まれるキーワードとハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録するステップと、
前記ストレージ装置に保存されるファイルデータの重要度を判定する値と重要文書であることを判定するキーワードとを予め条件データベースに登録するステップと、
前記ファイルデータの保存先への参照情報を含むハイパーテキスト文書をハイパーテキストデータベースに記憶し、記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を、参照されたファイルデータごとに更新し、前記インデックスデータベースの当該ファイルデータの重要度を示す値として記憶させるステップと、
前記インデックスデータベースに記憶されたファイルデータ毎の重要度を示す値と前記条件データベースに登録された各ファイルデータの重要度を判定する値とを比較し、ファイルデータ毎の重要度を示す値が大きく、かつ当該ファイルデータに含まれるキーワードを前記インデックスデータベースから取得し、前記条件データベースに登録されたキーワードが含まれていた場合には、当該ファイルデータが重要度の高い重要文書データであるものとして前記ストレージ装置に保存されたファイルデータの複製を更新及び消去が不可能なストレージ装置に保存するステップとを備えることを特徴とする。
また、前記ハイパーテキストデータベースに記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を参照されたファイルデータごとに更新する場合に、削除されたハイパーリンクが存在する場合、当該ファイルデータへの参照数の値を減算し、追加されたハイパーリンクが存在する場合、当該ファイルデータへの参照数の値を加算するステップを備えることを特徴とする。
In order to achieve the above object, according to the method of the present invention, in a computer for determining the importance of data stored in a storage device, whether the keyword of search target file data stored in the storage device is already registered. If it is unregistered, the keyword included in the file data is acquired, the hash value is acquired, and the value indicating the importance of the file is initialized and registered in the index database. If it is already registered and updated file data, a keyword and a hash value included in the file data are acquired and a value indicating the importance of the file is initialized and registered in the index database;
Registering a value for determining the importance of the file data stored in the storage device and a keyword for determining the importance document in the condition database in advance;
A hypertext document including reference information to the file data storage destination is stored in a hypertext database, and the value of the number of references to the file data included in the stored hypertext document is updated for each referenced file data. And storing as a value indicating the importance of the file data of the index database;
The value indicating the importance for each file data stored in the index database is compared with the value for determining the importance of each file data registered in the condition database, and the value indicating the importance for each file data is large. When the keyword included in the file data is acquired from the index database and the keyword registered in the condition database is included, the file data is assumed to be important document data with high importance. Storing a copy of the file data stored in the storage device in a storage device that cannot be updated or deleted.
In addition, when the value of the number of references to the file data included in the hypertext document stored in the hypertext database is updated for each referenced file data, if the deleted hyperlink exists, the file data The step of subtracting the value of the number of references to the file and adding the value of the number of references to the file data when an added hyperlink exists is provided.
また、本発明に係るシステムは、ストレージ装置に保存された検索対象のファイルデータのキーワードが既登録のものであるか否かをハッシュ値によって判定し、未登録のものであれば当該ファイルデータに含まれるキーワードを取得すると共にハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録し、既登録のものであり、更新されたファイルデータであれば当該ファイルデータに含まれるキーワードとハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録する手段と、
前記ストレージ装置に保存されるファイルデータの重要度を判定する値と重要文書であることを判定するキーワードとを予め条件データベースに登録する手段と、
前記ファイルデータの保存先への参照情報を含むハイパーテキスト文書をハイパーテキストデータベースに記憶し、記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を、参照されたファイルデータごとに更新し、前記インデックスデータベースの当該ファイルデータの重要度を示す値として記憶させる手段と、
前記インデックスデータベースに記憶されたファイルデータ毎の重要度を示す値と前記条件データベースに登録された各ファイルデータの重要度を判定する値とを比較し、ファイルデータ毎の重要度を示す値が大きく、かつ当該ファイルデータに含まれるキーワードを前記インデックスデータベースから取得し、前記条件データベースに登録されたキーワードが含まれていた場合には、当該ファイルデータが重要度の高い重要文書データであるものとして前記ストレージ装置に保存されたファイルデータの複製を更新及び消去が不可能なストレージ装置に保存する手段とを備えることを特徴とする。
また、前記ハイパーテキストデータベースに記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を参照されたファイルデータごとに更新する場合に、削除されたハイパーリンクが存在する場合、当該ファイルデータへの参照数の値を減算し、追加されたハイパーリンクが存在する場合、当該ファイルデータへの参照数の値を加算する手段を備えることを特徴とする。
Further, the system according to the present invention determines whether or not the keyword of the search target file data stored in the storage device is an already registered keyword, and if it is unregistered, the file data is stored in the file data. Acquires the included keyword and also obtains the hash value, initializes the value indicating the importance of the file, registers it in the index database, and is already registered. Means for acquiring the included keyword and hash value, initializing a value indicating the importance of the file, and registering it in the index database;
Means for preliminarily registering in the condition database a value for determining the importance of the file data stored in the storage device and a keyword for determining that the file is an important document;
A hypertext document including reference information to the file data storage destination is stored in a hypertext database, and the value of the number of references to the file data included in the stored hypertext document is updated for each referenced file data. And means for storing the value indicating the importance of the file data of the index database;
The value indicating the importance for each file data stored in the index database is compared with the value for determining the importance of each file data registered in the condition database, and the value indicating the importance for each file data is large. When the keyword included in the file data is acquired from the index database and the keyword registered in the condition database is included, the file data is assumed to be important document data with high importance. Means for storing a copy of the file data stored in the storage device in a storage device that cannot be updated or deleted.
In addition, when the value of the number of references to the file data included in the hypertext document stored in the hypertext database is updated for each referenced file data, if the deleted hyperlink exists, the file data A means for subtracting the value of the number of references to the file and adding a value of the number of references to the file data when an added hyperlink exists is provided.
また本発明に係るプログラムは、ストレージ装置に保存されたデータの重要性を判定するコンピュータを、ストレージ装置に保存された検索対象ファイルデータのキーワードが既登録のものであるか否かをハッシュ値によって判定し、未登録のものであれば当該ファイルデータに含まれるキーワードを取得すると共にハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録し、既登録のものであり、更新されたファイルデータであれば当該ファイルデータに含まれるキーワードとハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録する手段と、
前記ストレージ装置に保存されるファイルデータの重要度を判定する値と重要文書であることを判定するキーワードとを予め条件データベースに登録する手段と、
前記ファイルデータの保存先への参照情報を含むハイパーテキスト文書をハイパーテキストデータベースに記憶し、記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を、参照されたファイルデータごとに更新し、前記インデックスデータベースの当該ファイルデータの重要度を示す値として記憶させる手段と、
前記インデックスデータベースに記憶されたファイルデータ毎の重要度を示す値と前記条件データベースに登録された各ファイルデータの重要度を判定する値とを比較し、ファイルデータ毎の重要度を示す値が大きく、かつ当該ファイルデータに含まれるキーワードを前記インデックスデータベースから取得し、前記条件データベースに登録されたキーワードが含まれていた場合には、当該ファイルデータが重要度の高い重要文書データであるものとして前記ストレージ装置に保存されたファイルデータの複製を更新及び消去が不可能なストレージ装置に保存する手段として機能させることを特徴とする。
また、前記ハイパーテキストデータベースに記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を参照されたファイルデータごとに更新する場合に、削除されたハイパーリンクが存在する場合、当該ファイルデータへの参照数の値を減算し、追加されたハイパーリンクが存在する場合、当該ファイルデータへの参照数の値を加算する手段を備えることを特徴とする。
Further, the program according to the present invention allows a computer that determines the importance of data stored in the storage device to determine whether or not the keyword of the search target file data stored in the storage device is a registered one by using a hash value. If it is unregistered, the keyword included in the file data is acquired and the hash value is acquired, and the value indicating the importance of the file is initialized and registered in the index database. Yes, if it is updated file data, a keyword and a hash value included in the file data are acquired, and a value indicating the importance of the file is initialized and registered in the index database;
Means for preliminarily registering in the condition database a value for determining the importance of the file data stored in the storage device and a keyword for determining that the file is an important document;
A hypertext document including reference information to the file data storage destination is stored in a hypertext database, and the value of the number of references to the file data included in the stored hypertext document is updated for each referenced file data. And means for storing the value indicating the importance of the file data of the index database;
The value indicating the importance for each file data stored in the index database is compared with the value for determining the importance of each file data registered in the condition database, and the value indicating the importance for each file data is large. When the keyword included in the file data is acquired from the index database and the keyword registered in the condition database is included, the file data is assumed to be important document data with high importance. It is characterized by functioning as a means for storing a copy of file data stored in a storage device in a storage device that cannot be updated or deleted.
In addition, when the value of the number of references to the file data included in the hypertext document stored in the hypertext database is updated for each referenced file data, if the deleted hyperlink exists, the file data A means for subtracting the value of the number of references to the file and adding a value of the number of references to the file data when an added hyperlink exists is provided.
本発明によれば、ファイルデータの重要度をそのファイルデータに張られているリンク数によって判定し、設定条件で指定したリンク数より高いものはその複製を消去及び更新が不可能なストレージ装置に移動した保存するようにしたので、原本が失われたり改変されたりした場合であっても、元の内容を取得することができる。 According to the present invention, the degree of importance of file data is determined by the number of links attached to the file data. Since it was moved and saved, the original contents can be acquired even if the original is lost or altered.
以下、本発明を適用した保管システムの一実施の形態について説明する。
図1は、本発明の実施の形態の一例を示すシステム構成図である。
本システムは、ネットワーク1に、ホストシステム2と、ストレージ装置装置3と、WORM(Write Once Read Many)機能を持つストレージ装置装置4と、端末5が接続されることで構成されている。
Hereinafter, an embodiment of a storage system to which the present invention is applied will be described.
FIG. 1 is a system configuration diagram showing an example of an embodiment of the present invention.
This system is configured by connecting a
ホストシステム2と端末5は、ネットワーク1を通じてストレージ装置3とWORM機能を持つストレージ装置装置4に対しファイルデータの保存と参照を行うことができる。
ホストシステム2は検索プログラム6と、ハイパーテキスト管理プログラム7と、データ複製プログラム8と、インデックスデータベース9と、ハイパーテキストデータベース10と、条件データベース11を備えている。
端末5はブラウザー12を備えている。
The
The
The
ハイパーテキストとしてHTML文書を利用する場合、ホストシステム2はWebサーバーに相当し、ハイパーテキスト管理プログラム7とハイパーテキストデータベース10はWikiソフトウェアに、ブラウザー12はWebブラウザーに相当する。
ブラウザー12はホストシステム2を通じて検索プログラム6と、ハイパーテキスト管理プログラム7と、データ複製プログラム8を利用することができる。
When an HTML document is used as hypertext, the
The
インデックスデータベース9に格納されるファイルデータのインデックス情報は、図2に示すように、保存先21、ハッシュ値22、キーワード23、重要度24の各エリアデータから構成される。
保存先21は、特定のファイルデータがどのファイルサーバのどの位置に保存されているのか示しており、ファイルデータの識別子となる。
ハッシュ値22はファイルデータをハッシュ関数に通して得た値で、ファイルデータの内容が変更されたかどうか確認するのに使用する。
キーワード23はファイルデータの内容をスペースや記号、形態素で分解した単語の一覧となる。
重要度24はハイパーテキスト管理プログラム7が判定したファイルデータの重要度を表す値が代入される。
As shown in FIG. 2, the index information of the file data stored in the
The
The
The
As the
ハイパーテキストデータベース10に格納されるファイルデータへのハイパーリンクを含む文書は、図3に示すように、データのタイトル31とハイパーリンクを複数含むことができる本文32から構成される。
本文32に含まれるハイパーリンクは、ストレージ装置3とWORM機能を持つストレージ装置4に保存されるファイルデータを参照するものであり、インターネットのWebページに対するハイパーリンクとは区別される。
タイトル31は、ハイパーテキストデータベース10に保存される文書の識別子となる。本文32には複数のハイパーリンクや文章等を挿入することができる。例えば、図3の本文32にある「契約書A」という文字列は、ストレージ装置3に保存されている同名のファイルデータへのハイパーリンクとなっている。
As shown in FIG. 3, a document including hyperlinks to file data stored in the
The hyperlink included in the
The
ストレージ装置3からWORM機能を持つストレージ装置装置4へ移動するファイルデータの条件には、図4に示すように重要度41、キーワード42を指定することができる。図3に示す重要度41、キーワード42は条件データベース11に格納される。
重要度41にはファイルデータの重要度を判定する単一の値を登録でき、インデックスデータベース9の重要度24と比較するのに利用される。
キーワード42には重要文書であることを判定する複数のキーワードを登録することができ、データ複製プログラム8は登録されたそれぞれのキーワードがインデックスデータベース8のキーワード22に含まれるかどうか確認するのに使用する。
As the condition of the file data to be moved from the
A single value for determining the importance of the file data can be registered in the
A plurality of keywords for determining that the document is an important document can be registered in the
図5は、検索プログラム6における、インデックスデータベース9に登録されるインデックス情報の初期化処理の概要を示すフローチャートである。
最初に、インデックス情報の元となるファイルデータをストレージ装置3とWORM機能を持つストレージ装置4から取得する(ステップ501)。
次に、取得したファイルデータにハッシュ関数を適用し、そのハッシュ値を取得する(ステップ502)。
FIG. 5 is a flowchart showing an overview of the initialization process of the index information registered in the
First, file data that is the source of index information is acquired from the
Next, a hash function is applied to the acquired file data to acquire the hash value (step 502).
次に、取得したファイルデータの情報がインデックスデータベース9に登録されているかどうか判定する(ステップ503)。
もし、取得したファイルデータがインデックスデータベース9に登録されていない場合は、重要度24に初期値として「0」を登録する(ステップ505)。
Next, it is determined whether or not the acquired file data information is registered in the index database 9 (step 503).
If the acquired file data is not registered in the
しかし、取り出したファイルデータの情報がインデックスデータベース9に既に登録されている場合は、取り出したファイルデータとインデックスデータベース9に登録されているハッシュ値22とを比較し、前回のインデックス情報の初期化を行った時点からファイルデータの内容が更新されていないかどうか判定する(ステップ504)。
However, when the information of the extracted file data is already registered in the
もし、取り出したファイルデータのハッシュ値がインデックスデータベース9に登録されているハッシュ値と一致しない場合は、ファイルデータが更新されていることになるので、当該ファイルデータに含まれているキーワードを取得し、インデックスデータベース9へ新しい情報(キーワードとハッシュ値)を登録する(ステップ506、507)。また、重要度24も初期化する。
If the hash value of the extracted file data does not match the hash value registered in the
検索プログラム6は、以上の処理をストレージ装置装置3とWORM機能を持つストレージ装置4に保存されている全てのファイルデータに対し、定期的に繰り返して実行する。
ハイパーリンクを含む文書は複製するファイルデータを選択するための情報の取得先であり、その内容にはユーザが検索して見つけ出したファイルデータの中から特に重要と判断されたものに対するハイパーリンクが含まれている。
The
A document containing a hyperlink is a source of information for selecting the file data to be copied, and its contents include a hyperlink for the file data that is determined to be particularly important from the file data searched and found by the user It is.
図6は、ハイパーテキスト管理プログラム7における、ユーザが指定したファイルデータへのハイパーリンクを含む文書の保存処理の概要を示すフローチャートである。
ユーザがブラウザー10に入力したキーワードによるファイルデータの検索をホストシステム2に要求すると、ホストシステム2からブラウザーに、入力されたキーワードを含むファイルデータへのハイパーリンクの一覧を含むデータが送信される。
ユーザはホストシテム2から受け取ったハイパーリンクの一覧のうち必要なハイパーリンクを選び、そのタイトルとハイパーリンクの一覧をホストシステム2に送信する。すると、そのハイパーリンクを含むデータはハイパーテキストデータベース10に保存される。
FIG. 6 is a flowchart showing an outline of processing for storing a document including a hyperlink to file data designated by the user in the
When the user requests the
The user selects a necessary hyperlink from the list of hyperlinks received from the
この時、ハイパーテキスト管理プログラム7はホストシステム2からハイパーリンクを含む文書を受け取り、ハイパーリンクが指し示すファイルデータの保存先の一覧を取得する(ステップ601)。
At this time, the
次に、ハイパーリンクを含む文書のタイトルをハイパーテキストデータベース10のタイトル31から探し、ハイパーリンクを含む文書がすでに登録されているものかどうか判定する(ステップ602)。すなわち、既に存在するタイトルであるか否かを判定する。
もし、登録されていない場合は、ハイパーリンクを含む文書のデータを新規に作成して、最初に取得したファイルデータの保存先の一覧からインデックスデータベース9を参照して、それぞれのファイルデータの重要度24に「1」を加算してから、受け取ったハイパーリンクを含む文書のタイトルと本文をハイパーテキストデータベース10に登録する(ステップ603、604)。
Next, the title of the document including the hyperlink is searched from the
If it is not registered, the document data including the hyperlink is newly created, the
もし、ハイパーリンクを含む文書のタイトルがハイパーテキストデータベース10に登録されている場合は、すなわち既に存在するタイトルであった場合には、すでに登録されている文書と受け取ったハイパーリンクを含む文書の間で差分を取得し、受け取った文書において削除されたハイパーリンクと追加されたハイパーリンクが存在するかどうか判定する(ステップ605、606、607)。
If the title of the document including the hyperlink is registered in the
受け取った文書に、削除されたハイパーリンクが存在する場合は、全ての削除されたハイパーリンクが指し示すファイルデータの保存先から、インデックスデータベース9を参照し、その重要度24を減算する(ステップ608)。
逆に、追加されたハイパーリンクが存在する場合は、全ての追加されたハイパーリンクが指し示すファイルデータの保存先から、インデックスデータベース9を参照し、その重要度24を加算する(ステップ603)。
If there is a deleted hyperlink in the received document, the
Conversely, if there is an added hyperlink, the
すでに存在するタイトルの、受け取ったハイパーリンクを含む文書を、ハイパーテキストデータベース10で上書き保存することでハイパーリンクを含む文書の保存処理は終了する。
なお、ハイパーリンクを含む文書を削除する場合は、対象のタイトル31の本文32を空にしたデータを保存する。
The document containing the hyperlink is overwritten and saved in the
When deleting a document including a hyperlink, data in which the
図7は、ファイルデータ複製プログラム8における、ストレージ装置3からWORM機能を持つストレージ装置4へファイルデータを移動する処理の概要を示すフローチャートである。
最初に、条件データベース8から、移動処理を行うファイルデータの条件となる、重要度41とキーワード42を取得する。(ステップ701)
FIG. 7 is a flowchart showing an outline of processing for moving file data from the
First, an
次に、移動処理対象のファイルデータの保存先21とハッシュ値22とキーワード23と重要度24をインデックスデータベース9から取得する(ステップ702)。
次に、移動処理対象のファイルデータがストレージ装置3に格納されているファイルデータかどうか保存先21によって判定する(ステップ703)。
Next, the
Next, it is determined by the
さらに、同じファイルデータがすでにWORM機能を持つストレージ装置4に存在するかどうか判定する(ステップ704)。もし、WORM機能を持つストレージ装置4にファイルデータが保存されている場合は、データ移動を行う必要が無いため、次のファイルデータの処理に移る。
Further, it is determined whether or not the same file data already exists in the
次に、条件データベース11に設定された重要度41とインデックスデータベース9に保存された重要度24とを比較し、重要度24の値がより大きければ、条件データベース11のキーワード42の中にインデックスデータベース9のキーワード23の単語が含まれていないか確認する(ステップ705、706)。
Next, the
もし、含まれている場合は、保存先21のファイルデータを読み込み、WORM機能を持つストレージ装置4に読み込んだファイルデータを保存する(ステップ707)。
データ複製プログラム8は、以上の処理をインデックスデータベース9の保存先21に登録されているすべてのファイルデータに対して定期的に実行する。
If it is included, the file data of the
The
図8は、データ複製プログラム8による、条件データベース11の初期化処理の概要を示すフローチャートである。
データ複製プログラム8は、ブラウザー12に重要度の値と複製を作成するファイルデータに含まれるキーワードの入力を求める画面を表示する。(ステップ801)
データ複製プログラム8は、ブラウザー12から送信されたユーザの入力内容を受信し、条件データベース11に重要度41とキーワード42を登録する(ステップ802、803、804)。これによって、条件データベース11の初期化処理が終了する。
FIG. 8 is a flowchart showing an overview of the initialization process of the
The
The
1 ネットワーク
2 ホストシステム
3 ストレージ装置
4 WORM機能を持つストレージ装置
5 端末
6 検索プログラム
7 ハイパーテキスト管理プログラム
8 データ複製プログラム
9 インデックスデータベース
10 ハイパーテキストデータベース
11 条件データベース
12 ブラウザー
21 保存先
22 ハッシュ値
23 キーワード
24 重要度
31 タイトル
32 本文
41 重要度
42 キーワード
DESCRIPTION OF SYMBOLS 1
Claims (6)
ストレージ装置に保存された検索対象のファイルデータのキーワードが既登録のものであるか否かをハッシュ値によって判定し、未登録のものであれば当該ファイルデータに含まれるキーワードを取得すると共にハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録し、既登録のものであり、更新されたファイルデータであれば当該ファイルデータに含まれるキーワードとハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録するステップと、
前記ストレージ装置に保存されるファイルデータの重要度を判定する値と重要文書であることを判定するキーワードとを予め条件データベースに登録するステップと、
前記ファイルデータの保存先への参照情報を含むハイパーテキスト文書をハイパーテキストデータベースに記憶し、記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を、参照されたファイルデータごとに更新し、前記インデックスデータベースの当該ファイルデータの重要度を示す値として記憶させるステップと、
前記インデックスデータベースに記憶されたファイルデータ毎の重要度を示す値と前記条件データベースに登録された各ファイルデータの重要度を判定する値とを比較し、ファイルデータ毎の重要度を示す値が大きく、かつ当該ファイルデータに含まれるキーワードを前記インデックスデータベースから取得し、前記条件データベースに登録されたキーワードが含まれていた場合には、当該ファイルデータが重要度の高い重要文書データであるものとして前記ストレージ装置に保存されたファイルデータの複製を更新及び消去が不可能なストレージ装置に保存するステップとを備えることを特徴とするストレージ装置に保存されたデータの重要性判定方法。 In a computer for determining the importance of data stored in a storage device,
It is determined whether or not the keyword of the file data to be searched stored in the storage device is already registered, and if it is unregistered, the keyword included in the file data is acquired and the hash value is acquired. , The value indicating the importance of the file is initialized and registered in the index database. If it is already registered and updated file data, the keyword and hash value included in the file data are acquired. And initializing a value indicating the importance of the file and registering it in the index database;
Registering a value for determining the importance of the file data stored in the storage device and a keyword for determining the importance document in the condition database in advance;
A hypertext document including reference information to the file data storage destination is stored in a hypertext database, and the value of the number of references to the file data included in the stored hypertext document is updated for each referenced file data. And storing as a value indicating the importance of the file data of the index database;
The value indicating the importance for each file data stored in the index database is compared with the value for determining the importance of each file data registered in the condition database, and the value indicating the importance for each file data is large. When the keyword included in the file data is acquired from the index database and the keyword registered in the condition database is included, the file data is assumed to be important document data with high importance. And a step of storing a copy of the file data stored in the storage device in a storage device that cannot be updated or deleted.
前記コンピュータが、前記ストレージ装置に保存されたファイルデータのキーワードが既登録のものであるか否かをハッシュ値によって判定し、未登録のものであれば当該ファイルデータに含まれるキーワードを取得すると共にハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録し、既登録のものであり、更新されたファイルデータであれば当該ファイルデータに含まれるキーワードとハッシュ値を取得し、すると共にハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録する手段と、
前記ストレージ装置に保存されるファイルデータの重要度を判定する値と重要文書であることを判定するキーワードとを予め条件データベースに登録する手段と、
前記ファイルデータの保存先への参照情報を含むハイパーテキスト文書をハイパーテキストデータベースに記憶し、記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を、参照されたファイルデータごとに更新し、前記インデックスデータベースの当該ファイルデータの重要度を示す値として記憶させる手段と、
前記インデックスデータベースに記憶されたファイルデータ毎の重要度を示す値と前記条件データベースに登録された各ファイルデータの重要度を判定する値とを比較し、ファイルデータ毎の重要度を示す値が大きく、かつ当該ファイルデータに含まれるキーワードを前記インデックスデータベースから取得し、前記条件データベースに登録されたキーワードが含まれていた場合には、当該ファイルデータが重要度の高い重要文書データであるものとして前記ストレージ装置に保存されたファイルデータの複製を更新及び消去が不可能なストレージ装置に保存する手段とを備えることを特徴とする保管システム。 A storage system comprising a computer for storing file data in a storage device,
The computer determines whether or not the keyword of the file data stored in the storage device is a registered one by using a hash value, and if it is unregistered, acquires the keyword included in the file data. After acquiring the hash value, initialize the value indicating the importance of the file and register it in the index database. If it is already registered and updated file data, the keyword and hash value included in the file data are Means for acquiring and hash value and initializing a value indicating the importance of the file and registering it in the index database;
Means for preliminarily registering in the condition database a value for determining the importance of the file data stored in the storage device and a keyword for determining that the file is an important document;
A hypertext document including reference information to the file data storage destination is stored in a hypertext database, and the value of the number of references to the file data included in the stored hypertext document is updated for each referenced file data. And means for storing the value indicating the importance of the file data of the index database;
The value indicating the importance for each file data stored in the index database is compared with the value for determining the importance of each file data registered in the condition database, and the value indicating the importance for each file data is large. When the keyword included in the file data is acquired from the index database and the keyword registered in the condition database is included, the file data is assumed to be important document data with high importance. storage system, characterized in that it comprises a means for storing a copy of the file data stored in the storage device to update and erasing impossible storage device.
前記ストレージ装置に保存された検索対象のファイルデータのキーワードが既登録のものであるか否かをハッシュ値によって判定し、未登録のものであれば当該ファイルデータに含まれるキーワードを取得すると共にハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録し、既登録のものであり、更新されたファイルデータであれば当該ファイルデータに含まれるキーワードとハッシュ値を取得し、すると共にハッシュ値を取得したうえ当該ファイルの重要度を示す値を初期化してインデックスデータベースに登録する手段と、
前記ストレージ装置に保存されるファイルデータの重要度を判定する値と重要文書であることを判定するキーワードとを予め条件データベースに登録する手段と、
前記ファイルデータの保存先への参照情報を含むハイパーテキスト文書をハイパーテキストデータベースに記憶し、記憶されたハイパーテキスト文書に含まれるファイルデータへの参照数の値を、参照されたファイルデータごとに更新し、前記インデックスデータベースの当該ファイルデータの重要度を示す値として記憶させる手段と、
前記インデックスデータベースに記憶されたファイルデータ毎の重要度を示す値と前記条件データベースに登録された各ファイルデータの重要度を判定する値とを比較し、ファイルデータ毎の重要度を示す値が大きく、かつ当該ファイルデータに含まれるキーワードを前記インデックスデータベースから取得し、前記条件データベースに登録されたキーワードが含まれていた場合には、当該ファイルデータが重要度の高い重要文書データであるものとして前記ストレージ装置に保存されたファイルデータの複製を更新及び消去が不可能なストレージ装置に保存する手段として機能させることを特徴とするプログラム。 A computer that determines the importance of data stored in the storage device,
Hash with keywords of the search target file data stored in the storage device determines whether or not the registered by the hash value, obtains the keywords contained in the file data as long as unregistered After obtaining the value, initialize the value indicating the importance of the file and register it in the index database. If it is already registered and updated file data, the keyword and hash value included in the file data are obtained. And means for obtaining a hash value and initializing a value indicating the importance of the file and registering it in the index database;
Means for preliminarily registering in the condition database a value for determining the importance of the file data stored in the storage device and a keyword for determining that the file is an important document;
A hypertext document including reference information to the file data storage destination is stored in a hypertext database, and the value of the number of references to the file data included in the stored hypertext document is updated for each referenced file data. And means for storing the value indicating the importance of the file data of the index database;
The value indicating the importance for each file data stored in the index database is compared with the value for determining the importance of each file data registered in the condition database, and the value indicating the importance for each file data is large. When the keyword included in the file data is acquired from the index database and the keyword registered in the condition database is included, the file data is assumed to be important document data with high importance. A program that causes a copy of file data stored in a storage device to function as means for storing in a storage device that cannot be updated or deleted.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010026445A JP5398077B2 (en) | 2010-02-09 | 2010-02-09 | Importance determination method, storage system, and program for data stored in storage device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010026445A JP5398077B2 (en) | 2010-02-09 | 2010-02-09 | Importance determination method, storage system, and program for data stored in storage device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011164891A JP2011164891A (en) | 2011-08-25 |
JP5398077B2 true JP5398077B2 (en) | 2014-01-29 |
Family
ID=44595504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010026445A Expired - Fee Related JP5398077B2 (en) | 2010-02-09 | 2010-02-09 | Importance determination method, storage system, and program for data stored in storage device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5398077B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111258966A (en) * | 2020-01-14 | 2020-06-09 | 软通动力信息技术有限公司 | Data deduplication method, device, equipment and storage medium |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001027960A (en) * | 1999-07-15 | 2001-01-30 | Ricoh Co Ltd | Document managing system and document managing method |
JP2001290843A (en) * | 2000-02-04 | 2001-10-19 | Fujitsu Ltd | Device and method for document retrieval, document retrieving program, and recording medium having the same program recorded |
US7155460B2 (en) * | 2003-03-18 | 2006-12-26 | Network Appliance, Inc. | Write-once-read-many storage system and method for implementing the same |
JP4367643B2 (en) * | 2005-03-16 | 2009-11-18 | 日本電気株式会社 | Data storage system, data storage method, and data storage program |
-
2010
- 2010-02-09 JP JP2010026445A patent/JP5398077B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011164891A (en) | 2011-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lawson | Web scraping with Python | |
JP6040293B2 (en) | Web page content annotation | |
KR101246996B1 (en) | Electronic data snapshot generator | |
US7640406B1 (en) | Detecting and managing orphan files between primary and secondary data stores for content addressed storage | |
US11461341B2 (en) | Identifying relevant information within a document hosting system | |
US7685177B1 (en) | Detecting and managing orphan files between primary and secondary data stores | |
US20180113862A1 (en) | Method and System for Electronic Document Version Tracking and Comparison | |
US7603397B1 (en) | Detecting and managing missing parents between primary and secondary data stores | |
US8495166B2 (en) | Optimized caching for large data requests | |
US9558214B1 (en) | Secondary mappings to enable code changes without schema updates | |
US7599971B1 (en) | Detecting and managing missing parents between primary and secondary data stores for content addressed storage | |
US20200110733A1 (en) | Criterion-based retention of data object versions | |
US8671108B2 (en) | Methods and systems for detecting website orphan content | |
CN104750679B (en) | A resource loading method in a web document editor | |
Jarmul et al. | Python web scraping | |
JP2011191862A (en) | File management apparatus, file management system, and file management program | |
CN114416667A (en) | Method and device for rapidly sharing network disk file, network disk and storage medium | |
US12088656B2 (en) | Method and system for enforcing governance across multiple content repositories using a content broker | |
CN114238261A (en) | Cloud-native documentation integrated with legacy tools | |
US20090125533A1 (en) | Reference-Based Technique for Maintaining Links | |
CN107533544B (en) | Element identifier generation | |
CN100514302C (en) | Multi-source, multi-destination data transfer | |
CN114416641A (en) | File data processing method and device, electronic equipment and storage medium | |
JP5398077B2 (en) | Importance determination method, storage system, and program for data stored in storage device | |
US20080275959A1 (en) | Distributed Search in a Casual Network of Servers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120802 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130913 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131021 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |