[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7179795B2 - 匿名化装置、匿名化方法及び匿名化プログラム - Google Patents

匿名化装置、匿名化方法及び匿名化プログラム Download PDF

Info

Publication number
JP7179795B2
JP7179795B2 JP2020047509A JP2020047509A JP7179795B2 JP 7179795 B2 JP7179795 B2 JP 7179795B2 JP 2020047509 A JP2020047509 A JP 2020047509A JP 2020047509 A JP2020047509 A JP 2020047509A JP 7179795 B2 JP7179795 B2 JP 7179795B2
Authority
JP
Japan
Prior art keywords
anonymization
records
code
data set
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020047509A
Other languages
English (en)
Other versions
JP2021149398A (ja
Inventor
知明 三本
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020047509A priority Critical patent/JP7179795B2/ja
Publication of JP2021149398A publication Critical patent/JP2021149398A/ja
Application granted granted Critical
Publication of JP7179795B2 publication Critical patent/JP7179795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データセットを匿名化するための装置、方法及びプログラムに関する。
従来、データセットのレコードから個人を特定されないために、例えば非特許文献1~5のように、プライバシ保護の観点からデータを匿名化するための様々な技術が提案されている。
K. LeFevre, D. J. DeWitt, and R. Ramakrishnan, "Mondrian multidimensional k-anonymity," in Proc. of the 22nd International Conference on Data Engineering (ICDE ’06), pp. 25-35, IEEE, 2006. P. Samarati and L. Sweeney, "Generalizing data to provide anonymity when disclosing information," in Proc. of PODS 1998, 1998, p. 188. P. Samarati, "Protecting respondents’ identities in microdata release," IEEE Trans. on Knowledge and Data Engineering, vol. 13, no. 6, pp. 1010-1027, 2001. L. Sweeney, "Achieving k-anonymity privacy protection using generalization and suppression," in J. Uncertainty, Fuzziness, and Knowledge-Base Systems, vol. 10(5), 2002, pp. 571-588. Byun, Ji-Won and Kamra, Ashish and Bertino, Elisa and Li, Ninghui, "Efficient k-anonymization using clustering techniques," International Conference on Database Systems for Advanced Applications, 188-200, 2007, Springer.
ところで、従来の匿名化手法において、匿名化対象のデータは、全ての属性が一致している必要があった。しかし、実際のデータには、例えばレセプトデータのように、ペイロードが異なるものが存在している。この場合、従来の匿名化手法では対応できなかった。
本発明は、ペイロードが異なるデータを匿名化できる匿名化装置、匿名化方法及び匿名化プログラムを提供することを目的とする。
本発明に係る匿名化装置は、ペイロードの属性が当該ペイロードに含まれるコードにより特定可能なレコードからなるデータセットの入力を受け付ける入力部と、前記レコードの順序を記憶する記憶部と、前記コード、又は前記コードの組み合わせ毎に前記データセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う匿名化処理部と、匿名化された前記一部のレコードを、前記順序に従って統合し、匿名化されたデータセットを再構成する統合部と、を備える。
前記匿名化処理部は、共通の属性を持つ複数のコードを、同一の汎化されたコードに加工し、当該汎化されたコード毎に前記一部のレコードを抽出してもよい。
前記匿名化処理部は、前記汎化されたコード毎に前記匿名化処理を行った後、詳細化したコード毎に前記匿名化処理を行ってもよい。
本発明に係る匿名化方法は、ペイロードの属性が当該ペイロードに含まれるコードにより特定可能なレコードからなるデータセットの入力を受け付ける入力ステップと、前記レコードの順序を記憶する記憶ステップと、前記コード、又は前記コードの組み合わせ毎に前記データセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う匿名化処理ステップと、匿名化された前記一部のレコードを、前記順序に従って統合し、匿名化されたデータセットを再構成する統合ステップと、をコンピュータが実行する。
本発明に係る匿名化プログラムは、前記匿名化装置としてコンピュータを機能させるためのものである。
本発明によれば、ペイロードが異なるデータを匿名化できる。
実施形態における匿名化装置の機能構成を示す図である。 実施形態におけるコードとペイロード属性との関係を例示する図である。 実施形態における匿名化方法の概要を示す図である。 実施形態における匿名化方法の流れを例示するフローチャートである。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における匿名化装置1の機能構成を示す図である。
匿名化装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、匿名化装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群を匿名化装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(匿名化プログラム)の他、匿名化対象のデータセット、及びデータセットのペイロードに格納されるデータの属性を定義したコード等を記憶する。
制御部10は、入力部11と、匿名化処理部12と、統合部13とを備える。制御部10は、これらの機能部により、ペイロードの属性が異なるデータセットを匿名化して出力する。
ここで、データセットの各レコードは、共通部と、ペイロード(コード、ペイロード属性1、2、…)とに分けられる。共通部は、全てのレコードに共通の属性(例えば、年齢、住所等)からなり、ペイロードは、データセット内で共通ではなく、コードによって各レコードに含まれるペイロード属性が特定される。
コードとペイロード属性との対応関係は、記憶部20の所定のデータベースに格納され、適宜参照される。
図2は、本実施形態におけるコードとペイロード属性との関係を例示する図である。
例えば、コード00が付与されたペイロードには、「入院日」、「退院日」、「病名」が格納される。同様に、コード01、10、11に対して、ペイロード属性が定義される。
入力部11は、ペイロード属性がペイロードに含まれるコードにより特定可能なレコードからなるデータセットの入力を受け付ける。
また、入力部11は、受け付けたデータセットの各レコードの順序を、記憶部20に記憶しておく。
匿名化処理部12は、コード、又はコードの組み合わせ毎に、データセットの一部のレコードを抽出し、抽出したレコードに共通の属性に対して匿名化処理を行う。なお、匿名化の手法は限定されず、各種の既存の手法が適用可能である。
このとき、匿名化処理部12は、共通の属性を持つ複数のコードを、同一の汎化されたコードに加工し、この汎化されたコード毎に一部のレコードを抽出してもよい。
例えば、コードを構成する文字列とペイロード属性の共通性とに関連がある場合、この関連性に基づいてコードが加工される。図2の例では、コード00及び01は、属性PL1及びPL2が共通しているので、共に「0*」と汎化することで該当のレコードが同時に抽出される。同様に、コード10及び11は、属性PL1が共通しているので、共に「1*」と汎化される。
また、匿名化処理部12は、汎化されたコード(例えば、「0*」、「1*」)毎に匿名化処理を行った後、詳細化した元のコード(例えば、00、01、10、11)毎に匿名化処理を行ってもよい。
統合部13は、匿名化された一部のレコードを、記憶しておいた順序に従って統合し、匿名化されたデータセットを再構成して出力する。
図3は、本実施形態における匿名化方法の概要を示す図である。
匿名化装置1は、まず、整形用の順序データが付与されたデータセット(A)から、属性の共通部とコードとを抽出し、匿名化処理を行う。このとき、コード(00、01、10、11)は、「0*」又は「1*」に汎化される。
匿名化装置1は、汎化されたコードそれぞれをキーにデータセットの一部を抽出すると、各グループ(B、C)内で共通の属性(太枠)に対して匿名化処理を行う。
そして、匿名化装置1は、それぞれ匿名化された複数のグループを順序データに基づいて統合して出力する(D)。
図4は、本実施形態における匿名化方法の流れを例示するフローチャートである。
この例では、ペイロードのコードに汎化のレベルが複数存在し、各レベルにおいて匿名化処理が実施される。
例えば、コード012が「01*」、「0**」のように階層的に汎化される。
ステップS1において、入力部11は、ペイロード部が異なるデータセットの入力を受け付ける。このとき、データセット内の各属性は、ペイロードのコードも含めて既知とする。
ステップS2において、入力部11は、匿名化の結果出力時のために、各レコードの順序データを記憶部20に記憶する。
ステップS3において、匿名化処理部12は、データセット内の共通部と、ペイロードのコードとを切り出し、匿名化を実施する。
このとき、匿名化処理部12は、コードをその定義(例えば、一般化階層木)に応じて、最も汎化されたコードに加工する。
ステップS4において、匿名化処理部12は、コードが一致するレコードを抽出し、抽出したグループ内で共通の属性に対して匿名化を実施する。
ステップS5において、匿名化処理部12は、全ての属性について匿名化を実施したか否かを判定する。この判定がYESの場合、処理はステップS8に移り、判定がNOの場合、処理はステップS6に移る。
ステップS6において、匿名化処理部12は、ステップS4で用いたコードが汎化前の元のコードであるか否かを判定する。この判定がYESの場合、処理はステップS8に移り、判定がNOの場合、処理はステップS7に移る。
ステップS7において、匿名化処理部12は、コードを1レベル詳細化する。その後、処理はステップS4に戻る。
ステップS8において、統合部13は、ステップS4において匿名化されたグループを統合し、予め記憶された順序データに基づいて、加工後のレコードを入力されたデータセットと同じ順序に並び替えて出力する。
以上のように、本実施形態によれば、匿名化装置1は、ペイロードの属性がコードにより特定可能なレコードからなるデータセットの入力を受け付け、レコードの順序を記憶すると、コード、又はコードの組み合わせ毎にデータセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う。これにより、匿名化装置1は、匿名化された一部のレコードを、記憶した順序に従って統合し、匿名化されたデータセットを再構成する。
したがって、匿名化装置1は、従来、全てのレコードが同一の属性を持つ必要があったのに対して、ペイロードの属性が異なるデータセットを匿名化できる。
このとき、匿名化装置1は、共通の属性を持つ複数のコードを、同一の汎化されたコードに加工し、この汎化されたコード毎に一部のレコードを抽出する。
したがって、匿名化装置1は、コードと属性の共通性とが関連する場合に、汎化されたコードによってグループ化するので、属性が一致している部分を効率的に抽出して匿名化処理を繰り返すことにより、データセット全体を適切に匿名化できる。
また、匿名化装置1は、汎化されたコード毎に匿名化処理を行った後、詳細化したコード毎に匿名化処理を行う。
したがって、匿名化装置1は、コードの汎化のレベル毎に共通する属性を効率的に抽出して、データセット全体を適切に匿名化できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
前述の実施形態では、コードの文字列の並びにより属性の共通性が判断できる場合を示したが、これには限られない。
例えば、匿名化装置1は、コードとペイロード属性との対応関係を示すデータベースから、ペイロード属性の少なくとも一部が共通するコードの組み合わせを抽出し、この組み合わせで一部のレコードを抽出してもよい。
匿名化装置1による匿名化方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 匿名化装置
10 制御部
11 入力部
12 匿名化処理部
13 統合部
20 記憶部

Claims (5)

  1. ペイロードの属性が当該ペイロードに含まれるコードにより特定可能なレコードからなるデータセットの入力を受け付ける入力部と、
    前記レコードの順序を記憶する記憶部と、
    前記コード、又は前記コードの組み合わせ毎に前記データセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う匿名化処理部と、
    匿名化された前記一部のレコードを、前記順序に従って統合し、匿名化されたデータセットを再構成する統合部と、を備える匿名化装置。
  2. 前記匿名化処理部は、共通の属性を持つ複数のコードを、同一の汎化されたコードに加工し、当該汎化されたコード毎に前記一部のレコードを抽出する請求項1に記載の匿名化装置。
  3. 前記匿名化処理部は、前記汎化されたコード毎に前記匿名化処理を行った後、詳細化したコード毎に前記匿名化処理を行う請求項2に記載の匿名化装置。
  4. ペイロードの属性が当該ペイロードに含まれるコードにより特定可能なレコードからなるデータセットの入力を受け付ける入力ステップと、
    前記レコードの順序を記憶する記憶ステップと、
    前記コード、又は前記コードの組み合わせ毎に前記データセットの一部のレコードを抽出し、共通の属性に対して匿名化処理を行う匿名化処理ステップと、
    匿名化された前記一部のレコードを、前記順序に従って統合し、匿名化されたデータセットを再構成する統合ステップと、をコンピュータが実行する匿名化方法。
  5. 請求項1から請求項3のいずれかに記載の匿名化装置としてコンピュータを機能させるための匿名化プログラム。
JP2020047509A 2020-03-18 2020-03-18 匿名化装置、匿名化方法及び匿名化プログラム Active JP7179795B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020047509A JP7179795B2 (ja) 2020-03-18 2020-03-18 匿名化装置、匿名化方法及び匿名化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020047509A JP7179795B2 (ja) 2020-03-18 2020-03-18 匿名化装置、匿名化方法及び匿名化プログラム

Publications (2)

Publication Number Publication Date
JP2021149398A JP2021149398A (ja) 2021-09-27
JP7179795B2 true JP7179795B2 (ja) 2022-11-29

Family

ID=77848859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020047509A Active JP7179795B2 (ja) 2020-03-18 2020-03-18 匿名化装置、匿名化方法及び匿名化プログラム

Country Status (1)

Country Link
JP (1) JP7179795B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013080375A (ja) 2011-10-04 2013-05-02 Hitachi Ltd 個人情報匿名化装置及び方法
JP2020009105A (ja) 2018-07-06 2020-01-16 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理システム、及び医用情報処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013080375A (ja) 2011-10-04 2013-05-02 Hitachi Ltd 個人情報匿名化装置及び方法
JP2020009105A (ja) 2018-07-06 2020-01-16 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理システム、及び医用情報処理プログラム

Also Published As

Publication number Publication date
JP2021149398A (ja) 2021-09-27

Similar Documents

Publication Publication Date Title
CN110276002B (zh) 搜索应用数据处理方法、装置、计算机设备和存储介质
US10424406B2 (en) Methods and systems for watermarking of anonymized datasets
Chen et al. Privacy-preserving data publishing
US11853329B2 (en) Metadata classification
JP6398724B2 (ja) 情報処理装置、および、情報処理方法
CN114969819A (zh) 数据资产风险发现方法和装置
CN112912870A (zh) 租户标识符的转换
Chandrakar et al. Improved technique for preserving privacy while mining real time big data
US20230112332A1 (en) Multiple data labels within a backup system
JP7179795B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
JP2017215868A (ja) 匿名化処理装置、匿名化処理方法、及びプログラム
Nayahi et al. An efficient clustering for anonymizing data and protecting sensitive labels
Qu et al. Privacy preserving in big data sets through multiple shuffle
Sharma et al. A sanitization approach for big data with improved data utility
JP6588880B2 (ja) 匿名化装置、匿名化方法、およびプログラム
Prakash et al. Haphazard, enhanced haphazard and personalised anonymisation for privacy preserving data mining on sensitive data sources
CN112889039A (zh) 用于克隆后租户标识符转换的记录的标识
Raj et al. Big data anonymization in cloud using k-anonymity algorithm using map reduce framework
Miller et al. Constrained k-anonymity: Privacy with generalization boundaries
JP6779854B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
JP6883508B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
Kumar et al. Privacy-preservation of vertically partitioned electronic health record using perturbation methods
CN112800033A (zh) 数据操作请求处理方法、装置、计算机设备和存储介质
JP7175255B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
JP7219726B2 (ja) リスク評価装置、リスク評価方法及びリスク評価プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221116

R150 Certificate of patent or registration of utility model

Ref document number: 7179795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150