JP7493087B1 - Information processing device and information processing method - Google Patents
Information processing device and information processing method Download PDFInfo
- Publication number
- JP7493087B1 JP7493087B1 JP2023202916A JP2023202916A JP7493087B1 JP 7493087 B1 JP7493087 B1 JP 7493087B1 JP 2023202916 A JP2023202916 A JP 2023202916A JP 2023202916 A JP2023202916 A JP 2023202916A JP 7493087 B1 JP7493087 B1 JP 7493087B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- query
- data group
- noise
- added
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 76
- 238000003672 processing method Methods 0.000 title claims abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims abstract description 97
- 230000002427 irreversible effect Effects 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000010354 integration Effects 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000001172 regenerating effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しない情報処理装置及び情報処理方法を提供する。【解決手段】情報処理装置1は、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているように第1データ群にノイズを付与する第1ノイズ付与クエリと、第2データ群にノイズを付与する第2ノイズ付与クエリと、第1データ群に含まれる複数のデータ識別情報を不可逆変換するクエリである第1不可逆変換クエリと、第2データ群に含まれる複数のデータ識別情報を不可逆変換するクエリである第2不可逆変換クエリとを生成する生成部132と、第1ノイズ付与クエリと第1不可逆変換クエリとを第1装置2に送信し、第2ノイズ付与クエリと第2不可逆変換クエリとを第2装置3に送信する送信部133と、を有する。【選択図】図2[Problem] To provide an information processing device and an information processing method that prevent user information that has not been anonymized during the process of collecting user information from leaking. [Solution] An information processing device (1) has a generating unit (132) that generates a first noise-adding query for adding noise to a first data group such that noise is added with a predetermined probability to a plurality of data included in an integrated data group when a first data group and a second data group are integrated to form an integrated data group, a second noise-adding query for adding noise to a second data group, a first irreversible conversion query that is a query for irreversibly converting a plurality of data identification information included in the first data group, and a second irreversible conversion query that is a query for irreversibly converting a plurality of data identification information included in the second data group, and a transmitting unit (133) that transmits the first noise-adding query and the first irreversible conversion query to a first device (2) and transmits the second noise-adding query and the second irreversible conversion query to a second device (3). [Selected Figure] FIG.
Description
本発明は、情報処理装置及び情報処理方法に関する。 The present invention relates to an information processing device and an information processing method.
従来、複数の事業者からユーザに関する情報であるユーザ情報を収集し、データ分析を行うことが実施されている。この場合、ユーザのプライバシーを保護するために、複数の事業者から収集したユーザ情報の少なくとも一部を匿名化することが行われている。例えば、特許文献1には、複数のユーザ情報を結合するための結合キーとなるデータに対して不可逆変換等を行い、変換後の結合キーを用いて複数の事業者それぞれに対応するユーザの個人情報を結合し、結合後のデータに対して追加的に匿名化処理を行うシステムが開示されている。
Conventionally, user information, which is information about users, is collected from multiple businesses and data analysis is performed. In this case, in order to protect the privacy of users, at least a portion of the user information collected from the multiple businesses is anonymized. For example,
従来の技術では、複数の事業者それぞれからユーザ情報を収集してから匿名化処理を行うため、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出してしまうおそれがある。 Conventional technology involves collecting user information from multiple businesses before anonymizing it, so there is a risk that unanonymized user information may be leaked during the process of collecting the user information.
そこで、本発明はこれらの点に鑑みてなされたものであり、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しないようにすることを目的とする。 The present invention has been made in consideration of these points, and aims to prevent the leakage of user information that has not been anonymized during the process of collecting user information.
本発明の第1の態様に係る情報処理装置は、データを識別するためのデータ識別情報と第1データとを関連付けた複数の第1レコードを含む第1データ群と、前記データ識別情報と第2データとを関連付けた複数の第2レコードを含む第2データ群とのうちの前記第1データ群に含まれる複数の前記第1データそれぞれに、前記第1データ群と前記第2データ群とを統合して統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第1ノイズ付与クエリと、前記第1データ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成する第1生成部と、前記第2データ群に含まれる複数の前記第2データそれぞれに、前記統合データ群に含まれる複数のデータに対して前記所定の確率でノイズが付与されているようにノイズを付与するクエリである第2ノイズ付与クエリと、前記第2データ群に含まれる複数の前記データ識別情報を前記所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成する第2生成部と、前記第1生成部が生成した前記第1ノイズ付与クエリと前記第1不可逆変換クエリとを前記第1データ群の提供元に対応する第1装置に送信するとともに、前記第2生成部が生成した前記第2ノイズ付与クエリと前記第2不可逆変換クエリとを前記第2データ群の提供元に対応する第2装置に送信する送信部と、前記第1不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、前記第2不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得するデータ群取得部と、前記データ群取得部が取得した前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、前記データ群取得部が取得した前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合した前記統合データ群を生成する統合部と、を有する。 The information processing device according to the first aspect of the present invention includes a first generation unit that generates a first noise-adding query, which is a query for adding noise to each of the plurality of first data included in a first data group including a plurality of first records associating first data with data identification information for identifying data, and a second data group including a plurality of second records associating the data identification information with second data, in a case where the first data group and the second data group are integrated to form an integrated data group, a first irreversible conversion query, which is a query for irreversibly converting the plurality of data identification information included in the first data group by a predetermined method; a second generation unit that generates a second noise-adding query, which is a query for adding noise to each of the plurality of second data included in the second data group, in a case where the first data group and the second data group are integrated to form an integrated data group, a second irreversible conversion query, which is a query for irreversibly converting the plurality of data identification information included in the second data group by the predetermined method; The data acquisition unit includes a transmission unit that transmits the first noise-added query and the first irreversible conversion query to a first device corresponding to a provider of the first data group, and transmits the second noise-added query and the second irreversible conversion query generated by the second generation unit to a second device corresponding to a provider of the second data group; a converted first data group including a plurality of first records that associate the data identification information converted based on the first irreversible conversion query with a plurality of first data to which noise has been added based on the first noise-added query; and a converted second data group including a plurality of second records that associate the data identification information converted based on the second irreversible conversion query with a plurality of second data to which noise has been added based on the second noise-added query; and an integration unit that generates the integrated data group by integrating the converted first data group and the converted second data group based on the data identification information of each of the plurality of first records included in the converted first data group acquired by the data group acquisition unit and the data identification information of each of the plurality of second records included in the converted second data group acquired by the data group acquisition unit.
前記第1レコードは、n1個の属性それぞれに対応する複数の第1データを含み、前記第2レコードは、n2個の属性それぞれに対応する複数の第2データを含み、前記統合データ群に含まれる複数のデータは、プライバシーの強度を示すパラメータをεとするε-局所型差分プライバシーを満たしており、前記第1生成部は、前記n1個の属性それぞれの第1データにノイズが付与された場合に、ノイズが付与された前記n1個の属性それぞれの第1データがε1-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータε1はε1=ε/(n1+n2)である)を満たすようにノイズを付与する前記第1ノイズ付与クエリを生成し、前記第2生成部は、前記n2個の属性それぞれの第2データにノイズが付与された場合に、ノイズが付与された前記n2個の属性それぞれの第2データがε2-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータε2はε2=ε/(n1+n2)である)を満たすようにノイズを付与する前記第2ノイズ付与クエリを生成してもよい。 The first record may include a plurality of first data corresponding to each of n 1 attributes, the second record may include a plurality of second data corresponding to each of n 2 attributes, and the plurality of data included in the integrated data group may satisfy ε-local differential privacy where ε is a parameter indicating a strength of privacy, the first generation unit may generate the first noise-added query to add noise when noise is added to the first data of each of the n 1 attributes, such that the first data of each of the n 1 attributes to which noise has been added satisfies ε 1 -local differential privacy (wherein the parameter ε 1 indicating a strength of privacy is ε 1 =ε/(n 1 +n 2 )), and the second generation unit may generate the second noise-added query to add noise when noise is added to the second data of each of the n 2 attributes, such that the second data of each of the n 2 attributes to which noise has been added satisfies ε 2 -local differential privacy (wherein the parameter ε 2 indicating a strength of privacy is ε 2 =ε/(n 1 +n 2 )).
前記データ識別情報に関連付けられているデータ群はk個(ただし、kは3以上の整数)存在し、第kデータ群に含まれる複数の第kデータそれぞれに、k個のデータ群を統合して前記統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第kノイズ付与クエリと、前記第kデータ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第k不可逆変換クエリとを生成する第k生成部をさらに有し、前記第kデータ群に含まれる第kレコードは、nk個の属性それぞれに対応する複数の第kデータを含み、前記第k生成部は、前記nk個の属性それぞれの第kデータにノイズが付与された場合に、ノイズが付与された前記nk個の属性それぞれの第kデータがεk-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータεkはεk=ε/(n1+n2+・・・+nk)である)を満たすようにノイズを付与する前記第kノイズ付与クエリを生成してもよい。 The data identification information may include k data groups (where k is an integer equal to or greater than 3) associated with the data identification information, and the kth generation unit may generate a kth noise-adding query, which is a query for adding noise to each of a plurality of kth data included in the kth data group such that noise is added to a plurality of data included in the integrated data group with a predetermined probability when the k data groups are integrated into the integrated data group, and a kth irreversible conversion query, which is a query for irreversibly converting the plurality of data identification information included in the kth data group by a predetermined method, wherein the kth record included in the kth data group includes a plurality of kth data corresponding to each of n k attributes, and the kth generation unit may generate the kth noise-adding query for adding noise such that, when noise is added to the kth data of each of the n k attributes, the kth data of each of the n k attributes to which noise has been added satisfies ε k -local differential privacy (wherein a parameter ε k indicating the strength of privacy is ε k = ε/(n 1 + n 2 + ... + n k )).
前記情報処理装置は、前記第1装置から前記第1レコードを構成する複数の属性それぞれに対応する項目を示す第1項目情報を取得するとともに、前記第2装置から前記第2レコードを構成する複数の属性それぞれに対応する項目を示す第2項目情報を取得し、取得した前記第1項目情報に基づいて前記第1データに対応する属性の個数である前記n1を特定し、取得した前記第2項目情報に基づいて前記第2データに対応する属性の個数である前記n2を特定し、特定した属性の個数である前記n1及び前記n2に基づいて、ノイズが付与された後の前記第1データ及び前記第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε1及び第2パラメータε2を決定する決定部を有してもよい。 The information processing device may include a determination unit that acquires first item information indicating items corresponding to each of a plurality of attributes constituting the first record from the first device, and acquires second item information indicating items corresponding to each of a plurality of attributes constituting the second record from the second device, identifies n1 being the number of attributes corresponding to the first data based on the acquired first item information, identifies n2 being the number of attributes corresponding to the second data based on the acquired second item information, and determines a first parameter ε1 and a second parameter ε2 indicating a strength of privacy in local differential privacy satisfied by the first data and the second data after noise has been added, based on the identified numbers of attributes n1 and n2 .
前記第1生成部及び前記第2生成部の少なくともいずれかは、データ群に含まれる複数の属性それぞれに対応する複数のデータのうち、少なくとも一つの属性に対応するデータが取り得る値の数を減少させ、当該データが取り得る値の数を減少させた後に、複数のデータそれぞれに前記ノイズを付与する前記ノイズ付与クエリを生成してもよい。 At least one of the first generation unit and the second generation unit may reduce the number of possible values of data corresponding to at least one attribute among a plurality of data corresponding to each of a plurality of attributes included in a data group, and after reducing the number of possible values of the data, generate the noise-added query that adds the noise to each of the plurality of data.
前記第1生成部は、前記変換後の第1データ群に含まれる前記第1レコードに含まれる第1データを、第1の割合で他の第1レコードに含まれる前記第1データと入れ替えることにより前記変換後の第1データ群を更新するクエリである第1更新クエリを生成し、前記第2生成部は、前記変換後の第2データ群に含まれる前記第2レコードに含まれる第2データを、第2の割合で他の第2レコードに含まれる前記第2データと入れ替えることにより前記変換後の第2データ群を更新するクエリである第2更新クエリを生成し、前記送信部は、前記第1生成部が生成した前記第1更新クエリを前記第1装置に送信し、前記第2生成部が生成した前記第2更新クエリを前記第2装置に送信してもよい。 The first generation unit may generate a first update query, which is a query that updates the converted first data group by replacing the first data included in the first record included in the converted first data group with the first data included in another first record at a first ratio, and the second generation unit may generate a second update query, which is a query that updates the converted second data group by replacing the second data included in the second record included in the converted second data group with the second data included in another second record at a second ratio, and the transmission unit may transmit the first update query generated by the first generation unit to the first device and transmit the second update query generated by the second generation unit to the second device.
前記情報処理装置は、前記統合データ群に含まれるレコードに含まれるデータを、第3の割合で他のレコードに含まれるデータと入れ替えることにより前記統合データ群を更新する更新部を有してもよい。 The information processing device may have an update unit that updates the integrated data set by replacing data included in records included in the integrated data set with data included in other records at a third ratio.
前記第1生成部は、前記第1データ群に含まれる複数の前記データ識別情報それぞれに、ランダムデータを付加してから前記所定の方法により不可逆変換する前記第1不可逆変換クエリを生成し、前記第2生成部は、前記第2データ群に含まれる複数の前記データ識別情報それぞれに、当該データ識別情報に対応する、前記第1データ群に含まれるデータ識別情報に付加されたランダムデータと同一のランダムデータを付加してから前記所定の方法により不可逆変換する前記第2不可逆変換クエリを生成してもよい。 The first generation unit may generate the first irreversible conversion query by adding random data to each of the plurality of pieces of data identification information included in the first data group and then performing irreversible conversion using the predetermined method, and the second generation unit may generate the second irreversible conversion query by adding random data that is the same as the random data added to the data identification information included in the first data group and corresponds to the data identification information, to each of the plurality of pieces of data identification information included in the second data group and then performing irreversible conversion using the predetermined method.
前記統合部は、前記統合データ群をさらに加工して統計データを生成し、当該統計データに対して前記ノイズの付与に用いられる前記所定の確率を用いて前記ノイズを除去するよう補正を行ってもよい。 The integration unit may further process the integrated data group to generate statistical data, and may correct the statistical data to remove the noise using the predetermined probability used to add the noise.
前記第1データ群及び前記第2データ群には、新たに追加されたレコードを特定するために用いることができる特定用データが含まれており、前記第1生成部は、前記第1不可逆変換クエリを再生成する場合、前記特定用データに基づいて新たに追加された第1レコードに対して前記ノイズを付与する前記第1ノイズ付与クエリを生成し、前記第2生成部は、前記第2不可逆変換クエリを再生成する場合、前記特定用データに基づいて新たに追加された第2レコードに対して前記ノイズを付与する前記第2ノイズ付与クエリを生成してもよい。 The first data group and the second data group may include identification data that can be used to identify a newly added record, and when regenerating the first irreversible conversion query, the first generation unit may generate the first noise-adding query that adds the noise to the newly added first record based on the identification data, and when regenerating the second irreversible conversion query, the second generation unit may generate the second noise-adding query that adds the noise to the newly added second record based on the identification data.
前記統合部は、前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合し、前記データ識別情報を除外して、前記統合データ群を生成してもよい。 The integration unit may integrate the converted first data group and the converted second data group based on the data identification information of each of a plurality of first records included in the converted first data group and the data identification information of each of a plurality of second records included in the converted second data group, and may generate the integrated data group by excluding the data identification information.
本発明の第2の態様に係る情報処理方法は、情報処理装置が実行する、データを識別するためのデータ識別情報と第1データとを関連付けた複数の第1レコードを含む第1データ群と、前記データ識別情報と第2データとを関連付けた複数の第2レコードを含む第2データ群とのうちの前記第1データ群に含まれる複数の前記第1データそれぞれに、前記第1データ群と前記第2データ群とを統合して統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第1ノイズ付与クエリと、前記第1データ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成するステップと、前記第2データ群に含まれる複数の前記第2データそれぞれに、前記統合データ群に含まれる複数のデータに対して前記所定の確率でノイズが付与されているようにノイズを付与するクエリである第2ノイズ付与クエリと、前記第2データ群に含まれる複数の前記データ識別情報を前記所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成するステップと、生成した前記第1ノイズ付与クエリと前記第1不可逆変換クエリとを前記第1データ群の提供元に対応する第1装置に送信するとともに、生成した前記第2ノイズ付与クエリと前記第2不可逆変換クエリとを前記第2データ群の提供元に対応する第2装置に送信するステップと、前記第1不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、前記第2不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得するステップと、取得した前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、取得した前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合した前記統合データ群を生成するステップと、を有する。 An information processing method according to a second aspect of the present invention includes a step of generating, executed by an information processing device, a first noise-adding query, which is a query for adding noise to each of the plurality of first data included in a first data group including a plurality of first records associating data identification information for identifying data with first data, and a second data group including a plurality of second records associating the data identification information with second data, in a case where the first data group and the second data group are integrated to form an integrated data group, so that noise is added to the plurality of data included in the integrated data group with a predetermined probability, and a first irreversible conversion query, which is a query for irreversibly converting the plurality of data identification information included in the first data group by a predetermined method; a second noise-adding query, which is a query for adding noise to each of the plurality of second data included in the second data group such that noise is added to the plurality of data included in the integrated data group with the predetermined probability; and a second irreversible conversion query, which is a query for irreversibly converting the plurality of data identification information included in the second data group by the predetermined method. a step of generating a first noise-added query and a first irreversible conversion query; a step of transmitting the generated first noise-added query and the generated first irreversible conversion query to a first device corresponding to a provider of the first data group, and a step of transmitting the generated second noise-added query and the generated second irreversible conversion query to a second device corresponding to a provider of the second data group; a step of acquiring a converted first data group including a plurality of first records associating the data identification information converted based on the first irreversible conversion query with a plurality of first data to which noise has been added based on the first noise-added query, and a converted second data group including a plurality of second records associating the data identification information converted based on the second irreversible conversion query with a plurality of second data to which noise has been added based on the second noise-added query; and a step of generating the integrated data group by integrating the converted first data group and the converted second data group based on the data identification information of each of the plurality of first records included in the acquired converted first data group and the data identification information of each of the plurality of second records included in the acquired converted second data group.
本発明によれば、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しないようにすることができるという効果を奏する。 The present invention has the effect of preventing the leakage of user information that has not been anonymized during the process of collecting user information.
[情報処理システムSの概要]
図1は、情報処理システムSの概要を説明する図である。情報処理システムSは、情報処理装置1と、第1データ群を管理する第1装置2と、第2データ群を管理する第2装置3とを有し、第1データ群及び第2データ群に含まれるユーザ情報の匿名化を行ったうえで第1データ群と第2データ群とを統合した統合データ群を生成するシステムである。
[Overview of Information Processing System S]
1 is a diagram illustrating an overview of an information processing system S. The information processing system S includes an
情報処理装置1は、例えばデータを集約し、集約後のデータを提供するサービスを提供する集約事業者により運用されており、第1装置2及び第2装置3等の外部装置と、インターネットや携帯電話回線等の通信ネットワーク(不図示)を介して通信可能に接続されている。
The
第1装置2は、例えば第1の事業者により運用されており、データを識別するためのデータ識別情報としてのデータIDと第1データとを関連付けた複数の第1レコードを含む第1データ群を管理している。第2装置3は、例えば第2の事業者により運用されており、第1データ群に含まれているデータIDと共通のデータIDと、第2データとを関連付けた複数の第2レコードを含む第2データ群を管理している。 The first device 2 is operated, for example, by a first business operator, and manages a first data group including a plurality of first records that associate the first data with a data ID as data identification information for identifying the data. The second device 3 is operated, for example, by a second business operator, and manages a second data group including a plurality of second records that associate the second data with a data ID common to the data IDs included in the first data group.
情報処理装置1は、第1データ群に含まれる複数の第1データそれぞれにノイズを付与する第1ノイズ付与クエリと、第1データ群に含まれる複数のデータIDを所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成する。第1ノイズ付与クエリは、例えば、第1データ群に含まれる複数の第1データそれぞれに、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである。クエリは、例えば、リレーショナルデータベース管理システムにおいて実行可能なSQL(Structured Query Language)文であるものとする。
The
情報処理装置1は、第2データ群に含まれる複数の第2データそれぞれにノイズを付与する第2ノイズ付与クエリと、第2データ群に含まれる複数のデータIDを所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成する。第2ノイズ付与クエリは、第1ノイズ付与クエリと同様に、第2データ群に含まれる複数の第2データそれぞれに、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである。
The
情報処理装置1は、生成した第1ノイズ付与クエリと、第1不可逆変換クエリとを第1装置2に送信するとともに、生成した第2ノイズ付与クエリと、第2不可逆変換クエリとを第2装置3に送信する。
The
第1装置2は、情報処理装置1から受信した第1ノイズ付与クエリと、第1不可逆変換クエリとを実行し、第1不可逆変換クエリに基づいて変換されたデータIDと、第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群を生成する。第1装置2は、生成した変換後の第1データ群を情報処理装置1に送信する。
The first device 2 executes the first noise-added query and the first irreversible conversion query received from the
第2装置3は、情報処理装置1から受信した第2ノイズ付与クエリと、第2不可逆変換クエリとを実行し、第2不可逆変換クエリに基づいて変換されたデータIDと、第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群を生成する。第2装置3は、生成した変換後の第2データ群を情報処理装置1に送信する。
The second device 3 executes the second noise-added query and the second irreversible conversion query received from the
このように、第1装置2及び第2装置3それぞれにおいて、データ群の匿名化処理を行ったうえでデータ群を情報処理装置1に送信することができるので、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しないようにすることができる。
In this way, the first device 2 and the second device 3 can each perform anonymization processing on the data group before transmitting the data group to the
情報処理装置1は、第1装置2から受信した変換後の第1データ群に含まれる複数の第1レコードそれぞれのデータIDと、第2装置3から受信した変換後の第2データ群に含まれる複数の第2レコードそれぞれのデータIDとに基づいて、変換後の第1データ群と変換後の第2データ群とを統合した統合データ群を生成する。
The
このようにして統合された統合データ群に含まれる複数のデータには、所定の確率でノイズが付与されることとなる。また、データIDは、不可逆変換クエリにより変換されることから、変換後のデータIDに基づいて個人を特定するのが困難となる。これにより、情報処理装置1は、統合データに含まれるユーザ情報のプライバシーを確保することができる。
The multiple data included in the integrated data group integrated in this way will be given noise with a certain probability. In addition, since the data ID is converted by an irreversible conversion query, it becomes difficult to identify an individual based on the converted data ID. This allows the
[情報処理装置1の機能構成]
続いて、情報処理装置1の機能構成について説明する。図2は、情報処理装置1の機能構成を示す図である。
[Functional configuration of information processing device 1]
Next, a description will be given of the functional configuration of the
図2に示すように、情報処理装置1は、通信部11と、記憶部12と、制御部13とを有する。
通信部11は、第1装置2及び第2装置3等と通信ネットワークを介してデータを送受信するための通信インターフェースである。
As shown in FIG. 2 , the
The
記憶部12は、各種のデータを記憶する記憶媒体であり、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク、SSD(Solid State Drive)、及びフラッシュメモリ等を有する。記憶部12は、制御部13が実行するプログラムを記憶する。記憶部12は、制御部13を、決定部131、生成部132、送信部133、データ群取得部134及び統合部135として機能させるプログラムを記憶する。
The
制御部13は、例えばCPU(Central Processing Unit)である。制御部13は、記憶部12に記憶されたプログラムを実行することにより、決定部131、生成部132、送信部133、データ群取得部134及び統合部135として機能する。
The
以下、制御部13が有する機能について説明するにあたり、第1データ群と、第2データ群とについて説明する。図3は、第1データ群と第2データ群との一例を示す図である。図3において、(A)は第1データ群を示しており、(B)は第2データ群を示している。
Below, the first data group and the second data group will be described in order to explain the functions of the
第1データ群は、第1の事業者が管理するデータ群であり、第1装置2に設けられたデータベース、又は第1装置2がアクセス可能なサーバに設けられたデータベースに格納されている。図3に示すように、第1データ群は、データを識別するためのデータ識別情報としてのデータIDと、n1個の属性それぞれに対応する複数の第1データとを関連付けた複数の第1レコードを含んでいる。データIDは、例えば、第1の事業者と第2事業者とがユーザに対して付与している共通のユーザIDである。 The first data group is a data group managed by the first business operator, and is stored in a database provided in the first device 2 or a database provided in a server accessible to the first device 2. As shown in Fig. 3, the first data group includes a data ID as data identification information for identifying data, and a plurality of first records in which a plurality of first data corresponding to each of the n1 attributes are associated with each other. The data ID is, for example, a common user ID given to a user by the first business operator and the second business operator.
図3に示す例では、第1データ群は、第1の事業者が運営する店舗における売上とユーザの年齢とを関連付けたデータ群であり、複数の属性それぞれに対応する「年齢」、「商品カテゴリ食料品」、「商品カテゴリ日用品」、「購入ランキング」という項目の第1データが含まれている。第1データ群は、1つのテーブル、又は複数のテーブルを連結することにより生成されたテーブルを示すものとするが、これに限らず、一以上のテーブルを参照するビューであってもよい。 In the example shown in FIG. 3, the first data group is a data group that associates sales at a store operated by a first business operator with the age of the user, and includes first data for the items "age," "product category groceries," "product category daily necessities," and "purchase ranking" that correspond to each of a plurality of attributes. The first data group represents one table or a table generated by concatenating a plurality of tables, but is not limited to this and may be a view that references one or more tables.
第2データ群は、第2の事業者が管理するデータ群であり、第2装置3に設けられたデータベース、又は第2装置3がアクセス可能なサーバに設けられたデータベースに格納されている。図3に示すように、第2データ群は、データを識別するためのデータ識別情報としてのデータIDと、n2個の属性それぞれに対応する複数の第2データとを関連付けた複数の第2レコードを含んでいる。図3に示す例では、第2データ群は、ユーザの年齢と、施設への訪問履歴とを関連付けたデータ群であり、複数の属性それぞれに対応する「性別」、「訪問場所スーパー」、「訪問場所公園」という項目の第2データが含まれている。第2データ群は、1つのテーブル、又は複数のテーブルを連結することにより生成されたテーブルを示すものとするが、これに限らず、一以上のテーブルを参照するビューであってもよい。 The second data group is a data group managed by the second business operator, and is stored in a database provided in the second device 3 or a database provided in a server accessible to the second device 3. As shown in FIG. 3, the second data group includes a plurality of second records in which a data ID as data identification information for identifying data is associated with a plurality of second data corresponding to each of n 2 attributes. In the example shown in FIG. 3, the second data group is a data group in which the user's age is associated with a visit history to a facility, and includes second data of the items "gender", "visited location supermarket", and "visited location park" corresponding to each of the multiple attributes. The second data group indicates one table or a table generated by linking multiple tables, but is not limited to this, and may be a view that references one or more tables.
第1データ群と、第2データ群とには、同一のユーザの情報が含まれており、第1データ群と第2データ群とにおいて、同一のユーザのデータIDは共通であるものとする。これにより、データIDをキーとして第1データ群に含まれる第1レコードと第2データ群に含まれる第2レコードとを連結することができる。 The first data group and the second data group contain information about the same user, and the data ID of the same user is common in the first data group and the second data group. This makes it possible to link a first record included in the first data group and a second record included in the second data group using the data ID as a key.
続いて、制御部13が有する機能について説明する。
決定部131は、第1データ群と第2データ群とを統合した統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されるように、第1データ群にノイズが付与される確率と、第2データ群にノイズが付与される確率とを決定する。
Next, the functions of the
The
決定部131は、ノイズが付与された後の第1データ及び第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε1及び第2パラメータε2を決定する。
The
決定部131が第1パラメータε1及び第2パラメータε2を決定するにあたり、局所型差分プライバシーについて説明する。まず、あるデータ群における任意のデータペアをx1、x2とする。そして、データxに対し、ランダムでノイズを付与する関数をR(x)とし、その出力をyとした場合に、以下の式(1)が成立するとき、関数Rは局所型差分プライバシーを満たすと定義される。
When the
ここで、Pr[]は、確率変数である。また、eは自然対数であり、εはプライバシーの強度を示すパラメータである。また、εはプライバシーの強度がεである局所型差分プライバシーをε-局所型差分プライバシーという。 Here, Pr[ ] is a random variable. Also, e is the natural logarithm, and ε is a parameter indicating the strength of privacy. Also, local differential privacy with privacy strength of ε is called ε-local differential privacy.
ε-局所型差分プライバシーが満たされるようなデータの加工例としては、以下に示す加工例が挙げられる。例えば、データxがk個の値を取り得るものとした場合、以下の式(2)に基づいて、データxの入力に対して、データyが出力される。 The following is an example of data processing that satisfies ε-local differential privacy. For example, if data x can take k values, data y is output for input of data x based on the following formula (2).
決定部131は、第1装置2から第1レコードを構成する複数の属性それぞれに対応する項目を示す第1項目情報を取得するとともに、第2装置3から第2レコードを構成する複数の属性それぞれに対応する項目を示す第2項目情報を取得する。項目情報は、第1レコードに含まれる複数の項目のうち、統合データに含める項目を示す情報である。図3に示す例では、決定部131は、「年齢」、「商品カテゴリ食料品」、「商品カテゴリ日用品」、「購入ランキング」という4つの項目を示す第1項目情報を取得する。また、決定部131は、「性別」、「訪問場所スーパー」、「訪問場所公園」という3つの項目を示す第1項目情報を取得する。
The
決定部131は、取得した第1項目情報に基づいて第1データに対応する属性の個数であるn1を特定し、取得した第2項目情報に基づいて第2データに対応する属性の個数であるn2を特定する。第1データに対応する属性の個数であるn1と、第2データに対応する属性の個数であるn2との和は、統合データ群に含まれる属性の個数である。決定部131は、特定した属性の個数であるn1及びn2に基づいて、ノイズが付与された後の複数の属性それぞれの第1データ及び第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε1及び第2パラメータε2を決定する。例えば、決定部131は、以下の式(3)に示すように、複数の属性それぞれのデータが、(ε/n1+n2)-局所型差分プライバシーが適用されるように、第1パラメータε1及び第2パラメータε2を決定する。
The
これにより、(ε/n1+n2)-局所型差分プライバシーが適用された、n1+n2の属性のデータを集約した統合データ群は、ε-局所型差分プライバシーが満たされることとなる。 As a result, the integrated data set obtained by aggregating data of n 1 +n 2 attributes to which (ε/n 1 +n 2 )-local differential privacy has been applied satisfies ε-local differential privacy.
生成部132は、第1生成部として機能し、第1ノイズ付与クエリを生成する。第1ノイズ付与クエリは、第1データ群に含まれる複数の第1データそれぞれに、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである。所定の確率は、ε-局所型差分プライバシーが満たされる確率であり、プライバシーの強度を示すパラメータεにより決定されるものとする。例えば、所定の確率は、式(2)を用いて算出される。式(2)に示されるように、εが小さいほど、高い確率でデータxが他の値に変換される。
The
例えば、生成部132は、第1項目情報が示すn1個の属性それぞれの第1データにノイズが付与された場合に、ノイズが付与されたn1個の属性それぞれの第1データがε1-局所型差分プライバシーを満たすようにノイズを付与する第1ノイズ付与クエリを生成する。ここで、ε1は、決定部131が決定した第1パラメータである。
For example, when noise is added to the first data of each of the n 1 attributes indicated by the first item information, the generating
また、生成部132は、第1データ群に含まれる複数のデータ識別情報としてのデータIDを所定の方法により不可逆変換するクエリである第1不可逆変換クエリを生成する。所定の方法は、例えば、ハッシュ関数を用いてデータIDを不可逆変換する方法であるが、これに限らず、不可逆変換可能な方法であれば他の方法を用いてもよい。
The generating
また、生成部132は、第2生成部として機能し、第2ノイズ付与クエリを生成する。第2ノイズ付与クエリは、第2データ群に含まれる複数の第2データそれぞれに、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである。例えば、生成部132は、第2項目情報が示すn2個の属性それぞれの第2データにノイズが付与された場合に、ノイズが付与されたn2個の属性それぞれの第2データがε2-局所型差分プライバシーを満たすようにノイズを付与する第2ノイズ付与クエリを生成する。ここで、ε2は、決定部131が決定した第2パラメータである。
Furthermore, the generating
また、生成部132は、第2データ群に含まれる複数のデータIDを、第1不可逆変換クエリと同様に所定の方法により不可逆変換するクエリである第2不可逆変換クエリを生成する。
The
なお、生成部132は、第1データ群及び第2データ群に含まれる複数の属性それぞれに対応する複数のデータのうち、少なくとも一つの属性に対応するデータが取り得る値の数を減少させ、当該データが取り得る値の数を減少させた後に、複数のデータそれぞれにノイズを付与するノイズ付与クエリを生成してもよい。例えば、生成部132は、属性が「年齢」のデータが、複数のユーザそれぞれの実年齢を示している場合に、当該データについて、「10代」、「20代」といったように年代を示すデータに変更することにより、当該データが取り得る値を減少させる処理を含むノイズ付与クエリを生成する。このようにすることで、ユーザのプライバシーを高めることができる。
The
また、生成部132は、第1データ群に含まれる複数のデータIDそれぞれに、ランダムデータを付加してから所定の方法により不可逆変換する第1不可逆変換クエリを生成し、第2データ群に含まれる複数のデータIDそれぞれに、当該データIDに対応する、第1データ群に含まれるデータIDに付加されたランダムデータと同一のランダムデータを付加してから所定の方法により不可逆変換する第2不可逆変換クエリを生成してもよい。このようにすることで、情報処理装置1は、変換後のデータIDを変換前のデータIDに復号されるリスクを低減することができる。
The
また、生成部132は、変換後の第1データ群に含まれる第1レコードに含まれる第1データを、第1の割合で他の第1レコードに含まれる第1データと入れ替えることにより変換後の第1データ群を更新するクエリである第1更新クエリを生成してもよい。また、生成部132は、変換後の第2データ群に含まれる第2レコードに含まれる第2データを、第2の割合で他の第2レコードに含まれる第2データと入れ替えることにより変換後の第2データ群を更新するクエリである第2更新クエリを生成してもよい。
The generating
ここで、第1の割合及び第2の割合は同じであってもよいし、異なっていてもよい。また、第1の割合及び第2の割合は、データが取り得る値の数によって変化させてもよい。例えば、データが取り得る値の数が多い場合には、当該データが入れ替えられる割合を高くするようにしてもよい。 Here, the first rate and the second rate may be the same or different. Furthermore, the first rate and the second rate may be changed depending on the number of values that the data can take. For example, when the number of values that the data can take is large, the rate at which the data is replaced may be increased.
また、後述の統合部135により、統合データ群が生成された後、第1データ群及び第2のデータ群のそれぞれに対して新たにレコードが追加され、新たなレコードを追加した統合データ群の生成が要求されることがある。全ての第1データ群と、全ての第2データ群とに対して、ノイズの付与が複数回繰り返されると、同一のデータ群に対応する複数のバリエーションのデータ群が生成される。この場合、複数のバリエーションのデータ群を分析することにより、匿名化が行われる前のデータ群の内容を推測しやすくなり、ユーザの識別性が上がる等のプライバシーリスクが増大するという問題が発生する。これに対し、生成部132は、新たに追加されたレコードのみに対してノイズを付与するノイズ付与クエリを生成してもよい。
In addition, after the integrated data group is generated by the
この場合、第1データ群及び第2データ群には、新たに追加されたレコードを特定するために用いることができる特定用データが含まれている。特定用データは、例えば、日付を示す日付データや、レコードが統合データに含まれているか否かを示すフラグである。そして、生成部132は、第1不可逆変換クエリを再生成する場合、特定用データに基づいて、新たに追加された第1レコードに対してノイズを付与する第1ノイズ付与クエリを生成し、第2不可逆変換クエリを再生成する場合、特定用データに基づいて新たに追加された第2レコードに対してノイズを付与する第2ノイズ付与クエリを生成する。このようにすることで、情報処理装置1は、統合データ群を提供する場合にプライバシーリスクの増大を抑制することができる。
In this case, the first data group and the second data group contain identification data that can be used to identify the newly added record. The identification data is, for example, date data indicating a date, or a flag indicating whether the record is included in the integrated data. When regenerating the first irreversible conversion query, the
送信部133は、生成部132が生成した第1ノイズ付与クエリと第1不可逆変換クエリとを、第1データ群の提供元に対応する第1装置2に送信する。また、送信部133は、生成部132が生成した第2ノイズ付与クエリと第2不可逆変換クエリとを、第2データ群の提供元に対応する第2装置3に送信する。送信部133は、例えば、予め情報処理装置1と第1装置2との間に設けられた第1のクラウドサービスで提供されるインターネットVPN(Virtual private network)を介して、第1ノイズ付与クエリと第1不可逆変換クエリとを第1装置2に送信する。同様に、送信部133は、例えば、予め情報処理装置1と第2装置3との間に設けられた第2のVPNを介して、第2ノイズ付与クエリと第2不可逆変換クエリとを第2装置3に送信する。
The
また、送信部133は、生成部132により、第1更新クエリと第2更新クエリとが生成された場合には、第1更新クエリを第1装置2に送信するとともに、第2更新クエリを第2装置3に送信する。
In addition, when the
第1装置2は、情報処理装置1から受信したクエリを実行することにより、第1不可逆変換クエリに基づいてデータIDから変換されたデータ識別情報としての変換後のデータIDと、第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群を生成する。第1装置2は、例えば、情報処理装置1から、第1更新クエリを受信した場合には、第1ノイズ付与クエリに基づいて複数の第1データにノイズを付与する前に第1更新クエリを実行する。その後、第1装置2は、例えば第1のVPNを介して、変換後の第1データ群を情報処理装置1に送信する。なお、第1装置2とは異なる装置が、変換後の第1データ群を情報処理装置1に送信してもよい。
The first device 2 executes the query received from the
第2装置3は、情報処理装置1から受信した第2ノイズ付与クエリと第2不可逆変換クエリとを実行することにより、第2不可逆変換クエリに基づいてデータIDから変換されたデータ識別情報としての変換後のデータIDと、第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群を生成する。第2装置3は、例えば、情報処理装置1から、第2更新クエリを受信した場合には、第2ノイズ付与クエリに基づいて複数の第2データにノイズを付与する前に第2更新クエリを実行する。その後、第2装置3は、例えば第2のVPNを介して、変換後の第2データ群を情報処理装置1に送信する。なお、第2装置3とは異なる装置が、変換後の第2データ群を情報処理装置1に送信してもよい。
The second device 3 executes the second noise-adding query and the second irreversible conversion query received from the
データ群取得部134は、変換後の第1データ群と、変換後の第2データ群とを取得する。例えば、データ群取得部134は、第1装置2から送信された変換後の第1データ群を受信し、第2装置3から送信された変換後の第2データ群を受信することにより、変換後の第1データ群と、変換後の第2データ群とを取得する。
The data
図4は、変換後の第1データ群と変換後の第2データ群との一例を示す図である。図4において、(A)は変換後の第1データ群を示しており、(B)は変換後の第2データ群を示している。また、図4において、第1データ群と第2データ群とに含まれている同じデータIDが、同じ文字列に変換されていることが確認できる。また、図4において、太枠のセルで囲まれたデータが変換されていることが確認できる。 Figure 4 is a diagram showing an example of a first data group after conversion and a second data group after conversion. In Figure 4, (A) shows the first data group after conversion, and (B) shows the second data group after conversion. Also, in Figure 4, it can be seen that the same data ID contained in the first data group and the second data group has been converted into the same character string. Also, in Figure 4, it can be seen that the data surrounded by cells with a bold frame has been converted.
統合部135は、データ群取得部134が取得した変換後の第1データ群に含まれる複数の第1レコードそれぞれのデータID(変換後のデータID)と、データ群取得部134が取得した変換後の第2データ群に含まれる複数の第2レコードそれぞれのデータID(変換後のデータID)とに基づいて、変換後の第1データ群と変換後の第2データ群とを統合した統合データ群を生成する。具体的には、統合部135は、変換後のデータIDをキーとして、第1データ群と第2データ群とを結合することにより、統合データ群を生成する。図5は、統合データ群の一例を示す図である。図5に示すように、第1データ群と第2データ群との双方に含まれている変換後のデータIDに関連付けられている第1データと第2データとが関連付けられていることが確認できる。
The
統合部135は、変換後のデータIDと、変換後の第1データ群と、変換後の第2データ群とを含む統合データ群を生成したが、これに限らない。統合部135は、変換後の第1データ群に含まれる複数の第1レコードそれぞれのデータIDと、変換後の第2データ群に含まれる複数の第2レコードそれぞれのデータIDとに基づいて、変換後の第1データ群と変換後の第2データ群とを統合し、データIDを除外して、統合データ群を生成してもよい。このようにすることで、統合データにはデータIDが含まれなくなるので、データIDに基づいて、統合データから、第1レコード及び第2レコードを復元されるリスクを低減することができる。
The integrating
また、統合部135は、生成した統合データ群をさらに加工して統計データを生成してもよい。そして、統合部135は、生成した統計データに対してノイズの付与に用いられる所定の確率を用いてノイズを除去するよう補正を行うようにしてもよい。例えば、統合部135は、統合データを用いて統計値を計算する際に、第1データ群及び第2データ群に付与されたノイズの影響を排除するために、プライバシー強度のパラメータε、ε1及びε2の値の少なくともいずれかを用いて統計的に統計値を補正する。
The
例えば、統合データに含まれる、ある属性のデータにノイズを付与する際の遷移行列をPとし、遷移行列Pに含まれる要素をpi,jとする。pi,jは、ある属性の値iが値jにランダムに遷移する確率を示しており、例えば、上述した式(2)のxをi、yをjと置き換えた式を用いて決定される。統合部135は、統合データを加工して得られる、ある属性の分布Q=(q1,…,qd)Tを、遷移行列Pと、以下の式(4)とを用いて分布Q’に補正する。
For example, let P be the transition matrix when adding noise to data of a certain attribute contained in the integrated data, and let p i,j be the elements contained in the transition matrix P. p i,j indicates the probability that the value i of a certain attribute randomly transitions to the value j, and is determined, for example, using an equation in which x is replaced with i and y is replaced with j in the above-mentioned equation (2). The
ここで、ある属性のデータが第1データ群に含まれる場合には、式(2)に含まれるεに対し、第1パラメータε1が適用され、ある属性のデータが第2データ群に含まれる場合には、式(2)に含まれるεに対し、第2パラメータε2が適用されて遷移行列Pが構成される。また、εのみ分かる場合には、式(3)を用いて第1パラメータε1及び第2パラメータε2を導出し、同様に遷移行列Pが構成されるものとする。このようにすることで、情報処理装置1は、ノイズが付与される前の第1データ群及び第2データ群に対応する確率が高い統計データを生成することができる。
Here, when data of a certain attribute is included in the first data group, a first parameter ε 1 is applied to ε included in formula (2), and when data of a certain attribute is included in the second data group, a second parameter ε 2 is applied to ε included in formula (2) to configure the transition matrix P. Also, when only ε is known, the first parameter ε 1 and the second parameter ε 2 are derived using formula (3), and the transition matrix P is similarly configured. In this way, the
なお、統合部135により統合された統合データ群は、送信部133により、第1装置2及び第2装置3に送信されてもよい。このようにすることで、第1事業者において、第2事業者が収集した第2データに基づいてデータ分析を行うことができるとともに、第2事業者において、第1事業者が収集した第1データに基づいてデータ分析を行うことができる。
The integrated data group integrated by the
[動作シーケンス]
続いて、情報処理装置1に係る処理の流れについて説明する。図6は、情報処理装置1が統合データ群を生成するまでの処理の流れを示すシーケンス図である。
[Operation sequence]
Next, a description will be given of the flow of processing related to the
まず、決定部131は、第1装置2から第1レコードを構成する複数の属性それぞれに対応する項目を示す第1項目情報を取得するとともに(S1)、第2装置3から第2レコードを構成する複数の属性それぞれに対応する項目を示す第2項目情報を取得する(S2)。
First, the
続いて、決定部131は、取得した第1項目情報と、取得した第2項目情報とに基づいて、データに対応する属性の数を特定する(S3)。具体的には、決定部131は、第1データに対応する属性の個数n1と、第2データに対応する属性の個数n2とを特定する。そして、決定部131は、特定した属性の個数n1、n2に基づいて、ノイズが付与された後の複数の属性それぞれの第1データ及び第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε1及び第2パラメータε2を決定する(S4)。
Next, the
続いて、生成部132は、第1ノイズ付与クエリ、第2ノイズ付与クエリ、第1不可逆変換クエリ及び第2不可逆変換クエリを生成する(S5)。生成部132は、取得した第1項目情報と、決定部131が決定した第1パラメータε1とに基づいて、第1ノイズ付与クエリを生成し、取得した第2項目情報と、決定部131が決定した第2パラメータε2とに基づいて、第2ノイズ付与クエリを生成する。また、生成部132は、第1データに含まれるデータIDを不可逆変換する第1不可逆変換クエリ、及び、第2データに含まれるデータIDを不可逆変換する第2不可逆変換クエリを生成する。
Next, the generating
続いて、送信部133は、第1ノイズ付与クエリ及び第1不可逆変換クエリを第1装置2に送信し(S6)、第2ノイズ付与クエリ及び第2不可逆変換クエリを第2装置3に送信する(S7)。
Then, the
第1装置2は、情報処理装置1から受信したクエリを実行することにより変換後の第1データ群を生成する(S8)。第2装置3は、情報処理装置1から受信したクエリを実行することにより変換後の第2データ群を生成する(S9)。第1装置2は、変換後の第1データ群を情報処理装置1に送信し(S10)、第2装置3は、変換後の第2データ群を情報処理装置1に送信する(S11)。データ群取得部134は、第1装置2から送信された変換後の第1データ群を受信し、第2装置3から送信された変換後の第2データ群を受信する。
The first device 2 generates a converted first data group by executing the query received from the information processing device 1 (S8). The second device 3 generates a converted second data group by executing the query received from the information processing device 1 (S9). The first device 2 transmits the converted first data group to the information processing device 1 (S10), and the second device 3 transmits the converted second data group to the information processing device 1 (S11). The data
統合部135は、データ群取得部134が受信した変換後の第1データ群に含まれる複数の第1レコードそれぞれの変換後のデータIDと、データ群取得部134が取得した変換後の第2データ群に含まれる複数の第2レコードそれぞれの変換後のデータIDとに基づいて、変換後の第1データ群と変換後の第2データ群とを統合した統合データ群を生成する(S12)。
The
[変形例1]
上述の実施の形態において、情報処理装置1は、第1データ群と第2データ群とに対応して、2つのノイズ付与クエリ及び2つの不可逆変換クエリを生成したが、これに限らない。情報処理装置1は、3つ以上のデータ群に対応して、ノイズ付与クエリ及び不可逆変換クエリを生成してもよい。
[Modification 1]
In the above embodiment, the
例えば、データ識別情報としてのデータIDに関連付けられているデータ群がk個(ただし、kは3以上の整数)存在し、第kデータ群に含まれる第kレコードは、nk個の属性それぞれに対応する複数の第kデータを含んでいるものとする。 For example, there are k data groups (where k is an integer greater than or equal to 3) associated with a data ID as data identification information, and the kth record included in the kth data group includes multiple kth data corresponding to each of the n k attributes.
この場合、生成部132は、第k生成部として機能し、第kデータ群に含まれる複数の第kデータそれぞれに、k個のデータ群を統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第kノイズ付与クエリと、第kデータ群に含まれる複数のデータ識別情報を所定の方法により不可逆変換するクエリである第k不可逆変換クエリとを生成する。そして、生成部132は、nk個の属性それぞれの第kデータにノイズが付与された場合に、ノイズが付与されたnk個の属性それぞれの第kデータがεk-局所型差分プライバシーを満たすようにノイズを付与する第kノイズ付与クエリを生成する。ただし、プライバシーの強度を示すパラメータεkはεk=ε/(n1+n2+・・・+nk)である。
In this case, the generating
また、生成部132は、第kデータ群に含まれる複数のユーザを所定の方法により不可逆変換するクエリである第k不可逆変換クエリを生成する。送信部133は、生成された第kノイズ付与クエリと、第k不可逆変換クエリとを第k装置に送信する。
The generating
データ群取得部134は、第k装置から、変換後の第kデータ群を取得し、統合部135は、データ群取得部134が取得した変換後の第kデータ群に含まれる複数の第kレコードそれぞれのデータ識別情報に基づいて、k個のデータ群を結合することにより、統合データ群を生成する。このようにすることで、情報処理装置1は、データ群が3つ以上存在する場合にも、ε-局所型差分プライバシーを満たす統合データを生成することができる。
The data
[変形例2]
上述の実施の形態では、生成部132が、変換後の第1データ群に含まれる第1レコードに含まれる第1データを、他の第1レコードに含まれる第1データと入れ替える第1更新クエリと、変換後の第2データ群に含まれる第2レコードに含まれる第2データを、他の第2レコードに含まれる第2データと入れ替える第2更新クエリとを生成し、第1装置2が第1更新クエリを実行し、第2装置3が第2更新クエリを実行したが、これに限らない。情報処理装置1が、データの入れ替えを実行してもよい。
[Modification 2]
In the above embodiment, the
この場合、制御部13は、統合データ群に含まれるレコードに含まれるデータを、第3の割合で他のレコードに含まれるデータと入れ替えることにより統合データ群を更新する更新部を有する。例えば、更新部は、統合データ群に含まれるレコードに含まれる複数の項目それぞれに対応するデータのうちの一部のデータを、第3の割合で他のレコードに含まれている、当該一部のデータと同じ項目のデータと入れ替えることにより、統合データ群を更新する。
In this case, the
また、更新部は、データ群取得部134が取得した変換後の第1データ群に含まれる第1レコードに含まれる第1データを、第1の割合で他の第1レコードに含まれる第1データと入れ替えることにより変換後の第1データ群を更新するとともに、データ群取得部134が取得した変換後の第2データ群に含まれる第2レコードに含まれる第2データを、第2の割合で他の第2レコードに含まれる第2データと入れ替えることにより変換後の第2データ群を更新してもよい。例えば、更新部は、生成部132により生成された第1更新クエリ及び第2更新クエリを実行することにより、変換後の第1データ群及び変換後の第2データ群を更新する。そして、統合部135が、更新された第1データ群と、更新された第2データ群とを統合することにより統合データを生成する。このようにすることで、情報処理装置1は、第1装置2及び第2装置3におけるデータ群の変換に係る負荷を軽減することができる。
The update unit may also update the converted first data group by replacing the first data included in the first record included in the converted first data group acquired by the data
[情報処理装置1による効果]
以上説明したように、本実施の形態に係る情報処理装置1は、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているように第1データ群にノイズを付与する第1ノイズ付与クエリと、第2データ群にノイズを付与する第2ノイズ付与クエリと、第1データ群に含まれる複数のデータ識別情報を不可逆変換するクエリである第1不可逆変換クエリと、第2データ群に含まれる複数のデータ識別情報を不可逆変換するクエリである第2不可逆変換クエリとを生成し、第1ノイズ付与クエリと第1不可逆変換クエリとを第1装置2に送信し、第2ノイズ付与クエリと第2不可逆変換クエリとを第2装置3に送信する。そして、情報処理装置1は、第1不可逆変換クエリに基づいて変換されたデータ識別情報と、第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、第2不可逆変換クエリに基づいて変換されたデータ識別情報と、第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得し、これらのデータ群に含まれるデータ識別情報に基づいて、これらのデータ群を統合し、前記データ識別情報を除外して、統合データ群を生成する。このようにすることで、情報処理装置1は、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しないようにすることができる。
[Effects of information processing device 1]
As described above, the
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。 Furthermore, this invention will make it possible to contribute to Goal 9 of the United Nations' Sustainable Development Goals (SDGs), which is "Build resilient infrastructure, promote inclusive and sustainable industrialization, and promote innovation and infrastructure."
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。 Although the present invention has been described above using embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments, and various modifications and changes are possible within the scope of the gist of the invention. For example, all or part of the device can be configured by distributing or integrating functionally or physically in any unit. In addition, new embodiments resulting from any combination of multiple embodiments are also included in the embodiments of the present invention. The effect of the new embodiment resulting from the combination also has the effect of the original embodiment.
1 情報処理装置
2 第1装置
3 第2装置
11 通信部
12 記憶部
13 制御部
131 決定部
132 生成部
133 送信部
134 データ群取得部
135 統合部
S 情報処理システム
Claims (12)
前記第2データ群に含まれる複数の前記第2データそれぞれに、前記統合データ群に含まれる複数のデータに対して前記所定の確率でノイズが付与されているようにノイズを付与するクエリである第2ノイズ付与クエリと、前記第2データ群に含まれる複数の前記データ識別情報を前記所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成する第2生成部と、
前記第1生成部が生成した前記第1ノイズ付与クエリと前記第1不可逆変換クエリとを前記第1データ群の提供元に対応する第1装置に送信するとともに、前記第2生成部が生成した前記第2ノイズ付与クエリと前記第2不可逆変換クエリとを前記第2データ群の提供元に対応する第2装置に送信する送信部と、
前記第1不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、前記第2不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得するデータ群取得部と、
前記データ群取得部が取得した前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、前記データ群取得部が取得した前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合した前記統合データ群を生成する統合部と、
を有する情報処理装置。 a first generating unit that generates a first noise-adding query for each of a plurality of first data included in a first data group including a plurality of first records associating first data with data identification information for identifying data and a second data group including a plurality of second records associating the data identification information with second data; the first noise-adding query is a query for adding noise to a plurality of data included in the integrated data group by integrating the first data group and the second data group into an integrated data group such that noise is added with a predetermined probability to the plurality of data included in the integrated data group; and a first irreversible conversion query is a query for irreversibly converting a plurality of the data identification information included in the first data group by a predetermined method;
a second generation unit that generates a second noise-adding query, which is a query for adding noise to each of the plurality of second data included in the second data group in such a manner that noise is added to the plurality of data included in the integrated data group with the predetermined probability, and a second irreversible conversion query, which is a query for irreversibly converting the plurality of data identification information included in the second data group by the predetermined method;
a transmission unit that transmits the first noise-added query and the first irreversible conversion query generated by the first generation unit to a first device corresponding to a provider of the first data group, and transmits the second noise-added query and the second irreversible conversion query generated by the second generation unit to a second device corresponding to a provider of the second data group;
a data group acquiring unit that acquires a converted first data group including a plurality of first records that associate the data identification information converted based on the first irreversible conversion query with a plurality of first data to which noise has been added based on the first noise-adding query, and a converted second data group including a plurality of second records that associate the data identification information converted based on the second irreversible conversion query with a plurality of second data to which noise has been added based on the second noise-adding query;
an integration unit that generates an integrated data group by integrating the converted first data group and the converted second data group based on the data identification information of each of a plurality of first records included in the converted first data group acquired by the data group acquisition unit and the data identification information of each of a plurality of second records included in the converted second data group acquired by the data group acquisition unit;
An information processing device having the above configuration.
前記第2レコードは、n2個の属性それぞれに対応する複数の第2データを含み、
前記統合データ群に含まれる複数のデータは、プライバシーの強度を示すパラメータをεとするε-局所型差分プライバシーを満たしており、
前記第1生成部は、前記n1個の属性それぞれの第1データにノイズが付与された場合に、ノイズが付与された前記n1個の属性それぞれの第1データがε1-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータε1はε1=ε/(n1+n2)である)を満たすようにノイズを付与する前記第1ノイズ付与クエリを生成し、
前記第2生成部は、前記n2個の属性それぞれの第2データにノイズが付与された場合に、ノイズが付与された前記n2個の属性それぞれの第2データがε2-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータε2はε2=ε/(n1+n2)である)を満たすようにノイズを付与する前記第2ノイズ付与クエリを生成する、
請求項1に記載の情報処理装置。 the first record includes a plurality of first data corresponding to each of the n1 attributes;
the second record includes a plurality of second data corresponding to each of the n2 attributes;
The plurality of data included in the integrated data group satisfies ε-local differential privacy, where ε is a parameter indicating the strength of privacy,
the first generation unit generates the first noise-added query for adding noise such that, when noise is added to the first data of each of the n1 attributes, the first data of each of the n1 attributes to which noise has been added satisfies ε1-local differential privacy (wherein a parameter ε1 indicating a strength of privacy is ε1=ε/(n1+n2));
the second generation unit generates the second noise-added query for adding noise such that, when noise is added to the second data of each of the n2 attributes, the second data of each of the n2 attributes to which noise has been added satisfies ε2-local differential privacy (wherein a parameter ε2 indicating a strength of privacy is ε2=ε/(n1+n2));
The information processing device according to claim 1 .
第kデータ群に含まれる複数の第kデータそれぞれに、k個のデータ群を統合して前記統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第kノイズ付与クエリと、前記第kデータ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第k不可逆変換クエリとを生成する第k生成部をさらに有し、
前記第kデータ群に含まれる第kレコードは、nk個の属性それぞれに対応する複数の第kデータを含み、
前記第k生成部は、前記nk個の属性それぞれの第kデータにノイズが付与された場合に、ノイズが付与された前記nk個の属性それぞれの第kデータがεk-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータεkはεk=ε/(n1+n2+・・・+nk)である)を満たすようにノイズを付与する前記第kノイズ付与クエリを生成する、
請求項2に記載の情報処理装置。 There are k data groups associated with the data identification information (where k is an integer of 3 or more);
The kth generation unit generates a kth noise-adding query, which is a query for adding noise to each of the kth data included in the kth data group so that noise is added to the multiple data included in the integrated data group with a predetermined probability when the k data groups are integrated to form the integrated data group, and a kth irreversible conversion query, which is a query for irreversibly converting the multiple pieces of data identification information included in the kth data group by a predetermined method;
a k-th record included in the k-th data group includes a plurality of k-th data corresponding to n k attributes,
The k generation unit generates the k noise-added query for adding noise such that, when noise is added to the k-th data of each of the n k attributes, the k-th data of each of the n k attributes to which noise has been added satisfies ε k -local differential privacy (wherein a parameter ε k indicating the strength of privacy is ε k = ε / (n 1 + n 2 + ... + n k )).
The information processing device according to claim 2 .
請求項2に記載の情報処理装置。 a determination unit that obtains from the first device first item information indicating items corresponding to each of a plurality of attributes constituting the first record, and obtains from the second device second item information indicating items corresponding to each of a plurality of attributes constituting the second record, identifies n1, which is the number of attributes corresponding to the first data, based on the obtained first item information, identifies n2, which is the number of attributes corresponding to the second data, based on the obtained second item information, and determines a first parameter ε1 and a second parameter ε2 indicating a strength of privacy in local differential privacy satisfied by the first data and the second data after noise has been added, based on the identified numbers of attributes n1 and n2;
The information processing device according to claim 2 .
請求項1に記載の情報処理装置。 At least one of the first noise-adding query and the second noise-adding query is a query that reduces a number of possible values of data corresponding to at least one attribute among a plurality of data corresponding to each of a plurality of attributes included in a data group to which noise is added, and adds the noise to each of the plurality of data after reducing the number of possible values of the data .
The information processing device according to claim 1 .
前記第2生成部は、前記変換後の第2データ群に含まれる前記第2レコードに含まれる第2データを、第2の割合で他の第2レコードに含まれる前記第2データと入れ替えることにより前記変換後の第2データ群を更新するクエリである第2更新クエリを生成し、
前記送信部は、前記第1生成部が生成した前記第1更新クエリを前記第1装置に送信し、前記第2生成部が生成した前記第2更新クエリを前記第2装置に送信する、
請求項1に記載の情報処理装置。 the first generation unit generates a first update query that is a query that updates the first data group after the conversion by replacing first data included in the first record included in the first data group after the conversion with the first data included in another first record at a first ratio;
the second generation unit generates a second update query that is a query that updates the converted second data group by replacing second data included in the second records included in the converted second data group with the second data included in other second records at a second ratio;
The transmission unit transmits the first update query generated by the first generation unit to the first device, and transmits the second update query generated by the second generation unit to the second device.
The information processing device according to claim 1 .
請求項1に記載の情報処理装置。 an updating unit that updates the integrated data set by replacing data included in records included in the integrated data set with data included in other records at a third ratio;
The information processing device according to claim 1 .
前記第2生成部は、前記第2データ群に含まれる複数の前記データ識別情報それぞれに、当該データ識別情報に対応する、前記第1データ群に含まれるデータ識別情報に付加されたランダムデータと同一のランダムデータを付加してから前記所定の方法により不可逆変換する前記第2不可逆変換クエリを生成する、
請求項1に記載の情報処理装置。 the first generation unit generates the first irreversible conversion query by adding random data to each of the plurality of pieces of data identification information included in the first data group and then performing irreversible conversion using the predetermined method;
the second generation unit generates the second irreversible conversion query by performing irreversible conversion using the predetermined method after adding random data that is the same as the random data added to the data identification information included in the first data group and that corresponds to the data identification information, to each of the plurality of data identification information included in the second data group.
The information processing device according to claim 1 .
請求項1に記載の情報処理装置。 the integration unit further processes the integrated data group to generate statistical data, and corrects the statistical data to remove the noise using the predetermined probability used to impart the noise.
The information processing device according to claim 1 .
前記第1生成部は、前記第1不可逆変換クエリを再生成する場合、前記特定用データに基づいて新たに追加された第1レコードに対して前記ノイズを付与する前記第1ノイズ付与クエリを生成し、
前記第2生成部は、前記第2不可逆変換クエリを再生成する場合、前記特定用データに基づいて新たに追加された第2レコードに対して前記ノイズを付与する前記第2ノイズ付与クエリを生成する、
請求項1に記載の情報処理装置。 the first data group and the second data group include identification data that can be used to identify a newly added record;
When regenerating the first irreversible conversion query, the first generation unit generates the first noise-added query that adds the noise to a newly added first record based on the identification data;
When regenerating the second irreversible conversion query, the second generation unit generates the second noise-added query that adds the noise to a newly added second record based on the identification data.
The information processing device according to claim 1 .
請求項1に記載の情報処理装置。 the integrating unit integrates the converted first data group and the converted second data group based on the data identification information of each of a plurality of first records included in the converted first data group and the data identification information of each of a plurality of second records included in the converted second data group, and generates the integrated data group by excluding the data identification information.
The information processing device according to claim 1 .
データを識別するためのデータ識別情報と第1データとを関連付けた複数の第1レコードを含む第1データ群と、前記データ識別情報と第2データとを関連付けた複数の第2レコードを含む第2データ群とのうちの前記第1データ群に含まれる複数の前記第1データそれぞれに、前記第1データ群と前記第2データ群とを統合して統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第1ノイズ付与クエリと、前記第1データ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成するステップと、
前記第2データ群に含まれる複数の前記第2データそれぞれに、前記統合データ群に含まれる複数のデータに対して前記所定の確率でノイズが付与されているようにノイズを付与するクエリである第2ノイズ付与クエリと、前記第2データ群に含まれる複数の前記データ識別情報を前記所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成するステップと、
生成した前記第1ノイズ付与クエリと前記第1不可逆変換クエリとを前記第1データ群の提供元に対応する第1装置に送信するとともに、生成した前記第2ノイズ付与クエリと前記第2不可逆変換クエリとを前記第2データ群の提供元に対応する第2装置に送信するステップと、
前記第1不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、前記第2不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得するステップと、
取得した前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、取得した前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合した前記統合データ群を生成するステップと、
を有する情報処理方法。 Executed by the information processing device,
a step of generating a first noise-adding query for each of a plurality of first data included in a first data group including a plurality of first records associating first data with data identification information for identifying data and a second data group including a plurality of second records associating the data identification information with second data, the first data group being one of the first data group and the second data group being one of the second data groups, the first noise-adding query being a query for adding noise to the plurality of data included in the integrated data group by integrating the first data group and the second data group into an integrated data group such that noise is added with a predetermined probability to the plurality of data included in the integrated data group, and a first irreversible conversion query being a query for irreversibly converting the plurality of data identification information included in the first data group by a predetermined method;
generating a second noise-adding query that is a query for adding noise to each of the plurality of second data included in the second data group in such a manner that noise is added to the plurality of data included in the integrated data group with the predetermined probability, and a second irreversible conversion query that is a query for irreversibly converting the plurality of data identification information included in the second data group by the predetermined method;
transmitting the generated first noise-added query and the generated first lossy conversion query to a first device corresponding to a provider of the first data group, and transmitting the generated second noise-added query and the generated second lossy conversion query to a second device corresponding to a provider of the second data group;
acquiring a converted first data group including a plurality of first records associating the data identification information converted based on the first irreversible conversion query with a plurality of first data to which noise has been added based on the first noise-adding query, and acquiring a converted second data group including a plurality of second records associating the data identification information converted based on the second irreversible conversion query with a plurality of second data to which noise has been added based on the second noise-adding query;
generating an integrated data group by integrating the converted first data group and the converted second data group based on the data identification information of each of a plurality of first records included in the acquired converted first data group and the data identification information of each of a plurality of second records included in the acquired converted second data group;
An information processing method comprising the steps of:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023202916A JP7493087B1 (en) | 2023-11-30 | 2023-11-30 | Information processing device and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023202916A JP7493087B1 (en) | 2023-11-30 | 2023-11-30 | Information processing device and information processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7493087B1 true JP7493087B1 (en) | 2024-05-30 |
Family
ID=91194168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023202916A Active JP7493087B1 (en) | 2023-11-30 | 2023-11-30 | Information processing device and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7493087B1 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008102754A1 (en) | 2007-02-21 | 2008-08-28 | Nec Corporation | Information associating system, user information associating method and program |
WO2016203752A1 (en) | 2015-06-15 | 2016-12-22 | 日本電気株式会社 | Information processing device, information processing method, and storage medium |
US20170169253A1 (en) | 2015-12-10 | 2017-06-15 | Neustar, Inc. | Privacy-aware query management system |
JP2018010424A (en) | 2016-07-12 | 2018-01-18 | 株式会社東芝 | Database system, data coupling method, integrating server, data coupling program, database system sharing method and database system sharing program |
JP2021056921A (en) | 2019-10-01 | 2021-04-08 | 株式会社日立製作所 | Database management system and database processing method |
JP2021117679A (en) | 2020-01-24 | 2021-08-10 | 株式会社ジェーシービー | Coordination server program, business operator server program, and data coordinated system |
JP2023543716A (en) | 2020-09-18 | 2023-10-18 | ライブランプ インコーポレーテッド | Data analytics privacy platform with quantified re-identification risk |
-
2023
- 2023-11-30 JP JP2023202916A patent/JP7493087B1/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008102754A1 (en) | 2007-02-21 | 2008-08-28 | Nec Corporation | Information associating system, user information associating method and program |
WO2016203752A1 (en) | 2015-06-15 | 2016-12-22 | 日本電気株式会社 | Information processing device, information processing method, and storage medium |
US20170169253A1 (en) | 2015-12-10 | 2017-06-15 | Neustar, Inc. | Privacy-aware query management system |
JP2018010424A (en) | 2016-07-12 | 2018-01-18 | 株式会社東芝 | Database system, data coupling method, integrating server, data coupling program, database system sharing method and database system sharing program |
JP2021056921A (en) | 2019-10-01 | 2021-04-08 | 株式会社日立製作所 | Database management system and database processing method |
JP2021117679A (en) | 2020-01-24 | 2021-08-10 | 株式会社ジェーシービー | Coordination server program, business operator server program, and data coordinated system |
JP2023543716A (en) | 2020-09-18 | 2023-10-18 | ライブランプ インコーポレーテッド | Data analytics privacy platform with quantified re-identification risk |
Non-Patent Citations (1)
Title |
---|
ZetaSQL Query syntax,2023年11月10日,<URL https://github.com/google/zetasql/blob/master/docs/query-syntax.md> |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12003393B2 (en) | Parallel computational framework and application server for determining path connectivity | |
US11323347B2 (en) | Systems and methods for social graph data analytics to determine connectivity within a community | |
US11921750B2 (en) | Database systems and applications for assigning records to chunks of a partition in a non-relational database system with auto-balancing | |
CN108228817A (en) | Data processing method, device and system | |
CN104732154A (en) | Method And System For Anonymizing Data | |
CN103092906B (en) | The general holding of more clients for expanding node | |
JP2010500649A (en) | System and method for generating personalized dynamic relationship-based content for members of web-based social networks | |
CN107092666A (en) | System, method and storage medium for network | |
JP2010500649A5 (en) | ||
US11392606B2 (en) | System and method for converting user data from disparate sources to bitmap data | |
CN107229718A (en) | The method and apparatus for handling report data | |
RU2632414C2 (en) | Method of hierarchical data structure forming, method of data search using hierarchical data structure, server and permanent machine-readable media | |
US20180246951A1 (en) | Database-management system comprising virtual dynamic representations of taxonomic groups | |
US11196751B2 (en) | System and method for controlling security access | |
US20160188685A1 (en) | Fan identity data integration and unification | |
CN112434015A (en) | Data storage method and device, electronic equipment and medium | |
CN110019786B (en) | Topic sending method and topic list ordering method and device for network community | |
JP6312913B1 (en) | Information processing apparatus, information processing method, and information processing program | |
JP7493087B1 (en) | Information processing device and information processing method | |
US20130124484A1 (en) | Persistent flow apparatus to transform metrics packages received from wireless devices into a data store suitable for mobile communication network analysis by visualization | |
JP2008152359A (en) | System base configuration design support system and support method | |
US20120148997A1 (en) | Method, system, and program product for customizing educational materials | |
WO2018216346A1 (en) | Data exchange system, data exchange method, and data exchange program | |
JP2015125646A (en) | Anonymization system | |
Zhou et al. | The Role of Asserted Resolution in Entity Identity Information Management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231130 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7493087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |