KR101589038B1 - Method and device for generating random noise data preserving the correlation on privacy preserving time-series databases - Google Patents
Method and device for generating random noise data preserving the correlation on privacy preserving time-series databases Download PDFInfo
- Publication number
- KR101589038B1 KR101589038B1 KR1020140030061A KR20140030061A KR101589038B1 KR 101589038 B1 KR101589038 B1 KR 101589038B1 KR 1020140030061 A KR1020140030061 A KR 1020140030061A KR 20140030061 A KR20140030061 A KR 20140030061A KR 101589038 B1 KR101589038 B1 KR 101589038B1
- Authority
- KR
- South Korea
- Prior art keywords
- series data
- time series
- random noise
- entry
- noise
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010606 normalization Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000004321 preservation Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 시계열 데이터에 대한 프라이버시 보호 기술에 관한 것으로서, 더 상세하게는 프라이버시 보호뿐 아니라 상관 관계를 보존하는 시계열 데이터에 대한 랜덤 노이즈 생성 방법에 관한 것이다.
본 발명에 따르면, 프라이버시 보호뿐 아니라 시계열 데이터와의 상관 관계를 유지하는 랜덤 노이즈 교란 기법을 사용자에게 제공할 수 있다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a privacy protection technique for time series data, and more particularly, to a random noise generation method for time series data that preserves not only privacy protection but also correlation.
According to the present invention, it is possible to provide a user with a random noise disturbance technique that maintains correlation with time series data as well as privacy protection.
Description
본 발명은 시계열 데이터에 대한 프라이버시 보호 기술에 관한 것으로서, 더 상세하게는 프라이버시 보호뿐 아니라 상관 관계를 보존하는 시계열 데이터에 대한 랜덤 노이즈 생성 방법에 관한 것이다. BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a privacy protection technique for time series data, and more particularly, to a random noise generation method for time series data that preserves not only privacy protection but also correlation.
특히, 본 발명은 프라이버시 보호뿐 아니라 상관 관계를 보존하기 위해 시계열의 원본 엔트리와 이에 대응하는 노이즈 엔트리의 부호를 일치시키는 간단하면서도 효율적인 방법에 관한 것이다. In particular, the present invention relates to a simple and efficient method of matching the signatures of time series original entries and corresponding noise entries to preserve the correlation as well as privacy protection.
최근, 금융, 의료, 날씨 등 다양한 분야에서 광범위하게 사용되고 있는 시계열 데이터에 대한 프라이버시 보호 이슈가 활발히 연구되고 있다.Recently, privacy protection issues for time series data widely used in various fields such as finance, medical care, and weather are actively researched.
시계열 데이터의 프라이버시 보호를 위해 랜덤 노이즈 생성 접근법(random noise generation approach)이 널리 사용되고 있다. 이 접근법은 랜덤 노이즈 추가 기법(additive random noise technique)이라 불리기도 하는데, 먼저 균등 또는 가우시안 분포로 랜덤 노이즈를 생성한 후, 원본 시계열에 이 노이즈를 더하여 교란된 시계열을 만든다. To protect the privacy of time series data, a random noise generation approach is widely used. This approach is also called an additive random noise technique. First, it generates a random noise with an even or Gaussian distribution, and then adds this noise to the original time series to create a disturbed time series.
그런 다음, 데이터 제공자는 교란된 시계열만을 데이터 마이너에게 제공하고, 데이터 마이너는 교란된 시계열로부터 마이닝 결과를 얻는다. 이처럼 교란된 데이터만이 공개되기 때문에, 제3자인 데이터 마이너(혹은 공격자)는 공개된 데이터로부터 민감한 정보를 쉽게 알아낼 수 없으며, 따라서 이 방법은 원본 시계열의 프라이버시를 보호할 수 있게 된다. The data provider then provides only the disturbed time series to the data miner, and the data miner obtains the mining results from the disturbed time series. Since only this disturbed data is disclosed, a third party data miner (or attacker) can not easily find sensitive information from the published data, and thus this method can protect the privacy of the original time series.
그러나, 랜덤 노이즈 교란 기법은 노이즈 추가로 인해 시계열 간 상관 관계는 보존하지 못하는 문제점이 있다. 즉, 상관 관계는 두 데이터 (또는 변수) 간 관련된 정도로, 상관 관계를 이용하면 한 데이터 값의 변화로부터 다른 데이터 값의 변화 방향을 예측할 수 있다.However, the random noise disturbance technique has a problem that the correlation between the time series can not be preserved due to noise addition. That is, the correlation is related to the two data (or variables), and by using the correlation, the direction of change of the other data value can be predicted from the change of one data value.
그런데, 이러한 랜덤 노이즈 교란 기법에서는 데이터 간 상관 관계가 높은 경우 원본의 프라이버시 누출을 방지하기 위해 많은 양의 노이즈를 추가해야 하는 반면, 많은 양의 노이즈는 원본 시계열 간 상관 관계를 없애거나 왜곡할 수 있다. 이는 예측 마이닝 애플리케이션이나 상관 관계를 고려한 질의 등에서 부정확한 결과를 초래한다는 단점을 가지고 있다. However, in the random noise disturbance technique, when there is a high correlation between data, a large amount of noise should be added in order to prevent leakage of the original, while a large amount of noise may cancel or distort the original time series correlation . This has the disadvantage of causing incorrect results in predictive mining applications or correlation-based queries.
본 발명은 위 배경기술에 따른 문제점을 해소하기 위해 제안된 것으로서, 프라이버시 보호의 랜덤 노이즈 교란 기법에서 상관 관계를 유지하는 노이즈 생성 방법 및 장치를 제공하는데 그 목적이 있다.It is an object of the present invention to provide a noise generating method and apparatus for maintaining a correlation in a random noise disturbance technique of privacy protection.
본 발명은 위에서 제시된 과제를 달성하기 위해, 프라이버시 보호의 랜덤 노이즈 교란 기법에서 상관 관계를 유지하는 노이즈 생성 방법을 제공한다.In order to accomplish the above-mentioned problems, the present invention provides a noise generation method for maintaining a correlation in a random noise disturbance technique of privacy protection.
상기 노이즈 생성 방법은, The noise generation method includes:
시계열 데이터 집합의 시계열 데이터를 정규화로 변환하는 정규화 변환 단계;A normalization conversion step of converting time series data of a time series data set into normalization;
정규화된 시계열 데이터에 근거하여, 상관 관계 보존이 되는 랜덤 노이즈를 생성하는 랜덤 노이즈 생성 단계; 및A random noise generation step of generating a random noise to be correlated based on the normalized time series data; And
생성된 랜덤 노이즈에 의해 교란 시계열 데이터를 생성하는 교란 시계열 데이터 생성 단계;를 포함하는 것을 특징으로 한다.And generating a disturbance time series data by the generated random noise.
이때, 상기 정규화 변환 단계는, 상기 시계열 데이터 집합의 평균값을 획득하는 단계; 획득된 시계열 데이터 집합의 평균값을 근거로 상기 시계열 데이터 집합의 표준 편차를 획득하는 단계; 및 획득된 평균값 및 표준 편차를 이용하여 상기 시계열 데이터 집합의 각 시계열 데이터를 정규화하는 단계;를 포함하는 것을 특징으로 할 수 있다.In this case, the normalization conversion step may include: obtaining an average value of the time series data set; Obtaining a standard deviation of the time series data set based on an average value of the acquired time series data sets; And And normalizing each time series data of the time series data set using the obtained average value and standard deviation.
또한, 상기 랜덤 노이즈 생성 단계는, 가우시안 함수에 의한 랜덤 노이즈들을 획득하는 단계; 획득된 랜덤 노이즈들 중 각 시계열 데이터의 부호와 동일한 부호의 랜덤 노이즈를 획득하는 단계; 및 획득한 동일한 부호의 랜덤 노이즈에 의해 교란된 각 시계열 데이터를 획득하는 단계;를 포함하는 것을 특징으로 할 수 있다.The random noise generating step may include: obtaining random noise by a Gaussian function; Obtaining random noise having the same sign as the sign of each time series data among the obtained random noises; And obtaining each time-series data disturbed by the obtained random noise of the same sign.
이때, 획득된 랜덤 노이즈에 의해 상기 각 시계열 데이터의 부호가 달라지지 않으면 해당 랜덤 노이즈를 그대로 사용하고, 부호가 달라지면 랜덤 노이즈를 다시 생성하는 것을 특징으로 할 수 있다.At this time, if the sign of the time series data is not changed by the obtained random noise, the random noise is used as it is, and if the sign is different, random noise is generated again.
한편으로, 상기 랜덤 노이즈 생성 단계는, 가우시안 함수에 의한 랜덤 노이즈들을 획득하는 단계; 획득된 랜덤 노이즈들 중 각 시계열 데이터의 부호와 랜덤 노이즈에 의해 교란된 시계열 데이터의 부호가 동일한 랜덤 노이즈를 획득하는 단계; 및 획득된 동일한 랜덤 노이즈에 의해 교란된 각 시계열 데이터를 획득하는 단계;를 포함하는 것을 특징으로 할 수 있다.Meanwhile, the random noise generating step may include: obtaining random noise by a Gaussian function; Acquiring a random noise having the same sign of the time series data disturbed by the sign and the random noise of each time series data among the obtained random noises; And obtaining each time-series data disturbed by the obtained same random noise.
또 다른 한편으로, 상기 랜덤 노이즈 생성 단계는, 가우시안 함수에 의한 랜덤 노이즈들을 획득하는 단계; 획득된 랜덤 노이즈들중 각 시계열 데이터의 부호와 동일한 부호로 변경된 랜덤 노이즈를 획득하는 단계; 및 획득된 동일한 부호로 변경된 랜덤 노이즈에 의해 교란된 각 시계열 데이터를 획득하는 단계;를 포함하는 것을 특징으로 할 수 있다.On the other hand, the random noise generation step includes obtaining random noises by the Gaussian function; Obtaining random noise that has been changed to the same sign as the sign of each time series data among the obtained random noises; And obtaining each time-series data disturbed by the obtained random noise changed to the same sign.
이때, 랜덤 노이즈의 부호가 각 시계열 데이터의 엔트리와 다르더라도 교란 시계열 데이터의 엔트리가 각 시계열 데이터의 엔트리와 동일한 부호를 가지면 랜덤 노이즈를 그대로 사용하는 것을 특징으로 할 수 있다.At this time, even if the sign of the random noise is different from the entry of each time series data, if the entry of the disturbance time series data has the same sign as the entry of each time series data, the random noise is used as it is.
또한, 교란 시계열 데이터의 엔트리의 절대 크기는 각 시계열 데이터의 엔트리의 절대크기 보다 작은 것을 특징으로 할 수 있다.The absolute size of the entry of the disturbance time series data may be smaller than the absolute size of the entry of each time series data.
또한, 각 시계열 데이터의 엔트리와 교란 시계열 데이터의 엔트리가 동일한 부호를 가지더라도, 랜덤 노이즈가 시계열 데이터의 엔트리와 다른 부호를 가지면 랜덤 노이즈를 다시 생성하는 것을 특징으로 할 수 있다.In addition, even if the entry of each time-series data and the entry of the disturbance time-series data have the same sign, the random noise is again generated if the random noise has a different sign from the entry of the time-series data.
또한, 각 시계열 데이터의 엔트리와 랜덤 노이즈가 동일한 부호를 가지므로, 교란 시계열 데이터의 엔트리의 절대 크기는 각 시계열 엔트리의 절대크기보다 큰 것을 특징으로 할 수 있다.Also, since the entry of each time series data and the random noise have the same sign, the absolute size of the entry of the disturbance time series data is larger than the absolute size of each time series entry.
또한, 각 시계열 데이터의 엔트리와 교란 시계열 데이터의 엔트리가 동일한 부호를 가지더라도 각 시계열 데이터의 엔트리와 랜덤 노이즈의 부호가 일치하지 않으면, 랜덤 노이즈의 부호를 변경하는 것을 특징으로 할 수 있다.Further, even if the entry of each time series data and the entry of the disturbance time series data have the same sign, the sign of the random noise is changed if the sign of the random noise does not match the entry of each time series data.
또한, 각 시계열 데이터의 엔트리와 랜덤 노이즈의 부호가 일치하며, 교란 시계열 데이터의 엔트리의 절대 크기는 각 시계열 엔트리의 절대크기 보다 큰 것을 특징으로 할 수 있다.In addition, the sign of the random noise sign of the entry of each time series data is consistent, and the absolute size of the entry of the disturbance time series data is larger than the absolute size of each time series entry.
또한, 상기 정규화된 시계열 데이터는 수학식 (여기서, Xn은 정규화된 시계열 데이터, X는 각 시계열 데이터, xi(1≤i≤n)는 각 시계열 데이터(X)의 엔트리, avg(X)는 각 시계열 데이터의 평균값, σx는 표준편차를 나타낸다)에 의해 획득되는 것을 특징으로 할 수 있다.Further, the normalized time series data is expressed by the following equation (Wherein, X n is the normalized time series, X is each of time-series data, x i (1≤i≤n) is an entry, avg (X of the respective time-series data (X)) is an average value for each time-series data, σ x is Quot; indicates a standard deviation).
다른 한편으로, 본 발명의 다른 일실시예는, 사용자 입력을 수신하는 사용자 입력부; 및 사용자 입력에 따라 시계열 데이터 집합의 시계열 데이터를 정규화로 변환하는 정규화 변환부; 정규화된 시계열 데이터에 근거하여, 상관 관계 보존이 되는 랜덤 노이즈를 생성하는 노이즈 획득부; 및 생성된 랜덤 노이즈에 의해 교란 시계열 데이터를 생성하는 데이터 생성부;를 포함하는 상관 관계 보존을 위한 노이즈 생성 장치를 제공한다.On the other hand, another embodiment of the present invention is a system comprising: a user input for receiving user input; And a normalization conversion unit for converting the time series data of the time series data set into normalization according to user input; A noise acquiring unit for generating a random noise to be correlated based on the normalized time series data; And a data generation unit for generating disturbance time series data by the generated random noise.
본 발명에 따르면, 프라이버시 보호뿐 아니라 시계열 데이터와의 상관 관계를 유지하는 랜덤 노이즈 교란 기법을 사용자에게 제공할 수 있다.According to the present invention, it is possible to provide a user with a random noise disturbance technique that maintains correlation with time series data as well as privacy protection.
도 1은 본 발명의 일실시예에 따른 상관 관계 보존을 위한 노이즈 생성 장치(100)를 나타내 도면이다.
도 2는 본 발명의 일 실시예에 따른 상관 관계 보존을 위한 노이즈 생성 과정을 보여주는 흐름도이다.
도 3은 도 2에 도시된 시계열 데이터의 정규화 변환 단계(S210)를 더 상세하게 보여주는 흐름도이다.
도 4는 본 발명의 일실시예에 따른 도 2에 도시된 상관 관계가 보존되는 랜덤 노이즈 획득 단계(S220)를 더 상세하게 보여주는 흐름도이다.
도 5는 본 발명의 다른 일실시예에 따른 도 2에 도시된 상관 관계가 보존되는 랜덤 노이즈 획득 단계(S220)를 더 상세하게 보여주는 흐름도이다.
도 6은 본 발명의 또 다른 일실시예에 따른 도 2에 도시된 상관 관계가 보존되는 랜덤 노이즈 획득 단계(S220)를 더 상세하게 보여주는 흐름도이다.1 is a block diagram of a
2 is a flowchart illustrating a noise generation process for preserving a correlation according to an embodiment of the present invention.
FIG. 3 is a flowchart showing the normalization conversion step (S210) of the time series data shown in FIG. 2 in more detail.
FIG. 4 is a flowchart illustrating a random noise acquisition step (S220) in which the correlation shown in FIG. 2 is preserved according to an embodiment of the present invention in more detail.
FIG. 5 is a flowchart illustrating a random noise acquisition step (S220) in which the correlation shown in FIG. 2 is preserved according to another embodiment of the present invention in more detail.
FIG. 6 is a flowchart illustrating a random noise acquisition step S220 in which the correlation shown in FIG. 2 is preserved according to another embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.
각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다.Like reference numerals are used for similar elements in describing each drawing.
제 1, 제 2등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. "및/또는" 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. The term "and / or" includes any combination of a plurality of related listed items or any of a plurality of related listed items.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are to be interpreted as either ideal or overly formal in the sense of the present application Should not.
이하 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 시계열 데이터베이스의 프라이버시 보호에서 상관 관계 보존을 위한 노이즈 생성 방법 및 장치를 상세하게 설명하기로 한다.
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a noise generation method and apparatus for preserving correlation in privacy protection of a time series database according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일실시예에 따른 상관 관계 보존을 위한 노이즈 생성 장치(100)를 나타내 도면이다. 도 1을 참조하면, 상기 상관 관계 보존을 위한 노이즈 생성 장치(100)는 시계열 데이터 소스를 저장하는 시계열 데이터 집합부(110)와 노이즈 생성부(120) 등을 포함하여 구성된다. 이때, 노이즈 생성부(120)는 사용자의 명령을 입력하는 사용자 입력부(121), 시계열 데이터 집합부(110)로부터 입력된 시계열 데이터를 정규화 변환하는 정규화 변환부(122), 변환된 시계열 데이터에 근거하여 상관 관계 보존 유지를 위한 랜덤 노이즈를 획득하는 노이즈 획득부(123), 회득된 랜덤 노이즈에 의해 교란 시계열 데이터를 생성하는 데이터 생성부(124), 및 사용자 입력부(121)를 통해 입력된 사용자의 명령에 따라 노이즈 생성 장치(100)의 동작을 제어하는 제어부(125) 등을 포함하여 구성될 수 있다. 1 is a block diagram of a
상기 사용자 입력부(121)는 사용자가 상관 관계 보존을 위한 노이즈 생성 장치(100)의 동작 제어를 위한 입력 데이터를 발생시킨다. 예컨대, 주어진 시계열 데이터 집합이나 허용치(ε)값, 교란 시계열 데이터 생성 방법 선택, 가우시안 함수의 표준편차 등 상기 사용자 입력부를 통하여 입력될 수 있다.The
정규화 변환부(122)는 상기 시계열 데이터 집합부(110)에 포함된 시계열 데이터를 정규화 변환한다.The
또한, 노이즈 획득부(123)는 상기 변환된 시계열 데이터와 입력 받은 교란 시계열 데이터 생성 방법에 근거하여 각 시계열 엔트리 별로 랜덤 노이즈를 생성하는 역할을 수행한다.The
또한, 데이터 생성부(124)는 상기 생성된 랜덤 노이즈를 이용하여 교란 시계열 데이터를 생성하는 기능을 수행한다.The
상기 제어부(controller, 125)는 상관 관계 보존을 위한 노이즈 생성 장치(100)의 구성요소들을 제어한다. The
시계열 데이터 집합부(110)는 시계열 데이터 소스이다. 물론, 시계열 데이터 집합부(110)는 노이즈 생성 장치(100)의 일부로 구성되는 것으로 도시하였으나, 유선 및/또는 무선 통신망을 통해 외부로부터 수신되는 데이터 소스가 될 수도 있다.The time series
도 2는 본 발명의 일 실시예에 따른 상관 관계 보존을 위한 노이즈 생성 과정을 보여주는 흐름도이다. 도 2를 참조하면, 각 시계열 데이터 집합의 시계열 데이터를 정규화 변환한다(S210).2 is a flowchart illustrating a noise generation process for preserving a correlation according to an embodiment of the present invention. Referring to FIG. 2, time series data of each time series data set is normalized and converted (S210).
이후, 변환된 시계열 데이터에 근거하여 상관 관계 보존 유지를 위해 랜덤 노이즈를 획득한다(S220). 이러한 랜덤 노이즈 획득은 사용자의 선택에 따라 시계열 데이터에 상관 관계 보존이 되는 랜덤 노이즈를 생성하는 것으로 세 가지 방식이 있다. 이를 보여주는 도면이 도 4 내지 도 6에 도시되며, 이에 대하여는 후술하기로 한다.Then, based on the converted time series data, a random noise is acquired for maintaining correlation (S220). This random noise acquisition has three ways of generating a random noise that is correlated with the time series data according to the user's selection. 4 to 6, which will be described later.
도 2를 계속 참조하면, 시계열 데이터에 랜덤 노이즈를 더할 때, 상기 시계열 데이터와 랜덤 노이즈에 의해 교란 시계열 데이터와의 부호를 일치시키는 경우, 상기 교란 시계열 데이터는 프라이버시가 보호되면서 원본 시계열 데이터와의 상관 관계를 유지한다(S230).2, when random noise is added to the time series data and the signs of the time series data and the disturbance time series data are matched by the random noise, the disturbance time series data is correlated with the original time series data while the privacy is protected (S230).
도 3은 도 2에 도시된 시계열 데이터의 정규화 변환 단계(S210)를 더 상세하게 보여주는 흐름도이다. 우선, 발명의 이해를 돕기 위하여, 본 발명의 일실시예에서는 시계열 데이터 집합에 포함된 각 시계열 데이터가 길이 n의 시계열 데이터인 것으로 가정한다.FIG. 3 is a flowchart showing the normalization conversion step (S210) of the time series data shown in FIG. 2 in more detail. First, in order to facilitate the understanding of the invention, it is assumed that each time series data included in the time series data set is time series data having a length n in an embodiment of the present invention.
도 3을 참조하면, 상관 관계 보존을 위한 노이즈 생성 장치(도 1의 100)는 시계열 데이터 집합의 평균값을 획득한다(S310). Referring to FIG. 3, a noise generator (100 in FIG. 1) for preserving correlation acquires an average value of a time series data set (S310).
이후, 획득된 시계열 데이터 집합의 평균값을 근거로 하여 상기 시계열 데이터 집합의 표준편차를 획득한다(S320).Thereafter, the standard deviation of the time series data set is obtained based on the average value of the obtained time series data set (S320).
한편, 본 발명의 일실시예에 의하면, 상관 관계 보존을 위한 노이즈 생성 장치(100)는 상기 획득한 시계열 데이터 집합의 평균값과 표준편차에 의해 상기 시계열 데이터 집합의 각 시계열 데이터를 정규화한다(S330). 예컨대, 상기 시계열 데이터 집합의 각 시계열 데이터(X)는 상기 시계열 데이터의 엔트리마다 상기 평균값을 빼주고 표준편차로 나누어 정규화된 시계열 데이터를 획득할 수 있다. 이를 정리하면 다음식과 같다.Meanwhile, according to an embodiment of the present invention, the
여기서, Xn은 정규화된 시계열 데이터, X는 각 시계열 데이터, xi(1≤i≤n)는 각 시계열 데이터(X)의 엔트리, avg(X)는 각 시계열 데이터의 평균값, σx는 표준편차를 나타낸다.Wherein, X n is the normalized time series, X is an entry for each time-series data, x i (1≤i≤n) is each of time-series data (X), avg (X) is the mean value of the respective time-series data, σ x is the standard Represents the deviation.
도 4는 본 발명의 일실시예에 따른 도 2에 도시된 상관 관계가 보존되는 랜덤 노이즈 획득 단계(S220)를 더 상세하게 보여주는 흐름도이다. 도 4를 참조하면, 상기 상관 관계 보존을 위한 노이즈 생성 장치(도 1의 100)는 길이가 n인 상기 시계열 데이터(X)의 모든 엔트리마다 사용자에 의해 주어진 가우시안 함수의 표준편차 값과 평균 0인 가우시안 함수에 의해 랜덤 노이즈들을 획득한다(S410).FIG. 4 is a flowchart illustrating a random noise acquisition step (S220) in which the correlation shown in FIG. 2 is preserved according to an embodiment of the present invention in more detail. Referring to FIG. 4, the noise generation apparatus (100 in FIG. 1) for preserving the correlation stores a standard deviation value of a Gaussian function given by the user for every entry of the time series data X having a length of n, The random noise is obtained by the Gaussian function (S410).
이때, 다음식을 만족할 때까지 반복하여 랜덤 노이즈들을 생성한다(S420).At this time, random noise is generated repeatedly until the following condition is satisfied (S420).
여기서, xi(1≤i≤n)는 시계열 데이터(X)의 엔트리이며, ni(1≤i≤n)는 랜덤 노이즈를 나타낸다. Here, x i (1? I ? N) is an entry of time series data X and n i (1? I ? N) represents random noise.
상기 과정은 랜덤 노이즈에 의해 상기 시계열 데이터의 부호가 달라지지 않는다면 해당 랜덤 노이즈를 그대로 사용하고, 부호가 달라진다면 랜덤 노이즈를 새롭게 생성한다.If the sign of the time series data does not change due to the random noise, the random noise is used as it is, and a new random noise is generated if the sign is different.
본 발명의 다른 일실시예에 의한 상기 상관 관계 보존을 위한 노이즈 생성 장치(도 1의 100)의 랜덤 노이즈 생성 특징은 다음과 같다. The random noise generation characteristic of the noise generation apparatus (100 in FIG. 1) for preserving the correlation according to another embodiment of the present invention is as follows.
(1) 랜덤 노이즈(ni)의 부호가 원본인 시계열 데이터(X)의 엔트리(xi)와 다르더라도 교란 시계열 데이터의 엔트리(xi+ni)가 시계열 데이터(X)의 엔트리(xi)와 동일한 부호를 가지면 랜덤 노이즈(ni)를 그대로 사용한다. (X i + n i ) of the disturbance time-series data is different from the entry (x i ) of the time-series data X, even if the sign of the random noise n i is different from the entry x i of the time- i ), the random noise (n i ) is used as it is.
(2) 교란 시계열 데이터의 엔트리의 절대 크기(=|xi+ni|)는 기존 시계열 엔트리의 절대크기(=|xi|)보다 작을 수 있다. (2) The absolute magnitude (= | x i + n i |) of the entry of the disturbance time series data may be less than the absolute magnitude (= | x i |) of the existing time series entry.
한편, 위 (1)의 특징에 의하면, 상기 과정은 랜덤 노이즈의 분포, 즉 랜덤 노이즈의 평균과 표준편차를 왜곡할 수 있다. 즉, 식(xi ㆍ(xi+ni)<0)을 만족할 때까지 랜덤 노이즈를 반복적으로 재생성함에 따라 랜덤 노이즈의 평균과 표준편차는 0과 σ와 각각 달라질 수 있다. According to the above feature (1), the above procedure can distort the distribution of the random noise, that is, the average and standard deviation of the random noise. That is, the mean and standard deviation of the random noise in accordance with the reproduction name as random noise repeated until it satisfies the equation (x i and (x i + n i) < 0) may be different, respectively, and 0 and σ.
도 5는 본 발명의 다른 일실시예에 따른 도 2에 도시된 상관 관계가 보존되는 랜덤 노이즈 획득 단계(S220)를 더 상세하게 보여주는 흐름도이다. 도 5를 참조하면, 상기 상관 관계 보존을 위한 노이즈 생성 장치(100)는 길이가 n인 상기 시계열 데이터(X)의 모든 엔트리(xi,1≤i≤n)마다 사용자에 의해 주어진 가우시안 함수의 표준편차 값과 평균 0인 가우시안 함수에 의해 랜덤 노이즈(ni,1≤i≤n)를 획득한다(S510). FIG. 5 is a flowchart illustrating a random noise acquisition step (S220) in which the correlation shown in FIG. 2 is preserved according to another embodiment of the present invention in more detail. Referring to FIG. 5, the
이때, 식(xiㆍni<0)을 만족할 때까지 반복하여 랜덤 노이즈를 생성한다(S520). 상기 과정은 랜덤 노이즈와 상기 시계열 데이터의 부호가 같으면 그대로 사용하고, 그렇지 않으면 동일한 부호를 가질 때까지 랜덤 노이즈를 다시 생성한다.At this time, random noise is repeatedly generated until the expression (x i · n i <0) is satisfied (S520). If the random noise and the sign of the time series data are the same, the process is used as it is, and random noise is generated again until the same sign is obtained.
본 발명의 일실시예에 의한 상기 상관 관계 보존을 위한 노이즈 생성 장치(100)의 랜덤 노이즈 생성 특징은 다음과 같다.The random noise generation characteristic of the
(1) 도 4에서 도시한 랜덤 노이즈 생성 과정과 다르게, 시계열 데이터의 엔트리(xi)와 교란 시계열 데이터의 엔트리(xi+ni)가 동일한 부호를 가지더라도, 랜덤 노이즈(ni)가 시계열 데이터의 엔트리(xi)와 다른 부호를 가진다면 랜덤 노이즈(ni)를 다시 생성한다. (1) Entry (x i) and the entry of disturbing the time-series data (x i + n i) of a random noise generating process and different from, the time-series data shown in Figure 4 is that, even if of the same symbols, the random noise (n i) And generates a random noise (n i ) if it has a sign different from the entry (x i ) of the time series data.
(2) 시계열 데이터의 엔트리(xi)와 랜덤 노이즈(ni)가 동일한 부호를 가지므로, 교란 시계열 데이터의 엔트리의 절대 크기(=|xi+ni|)는 기존 시계열 엔트리의 절대크기(=|xi|)보다 항상 크다. (2) Since the entries (x i ) and random noise (n i ) of the time series data have the same sign, the absolute size (= | x i + n i |) of entries of the disturbance time- (= | x i |).
도 6은 본 발명의 또 다른 일실시예에 따른 도 2에 도시된 상관 관계가 보존되는 랜덤 노이즈 획득 단계(S220)를 더 상세하게 보여주는 흐름도이다. 도 6을 참조하면, 상기 상관 관계 보존을 위한 노이즈 생성 장치(100)는 길이가 n인 상기 시계열 데이터(X)의 모든 엔트리(xi,1≤i≤n)마다 사용자에 의해 주어진 가우시안 함수의 표준편차 값과 평균 0인 가우시안 함수에 의해 랜덤 노이즈(ni,1≤i≤n)를 획득한다(S610).FIG. 6 is a flowchart illustrating a random noise acquisition step S220 in which the correlation shown in FIG. 2 is preserved according to another embodiment of the present invention. Referring to FIG. 6, the
이때, 식(xiㆍni<0)을 만족하지 않는다면 랜덤 노이즈(ni)의 부호를 강제로 변경(-ni)하여 시계열 데이터의 엔트리(xi)부호와 일치시킨다(S620).At this time, if the expression (x i · n i <0) is not satisfied, the sign of the random noise n i is forcibly changed (-n i ) to match the entry (x i ) of the time series data (S620).
상기 과정은 랜덤 노이즈와 상기 시계열 데이터의 부호가 같으면 그대로 사용하는 것에는 도 5에서 도시한 랜덤 노이즈 생성 과정과 일치하나, 그렇지 않을 경우에는 랜덤 노이즈를 재생성을 통해 부호를 일치시키는 것과 달리 랜덤 노이즈 부호를 강제로 변경하여 부호를 일치시킨다는 점에서 차이가 있다.If the random noise and the sign of the time series data are the same, the process is identical to the random noise generation process shown in FIG. 5, but if not, the random noise is re- Are forcedly changed to match the sign.
본 발명의 또 다른 일실시예에 의한 상기 상관 관계 보존을 위한 노이즈 생성 장치(100)의 랜덤 노이즈 생성 특징은 다음과 같다. The random noise generation characteristic of the
(1) 도 4에서 도시한 랜덤 노이즈 생성 과정과 다른 점은 시계열 데이터의 엔트리(xi)와 교란 시계열 데이터의 엔트리 (xi+ni)가 동일한 부호를 가지더라도 시계열 데이터의 엔트리(xi)와 랜덤 노이즈(ni)의 부호가 일치하지 않으면, 랜덤 노이즈(ni)의 부호를 변경한다. (1) a random noise generating process and the difference is that even if there is an entry (x i) and the entry of disturbing the time-series data (x i + n i) of the time series data of the same sign entry of the time series data shown in Figure 4 (x i ) And the random noise (n i ) do not coincide with each other, the sign of the random noise (n i ) is changed.
(2) 도 5에서 도시한 랜덤 노이즈 생성 과정과 유사하게 시계열 데이터의 엔트리(xi)와 랜덤 노이즈(ni)의 부호가 일치하며, 교란 시계열 데이터의 엔트리의 절대 크기(=|xi+ni|)는 기존 시계열 엔트리의 절대크기(=|xi|)보다 항상 크다.(2) The sign of the random noise (n i ) and the entry (x i ) of the time series data coincide with each other and the absolute size (= | x i + n i | always greater than) |) is the absolute size (= the previous time-series entry | x i.
한편, 상기 위 2가지 특징에 의하면, 상기 과정은 역시 도 4에 도시한 랜덤 노이즈 생성 과정과 유사하게 노이즈의 분포와 시계열 데이터 간의 상관 관계를 왜곡할 수 있다.According to the above two features, the above process can also distort the correlation between the noise distribution and the time series data similarly to the random noise generation process shown in FIG.
본 발명의 일 실시예에 의한 상관 관계 보존 노이즈 생성 방법은 시계열 데이터 교란시 프라이버시뿐 아니라 상관 관계의 보존 정도가 향상될 수 있다. 즉, 본 발명의 상관 관계 보존 노이즈 생성 방법은 프라이버시가 필요한 예측 마이닝 어플리케이션이나 상관 관계 고려 질의에 매우 효과적으로 적용될 수 있다.
The correlation preserving noise generation method according to an embodiment of the present invention can improve the degree of preservation of the correlation as well as the privacy in time series data disturbance. That is, the correlation preservation noise generation method of the present invention can be applied to predictive mining applications and correlation consideration queries requiring privacy very effectively.
또한, 당업자는, 여기에 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 논리 블록들 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로서 구현될 수도 있음을 인식할 것이다. 하드웨어와 소프트웨어의 이러한 상호교환가능성을 명확히 나타내기 위해, 다양한 예시적인 블록들 및 단계들은 그들의 기능의 관점에서 일반적으로 상술되었다. In addition, those skilled in the art will recognize that the various illustrative logical blocks and algorithms described in connection with the embodiments disclosed herein may be implemented as electronic hardware, computer software, or combinations of both. In order to clearly illustrate this interchangeability of hardware and software, various exemplary blocks and steps have been described above generally in terms of their functionality.
그러한 기능이 하드웨어 또는 소프트웨어로서 구현될지는, 전체 시스템에 부과된 설계 제약들 및 특정한 애플리케이션에 의존한다. 당업자는, 각각의 특정한 애플리케이션에 대해 다양한 방식들로 그 설명된 기능을 구현할 수도 있지만, 그러한 구현 결정이 본 발명의 예시적인 실시형태들의 범위를 벗어나게 하는 것으로 해석되지는 않아야 한다.Whether such functionality is implemented as hardware or software depends upon the design constraints and specific applications imposed on the overall system. Skilled artisans may implement the described functionality in varying ways for each particular application, but such implementation decisions should not be interpreted as causing a departure from the scope of the exemplary embodiments of the present invention.
여기에 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 논리 블록들은, 범용 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적회로(ASIC), 필드 프로그래밍가능한 게이트 어레이(FPGA) 또는 다른 프로그래밍가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기에 설명된 기능들을 수행하도록 설계된 그들의 임의의 조합으로 구현되거나 수행될 수도 있다. The various illustrative logical blocks described in connection with the embodiments disclosed herein may be implemented or performed with a general purpose processor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a field programmable gate array (FPGA) Discrete gate or transistor logic, discrete hardware components, or any combination thereof designed to perform the functions described herein.
범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 그 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 또한, 프로세서는 컴퓨팅 디바이스들의 결합, 예를 들어, DSP와 마이크로프로세서의 결합, 복수의 마이크로프로세서들, DSP 코어와 결합한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다.A general purpose processor may be a microprocessor, but, in the alternative, the processor may be any conventional processor, controller, microcontroller, or state machine. A processor may also be implemented as a combination of computing devices, e.g., a combination of a DSP and a microprocessor, a plurality of microprocessors, one or more microprocessors in conjunction with a DSP core, or any other such configuration.
여기에 개시된 실시형태들과 관련하여 설명된 방법 또는 알고리즘의 단계들은, 하드웨어에 직접, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들의 조합으로 구현될 수도 있다. 소프트웨어 모듈은, 랜덤 액세스 메모리(RAM), 플래시 메모리, 판독 전용 메모리(ROM), 전기적으로 프로그래밍가능한 ROM(EPROM), 전기적으로 소거가능한 프로그래밍가능 ROM(EEPROM), 레지스터들, 하드 디스크, 착탈형 디스크, CD-ROM, 또는 당업계에 공지된 임의의 다른 형태의 저장 매체에 상주할 수도 있다. The steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, in a software module executed by a processor, or in a combination of the two. A software module may reside in a memory such as a random access memory (RAM), a flash memory, a read only memory (ROM), an electrically programmable ROM (EPROM), an electrically erasable programmable ROM (EEPROM), registers, CD-ROM, or any other form of storage medium known in the art.
예시적인 저장 매체는 프로세서에 커플링되어, 그 프로세서가 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있게 한다. 대안적으로,저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC에 상주할 수도 있다. ASIC는 사용자 단말기에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말기 내의 별개의 컴포넌트들로서 상주할 수도 있다.An exemplary storage medium is coupled to the processor such that the processor can read information from, and write information to, the storage medium. Alternatively, the storage medium may be integral to the processor. The processor and the storage medium may reside in an ASIC. The ASIC may reside in a user terminal. Alternatively, the processor and the storage medium may reside as discrete components in a user terminal.
하나 이상의 예시적인 실시형태들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 그 기능들은 컴퓨터-판독가능 매체 상의 하나 이상의 명령들 또는 코드로서 저장되거나 송신될 수도 있다. 컴퓨터-판독가능 매체는, 일 장소로부터 또 다른 장소로의 컴퓨터 프로그램의 전달을 용이하게 하는 임의의 매체를 포함하는 통신 매체 및 컴퓨터 저장 매체 양자를 포함한다. 저장 매체는, 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 제한이 아닌 예로서, 그러한 컴퓨터-판독가능 매체는, RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 저장부, 자성 디스크 저장부 또는 다른 자성 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 운반 또는 저장하는데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다.In one or more exemplary embodiments, the functions described may be implemented in hardware, software, firmware, or any combination thereof. When implemented in software, the functions may be stored or transmitted as one or more instructions or code on a computer-readable medium. The computer-readable medium includes both a communication medium and a computer storage medium, including any medium that facilitates transfer of a computer program from one place to another. The storage medium may be any available media that can be accessed by a computer. By way of example, and not limitation, such computer-readable media can be stored in RAM, ROM, EEPROM, CD-ROM or other optical disk storage, magnetic disk storage or other magnetic storage devices, And any other medium which can be used to carry or store the desired program code and which can be accessed by a computer.
또한, 임의의 접속이 컴퓨터-판독가능 매체로서 적절히 명칭된다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 쌍, 디지털 가입자 라인(DSL), 또는 적외선, 무선 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되면, 그 동축 케이블, 광섬유 케이블, 트위스티드 쌍, DSL, 또는 적외선, 무선 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 여기에 사용된 바와 같이, 디스크 및 디스크(disc) 는, 콤팩트 디스크(CD), 레이저 디스크, 광 디스크, DVD(digital versatile disc), 플로피 디스크 및 블루-레이 디스크를 포함하며, 여기서, 디스크(disk)들은 일반적으로 데이터를 자성적으로 재생하지만, 디스크(disc) 는 레이저들을 이용하여 데이터를 광학적으로 재생한다. 또한, 상기의 조합들이 컴퓨터-판독가능 매체의 범위 내에 포함될 수 있다.Also, any connection is properly termed a computer-readable medium. For example, if the software is transmitted from a web site, server, or other remote source using wireless technologies such as coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), or infrared, wireless and microwave, Wireless technologies such as cable, fiber optic cable, twisted pair, DSL, or infrared, radio, and microwave are included within the definition of media. As used herein, discs and discs include compact disc (CD), laser disc, optical disc, digital versatile disc (DVD), floppy disc and Blu-ray disc, ) Typically reproduce data autonomously, but discs use lasers to optically reproduce the data. Also, combinations of the above may be included within the scope of computer-readable media.
100: 노이즈 생성 장치
110: 시계열 데이터 집합부
120: 노이즈 생성부
121: 사용자 입력부
122: 정규화 변환부
123: 노이즈 획득부
124: 데이터 생성부
125: 제어부100: Noise generating device
110: Time series data set section
120: Noise generating unit
121: user input section
122: normalization conversion unit
123: Noise acquisition unit
124:
125:
Claims (14)
시계열 데이터 집합의 시계열 데이터를 정규화로 변환하는 정규화 변환 단계;
정규화된 시계열 데이터에 근거하여, 상관 관계 보존이 되는 랜덤 노이즈를 생성하는 랜덤 노이즈 생성 단계; 및
생성된 랜덤 노이즈에 의해 교란 시계열 데이터를 생성하는 교란 시계열 데이터 생성 단계;를 포함하며,
상기 정규화 변환 단계는,
상기 시계열 데이터 집합의 평균값을 획득하는 단계;
획득된 시계열 데이터 집합의 평균값을 근거로 상기 시계열 데이터 집합의 표준 편차를 획득하는 단계; 및
획득된 평균값 및 표준 편차를 이용하여 상기 시계열 데이터 집합의 각 시계열 데이터를 정규화하는 단계;를 포함하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
A noise generation method for preserving correlation,
A normalization conversion step of converting time series data of a time series data set into normalization;
A random noise generation step of generating a random noise to be correlated based on the normalized time series data; And
And generating a disturbance time series data by the generated random noise;
Wherein the normalization conversion step comprises:
Obtaining an average value of the time series data set;
Obtaining a standard deviation of the time series data set based on an average value of the acquired time series data sets; And
And normalizing each time series data of the time series data set using the obtained average value and standard deviation.
상기 랜덤 노이즈 생성 단계는,
가우시안 함수에 의한 랜덤 노이즈들을 획득하는 단계;
획득된 랜덤 노이즈들 중 각 시계열 데이터의 부호와 동일한 부호의 랜덤 노이즈를 획득하는 단계; 및
획득한 동일한 부호의 랜덤 노이즈에 의해 교란된 각 시계열 데이터를 획득하는 단계;를 포함하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
The method according to claim 1,
Wherein the random noise generating step comprises:
Obtaining random noises by the Gaussian function;
Obtaining random noise having the same sign as the sign of each time series data among the obtained random noises; And
And obtaining each time-series data disturbed by random noises of the obtained same code Noise generation method for correlation preservation.
획득된 랜덤 노이즈에 의해 상기 각 시계열 데이터의 부호가 달라지지 않으면 해당 랜덤 노이즈를 그대로 사용하고, 부호가 달라지면 랜덤 노이즈를 다시 생성하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
The method of claim 3,
Wherein the random noise is used as it is if the signs of the time series data are not changed by the obtained random noise, and the random noise is generated again when the signs are different.
상기 랜덤 노이즈 생성 단계는,
가우시안 함수에 의한 랜덤 노이즈들을 획득하는 단계;
획득된 랜덤 노이즈들 중 각 시계열 데이터의 부호와 랜덤 노이즈에 의해 교란된 시계열 데이터의 부호가 동일한 랜덤 노이즈를 획득하는 단계; 및
획득된 동일한 랜덤 노이즈에 의해 교란된 각 시계열 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
The method according to claim 1,
Wherein the random noise generating step comprises:
Obtaining random noises by the Gaussian function;
Acquiring a random noise having the same sign of the time series data disturbed by the sign and the random noise of each time series data among the obtained random noises; And
And obtaining each time-series data disturbed by the obtained same random noise.
상기 랜덤 노이즈 생성 단계는,
가우시안 함수에 의한 랜덤 노이즈들을 획득하는 단계;
획득된 랜덤 노이즈들중 각 시계열 데이터의 부호와 동일한 부호로 변경된 랜덤 노이즈를 획득하는 단계; 및
획득된 동일한 부호로 변경된 랜덤 노이즈에 의해 교란된 각 시계열 데이터를 획득하는 단계;를 포함하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
The method according to claim 1,
Wherein the random noise generating step comprises:
Obtaining random noises by the Gaussian function;
Obtaining random noise that has been changed to the same sign as the sign of each time series data among the obtained random noises; And
And obtaining each time series data disturbed by random noises changed to the obtained same code.
랜덤 노이즈의 부호가 각 시계열 데이터의 엔트리와 다르더라도 교란 시계열 데이터의 엔트리가 각 시계열 데이터의 엔트리와 동일한 부호를 가지면 랜덤 노이즈를 그대로 사용하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
The method of claim 3,
Wherein random noise is used as it is when entries of disturbance time series data have the same sign as entries of each time series data even if the sign of random noise is different from the entry of each time series data.
교란 시계열 데이터의 엔트리의 절대 크기는 각 시계열 데이터의 엔트리의 절대크기 보다 작은 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
The method of claim 3,
Wherein the absolute size of the entry of the disturbance time series data is smaller than the absolute size of the entry of each time series data.
각 시계열 데이터의 엔트리와 교란 시계열 데이터의 엔트리가 동일한 부호를 가지더라도, 랜덤 노이즈가 시계열 데이터의 엔트리와 다른 부호를 가지면 랜덤 노이즈를 다시 생성하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
5. The method of claim 4,
And random noise is generated again if the random noise is different from the entry of the time series data even if the entry of each time series data and the entry of the disturbance time series data have the same sign.
각 시계열 데이터의 엔트리와 랜덤 노이즈가 동일한 부호를 가지므로, 교란 시계열 데이터의 엔트리의 절대 크기는 각 시계열 엔트리의 절대크기보다 큰 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
5. The method of claim 4,
Wherein entries of the time series data and random noise have the same sign so that the absolute size of the entries of the disturbance time series data is larger than the absolute size of each time series entry.
각 시계열 데이터의 엔트리와 교란 시계열 데이터의 엔트리가 동일한 부호를 가지더라도 각 시계열 데이터의 엔트리와 랜덤 노이즈의 부호가 일치하지 않으면, 랜덤 노이즈의 부호를 변경하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
6. The method of claim 5,
Wherein the code of the random noise is changed when the entry of each time series data and the entry of the time series data have the same sign but the sign of the random noise does not coincide with the entry of each time series data. Way.
각 시계열 데이터의 엔트리와 랜덤 노이즈의 부호가 일치하며, 교란 시계열 데이터의 엔트리의 절대 크기는 각 시계열 엔트리의 절대크기 보다 큰 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
6. The method of claim 5,
Wherein an entry of each time series data matches a sign of random noise and an absolute size of an entry of the disturbance time series data is larger than an absolute size of each time series entry.
상기 정규화된 시계열 데이터는 수학식 (여기서, Xn은 정규화된 시계열 데이터, X는 각 시계열 데이터, xi(1≤i≤n)는 각 시계열 데이터(X)의 엔트리, avg(X)는 각 시계열 데이터의 평균값, σx는 표준편차를 나타낸다)에 의해 획득되는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 방법.
The method according to claim 1,
The normalized time series data is expressed by the following equation (Wherein, X n is the normalized time series, X is each of time-series data, x i (1≤i≤n) is an entry, avg (X of the respective time-series data (X)) is an average value for each time-series data, σ x is And the standard deviation is obtained by the following equation.
사용자 입력에 따라 시계열 데이터 집합의 시계열 데이터를 정규화로 변환하는 정규화 변환부;
정규화된 시계열 데이터에 근거하여, 상관 관계 보존이 되는 랜덤 노이즈를 생성하는 노이즈 획득부; 및
생성된 랜덤 노이즈에 의해 교란 시계열 데이터를 생성하는 데이터 생성부;를 포함하며,
상기 정규화 변환부는,
상기 시계열 데이터 집합의 평균값을 획득하고, 획득된 시계열 데이터 집합의 평균값을 근거로 상기 시계열 데이터 집합의 표준 편차를 획득하고, 획득된 평균값 및 표준 편차를 이용하여 상기 시계열 데이터 집합의 각 시계열 데이터를 정규화하는 것을 특징으로 하는 상관 관계 보존을 위한 노이즈 생성 장치.A user input for receiving user input; And
A normalization conversion unit for converting time series data of a time series data set into normalization according to user input;
A noise acquiring unit for generating a random noise to be correlated based on the normalized time series data; And
And a data generation unit for generating disturbance time series data by the generated random noise,
Wherein the normalization conversion unit comprises:
And acquiring a mean value of the set of time series data, obtaining a standard deviation of the time series data set based on an average value of the obtained time series data set, normalizing each time series data of the time series data set using the obtained average value and standard deviation And a noise reduction unit for noise reduction.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140030061A KR101589038B1 (en) | 2014-03-14 | 2014-03-14 | Method and device for generating random noise data preserving the correlation on privacy preserving time-series databases |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140030061A KR101589038B1 (en) | 2014-03-14 | 2014-03-14 | Method and device for generating random noise data preserving the correlation on privacy preserving time-series databases |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150107331A KR20150107331A (en) | 2015-09-23 |
KR101589038B1 true KR101589038B1 (en) | 2016-01-27 |
Family
ID=54245871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140030061A KR101589038B1 (en) | 2014-03-14 | 2014-03-14 | Method and device for generating random noise data preserving the correlation on privacy preserving time-series databases |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101589038B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182645B (en) * | 2020-09-15 | 2022-02-11 | 湖南大学 | Quantifiable privacy protection method, equipment and medium for destination prediction |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003501925A (en) | 1999-06-07 | 2003-01-14 | エリクソン インコーポレイテッド | Comfort noise generation method and apparatus using parametric noise model statistics |
KR100674550B1 (en) | 1998-12-14 | 2007-01-29 | 가부시키가이샤 히타치세이사쿠쇼 | Information processing device |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8555400B2 (en) | 2011-02-04 | 2013-10-08 | Palo Alto Research Center Incorporated | Privacy-preserving aggregation of Time-series data |
KR101426673B1 (en) | 2012-02-14 | 2014-08-05 | 주식회사 케이티 | Method of Distributed Indexing and Searching for Effective Analysis of Time Series Data in Search System |
KR101331350B1 (en) | 2012-05-15 | 2013-11-20 | 고려대학교 산학협력단 | Large-scale, time-series data handling method using data cube |
-
2014
- 2014-03-14 KR KR1020140030061A patent/KR101589038B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100674550B1 (en) | 1998-12-14 | 2007-01-29 | 가부시키가이샤 히타치세이사쿠쇼 | Information processing device |
JP2003501925A (en) | 1999-06-07 | 2003-01-14 | エリクソン インコーポレイテッド | Comfort noise generation method and apparatus using parametric noise model statistics |
Non-Patent Citations (1)
Title |
---|
홍선경 외 2명, "프라이버시 보호 시계열 데이터 마이닝", 정보과학회논문지: 데이터베이스 제40권 제2호, pp. 124~133, 2013.4 |
Also Published As
Publication number | Publication date |
---|---|
KR20150107331A (en) | 2015-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11206256B2 (en) | Table-connected tokenization | |
US8627483B2 (en) | Data anonymization based on guessing anonymity | |
US20150347756A1 (en) | Automatic library detection | |
US20140196151A1 (en) | Preserving geometric properties of datasets while protecting privacy | |
US9922240B2 (en) | Clustering large database of images using multilevel clustering approach for optimized face recognition process | |
JP6689283B2 (en) | Method and apparatus for assigning device fingerprints to internet devices | |
CN111079186B (en) | Data analysis method, device, equipment and storage medium | |
Radhika et al. | Toeplitz matrices whose elements are the coefficients of functions with bounded boundary rotation | |
Zeng | A unified definition of mutual information with applications in machine learning | |
US20180181563A1 (en) | Data storage for mobile terminals | |
Otunuga | Global stability of nonlinear stochastic SEI epidemic model with fluctuations in transmission rate of disease | |
Miranville | A singular reaction‐diffusion equation associated with brain lactate kinetics | |
KR101589038B1 (en) | Method and device for generating random noise data preserving the correlation on privacy preserving time-series databases | |
US10032009B2 (en) | Motion information filtering | |
Taskesen et al. | On Global Solutions for the Cauchy Problem of a Boussinesq‐Type Equation | |
CN113591127B (en) | Data desensitization method and device | |
US9600772B1 (en) | Infrastructure enabling information systems to be aware and self-aware | |
Deng | Fast compressive bilateral filter | |
US20180063116A1 (en) | Method and apparatus for generating an intelligent primary key facilitating faster object retrieval | |
Mohammed et al. | Strong Convergence for the Split Common Fixed‐Point Problem for Total Quasi‐Asymptotically Nonexpansive Mappings in Hilbert Space | |
Jiao et al. | An effective branch and bound algorithm for minimax linear fractional programming | |
Salam | Traveling‐Wave Solution of Modified Liouville Equation by Means of Modified Simple Equation Method | |
CN115952524A (en) | Data writing method, data query device, equipment and medium | |
US20230116599A1 (en) | Method, electronic device, and computer program product for recommending protection strategy | |
Sim et al. | A New Solution Operator of One‐Dimensional p‐Laplacian with a Sign‐Changing Weight and Its Application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20140314 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20150730 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20160119 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20160121 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20160122 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20190103 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20190103 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20200103 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20200103 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20210105 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20220104 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20230103 Start annual number: 8 End annual number: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20240103 Start annual number: 9 End annual number: 9 |