JP2014132439A - Method for encoding incoming signal - Google Patents
Method for encoding incoming signal Download PDFInfo
- Publication number
- JP2014132439A JP2014132439A JP2013241500A JP2013241500A JP2014132439A JP 2014132439 A JP2014132439 A JP 2014132439A JP 2013241500 A JP2013241500 A JP 2013241500A JP 2013241500 A JP2013241500 A JP 2013241500A JP 2014132439 A JP2014132439 A JP 2014132439A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- distance
- embedding
- signals
- embedded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000013139 quantization Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 21
- 230000003121 nonmonotonic effect Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 12
- 239000007943 implant Substances 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000013507 mapping Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 240000001973 Ficus microcarpa Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、包括的にはデータを符号化することに関し、より詳細には、データ間のペアワイズ距離を保持するように、汎用量子化埋込みを用いてデータを符号化することに関する。 The present invention relates generally to encoding data, and more particularly to encoding data using generalized quantization embedding so as to maintain a pairwise distance between the data.
信号比較及び最近傍方法
信号比較は、信号処理における最も重要で普及したタスクのうちの1つである。多数の用途は基本的に以下の2つの質問、すなわち、(1)信号をどのように比較するべきか?(2)1組の信号及びクエリ信号を所与として、いずれの信号がクエリ信号の最近傍であるか、すなわち、データベース内のいずれの他の信号がクエリ信号に最も類似しているか?に対する回答を求めることに依拠する。
Signal comparison and nearest neighbor method Signal comparison is one of the most important and popular tasks in signal processing. Many applications basically have the following two questions: (1) How should the signals be compared? (2) Given a set of signals and a query signal, which signal is the nearest neighbor of the query signal, ie which other signals in the database are most similar to the query signal? Rely on seeking answers to
信号比較は、最近傍(NN)探索問題の基本構成要素であり、以下のように定義される。信号及びクエリ信号を含む集合(多くの場合にデータベースと呼ばれる)を所与として、データベース内でクエリ信号に最も近い点を見つける。この問題は、K−NN、すなわち、クエリ信号のK個の最近傍を求めることに拡張することができる。この文脈において、当の信号は、画像、ビデオ、画像若しくはビデオから抽出された特徴、又は他の波形とすることができる。「最も近い」という修飾語は、信号の対間のユークリッド距離又はマンハッタン距離等の距離メトリックを指す。この距離メトリックは、比較されている信号間の類似度の何らかの概念をとらえる。2つの信号がこの信号メトリックに従って近接している場合、これは、これらの信号が類似してもいることを意味する。 Signal comparison is a basic component of the nearest neighbor (NN) search problem and is defined as follows. Given a set containing signals and query signals (often referred to as a database), find the closest point in the database to the query signal. This problem can be extended to finding K-NN, ie K nearest neighbors of the query signal. In this context, the signal in question can be an image, video, a feature extracted from the image or video, or other waveform. The “closest” modifier refers to a distance metric, such as a Euclidean distance or a Manhattan distance between a pair of signals. This distance metric captures some concept of similarity between the signals being compared. If two signals are close according to this signal metric, this means they are also similar.
画像の取出し
通常の画像取出し用途では、クエリ画像(データ又は信号の形態)がクライアントによって未知のオブジェクト又はシーンから取得される。クエリ画像は、サーバーにあるデータベース内に記憶された既知のオブジェクト又はシーンのデータベース内の画像と比較され、類似した画像が判定される。上記で説明したように、類似度は未知のデータにおける特徴と既知のデータにおける特徴との間の距離として表すことができる。そのような用途の性能は、距離を効率的に符号化することによって大幅に改善することができる。探索は迅速で計算効率を良くするべきである一方、送信は帯域幅効率を良くするべきである。
Image retrieval In typical image retrieval applications, a query image (in the form of data or signals) is obtained from an unknown object or scene by a client. The query image is compared with images in a database of known objects or scenes stored in a database at the server to determine similar images. As explained above, similarity can be expressed as the distance between features in unknown data and features in known data. The performance of such applications can be greatly improved by efficiently encoding the distance. Search should be fast and computationally efficient, while transmission should be bandwidth efficient.
スケール普遍の特徴変換(SIFT:scale−invariant feature transform)、高速化ロバスト特徴(SURF:speeded up robust feature)、及び(画像の)GIST、及び関連技術を用いる画像記述子は、ビットレートが問題とならないとき、大域的な画像特徴又は局所的な画像の詳細を用いた高速な探索を可能にする。通信複雑度に対処するのに、いくつかのトレーニングベースの方法が既知である。しかしながら、これらの全ての方法は、新たなデータベースエントリが追加される度に再トレーニングすることを必要とし、信号統計に変化を引き起こす。 Image descriptors using scale-invariant feature transform (SIFT), accelerated robust features (SURF), GIST (for images), and related techniques, have a bit rate problem. When not, it enables fast searching using global image features or local image details. Several training-based methods are known to deal with communication complexity. However, all these methods require retraining each time a new database entry is added, causing changes in signal statistics.
拡張現実(AR:augmented reality)用途では、再トレーニングは望ましくない。サーバーにおけるトレーニングの複雑性に加えて、繰り返し再トレーニングすることは、再トレーニングされたパラメーターを用いてクライアントを更新することを必要とする。このため、トレーニングを必要としない方法が好ましい。これらは、圧縮勾配ヒストグラム(CHoG:compressed histogram of gradients)を含む。ここでは、記述子はベクトル量子化及びコンパクト射影(compact projection)を用いて圧縮されるように明示的に設計される。これは確立された記述子に対する局所性鋭敏型ハッシュ(LSH:locality sensitive hashing)を用いる。 In augmented reality (AR) applications, retraining is undesirable. In addition to the training complexity at the server, repeated retraining requires updating the client with the retrained parameters. For this reason, a method that does not require training is preferable. These include compressed histograms of gradients (CHOG). Here, the descriptor is explicitly designed to be compressed using vector quantization and compact projection. This uses a local sensitive hash (LSH) for the established descriptor.
レート歪み
コーディング理論が関与する1つの態様は、データの符号化に関するレート歪み(R−D)を最適化すること、すなわち、データにおいて被る歪みを最小にしながら、データを符号化するのに最小数のビットを用いることに取り組む。本明細書において用いられるとき、データ及び信号は交換可能に用いることができる。
Rate Distortion One aspect involving coding theory is to optimize the rate distortion (RD) for data encoding, i.e., the minimum number to encode data while minimizing the distortion suffered in the data. Work on using a bit of. As used herein, data and signals can be used interchangeably.
例えば、画像又はビデオの符号化の間、符号化器は復号化後の所与の視覚品質のためにレートを低減するよう試みる。通常、R−Dはデータのエンドユーザー、例えば視聴者によって確定される。 For example, during image or video encoding, the encoder attempts to reduce the rate for a given visual quality after decoding. Usually, RD is determined by the end user of the data, eg, the viewer.
ランダム化された埋込み
埋込みは高次元データ(又は信号)をより低次元に変換し、データの相対的ジオメトリの或る態様、例えばデータの類似度の観点では距離が保持されるようにする。ジオメトリが保持されるので、距離計算は元の高次元データではなく低次元データ、多くの場合、低レートのデータ埋込みに対し直接実行することができる。
Randomized embedding Embedding transforms high-dimensional data (or signals) to lower dimensions so that distances are preserved in terms of certain aspects of the relative geometry of the data, for example, the degree of similarity of the data. Since the geometry is preserved, the distance calculation can be performed directly on the low dimensional data rather than the original high dimensional data, often low rate data embedding.
図3は、例示的な高次元Lのデータ点u,v及び低次元対数Lにおいて距離dを保持する距離保持埋込み関数g(d(u,v))を示している。ここで、「^」は近似を示す。利点として、埋込みはより低い送信レートを用いることができる。 FIG. 3 shows a distance holding embedding function g (d (u, v)) that holds the distance d at exemplary high-dimensional L data points u, v and low-dimensional logarithm L. FIG. Here, “^” indicates approximation. As an advantage, embedding can use a lower transmission rate.
よく知られたジョンソン−リンデンシュトラウスの補題によれば、点間の距離が近似的に保持されるように、高次元データ点の小さな集合を低次元ユークリッド空間に埋め込むことができる。例えば、Johnson他「Extensions of Lipschitz mappings into a Hilbert space」(Conference in Modern Analysis and Probability,Contemporary Mathematics,American Mathematical Society,pp.189−206,1982)を参照されたい。 According to the well-known Johnson-Lindenstrauss lemma, a small set of high-dimensional data points can be embedded in the low-dimensional Euclidean space so that the distance between the points is approximately maintained. See, for example, Johnson et al. "Extensions of Lipschitz mappings into a Hilbert space" (Conference in Modern Analysis and Probability, i.e.
図4に示すように、ジョンソン−リンデンシュトラウス(J−L)埋込みの場合、関数は線形増加である(increasingly linear)。汎用量子化埋込みの場合、関数は最初、比較的小さい距離について概ね線形であり、その後、しきい値距離D0を超える距離について急速に平坦化する。 As shown in FIG. 4, in the case of a Johnson-Lindenstrauss (JL) implant, the function is an increasing linearly. For generic quantization embedding function to begin in the generally linear for a relatively small distance, thereafter, rapidly planarize the distance exceeding the threshold distance D 0.
よく知られた埋込みはJ−L埋込みを含み、すなわち、信号の有限集合
換言すれば、埋込みは小さな誤差許容範囲ε内で点クラウドのユークリッド距離l2を保持する。 In other words, the embedding maintains the Euclidean distance l 2 of the point cloud within a small error tolerance ε.
ジョンソン及びリンデンシュトラウスは、上記で説明した距離が次元
線形マッピングを用いてそのような埋込みを求めることは簡単である。特に、関数f(x)=Ax(ここでAは、そのエントリが特定の分布からランダムに引き出されるK×Nの行列である)は、圧倒的な確率を有するJ−L埋込みである。一般的に用いられる分布には、独立同一分布(i.i.d.)、ガウス、i.i.d.ラーデマッヘル、又は一様i.i.d.が含まれる。 Finding such an embedding using linear mapping is straightforward. In particular, the function f (x) = Ax, where A is a K × N matrix whose entries are drawn randomly from a particular distribution, is a J-L embedding with an overwhelming probability. Commonly used distributions include independent identical distributions (iid), Gaussian, i.d. i. d. Rademachel or uniform i. i. d. Is included.
通常、J−L埋込みの結果として、次元が大幅に低減する。しかしながら、次元の低減によってすぐにレート低減が生じるわけではない。まず、送信に向けて埋込みが量子化されなくてはならず、量子化が良好に設計されていない場合、埋込みの精度が下がる。 Usually, the dimension is significantly reduced as a result of J-L embedding. However, the reduction in dimensions does not cause an immediate rate reduction. First, the embedding must be quantized for transmission, and if the quantization is not well designed, the embedding accuracy is reduced.
特に、量子化されたJ−L埋込みは以下を満たす。 In particular, the quantized J-L embedding satisfies:
ここで、τ∝2−Bは量子化器ステップサイズであり、次元Bごとに用いられるビット数とともに指数関数的に減少する一方、εは射影の次元であるKの関数であり、近似的に
量子化された埋込みを設計するとき、総レートは射影の次元、及び次元ごとに用いられるビット数によって求められ、すなわちR=KBである。固定レートRにおいて、次元Kが増大すると、εにおいて反映されるような量子化前の埋め込み精度は増大する。レートを固定したままにしておくには、次元ごとのビット数も減少させるべきであり、これによって量子化に起因して精度が減少し、τに反映される。一定のレートでは、マルチビット量子化器は1ビット量子化器よりも性能が優れている。 When designing a quantized embedding, the total rate is determined by the dimensions of the projection and the number of bits used per dimension, ie R = KB. As the dimension K increases at a fixed rate R, the embedding accuracy before quantization as reflected in ε increases. To keep the rate fixed, the number of bits per dimension should also be reduced, which reduces the accuracy due to quantization and is reflected in τ. At a constant rate, the multi-bit quantizer outperforms the 1-bit quantizer.
汎用量子化及び埋込み
汎用スカラー量子化は、スカラー量子化を変更し、量子化器が不連続の量子化領域を有するように設計する。この手法もジョンソン−リンデンシュトラウス型の射影、それに続くスケーリング、ディザリング、及びスカラー量子化
図5に示すように、本方法は変更されたスカラー量子化器を用いる。このスカラー量子化器は、不連続の量子化間隔を有するように設計された1ビット量子化器である。量子化器は、信号のマルチビット表現を求め、表現の最下位ビット(LSB)のみを保持する通常の一様量子化器とみなすことができる。このため、任意の整数lについて、[2l,2l+1)におけるスカラー値は1に量子化され、[2l+1,2(l+1))におけるスカラー値は0に量子化される。Q(・)は1ビット量子化器であるので、その方法は行と同じ数のビット、すなわちK個のビットを用いて符号化を行う。 As shown in FIG. 5, the method uses a modified scalar quantizer. This scalar quantizer is a 1-bit quantizer designed to have discontinuous quantization intervals. The quantizer can be viewed as a normal uniform quantizer that seeks a multi-bit representation of the signal and retains only the least significant bit (LSB) of the representation. Therefore, for any integer l, the scalar value in [2l, 2l + 1) is quantized to 1, and the scalar value in [2l + 1, 2 (l + 1)) is quantized to 0. Since Q (•) is a 1-bit quantizer, the method performs coding using the same number of bits as rows, that is, K bits.
図6に示すように、変更された量子化器は信号の効率的で汎用性のある符号化を可能にする。さらに、その量子化法は、以下を満たす埋込みでもある。 As shown in FIG. 6, the modified quantizer enables efficient and versatile encoding of the signal. Further, the quantization method is an embedding that satisfies the following.
ここで、dH(・,・)は埋込み信号のハミング距離であり、g(d)はマップ
マップは小さなdについて近似的に線形であり、距離しきい値D0を上回る大きなdについて指数関数的に高速に定数1/2になる。線形部分の傾き及び距離しきい値D0は埋込みパラメーターΔ及びAによって求められる。換言すれば、埋込みによって、l2距離がD0よりも小さい限り、埋め込み信号のハミング距離が信号のl2距離に概ね比例することが確実となる。 Map is approximately linear for small d, it becomes constant 1/2 for large d exponentially fast exceed the distance threshold D 0. The slope of the linear part and the distance threshold D 0 are determined by the embedding parameters Δ and A. In other words, embedding ensures that the hamming distance of the embedded signal is approximately proportional to the l 2 distance of the signal, as long as the l 2 distance is less than D 0 .
d=D0まで傾き
(2)における加法曖昧性τは、J−L埋込みにおける乗法(1±ε)因子における定数εと同様に
図7及び図8は、より小さなスケーリング係数Δの場合(501)及びより大きなスケーリング係数Δの場合(502)について、かつより高いビットレートの場合(図7)及びより低いビットレートの場合(図8)について埋込みがどのように機能するかを実験的に示し、それに対する洞察を提供している。図面は、埋込みハミング距離をランダムに生成された信号対の信号距離の関数としてプロットしている。曲線の厚みはτによって量子化されるのに対し、右上がり部分の傾きはΔによって量子化される。 FIGS. 7 and 8 illustrate the case of a smaller scaling factor Δ (501) and the case of a larger scaling factor Δ (502) and for a higher bit rate (FIG. 7) and a lower bit rate (FIG. 8) shows experimentally how the embedding works and provides insight into it. The figure plots the embedded Hamming distance as a function of the signal distance of a randomly generated signal pair. The thickness of the curve is quantized by τ, while the slope of the upper right part is quantized by Δ.
関連米国特許出願第12/861,923号「Method for Hierarchical Signal Quantization and Hashing」では、本発明者らは、信号、特に画像を階層的に符号化する方法を記載した。信号とハッシングベクトルとの内積を形成し、その内積にディザースカラーを加算した。結果は、階層的に変化する感度パラメーターに従う非単調量子化関数を用いて量子化された。 In related US patent application Ser. No. 12 / 861,923, “Method for Hierarchical Signal Quantization and Hashing”, we described a method for hierarchically encoding signals, particularly images. An inner product of the signal and the hashing vector was formed, and a dither color was added to the inner product. The results were quantized using a nonmonotonic quantization function that followed a hierarchically varying sensitivity parameter.
関連米国特許出願第13/291,384号「Method for Privacy Preserving Hashing of Signals with Binary Embeddings」では、本発明者らはまた、信号のランダム射影をディザリング及びスケーリングし、非単調スカラー量子化器を用いてハッシュを形成することによって信号を符号化した。その特許出願では、基礎をなす信号のプライバシーは、スケーリングパラメーター、ディザリングパラメーター、及び射影パラメーターを秘密にしておくことによって保護された。 In related US patent application Ser. No. 13 / 291,384, “Method for Privacy Preserving Hashing of Signals with Binary Embeddings”, we also dithered and scaled the random projection of the signal, and developed a non-monotonic scalar quantizer. Was used to encode the signal by forming a hash. In that patent application, the privacy of the underlying signal was protected by keeping the scaling, dithering, and projection parameters secret.
関連米国特許出願第13/525,222号「Method for Representing Images Using Quantized Embeddings of Scale−Invariant Image Features」では、画像からスケール不変の特徴を抽出することによって、信号、特に画像を符号化した。特徴は、それらの特徴にランダムエントリの行列を乗算することによって、より低次元のランダム射影行列に射影された。ランダム射影の行列は量子化され、量子化インデックスの行列が生成される。この行列は画像のデータベースを探索して画像に関連するメタデータを取り出すようにクエリベクトルを形成する。 In related US patent application Ser. No. 13 / 525,222, “Method for Representing Images Using Quantized Embedding of Scale-Invariant Image Features,” encoding signals, especially images, by extracting scale-invariant features from the image. Features were projected into a lower dimensional random projection matrix by multiplying the features with a matrix of random entries. The random projection matrix is quantized to generate a quantization index matrix. This matrix forms a query vector to search the image database to retrieve metadata associated with the image.
従来の符号化では、歪みを可能な限り最も低くするように、最も少ないビット数を用いてデータ(又は信号)をどのように最良に符号化するかに焦点を当てている。一方、信号のエンドユーザーは、サーバー又は何らかの他のデバイスであり得る。その場合、目標は異なる。符号化は、データを符号化後に完全に復元することができない場合であっても、サーバーがデータから抽出することを望む情報を破壊しないように実行しなくてはならない。これらの場合には、符号化データから特定の情報を抽出することのみが所望される。このため、歪みは符号化データから抽出される任意の情報に対して測定されるべきである。 Conventional coding focuses on how to best encode data (or signals) using the fewest number of bits so that the distortion is as low as possible. On the other hand, the end user of the signal can be a server or some other device. In that case, the goals are different. Encoding must be performed so as not to destroy the information that the server wants to extract from the data, even if the data cannot be fully recovered after encoding. In these cases, it is only desirable to extract specific information from the encoded data. For this reason, distortion should be measured for any information extracted from the encoded data.
したがって、本発明の実施の形態は、データ間のペアワイズ距離を保持するように、汎用量子化埋込みを用いてデータを符号化する方法を提供する。詳細には、本方法は、データが画像を表す画像取出し用途において用いることができる。本方法はランダム化された埋込みを用いる。 Accordingly, embodiments of the present invention provide a method for encoding data using generalized quantization embedding so as to maintain a pairwise distance between the data. In particular, the method can be used in image retrieval applications where the data represents an image. The method uses randomized embedding.
画像取出し用途では、汎用埋込みは従来技術と比較して最大25%のレート低減を達成することができる。 In image retrieval applications, general purpose embedding can achieve a rate reduction of up to 25% compared to the prior art.
より詳細には、本発明は、ランダム射影を実行し、その後全ての値について固定のスケーリングを用いてディザリング及びスケーリングを行うことによって、データ間の距離を符号化する。結果として得られるディザリングされた射影及びスケーリングされた射影は、非単調1ビット量子化器を用いて量子化され、信号を表すビットのベクトルが形成される。信号間の距離は、ビットの2つのベクトルのハミング距離を計算することによって、ビットの対応するベクトルから近似的に計算することができる。計算は、スケーリングによって決まる特定の距離までは概ね正しいが、それを超えると正しくない。 More particularly, the present invention encodes the distance between the data by performing a random projection and then dithering and scaling with a fixed scaling for all values. The resulting dithered and scaled projections are quantized using a non-monotonic 1-bit quantizer to form a vector of bits representing the signal. The distance between the signals can be approximately calculated from the corresponding vector of bits by calculating the Hamming distance of the two vectors of bits. The calculations are generally correct up to a certain distance determined by scaling, but not correct beyond that.
本発明の実施の形態による符号化方法によって用いられる量子化された埋め込みはペアワイズ距離を保持し、それによってデータ又は信号は比較することができる。1つの用途ではデータは画像を表す。最近傍を特定することに対する特定の用途の問題では、符号化によって小さな距離しか保持する必要がない。この場合、汎用量子化埋込みは、量子化されたジョンソン−リンデンシュトラウス(J−L)埋込みよりも性能が優れている。これは、J−L埋込みでは距離の保持が不均一であることに起因する。 The quantized embedding used by the encoding method according to embodiments of the present invention preserves the pairwise distance so that data or signals can be compared. In one application, the data represents an image. In particular application issues for identifying nearest neighbors, only a small distance needs to be maintained by encoding. In this case, the generalized quantization implant is superior to the quantized Johnson-Lindenstrauss (JL) implant. This is due to the non-uniform distance retention in J-L embedding.
特に、汎用埋込みは或る既知の距離まで距離を正確に保持するが、それを超えると正確に保持しない。量子化されたJ−L埋込みは全ての距離を同等に保持するが、それほど正確ではない。 In particular, general purpose implants accurately maintain distances up to some known distance, but do not accurately maintain beyond that. Quantized J-L embedding keeps all distances equal, but is not very accurate.
図1は、本発明の実施形態による、信号を符号化する方法を示している。本方法は、信号空間S702において入力信号x701を受信する。入力信号はランダムに射影され(710)、射影信号711が生成される。射影信号はディザリングされ(720)、ディザー信号721が生成される。ディザリングされた信号はスケーリング及び量子化され(730)、埋込み空間W732内に埋込み信号731が生成される。量子化器はスカラー及び非単調である。多くの場合に、信号空間の次元は埋込み空間の次元よりも大幅に小さい。
FIG. 1 illustrates a method for encoding a signal according to an embodiment of the present invention. The method receives an input signal x701 in the signal space S702. The input signal is randomly projected (710), and a
ディザリング、射影、スケーリング、及び量子化のプロセスは、入力信号と別の同様に埋め込まれた入力信号との間の距離を、その距離が所定のしきい値距離未満である限り保持する。本方法は、当該技術分野において既知のメモリ及び入出力インターフェースに接続されたプロセッサ700において実行することができる。
The dithering, projection, scaling, and quantization processes maintain the distance between the input signal and another similarly embedded input signal as long as that distance is less than a predetermined threshold distance. The method may be performed in a
本方法及び符号化の誤り特性は、一般的な方法について以下でより詳細にされ、本方法の使用法は、例示的な画像取出し用途において説明される。 The error characteristics of the method and encoding are described in more detail below for a general method, and the use of the method is described in an exemplary image retrieval application.
距離埋め込みの誤り解析
本発明による埋込みの曖昧性を理解するために、ほとんどの埋込みによって提供される距離保証の一般的な形態を考える。詳細には、埋込みf:S→W、並びに信号空間における距離メトリックdS(・,・)及び埋込み空間における距離メトリックdW(・,・)を考える。入力信号x及びyの埋め込みは、全てのεについて埋込みが以下を満たす場合、(g,ε,τ)埋込みである。
Error analysis of distance embedding To understand the ambiguity of embedding according to the present invention, consider the general form of distance guarantee provided by most embeddings. Specifically, consider the embedding f: S → W, the distance metric d S (•, •) in the signal space, and the distance metric d W (•, •) in the embedded space. The embedding of the input signals x and y is a (g, ε, τ) embedding if the embedding satisfies the following for all ε.
ここで、
距離計算中の埋込みの性能を理解するのに、埋め込みが距離をどれだけ良好に表すかを解析したい。 To understand the performance of embedding during distance calculation, we want to analyze how well embedding represents distance.
主な問いは以下のとおりである。埋込み空間W内の2つの埋込み信号間の距離dWを所与として、信号空間S内の信号間の対応する距離に関してどれだけ確信があるか。 The main questions are as follows. Given the distance d W between two embedded signals in the embedding space W, how much with respect to the corresponding distance between the signal in the signal space S are confident.
関数g(・)は距離がどのようにマッピングされるかを表し、信号空間における距離dSを近似的に求めるように反転することができる。 The function g (•) represents how the distance is mapped and can be inverted to approximate the distance d S in the signal space.
定数ε及びτは反対方向における曖昧性、すなわち、信号空間における距離を所与とした埋込み空間における曖昧性を表す。 The constants ε and τ represent the ambiguity in the opposite direction, ie the ambiguity in the embedded space given the distance in the signal space.
図7の埋込みを例として用いると、式(5)はプロットの垂直なスライスを取得して曲線の厚みを特徴化する。一方、ここで本発明では、代わりに水平スライスを取得することによって明らかとなる厚みを関心対象とする。 Using the embedding of FIG. 7 as an example, equation (5) characterizes the thickness of the curve by taking a vertical slice of the plot. On the other hand, in the present invention, the thickness that becomes apparent by acquiring a horizontal slice instead is of interest.
所望の曖昧性を表すために、埋込み保証を以下のように再定式化することができる。 To represent the desired ambiguity, the embedded guarantee can be reformulated as follows:
この式は、小さなε及びτの場合に、1/1(±ε)のテイラー展開を用いて近似することができる:
g(・)は微分可能であると仮定すると、dW(f(x),f(y))のまわりのg−1(・)のテイラー展開及び(g−1)’(x)=1/g’(g−1(x))であることを用いて上記の不等式を近似することができる。 Assuming that g (•) is differentiable, Taylor expansion of g −1 (•) around d W (f (x), f (y)) and (g −1 ) ′ (x) = 1. The above inequality can be approximated by using / g ′ (g −1 (x)).
τ・εを伴う二次項を無視して、信号距離推定値
換言すれば、埋込み空間内の2つの信号間の距離dSを所与とし、
このため、曖昧性は、ε又はτを減少させること又はマッピングの傾きを増大させることによって減少する。 Thus, ambiguity is reduced by decreasing ε or τ or increasing the slope of the mapping.
量子化されたジョンソン−リンデンシュトラウス(J−L)埋込み
量子化されたJ−L埋込みでは、g(d)=dであり、1までの一定の傾き(constant slope of to 1)を有する。このため、式(9)における分母は一定である。曖昧性を低減するには、分子を可能な限り低減するべきである。これにはεの大きさとτの大きさとの間のトレードオフが必要となる。値εは射影の次元Kによって制御される一方、値τは次元Bごとのレートによって制御される。Kが増大するとεは減少する。同様に、Bが増大するとτは減少する。
Quantized Johnson-Lindenstrauss (JL) embedding In a quantized J-L embedding, g (d) = d, with a constant slope of to 1 (constant slope of to 1). For this reason, the denominator in Formula (9) is constant. To reduce ambiguity, the molecules should be reduced as much as possible. This requires a trade-off between the magnitude of ε and the magnitude of τ. The value ε is controlled by the dimension K of the projection, while the value τ is controlled by the rate per dimension B. As K increases, ε decreases. Similarly, τ decreases as B increases.
上記で説明したように、埋込みの総レートはR=KBである。所与のレートを最も良好に用いるには、次元ごとのより多くのビットにおけるより低い射影次元と、次元ごとのより少ないビットにおけるより高い射影次元との間のトレードオフとなる。 As explained above, the total rate of embedding is R = KB. The best use of a given rate is a trade-off between a lower projected dimension with more bits per dimension and a higher projected dimension with fewer bits per dimension.
例示的な画像取出し用途の場合、最良の性能はそれぞれ、次元あたりB=3ビット又はB=4ビット、及びK=R/3次元又はK=R/4次元を用いて達成される。2つの値を用いた性能は視覚的に区別不可能であるが、その一方で、B=1、R=Kを用いる従来技術の1ビット手法よりも大幅に優れている。 For exemplary image retrieval applications, the best performance is achieved using B = 3 bits or B = 4 bits per dimension and K = R / 3 dimensions or K = R / 4 dimensions, respectively. While the performance using the two values is visually indistinguishable, it is significantly better than the prior art 1-bit approach using B = 1 and R = K.
汎用埋込み
汎用埋込みでは、信号モデルにおけるいかなる情報も量子化器を設計するのに用いられない。これは、J−L埋込み及び圧縮検知(CS)等のランダム化されたサンプリング方法の大きな利点である。量子化されたJ−L埋込みと対照的に、汎用埋込みは埋込み次元あたり1ビットを用いる。このため、レートRによって、式(2)における埋込み保証の定数τのみでなく、射影の次元K=Rも決まる。
General-purpose embedding In general-purpose embedding, no information in the signal model is used to design the quantizer. This is a major advantage of randomized sampling methods such as J-L embedding and compression detection (CS). In contrast to quantized J-L embedding, general purpose embedding uses one bit per embedding dimension. For this reason, the rate R determines not only the embedding guarantee constant τ in equation (2) but also the projection dimension K = R.
さらに、保証において乗算項が存在しない。すなわち、ε=0である。このため、式(9)の曖昧性解析において、分子は完全に決定される。すなわち、システム設計者は分母のみを制御することができる。しかしながら、これは設計選択肢及びトレードオフがないことを意味しない。そうではなく、これらの埋込みにおけるトレードオフは式(1)におけるスケーリングパラメーターΔの選択にある。 Furthermore, there is no multiplication term in the guarantee. That is, ε = 0. For this reason, the numerator is completely determined in the ambiguity analysis of Equation (9). That is, the system designer can control only the denominator. However, this does not mean that there are no design options and tradeoffs. Rather, the trade-off in these embeddings is in the selection of the scaling parameter Δ in equation (1).
上記で説明し、図6に示したように、g(・)は最初に概ね線形に増大し、高速な平坦化が続き、その後概ね平坦な領域が続く。スケーリング係数Δの選択によって線形領域の傾きが制御され、したがって関数がどれだけ早く平坦領域に達するかが制御される。 As described above and shown in FIG. 6, g (•) initially increases approximately linearly, followed by fast planarization, followed by a generally planar region. The selection of the scaling factor Δ controls the slope of the linear region and thus controls how quickly the function reaches the flat region.
上記で説明したように、式(4)における線形界は、g(・)の増大する線形領域の非常に良好な近似であり、傾き
スケーリング係数Δが小さくなり、線形領域の傾きが増大すると、概ね
不都合なことに、その線形領域を超えると、傾きg’(d)は指数関数的に高速に0になる。これは、式(9)における曖昧性が無限大に近づくことを暗に意味する。このため、埋込み距離dWが0.5±τ内にある場合、dSがしきい値距離D0よりも概ね大きいこと以外に、マッピングを反転することによってdSに関して何かを知ることは不可能である。これは、スケーリング係数Δを明確に(clear)設計する際のトレードオフとなる。Δが小さいと、保持される距離の範囲における曖昧性が低減するが、保持される距離の範囲も低減する。したがって、スケーリング係数Δは、意図される用途、例えば画像取出しに十分な埋込みにおける距離を保持するように設計する必要がある。 Unfortunately, beyond that linear region, the slope g ′ (d) goes to zero exponentially fast. This implies that the ambiguity in equation (9) approaches infinity. Thus, if the embedding distance d W is within 0.5 ± τ, knowing about d S by reversing the mapping, other than d S being generally greater than the threshold distance D 0, is Impossible. This is a trade-off when the scaling factor Δ is designed to be clear. Smaller Δ reduces ambiguity in the range of distances held, but also reduces the range of distances held. Therefore, the scaling factor Δ needs to be designed to maintain a distance in the intended application, eg, an embedding sufficient for image retrieval.
例示的な画像取出し用途は、クライアントによって提供されるクエリ画像を、サーバーにおけるデータベースに記憶されている最近傍画像と比較する。クエリ画像が処理されると、クエリ画像の埋込みに用いられるのと同じパラメーターを用いて埋め込まれたデータベース内の全ての画像に関して埋込み距離が求められる。 An exemplary image retrieval application compares a query image provided by a client with a nearest neighbor image stored in a database at the server. Once the query image is processed, the embedding distance is determined for all images in the database that are embedded using the same parameters used to embed the query image.
クエリが成功するには、データベース内にクエリ画像からの小さな埋込み距離を有するエントリが少なくとも少数存在するべきである。これらのエントリは選択されクライアントに返される。クエリが有用な結果を生成するには、これらのエントリの埋込み距離はクエリ信号とデータベース内のエントリからの信号との間の信号距離を正確に表すべきである。 For a query to be successful, there should be at least a few entries in the database with a small embedding distance from the query image. These entries are selected and returned to the client. In order for the query to produce useful results, the embedded distance of these entries should accurately represent the signal distance between the query signal and the signal from the entry in the database.
さらに、信号が全てクエリから遠くの距離にある場合、埋込み距離はそのことを正確に反映するべきであり、このためエントリは選択されない。この場合、埋め込みはデータベース内の各エントリの距離を表す必要がない。換言すれば、埋め込みは、所定のしきい値距離Dまでの距離を表せばよく、Dよりも大きな距離は特定のみすればよく、これらの距離を表す必要はない。 Furthermore, if all the signals are far away from the query, the embedding distance should reflect that precisely, so no entry is selected. In this case, the embedding need not represent the distance of each entry in the database. In other words, the embedding only needs to represent a distance to a predetermined threshold distance D, and a distance larger than D need only be specified, and it is not necessary to represent these distances.
このため、線形領域において距離を表す曖昧性が小さくなるように、スケーリングΔを可能な限り小さくなるように選択するが、対象となる全ての距離が埋込みの線形領域内にとどまり、曖昧性が比較的大きくなる平坦領域にはとどまらないこと、すなわち距離が所定のしきい値距離未満であることを確実にするように、必要であるよりも小さくしない。 For this reason, the scaling Δ is selected to be as small as possible so that the ambiguity representing the distance in the linear region is small, but all the distances of interest remain within the embedded linear region and the ambiguity is compared. Do not stay in a flat area that becomes larger, i.e., less than necessary to ensure that the distance is less than a predetermined threshold distance.
汎用埋込みを用いた画像取出し
図2に示すように、図1に示すような方法811は以下のように画像取出し用途において用いることができる。クライアント810のユーザーは、クエリ画像801内のオブジェクトに関する情報を取り出すことを所望する。画像に関する埋込み情報815は、既知のオブジェクトの画像のデータベース825に接続されたサーバー820に提供される。各画像はオブジェクトのメタデータ826と関連付けられる。サーバーは埋め込み情報をデータベース内の画像に関する類似した情報と比較し(821)、所定の距離判定基準を用いてクエリ画像内のオブジェクトと最も一致する画像を判断し、そのオブジェクトの関連メタデータ830をクライアントに提供する。本明細書において説明されるように、これらのタスクは、クエリ画像及びデータベース画像から抽出された特徴の埋込みを求めることによって効率的に達成することができる。また、画像取出しについて説明しているが、本発明の同様の実施形態は、中でもビデオ、オーディオ又は発話等の他の種類の信号を取り出すのに用いることができる。
Image Retrieval Using General Purpose Embedding As shown in FIG. 2,
データベース準備
汎用埋込みの場合、サーバーは埋込みの仕様に従って埋込みパラメーター、例えばランダム行列A、ディザーベクトルw及びスケーリング係数Δを生成する。データベースを構築するのに、サーバーはS個の既知のオブジェクトの1組の画像I1,...,ITを取得する。オブジェクトごとに、サーバーは特定用途向けのメタデータDS(s∈{1,...,S})を得るか又は生成する。
Database Preparation In the case of general-purpose embedding, the server generates embedding parameters such as a random matrix A, a dither vector w and a scaling factor Δ according to the embedding specifications. To build the database, the server takes a set of images I 1 ,. . . , IT is acquired. For each object, the server obtains or generates application specific metadata D S (sε {1,..., S}).
次に、サーバーは、例えば各画像Itにスケール普遍特徴変換(SIFT)を適用することによって、各画像から1組の特徴ベクトルを抽出する。各画像から得られる特徴数は、シーンコンテンツ、照明、及び画像を取得したセンサーの解像度等のパラメーターに依拠する。 Then, the server, for example, by applying the scale universal feature transform (SIFT) to each image I t, extracts a set of feature vector from each image. The number of features obtained from each image depends on parameters such as the scene content, lighting, and resolution of the sensor that acquired the image.
全てのオブジェクトの全ての画像から抽出される特徴ベクトルの数はLであり、yl(ここで、l=1,...,L)は各特徴ベクトルを表し、通常L>>Sである。L個の特徴ベクトルを用いて、サーバーはデータベース{f(y1),...,f(yL)}を求める。ここで、各f(yi)はyiのRビット量子化された埋込みである。サーバーはルックアップテーブルΛ、例えばλ(l)⊂{1,...,S}(l=1,...,L)も生成し、ここで各λ(l)は、特徴ベクトルf(yl)又は等価にはylが抽出されたオブジェクトをインデックス付けする。 The number of feature vectors extracted from all images of all objects is L, and y l (where l = 1,..., L) represents each feature vector, usually L >> S. . Using the L feature vectors, the server uses the database {f (y 1 ),. . . , F (y L )}. Here, each f (y i ) is an R bit quantized embedding of y i . The server has a lookup table Λ, eg λ (l) l {1,. . . , S} (l = 1,..., L), where each λ (l) indexes the object from which the feature vector f (y l ) or equivalently y l has been extracted.
クライアントクエリ
クライアントが、例えば一時的なソフトウェア更新からサーバーによって用いられるか又はクライアントにおいてソフトウェアインストールの一部として含まれる埋込みパラメーターにアクセスを有することが仮定される。
Client Query It is assumed that the client has access to embedded parameters that are used by the server, eg, from temporary software updates, or included as part of the software installation at the client.
クライアントがクエリ画像を取得した後、クライアントは1組の特徴{x1,...,xm}を生成し、ここでxmは画像内のm番目の特徴に対応する記述子である。これらのM個の特徴及び埋込みパラメーターを用いて、クライアントは対応する埋込み{f(x1),...,f(xM)}825を求めてサーバーに送信する。 After the client obtains the query image, the client obtains a set of features {x 1 ,. . . , X m }, where x m is a descriptor corresponding to the m th feature in the image. Using these M features and embedding parameters, the client uses the corresponding embedding {f (x 1 ),. . . , F (x M )} 825 is transmitted to the server.
最近傍探索及びメタデータ取出し
サーバーはクライアントから{f(x1),...,f(xM)}を受信する。特徴ベクトルf(xm)ごとに、サーバーは、サーバーデータベースにおける、すなわち特徴{f(y1),...,f(yL)}の中の最近傍を求める。結果は埋込みf(xm)ごとに1対のM個の最近傍対である。M個の対から、サーバーは埋込み距離の観点から最近傍のJ個の対{f(x(j)),f(y(j))}(j=1,2,...,J)を選択する。例えばJ=20である。
Nearest neighbor search and metadata retrieval The server receives {f (x 1 ),. . . , F (x M )}. For each feature vector f (x m ), the server in the server database, ie, features {f (y 1 ),. . . , F (y L )} is obtained. The result is a pair of M nearest neighbors for each embedding f (x m ). From the M pairs, the server determines the nearest J pairs {f (x (j) ), f (y (j) )} (j = 1, 2,. Select. For example, J = 20.
J個の対のそれぞれについて、サーバーはルックアップテーブルΛを用いて、特徴ベクトルy(j)が抽出されたオブジェクトのインデックスを求める。インデックスはαj∈{1,...,s}に記憶される。αjの中で最も一般的なオブジェクトS0、すなわちJ個の最も一致する特徴の中の最大数の最近傍一致を有するオブジェクトがクエリへの応答として選択され、関連するメタデータ830がクライアント810に提供される。
For each of the J pairs, the server uses the lookup table Λ to determine the index of the object from which the feature vector y (j) has been extracted. The index is α j ∈ {1,. . . , S}. The most common object S 0 in α j , that is, the object with the largest number of nearest-neighbor matches among the J best-matched features is selected as the response to the query, and the associated
発明の効果
本発明の実施の形態による符号化方法によって用いられる量子化された埋め込みはペアワイズ距離を保持し、それによってデータ又は信号は比較することができる。1つの用途ではデータは画像を表す。最近傍を特定することに対する特定の用途の問題では、符号化によって小さな距離しか保持する必要がない。この場合、汎用量子化埋込みは、量子化されたジョンソン−リンデンシュトラウス(J−L)埋込みよりも性能が優れている。これは、J−L埋込みでは距離の保持が不均一であることに起因する。
EFFECT OF THE INVENTION The quantized embedding used by the encoding method according to an embodiment of the present invention maintains a pairwise distance so that data or signals can be compared. In one application, the data represents an image. In particular application issues for identifying nearest neighbors, only a small distance needs to be maintained by encoding. In this case, the generalized quantization implant is superior to the quantized Johnson-Lindenstrauss (JL) implant. This is due to the non-uniform distance retention in J-L embedding.
特に、汎用埋込みは或る既知の距離まで距離を正確に保持するが、それを超えると正確に保持しない。量子化されたJ−L埋込みは全ての距離を同等に保持するが、それほど正確ではない。 In particular, general purpose implants accurately maintain distances up to some known distance, but do not accurately maintain beyond that. Quantized J-L embedding keeps all distances equal, but is not very accurate.
Claims (14)
前記入力信号をランダムに射影するステップであって、それにより射影信号を生成するステップと、
前記射影信号をディザリングするステップであって、それによりディザリングされた信号を生成するステップと、
前記ディザリングされた信号をスケーリングするステップであって、それによりスケーリングされた信号を生成するステップと、
非単調スカラー量子化器を用いて前記スケーリングされた信号を量子化するステップであって、それにより埋込み信号を生成するステップと、を含み、前記ディザリング、前記射影及び前記量子化のパラメーターは、前記入力信号と別の同様に埋め込まれた入力信号との間の距離を、該距離が所定のしきい値距離未満である限り保持し、前記ステップはプロセッサにおいて実行される、入力信号を符号化する方法。 A method for encoding an input signal, comprising:
Randomly projecting the input signal, thereby generating a projected signal;
Dithering the projection signal, thereby generating a dithered signal;
Scaling the dithered signal, thereby generating a scaled signal;
Quantizing the scaled signal using a non-monotonic scalar quantizer, thereby generating an embedded signal, the dithering, the projection and the quantization parameters comprising: The distance between the input signal and another similarly embedded input signal is maintained as long as the distance is less than a predetermined threshold distance, and the step is performed in the processor to encode the input signal how to.
クライアントからサーバーに前記クエリベクトルを送信するステップと、
クエリ信号を用いて、前記サーバー上のデータベースを類似した信号を求めて探索するステップと、
関連データを前記サーバーから前記クライアントに返すステップと、
を更に含む、請求項1に記載の方法。 The method of claim 1, wherein the embedded signal forms a query vector, the method comprising:
Sending the query vector from a client to a server;
Using a query signal to search the database on the server for a similar signal;
Returning relevant data from the server to the client;
The method of claim 1, further comprising:
前記類似した信号の前記クラスを検査するステップと、
前記クエリ信号の前記クラスを、選択された信号の前記クラスにおいて最も多く生じるクラスとして決定するステップと、
を含む、請求項13に記載の方法。 The using step comprises:
Examining the class of the similar signals;
Determining the class of the query signal as the class that occurs most frequently in the class of selected signals;
14. The method of claim 13, comprising:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/733,517 | 2013-01-03 | ||
US13/733,517 US8768075B2 (en) | 2011-11-08 | 2013-01-03 | Method for coding signals with universal quantized embeddings |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014132439A true JP2014132439A (en) | 2014-07-17 |
JP6041789B2 JP6041789B2 (en) | 2016-12-14 |
Family
ID=51411484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013241500A Active JP6041789B2 (en) | 2013-01-03 | 2013-11-22 | Method for encoding an input signal |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6041789B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818336B2 (en) * | 2016-03-22 | 2017-11-14 | Snaptrack Inc. | Vector dithering for displays employing subfields having unevenly spaced gray scale values |
JP2017539023A (en) * | 2015-03-10 | 2017-12-28 | 三菱電機株式会社 | Method and system for generating signal embeddings |
CN113168839A (en) * | 2018-12-13 | 2021-07-23 | 杜比实验室特许公司 | Dual end media intelligence |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011055469A (en) * | 2009-08-31 | 2011-03-17 | Mitsubishi Electric Research Laboratories Inc | Method and system for securely determining manhattan distance |
JP2013101332A (en) * | 2011-11-08 | 2013-05-23 | Mitsubishi Electric Corp | Method for hashing privacy preserving hashing of signals using binary embedding |
JP2014002723A (en) * | 2012-06-15 | 2014-01-09 | Mitsubishi Electric Corp | Method for representing images using quantized embeddings of scale-invariant image features |
-
2013
- 2013-11-22 JP JP2013241500A patent/JP6041789B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011055469A (en) * | 2009-08-31 | 2011-03-17 | Mitsubishi Electric Research Laboratories Inc | Method and system for securely determining manhattan distance |
JP2013101332A (en) * | 2011-11-08 | 2013-05-23 | Mitsubishi Electric Corp | Method for hashing privacy preserving hashing of signals using binary embedding |
JP2014002723A (en) * | 2012-06-15 | 2014-01-09 | Mitsubishi Electric Corp | Method for representing images using quantized embeddings of scale-invariant image features |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017539023A (en) * | 2015-03-10 | 2017-12-28 | 三菱電機株式会社 | Method and system for generating signal embeddings |
US9818336B2 (en) * | 2016-03-22 | 2017-11-14 | Snaptrack Inc. | Vector dithering for displays employing subfields having unevenly spaced gray scale values |
CN113168839A (en) * | 2018-12-13 | 2021-07-23 | 杜比实验室特许公司 | Dual end media intelligence |
CN113168839B (en) * | 2018-12-13 | 2024-01-23 | 杜比实验室特许公司 | Double-ended media intelligence |
Also Published As
Publication number | Publication date |
---|---|
JP6041789B2 (en) | 2016-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Exploring DCT coefficient quantization effects for local tampering detection | |
JP5911578B2 (en) | Method for encoding feature point position information of image, computer program, and mobile device | |
JP6599294B2 (en) | Abnormality detection device, learning device, abnormality detection method, learning method, abnormality detection program, and learning program | |
JP5950864B2 (en) | A method for representing images using quantized embedding of scale-invariant image features | |
US8768075B2 (en) | Method for coding signals with universal quantized embeddings | |
WO2023051783A1 (en) | Encoding method, decoding method, apparatus, device, and readable storage medium | |
Zhang et al. | A joint compression scheme of video feature descriptors and visual content | |
Boufounos et al. | Efficient Coding of Signal Distances Using Universal Quantized Embeddings. | |
JP2020191077A (en) | Image coding method and apparatus and image decoding method and apparatus | |
CN103218427B (en) | The extracting method of local description, image search method and image matching method | |
WO2021081913A1 (en) | Vector query method and apparatus, electronic device and storage medium | |
US20100114871A1 (en) | Distance Quantization in Computing Distance in High Dimensional Space | |
CN110532413B (en) | Information retrieval method and device based on picture matching and computer equipment | |
JP6041789B2 (en) | Method for encoding an input signal | |
Vázquez et al. | Using normalized compression distance for image similarity measurement: an experimental study | |
CN115391578A (en) | Cross-modal image-text retrieval model training method and system | |
JP5634075B2 (en) | Method and apparatus for processing a sequence of images, apparatus for processing image data, and computer program product | |
CN103279914A (en) | Image compression sensing steganography method and device based on frog-leaping optimization | |
Liu et al. | Enhanced distribution alignment for post-training quantization of diffusion models | |
Chen et al. | Efficient video hashing based on low‐rank frames | |
Nie et al. | Robust video hashing based on representative-dispersive frames | |
Laimeche et al. | A new feature extraction scheme in wavelet transform for stego image classification | |
CN111601181B (en) | Method and device for generating video fingerprint data | |
JP7401822B2 (en) | Image encoding method, image encoding device and program | |
CN111611450B (en) | Cross-media data fusion method, device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160711 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160711 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20161003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6041789 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |