JP6708043B2 - データ検索プログラム、データ検索方法およびデータ検索装置 - Google Patents
データ検索プログラム、データ検索方法およびデータ検索装置 Download PDFInfo
- Publication number
- JP6708043B2 JP6708043B2 JP2016148562A JP2016148562A JP6708043B2 JP 6708043 B2 JP6708043 B2 JP 6708043B2 JP 2016148562 A JP2016148562 A JP 2016148562A JP 2016148562 A JP2016148562 A JP 2016148562A JP 6708043 B2 JP6708043 B2 JP 6708043B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- distance
- data
- target data
- input query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
- G06F16/24545—Selectivity estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ビットベクトル化された複数の対象データがクラスタリングされて生成される複数のクラスタと、ビットベクトル化された入力クエリとを基にして、前記入力クエリに最も近い第1のクラスタを特定し、
前記入力クエリの位置から前記第1のクラスタの中心までの距離を示す第1の距離を用いて、前記入力クエリとの距離が前記第1の距離以内となる対象データを含む前記第1のクラスタとは異なる他のクラスタを特定し、
前記他のクラスタに属し、かつ、前記入力クエリからの距離が前記第1の距離以内となる対象データ、または、前記他のクラスタに属し、かつ、前記他のクラスタの中心からの距離が、第2の距離よりも大きい対象データを抽出し、
前記第1のクラスタに属する対象データ、および、前記他のクラスタから抽出した対象データを対象に、前記入力クエリに対し類似する対象データを検索する
処理を実行させることを特徴とするデータ検索プログラム。
ビットベクトル化された複数の対象データがクラスタリングされて生成される複数のクラスタと、ビットベクトル化された入力クエリとを基にして、前記入力クエリに最も近い第1のクラスタを特定し、
前記入力クエリの位置から前記第1のクラスタの中心までの距離を示す第1の距離を用いて、前記入力クエリとの距離が前記第1の距離以内となる対象データを含む前記第1のクラスタとは異なる他のクラスタを特定し、
前記他のクラスタに属し、かつ、前記入力クエリからの距離が前記第1の距離以内となる対象データ、または、前記他のクラスタに属し、かつ、前記他のクラスタの中心からの距離が、第2の距離よりも大きい対象データを抽出し、
前記第1のクラスタに属する対象データ、および、前記他のクラスタから抽出した対象データを対象に、前記入力クエリに対し類似する対象データを検索する
処理を実行することを特徴とするデータ検索方法。
前記入力クエリの位置から前記第1のクラスタの中心までの距離を示す第1の距離を用いて、前記入力クエリとの距離が前記第1の距離以内となる対象データを含む前記第1のクラスタとは異なる他のクラスタを特定する第2特定部と、
前記他のクラスタに属し、かつ、前記入力クエリからの距離が前記第1の距離以内となる対象データ、または、前記他のクラスタに属し、かつ、前記他のクラスタの中心からの距離が、第2の距離よりも大きい対象データを抽出する抽出部と、
前記第1のクラスタに属する対象データ、および、前記他のクラスタから抽出した対象データを対象に、前記入力クエリに対し類似する対象データを検索する検索部と
を有することを特徴とするデータ検索装置。
110 通信部
120 入力部
130 表示部
140 記憶部
150 制御部
Claims (6)
- コンピュータに、
ビットベクトル化された複数の対象データがクラスタリングされて生成される複数のクラスタと、ビットベクトル化された入力クエリとを基にして、前記入力クエリに最も近い第1のクラスタを特定し、
前記入力クエリの位置から前記第1のクラスタの中心までの距離を示す第1の距離を用いて、前記入力クエリとの距離が前記第1の距離以内となる対象データを含む前記第1のクラスタとは異なる他のクラスタを特定し、
前記他のクラスタに属し、かつ、前記入力クエリからの距離が前記第1の距離以内となる対象データ、または、前記他のクラスタに属し、かつ、前記他のクラスタの中心からの距離が、第2の距離よりも大きい対象データを抽出し、
前記第1のクラスタに属する対象データ、および、前記他のクラスタから抽出した対象データを対象に、前記入力クエリに対し類似する対象データを検索する
処理を実行させることを特徴とするデータ検索プログラム。 - 特定された前記他のクラスタの中心と前記入力クエリとの距離から前記第1の距離を減算することで、前記第2の距離を算出する処理を更にコンピュータに実行させることを特徴とする請求項1に記載のデータ検索プログラム。
- 前記他のクラスタを特定する処理は、クラスタの半径が前記第2の距離以上となるクラスタを、前記他のクラスタとして特定することを特徴とする請求項2に記載のデータ検索プログラム。
- 前記抽出する処理は、前記他のクラスタに属する複数の対象データと前記他のクラスタの中心との各距離をハミング距離により算出し、前記複数の対象データを、ハミング距離に応じてソートし、前記第2の距離と等しいハミング距離を有する対象データを検出した場合に、検出した対象データよりも大きいハミング距離を有する対象データと前記第2の距離との比較を行うことなく、ソート順に基づいて、前記第2の距離よりも大きい対象データを抽出することを特徴とする請求項3に記載のデータ検索プログラム。
- コンピュータが実行するデータ検索方法であって、
ビットベクトル化された複数の対象データがクラスタリングされて生成される複数のクラスタと、ビットベクトル化された入力クエリとを基にして、前記入力クエリに最も近い第1のクラスタを特定し、
前記入力クエリの位置から前記第1のクラスタの中心までの距離を示す第1の距離を用いて、前記入力クエリとの距離が前記第1の距離以内となる対象データを含む前記第1のクラスタとは異なる他のクラスタを特定し、
前記他のクラスタに属し、かつ、前記入力クエリからの距離が前記第1の距離以内となる対象データ、または、前記他のクラスタに属し、かつ、前記他のクラスタの中心からの距離が、第2の距離よりも大きい対象データを抽出し、
前記第1のクラスタに属する対象データ、および、前記他のクラスタから抽出した対象データを対象に、前記入力クエリに対し類似する対象データを検索する
処理を実行することを特徴とするデータ検索方法。 - ビットベクトル化された複数の対象データがクラスタリングされて生成される複数のクラスタと、ビットベクトル化された入力クエリとを基にして、前記入力クエリに最も近い第1のクラスタを特定する第1特定部と、
前記入力クエリの位置から前記第1のクラスタの中心までの距離を示す第1の距離を用いて、前記入力クエリとの距離が前記第1の距離以内となる対象データを含む前記第1のクラスタとは異なる他のクラスタを特定する第2特定部と、
前記他のクラスタに属し、かつ、前記入力クエリからの距離が前記第1の距離以内となる対象データ、または、前記他のクラスタに属し、かつ、前記他のクラスタの中心からの距離が、第2の距離よりも大きい対象データを抽出する抽出部と、
前記第1のクラスタに属する対象データ、および、前記他のクラスタから抽出した対象データを対象に、前記入力クエリに対し類似する対象データを検索する検索部と
を有することを特徴とするデータ検索装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016148562A JP6708043B2 (ja) | 2016-07-28 | 2016-07-28 | データ検索プログラム、データ検索方法およびデータ検索装置 |
US15/631,200 US20180032579A1 (en) | 2016-07-28 | 2017-06-23 | Non-transitory computer-readable recording medium, data search method, and data search device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016148562A JP6708043B2 (ja) | 2016-07-28 | 2016-07-28 | データ検索プログラム、データ検索方法およびデータ検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018018330A JP2018018330A (ja) | 2018-02-01 |
JP6708043B2 true JP6708043B2 (ja) | 2020-06-10 |
Family
ID=61011619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016148562A Active JP6708043B2 (ja) | 2016-07-28 | 2016-07-28 | データ検索プログラム、データ検索方法およびデータ検索装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180032579A1 (ja) |
JP (1) | JP6708043B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135511B (zh) * | 2019-05-22 | 2021-07-20 | 国网河北省电力有限公司 | 电力系统时间断面的确定方法、装置以及电子设备 |
US11226992B1 (en) * | 2019-07-29 | 2022-01-18 | Kensho Technologies, Llc | Dynamic data clustering |
CN113495710A (zh) * | 2020-03-18 | 2021-10-12 | 中国电信股份有限公司 | 声音唤醒处理方法、装置、声音分析平台以及存储介质 |
JP7127080B2 (ja) * | 2020-03-19 | 2022-08-29 | ヤフー株式会社 | 判定装置、判定方法及び判定プログラム |
JP6948425B2 (ja) * | 2020-03-19 | 2021-10-13 | ヤフー株式会社 | 判定装置、判定方法及び判定プログラム |
CN113297331B (zh) * | 2020-09-27 | 2022-09-09 | 阿里云计算有限公司 | 数据存储方法及装置、数据查询方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3903613B2 (ja) * | 1998-11-04 | 2007-04-11 | 富士ゼロックス株式会社 | 検索装置及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7574409B2 (en) * | 2004-11-04 | 2009-08-11 | Vericept Corporation | Method, apparatus, and system for clustering and classification |
KR101266358B1 (ko) * | 2008-12-22 | 2013-05-22 | 한국전자통신연구원 | 다중 길이 시그니처 파일 기반 분산 색인 시스템 및 방법 |
US8515956B2 (en) * | 2009-05-11 | 2013-08-20 | H5 | Method and system for clustering datasets |
JP5254893B2 (ja) * | 2009-06-26 | 2013-08-07 | キヤノン株式会社 | 画像変換方法及び装置並びにパターン識別方法及び装置 |
JP5377148B2 (ja) * | 2009-08-03 | 2013-12-25 | キヤノン株式会社 | クラスタリング処理方法、クラスタリング処理装置、およびプログラム |
US8116527B2 (en) * | 2009-10-07 | 2012-02-14 | The United States Of America As Represented By The Secretary Of The Army | Using video-based imagery for automated detection, tracking, and counting of moving objects, in particular those objects having image characteristics similar to background |
WO2015171954A2 (en) * | 2014-05-09 | 2015-11-12 | Raven Industries, Inc. | Refined row guidance parameterization with hough transform |
WO2016001998A1 (ja) * | 2014-06-30 | 2016-01-07 | 楽天株式会社 | 類似度算出システム、類似度算出方法およびプログラム |
-
2016
- 2016-07-28 JP JP2016148562A patent/JP6708043B2/ja active Active
-
2017
- 2017-06-23 US US15/631,200 patent/US20180032579A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2018018330A (ja) | 2018-02-01 |
US20180032579A1 (en) | 2018-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6708043B2 (ja) | データ検索プログラム、データ検索方法およびデータ検索装置 | |
CN106682233B (zh) | 一种基于深度学习与局部特征融合的哈希图像检索方法 | |
KR101191223B1 (ko) | 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체 | |
EP3248143B1 (en) | Reducing computational resources utilized for training an image-based classifier | |
US9864928B2 (en) | Compact and robust signature for large scale visual search, retrieval and classification | |
JP6721681B2 (ja) | 並列検索動作を実行する方法及び装置 | |
US11010337B2 (en) | Fuzzy hash algorithms to calculate file similarity | |
EP3203417B1 (en) | Method for detecting texts included in an image and apparatus using the same | |
KR20150054258A (ko) | 인식기 학습 방법 및 장치, 데이터 인식 방법 및 장치 | |
US8027978B2 (en) | Image search method, apparatus, and program | |
US10133811B2 (en) | Non-transitory computer-readable recording medium, data arrangement method, and data arrangement apparatus | |
US11809557B2 (en) | Mobile malicious code classification method based on feature selection and recording medium and device for performing the same | |
US9223804B2 (en) | Determining capacity of search structures | |
JP6589639B2 (ja) | 検索システム、検索方法およびプログラム | |
CN106610977A (zh) | 一种数据聚类方法和装置 | |
Ghan et al. | Clustering and pattern matching for an automatic hotspot classification and detection system | |
CN111428064B (zh) | 小面积指纹图像快速索引方法、装置、设备及存储介质 | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
Wu et al. | Mixed Pattern Matching‐Based Traffic Abnormal Behavior Recognition | |
CN111160391A (zh) | 基于空间划分的快速相对密度噪声检测方法及存储介质 | |
Histograms | Bi-level classification of color indexed image histograms for content based image retrieval | |
Dutta et al. | Performance comparison of hard and soft approaches for document clustering | |
JP2006011622A (ja) | 部分画像検索システム及び方法並びにプログラム | |
CN115344691A (zh) | 一种基于knn的文本分类方法、装置、电子设备和介质 | |
CN113204620A (zh) | 一种叙词表自动构建的方法、系统、设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200504 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6708043 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |