[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102375835A - 一种信息搜索系统和方法 - Google Patents

一种信息搜索系统和方法 Download PDF

Info

Publication number
CN102375835A
CN102375835A CN2010102569926A CN201010256992A CN102375835A CN 102375835 A CN102375835 A CN 102375835A CN 2010102569926 A CN2010102569926 A CN 2010102569926A CN 201010256992 A CN201010256992 A CN 201010256992A CN 102375835 A CN102375835 A CN 102375835A
Authority
CN
China
Prior art keywords
data
tree data
problem tree
unit
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102569926A
Other languages
English (en)
Other versions
CN102375835B (zh
Inventor
姚静
李辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201010256992.6A priority Critical patent/CN102375835B/zh
Publication of CN102375835A publication Critical patent/CN102375835A/zh
Application granted granted Critical
Publication of CN102375835B publication Critical patent/CN102375835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种信息搜索系统和方法,其中,该系统可包括:数据生成单元,用于生成并存储具体问题对应的问题树数据;用户查询单元,用于提供搜索关键字给数据检索单元,以及以问题树的形式显示数据检索单元提供的分类后的问题树数据;数据检索单元,用于在所述数据生成单元存储的问题树数据中检索搜索关键字相关的问题树数据,对检索到的问题树数据进行分类并提供给用户查询单元。采用本发明,能够实现以问题树的形式提供搜索的信息。

Description

一种信息搜索系统和方法
技术领域
本发明涉及网络通信技术,特别涉及一种信息搜索系统和方法。
背景技术
随着网络应用的不断发展,网络搜索服务也随之得到了发展。在网络搜索服务中,搜索引擎(search engines)是一个提供信息检索服务的网站,它通过使用某些程序能够把因特网上的所有信息归类,以帮助用户在茫茫网海中搜寻到所需要的信息。目前常用的搜索引擎有百度,Google,搜狐,雅虎,有道,中搜,搜搜,搜客等。
目前的网络搜索服务中,只需用户输入搜索关键字,搜索引擎就可从索引数据库中匹配到该搜索关键字相关的网页,之后显示该匹配出的网页。通常,为了便于用户判断,该显示的网页除了提供网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
但是,目前的搜索引擎只是罗列出匹配出的网页,而通常,该罗列出的网页比较多、且杂乱。并且,随着网络应用的不断发展,以问题树的形式提供信息是目前发展的趋势,然而,目前还没有以问题树的形式提供信息的搜索方法。
发明内容
本发明实施例提供了一种信息搜索系统和方法,以便实现以问题树的形式提供搜索的信息。
本发明提供的技术方案包括:
一种信息搜索系统,包括:
数据生成单元,用于生成并存储具体问题对应的问题树数据;
数据查询单元,用于提供搜索关键字给数据检索单元,以及以问题树的形式显示数据检索单元提供的分类后的问题树数据;
数据检索单元,用于在所述数据生成单元存储的问题树数据中检索所述搜索关键字相关的问题树数据,对检索到的问题树数据进行分类并提供给数据查询单元。
一种信息搜索方法,包括:
生成并存储具体问题对应的问题树数据;
当接收到搜索关键字时,在已存储的问题树数据中检索该搜索关键字相关的问题树数据,对检索到的问题树数据进行分类,并以问题树的形式显示。
由以上技术方案可以看出,本发明中,先生成并存储具体问题对应的问题树数据;当用户需要搜索某一信息时,直接提高该信息的搜索关键字,以便后台根据该搜索关键字在已存储的问题树数据中进行检索,当检索到的相应的问题树数据时,对该检索到的问题树数据进行分类并以问题树的形式显示,这实现了以问题树的形式提供搜索的信息。
进一步地,本发明以问题树的形式提供搜索的信息,并非现有技术那样笼统显示网页,这能直接、准确、快速定位到搜索的信息。
附图说明
图1为本发明实施例提供的系统的基本结构图;
图2为本发明实施例提供的系统的详细结构图;
图3为本发明实施例提供的问题树显示截图;
图4为本发明实施例提供的基本流程图。
具体实施方式
在对本发明提供的技术方案进行分析之前,先对问题树进行描述。
所谓问题树,其实质上是以树的形式将各个信息关联起来所形成的集合。比如,当用户A外出旅游时,其可能需要做一些准备工作,而由于用户A不经常旅游,其可能不知道需要准备哪些工作,而问题树就是需要准备的一些以树状的形式组成的工作集合,其具体可包含:保险、签证、线路、行李、费用、宿舍、旅游团等信息。
下面为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
参见图1,图1为本发明实施例提供的系统的基本结构图。如图1所示,该系统可包括:
数据生成单元101,其为本实施例中信息搜索系统的核心模块,用于针对具体问题生成并存储对应的问题树数据;
用户查询单元102,用于提供搜索关键字给数据检索单元103,以及以问题树的形式显示数据检索单元103提供的分类后的问题树数据;
数据检索单元103,用于在数据生成单元101存储的问题树数据中检索所述搜索关键字相关的问题树数据,对检索到的问题树数据进行分类并提供给用户查询单元102。
以上对本发明实施例提供的系统的基本结构进行了描述,下面对被发明实施例提供的系统进行详细描述。
参见图2,图2为本发明实施例提供的系统的详细结构图。如图2所示,该系统可包括:数据生成单元201、用户查询单元202和数据检索单元203。
其中,数据生成单元201、用户查询单元202和数据检索单元203具有的功能分别与上述的数据生成单元101、用户查询单元102和数据检索单元103具有的功能类似,不再详述。
优选地,如图3所示,数据生成单元201具体可包括:数据处理模块2011和数据生成模块2012。
其中,数据处理模块2011,用于从网络上爬取的所述具体问题的相关数据中提取出设定数据,并确定该设定数据对应的问题树数据建立操作和问题树数据存储规则;
而数据生成模块2012,用于根据数据处理模块2011确定的问题树数据建立操作生成所述具体问题对应的问题树数据,并根据确定的所述问题树数据存储规则存储生成的问题树数据。
在上面描述中,问题树数据建立操作主要可包括:特征词典建立操作、情感词典建立操作等。其中,特征词典主要为具体问题的特点,而情感词典可为用户对该具体问题的评价。比如,若具体问题为诺基亚5800手机,则特征词典主要为该诺基亚5800手机的相关特点数据,比如软件、显示、速度、质量、声音等数据,而情感词典主要为用户对该诺基亚5800手机的评价比如性能好坏等数据。
至于问题树数据存储规则主要为问题树数据的存储方式,这里不具体限定。
本实施例中,考虑到节省资源,可针对同一类具体问题比如手机或者笔记本电脑等,可建立同一个数据集合。基于此,可根据从具体问题提取出的设定数据分别从同一个数据集合内选择出对应的问题树数据建立操作和问题树存储规则,该数据集合中包含了该具体问题涉及的可能用到的问题树数据建立操作和问题树存储规则。
本实施例中,用户查询单元202可基于Apache(其是世界使用排名第一的Web服务器软件,可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一)+超级文本预处理语言PHP的网站开发技术实现,其主要提供一查询界面,便于用户在该查询界面输入搜索关键字,以及将数据检索单元203分类后的问题树数据解析成问题树的表项形式,并显示给用户。
本实施例中,数据检索单元203可基于开源检索系统Lucene实现,其能够实现中文分词、多线程Socket查询服务端等操作。本实施例中,数据检索单元203以Socket方式搜索问题树数据的。另外,数据检索单元203对检索到的问题树数据进行分类主要是根据问题树数据被访问的热度执行的。
以搜搜网站为例,若用户在查询界面输入搜索关键字为5800,检索到的相关数据为诺基亚手机5800i对应的问题树数据,其分别为软件、显示、速度、质量和声音的数据,假如该问题树数据被访问的热度按照大小排序为:软件、显示、速度、质量和声音,则基于此,以问题树形式显示的该诺基亚手机5800i的数据在搜搜网上的截图如图3所示。其中,在图3中,最左面一列(即网页结果所在的列)中的问题树加粗并变黑,其表示当前页面是以问题树显示数据的,中间一列(即诺基亚5800i所在的列)为以问题树形式显示诺基亚5800i对应的问题树数据,而最右面一列(即【诺基亚5800XM手机】报价参数所在列)为选中问题树中某问题树数据时所对应的网页,目前为选中问题树中作为问题树数据的软件时所对应的网页。
以上对本发明实施例提供的系统进行了详细描述,下面对本发明实施例提供的方法进行详细描述。
参见图4,图4为本发明实施例提供的基本流程图。如图4所示,该流程可包括以下步骤:
步骤401,生成并存储具体问题对应的问题树数据。
步骤402,当接收到搜索关键字时,在已存储的问题树数据中检索该搜索关键字相关的问题树数据,对检索到的问题树数据进行分类,并以问题树的形式显示。
在上述步骤401中,生成并存储具体问题对应的问题树数据具体可包括:从网络上爬取的所述具体问题的相关数据中提取出设定数据,并确定该设定数据对应的问题树数据建立操作和问题树数据存储规则;根据所述数据处理模块确定的问题树数据建立操作生成所述具体问题对应的问题树数据,并根据确定的所述问题树数据存储规则存储生成的问题树数据。
在上述步骤402中,对检索到的问题树数据进行分类具体包括:统计检索到的各个问题树数据被访问的热度;按照热度的大小对各个问题树数据进行分类。
需要说明的是,图4所示的流程对应图2所示的系统,其中,步骤401、以及步骤402中的搜索和分类都是由服务端,具体由服务端中的数据生成单元和数据搜索单元执行的。其中,数据检索单元是基于开源检索系统Lucene实现。
在上述步骤402中,以问题树形式显示的操作由客户端执行,具体包括:客户端将服务端分类后的问题树数据解析成问题树的表项形式,并显示给用户。其中,该显示具体可由客户端中设置的用户查询单元执行,优选地,本实施例中该用户查询单元可基于Apache+PHP的网站开发技术实现。
至此,通过上述步骤401至步骤402能够实现客户端以问题树的形式显示数据。
由以上技术方案可以看出,本发明中,先生成并存储具体问题对应的问题树数据;当用户需要搜索某一信息时,直接提高该信息的搜索关键字,以便后台根据该搜索关键字在已存储的问题树数据中进行检索,当检索到的相应的问题树数据时,对该检索到的问题树数据进行分类并以问题树的形式显示,这实现了以问题树的形式提供搜索的信息。
进一步地,本发明以问题树的形式提供搜索的信息,并非现有技术那样笼统显示网页,这能直接、准确、快速定位到搜索的信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种信息搜索系统,其特征在于,该系统包括:
数据生成单元,用于生成并存储具体问题对应的问题树数据;
用户查询单元,用于提供搜索关键字给问题树检索单元,以及以问题树的形式显示数据检索单元提供的分类后的问题树数据;
数据检索单元,用于在所述数据生成单元存储的问题树数据中检索所述搜索关键字相关的问题树数据,对检索到的问题树数据进行分类并提供给用户查询单元。
2.根据权利要求1所述的系统,其特征在于,所述数据生成单元包括:
数据处理模块,用于从网络上爬取的所述具体问题的相关数据中提取出设定数据,并确定该设定数据对应的问题树数据建立操作和问题树数据存储规则;
数据生成模块,用于根据所述数据处理模块确定的问题树数据建立操作生成所述具体问题对应的问题树数据,并根据确定的所述问题树数据存储规则存储生成的问题树数据。
3.根据权利要求1所述的系统,其特征在于,所述数据检索单元基于开源检索系统Lucene实现。
4.根据权利要求1所述的系统,其特征在于,所述用户查询单元基于Apache和超级文本预处理语言PHP的网站开发技术实现。
5.根据权利要求1所述的系统,所述数据检索单元根据问题树数据被访问的热度对检索到的问题树数据进行分类。
6.一种信息搜索方法,其特征在于,该方法包括:
生成并存储具体问题对应的问题树数据;
当接收到搜索关键字时,在已存储的问题树数据中检索该搜索关键字相关的问题树数据,对检索到的问题树数据进行分类,并以问题树的形式显示。
7.根据权利要求6所述的方法,其特征在于,所述生成并存储具体问题对应的问题树数据包括:
从网络上爬取的所述具体问题的相关数据中提取出设定数据,并确定该设定数据对应的问题树数据建立操作和问题树数据存储规则;
根据所述数据处理模块确定的问题树数据建立操作生成所述具体问题对应的问题树数据,并根据确定的所述问题树数据存储规则存储生成的问题树数据。
8.根据权利要求6所述的方法,其特征在于,所述对检索到的问题树数据进行分类包括:
统计检索到的各个问题树数据被访问的热度;
按照热度的大小对各个问题树数据进行分类。
9.根据权利要求6所述的方法,其特征在于,所述生成并存储具体问题对应的问题树数据、在已存储的问题树数据中检索该搜索关键字相关的问题树数据、以及对检索到的问题树数据进行分类都是由服务端执行的。
10.根据权利要求9所述的方法,其特征在于,所述以问题树的形式显示由客户端执行,具体包括:
客户端将服务端分类后的问题树数据解析成问题树的表项形式,并显示给用户。
CN201010256992.6A 2010-08-17 2010-08-17 一种信息搜索系统和方法 Active CN102375835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010256992.6A CN102375835B (zh) 2010-08-17 2010-08-17 一种信息搜索系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010256992.6A CN102375835B (zh) 2010-08-17 2010-08-17 一种信息搜索系统和方法

Publications (2)

Publication Number Publication Date
CN102375835A true CN102375835A (zh) 2012-03-14
CN102375835B CN102375835B (zh) 2016-06-29

Family

ID=45794458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010256992.6A Active CN102375835B (zh) 2010-08-17 2010-08-17 一种信息搜索系统和方法

Country Status (1)

Country Link
CN (1) CN102375835B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593412A (zh) * 2013-10-24 2014-02-19 北京京东尚科信息技术有限公司 一种基于树形结构问题的应答方法及系统
CN109753600A (zh) * 2018-12-20 2019-05-14 航天信息股份有限公司 处理咨询问题的方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025554A1 (en) * 2000-09-21 2002-03-28 Iq Company Method and system for asynchronous online distributed problem solving including problems in education, business finance and technology
CN1873642A (zh) * 2006-04-29 2006-12-06 上海世纪互联信息系统有限公司 具有自动分类功能的搜索引擎
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025554A1 (en) * 2000-09-21 2002-03-28 Iq Company Method and system for asynchronous online distributed problem solving including problems in education, business finance and technology
CN1873642A (zh) * 2006-04-29 2006-12-06 上海世纪互联信息系统有限公司 具有自动分类功能的搜索引擎
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593412A (zh) * 2013-10-24 2014-02-19 北京京东尚科信息技术有限公司 一种基于树形结构问题的应答方法及系统
CN103593412B (zh) * 2013-10-24 2017-10-03 北京京东尚科信息技术有限公司 一种基于树形结构问题的应答方法及系统
CN109753600A (zh) * 2018-12-20 2019-05-14 航天信息股份有限公司 处理咨询问题的方法、装置和存储介质

Also Published As

Publication number Publication date
CN102375835B (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
CN102096717B (zh) 搜索方法及搜索引擎
JP5368100B2 (ja) 概念ベースの検索および解析のためのシステム、方法、およびコンピュータプログラム製品
US7917514B2 (en) Visual and multi-dimensional search
US20150178273A1 (en) Unsupervised Relation Detection Model Training
US20080005091A1 (en) Visual and multi-dimensional search
CN107766399B (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
JP2017220203A (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
US9262555B2 (en) Machine for recognizing or generating Jabba-type sequences
US8949253B1 (en) Low-overhead image search result generation
US8799257B1 (en) Searching based on audio and/or visual features of documents
CN107145497B (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
US20150120708A1 (en) Information aggregation, classification and display method and system
CN101986306A (zh) 一种用于基于查询序列获取黄页信息的方法与设备
CN102456054A (zh) 一种搜索方法及系统
US20170255653A1 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US20150127641A1 (en) Method and system for searching on mobile terminal
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
CN102375835A (zh) 一种信息搜索系统和方法
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
KR20210120203A (ko) 웹 페이지에 기반한 메타데이터 생성방법
CN101853271A (zh) 一种用户需求的分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131025

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131025

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant