CN104915388A - 一种基于谱聚类和众包技术的图书标签推荐方法 - Google Patents
一种基于谱聚类和众包技术的图书标签推荐方法 Download PDFInfo
- Publication number
- CN104915388A CN104915388A CN201510270676.7A CN201510270676A CN104915388A CN 104915388 A CN104915388 A CN 104915388A CN 201510270676 A CN201510270676 A CN 201510270676A CN 104915388 A CN104915388 A CN 104915388A
- Authority
- CN
- China
- Prior art keywords
- term
- cluster
- user
- matrix
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于谱聚类和众包技术的图书标签推荐方法,该方法应用于数字图书馆系统,通过使用用户的检索点击日志构建Laplacian矩阵,并利用谱聚类对检索词进行聚类,之后通过使用众包技术,对聚类的结果进行持续的优化,最后将优化的结果应用于推荐系统中。本发明将用户的检索词作为标签,通过谱聚类和众包技术的结合提升检索词聚类的准确度,从而提高系统在标签推荐方面的准确性。
Description
技术领域
本发明属于基于谱聚类和众包技术的图书标签推荐技术,涉及一种基于谱聚类和众包技术的图书标签推荐方法。
背景技术
随着互联网信息的不断增多,信息呈现爆炸式增长,对信息合理高效的归类成为信息有效利用的关键。传统的归类方法主要通过人工的方式进行,而在海量信息的前提下,此种信息归类的方式已经难以为继,因而逐渐出现了以标签为核心的新型信息归类方式,并已经成为互联网应用的关键。在数字图书馆系统当中,标签主要来自图书信息,同时在用户使用系统的过程中,用户的检索词、图书标引信息也可以作为一种标签加入到系统当中,并以标签为纽带拉近用户与图书的关系,提升用户发现图书的效率。
同时,对于海量数据的应用,推荐系统得到越来越多的关注。用户获取信息的方式由全网式信息检索到领域知识的垂直检索,再到当前的推荐系统,信息的获取速度不断的加快,针对不同用户的信息个性化不断提高,推荐系统在系统可用性方面的贡献日益显著。聚类算法是数据挖掘的关键方法,在推荐系统中聚类算法用来实现对物品、用户的聚类,并通过算法的迭代运行来优化聚类的效果。
发明内容
本发明的目的在于针对现有推荐系统对检索词利用的不足,提供一种用于数字图书馆上基于谱聚类和众包技术的图书标签推荐方法。
本发明的目的是通过以下技术方案来实现的:一种基于谱聚类和众包技术的图书标签推荐方法,包括以下步骤:
(1)从日志收集系统或者Web日志中筛选出用户的检索数据和检索点击数据;
(2)利用用户的检索数据和检索点击数据,构建检索词-图书矩阵,根据检索词-图书矩阵得到检索词-检索词的Laplacian矩阵;
(3)使用谱聚类对Laplacian矩阵进行聚类操作,得到检索词的聚类结果;
(4)利用众包技术对步骤3所得到的聚类结果进行持续的优化;
(5)将用户过去的检索记录与步骤4优化后的聚类结果进行映射,利用映射后的聚类结构作为标签推荐给用户。
进一步地,所述步骤2具体为:从用户的检索数据中得到所有用户的检索词集合Q={q1,q2,…,qn},其中n为检索词的总数,q为独立检索词;从用户的检索点击数据中得到检索词点击的图书集合B={b1,b2,…,bm},其中m为点击图书的总数,b为独立的图书;根据所有用户的检索词集合Q和检索词点击的图书集合B得到检索词-图书矩阵M,对于检索词-图书矩阵M的每一项,定义如下:
其中Iij为第i个检索词和第j本书的对应关系;针对每一本图书,如果有多个检索词均对这本书存在点击行为,那么这些检索词之间存在联系,根据检索词之间的联系构建检索词-检索词矩阵D,对于检索词-检索词矩阵D的每一项,如果两个检索词之间存在联系则为1,否则为0;通过把检索词-检索词矩阵D的每一列元素相加得到的值置于对角线上,其它位置设为0,从而构成新的矩阵W;Laplacian矩阵L通过公式L=D-W求出。
进一步地,所述步骤3具体为:对于谱聚类算法,选定的目标函数RatioCut为:
其中k为聚类的个数,Ai表示第i个聚类结果,|Ai|表示第i个聚类结果中的检索词数量,表示除去Ai之外的其它聚类结果集合,表示第i个聚类结果与其他聚类结果的权重之和,的计算公式为其中W(a,b)为聚类结果a与聚类结果b的权重;根据Laplacian矩阵L的性质推出最小化目标函数RatioCut等价于最小化Laplacian矩阵,从而使用SVD矩阵分解的方法实现对Laplacian矩阵的降维,使用K-mean聚类算法完成对降维后的Laplacian矩阵的聚类操作。
进一步地,所述步骤4具体为:将步骤3得到的检索词的聚类结果中检索词对应的用户作为众包的选定用户,通过发送邮件的方式将聚类的结果发送给选定用户,选定用户的反馈定义为:
其中,Query表示一个检索词,正反馈表示用户认为该检索词符合所在聚类结果的主题,负反馈表示用户认为该检索词不符合聚类结果的主题,零反馈表示该检索词难以判断是否符合主题;根据选定用户对一个聚类结果的反馈信息,对该聚类结果进行以下三种不同方式的处理:
(a)选定用户的反馈信息表明该聚类可以很好的表明某一个主题,其具体体现在两个方面:一方面是负反馈结果少于正反馈结果,另一方面是用户的反馈信息不存在彼此矛盾的情况;在这种情况下,删除聚类结果中的负反馈,保留正反馈和零反馈的检索词;
(b)选定用户的反馈信息混乱,难以表明该聚类效果的优劣,其具体表现为多名用户对相同检索词的反馈信息不同甚至相反;该种情况下,意味着当前选定用户的反馈信息尚不足以对该聚类进行判断,因而需要引入新的用户,重新众包任务分发操作;
(c)选定用户的反馈信息表明该聚类不具有明确的主题,具体表现为在选定用户的反馈中超过50%的检索词的反馈信息不同或相反;在这种情况下,直接将该聚类结果删除。
本发明的有益效果是:该方法利用谱聚类对用户的检索词信息进行聚类,并使用众包技术对聚类的结果持续的优化,最终实现利用检索词提高图书标签推荐的效果。本发明在聚类结果的基础上,提出了通过使用众包技术来实现对聚类结果进行优化的目的,通过收集多个用户对聚类结果的反馈信息来判断并优化聚类的结果,并将聚类的结果应用到推荐系统当中。
附图说明
图1是本发明基于谱聚类和众包技术的图书标签推荐方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明一种基于谱聚类和众包技术的图书标签推荐方法,包括以下步骤:
(1)从日志收集系统或者Web日志中筛选出用户的检索数据和检索点击数据;
(2)利用用户的检索数据和检索点击数据,构建检索词-图书矩阵,根据检索词-图书矩阵得到检索词-检索词的Laplacian矩阵;具体为:从用户的检索数据中得到所有用户的检索词集合Q={q1,q2,...,qn},其中n为检索词的总数,q为独立检索词;从用户的检索点击数据中得到检索词点击的图书集合B={b1,b2,...,bm},其中m为点击图书的总数,b为独立的图书;根据所有用户的检索词集合Q和检索词点击的图书集合B得到检索词-图书矩阵M,对于检索词-图书矩阵M的每一项,定义如下:
其中Iij为第i个检索词和第j本书的对应关系;针对每一本图书,如果有多个检索词均对这本书存在点击行为,那么这些检索词之间存在联系,根据检索词之间的联系构建检索词-检索词矩阵D,对于检索词-检索词矩阵D的每一项,如果两个检索词之间存在联系则为1,否则为0;通过把检索词-检索词矩阵D的每一列元素相加得到的值置于对角线上,其它位置设为0,从而构成新的矩阵W;Laplacian矩阵L通过公式L=D-W求出。
(3)使用谱聚类对Laplacian矩阵进行聚类操作,得到检索词的聚类结果;具体为:对于谱聚类算法,选定的目标函数RatioCut为:
其中k为聚类的个数,Ai表示第i个聚类结果,|Ai|表示第i个聚类结果中的检索词数量,表示除去Ai之外的其它聚类结果集合,表示第i个聚类结果与其他聚类结果的权重之和,的计算公式为其中W(a,b)为聚类结果a与聚类结果b的权重;根据Laplacian矩阵L的性质推出最小化目标函数RatioCut等价于最小化Laplacian矩阵,从而使用SVD矩阵分解的方法实现对Laplacian矩阵的降维,使用K-mean聚类算法完成对降维后的Laplacian矩阵的聚类操作。
(4)利用众包技术对步骤3所得到的聚类结果进行持续的优化;具体为:将步骤3得到的检索词的聚类结果中检索词对应的用户作为众包的选定用户,通过发送邮件的方式将聚类的结果发送给选定用户,选定用户的反馈定义为:
其中,Query表示一个检索词,正反馈表示用户认为该检索词符合所在聚类结果的主题,负反馈表示用户认为该检索词不符合聚类结果的主题,零反馈表示该检索词难以判断是否符合主题;根据选定用户对一个聚类结果的反馈信息,对该聚类结果进行以下三种不同方式的处理:
(a)选定用户的反馈信息表明该聚类可以很好的表明某一个主题,其具体体现在两个方面:一方面是负反馈结果少于正反馈结果,另一方面是用户的反馈信息不存在彼此矛盾的情况;在这种情况下,删除聚类结果中的负反馈,保留正反馈和零反馈的检索词;
(b)选定用户的反馈信息混乱,难以表明该聚类效果的优劣,其具体表现为多名用户对相同检索词的反馈信息不同甚至相反;该种情况下,意味着当前选定用户的反馈信息尚不足以对该聚类进行判断,因而需要引入新的用户,重新众包任务分发操作;
(c)选定用户的反馈信息表明该聚类不具有明确的主题,具体表现为在选定用户的反馈中超过50%的检索词的反馈信息不同或相反;在这种情况下,直接将该聚类结果删除。
(5)将用户过去的检索记录与步骤4优化后的聚类结果进行映射,利用映射后的聚类结构作为标签推荐给用户。
Claims (4)
1.一种基于谱聚类和众包技术的图书标签推荐方法,其特征在于,包括以下步骤:
(1)从日志收集系统或者Web日志中筛选出用户的检索数据和检索点击数据;
(2)利用用户的检索数据和检索点击数据,构建检索词-图书矩阵,根据检索词-图书矩阵得到检索词-检索词的Laplacian矩阵;
(3)使用谱聚类对Laplacian矩阵进行聚类操作,得到检索词的聚类结果;
(4)利用众包技术对步骤3所得到的聚类结果进行持续的优化;
(5)将用户过去的检索记录与步骤4优化后的聚类结果进行映射,利用映射后的聚类结构作为标签推荐给用户。
2.根据权利要求1所述一种基于谱聚类和众包技术的图书标签推荐方法,其特征在于,所述步骤2具体为:从用户的检索数据中得到所有用户的检索词集合Q={q1,q2,…,qn},其中n为检索词的总数,q为独立检索词;从用户的检索点击数据中得到检索词点击的图书集合B={b1,b2,…,bm},其中m为点击图书的总数,b为独立的图书;根据所有用户的检索词集合Q和检索词点击的图书集合B得到检索词-图书矩阵M,对于检索词-图书矩阵M的每一项,定义如下:
其中Iij为第i个检索词和第j本书的对应关系;针对每一本图书,如果有多个检索词均对这本书存在点击行为,那么这些检索词之间存在联系,根据检索词之间的联系构建检索词-检索词矩阵D,对于检索词-检索词矩阵D的每一项,如果两个检索词之间存在联系则为1,否则为0;通过把检索词-检索词矩阵D的每一列元素相加得到的值置于对角线上,其它位置设为0,从而构成新的矩阵W;Laplacian矩阵L通过公式L=D-W求出。
3.根据权利要求1所述一种基于谱聚类和众包技术的图书标签推荐方法,其特征在于,所述步骤3具体为:对于谱聚类算法,选定的目标函数RatioCut为:
其中k为聚类的个数,Ai表示第i个聚类结果,|Ai|表示第i个聚类结果中的检索词数量,表示除去Ai之外的其它聚类结果集合,表示第i个聚类结果与其他聚类结果的权重之和,的计算公式为其中W(a,b)为聚类结果a与聚类结果b的权重;根据Laplacian矩阵L的性质推出最小化目标函数RatioCut等价于最小化Laplacian矩阵,从而使用SVD矩阵分解的方法实现对Laplacian矩阵的降维,使用K-mean聚类算法完成对降维后的Laplacian矩阵的聚类操作。
4.根据权利要求1所述一种基于谱聚类和众包技术的图书标签推荐方法,其特征在于,所述步骤4具体为:将步骤3得到的检索词的聚类结果中检索词对应的用户作为众包的选定用户,通过发送邮件的方式将聚类的结果发送给选定用户,选定用户的反馈定义为:
其中,Query表示一个检索词,正反馈表示用户认为该检索词符合所在聚类结果的主题,负反馈表示用户认为该检索词不符合聚类结果的主题,零反馈表示该检索词难以判断是否符合主题;根据选定用户对一个聚类结果的反馈信息,对该聚类结果进行以下三种不同方式的处理:
(a)选定用户的反馈信息表明该聚类可以很好的表明某一个主题,其具体体现在两个方面:一方面是负反馈结果少于正反馈结果,另一方面是用户的反馈信息不存在彼此矛盾的情况;在这种情况下,删除聚类结果中的负反馈,保留正反馈和零反馈的检索词;
(b)选定用户的反馈信息混乱,难以表明该聚类效果的优劣,其具体表现为多名用户对相同检索词的反馈信息不同甚至相反;该种情况下,意味着当前选定用户的反馈信息尚不足以对该聚类进行判断,因而需要引入新的用户,重新众包任务分发操作;
(c)选定用户的反馈信息表明该聚类不具有明确的主题,具体表现为在选定用户的反馈中超过50%的检索词的反馈信息不同或相反;在这种情况下,直接将该聚类结果删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510270676.7A CN104915388B (zh) | 2015-03-11 | 2015-05-26 | 一种基于谱聚类和众包技术的图书标签推荐方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2015101072904 | 2015-03-11 | ||
CN201510107290 | 2015-03-11 | ||
CN201510270676.7A CN104915388B (zh) | 2015-03-11 | 2015-05-26 | 一种基于谱聚类和众包技术的图书标签推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915388A true CN104915388A (zh) | 2015-09-16 |
CN104915388B CN104915388B (zh) | 2018-03-16 |
Family
ID=54084451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510270676.7A Active CN104915388B (zh) | 2015-03-11 | 2015-05-26 | 一种基于谱聚类和众包技术的图书标签推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915388B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426826A (zh) * | 2015-11-09 | 2016-03-23 | 张静 | 一种基于标签噪声纠正的众包标注数据质量提升方法 |
CN106202184A (zh) * | 2016-06-27 | 2016-12-07 | 华中科技大学 | 一种面向高校图书馆的图书个性化推荐方法和系统 |
CN107301199A (zh) * | 2017-05-17 | 2017-10-27 | 北京融数云途科技有限公司 | 一种数据标签生成方法和装置 |
CN110851706A (zh) * | 2019-10-10 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 用户点击模型的训练方法、装置、电子设备及存储介质 |
US11113580B2 (en) | 2019-12-30 | 2021-09-07 | Industrial Technology Research Institute | Image classification system and method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901450A (zh) * | 2010-07-14 | 2010-12-01 | 中兴通讯股份有限公司 | 媒体内容推荐方法和媒体内容推荐系统 |
CN102376063A (zh) * | 2011-11-29 | 2012-03-14 | 北京航空航天大学 | 一种基于社会化标签的个性化推荐系统优化方法 |
JP2013084216A (ja) * | 2011-10-12 | 2013-05-09 | Ntt Docomo Inc | 定型文判別装置及び定型文判別方法 |
-
2015
- 2015-05-26 CN CN201510270676.7A patent/CN104915388B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901450A (zh) * | 2010-07-14 | 2010-12-01 | 中兴通讯股份有限公司 | 媒体内容推荐方法和媒体内容推荐系统 |
JP2013084216A (ja) * | 2011-10-12 | 2013-05-09 | Ntt Docomo Inc | 定型文判別装置及び定型文判別方法 |
CN102376063A (zh) * | 2011-11-29 | 2012-03-14 | 北京航空航天大学 | 一种基于社会化标签的个性化推荐系统优化方法 |
Non-Patent Citations (2)
Title |
---|
李默等: "基于标签和关联规则挖掘的图书组合推荐系统模型研究", 《计算机应用研究》 * |
罗琳等: "标签技术在高效图书馆OPAC系统中的应用调查", 《图书情报工作》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426826A (zh) * | 2015-11-09 | 2016-03-23 | 张静 | 一种基于标签噪声纠正的众包标注数据质量提升方法 |
CN106202184A (zh) * | 2016-06-27 | 2016-12-07 | 华中科技大学 | 一种面向高校图书馆的图书个性化推荐方法和系统 |
CN106202184B (zh) * | 2016-06-27 | 2019-05-31 | 华中科技大学 | 一种面向高校图书馆的图书个性化推荐方法和系统 |
CN107301199A (zh) * | 2017-05-17 | 2017-10-27 | 北京融数云途科技有限公司 | 一种数据标签生成方法和装置 |
CN107301199B (zh) * | 2017-05-17 | 2021-02-12 | 北京融数云途科技有限公司 | 一种数据标签生成方法和装置 |
CN110851706A (zh) * | 2019-10-10 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 用户点击模型的训练方法、装置、电子设备及存储介质 |
CN110851706B (zh) * | 2019-10-10 | 2022-11-01 | 百度在线网络技术(北京)有限公司 | 用户点击模型的训练方法、装置、电子设备及存储介质 |
US11838377B2 (en) | 2019-10-10 | 2023-12-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, electronic device and storage medium for training user click model |
US11113580B2 (en) | 2019-12-30 | 2021-09-07 | Industrial Technology Research Institute | Image classification system and method |
Also Published As
Publication number | Publication date |
---|---|
CN104915388B (zh) | 2018-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049440B (zh) | 一种相关文章的推荐处理方法和处理系统 | |
CN102254043B (zh) | 一种基于语义映射的服装图像检索方法 | |
CN104239513A (zh) | 一种面向领域数据的语义检索方法 | |
CN104834686A (zh) | 一种基于混合语义矩阵的视频推荐方法 | |
CN104915388A (zh) | 一种基于谱聚类和众包技术的图书标签推荐方法 | |
CN102855282B (zh) | 一种文档推荐方法及装置 | |
CN103793489A (zh) | 一种在线社交网络中社群话题的发现方法 | |
CN106407208A (zh) | 一种城市管理本体知识库的构建方法及系统 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN102566945A (zh) | 一种实现图书自动组稿按需印刷的方法和系统 | |
CN106547864A (zh) | 一种基于查询扩展的个性化信息检索方法 | |
CN104615734B (zh) | 一种社区管理服务大数据处理系统及其处理方法 | |
CN108171071A (zh) | 一种面向云计算的多关键字可排序密文检索方法 | |
CN104899702B (zh) | 基于大数据的装饰预算定额管理系统及管理方法 | |
CN106227510A (zh) | 应用推荐方法及装置 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN105740387B (zh) | 一种基于作者频繁模式的科技文献推荐方法 | |
CN103488637A (zh) | 一种基于动态社区挖掘进行专家检索的方法 | |
CN101840438B (zh) | 面向源文献元关键词的检索系统 | |
CN108228787A (zh) | 按照多级类目处理信息的方法和装置 | |
CN102622358A (zh) | 一种搜索信息的方法和系统 | |
CN113918724A (zh) | 一种河湖健康知识图谱的构建方法 | |
CN110489665B (zh) | 一种基于情景建模和卷积神经网络的微博个性化推荐方法 | |
CN118445406A (zh) | 一种基于海量多态丝路遗产信息的整合系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |