CN104580234B - 一种社交网络中行为特征的保护方法 - Google Patents
一种社交网络中行为特征的保护方法 Download PDFInfo
- Publication number
- CN104580234B CN104580234B CN201510025484.XA CN201510025484A CN104580234B CN 104580234 B CN104580234 B CN 104580234B CN 201510025484 A CN201510025484 A CN 201510025484A CN 104580234 B CN104580234 B CN 104580234B
- Authority
- CN
- China
- Prior art keywords
- feature
- words
- word
- behavior
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000003542 behavioural effect Effects 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 100
- 230000011218 segmentation Effects 0.000 description 14
- 238000007621 cluster analysis Methods 0.000 description 7
- 238000007418 data mining Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种社交网络中行为特征的保护方法,其特征是按如下步骤进行:1、对信息参与者总行为集合获得目标参与者的行为特征集合与特征类别集合;2、获得参与者的总特征词语集合以及每一个参与者行为集合所属的特征类别;3、获得目标参与者的相似者集合;4、选取在相似者集合中与目标参与者不在同一特征类别的相似者所对应的行为集合,提取g个相似特征词语所对应的行为作为相似特征行为;5、将相似特征行为推荐给目标参与者。本发明能有效的保护社交网络中信息参与者的行为特征,从而保护各种隐私数据,提高数据安全性。
Description
技术领域
本发明属于社交网络通讯信息领域,具体地说是一种社交网络中行为特征的保护方法。
背景技术
当前,我们处于一个数据大爆炸的时代,随着互联网、数据库以及计算技术的快速发展,越来越多的信息以数字的形式被记录在数据库中,运用数据挖掘技术能够有效的对这些数据进行分析和处理,从中获得具有潜在使用价值的信息。
然而,这些以数据挖掘知识发现为目的的数据在发布过程中往往都伴随着敏感的行为特征信息的泄露,会对人们生活产生负面影响。数据发布者在发布数据信息前需要对数据集进行行为特征的保护处理工作,虽然利用各种隐私保护手段可以保证个人信息不会公布在公开的平台之上,但是个人的一些行为特征仍然可以通过一些相关的背景知识被攻击者推演而获取,如受信任的朋友圈、社交圈等,这就引出了对数据发布过程中个性行为特征保护问题的研究。
现有的一些行为特征保护方法主要分为在数据挖掘中的行为特征保护和数据发布中的行为特征保护问题。这些方法在实现过程主要是通过对数据拥有者进行匿名处理,破坏了与行为特征的关联关系,会遗漏很多重要的信息,同时提高了时间复杂度。
发明内容
本发明为克服现有技术存在的不足之处,提出一种社交网络中行为特征的保护方法,以期能快速、有效、安全地保护社交网络中信息参与者的真实行为特征,从而保护各种隐私数据,提高数据安全性。
本发明为解决技术问题采用如下技术方案:
本发明一种社交网络中行为特征的保护方法,所述社交网络是由n个参与者U={u1,u2,...,ui,...,un}和所述n个参与者U之间的连接关系组成的网络;ui表示第i个参与者,1≤i≤n;定义表示目标参与者,定义所述n个参与者U在所述社交网络中的总行为集合为I={I1,I2,...,Ii,...,In},Ii表示第i个参与者ui的行为集合;表示目标参与者u的行为集合,其特点是:所述保护方法按如下步骤进行:
步骤一、对所述总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析,获得所述目标参与者u的行为特征集合与所述n个参与者U的总特征类别集合P={p1,p2,...,pj,...,pd};表示所述行为特征集合中目标特征词语的总数;表示所述目标参与者的行为特征集合中的第个特征词语,pj表示第j个特征类别,d表示特征类别的总数;1≤j≤d;
步骤二、利用多个总体的马氏距离判别方法获得所述n个参与者U总行为集合I的总特征词语集合W={W1,W2,...,Wi,...,Wn}中第i个特征词语集合Wi与所述n个参与者U的总特征类别集合P中所有特征类别的平方马氏距离,如果所述第i个特征词语集合Wi与特征类别pj的平方马氏距离最小,则所述第i个特征词语集合Wi属于第j个特征类别pj,所述第i个参与者ui的行为集合Ii属于第j个特征类别pj,进而获得所述总行为集合I中每个行为集合所属的特征类别;
步骤三、利用余弦相似性计算公式分别计算出所述目标参与者的行为集合与其他参与者的行为集合的余弦值集合;以所述余弦值集合作为相似度集合并进行降序排列后,选取前k个相似度所对应的参与者构成相似者集合U′={u′1,u′2,...,u′e,...,u′k};并以I′={I′1,I′2,...,I′e,...,I′k}中的每个元素表示所述相似者集合U′中每个相似者所对应的行为集合;I′e表示所述相似者集合U′中第e个相似者u′e的行为集合;1≤e≤n-1;
步骤四、选取在所述相似者集合U′={u′1,u′2,...,u′e,...,u′k}中与所述目标参与者不在同一特征类别的tc个相似者所对应的行为集合tf≤k;表示与所述目标参与者不在同一特征类别的第tf个相似者的行为集合;利用分词工具对所述tc个行为集合中的每个行为集合进行标注获得相似特征词语集合;在所述相似特征词语集合中选取g个相似特征词语,提取所述g个相似特征词语所对应的行为作为相似特征行为;
步骤五、将所述相似特征行为推荐给所述目标参与者使得所述目标参与者能将所述相似特征行为加入到所述行为集合中;从而形成对所述目标参与者的特征词语所表示的行为特征的保护。
本发明所述的保护方法的特点也在于:
所述步骤一是按如下步骤进行:
步骤1、利用分词工具对n个参与者U的总行为集合I中每一个行为集合进行分词和词性标注处理,获得n个具有不同词性的词语集合;从词语集合中选取动词词性和名词词性的词语,并去除名词里的停用词,构成总特征词语集合W={W1,W2,...,Wi,...,Wn},其中Wi表示第i个行为集合Ii的特征词语集合;其中第i个特征词语集合Wi={ωi1,ωi2,...,ωir,...,ωiR},ωir表示在第i个特征词语集合中第r个动词词性或名词词性的特征词语,1≤r≤R;iR表示第i个特征词语集合中不同特征词语的总数;
从总特征词语集合W中选择不重复的词语构成行为特征词语集合ω={ω1,ω2,...,ωα,...,ωβ},ωα表示在行为特征词语集合ω中第α个动词词性或名词词性的特征词语,1≤α≤β;β表示行为特征词语集合中不同特征词语的总数;
步骤2、利用分词工具对目标参与者的行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从所述目标词语集合中选取动词词性和名词词性的词语构成行为特征集合
步骤3、利用式(1)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的词频从而获得总特征词语集合W中每一个特征词语集合Wi的词频集合
式(1)中,表示总特征词语集合W中特征词语集合Wi出现特征词语ωir的次数,表示总特征词语集合W中所有特征词语的总数;
步骤4、利用式(2)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的逆文档频率从而获得总特征词语集合W中每一个特征词语集合Wi的逆文档频率集合
步骤5、利用式(3)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的TF-IDF值
步骤6、利用式(4)得到所述总特征词语集合W中任意两个特征词语集合Wa和Wb的Euclidean距离D(Wa,Wb):
式(4)中,m表示任意两个特征词语集合Wa和Wb中不重复特征词语的个数,表示特征词语集合Wa中第m个特征词语的TF-IDF值;1≤a≤n,1≤b≤n,a≠b;
步骤7、从所述行为特征词语集合ω的β个特征词语中选取d个作为质心;
步骤8、利用式(4)计算第α个特征词语ωα与每个质心的Euclidean距离,选出Euclidean距离的最小值所对应的质心作为初始特征类;将特征词语ωα归入初始特征类中;从而获得该特征词语ωα的特征类别;
步骤9、重复步骤8,从而获得所有特征词语的总特征类别集合P={p1,p2,...,pj,...,pd}。
所述步骤二是按下列步骤进行:
步骤1、利用式(5)获得所述第j个特征类别pj中特征词语的TF-IDF值的均值μj:
式(5)中,R′j表示所述第j个特征类别pj中特征词语的个数,表示所述特征类别pj中第R′j个特征词语的TF-IDF值;
步骤2、重复步骤1,从而获得总特征类别集合P的均值向量μ={μ1,μ2,...,μj,...,μd}T;
步骤3、利用式(6)得到第j个特征类别pj的协方差矩阵COV(pj):
式(6)中,ρj表示所述第j个特征类别pj中特征词语的TF-IDF值总和;
步骤4、初始化i=1;
步骤5、利用式(7)获得第i个特征词语集合Wi到第j个特征类别pj的平方马氏距离d2(Wi,pj):
d2(Wi,pj)=(ψi-μj)TCOV(pj)-1(ψi-μj) (7)
式(7)中,ψi表示所述第i个特征词语集合Wi中特征词语的TF-IDF值总和;
从而获得第i个特征词语集合Wi到所述总特征类别集合P中每个特征类别的平方马氏距离;
步骤6、重复步骤5,从而获得总特征词语集合W中的每个特征词语集合到总特征类别集合P中每个特征类别的平方马氏距离,并构成平方马氏距离集合;
步骤7、选取所述平方马氏距离集合中的最小值,则所述最小值所对应的特征词语集合属于所述最小值所对应的特征类别;
步骤8、判断i=n是否成立;若成立,则表示完成所述总特征词语集合W中每个特征词语集合的分类;否则,将i+1的值赋值给i;并执行步骤5;
步骤9、若所述第i个特征词语集合Wi属于所述特征类别pj,则所述第i个行为集合Ii属于第j个特征类别pj。
所述步骤四中g个相似特征词语是按如下步骤进行选取:
步骤1、初始化g=1;
步骤2、将所述g个相似特征词语所对应的行为作为相似特征行为;
步骤3、将所述相似特征行为添加到所述目标参与者的行为集合中,获得判定行为集合利用分词工具对所述判定行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从所述目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W′;
步骤4、利用基于K-means和TF-IDF的方法对所述判定特征词语集合W′进行聚类分析,从而获得新的总特征类别集合Pg;
步骤5、计算所述判定特征词语集合W′到所述新的总特征类别集合Pg中每个特征类别的平方马氏距离,从而得到所述判定特征词语集合W'所属的特征类别pW′;
步骤6、判断所述特征类别pW'是否与行为特征集合所属的特征类别相同,若相同,则将g+1的值赋值给g;否则,获得g个相似特征词语。
与已有技术相比,本发明有益效果体现在:
1、本发明利用数据挖掘技术挖掘到的目标参与者的行为特征与真实的数据有差异,通过在目标参与者的行为信息中添加与目标参与者行为信息有差异的特征行为,不仅能够有效地实现在信息发布过程真实行为特征的保护,同时也没有破坏目标参与者的真实数据,和丢失网络中的重要信息,使得本人的真实信息依然存在于网络中,从而克服现有技术中匿名处理的缺点。
2、本发明利用TF-IDF方法将所有信息参与者的行为信息进行统计分析,TF-IDF值高的词被认为是在行为信息集合中最有意义的词,将这些词作为特征词,利用K-means的聚类方法进行聚类,最终得到总特征类别集合,与传统分类方法相比,本发明能够对不同行为信息的分类进行有效融合,提高了个性化分类的精度和准确性,同时也提高了算法的时间效率。
3、本发明根据以每个个体的行为状态信息作为输入,对输入的信息进行聚类分析和判别分析,以与目标参与者特征类别不同的相似特征行为作为输出结果,对于不同的社交网站制定了一个统一的分析框架,不需要手工建立行为状态集合,从而提高算法在分类过程中的准确性。
4、本发明所提出的方法可用于各种社交网站系统中,既可以在应用于电脑网页端,同时也可以在手机App等平台上进行使用,应用范围广泛,使用方便。
具体实施方式
本实施例中,一种社交网络中行为特征的保护方法是按如下步骤进行:
步骤1、假设社交网络是由n个参与者U={u1,u2,...,ui,...,un}和n个参与者U之间的连接关系组成的网络,例如新浪微博的社交网络;定义表示目标参与者,即新浪微博中微博博主;其中ui表示第i个参与者,1≤i≤n,即新浪微博中与微博博主互相关注的朋友圈好友;定义n个参与者U在社交网络中的总行为集合为I={I1,I2,...,Ii,...,In},其中Ii表示第i个参与者ui的行为集合;表示目标参与者的行为集合,即新浪微博中博主所发状态的集合;
对总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析,获得目标参与者u的行为特征集合与n个参与者U的总特征类别集合P={p1,p2,...,pj,...,pd};其中表示行为特征集合中目标特征词语的总数;表示目标参与者的行为特征集合中的第个特征词语,pj表示第j个特征类别,d表示特征类别的总数;1≤j≤d;
步骤1.1、利用分词工具,如Part-Of-Speech Tagger,对n个参与者U的总行为集合I中每一个行为集合进行分词和词性标注处理,获得n个具有不同词性的词语集合;从词语集合中选取动词词性和名词词性的词语,并去除名词里的停用词,构成总特征词语集合W={W1,W2,...,Wi,...,Wn},其中Wi表示第i个行为集合Ii的特征词语集合;其中第i个特征词语集合Wi={ωi1,ωi2,...,ωir,...,ωiR},ωir表示在第i个特征词语集合中第r个动词词性或名词词性的特征词语,1≤r≤R;iR表示第i个特征词语集合中不同特征词语的总数;
从总特征词语集合W中选择不重复的词语构成行为特征词语集合ω={ω1,ω2,...,ωα,...,ωβ},ωα表示在行为特征词语集合ω中第α个动词词性或名词词性的特征词语,1≤α≤β;β表示行为特征词语集合中不同特征词语的总数;
步骤1.2、利用分词工具对目标参与者的行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从目标词语集合中选取动词词性和名词词性的词语,去除名词里的停用词,构成行为特征集合 行为特征集合中的特征词语为目标参与者的重要特征,这些特征词所表示的行为特征是本发明所保护的内容。
步骤1.3、利用式(1)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的词频从而获得总特征词语集合W中每一个特征词语集合Wi的词频集合如果某个词或短语出现的频率TF高,则认为此词或者短语具有很好的类别区分能力,适合用来分类;
式(1)中,表示总特征词语集合W中特征词语集合Wi出现特征词语ωir的次数,表示总特征词语集合W中所有特征词语的总数;
步骤1.4、利用式(2)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的逆文档频率从而获得总特征词语集合W中每一个特征词语集合Wi的逆文档频率集合如果包含特征词的特征词集合越少,IDF值越大,则说明特征词语具有很好的类别区分能力;
步骤1.5、利用式(3)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的TF-IDF值
步骤1.6、利用式(4)得到总特征词语集合W中任意两个特征词语集合Wa和Wb的Euclidean距离D(Wa,Wb),1≤a≤n,1≤b≤n,a≠b:
式(4)中,m表示任意两个特征词语集合Wa和Wb中不重复特征词语的个数,表示特征词语集合Wa中第m个特征词语的TF-IDF值;
步骤1.7、对特征词语进行聚类分析,聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法,前者的算法是先把所有样本视为一类,然后不断从这个大类中分离出小类,直到不能再分为止;后者则相反,首先所有样本自成一类,然后不断两两合并,直到最终形成几个大类。K-means聚类方法是一种自下而上的聚类方法,它的优点是简单、速度快;
从行为特征词语集合ω的β个特征词语中选取d个作为质心,d的取值通常要小于5,本实例中d取值为4;
步骤1.8、利用式(4)计算第α个特征词语ωα与每个质心的Euclidean距离,选出Euclidean距离的最小值所对应的质心作为初始特征类;将特征词语ωα归入初始特征类中;从而获得该特征词语ωα的特征类别pq;1≤q≤d;
步骤1.9、重复步骤1.8,从而获得所有特征词语的总特征类别集合P={p1,p2,...,pj,...,pd};
步骤2、利用多个总体的马氏距离判别方法获得n个参与者U总行为集合I的总特征词语集合W={W1,W2,...,Wi,...,Wn}中第i个特征词语集合Wi与n个参与者U的总特征类别集合P中所有特征类别的平方马氏距离;马氏距离有很多优点,它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关,由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰。
如果第i个特征词语集合Wi与特征类别pj的平方马氏距离最小,则第i个特征词语集合Wi属于特征类别pj,从而判定第i个参与者ui的行为集合Ii属于特征类别pj,进而获得总行为集合I中每个行为集合所属的特征类别;
步骤2.1、利用式(5)获得第j个特征类别pj中特征词语的TF-IDF值的均值μj:
式(5)中,R′j表示第j个特征类别pj中特征词语的个数,表示特征类别pj中第R′j个特征词语的TF-IDF值;
步骤2.2、重复步骤2.1,从而获得总特征类别集合P的均值向量μ={μ1,μ2,...,μj,...,μd}T;
步骤2.3、利用式(6)得到第j个特征类别pj的协方差矩阵COV(pj):
式(6)中,ρj表示第j个特征类别pj中特征词语的TF-IDF值总和;
步骤2.4、初始化i=1;
步骤2.5、利用式(7)获得第i个特征词语集合Wi到第j个特征类别pj的平方马氏距离d2(Wi,pj):
d2(Wi,pj)=(ψi-μj)TCOV(pj)-1(ψi-μj) (7)
式(7)中,ψi表示第i个特征词语集合Wi中特征词语的TF-IDF值总和;
从而获得第i个特征词语集合Wi到总特征类别集合P中每个特征类别的平方马氏距离;
步骤2.6、重复步骤2.5,从而获得总特征词语集合W中的每个特征词语集合到总特征类别集合P中每个特征类别的平方马氏距离,所得到的平方马氏距离构成平方马氏距离集合;
步骤2.7、选取平方马氏距离集合中的最小值,则最小值所对应的特征词语集合属于最小值所对应的特征类别;
步骤2.8、判断i=n是否成立;若成立,则表示完成总特征词语集合W中每个特征词语集合的分类;否则,将i+1的值赋值给i;并执行步骤2.5;
步骤2.9、若第i个特征词语集合Wi属于特征类别pj,则第i个行为集合Ii属于特征类别pj。
步骤3、利用余弦相似性计算公式分别获得目标参与者的行为集合与其他参与者的行为集合的余弦值集合,从而得到相似者集合。
步骤3.1、提取目标参与者的行为特征集合和其他参与者特征词语集中所有不同的词语,获得词语特征序列 表示词语特征序列中第h个词语,l,表示词语特征序列中词语的总数,1≤h≤l,x=1,2,...,n-1;
步骤3.2、利用式(8)所示的余弦相似度计算方法分别获得目标参与者的行为集合与其他参与者的行为集合的余弦值集合;由于行为集合中的行为没有提取出特征词语,所以利用与行为集合相对应的特征词语来计算相似度。
Cosine
式(8)中,表示特征词语在特征词语集合Wi中的TF-IDF值;
步骤3.3、以余弦值集合作为相似度集合并进行降序排列后,选取前k个相似度所对应的参与者构成相似者集合U′={u′1,u′2,...,u′e,...,u′k},k的值通常不超过参与者总数的30%,本实例中取值为总数的25%;并以I′={I′1,I′2,...,I′e,...,I′k}中的每个元素表示相似者集合U'中每个相似者所对应的行为集合;I′e表示相似者集合U′中第e个相似者u′e的行为集合;1≤e≤n-1;
步骤4、选取在相似者集合U′={u′1,u′2,...,u′e,...,u′k}中与目标参与者不在同一特征类别的tc个相似者所对应的行为集合tf≤k,tc的值通常不超过相似者总数的20%,本实例中取值为相似者总数的15%;表示与目标参与者不在同一特征类别的第tf个相似者的行为集合;利用分词工具对tc个行为集合中的每个行为集合进行标注,去除停用词后获得相似特征词语集合;在相似特征词语集合中选取g个相似特征词语,提取g个相似特征词语所对应的行为作为相似特征行为;
步骤4中的g个相似特征词语是按如下步骤进行选取:
步骤4.1、初始化g=1;
步骤4.2、将g个相似特征词语所对应的行为作为相似特征行为;
步骤4.3、将相似特征行为添加到目标参与者的行为集合中,获得判定行为集合利用分词工具对判定行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W′;
步骤4.4、利用基于K-means和TF-IDF的方法对判定特征词语集合W′进行聚类分析,从而获得新的总特征类别集合Pg;
步骤4.5、计算判定特征词语集合W′到新的总特征类别集合Pg中每个特征类别的平方马氏距离,从而得到判定特征词语集合W′所属特征类别pW′;
步骤4.6、判断特征类别pW′是否与行为特征集合所属特征类别相同,若相同,则将g+1的值赋值给g;否则,获得g个相似特征词语;
步骤5、将相似特征行为推荐给目标参与者使得目标参与者能将相似特征行为加入到行为集合中;从而形成对目标参与者行为特征所表示的行为特征的保护。
Claims (4)
1.一种社交网络中行为特征的保护方法,所述社交网络是由n个参与者U={u1,u2,...,ui,...,un}和所述n个参与者U之间的连接关系组成的网络;ui表示第i个参与者,1≤i≤n且n≥2;定义表示目标参与者,定义所述n个参与者U在所述社交网络中的总行为集合为I={I1,I2,...,Ii,...,In},Ii表示第i个参与者ui的行为集合;表示目标参与者的行为集合,其特征是:所述保护方法按如下步骤进行:
步骤一、对所述总行为集合I利用基于K-means和TF-IDF的方法进行聚类分析,获得所述目标参与者的行为特征集合与所述n个参与者U的总特征类别集合P={p1,p2,...,pj,...,pd};表示所述行为特征集合中目标特征词语的总数;表示所述目标参与者的行为特征集合中的第个特征词语,pj表示第j个特征类别,d表示特征类别的总数;1≤j≤d;
步骤二、利用多个总体的马氏距离判别方法获得所述n个参与者U总行为集合I的总特征词语集合W={W1,W2,...,Wi,...,Wn}中第i个特征词语集合Wi与所述n个参与者U的总特征类别集合P中所有特征类别的平方马氏距离,如果所述第i个特征词语集合Wi与特征类别pj的平方马氏距离最小,则所述第i个特征词语集合Wi属于第j个特征类别pj,所述第i个参与者ui的行为集合Ii属于第j个特征类别pj,进而获得所述总行为集合I中每个行为集合所属的特征类别;
步骤三、利用余弦相似性计算公式分别计算出所述目标参与者的行为集合与其他参与者的行为集合的余弦值集合;以所述余弦值集合作为相似度集合并进行降序排列后,选取前k个相似度所对应的参与者构成相似者集合U'={u′1,u'2,...,u'e,...,u'k};并以I'={I′1,I'2,...,I'e,...,I'k}中的每个元素表示所述相似者集合U'中每个相似者所对应的行为集合;I′e表示所述相似者集合U'中第e个相似者u'e的行为集合;1≤e≤n-1;
步骤四、选取在所述相似者集合U'={u′1,u'2,...,u'e,...,u'k}中与所述目标参与者不在同一特征类别的tc个相似者所对应的行为集合 表示与所述目标参与者不在同一特征类别的第tf个相似者的行为集合;利用分词工具对所述tc个行为集合中的每个行为集合进行标注获得相似特征词语集合;在所述相似特征词语集合中选取g个相似特征词语,提取所述g个相似特征词语所对应的行为作为相似特征行为;
步骤五、将所述相似特征行为推荐给所述目标参与者使得所述目标参与者能将所述相似特征行为加入到所述行为集合中;从而形成对所述目标参与者的特征词语所表示的行为特征的保护。
2.根据权利要求1所述的保护方法,其特征是:所述步骤一是按如下步骤进行:
步骤1、利用分词工具对n个参与者U的总行为集合I中每一个行为集合进行分词和词性标注处理,获得n个具有不同词性的词语集合;从词语集合中选取动词词性和名词词性的词语,并去除名词里的停用词,构成总特征词语集合W={W1,W2,...,Wi,...,Wn},其中Wi表示第i个行为集合Ii的特征词语集合;其中第i个特征词语集合Wi={ωi1,ωi2,...,ωir,...,ωiR},ωir表示在第i个特征词语集合中第r个动词词性或名词词性的特征词语,1≤r≤R;iR表示第i个特征词语集合中不同特征词语的总数;
从总特征词语集合W中选择不重复的词语构成行为特征词语集合ω={ω1,ω2,...,ωα,...,ωβ},ωα表示在行为特征词语集合ω中第α个动词词性或名词词性的特征词语,1≤α≤β;β表示行为特征词语集合中不同特征词语的总数;
步骤2、利用分词工具对目标参与者的行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从所述目标词语集合中选取动词词性和名词词性的词语构成行为特征集合
步骤3、利用式(1)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的词频从而获得总特征词语集合W中每一个特征词语集合Wi的词频集合
式(1)中,表示总特征词语集合W中特征词语集合Wi出现特征词语ωir的次数,表示总特征词语集合W中所有特征词语的总数;
步骤4、利用式(2)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的逆文档频率从而获得总特征词语集合W中每一个特征词语集合Wi的逆文档频率集合
步骤5、利用式(3)获得第i个特征词语集合中第r个动词词性或名词词性的特征词语ωir的TF-IDF值
步骤6、利用式(4)得到所述总特征词语集合W中任意两个特征词语集合Wa和Wb的Euclidean距离D(Wa,Wb):
式(4)中,m表示任意两个特征词语集合Wa和Wb中不重复特征词语的个数,表示特征词语集合Wa中第m个特征词语的TF-IDF值;1≤a≤n,1≤b≤n,a≠b;
步骤7、从所述行为特征词语集合ω的β个特征词语中选取d个作为质心;
步骤8、利用式(4)计算第α个特征词语ωα与每个质心的Euclidean距离,选出Euclidean距离的最小值所对应的质心作为初始特征类;将特征词语ωα归入初始特征类中;从而获得该特征词语ωα的特征类别;
步骤9、重复步骤8,从而获得所有特征词语的总特征类别集合P={p1,p2,...,pj,...,pd}。
3.根据权利要求1或2所述的保护方法,其特征是:所述步骤二是按下列步骤进行:
步骤1、利用式(5)获得所述第j个特征类别pj中特征词语的TF-IDF值的均值μj:
式(5)中,R'j表示所述第j个特征类别pj中特征词语的个数,表示所述特征类别pj中第R'j个特征词语的TF-IDF值;
步骤2、重复步骤1,从而获得总特征类别集合P的均值向量μ={μ1,μ2,...,μj,...,μd}T;
步骤3、利用式(6)得到第j个特征类别pj的协方差矩阵COV(pj):
式(6)中,ρj表示所述第j个特征类别pj中特征词语的TF-IDF值总和;
步骤4、初始化i=1;
步骤5、利用式(7)获得第i个特征词语集合Wi到第j个特征类别pj的平方马氏距离d2(Wi,pj):
d2(Wi,pj)=(ψi-μj)TCOV(pj)-1(ψi-μj) (7)
式(7)中,ψi表示所述第i个特征词语集合Wi中特征词语的TF-IDF值总和;
从而获得第i个特征词语集合Wi到所述总特征类别集合P中每个特征类别的平方马氏距离;
步骤6、重复步骤5,从而获得总特征词语集合W中的每个特征词语集合到总特征类别集合P中每个特征类别的平方马氏距离,并构成平方马氏距离集合;
步骤7、选取所述平方马氏距离集合中的最小值,则所述最小值所对应的特征词语集合属于所述最小值所对应的特征类别;
步骤8、判断i=n是否成立;若成立,则表示完成所述总特征词语集合W中每个特征词语集合的分类;否则,将i+1的值赋值给i;并执行步骤5;
步骤9、若所述第i个特征词语集合Wi属于所述特征类别pj,则所述第i个行为集合Ii属于第j个特征类别pj。
4.根据权利要求1或2所述的保护方法,其特征是:所述步骤四中g个相似特征词语是按如下步骤进行选取:
步骤1、初始化g=1;
步骤2、将所述g个相似特征词语所对应的行为作为相似特征行为;
步骤3、将所述相似特征行为添加到所述目标参与者的行为集合中,获得判定行为集合利用分词工具对所述判定行为集合进行分词和词性标注处理,获得具有不同词性的目标词语集合;从所述目标词语集合中选取动词词性和名词词性的词语构成判定特征词语集合W';
步骤4、利用基于K-means和TF-IDF的方法对所述判定特征词语集合W'进行聚类分析,从而获得新的总特征类别集合Pg;
步骤5、计算所述判定特征词语集合W'到所述新的总特征类别集合Pg中每个特征类别的平方马氏距离,从而得到所述判定特征词语集合W'所属的特征类别pW';
步骤6、判断所述特征类别pW'是否与行为特征集合Wu所属的特征类别相同,若相同,则将g+1的值赋值给g;否则,获得g个相似特征词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510025484.XA CN104580234B (zh) | 2015-01-19 | 2015-01-19 | 一种社交网络中行为特征的保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510025484.XA CN104580234B (zh) | 2015-01-19 | 2015-01-19 | 一种社交网络中行为特征的保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104580234A CN104580234A (zh) | 2015-04-29 |
CN104580234B true CN104580234B (zh) | 2017-08-11 |
Family
ID=53095414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510025484.XA Active CN104580234B (zh) | 2015-01-19 | 2015-01-19 | 一种社交网络中行为特征的保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104580234B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10554611B2 (en) * | 2015-08-10 | 2020-02-04 | Google Llc | Privacy aligned and personalized social media content sharing recommendations |
CN106204161A (zh) * | 2016-07-26 | 2016-12-07 | 郑州郑大智能科技股份有限公司 | 一种互联网环境下电力用户群体分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN103116588A (zh) * | 2011-11-17 | 2013-05-22 | 腾讯科技(深圳)有限公司 | 一种个性化推荐方法及系统 |
CN103345528A (zh) * | 2013-07-24 | 2013-10-09 | 南京邮电大学 | 一种基于关联分析和knn的文本分类方法 |
-
2015
- 2015-01-19 CN CN201510025484.XA patent/CN104580234B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116588A (zh) * | 2011-11-17 | 2013-05-22 | 腾讯科技(深圳)有限公司 | 一种个性化推荐方法及系统 |
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN103345528A (zh) * | 2013-07-24 | 2013-10-09 | 南京邮电大学 | 一种基于关联分析和knn的文本分类方法 |
Non-Patent Citations (2)
Title |
---|
"基于标签路径特征的Web新闻内容抽取研究";吴共庆;《中国博士学位论文全文数据库(电子期刊)》;20140530;全文 * |
"基于语义联系的新闻网页关键词抽取";谢飞等;《广西师范大学学报:自然科学版》;20090331;第27卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104580234A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Adiba et al. | Effect of corpora on classification of fake news using naive Bayes classifier | |
Heidari et al. | Deep contextualized word embedding for text-based online user profiling to detect social bots on twitter | |
Al Nabki et al. | Classifying illegal activities on tor network based on web textual contents | |
Narayanan et al. | On the feasibility of internet-scale author identification | |
Spitters et al. | Authorship analysis on dark marketplace forums | |
CN108491429A (zh) | 一种基于类内类间文档频和词频统计的特征选择方法 | |
CN105389486B (zh) | 一种基于鼠标行为的认证方法 | |
CN111783126B (zh) | 一种隐私数据识别方法、装置、设备和可读介质 | |
Bertalan et al. | Using topic modeling to find main discussion topics in brazilian political websites | |
Ulfath et al. | Detecting smishing attacks using feature extraction and classification techniques | |
Sarwar et al. | An effective and scalable framework for authorship attribution query processing | |
Joshi et al. | Political issue extraction model: A novel hierarchical topic model that uses tweets by political and non-political authors | |
CN108268470A (zh) | 一种基于演化聚类的评论文本分类提取方法 | |
Hussein et al. | Cluster Analysis on covid-19 outbreak sentiments from twitter data using K-means algorithm | |
CN106502990A (zh) | 一种微博特征项提取方法和改进tf‑idf归一化方法 | |
CN104580234B (zh) | 一种社交网络中行为特征的保护方法 | |
Rajesh et al. | Fraudulent news detection using machine learning approaches | |
CN115309860A (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
Paul et al. | Editing behavior to recognize authors of crowdsourced content | |
Bhoj et al. | LSTM powered identification of clickbait content on entertainment and news websites | |
Kapočiūtė-Dzikienė et al. | A comparison of authorship attribution approaches applied on the Lithuanian language | |
WO2022242032A1 (zh) | 数据分类方法及装置、电子设备、存储介质和计算机程序产品 | |
CN113259369B (zh) | 一种基于机器学习成员推断攻击的数据集认证方法及系统 | |
CN110580286A (zh) | 一种基于类间信息熵的文本特征选择方法 | |
Khazaee et al. | Using fuzzy c-means algorithm for improving intrusion detection performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |