具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的基于用户行为的信息识别过程,该过程具体包括以下步骤:
S101,确定当前操作信息对应的特征信息,作为当前特征信息。
在本申请实施例中,当用户想要通过服务器(如:网站服务器)获得业务服务时,可通过该用户自身的账户,向该服务器发出相应的操作信息,如:下单操作信息、退款操作信息等。
服务器根据用户发出的操作信息,可以确定出该操作信息的特征信息。本申请实施例中,特征信息可以反映出用户的操作习惯。那么,在本申请实施例中,特征信息可以包括操作信息中的基本信息,如:下单额度信息、下单时间信息、退款额度信息等,还可以包括反映用户操作习惯的信息,如:累计下单总额、每一次操作信息的平均额度等等。
例如:对于用户A而言,某网站的服务器根据保存的该用户A过去的4次历史操作记录,可统计出该用户A每天平均进行1次交易操作,每次的交易额度均为10元。可见,用户A的交易操作形成一种规律,则可以根据该用户A在该网站中的4次历史交易操作,确定相应的特征信息。具体地,该特征信息可以是:每一次交易操作的交易金额(即为10元),在一定时间段内(如:4天内)的交易总额为40元。
对于上述步骤S101而言,用户在当前时刻向服务器发出的相应操作信息,就是当前操作信息,显然,该当前操作信息中包含有相应的特征信息,也即,当前特征信息。
在本申请实施例中,所述当前操作信息包括交易操作信息,所述特征信息包括:所述特征信息包括:账户的累计有交易的天数、账户的累计交易总额、账户的历史日均额度、当前交易额度与累计交易总额之比、当前交易额度与历史日均额度之比、从当前时刻起24小时内累计交易额度与累计交易总额之比以及从当前时刻起24小时内累计交易额度与历史日均额度之比中的至少一种。可见,在本申请实施例中,所述特征信息,可以表示成数值或者数值范围的形式。
S102,确定所述当前特征信息对应的历史样本集合,所述历史样本集合中包含多个历史操作信息。
在本申请实施例中,所述历史样本集合中包含多个历史操作信息,这些历史操作信息就是所述历史样本集合中的样本。服务器会将保存的具有相同特征信息的各历史操作信息,划分成同一个历史样本集合,将具有不同特征信息的各历史操作信息,划分成不同的历史样本集合。
例如:对10个历史交易操作信息进行划分时,使用“每一次交易操作的交易额度大于100元”这一特征信息,可以将上述10个历史交易操作信息,划分成两个历史样本集合:一个历史样本集合中包含的各历史交易操作信息,都是交易额度大于100元的;而另一个历史样本集合中包含的各历史交易操作信息,都是交易额度不大于100元的。
当然,在实际应用中,也可以使用多种特征信息同时划分历史操作信息。例如:对于上例中的10个历史交易操作信息,可以使用“交易额度大于100元”以及“交易额度与上一个月的交易总额度的比值小于0.6”这两个特征信息进行划分,从而,上述10个历史交易操作信息中,同时满足这两个特征信息的历史操作信息便会划分在同一个历史样本集合中。
也就是说,对于不同的历史样本集合,都是由不同的特征信息进行划分的,那么,在确定了当前操作信息对应的当前特征信息后,就可以根据当前特征信息以及划分历史样本集合的特征信息,确定出当前特征信息对应的历史样本集合。
需要说明的是,历史样本集合中的各历史操作信息对应的历史特征信息,能够在一定程度上反映一个或多个用户过去的操作习惯,因此,在本申请实施例中,所述历史操作信息是用户使用其账户在相应服务器中已经完成的历史操作信息。当然,对于某个历史样本集合中的各历史操作信息,可以是由不同用户所发出的历史操作信息构成,在某些情况下,也可以由同一用户所发出的历史操作信息构成,这并不构成对本申请的限定。
S103,根据所述历史样本集合中包含的异常样本,判断所述当前操作信息是否为异常操作信息,若是,则执行步骤S104,否则执行步骤S105。
在实际应用中,服务器会保存大量的历史操作信息。在这些历史操作信息中,存在一定数量的非用户本人发出的操作信息,如:其他用户盗取某用户的账户,发出交易操作信息,其交易额度较大,远大于该用户以往的交易额度,那么,对于这一类非用户本人发出的操作信息,可认为是对用户信息安全构成威胁的。
也就是说,在历史操作信息中,含有一定数量的、对用户信息安全构成威胁的异常操作信息,而其他的历史操作信息则属于用户使用自身账户发出的正常操作信息,在本申请实施例中,服务器会针对保存的历史操作信息是异常操作信息还是正常操作信息进行识别,并将识别出的结果也进行保存,从而,在服务器保存的历史操作信息中,异常操作信息和正常操作信息是已知的,那么,在服务器保存的历史操作信息中,对用户信息安全构成威胁的异常操作信息就是异常样本,未对用户信息安全构成威胁的正常操作信息就是正常样本。这样,便可以在历史样本集合包含的样本中,确定出异常样本以及正常样本。
在本申请实施例中,根据所述历史样本集合中包含的异常样本,判断所述当前操作信息是否为异常操作信息,具体包括:在该历史样本集合包含的所有样本中,统计异常样本的占比,当所述占比大于预设阈值时,确定所述当前操作信息为异常操作信息。
在历史样本集合中,异常样本的占比越大,则说明在该历史样本集合中的各历史操作信息为异常操作信息的概率就越大。在本申请实施例中,如果当前操作信息的特征信息对应该历史样本集合,那么,该当前操作信息为异常操作信息的概率也是比较高的。从而,可以将该当前操作信息判定为异常操作信息。
需要说明的是,对于上述历史样本集合,其中包含的历史操作信息的数量越多,即样本量越大,通过其确定出的异常操作信息的概率就越精确。
S104,对所述当前操作信息进行相应处理。
经过上述的判断步骤,确定出的异常操作信息,极有可能威胁用户的信息安全,所以,在本申请实施例中,为了保证用户的信息安全,将对该当前操作信息进行相应的处理,例如:可以采用提升安全监控级别的方式,或者是增加安全校验问题的方式,只有当发出该当前操作信息的用户输入正确的校验信息后,才判定当前操作信息为正常操作信息;又或者,可以采用与该账户相绑定的手机号码,确认该当前操作信息等等风控处理。这些风控处理方式,并不构成对本申请的限定。
S105,根据所述当前操作信息进行处理。
若经过上述的判断步骤,未判定该当前操作信息为异常信息,则可以认为该当前操作信息为正常信息,那么,在本申请实施例中,服务器将根据该当前操作信息,进行相应的操作,以使得用户获得相应的业务服务。
当然,由于上述判断方式是基于历史样本集合中的异常样本或正常样本的占比,来确定该当前操作信息为异常操作信息或是正常操作信息,并不能保证绝对准确,因此,在实际应用中,对于未判定为异常信息的当前操作信息,也可以结合二次认证,或手机号码认证的方式,对当前操作信息进行认证,从而,极大提升对当前操作信息判定的准确率,有效保护用户信息的安全。
通过上述步骤,服务器接收到当前操作信息后,确定该当前操作信息的当前特征信息,并根据该当前特征信息,确定其对应的历史样本集合,由于历史样本集合中包含已经识别出的异常样本和正常样本,那么,根据该历史样本集合中异常操作信息的占比,就可以确定出当前操作信息为异常操作信息的概率,从而可以较准确的判断出当前操作信息是否为异常操作信息,有效提升了对用户身份进行校验的安全性和实用性。
在本申请实施例中,是否能准确确定出当前特征信息所对应的历史样本集合,将影响后续确定当前操作信息是否为异常操作信息的准确性。考虑到在实际应用中,当前操作信息对应的当前特征信息,总会符合某一历史操作信息中的一些特征信息,因此,本申请实施例中,确定所述当前特征信息对应的历史样本集合,具体为:确定各历史样本集合包含的历史操作信息所对应的历史特征信息,将所述当前特征信息与所述历史特征信息进行匹配,将与所述当前特征信息匹配的历史特征信息所属的历史样本集合,确定为所述当前特征信息对应的历史样本集合。
在将历史操作信息划分成不同的历史样本集合后,历史样本集合中包含的历史操作信息对应的特征信息,就是历史特征信息。对于当前操作信息对应的当前特征信息而言,其特征信息中的特征范围值或特征值,可能出现与历史特征信息中的范围值或特征值相符合或相一致的情况,那么,则可以认为该当前特征信息与历史特征信息相匹配。
例如:假设针对某网站中的100个历史交易操作信息,其历史特征信息为交易额度,按照交易额度对这100个历史交易操作信息进行分类,形成如表1的集合。
交易额度(单位:元) |
0~60 |
61~80 |
81~95 |
集合/样本量 |
X/50 |
Y/30 |
Z/20 |
表1
在表1中,集合X、Y、Z为历史样本集合,集合X中包含的历史交易操作信息的数量为50个,表明这50个历史交易操作的交易额度均在0~60元之间。集合Y中包含的历史交易操作信息的数量为30个,这30个历史交易操作的交易额度均在61~80元之间。集合Z中包含的历史交易操作信息的数量为20个,这20个历史交易操作的交易额度均在81~95元之间。
假设当前时刻,用户A使用其账户发出当前交易操作信息,该当前交易操作信息对应的当前交易额度(也即当前特征信息)为60元。那么,结合表1,可确定出当前交易额度在0~60元的范围内,也即,当前交易额度与交易额度0~60元相匹配,从而,可以将集合X确定为当前交易操作信息对应的历史样本集合。这样一来,后续便可以根据该集合X中异常样本的占比,确定出用户A发出的该当前交易操作信息为异常操作信息的概率。
通过上例可见,根据当前操作信息对应的当前特征信息,采用将该当前特征信息与历史特征信息进行匹配的方式,就可以准确确定出当前特征信息所对应的历史样本集合。
在本申请实施例中的一种方式下,可以采用决策树、贝叶斯、人工神经网络等多种分类算法,将历史操作信息划分成多个历史样本集合,其中,在使用决策树算法对历史操作信息进行划分的情况下,服务器会预先根据各历史操作信息对应的历史特征信息,生成决策树,其中,所述决策树中的各叶子节点对应不同的历史特征信息,那么,上述步骤S102中,确定所述当前特征信息对应的历史样本集合,具体为:根据所述决策树和所述当前特征信息,确定所述当前特征信息命中的叶子节点,作为当前节点,确定具有所述当前节点对应的历史特征信息的各历史操作信息所构成的集合,作为所述当前特征信息对应的历史样本集合。
对于上述决策树,该决策树中的根节点以及各叶子节点,对应于不同的历史特征信息,其中,根节点对应于所有历史操作信息的历史特征信息,那么,根据这些历史特征信息的特征值或特征值范围,可将具有相同特征值或特征值范围的历史特征信息划分成一个叶子节点,这样便可以形成相应的决策树。显然,根节点对应的历史特征信息越多,该决策树中所含有的叶子节点的数量也就越多,从而,可以有效提升对当前特征信息进行分类的准确性。
具体例如:假设如图2所示的决策树,是针对某网站的历史交易操作信息对应的历史特征信息进行划分,所形成的决策树。
假设在该网站中,以之前一个月内所有的历史交易操作信息作为样本,其总量为1000(在实际应用中,网站中的历史操作信息数量巨大,为便于描述,在此处仅以1000为例),在该1000个历史交易操作信息中,已识别出的异常交易操作信息U的数量为20个,正常交易操作信息N的数量为980个。如图2所示,决策树的根节点1对应于这1000个历史交易操作信息的全部历史特征信息,为了直观表示,在该决策树的所有节点中,标明了具有该节点中的历史特征信息的历史交易操作信息的数量(例如:对于根节点1,共有20个异常交易操作信息和980个正常交易操作信息,具有该根节点1对应的历史特征信息)。
该决策树中的所有叶子节点对应的历史特征信息,均由该根节点1对应的历史特征信息划分而形成,对于该决策树中的叶子节点,具体将根据以下历史特征信息进行划分:
a,账户的历史日均额度。
b,账户的当前交易额度。
根据上述历史特征信息a和b,可以将上述根节点1划分成叶子节点2和3。其中,对于叶子节点2,其对应的历史特征信息为“账户的历史日均额度不小于10元”,在该叶子节点2中,具有该历史特征信息的异常交易操作信息U的数量为6个,正常交易操作信息N的数量为680个。
相应的,对于叶子节点3,其对应的历史特征信息为“账户的历史日均额度小于10元”。在该叶子节点3中,具有该历史特征信息的异常交易操作信息U的数量为14个,正常交易操作信息N的数量为300个。
以此类推,可以划分得到叶子节点4~7,具体过程不再赘述。
在上述的决策树形成后,若某一用户在当前时刻发出当前操作信息,则可以根据该决策树以及该当前操作信息对应的当前特征信息,确定该当前特征信息所命中的叶子节点,从而,可以根据该叶子节点对应的历史特征信息的历史操作信息所构成的集合中,异常样本的占比,确定该当前操作信息为异常操作信息的概率。
具体例如,在如图2所示的决策树的基础上,某用户在当前时刻,使用其账户M发出当前交易操作信息,假设该当前交易操作信息对应的特征信息为:在之前一个月内,该账户M的历史日均额度为7元,当前交易额度为700元。
那么,针对上述当前交易操作信息的当前特征信息,根据如图2所示的决策树,可以确定出该当前特征信息命中的叶子节点为叶子节点9。在该叶子节点9中,历史样本集合中,异常交易操作信息U的数量为10个,正常交易操作信息N的数量为1个,因此,异常交易操作信息的占比为10/10+1=0.909,也即,该当前操作信息为异常交易操作信息的概率为0.909,这就表明该当前操作信息极有可能为异常交易操作信息。从而,网站可以针对该当前操作信息进行相应的风控处理。
当然,对于上述通过决策树的方式确定所述当前特征信息对应的历史样本集合,以及确定所述当前操作信息为异常操作信息的概率的方式,只是本申请实施例中的一种优选方式,并不作为对本申请的限定。
以上为本申请实施例提供的基于用户行为的信息识别方法,基于同样的思路,本申请实施例还提供一种基于用户行为的信息识别装置,如图3所示。
在图3中,所述基于用户行为的信息识别装置包括:特征信息模块301、历史样本集合模块302以及处理模块303,其中,
所述特征信息模块301,用于确定当前操作信息对应的特征信息,作为当前特征信息。
所述历史样本集合模块302,用于确定所述当前特征信息对应的历史样本集合,所述历史样本集合中包含多个历史操作信息。
所述处理模块303,用于当根据所述历史样本集合中包含的异常样本,确定所述当前操作信息为异常操作信息时,对所述当前操作信息进行相应处理。
其中,所述历史样本集合模块302,具体用于确定各历史样本集合包含的历史操作信息所对应的历史特征信息,将所述当前特征信息与所述历史特征信息进行匹配,将与所述当前特征信息匹配的历史特征信息所属的历史样本集合,确定为所述当前特征信息对应的历史样本集合。
在本申请实施例中的另一种方式下,所述历史样本集合模块302,具体用于预先将各历史操作信息按照不同的历史特征信息进行划分,形成决策树,确定所述当前特征信息中的各特征值,按照所述当前特征信息中每一特征值,遍历该决策树,将遍历后确定的唯一叶子节点对应的历史样本集合,确定为所述当前特征信息对应的历史样本集合。
所述处理模块303,具体用于在该历史样本集合包含的所有样本中,统计异常样本的占比,当所述占比大于预设阈值时,确定所述当前操作信息为异常操作信息。
在本申请实施例中,所述当前操作信息包括交易操作信息,所述特征信息包括:所述特征信息包括:账户的累计有交易的天数、账户的累计交易总额、账户的历史日均额度、当前交易额度与累计交易总额之比、当前交易额度与历史日均额度之比、从当前时刻起24小时内累计交易额度与累计交易总额之比以及从当前时刻起24小时内累计交易额度与历史日均额度之比中的至少一种。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。