CN108564386A - 商户识别方法及装置、计算机设备及存储介质 - Google Patents
商户识别方法及装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN108564386A CN108564386A CN201810402209.9A CN201810402209A CN108564386A CN 108564386 A CN108564386 A CN 108564386A CN 201810402209 A CN201810402209 A CN 201810402209A CN 108564386 A CN108564386 A CN 108564386A
- Authority
- CN
- China
- Prior art keywords
- merchant
- sample
- risk
- merchants
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000003860 storage Methods 0.000 title claims description 13
- 230000006870 function Effects 0.000 claims description 82
- 230000007306 turnover Effects 0.000 claims description 22
- 238000010801 machine learning Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 description 70
- 230000008569 process Effects 0.000 description 35
- 230000007246 mechanism Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 17
- 230000000694 effects Effects 0.000 description 11
- 238000012706 support-vector machine Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 208000001613 Gambling Diseases 0.000 description 8
- 238000010606 normalization Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000012954 risk control Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种商户识别方法、计算机设备,该方法包括:获取待识别商户对应的属性特征信息,所述属性特征信息包括至少两个属性特征;根据所述属性特征信息,通过风险商户识别模型对所述待识别商户进行识别,获得所述待识别商户的风险识别结果,所述风险商户识别模型基于无风险样本商户和风险样本商户确定。基于本方法可提高识别准确性。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种商户识别方法及装置、计算机设备及存储介质。
背景技术
随着互联网技术以及电子商务的发展,涌现了大量的电商平台,给用户消费带来了便利,即消费者通过网络支付进行商品的购买,足不出户即可从电商平台上接入的商户享受到购物的便捷。为了确保用户支付安全,电商平台会为商户和消费者之间提供第三方支付机构,消费者在购买商品的过程中,首先向第三方支付机构支付商品对应的数额,消费者在收到商品并进行确认收货后,可通知第三方支付机构,第三方支付机构再向商户支付商品对应的数额。
由于电商平台接入的商户数量多,商户品质良莠不齐,正常商户数量一般占绝大多数,但其中也会隐藏一些不良商户,此类商户会给电商平台上的第三方支付机构造成风险。为了控制风险,目前常采用的方法是依据商户的行业类别进行简单的交易额度控制,比如,针对交易家具等实物类的商户,则给予较大的交易额度,针对交易游戏道具等虚拟类的商户,则给予较小的交易额度。然而,上述仅根据商户的行业类别进行交易额度控制,对于合规守法的正常商户有一定效果,但对于不良商户,比如,赌博类商户,此类商户为高危商户,无法做到有效地风险控制。目前没有一种方法能准确地识别商户类别,从而不能准确地针对商户做好风险控制,不能确保第三方支付机构的安全,亟需一种能准确识别商户类别的方法。
发明内容
基于此,有必要针对不能准确识别商户类别的问题,提出一种商户识别方法及装置、计算机设备及存储介质。
一种商户识别方法,包括步骤:
获取待识别商户对应的属性特征信息,所述属性特征信息包括至少两个属性特征;
根据所述属性特征信息,通过风险商户识别模型对所述待识别商户进行识别,获得所述待识别商户的风险识别结果,所述风险商户识别模型基于无风险样本商户和风险样本商户确定。
一种商户识别装置,包括:
特征信息获取模块,用于获取待识别商户对应的属性特征信息,所述属性特征信息包括至少两个属性特征;
识别模块,根据所述属性特征信息,通过风险商户识别模型对所述待识别商户进行识别,获得所述待识别商户的风险识别结果,所述风险商户识别模型基于无风险样本商户和风险样本商户确定。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述商户识别方法及装置、计算机设备及存储介质,在对待识别商户进行风险识别过程中,将待识别商户的至少两个属性特征识别依据,可准确反映待识别商户的整体特性,通过风险商户识别模型,根据上述至少两个属性特征可准确对所述待识别商户进行识别。另外,风险商户识别模型基于无风险样本商户和风险样本商户确定,即不仅将已确定为无风险样本商户作为确定风险识别模型的依据,还将已确定为风险样本商户作为确定风险识别模型的依据,可确保风险识别模型的准确性,根据准确的风险商户识别模型以及至少两个属性特征,可准确对待识别商户进行风险识别,提高商户风险识别的准确性。
附图说明
图1为一个实施例中商户识别方法的应用环境图;
图2为一个实施例的商户识别方法的流程示意图;
图3为一个实施例的高斯核函数映射示意图;
图4为一个实施例的第三方支付机构对应的搜索结果的界面显示图;
图5为一个实施例的商户识别装置的模块示意图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本申请,并不限定本申请的保护范围。
本申请提供的商户识别方法,可应用于如图1示所示的应用环境图。如图1所示,终端10与服务器20通过网络进行通信。用户通过终端10可与服务器20上的商户进行交易,在服务器20上可记录各商户的属性特征信息。服务器20可获取待识别商户对应的属性特征信息,根据属性特征信息,通过风险商户识别模型对待识别商户进行识别,获得待识别商户的风险识别结果,实现商家风险识别,后续可对为风险商户进行对应的风险控制。
该终端10可以是任何一种能够实现智能输入输出的设备,例如,台式电脑或移动终端,移动终端可以是智能手机、平板电脑、车载电脑、穿戴式智能设备等。服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,一种实施例的商户识别方法,以应用于图1中的服务器20为例进行说明,包括步骤S210至步骤S220:
S210:获取待识别商户对应的属性特征信息,属性特征信息包括至少两个属性特征。
待识别商户,指等待识别的商户,商户,指在第三方支付机构经过认证后进行签约的商家,是为普通消费用户提供交易资源(例如,商品、服务等)的提供者。第三方支付是指具备一定实力和信誉保障的独立机构,采用与各银行签约的方式,提供与银行支付结算系统接口的交易支付平台的网络支付模式。在第三方支付模式,买方选购交易资源后,使用第三方平台提供的账户进行货款支付(支付给第三方),并由第三方通知卖家货款到账、要求发货,买方收到货物,检验货物,并且进行确认后,再通知第三方付款,第三方再将款项转至卖家账户(即商户对应的账号)。第三方支付机构与各银行之间签订有关协议,使得第三方支付机构与各银行可以进行某种形式的数据交换和相关信息确认。这样第三方支付机构就能实现在普通消费用户(持卡人或消费者)与各银行、最终的收款人或商家之间建立一个支付的流程。
属性特征为表征对象特点的信息,即对象具有的性质,待识别商户的属性特征即为表征待识别商户特点的信息。对于待识别商户,对应的属性特征可以有多种多样,在本实施例中,为避免根据单一属性特征进行风险识别导致不准确的问题,便于后续准确对待识别商户进行风险识别,采用至少两个属性特征作为风险识别依据。
S220:根据属性特征信息,通过风险商户识别模型对待识别商户进行识别,获得待识别商户的风险识别结果,风险商户识别模型基于无风险样本商户和风险样本商户确定。
样本,指研究中实际抽取的一部分个体。样本商户,指从各商户中抽取的一部分样本。风险样本商户(负样本商户),指存在风险的样本商户,无风险样本商户(正样本商户),指没有风险的样本商户。在本实施例中,预先基于无风险样本商户和风险样本商户已确定风险商户识别模型,即不仅将已确定的无风险样本商户作为模型确定依据,而且将已确定的风险样本商户作为模型确定依据,如此,在确定的风险识别模型确定过程中,能全面涉及不同风险类别的商户,确保风险识别模型的准确性。
在获取待识别商户的属性特征信息之后,通过风险商户识别模型对待识别商户进行识别,即可获得准确的风险识别结果。风险识别结果可以为风险商户或无风险商户,待识别商户为风险商户还是无风险商户,由其对应的属性特征信息以及风险商户识别模型决定。
上述商户识别方法,在对待识别商户进行风险识别过程中,将待识别商户的至少两个属性特征识别依据,可准确反映待识别商户的整体特性,通过风险商户识别模型,根据上述至少两个属性特征可准确对所述待识别商户进行识别。另外,风险商户识别模型基于无风险样本商户和风险样本商户确定,即不仅将已确定为无风险样本商户作为确定风险识别模型的依据,还将已确定为风险样本商户作为确定风险识别模型的依据,可确保风险识别模型的准确性,根据准确的风险商户识别模型以及至少两个属性特征,可准确对待识别商户进行风险识别,提高商户风险识别的准确性。
在一个实施例中,上述属性特征信息包括行业类别、注册资本、企业人数、营业额、注册地址以及经营开始时间的属性特征中的至少任意两个。
行业,指从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系,如汽车业、线下零售、食品业等。行业类别,用于区分不同行业,商户的行业类别,反映商户所属的行业。注册资本,指企业在登记管理机构登记的资本总额,是企业已经缴纳的或经营者承诺一定要缴纳的出资额的总和。可反映经营者愿意以多少财产来承担企业的责任。企业人数,可反映企业的人员规模,即商户的企业人数可反映该商户的人员规模。营业额,指商户的交易资源在交易中的总量金额,可反映该商户在交易过程中的效益。注册地址,在营业执照上登记的“住址”,即反映商户开展各种业务的中心场所。经营开始时间,反映商户注册的时间。上述属性特征可准确反映商户的整体特性,通过在上述属性特征中任意选择至少两个作为确定风险商户识别模型的依据,确保风险商户识别模型的准确性。
在一个实施例中,风险商户识别模型的确定方式包括:获取样本商户的属性特征信息以及对应的风险类别标识,样本商户包括无风险样本商户和风险样本商户;根据各样本商户的属性特征信息以及对应的风险类别标识,进行机器学习训练,获得风险商户识别模型。
机器学习方法是一类从已知数据中自动分析获得规律(即训练过程,得到的规律即为模型),并利用规律对未知数据进行预测的方法,机器学习方法对应有初始预测模型,不同机器学习方法对应不同的初始预测模型,初始预测模型对应有输入、过程参数以及输出,输出由输入和过程参数决定,机器学习即为根据已知的输入数据以及对应的输出数据(即样本数据)不断修正过程参数以获得最优的过程参数的过程,即将已知的输入数据作为初始预测模型的输入,已知输出数据作为初始预测模型的输出,不断更新初始预测模型中的过程参数,获得最优的过程参数,根据最优的过程参数得到目标预测模型(在本实施例中对应风险商品识别模型)。可以理解,目标预测模型是利用通过机器学习训练后得到的最优的过程参数建立的输入与输出之间的对应关系,也就是上述已知输入数据和输出数据满足的规律,在需要对未知输入数据预测其对应的输出时,将未知输入数据作为上述得到的目标预测模型的输入,通过目标预测模型进行预测可获得预测结果即输出。
风险类别标识用于区别商户的风险类别,具体表征商户是风险商户还是无风险商户。在一个示例中,可通过标识1表征商户的风险类别为无风险商户,通过标识-1表征商户的风险类别为风险商户。比如,商户A为风险商户,其对应的风险类别标识为-1,商户B为无风险商户,其对应的风险类别标识为1。针对样本商户,其风险类别标识已确定,即样本商户的风险类别标识已确定,在确定风险商家识别模型过程中,采用机器学习方法根据样本商品的属性特征以及对应的风险类别标识进行机器学习训练得到,风险商家识别模型即为根据目标过程参数建立的商户的属性特征与风险类别标识的对应关系。
在一个实施例中,机器学习方法可包括支持向量机(SVM)、神经网络、隐形马尔科夫模型以及贝叶斯判别模型等,在进行风险商户识别模型确定过程中,可采用上述机器学习方法中任意一种方法根据各样本商户的属性特征以及各样本商户分别对应的风险类别标识进行机器学习训练。
在一个实施例中,根据各样本商户的属性特征信息以及对应的风险类别标识,进行机器学习训练,获得风险商户识别模型,包括:基于各样本商户的属性特征信息以及对应的风险类别标识,求取预定约束条件下的目标函数的目标最优解,获得第一待定参数的值;根据第一待定参数的值,确定风险商户识别模型。
可以理解,上述风险商户识别模型对应一个包括过程参数的分类函数(对应一个切分超平面),其与属性特征以及过程参数相关。训练得到最优的过程参数(即包括上述第一待定参数)即得到过程参数的最优解后,即可确定风险商户识别模型,得到的最优的过程参数使得对应的分类函数根据各样本商户的属性特征得到的输出与确定的风险类别标识之间的偏差之和最小。分类函数的自变量为属性特征,因变量为风险类别标签,因变量由自变量以及过程参数决定。
对数据点进行分类,当超平面离数据点的间隔越大,分类的确信度越大。为了使得分类的确信度尽量高,需要让所选择的超平面能够最大化这个“间隔”值,该问题可转化为预定约束条件下的目标函数,求取预定约束条件下的目标函数的目标最优解过程即是寻找使上述间隔最大化的超平面对应的参数的最优解的过程。
上述目标最优解即是第一待定参数的值。在本实施例中,预定约束条件与第一待定参数以及各样本商户的风险类别标识相关,即预定约束条件根据第一待定参数以及各样本商户的风险类别标识确定,在预定约束条件下,根据各所述样本商户的属性特征信息以及对应的风险类别标识,求取目标函数的目标最优解,以确保得到的目标最优解的准确性。在一定的约束条件下,目标最优,损失最小。然后,再根据第一待定参数的值确定风险商户识别模型,提高风险商户识别模型的准确性。
在一个实施例中,目标函数与第一待定参数、核函数和各样本商户的风险类别标识参数相关,核函数与各样本商户的属性特征信息相关。
在本实施例中,通过支持向量机进行机器学习训练,获得风险商户识别模型。支持向量机通过某非线性变换将输入空间(属性特征信息)映射到高维特征空间。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数K(x,x′),x为一个输入,x′为另一个输入、它恰好等于在高维空间中这个内积,即那么支持向量机就不用计算复杂的非线性变换,而由这个函数K(x,x′)直接得到非线性变换的内积,使大大简化了计算。这样的函数K(x,x′)称为核函数。根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。采用核函数技术可以有效地解决这样问题。
在一个示例中,核函数可以采用高斯核函数、多项式核函数、线性核函数和径向基核函数中的任意一种。其中,高斯核函数和径向基核函数分别与输入之间的距离相关,在本实施例中,即分别与各样本商户的属性特征信息之间的距离相关。
目标函数根据第一待定参数、核函数和各样本商户的风险类别标识参数确定,核函数的选择、第一待定参数的大小以及采用的样本商户的风险类别标识均会影响目标函数的大小,核函数根据各样本商户的属性特征信息确定,进而目标函数与各样本商户的属性特征信息相关,可以理解,目标函数根据各样本商户的属性特征信息、第一待定参数和各样本商户的风险类别标识参数确定。在获得各样本商户的属性特征后,求取预定约束条件下的目标函数的目标最优解,目标函数与第一待定参数相关,即为求取第一选定参数的最优解,样本商户的选择不同,其对应的属性特征信息不仅相同,则最后确定的第一待定参数的值可能不同,从而选择的样本商户既包括风险样本商户和无风险样本商户,即全面覆盖,可确保第一待定参数的值的准确性。
在一个实施例中,核函数为与各样本商户的属性特征信息之间的距离相关的函数,各样本商户的属性特征信息之间的距离,根据各样本商户之间的各属性特征之间的差值确定。
可以理解,该差值为不同样本商户中相同属性特征之间的差值,例如,属性特征信息中包括企业人数和注册资本两个属性特征,则各样本商户之间的各属性特征之间的差值包括各样本商户之间的企业人数之间的差值以及注册资本之间的差值。在本实施例中,选择与各样本商户的属性特征信息之间的距离相关的核函数(例如,可以选择高斯核函数),该核函数根据各样本商户的属性特征信息之间的距离确定,而各样本商户的属性特征信息之间的距离,根据各样本商户之间的各属性特征之间的差值确定。可以理解,核函数根据各样本商户的各属性特征确定。具体地,核函数为与各样本商户的属性特征信息之间的距离正相关的函数,即距离越大,对应核函数的值越大。
可以理解,样本商户的属性特征信息中各属性特征可表示为属性特征向量,两个样本商户的属性特征信息之间的距离即为两个样本商户分别对应的属性特征向量之间的距离,两个样本商户之间的各属性特征之间的差值包括两个样本商户之间的每个相同属性特征之间的差值。例如,样本商户Z1对应的属性特征向量为XZ1:(A1,B1,C1,D1,E1,F1),样本商户Z2对应的属性特征向量为XZ2:(A2,B2,C2,D2,E2,F2),则样本商户Z1和样本商户Z2的属性特征信息之间的距离为属性特征向量为XZ1和属性特征向量为XZ2之间的距离。样本商户Z1和样本商户Z2的各属性特征之间的差值即为属性特征向量XZ1和属性特征向量XZ2中各对应元素(即在向量中位置对应的元素)之间的差值,例如,样本商户Z1和样本商户Z2的第三个属性特征之间的差值为C1-C2,样本商户Z1和样本商户Z2的第四个属性特征之间的差值为D1-D2。
在一个实施例中,在属性特征包括行业类别时,各样本商户之间的各属性特征之间的差值,包括:各样本商户的行业类别之间的第一差值;
在属性特征包括注册地址时,各样本商户之间的各属性特征之间的差值,包括:各样本商户的注册地址之间的第二差值;
在属性特征包括注册资本时,各样本商户之间的各属性特征之间的差值,包括:各样本商户的注册资本之间的第三差值;
在属性特征包括企业人数时,各样本商户之间的各属性特征之间的差值,包括:各样本商户的企业人数之间的第四差值;
在属性特征包括营业额时,各样本商户之间的属性特征之间的差值,包括:各样本商户的营业额之间的第五差值;
在属性特征包括经营开始时间时,各样本商户之间的属性特征之间的差值,包括:对各样本商户的经营开始时间之间的第六差值。
获取的至少两个属性特征可以是行业类别、注册资本、企业人数、营业额、注册地址以及经营开始时间中至少任意两个。针对各属性特征,需要分别确定各属性特征之间的差值。
在属性特征包括行业类别时,各所述样本商户之间的属性特征之间的差值则包括各所述样本商户的行业类别之间的第一差值,表示各样本商户之间的行业类别之间差异程度。即第一差值越大,表示样本商户之间的行业类别之间的差异越大。在本实施例中,各所述样本商户的属性特征信息之间的距离需要根据各所述样本商户之间的行业类别之间的第一差值确定。
在属性特征包括注册地址时,各所述样本商户之间的属性特征之间的差值则包括各所述样本商户的注册地址之间的第二差值,表示各样本商户之间的注册地址之间差别。即第二差值越大,表示样本商户之间的注册地址之间差别越大,即样本商户之间的注册地址越不同。在本实施例中,各所述样本商户的属性特征信息之间的距离需要根据各所述样本商户之间的注册地址之间的第二差值确定。
在属性特征包括注册资本时,各所述样本商户之间的属性特征之间的差值则包括各所述样本商户的注册资本之间的第三差值,表示各样本商户之间的注册资本之间差距。即第三差值越大,表示样本商户之间的注册资本之间差距越大。在本实施例中,各所述样本商户的属性特征信息之间的距离需要根据各所述样本商户之间的注册资本之间的第三差值确定。
在属性特征包括企业人数时,各所述样本商户之间的属性特征之间的差值则包括各所述样本商户的企业人数之间的第四差值,表示各样本商户之间的企业人数之间的人员规模差距。即第四差值越大,表示样本商户之间的企业人数之间人员规模差距越大。各所述样本商户的属性特征信息之间的距离需要根据各所述样本商户之间的企业人数之间的第四差值确定。
在属性特征包括营业额时,各所述样本商户之间的属性特征之间的差值则包括各所述样本商户的营业额之间的第五差值,表示各样本商户之间的营业额之间金额差距。即第五差值越大,表示样本商户之间的营业额之间金额差距越大。各所述样本商户的属性特征信息之间的距离需要根据各所述样本商户之间的营业额之间的第五差值确定。
在属性特征包括营业开始时间时,各所述样本商户之间的属性特征之间的差值则包括各所述样本商户的营业开始时间之间的第二差值,表示各样本商户之间的营业开始时间之间时间差距。即第二差值越大,表示样本商户之间的营业开始时间之间时间差距越大。各所述样本商户的属性特征信息之间的距离需要根据各所述样本商户之间的营业开始时间之间的第六差值确定。
在一个实施例中,各样本商户的行业类别之间的第一差值的确定方式包括:比较各样本商户之间的行业类别,获得各样本商户之间的行业类别比较结果;基于各样本商户之间的行业类别比较结果,获得各样本商户的行业类别之间的第一差值。
由于行业类别为文本信息,无法直接进行差值计算,从而需要通过对行业类别进行比较的方式确定样本商户之间的行业类别之间的第一差值。行业类别比较结果可以理解为行业类别之间的差异。第一差值与行业类别比较结果正相关,即行业类别之间的差异越大,表示行业类别之间越不相同,其对应的第一差值越大。
在一个实施例中,行业类别包括一级类目以及从属于一级类目的二级类目。
在本实施例中,基于各样本商户之间的行业类别比较结果,获得各样本商户的行业类别之间的第一差值,包括:在行业类别比较结果为二级类目相同且一级类目相同时,将第一行业数值化预设值作为样本商户的行业类别之间的第一差值;在行业类别比较结果为二级类目不同且一级类目相同时,将第二行业数值化预设值作为样本商户的行业类别之间的第一差值;在行业类别比较结果为二级类目不同且一级类目不同时,将第三行业数值化预设值作为样本商户的行业类别之间的第一差值。
类目,用于区别不同的类别。二级类目属于一级类目,可以理解为一个大类和一个小类。需要对行业类别之间的一级类目和二级类目进行比较,在行业类别比较结果为二级类目相同且一级类目相同时,表示对应样本商家之间的行业类别完全相同,可认为是同一个行业类别,即行业类别之间没有差距,此时,将第一行业数值化预设值作为样本商户的行业类别之间的第一差值。
在行业类别比较结果为二级类目不同且一级类目相同时,表示对应样本商家之间的行业类别不完全相同,存在部分差异,此时,将第二行业数值化预设值作为样本商户的行业类别之间的第一差值。
在行业类别比较结果为二级类目不同且一级类目不同时,表示对应样本商家之间的行业类别完全不同,此时,将第三行业数值化预设值作为样本商户的行业类别之间的第一差值。
在一个示例中,第一差值越小,表示行业类别之间的差异越小,即第一行业数值化预设值、第二行业数值化预设值和第三行业数值化预设值依次增大,如此,可确保差异越小的行业类别之间的第一差值越小。
在一个实施例中,各样本商户的注册地址之间的第二差值的确定方式包括:比较各样本商户之间的注册地址,获得各样本商户之间的注册地址比较结果;基于各样本商户之间的注册地址比较结果,获得各样本商户的注册地址之间的第二差值。
由于注册地址为文本信息,无法直接进行差值计算,从而需要通过对注册地址进行比较的方式确定样本商户之间的注册地址之间的第二差值。注册地址比较结果可以理解为注册地址之间的差异。第二差值与注册地址比较结果正相关,即注册地址之间的差异越大,表示注册地址之间越不相同,其对应的第二差值越大。
在一个实施例中,注册地址包括一级地址、从属于一级地址的二级地址、从属于二级地址的三级地址以及从属于三级地址的四级地址。
在本实施例中,基于各样本商户之间的注册地址比较结果,获得各样本商户的注册地址之间的第二差值,包括:在注册地址比较结果为一级地址相同、二级地址相同、三级地址相同、且四级地址相同时,将第一地址数值化预设值作为样本商户的注册地址之间的第二差值;在注册地址比较结果为一级地址相同、二级地址相同、三级地址相同、且四级地址不相同时,将第二地址数值化预设值作为样本商户的注册地址之间的第二差值;在注册地址比较结果为一级地址相同、二级地址相同、三级地址不相同、且四级地址不相同时,将第三地址数值化预设值作为样本商户的注册地址之间的第二差值;在注册地址比较结果为一级地址相同、二级地址不相同、三级地址不相同、且四级地址不相同时,将第四地址数值化预设值作为样本商户的注册地址之间的第二差值;在注册地址比较结果为一级地址不相同、二级地址不相同、三级地址不相同、且四级地址不相同时,将第五地址数值化预设值作为样本商户的注册地址之间的第二差值。
一级地址、二级地址、三级地址以及四级地址对应的范围依次减小。需要对注册地址之间的一级地址、二级地址、三级地址以及四级地址进行比较,在注册地址比较结果为一级地址相同、二级地址相同、三级地址相同、且四级地址相同时时,表示对应样本商家之间的注册地址完全相同,可认为是同一个注册地址,即注册地址之间没有差别,此时,将第一地址数值化预设值作为样本商户的注册地址之间的第一差值。
在所述注册地址比较结果为一级地址相同、二级地址相同、三级地址相同、且四级地址不相同时,表示对应样本商家之间的注册地址不完全相同,存在部分差异,仅四级地址不同,可以认为差异较小,此时,将第二地址数值化预设值作为样本商户的注册地址之间的第二差值。
在所述注册地址比较结果为一级地址相同、二级地址相同、三级地址不相同、且四级地址不相同时,表示对应样本商家之间的注册地址不完全相同,存在两个级别的地址不同,此时,将第三地址数值化预设值作为样本商户的注册地址之间的第二差值。
在所述注册地址比较结果为一级地址相同、二级地址不相同、三级地址不相同、且四级地址不相同时,表示对应样本商家之间的注册地址不完全相同,存在三个级别的地址不同,此时,将第四地址数值化预设值作为样本商户的注册地址之间的第二差值。
在所述注册地址比较结果为一级地址不相同、二级地址不相同、三级地址不相同、且四级地址不相同时,表示对应样本商家之间的注册地址完全不同,此时,将第五地址数值化预设值作为样本商户的行业类别之间的第二差值。
在一个示例中,第二差值越小,表示注册地址之间的差异越小,即第一地址数值化预设值、第二地址数值化预设值、第三地址数值化预设值、第四地址数值化预设值和第五地址数值化预设值依次增大,如此,可确保差异越小的注册地址之间的第二差值越小。
在一个实施例中,各样本商户的属性特征信息之间的距离,根据归一化处理后的各属性特征之间的差值确定。
由于各属性特征对应的差值在数量级上存在较大差别,对后续的计算带来影响,即影响距离的准确性,进而影响最终风险商户识别模型的准确性。为消除数量级差别带来的影响,在本实施例中,需要对各所述样本商户之间的各属性特征之间的差值进行归一化处理。即各样本商户的属性特征信息之间的距离,根据归一化处理后的各属性特征之间的差值确定,确保距离的准确性。
在一个实施例中,归一化处理方式包括:将各样本商户之间的属性特征之间的差值除以该属性特征对应的归一参数值,属性特征对应的归一参数值为该属性特征之间的差值的绝对值加1。
在一个实施例中,根据第一待定参数的值,确定风险商户识别模型,包括:根据第一待定参数的值,确定第二待定参数的值;基于第一待定参数的值和第二待定参数的值,确定风险商户识别模型。
风险商户识别模型与第一待定参数和第二待定参数相关,第二待定参数与第一待定参数相关,即在确定第一待定参数的值后,可根据第一待定参数的值确定第二待定参数的值,根据第一待定参数的值和第二待定参数的值,即可确定风险商户识别模型。
在一个实施例中,根据第一待定参数的值,确定第二待定参数的值,包括:根据第一待定参数的值,核函数,以及各样本商户对应的风险类别标识,确定第二待定参数的值。
在确定第二待定参数的值的过程中,为确保其准确性,不但要依据第一待定参数的值,还需要依据核函数以及样本商户对应的风险类别标识。由于各样本商户的属性特征信息对应的核函数的值以及第一待定参数的值的获取过程中,均是基于各样本商户的属性特征信息,即样本商户的选择以及属性特征的选择决定第一待定参数的值和第二待定参数的值,从而决定风险商户识别模型的准确性。在本实施例中,各样本商户覆盖了正、负样本商户,且采用至少两个属性特征,进行风险商户识别模型的确定,确保其准确性。
在一个实施例中,基于第一待定参数的值和第二待定参数的值,确定风险商户识别模型,包括:基于第一待定参数的值,第二待定参数的值,以及核函数,确定风险商户识别模型。
在确定风险商户识别模型过程中,不但依据第一待定参数的值和第二待定参数的值,还需依据各样本商户的属性特征信息对应的核函数的值。即确定的风险商户识别模型与第一待定参数的值,第二待定参数的值以及核函数相关,第一待定参数的值,第二待定参数的值以及核函数影响风险商户识别模型的准确性。
在一个实施例中,各样本商户,为在最近预设时间范围内,交易数据信息满足交易活跃度判定条件的商户。且该商户的风险类别标识已确定。
随着时间的推移,商户的交易行为会变化,也可能产生新的风险商户,为确保选取的样本商户的更加实时和活跃,选取的各样本商户为在最近预设时间范围内,交易数据信息满足交易活跃度判定条件的商户。可以理解,离当前时间最近预设时间范围内,最近预设时间可为最近一周、最近一个月或最近2个月等。例如,当前时间为2018年4月11日,可选取离当前时间最近一周的交易数据信息满足交易活跃度判定条件的商户,一方面可确保样本商户的实时性,也可确保样本商户为活跃的商户。
在一个实施例中,包括下述三项中的任意一项:
交易数据信息包括交易记录的数目,在预设时间范围内的交易记录的数目达到预设交易次数时,判定满足交易活跃度判定条件;
交易数据信息包括交易记录的交易金额,在预设时间范围内的交易记录的交易金额达到预设金额时,判定满足交易活跃度判定条件;
交易数据信息包括交易记录的数目和交易金额,在预设时间范围内的交易记录的数目达到预设交易次数,且在预设时间范围内的交易记录的交易金额达到预设金额时,判定满足交易活跃度判定条件。
由于商户每交易一次,则会记录一次,得到交易记录,交易记录指交易有关的记录信息。交易记录的数目可以理解为该商户交易的次数,在预设时间范围内的交易记录的数目达到预设交易次数时,表示该商户在该预设时间范围内交易的频次较高,认为其在有该时间范围内活跃,即判定满足交易活跃度判定条件。
除了利用交易记录的数目进行活跃判定外,还可通过商户的交易金额进行活跃判定,在预设时间范围内的交易记录的交易金额达到预设金额时,表示该商户在该预设时间范围内交易的金额较高(可以是单次交易的金额较高,也可以是交易次数多,累积的交易金额较高),认为其在有该时间范围内活跃,即判定满足交易活跃度判定条件。
另外,可结合交易记录的数目和交易金额进行活跃判定,只有在预设时间范围内的交易记录的数目达到预设交易次数,且在预设时间范围内的交易记录的交易金额达到预设金额时,判定满足交易活跃度判定条件,以确保样本商户更加实时和活跃。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
下面以一具体实施例对上述商户识别方法的过程加以具体说明。以各样本商户的数量为100(风险样本商户的数量为50,无风险样本商户的数量为50)、属性特征信息包括6个属性特征(即行业类别(A)、注册资本(B)、企业人数(C)、营业额(D)、注册地址(E)以及经营开始时间(F))、机器学习方法采用支持向量机(其核函数采用高斯核函数)、第一行业数值化预设值为0、第二行业数值化预设值为5、第三行业数值化预设值为10、第一地址数值化预设值为0、第二地址数值化预设值为1、第三地址数值化预设值为5、第四地址数值化预设值为10、第五地址数值化预设值为20、距离为欧式距离、风险样本商户的风险类别标识为-1、无风险样本商户的风险类别标识为1为例进行说明。其中,营业额可以为年营业额。具体商户识别方法的过程如下:
(1)确定风险商户识别模型。
首先,选取最近一个月内的交易记录的数目达到预设交易次数的50个风险商户和50个无风险商户作为各样本商户。分别获取100个样本商户的行业类别、注册资本、企业人数、营业额、注册地址以及经营开始时间的属性特征以及该100个样本商户对应的风险类别标识。
高斯核函数为其中,δ为函数的宽度参数,样本商户的属性特征信息表示为属性特征向量,第i个样本商户的属性特征向量Xi为(Ai,Bi,Ci,Di,Ei,Fi),其中,Ai,Bi,Ci,Di,Ei和Fi分别表示第i个样本商户对应的行业类别、注册资本、企业人数、营业额、注册地址和经营开始时间。第j个样本商户的属性特征向量Xj为(Aj,Bj,Cj,Dj,Ej,Fj),其中,Aj,Bj,Cj,Dj,Ej和Fj分别表示第j个样本商户对应的行业类别、注册资本、企业人数、营业额、注册地址和经营开始时间。第i个样本商户和第j个样本商户之间的欧式距离||Xi-Xj||2为:
||Xi-Xj||2=(Ai-Aj)2+(Bi-Bj)2+(Ci-Cj)2+(Di-Dj)2+(Ei-Ej)2+(Fi-Fj)2。
其中,Ai-Aj为第i个样本商户的Xi和第j个样本商户的Xj的行业类别之间的差值,Bi-Bj为第i个样本商户的Xi和第j个样本商户的Xj的注册资本之间的差值,Ci-Cj为第i个样本商户的Xi和第j个样本商户的Xj的企业人数之间的差值,Di-Dj为第i个样本商户的Xi和第j个样本商户的Xj的营业额之间的差值,Ei-Ej为第i个样本商户的Xi和第j个样本商户的Xj的注册地址之间的差值,Fi-Fj为第i个样本商户的Xi和第j个样本商户的Xj的营业开始时间之间的差值。
由于行业类别和注册地址是文本信息,无法直接作减法运算,则通过行业类别之间的比较以及注册地址之间的比较,确定行业类别之间的差值以及注册地址之间的差值。
具体地,对第i个样本商户的Xi和第j个样本商户的Xj的行业类别之间的一级类目和二级类目分别进行比较,在行业类别比较结果为二级类目相同且一级类目相同时,将行业类别之间的第一差值设为0,即Ai-Aj的值为0。在所述行业类别比较结果为二级类目不同且一级类目相同时,将行业类别之间的第一差值设为5,即Ai-Aj值为5。在所述行业类别比较结果为二级类目不同且一级类目不同时,将行业类别之间的第一差值设为10,即Ai-Aj的值为10。
对第i个样本商户的Xi和第j个样本商户的Xj的注册地址之间的一级地址、二级地址、三级地址以及四级地址分别进行比较,在注册地址比较结果为一级地址相同、二级地址相同、三级地址相同、且四级地址相同时,将注册地址之间的第二差值设为0,即Ei-Ej的值为0。在注册地址比较结果为一级地址相同、二级地址相同、三级地址相同、且四级地址不相同时,将注册地址之间的第二差值设为1,即Ei-Ej的值为1。在注册地址比较结果为一级地址相同、二级地址相同、三级地址不相同、且四级地址不相同时,将注册地址之间的第二差值设为5,即Ei-Ej的值为5。在注册地址比较结果为一级地址相同、二级地址不相同、三级地址不相同、且四级地址不相同时,将注册地址之间的第二差值设为10,即Ei-Ej的值为10。在注册地址比较结果为一级地址不相同、二级地址不相同、三级地址不相同、且四级地址不相同时,将注册地址之间的第二差值设为20,即Ei-Ej的值为20。
其他属性特征为数值信息,可直接作减法运算,分别得到各属性特征之间的差值。由于各差值在数量级上存在差别,影响计算结果,需要对各差值进行归一化处理,可将差值除以归一参数值(差值的绝对值加一)得到归一后的差值,然后再根据归一化后的各差值,计算欧式距离,即欧式距离的计算方式更新为:
对于非线性的情况,SVM的处理方法是选择一个核函数,本实施例采用高斯核函数,如图3所示,为高斯核函数映射示意图,为非线性变换,通过将输入空间映射到高维特征空间,来解决在原始空间中线性不可分的问题。
在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优超平面,从而把平面上本身不好分的非线性数据分开。例如,输入数据在二维空间无法划分,从而映射到三维空间里划分。
SVM对应分类函数为,要使得分类最优,则需要得到最优的分类函数,分类函数与第一待定参数和第二待定参数相关,在第一待定参数和第二待定参数最优的情况下,得到的分类函数最优,如此,可准确进行分类识别。
在求解第一待定参数的最优解时,可增加松弛变量,转化为在预定约束条件下目标函数的最优解求解过程。目标函数为:其中,yi为第i个样本商户的风险类别标识,yj为第j个样本商户的风险类别标识。yi为1时表示第i个样本商户是风险商户(例如,是赌博商户),yi为-1时表示第i个样本商户是无风险商户(例如,正规商户)。预定约束条件为且0≤ai≤Cd i=1,2,…,100,Cd为常数。a为第一选定参数,可以理解为一个向量,有多个参数组成,ai为第一选定参数a中的第i个参数,aj为第一选定参数中的第j个参数。
选择高斯核函数,该目标函数最优化问题为一个凸二次规划问题,解是存在的,可以求得第一待定参数a的最优解为其中,为第一待定参数的最优解a*中第1个最优解(即第一选定参数a中的第1个参数a1的最优解),为第一待定参数的最优解a*中第2个最优解(即第一选定参数a中的第2个参数a2的最优解),为第一待定参数的最优解a*中第100个最优解(即第一选定参数a中的第100个参数a100的最优解)。然后可以通过公式求得第二待定参数b的值,即b*,第二待定参数b可以理解为一个向量,则得到的第二待定参数b的值b*对应为一个向量。y为风险类别标识向量,包括各样本商户对应的风险类别标识,例如,y=(y1,y2,…,y100),其中,y1为第1个样本商户的风险类别标识,y2为第2个样本商户的风险类别标识,y100为第100个样本商户的风险类别标识。
根据第一待定参数的值a*和第二待定参数的值b*,确定风险商户识别模型:K(X,Xj)为待识别商户对应的属性特征向量X和第j个样本商户的Xj对应的核函数,f(X)为待识别商户对应的风险商户识别模型的输出。
(2)获取待识别商户对应的上述6个属性特征,并将其输入至确定的风险商户识别模型,风险商户识别模型的输出即为该待识别商户对应的风险识别结果。若风险识别结果为1,则表示该待识别商户为无风险商户,若风险识别结果为-1,则表示该待识别商户为风险商户。
可对风险商户进行风险控制,以确保第三方支付机构的安全。例如,可对降低风险商户的交易额度,避免其进行大额度的交易。或者,可以禁止风险商户的交易,即禁止第三方支付机构向风险商户传递数据的权限,确保系统安全。
以上述商户识别方法应用于第三方支付机构为例,在第三方支付机构通过上述商户识别方法对待识别商户进行风险识别,根据用户需求,可对不同类别的商户进行搜索,例如,可对无风险进行搜索,得到无风险商户并显示,可便于第三方支付机构对应用户对无风险商户的了解。也可对风险商户进行搜索,得到风险商户并显示,可便于第三方支付机构对应用户对风险商户的了解,以便后续进行风险控制。例如,通过上述商户识别方法对第三方支付机构上的N个待识别商户进行风险类别识别,N个待识别商户包括商户A1、商户A2、商户A3,……,商户AN,其中,1表示商户类别为无风险商户,-1表示商户类别为风险上述,商户A1至商户AM的风险识别结果分别表示风险商户,赌博类商户为风险商户的一种,具体可表示为赌博商户,分别对应的风险识别结果为-1,剩余其他商户(商户AM+1至商户AN)的风险识别结果分别表示无风险商户,即分别对应的风险识别结果为1。
可对类别为赌博类的商户进行搜索,搜索结果如图4所示,即在图4第三方支付机构的界面上可显示赌博商户的搜索结果,其中,商户A1至商户AM为赌博商户,显示在图4的界面上,以供用户查看,第三方支付机构不但可查看赌博商户的名称,还可查看到商户对应的地区(例如,境内)等。另外,还可通过对界面上导出按键的进行操作,响应对导出按键的操作事件,可将界面上显示的内容导出,可将导出的内容保存以便后续直接查看。
上述商户识别方法也可应用于银行系统或B2B(指企业与企业之间通过专用网络或Internet,进行数据信息的交换、传递,开展交易活动的商业模式)的业务场景等,通过上述商户识别方法对接入银行系统的商户或B2B的业务场景涉及的商户进行风险识别,为银行系统或B2B的业务场景的风险控制提供保障,提高系统安全。
本申请中,核函数还可以采用多项式核函数,其表达式为:K(Xi,Xj)=((Xi×Xj)+1)d,Xi×Xj为Xi和Xj内积,即多项式核函数为Xi和Xj内积加1后的d次方。
可选择多个不同的(Xi,yi)代入求平均值得到第二待定参数的值。在另一个实施例中,也可通过公式:其中,获得第二待定参数的值b*。
通过上述过程,基于风险样本商户以及已发掘的风险商户作为样本商户,且基于行业类别、注册资本、企业人数、营业额、注册地址和经营开始时间6各属性特征进行风险商户识别模型确定,提高风险商户识别模型的准确性,从而提高对待识别商户的识别准确性。
图5示出了一个实施例中的商户识别装置,包括:
特征信息获取模块510,用于获取待识别商户对应的属性特征信息,所述属性特征信息包括至少两个属性特征;
识别模块520,用于根据所述属性特征信息,通过风险商户识别模型对所述待识别商户进行识别,获得所述待识别商户的风险识别结果,所述风险商户识别模型基于无风险样本商户和风险样本商户确定。
在一个实施例中,上述装置,还包括:
样本特征信息获取模块,用于获取样本商户的属性特征信息以及对应的风险类别标识,所述样本商户包括所述无风险样本商户和所述风险样本商户;
模型确定模块,用于根据各所述样本商户的属性特征信息以及对应的风险类别标识,进行机器学习训练,获得所述风险商户识别模型。
在一个实施例中,模型确定模块,包括:
参数确定模块,用于基于各所述样本商户的属性特征信息以及对应的风险类别标识,求取预定约束条件下的目标函数的目标最优解,获得第一待定参数的值;所述预定约束条件与所述第一待定参数以及各所述样本商户的风险类别标识相关;
风险商户识别模型确定模块,用于根据所述第一待定参数的值,确定所述风险商户识别模型。
在一个实施例中,所述目标函数与所述第一待定参数、核函数和各所述样本商户的风险类别标识参数相关,所述核函数与各所述样本商户的属性特征信息相关。
在一个实施例中,所述核函数为与各所述样本商户的属性特征信息之间的距离相关的函数,各所述样本商户的属性特征信息之间的距离,根据各所述样本商户之间的各属性特征之间的差值确定。
在一个实施例中,在所述属性特征包括行业类别时,各所述样本商户之间的属性特征之间的差值,包括:各所述样本商户的行业类别之间的第一差值;
在所述属性特征包括注册地址时,各所述样本商户之间的各属性特征之间的差值,包括:各所述样本商户的注册地址之间的第二差值;
在所述属性特征包括注册资本时,各所述样本商户之间的各属性特征之间的差值,包括:各所述样本商户的注册资本之间的第三差值;
在所述属性特征包括企业人数时,各所述样本商户之间的各属性特征之间的差值,包括:各所述样本商户的企业人数之间的第四差值;
在所述属性特征包括营业额时,各所述样本商户之间的各属性特征之间的差值,包括:各所述样本商户的营业额之间的第五差值;
在所述属性特征包括经营开始时间时,各所述样本商户之间的属性特征之间的差值,包括:对各所述样本商户的经营开始时间之间的第六差值。
在一个实施例中,各所述样本商户的行业类别之间的第一差值的确定方式包括:
比较各所述样本商户之间的行业类别,获得各所述样本商户之间的行业类别比较结果;
基于各所述样本商户之间的行业类别比较结果,获得各所述样本商户的行业类别之间的第一差值。
在一个实施例中,所述行业类别包括一级类目以及从属于所述一级类目的二级类目;
基于各所述样本商户之间的行业类别比较结果,获得各所述样本商户的行业类别之间的第一差值,包括:
在所述行业类别比较结果为二级类目相同且一级类目相同时,将第一行业数值化预设值作为所述样本商户的行业类别之间的第一差值;
在所述行业类别比较结果为二级类目不同且一级类目相同时,将第二行业数值化预设值作为所述样本商户的行业类别之间的第一差值;
在所述行业类别比较结果为二级类目不同且一级类目不同时,将第三行业数值化预设值作为所述样本商户的行业类别之间的第一差值。
在一个实施例中,各所述样本商户的注册地址之间的第二差值的确定方式包括:
比较各所述样本商户之间的注册地址,获得各所述样本商户之间的注册地址比较结果;
基于各所述样本商户之间的注册地址比较结果,获得各所述样本商户的注册地址之间的第二差值。
在一个实施例中,所述注册地址包括一级地址、从属于所述一级地址的二级地址、从属于所述二级地址的三级地址以及从属于三级地址的四级地址;
基于各所述样本商户之间的注册地址比较结果,获得各所述样本商户的注册地址之间的第二差值,包括:
在所述注册地址比较结果为一级地址相同、二级地址相同、三级地址相同、且四级地址相同时,将第一地址数值化预设值作为所述样本商户的注册地址之间的第二差值;
在所述注册地址比较结果为一级地址相同、二级地址相同、三级地址相同、且四级地址不相同时,将第二地址数值化预设值作为所述样本商户的注册地址之间的第二差值;
在所述注册地址比较结果为一级地址相同、二级地址相同、三级地址不相同、且四级地址不相同时,将第三地址数值化预设值作为所述样本商户的注册地址之间的第二差值;
在所述注册地址比较结果为一级地址相同、二级地址不相同、三级地址不相同、且四级地址不相同时,将第四地址数值化预设值作为所述样本商户的注册地址之间的第二差值;
在所述注册地址比较结果为一级地址不相同、二级地址不相同、三级地址不相同、且四级地址不相同时,将第五地址数值化预设值作为所述样本商户的注册地址之间的第二差值。
在一个实施例中,各所述样本商户的属性特征信息之间的距离,根据归一化处理后的各属性特征之间的差值确定。
在一个实施例中,根据所述第一待定参数的值,确定所述风险商户识别模型,包括:
根据所述第一待定参数的值,确定第二待定参数的值;
基于所述第一待定参数的值和所述第二待定参数的值,确定所述风险商户识别模型。
在一个实施例中,根据所述第一待定参数的值,确定第二待定参数的值,包括:
根据所述第一待定参数的值,所述核函数,以及各所述样本商户对应的风险类别标识,确定第二待定参数的值。
在一个实施例中,基于所述第一待定参数的值和第二待定参数的值,确定所述风险商户识别模型,包括:
基于所述第一待定参数的值,所述第二待定参数的值,以及所述核函数,确定所述风险商户识别模型。
在一个实施例中,各所述样本商户,为在最近预设时间范围内,交易数据信息满足交易活跃度判定条件的商户。
在一个实施例中,包括下述三项中的任意一项:
所述交易数据信息包括交易记录的数目,在所述预设时间范围内的交易记录的数目达到预设交易次数时,判定满足交易活跃度判定条件;
所述交易数据信息包括交易记录的交易金额,在所述预设时间范围内的交易记录的交易金额达到预设金额时,判定满足交易活跃度判定条件;
所述交易数据信息包括交易记录的数目和交易金额,在所述预设时间范围内的交易记录的数目达到预设交易次数,且在所述预设时间范围内的交易记录的交易金额达到预设金额时,判定满足交易活跃度判定条件。
关于商户识别装置的具体限定可以参见上文中对于商户识别方法的限定,在此不再赘述。上述商户识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种商户识别方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种商户识别方法,其特征在于,包括步骤:
获取待识别商户对应的属性特征信息,所述属性特征信息包括至少两个属性特征;
根据所述属性特征信息,通过风险商户识别模型对所述待识别商户进行识别,获得所述待识别商户的风险识别结果,所述风险商户识别模型基于无风险样本商户和风险样本商户确定。
2.根据权利要求1所述的方法,其特征在于,风险商户识别模型的确定方式包括:
获取样本商户的属性特征信息以及对应的风险类别标识,所述样本商户包括所述无风险样本商户和所述风险样本商户;
根据各所述样本商户的属性特征信息以及对应的风险类别标识,进行机器学习训练,获得所述风险商户识别模型。
3.根据权利要求2所述的方法,其特征在于,根据各所述样本商户的属性特征信息以及对应的风险类别标识,进行机器学习训练,获得所述风险商户识别模型,包括:
基于各所述样本商户的属性特征信息以及对应的风险类别标识,求取预定约束条件下的目标函数的目标最优解,获得第一待定参数的值;所述预定约束条件与所述第一待定参数以及各所述样本商户的风险类别标识相关;
根据所述第一待定参数的值,确定所述风险商户识别模型。
4.根据权利要求3所述的方法,其特征在于,所述目标函数与所述第一待定参数、核函数和各所述样本商户的风险类别标识参数相关,所述核函数与各所述样本商户的属性特征信息相关。
5.根据权利要求4所述的方法,其特征在于,所述核函数为与各所述样本商户的属性特征信息之间的距离相关的函数,各所述样本商户的属性特征信息之间的距离,根据各所述样本商户之间的各属性特征之间的差值确定。
6.根据权利要求5所述的方法,其特征在于,
在所述属性特征包括行业类别时,各所述样本商户之间的属性特征之间的差值,包括:各所述样本商户的行业类别之间的第一差值;
在所述属性特征包括注册地址时,各所述样本商户之间的各属性特征之间的差值,包括:各所述样本商户的注册地址之间的第二差值;
在所述属性特征包括注册资本时,各所述样本商户之间的各属性特征之间的差值,包括:各所述样本商户的注册资本之间的第三差值;
在所述属性特征包括企业人数时,各所述样本商户之间的各属性特征之间的差值,包括:各所述样本商户的企业人数之间的第四差值;
在所述属性特征包括营业额时,各所述样本商户之间的各属性特征之间的差值,包括:各所述样本商户的营业额之间的第五差值;
在所述属性特征包括经营开始时间时,各所述样本商户之间的属性特征之间的差值,包括:对各所述样本商户的经营开始时间之间的第六差值。
7.根据权利要求6所述的方法,其特征在于,各所述样本商户的行业类别之间的第一差值的确定方式包括:
比较各所述样本商户之间的行业类别,获得各所述样本商户之间的行业类别比较结果;
基于各所述样本商户之间的行业类别比较结果,获得各所述样本商户的行业类别之间的第一差值。
8.根据权利要求6所述的方法,其特征在于,各所述样本商户的注册地址之间的第二差值的确定方式包括:
比较各所述样本商户之间的注册地址,获得各所述样本商户之间的注册地址比较结果;
基于各所述样本商户之间的注册地址比较结果,获得各所述样本商户的注册地址之间的第二差值。
9.根据权利要求4所述的方法,其特征在于,根据所述第一待定参数的值,确定所述风险商户识别模型,包括:
根据所述第一待定参数的值,确定第二待定参数的值;
基于所述第一待定参数的值和所述第二待定参数的值,确定所述风险商户识别模型。
10.根据权利要求9所述的方法,其特征在于,根据所述第一待定参数的值,确定第二待定参数的值,包括:
根据所述第一待定参数的值,所述核函数,以及各所述样本商户对应的风险类别标识,确定第二待定参数的值。
11.根据权利要求9所述的方法,其特征在于,基于所述第一待定参数的值和第二待定参数的值,确定所述风险商户识别模型,包括:
基于所述第一待定参数的值,所述第二待定参数的值,以及所述核函数,确定所述风险商户识别模型。
12.一种商户识别装置,其特征在于,包括:
特征信息获取模块,用于获取待识别商户对应的属性特征信息,所述属性特征信息包括至少两个属性特征;
识别模块,根据所述属性特征信息,通过风险商户识别模型对所述待识别商户进行识别,获得所述待识别商户的风险识别结果,所述风险商户识别模型基于无风险样本商户和风险样本商户确定。
13.根据权利要求12所述的装置,其特征在于,还包括:
样本特征信息获取模块,用于获取样本商户的属性特征信息以及对应的风险类别标识,所述样本商户包括所述无风险样本商户和所述风险样本商户;
模型确定模块,用于根据各所述样本商户的属性特征信息以及对应的风险类别标识,进行机器学习训练,获得所述风险商户识别模型。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810402209.9A CN108564386B (zh) | 2018-04-28 | 2018-04-28 | 商户识别方法及装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810402209.9A CN108564386B (zh) | 2018-04-28 | 2018-04-28 | 商户识别方法及装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564386A true CN108564386A (zh) | 2018-09-21 |
CN108564386B CN108564386B (zh) | 2020-06-02 |
Family
ID=63537275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810402209.9A Active CN108564386B (zh) | 2018-04-28 | 2018-04-28 | 商户识别方法及装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564386B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767314A (zh) * | 2018-12-14 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 商户风险管控方法、装置、计算机设备和存储介质 |
CN109858927A (zh) * | 2019-01-16 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 一种商户审核方法、装置、计算机可读存储介质及服务器 |
CN110009368A (zh) * | 2018-11-01 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置、一种计算设备及存储介质 |
CN110020427A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 策略确定方法和装置 |
CN110033170A (zh) * | 2019-03-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 识别风险商家的方法及装置 |
CN110046784A (zh) * | 2018-12-14 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种用户准入的风险确定方法及装置 |
CN110060053A (zh) * | 2019-01-30 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 一种识别方法、设备及计算机可读介质 |
CN110349006A (zh) * | 2019-07-02 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 基于活跃度来度量交易风险的方法、装置和电子设备 |
CN110675155A (zh) * | 2019-09-12 | 2020-01-10 | 阿里巴巴集团控股有限公司 | 风险识别方法和装置 |
CN111047146A (zh) * | 2019-11-19 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 一种企业用户的风险识别方法、装置及设备 |
WO2020103560A1 (zh) * | 2018-11-21 | 2020-05-28 | 阿里巴巴集团控股有限公司 | 风险控制方法、装置、服务器及存储介质 |
TWI714262B (zh) * | 2018-12-04 | 2020-12-21 | 開曼群島商創新先進技術有限公司 | 商家風險防控方法及裝置 |
TWI772673B (zh) * | 2019-01-08 | 2022-08-01 | 開曼群島商創新先進技術有限公司 | 行業識別模型確定方法和裝置 |
CN117710081A (zh) * | 2023-11-29 | 2024-03-15 | 浙江孚临科技有限公司 | 一种用于金融风险控制的信息服务处理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150112920A1 (en) * | 2013-10-17 | 2015-04-23 | Alibaba Group Holding Limited | User feature identification method and apparatus |
CN104636912A (zh) * | 2015-02-13 | 2015-05-20 | 银联智惠信息服务(上海)有限公司 | 信用卡套现识别方法和装置 |
CN106779226A (zh) * | 2016-12-23 | 2017-05-31 | 东北大学 | 一种基于混核机器学习的风机批功率预测方法 |
CN107480854A (zh) * | 2017-07-05 | 2017-12-15 | 阿里巴巴集团控股有限公司 | 一种风险识别的方法及装置 |
CN107545422A (zh) * | 2017-08-02 | 2018-01-05 | 中国银联股份有限公司 | 一种套现检测方法及装置 |
-
2018
- 2018-04-28 CN CN201810402209.9A patent/CN108564386B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150112920A1 (en) * | 2013-10-17 | 2015-04-23 | Alibaba Group Holding Limited | User feature identification method and apparatus |
CN104636912A (zh) * | 2015-02-13 | 2015-05-20 | 银联智惠信息服务(上海)有限公司 | 信用卡套现识别方法和装置 |
CN106779226A (zh) * | 2016-12-23 | 2017-05-31 | 东北大学 | 一种基于混核机器学习的风机批功率预测方法 |
CN107480854A (zh) * | 2017-07-05 | 2017-12-15 | 阿里巴巴集团控股有限公司 | 一种风险识别的方法及装置 |
CN107545422A (zh) * | 2017-08-02 | 2018-01-05 | 中国银联股份有限公司 | 一种套现检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
汤俊: "基于可疑金融交易识别的离群模式挖掘研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009368A (zh) * | 2018-11-01 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置、一种计算设备及存储介质 |
CN110009368B (zh) * | 2018-11-01 | 2023-05-05 | 创新先进技术有限公司 | 一种数据处理方法及装置、一种计算设备及存储介质 |
WO2020103560A1 (zh) * | 2018-11-21 | 2020-05-28 | 阿里巴巴集团控股有限公司 | 风险控制方法、装置、服务器及存储介质 |
TWI714262B (zh) * | 2018-12-04 | 2020-12-21 | 開曼群島商創新先進技術有限公司 | 商家風險防控方法及裝置 |
CN110046784A (zh) * | 2018-12-14 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种用户准入的风险确定方法及装置 |
CN109767314A (zh) * | 2018-12-14 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 商户风险管控方法、装置、计算机设备和存储介质 |
TWI772673B (zh) * | 2019-01-08 | 2022-08-01 | 開曼群島商創新先進技術有限公司 | 行業識別模型確定方法和裝置 |
CN109858927A (zh) * | 2019-01-16 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 一种商户审核方法、装置、计算机可读存储介质及服务器 |
CN110020427A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 策略确定方法和装置 |
CN110060053B (zh) * | 2019-01-30 | 2023-08-01 | 创新先进技术有限公司 | 一种识别方法、设备及计算机可读介质 |
CN110060053A (zh) * | 2019-01-30 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 一种识别方法、设备及计算机可读介质 |
US11379845B2 (en) | 2019-03-14 | 2022-07-05 | Advanced New Technologies Co., Ltd. | Method and device for identifying a risk merchant |
CN110033170A (zh) * | 2019-03-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 识别风险商家的方法及装置 |
CN110349006A (zh) * | 2019-07-02 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 基于活跃度来度量交易风险的方法、装置和电子设备 |
CN110675155A (zh) * | 2019-09-12 | 2020-01-10 | 阿里巴巴集团控股有限公司 | 风险识别方法和装置 |
CN111047146A (zh) * | 2019-11-19 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 一种企业用户的风险识别方法、装置及设备 |
CN117710081A (zh) * | 2023-11-29 | 2024-03-15 | 浙江孚临科技有限公司 | 一种用于金融风险控制的信息服务处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108564386B (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564386B (zh) | 商户识别方法及装置、计算机设备及存储介质 | |
US11989740B2 (en) | Reducing false positives using customer feedback and machine learning | |
US10650446B2 (en) | System and method for generating a virtual credit score and a respective virtual credit line | |
US9075848B2 (en) | Methods, systems, and computer program products for generating data quality indicators for relationships in a database | |
US10896462B2 (en) | System and method for aggregating and analyzing financial data | |
KR102134792B1 (ko) | 안전거래 블록체인 기반 사기조회 및 감정평가를 이용한 중고거래 서비스 제공 방법 | |
US10546335B2 (en) | Systems and methods for presenting vehicular transaction information in a data communication network | |
US7756778B1 (en) | System and method for tracking and facilitating analysis of variance and recourse transactions | |
US20180330384A1 (en) | Systems and methods for processing customer purchase transactions using biometric data | |
US20210383391A1 (en) | Systems and methods for fraud dispute of pending transactions | |
US20170161747A1 (en) | Systems and methods for dynamically processing e-wallet transactions | |
US20120179598A1 (en) | Systems and Methods for Assessing Metrics of Loans, Financial Instruments and Financial Entities | |
US20230360051A1 (en) | Detecting unauthorized online applications using machine learning | |
US10572916B2 (en) | Real-time expenditure and transaction management | |
JP7231449B2 (ja) | 信用分析支援方法、信用分析支援システム、およびノード | |
US20200410465A1 (en) | Payment-driven sourcing | |
JP2019185595A (ja) | 情報処理装置、情報処理方法、情報処理プログラム、判定装置、判定方法及び判定プログラム | |
US20150235222A1 (en) | Investment Risk Modeling Method and Apparatus | |
Wei | [Retracted] A Machine Learning Algorithm for Supplier Credit Risk Assessment Based on Supply Chain Management | |
US9721289B2 (en) | System and methods thereof for financing a purchase order over the web | |
KR102373107B1 (ko) | 전자 장치 및 이를 이용한 중고차 거래를 위한 금융 대출 상품 제공 방법 및 그 전자 장치 | |
Narayanan et al. | Credit insurance, distress resolution costs, and bond spreads | |
WO2022020070A9 (en) | Self learning machine learning pipeline for enabling binary decision making | |
KR20180127732A (ko) | 서버 기반의 담보설정된 판매물품 관리방법 및 프로그램 | |
CN114677207A (zh) | 基于贝叶斯学习的个人经营贷授信评估方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |