CN113435998B - 贷款逾期预测方法、装置、电子设备及存储介质 - Google Patents
贷款逾期预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113435998B CN113435998B CN202110695341.5A CN202110695341A CN113435998B CN 113435998 B CN113435998 B CN 113435998B CN 202110695341 A CN202110695341 A CN 202110695341A CN 113435998 B CN113435998 B CN 113435998B
- Authority
- CN
- China
- Prior art keywords
- intention
- text
- question
- target
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种贷款逾期预测方法、装置、电子设备及存储介质,所述方法包括:对面审对话文本进行预处理,得到第一问答文本集,将第一问答文本集输入至训练好的意图要点识别模型中,得到每个问答文本的意图要点;对第一问答文本集中的多个问答文本进行合并,得到每个意图要点的目标段落文本;将目标段落文本输入至预先训练的基于Focal Loss函数的目标模型中,得到目标逾期预测概率值;预测目标客户是否为贷款逾期客户。本发明通过引入损失函数Focal Loss,在训练过程中,更侧重于逾期客户样本,抑制了模型过拟合,得到最优的目标模型,提高了贷款逾期预测的准确率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种贷款逾期预测方法、装置、电子设备及存储介质。
背景技术
针对贷款业务,贷款前需预测客户是否会逾期,现有技术模型在预测客户是否贷款逾期时,通常有限地利用客户基本贷款信息来构建浅层统计特征,这类方法会因特征提取的广度和深度不足,逾期预测的准确低。
此外,现有技术通常采用管道式(pipeline)预测模型,这种级联方式依赖复杂的特征工程,存在着因专家经验不足,使得模型训练效果较差,导致逾期预测准确率低。
因此,有必要提出一种可以快速准确的预测贷款逾期的方法。
发明内容
鉴于以上内容,有必要提出一种贷款逾期预测方法、装置、电子设备及存储介质,通过引入损失函数Focal Loss,在训练过程中,更侧重于逾期客户样本,抑制了模型过拟合,得到最优的目标模型,提高了贷款逾期预测的准确率。
本发明的第一方面提供一种贷款逾期预测方法,所述方法包括:
接收目标客户的面审对话文本,对所述面审对话文本进行预处理,得到第一问答文本集,其中,所述第一问答文本集包括若干问答文本;
获取历史面审对话文本集,并基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型;
将所述第一问答文本集输入至所述训练好的意图要点识别模型中,得到每个问答文本的意图要点;
根据多个问答文本的意图要点,对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本;
将多个意图要点的目标段落文本输入至预先训练的基于Focal Loss函数的目标模型中,得到目标逾期预测概率值,其中,所述目标模型中包含有BERT模型和卷积神经网络模型;
基于所述目标逾期预测概率值预测所述目标客户是否为贷款逾期客户。
可选地,所述基于Focal Loss函数的目标模型训练过程包括:
获取预训练的BERT模型,将所述多个意图要点的目标段落文本输入至所述预训练的BERT模型中,得到多个词嵌入向量;
构建卷积神经网络,将所述多个词嵌入向量输入至构建好的卷积神经网络中进行卷积运算,得到第一张量,其中,所述卷积神经网络包括全连接层和softmax层;
通过残差连接将所述第一张量输入至全连接层中进行特征提取,得到第二张量;
将所述第二张量输入softmax层进行映射,获取所述目标客户的逾期预测概率值;
根据所述逾期预测概率值采用Focal Loss函数进行损失计算,并根据损失计算结果,更新所述预训练的BERT模型和所述构建好的卷积神经网络中的模型参数,得到更新后的预训练的BERT模型和更新后的卷积神经网络;
训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络,得到基于Focal Loss函数的目标模型。
可选地,所述卷积神经网络的构建过程包括:
获取预设的配置参数,所述预设的配置参数中包含有卷积单元配置参数、激活单元配置参数、池化单元配置参数、卷积层配置参数及全连接层配置参数,其中,所述卷积层配置参数中包含有5个卷积块,每个卷积块包含有1个3×3大小的卷积核和1个5×5大小的卷积核;
根据所述卷积单元配置参数配置卷积单元、根据所述激活单元配置参数配置激活单元、根据所述池化单元配置参数配置池化单元,以及根据卷积层配置参数配置卷积层和根据全连接层配置参数配置全连接层;
根据配置的卷积单元、激活单元、池化单元、卷积层及全连接层构建卷积神经网络。
可选地,所述对所述面审对话文本进行预处理,得到第一问答文本集包括:
去除所述面审对话文本中的特殊符号,得到目标对话文本;
按照预设的整理方式对所述目标对话文本进行整理,得到多个目标问答语句;
对所述多个目标问答语句进行统计,得到第一问答文本集。
可选地,所述基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型包括:
获取多个历史客户对应的历史面审对话文本作为历史面审对话文本集;
对所述历史面审对话文本集进行预处理,得到目标面审对话文本集;
按照预设的整理方式对所述目标面审对话文本集进行整理,得到第二问答文本集;
根据预设的意图要点集,按照预设的标注方式对所述第二问答文本集中的每个问答文本进行意图要点标注,得到标注语料集,并对所述标注语料集进行筛选,得到关键意图要点对应的标注语料集;
将所述关键意图要点对应的标注语料集整理为训练集和测试集;
将所述训练集输入预设神经网络中进行训练,得到意图要点识别模型;
将所述测试集输入至所述意图要点识别模型中进行测试,并计算测试通过率;
若所述测试通过率大于或者等于预设通过率阈值,确定所述意图要点识别模型训练结束;若所述测试通过率小于预设通过率阈值,增加训练集的数量,重新进行意图要点识别模型的训练。
可选地,所述对所述标注语料集进行筛选,得到关键意图要点对应的标注语料集包括:
将所述标注语料集中意图要点相同的问答文本进行合并,得到每个意图要点的问答文本;
计算所述每个意图要点的问答文本的文本长度;
判断所述每个意图要点的问答的文本长度是否大于对应意图要点的预设的文本长度阈值;
当所述每个意图要点的问答的文本长度大于或者等于对应意图要点的所述预设的文本长度阈值时,统计每个意图要点在所述面审对话文本集中的频次占比;
对所述频次占比进行降序排序;
从所述降序排序结果中选取排序在前的多个意图要点作为目标意图要点,并将所述目标意图要点对应的问答文本,确定为关键意图要点对应的标注语料集。
可选地,所述对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本包括:
将所述第一问答文本集中相同意图要点的问答文本进行合并,得到每个意图要点的段落文本;
计算所述每个意图要点的段落文本的文本长度;
判断所述每个意图要点的段落文本的文本长度是否大于预设的意图要点段落阈值;
当每个意图要点的段落文本的文本长度大于或者等于所述预设的意图要点段落阈值时,根据所述预设的意图要点段落阈值截断所述每个意图要点的段落文本,得到每个所述意图要点的目标段落文本;或者
当每个意图要点的段落文本的文本长度小于所述预设的意图要点段落阈值时,根据预设的符号填充所述每个意图要点的段落文本,得到每个所述意图要点的目标段落文本。
本发明的第二方面提供一种贷款逾期预测装置,所述装置包括:
预处理模块,用于接收目标客户的面审对话文本,对所述面审对话文本进行预处理,得到第一问答文本集,其中,所述第一问答文本集包括若干问答文本;
训练模块,用于获取历史面审对话文本集,并基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型;
第一输入模块,用于将所述第一问答文本集输入至所述训练好的意图要点识别模型中,得到每个问答文本的意图要点;
合并模块,用于根据多个问答文本的意图要点,对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本;
第二输入模块,用于将多个意图要点的目标段落文本输入至预先训练的基于Focal Loss函数的目标模型中,得到目标逾期预测概率值,其中,所述目标模型中包含有BERT模型和卷积神经网络模型;
预测模块,用于基于所述目标逾期预测概率值预测所述目标客户是否为贷款逾期客户。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的贷款逾期预测方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的贷款逾期预测方法。
综上所述,本发明所述的贷款逾期预测方法、装置、电子设备及存储介质,一方面,通过获取坐席与历史客户之间的面审对话文本,而非客户侧面信息,并依据意图要点对面审对话文本进行了筛选,筛除了面审对话文本中冗余信息,同时保留关键意图要点对应的问答文本,为后续意图要点识别模型的训练提供了较为全面且干净的输入数据,在实际贷款业务场景中也提升了后续模型贷款逾期预测的准确率和召回率;另一方面,通过引入损失函数Focal Loss,在训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络过程中,更侧重于逾期客户样本,抑制了模型过拟合,得到最优的目标模型,提高了目标逾期预测概率值的准确率,进而提高了贷款逾期预测的准确率;最后,通过截断或者填充每个意图要点的段落文本,得到每个意图要点的目标段落文本,确保了后续模型输入数据格式的统一,进而提高了后续模型的贷款逾期预测准确率。
附图说明
图1是本发明实施例一提供的贷款逾期预测方法的流程图。
图2是本发明实施例二提供的贷款逾期预测装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1是本发明实施例一提供的贷款逾期预测方法的流程图。
在本实施例中,所述贷款逾期预测方法可以应用于电子设备中,对于需要进行贷款逾期预测的电子设备,可以直接在电子设备上集成本发明的方法所提供的贷款逾期预测的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在电子设备中。
如图1所示,所述贷款逾期预测方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,接收目标客户的面审对话文本,对所述面审对话文本进行预处理,得到第一问答文本集,其中,所述第一问答文本集包括若干问答文本。
本实施例中,在进行贷款时,需要对目标客户进行贷款逾期预测,接收目标客户和坐席的面审对话文本,根据所述面审对话文本预测所述目标客户是否会出现贷款预测的现象。
本实施例中,在进行面审对话时,获取的面审对话文本中可能存在冗余文本信息,需要对所述面审对话文本与客户标签无关的内容进行过滤筛选,同时对面审对话文本进行整理,得到第一问答文本集。
在一个可选的实施例中,所述对所述面审对话文本进行预处理,得到第一问答文本集包括:
去除所述面审对话文本中的特殊符号,得到目标对话文本;
按照预设的整理方式对所述目标对话文本进行整理,得到多个目标问答语句;
对所述多个目标问答语句进行统计,得到第一问答文本集。
本实施例中,所述特殊符号可以包括:括号、特殊数字符号、引号等其他特殊的符号,本实施可以预先设置整理方式,具体地,所述预设的整理方式可以按照一问一答的方式对面审对话进行整理,在按照预设的整理方式对所述目标对话文本进行整理时,设置坐席的语句数量等于所述目标客户的语句数量,确保一一对应。
示例性的,对面审对话文本进行预处理,去除面审对话文本中特殊符号,将坐席与目标客户的面审对话文本中的语句整理为一问一答的集合形式,及第一问答文本集为{(sent_agentk,sent_customerk)},其中,坐席的语句集合为{sent_agentk},目标客户的语句集合为{sent_customerk},k表示所述面审对话过程中坐席及目标客户语句数量,本实施例设置坐席的语句数量等于所述目标客户的语句数量,均为k。
本实施例中,通过去除面审对话文本中的冗余信息,避免了后续贷款逾期预测过程中冗余信息的干扰,进而提高了贷款逾期预测的准确率,同时将面审对话文本整理为一问一答的集合形式,统一管理面审对话问答文本,避免后续进行意图识别时出现数据混乱的现象,提高了第一问答文本集的管理效率。
S12,获取历史面审对话文本集,并基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型。
本实施例中,在进行目标客户的意图要点识别时,需要预先训练意图要点识别模型。
具体地,所述基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型包括:
获取多个历史客户对应的历史面审对话文本作为历史面审对话文本集;
对所述历史面审对话文本集进行预处理,得到目标面审对话文本集;
按照预设的整理方式对所述目标面审对话文本集进行整理,得到第二问答文本集;
根据预设的意图要点集,按照预设的标注方式对所述第二问答文本集中的每个问答文本进行意图要点标注,得到标注语料集,并对所述标注语料集进行筛选,得到关键意图要点对应的标注语料集;
将所述关键意图要点对应的标注语料集划分为训练集和测试集;
将所述训练集输入预设神经网络中进行训练,得到意图要点识别模型;
将所述测试集输入至所述意图要点识别模型中进行测试,并计算测试通过率;
若所述测试通过率大于或者等于预设通过率阈值,确定所述意图要点识别模型训练结束;若所述测试通过率小于预设通过率阈值,增加训练集的数量,重新进行意图要点识别模型的训练。
本实施例中,可以预先设置意图要点的标注方式,在进行意图要点模型训练时,对多个历史客户对应的历史面审对话文本进行预处理,按照预设的整理方式将所述目标面审对话文本集整理,得到第二问答文本集,并根据真实业务场景提供的意图要点集,即预设的意图要点集,按照预设的标注方式对所述第二问答文本集中的每个问答文本进行意图要点标注,其中,所述预设的意图要点集中可以包括270个意图要点,例如,每个问答文本的坐席的语句sent_agenta与历史客户的语句sent_customera,按照预设的标注方式标注其对应的意图要点,即(sent_agenta,sent_customera,gistm),a表示第二问答文本集的问答文本数量,m表示对应意图要点在预设的意图要点集中的下标。
进一步地,所述对所述标注语料集进行筛选,得到关键意图要点对应的标注语料集包括:
将所述标注语料集中意图要点相同的问答文本进行合并,得到每个意图要点的问答文本;
计算所述每个意图要点的问答文本的文本长度;
判断所述每个意图要点的问答的文本长度是否大于对应意图要点的预设的文本长度阈值;
当所述每个意图要点的问答的文本长度大于或者等于对应意图要点的所述预设的文本长度阈值时,统计每个意图要点在所述面审对话文本集中的频次占比;
对所述频次占比进行降序排序;
从所述降序排序结果中选取排序在前的多个意图要点作为目标意图要点,并将所述目标意图要点对应的问答文本,确定为关键意图要点对应的标注语料集。
进一步地,所述方法还包括:
当所述每个意图要点的问答的文本长度小于对应意图要点的所述预设的文本长度阈值时,从所述标注语料中删除所述每个意图要点的问答文本。
本实施例中,通过将相同意图要点的问答文本进行合并,并计算每个意图要点的问答文本的文本长度,将每个意图要点的问答的文本长度与对应意图要点的预设的文本长度阈值进行比较,根据比较结果初步筛选掉一部分问答文本,然后计算保留的每个意图要点的所述面审对话文本集中的频次占比,筛选出频次占比较大的多个意图要点对应的问答文本作为关键意图要点对应的标注语料集,将与历史客户是否贷款逾期最相关的意图要点对应的问答文本保留,作为意图要点识别模型的训练集和测试集,确保了用于意图要点识别模型的训练集的准确性,进而提高了后续意图要点识别的准确率。
本实施例中,通过获取坐席与历史客户之间的面审对话文本,而非客户侧面信息,并依据意图要点对面审对话文本进行了筛选,筛除了面审对话文本中冗余信息,同时保留关键意图要点对应的问答文本,为后续意图要点识别模型的训练提供了较为全面且干净的输入数据,在实际贷款业务场景中也提升了后续模型贷款逾期预测的准确率和召回率。
S13,将所述第一问答文本集输入至所述训练好的意图要点识别模型中,得到每个问答文本的意图要点。
本实施例中,在得到第一问答文本集后,需要识别所述第一问答文本集中每个问答文本的意图要点,即,将所述第一问答文本集输入至所述训练好的意图要点识别模型中,得到每个问答文本的意图要点。
S14,根据多个问答文本的意图要点,对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本。
本实施例中,为了便于管理不同意图要点的目标段落文本,将相同意图要点的问答文本进行合并。
在一个可选的实施例中,所述对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本包括:
将所述第一问答文本集中相同意图要点的问答文本进行合并,得到每个意图要点的段落文本;
计算所述每个意图要点的段落文本的文本长度;
判断所述每个意图要点的段落文本的文本长度是否大于预设的意图要点段落阈值;
当每个意图要点的段落文本的文本长度大于或者等于所述预设的意图要点段落阈值时,根据所述预设的意图要点段落阈值截断所述每个意图要点的段落文本,得到每个所述意图要点的目标段落文本;或者
当每个意图要点的段落文本的文本长度小于所述预设的意图要点段落阈值时,根据预设的符号填充所述每个意图要点的段落文本,得到每个所述意图要点的目标段落文本。
本实施例中,可以预先设置意图要点段落阈值,根据意图要点段落阈值统一所述第一问答文本集中的每个问答文本的格式。
示例性地,预设的意图要点段落阈值可以为254,若合并后每个意图要点的段落文本的文本长度超过254,则根据所述预设的意图要点段落阈值截断所述每个意图要点的段落文本;若合并后每个意图要点的段落文本的文本长度不超过254,则使用特殊字符[PAD]进行填充,例如,任意一个意图要点下坐席与目标客户共有3个问答文本,则将所述任意一个意图要点对应的3个问答文本构建为“[CLS]sent_agent1 sent_customer1 sent_agent2sent_customer2 sent_agent3sent_customer3[PAD][PAD]…[SEP]”形式的目标段落文本,针对于问答文本为空的意图要点,为了确保后续模型输入的数据格式统一,将问答文本为空的意图要点的目标段落文本构建为“[CLS][PAD][PAD]…[SEP]”形式的目标段落文本。
本实施例中,通过截断或者填充每个意图要点的段落文本,确保了后续模型输入数据格式的统一,进而提高了后续模型的贷款逾期预测准确率。
S15,将多个意图要点的目标段落文本输入至预先训练的基于FocalLoss函数的目标模型中,得到目标逾期预测概率值,其中,所述目标模型中包含有BERT模型和卷积神经网络模型。
本实施例中,所述FocalLoss函数用以调整不均衡样本在训练时损失的权重,来缓解贷款业务场景中因样本不均衡所致的过拟合问题,本实施例通过将多个意图要点的目标段落文本输入至预先训练的基于FocalLoss函数的目标模型函数的目标模型中,提高了目标逾期预测概率值的准确率。
具体地,所述基于FocalLoss函数的目标模型训练过程包括:
获取预训练的BERT模型,将所述多个意图要点的目标段落文本输入至所述预训练的BERT模型中,得到多个词嵌入向量;
构建卷积神经网络,将所述多个词嵌入向量输入至构建好的卷积神经网络中进行卷积运算,得到第一张量,其中,所述卷积神经网络包括全连接层和softmax层;
通过残差连接将所述第一张量输入至全连接层中进行特征提取,得到第二张量;
将所述第二张量输入softmax层进行映射,获取所述目标客户的逾期预测概率值;
根据所述逾期预测概率值采用Focal Loss函数进行损失计算,并根据损失计算结果,更新所述预训练的BERT模型和所述构建好的卷积神经网络中的模型参数,得到更新后的预训练的BERT模型和更新后的卷积神经网络;
训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络,得到基于Focal Loss函数的目标模型。
本实施例中,通过获取预训练的BERT模型和构建卷积神经网络,采用所述预训练的BERT模型和构建卷积神经网络对所述多个词嵌入向量进行初步运算,得到目标客户的逾期预测概率值,根据所述逾期预测概率值,利用Focal Loss进行损失计算和训练。
本实施例中,由于在真实贷款业务场景中,正常客户数(标签为0)与逾期客户数(标签为1)差距悬殊,这种样本不均衡问题将使模型极易过拟合,导致模型泛化能力低,难以真正应用。本实施例通过使用新的损失函数Focal loss替换预训练的BERT模型和卷积神经网络中常用的交叉熵损失函数,具体地,所述损失函数Focal Loss定义如下:
其中,y′表示目标客户的逾期预测概率值,α和γ表示预设的权重值。
本实施例中,通过预设的权重值α对于正样本(y=1)较少的情况下,改变正负样本权重;通过预设的权重值γ降低易分类样本权重,同时增加难分类样本权重,本实施例通过引入损失函数Focal Loss,在训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络过程中,更侧重于逾期客户样本,抑制了模型过拟合,得到最优的目标模型,提高了目标逾期预测概率值的准确率,进而提高了贷款逾期预测的准确率。
进一步地,所述卷积神经网络的构建过程包括:
获取预设的配置参数,所述预设的配置参数中包含有卷积单元配置参数、激活单元配置参数、池化单元配置参数、卷积层配置参数及全连接层配置参数,其中,所述卷积层配置参数中包含有5个卷积块,每个卷积块包含有1个3×3大小的卷积核和1个5×5大小的卷积核;
根据所述卷积单元配置参数配置卷积单元、根据所述激活单元配置参数配置激活单元、根据所述池化单元配置参数配置池化单元,以及根据卷积层配置参数配置卷积层和根据全连接层配置参数配置全连接层;
根据配置的卷积单元、激活单元、池化单元、卷积层及全连接层构建卷积神经网络。
本实施例中,构建的卷积神经网络中使用了5个卷积块,在每个卷积块中使用两种卷积核,分别为3x3和5x5,将通过预训练的BERT模型输出的多个词嵌入向量输入至构建的卷积神经网络中进行卷积运算,例如,所述多个词嵌入向量依次经过每个卷积块,在每个卷积块中,通过调整所述多个词嵌入向量的步长stride和填充padding操作进行长宽不变的二维卷积,并通过保持填充padding和增加步长stride的操作进行长宽缩减的二维卷积,接着通过残差连接后将经过卷积运算后的第一张量送入一个线性的全连接层,最后将全连接层的输出的第二张量输入softmax层,获取所述目标模型预测的所述目标客户的逾期预测概率值。
S16,基于所述目标逾期预测概率值预测所述目标客户是否为贷款逾期客户。
本实施例中,所述贷款逾期客户是通过与所述目标客户进行面审对话后,通过采用目标模型对所述面审对话文本进行逾期预测后,根据逾期预测概率值判断得到的。
在一个可选的实施例中,所述基于所述目标逾期预测概率值预测所述目标客户是否为贷款逾期客户包括:
将所述逾期预测概率值与预设的贷款逾期概率阈值进行比较;
当所述逾期预测概率值大于或者等于所述预设的贷款逾期概率阈值时,确定所述目标客户为贷款逾期客户;或者
当所述逾期预测概率值小于所述预设的贷款逾期概率阈值时,确定所述目标客户不为贷款逾期客户。
本实施例中,可以预先设置贷款逾期概率阈值,具体地,所述贷款逾期概率阈值可以根据历史客户的概率逾期概率值通过机器学习得到的,通过将逾期预测概率值与所述预设的贷款逾期概率阈值进行比较,根据比较结果确定所述目标客户为贷款逾期客户。
综上所述,本实施例所述的贷款逾期预测方法,一方面,基于所述面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型,通过获取坐席与历史客户之间的面审对话文本,而非客户侧面信息,并依据意图要点对面审对话文本进行了筛选,筛除了面审对话文本中冗余信息,同时保留关键意图要点对应的问答文本,为后续意图要点识别模型的训练提供了较为全面且干净的输入数据,在实际贷款业务场景中也提升了后续模型贷款逾期预测的准确率和召回率;另一方面,将多个意图要点的目标段落文本输入至预先训练的基于Focal Loss函数的目标模型中,得到目标逾期预测概率值,通过引入损失函数Focal Loss,在训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络过程中,更侧重于逾期客户样本,抑制了模型过拟合,得到最优的目标模型,提高了目标逾期预测概率值的准确率,进而提高了贷款逾期预测的准确率;最后,对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本,通过截断或者填充每个意图要点的段落文本,确保了后续模型输入数据格式的统一,进而提高了后续模型的贷款逾期预测准确率。
实施例二
图2是本发明实施例二提供的贷款逾期预测装置的结构图。
在一些实施例中,所述贷款逾期预测装置20可以包括多个由程序代码段所组成的功能模块。所述贷款逾期预测装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)贷款逾期预测的功能。
本实施例中,所述贷款逾期预测装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:预处理模块201、训练模块202、删除模块203、第一输入模块204、合并模块205、第二输入模块206及预测模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
预处理模块201,用于接收目标客户的面审对话文本,对所述面审对话文本进行预处理,得到第一问答文本集,其中,所述第一问答文本集包括若干问答文本。
本实施例中,在进行贷款时,需要对目标客户进行贷款逾期预测,接收目标客户和坐席的面审对话文本,根据所述面审对话文本预测所述目标客户是否会出现贷款预测的现象。
本实施例中,在进行面审对话时,获取的面审对话文本中可能存在冗余文本信息,需要对所述面审对话文本与客户标签无关的内容进行过滤筛选,同时对面审对话文本进行整理,得到第一问答文本集。
在一个可选的实施例中,所述预处理模块201对所述面审对话文本进行预处理,得到第一问答文本集包括:
去除所述面审对话文本中的特殊符号,得到目标对话文本;
按照预设的整理方式对所述目标对话文本进行整理,得到多个目标问答语句;
对所述多个目标问答语句进行统计,得到第一问答文本集。
本实施例中,所述特殊符号可以包括:括号、特殊数字符号、引号等其他特殊的符号,本实施可以预先设置整理方式,具体地,所述预设的整理方式可以按照一问一答的方式对面审对话进行整理,在按照预设的整理方式对所述目标对话文本进行整理时,设置坐席的语句数量等于所述目标客户的语句数量,确保一一对应。
示例性的,对面审对话文本进行预处理,去除面审对话文本中特殊符号,将坐席与目标客户的面审对话文本中的语句整理为一问一答的集合形式,及第一问答文本集为{(sent_agentk,sent_customerk)},其中,坐席的语句集合为{sent_agentk},目标客户的语句集合为{sent_customerk},k表示所述面审对话过程中坐席及目标客户语句数量,本实施例设置坐席的语句数量等于所述目标客户的语句数量,均为k。
本实施例中,通过去除面审对话文本中的冗余信息,避免了后续贷款逾期预测过程中冗余信息的干扰,进而提高了贷款逾期预测的准确率,同时将面审对话文本整理为一问一答的集合形式,统一管理面审对话问答文本,避免后续进行意图识别时出现数据混乱的现象,提高了第一问答文本集的管理效率。
训练模块202,用于获取历史面审对话文本集,并基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型。
本实施例中,在进行目标客户的意图要点识别时,需要预先训练意图要点识别模型。
具体地,所述训练模块202基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型包括:
获取多个历史客户对应的历史面审对话文本作为历史面审对话文本集;
对所述历史面审对话文本集进行预处理,得到目标面审对话文本集;
按照预设的整理方式对所述目标面审对话文本集进行整理,得到第二问答文本集;
根据预设的意图要点集,按照预设的标注方式对所述第二问答文本集中的每个问答文本进行意图要点标注,得到标注语料集,并对所述标注语料集进行筛选,得到关键意图要点对应的标注语料集;
将所述关键意图要点对应的标注语料集划分为训练集和测试集;
将所述训练集输入预设神经网络中进行训练,得到意图要点识别模型;
将所述测试集输入至所述意图要点识别模型中进行测试,并计算测试通过率;
若所述测试通过率大于或者等于预设通过率阈值,确定所述意图要点识别模型训练结束;若所述测试通过率小于预设通过率阈值,增加训练集的数量,重新进行意图要点识别模型的训练。
本实施例中,可以预先设置意图要点的标注方式,在进行意图要点模型训练时,对多个历史客户对应的历史面审对话文本进行预处理,按照预设的整理方式将所述目标面审对话文本集整理,得到第二问答文本集,并根据真实业务场景提供的意图要点集,即预设的意图要点集,按照预设的标注方式对所述第二问答文本集中的每个问答文本进行意图要点标注,其中,所述预设的意图要点集中可以包括270个意图要点,例如,每个问答文本的坐席的语句sent_agenta与历史客户的语句sent_customera,按照预设的标注方式标注其对应的意图要点,即(sent_agenta,sent_customera,gistm),a表示第二问答文本集的问答文本数量,m表示对应意图要点在预设的意图要点集中的下标。
进一步地,所述对所述标注语料集进行筛选,得到关键意图要点对应的标注语料集包括:
将所述标注语料集中意图要点相同的问答文本进行合并,得到每个意图要点的问答文本;
计算所述每个意图要点的问答文本的文本长度;
判断所述每个意图要点的问答的文本长度是否大于对应意图要点的预设的文本长度阈值;
当所述每个意图要点的问答的文本长度大于或者等于对应意图要点的所述预设的文本长度阈值时,统计每个意图要点在所述面审对话文本集中的频次占比;
对所述频次占比进行降序排序;
从所述降序排序结果中选取排序在前的多个意图要点作为目标意图要点,并将所述目标意图要点对应的问答文本,确定为关键意图要点对应的标注语料集。
删除模块203,用于当所述每个意图要点的问答的文本长度小于对应意图要点的所述预设的文本长度阈值时,从所述标注语料中删除所述每个意图要点的问答文本。
本实施例中,通过将相同意图要点的问答文本进行合并,并计算每个意图要点的问答文本的文本长度,将每个意图要点的问答的文本长度与对应意图要点的预设的文本长度阈值进行比较,根据比较结果初步筛选掉一部分问答文本,然后计算保留的每个意图要点的所述面审对话文本集中的频次占比,筛选出频次占比较大的多个意图要点对应的问答文本作为关键意图要点对应的标注语料集,将与历史客户是否贷款逾期最相关的意图要点对应的问答文本保留,作为意图要点识别模型的训练集和测试集,确保了用于意图要点识别模型的训练集的准确性,进而提高了后续意图要点识别的准确率。
本实施例中,通过获取坐席与历史客户之间的面审对话文本,而非客户侧面信息,并依据意图要点对面审对话文本进行了筛选,筛除了面审对话文本中冗余信息,同时保留关键意图要点对应的问答文本,为后续意图要点识别模型的训练提供了较为全面且干净的输入数据,在实际贷款业务场景中也提升了后续模型贷款逾期预测的准确率和召回率。
第一输入模块204,用于将所述第一问答文本集输入至所述训练好的意图要点识别模型中,得到每个问答文本的意图要点。
本实施例中,在得到第一问答文本集后,需要识别所述第一问答文本集中每个问答文本的意图要点,即,将所述第一问答文本集输入至所述训练好的意图要点识别模型中,得到每个问答文本的意图要点。
合并模块205,用于根据多个问答文本的意图要点,对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本。
本实施例中,为了便于管理不同意图要点的目标段落文本,将相同意图要点的问答文本进行合并。
在一个可选的实施例中,所述合并模块205对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本包括:
将所述第一问答文本集中相同意图要点的问答文本进行合并,得到每个意图要点的段落文本;
计算所述每个意图要点的段落文本的文本长度;
判断所述每个意图要点的段落文本的文本长度是否大于预设的意图要点段落阈值;
当每个意图要点的段落文本的文本长度大于或者等于所述预设的意图要点段落阈值时,根据所述预设的意图要点段落阈值截断所述每个意图要点的段落文本,得到每个所述意图要点的目标段落文本;或者
当每个意图要点的段落文本的文本长度小于所述预设的意图要点段落阈值时,根据预设的符号填充所述每个意图要点的段落文本,得到每个所述意图要点的目标段落文本。
本实施例中,可以预先设置意图要点段落阈值,根据意图要点段落阈值统一所述第一问答文本集中的每个问答文本的格式。
示例性地,预设的意图要点段落阈值可以为254,若合并后每个意图要点的段落文本的文本长度超过254,则根据所述预设的意图要点段落阈值截断所述每个意图要点的段落文本;若合并后每个意图要点的段落文本的文本长度不超过254,则使用特殊字符[PAD]进行填充,例如,任意一个意图要点下坐席与目标客户共有3个问答文本,则将所述任意一个意图要点对应的3个问答文本构建为“[CLS]sent_agent1 sent_customer1 sent_agent2sent_customer2 sent_agent3sent_customer3[PAD][PAD]…[SEP]”形式的目标段落文本,针对于问答文本为空的意图要点,为了确保后续模型输入的数据格式统一,将问答文本为空的意图要点的目标段落文本构建为“[CLS][PAD][PAD]…[SEP]”形式的目标段落文本。
本实施例中,通过截断或者填充每个意图要点的段落文本,确保了后续模型输入数据格式的统一,进而提高了后续模型的贷款逾期预测准确率。
第二输入模块206,用于将多个意图要点的目标段落文本输入至预先训练的基于FocalLoss函数的目标模型中,得到目标逾期预测概率值,其中,所述目标模型中包含有BERT模型和卷积神经网络模型。
本实施例中,所述FocalLoss函数用以调整不均衡样本在训练时损失的权重,来缓解贷款业务场景中因样本不均衡所致的过拟合问题,本实施例通过将多个意图要点的目标段落文本输入至预先训练的基于FocalLoss函数的目标模型中,提高了目标逾期预测概率值的准确率。
具体地,所述基于FocalLoss函数的目标模型训练过程包括:
获取预训练的BERT模型,将所述多个意图要点的目标段落文本输入至所述预训练的BERT模型中,得到多个词嵌入向量;
构建卷积神经网络,将所述多个词嵌入向量输入至构建好的卷积神经网络中进行卷积运算,得到第一张量,其中,所述卷积神经网络包括全连接层和softmax层;
通过残差连接将所述第一张量输入至全连接层中进行特征提取,得到第二张量;
将所述第二张量输入softmax层进行映射,获取所述目标客户的逾期预测概率值;
根据所述逾期预测概率值采用Focal Loss函数进行损失计算,并根据损失计算结果,更新所述预训练的BERT模型和所述构建好的卷积神经网络中的模型参数,得到更新后的预训练的BERT模型和更新后的卷积神经网络;
训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络,得到基于Focal Loss函数的目标模型。
本实施例中,通过获取预训练的BERT模型和构建卷积神经网络,采用所述预训练的BERT模型和构建卷积神经网络对所述多个词嵌入向量进行初步运算,得到目标客户的逾期预测概率值,根据所述逾期预测概率值,利用Focal Loss进行损失计算和训练。
本实施例中,由于在真实贷款业务场景中,正常客户数(标签为0)与逾期客户数(标签为1)差距悬殊,这种样本不均衡问题将使模型极易过拟合,导致模型泛化能力低,难以真正应用。本实施例通过使用新的损失函数Focal loss替换预训练的BERT模型和卷积神经网络中常用的交叉熵损失函数,具体地,所述损失函数Focal Loss定义如下:
其中,y′表示目标客户的逾期预测概率值,α和γ表示预设的权重值。
本实施例中,通过预设的权重值α对于正样本(y=1)较少的情况下,改变正负样本权重;通过预设的权重值γ降低易分类样本权重,同时增加难分类样本权重,本实施例通过引入损失函数Focal Loss,在训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络过程中,更侧重于逾期客户样本,抑制了模型过拟合,得到最优的目标模型,提高了目标逾期预测概率值的准确率,进而提高了贷款逾期预测的准确率。
进一步地,所述卷积神经网络的构建过程包括:
获取预设的配置参数,所述预设的配置参数中包含有卷积单元配置参数、激活单元配置参数、池化单元配置参数、卷积层配置参数及全连接层配置参数,其中,所述卷积层配置参数中包含有5个卷积块,每个卷积块包含有1个3×3大小的卷积核和1个5×5大小的卷积核;
根据所述卷积单元配置参数配置卷积单元、根据所述激活单元配置参数配置激活单元、根据所述池化单元配置参数配置池化单元,以及根据卷积层配置参数配置卷积层和根据全连接层配置参数配置全连接层;
根据配置的卷积单元、激活单元、池化单元、卷积层及全连接层构建卷积神经网络。
本实施例中,构建的卷积神经网络中使用了5个卷积块,在每个卷积块中使用两种卷积核,分别为3x3和5x5,将通过预训练的BERT模型输出的多个词嵌入向量输入至构建的卷积神经网络中进行卷积运算,例如,所述多个词嵌入向量依次经过每个卷积块,在每个卷积块中,通过调整所述多个词嵌入向量的步长stride和填充padding操作进行长宽不变的二维卷积,并通过保持填充padding和增加步长stride的操作进行长宽缩减的二维卷积,接着通过残差连接后将经过卷积运算后的第一张量送入一个线性的全连接层,最后将全连接层的输出的第二张量输入softmax层,获取所述目标模型预测的所述目标客户的逾期预测概率值。
预测模块207,用于基于所述目标逾期预测概率值预测所述目标客户是否为贷款逾期客户。
本实施例中,所述贷款逾期客户是通过与所述目标客户进行面审对话后,通过采用目标模型对所述面审对话文本进行逾期预测后,根据逾期预测概率值判断得到的。
在一个可选的实施例中,所述预测模块207基于所述目标逾期预测概率值预测所述目标客户是否为贷款逾期客户包括:
将所述逾期预测概率值与预设的贷款逾期概率阈值进行比较;
当所述逾期预测概率值大于或者等于所述预设的贷款逾期概率阈值时,确定所述目标客户为贷款逾期客户;或者
当所述逾期预测概率值小于所述预设的贷款逾期概率阈值时,确定所述目标客户不为贷款逾期客户。
本实施例中,可以预先设置贷款逾期概率阈值,具体地,所述贷款逾期概率阈值可以根据历史客户的概率逾期概率值通过机器学习得到的,通过将逾期预测概率值与所述预设的贷款逾期概率阈值进行比较,根据比较结果确定所述目标客户为贷款逾期客户。
综上所述,本实施例所述的贷款逾期预测装置,一方面,基于所述面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型,通过获取坐席与历史客户之间的面审对话文本,而非客户侧面信息,并依据意图要点对面审对话文本进行了筛选,筛除了面审对话文本中冗余信息,同时保留关键意图要点对应的问答文本,为后续意图要点识别模型的训练提供了较为全面且干净的输入数据,在实际贷款业务场景中也提升了后续模型贷款逾期预测的准确率和召回率;另一方面,将多个意图要点的目标段落文本输入至预先训练的基于Focal Loss函数的目标模型中,得到目标逾期预测概率值,通过引入损失函数Focal Loss,在训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络过程中,更侧重于逾期客户样本,抑制了模型过拟合,得到最优的目标模型,提高了目标逾期预测概率值的准确率,进而提高了贷款逾期预测的准确率;最后,对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本,通过截断或者填充每个意图要点的段落文本,确保了后续模型输入数据格式的统一,进而提高了后续模型的贷款逾期预测准确率。
实施例三
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的贷款逾期预测装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的贷款逾期预测装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到贷款逾期预测的目的。
示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成预处理模块201、训练模块202、删除模块203、第一输入模块204、合并模块205、第二输入模块206及预测模块207。
在本发明的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现贷款逾期预测的功能。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种贷款逾期预测方法,其特征在于,所述方法包括:
接收目标客户的面审对话文本,对所述面审对话文本进行预处理,得到第一问答文本集,其中,所述第一问答文本集包括若干问答文本;
获取历史面审对话文本集,并基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型;
将所述第一问答文本集输入至所述训练好的意图要点识别模型中,得到每个问答文本的意图要点;
根据多个问答文本的意图要点,对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本;
将多个意图要点的目标段落文本输入至预先训练的基于Focal Loss函数的目标模型中,得到目标逾期预测概率值,其中,所述目标模型中包含有BERT模型和卷积神经网络模型,所述基于Focal Loss函数的目标模型训练过程包括:获取预训练的BERT模型,将所述多个意图要点的目标段落文本输入至所述预训练的BERT模型中,得到多个词嵌入向量;构建卷积神经网络,将所述多个词嵌入向量输入至构建好的卷积神经网络中进行卷积运算,得到第一张量,其中,所述卷积神经网络包括全连接层和softmax层;通过残差连接将所述第一张量输入至全连接层中进行特征提取,得到第二张量;将所述第二张量输入softmax层进行映射,获取所述目标客户的逾期预测概率值;根据所述逾期预测概率值采用Focal Loss函数进行损失计算,并根据损失计算结果,更新所述预训练的BERT模型和所述构建好的卷积神经网络中的模型参数,得到更新后的预训练的BERT模型和更新后的卷积神经网络;训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络,得到基于Focal Loss函数的目标模型;
基于所述目标逾期预测概率值预测所述目标客户是否为贷款逾期客户。
2.如权利要求1所述的贷款逾期预测方法,其特征在于,所述卷积神经网络的构建过程包括:
获取预设的配置参数,所述预设的配置参数中包含有卷积单元配置参数、激活单元配置参数、池化单元配置参数、卷积层配置参数及全连接层配置参数,其中,所述卷积层配置参数中包含有5个卷积块,每个卷积块包含有1个3×3大小的卷积核和1个5×5大小的卷积核;
根据所述卷积单元配置参数配置卷积单元、根据所述激活单元配置参数配置激活单元、根据所述池化单元配置参数配置池化单元,以及根据卷积层配置参数配置卷积层和根据全连接层配置参数配置全连接层;
根据配置的卷积单元、激活单元、池化单元、卷积层及全连接层构建卷积神经网络。
3.如权利要求1所述的贷款逾期预测方法,其特征在于,所述对所述面审对话文本进行预处理,得到第一问答文本集包括:
去除所述面审对话文本中的特殊符号,得到目标对话文本;
按照预设的整理方式对所述目标对话文本进行整理,得到多个目标问答语句;
对所述多个目标问答语句进行统计,得到第一问答文本集。
4.如权利要求1所述的贷款逾期预测方法,其特征在于,所述基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型包括:
获取多个历史客户对应的历史面审对话文本作为历史面审对话文本集;
对所述历史面审对话文本集进行预处理,得到目标面审对话文本集;
按照预设的整理方式对所述目标面审对话文本集进行整理,得到第二问答文本集;
根据预设的意图要点集,按照预设的标注方式对所述第二问答文本集中的每个问答文本进行意图要点标注,得到标注语料集,并对所述标注语料集进行筛选,得到关键意图要点对应的标注语料集;
将所述关键意图要点对应的标注语料集整理为训练集和测试集;
将所述训练集输入预设神经网络中进行训练,得到意图要点识别模型;
将所述测试集输入至所述意图要点识别模型中进行测试,并计算测试通过率;
若所述测试通过率大于或者等于预设通过率阈值,确定所述意图要点识别模型训练结束;若所述测试通过率小于预设通过率阈值,增加训练集的数量,重新进行意图要点识别模型的训练。
5.如权利要求4所述的贷款逾期预测方法,其特征在于,所述对所述标注语料集进行筛选,得到关键意图要点对应的标注语料集包括:
将所述标注语料集中意图要点相同的问答文本进行合并,得到每个意图要点的问答文本;
计算所述每个意图要点的问答文本的文本长度;
判断所述每个意图要点的问答的文本长度是否大于对应意图要点的预设的文本长度阈值;
当所述每个意图要点的问答的文本长度大于或者等于对应意图要点的所述预设的文本长度阈值时,统计每个意图要点在所述面审对话文本集中的频次占比;
对所述频次占比进行降序排序;
从所述降序排序结果中选取排序在前的多个意图要点作为目标意图要点,并将所述目标意图要点对应的问答文本,确定为关键意图要点对应的标注语料集。
6.如权利要求1所述的贷款逾期预测方法,其特征在于,所述对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本包括:
将所述第一问答文本集中相同意图要点的问答文本进行合并,得到每个意图要点的段落文本;
计算所述每个意图要点的段落文本的文本长度;
判断所述每个意图要点的段落文本的文本长度是否大于预设的意图要点段落阈值;
当每个意图要点的段落文本的文本长度大于或者等于所述预设的意图要点段落阈值时,根据所述预设的意图要点段落阈值截断所述每个意图要点的段落文本,得到每个所述意图要点的目标段落文本;或者
当每个意图要点的段落文本的文本长度小于所述预设的意图要点段落阈值时,根据预设的符号填充所述每个意图要点的段落文本,得到每个所述意图要点的目标段落文本。
7.一种贷款逾期预测装置,其特征在于,所述装置包括:
预处理模块,用于接收目标客户的面审对话文本,对所述面审对话文本进行预处理,得到第一问答文本集,其中,所述第一问答文本集包括若干问答文本;
训练模块,用于获取历史面审对话文本集,并基于所述历史面审对话文本集训练意图要点识别模型,得到训练好的意图要点识别模型;
第一输入模块,用于将所述第一问答文本集输入至所述训练好的意图要点识别模型中,得到每个问答文本的意图要点;
合并模块,用于根据多个问答文本的意图要点,对所述第一问答文本集中的多个问答文本进行合并,得到每个所述意图要点的目标段落文本;
第二输入模块,用于将多个意图要点的目标段落文本输入至预先训练的基于FocalLoss函数的目标模型中,得到目标逾期预测概率值,其中,所述目标模型中包含有BERT模型和卷积神经网络模型,所述基于Focal Loss函数的目标模型训练过程包括:获取预训练的BERT模型,将所述多个意图要点的目标段落文本输入至所述预训练的BERT模型中,得到多个词嵌入向量;构建卷积神经网络,将所述多个词嵌入向量输入至构建好的卷积神经网络中进行卷积运算,得到第一张量,其中,所述卷积神经网络包括全连接层和softmax层;通过残差连接将所述第一张量输入至全连接层中进行特征提取,得到第二张量;将所述第二张量输入softmax层进行映射,获取所述目标客户的逾期预测概率值;根据所述逾期预测概率值采用Focal Loss函数进行损失计算,并根据损失计算结果,更新所述预训练的BERT模型和所述构建好的卷积神经网络中的模型参数,得到更新后的预训练的BERT模型和更新后的卷积神经网络;训练所述更新后的预训练的BERT模型和所述更新后的卷积神经网络,得到基于Focal Loss函数的目标模型;
预测模块,用于基于所述目标逾期预测概率值预测所述目标客户是否为贷款逾期客户。
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述的贷款逾期预测方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的贷款逾期预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110695341.5A CN113435998B (zh) | 2021-06-23 | 2021-06-23 | 贷款逾期预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110695341.5A CN113435998B (zh) | 2021-06-23 | 2021-06-23 | 贷款逾期预测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113435998A CN113435998A (zh) | 2021-09-24 |
CN113435998B true CN113435998B (zh) | 2023-05-02 |
Family
ID=77757285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110695341.5A Active CN113435998B (zh) | 2021-06-23 | 2021-06-23 | 贷款逾期预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435998B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886545A (zh) * | 2021-09-29 | 2022-01-04 | 平安银行股份有限公司 | 知识问答方法、装置、计算机可读介质及电子设备 |
CN113887214B (zh) * | 2021-10-13 | 2024-10-15 | 平安科技(深圳)有限公司 | 基于人工智能的意愿推测方法、及其相关设备 |
CN114926272B (zh) * | 2022-06-16 | 2023-05-12 | 平安科技(深圳)有限公司 | 基于端到端模型的行为逾期预测方法、系统、设备和介质 |
CN115129848B (zh) * | 2022-09-02 | 2023-02-28 | 苏州浪潮智能科技有限公司 | 一种视觉问答任务的处理方法、装置、设备和介质 |
CN116629456B (zh) * | 2023-07-20 | 2023-10-13 | 杭银消费金融股份有限公司 | 业务逾期风险预测方法、系统与存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992982A (zh) * | 2017-12-28 | 2018-05-04 | 上海氪信信息技术有限公司 | 一种基于深度学习的非结构化数据的违约概率预测方法 |
CN108389125A (zh) * | 2018-02-27 | 2018-08-10 | 挖财网络技术有限公司 | 信贷申请的逾期风险预测方法及装置 |
CN111047429A (zh) * | 2019-12-05 | 2020-04-21 | 中诚信征信有限公司 | 一种概率预测方法及装置 |
CN111476658A (zh) * | 2020-04-13 | 2020-07-31 | 中国工商银行股份有限公司 | 一种贷款连续逾期的预测方法及装置 |
CN111563152A (zh) * | 2020-06-19 | 2020-08-21 | 平安科技(深圳)有限公司 | 智能问答语料分析方法、装置、电子设备及可读存储介质 |
CN111708873A (zh) * | 2020-06-15 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN111767371A (zh) * | 2020-06-28 | 2020-10-13 | 微医云(杭州)控股有限公司 | 一种智能问答方法、装置、设备及介质 |
CN111814467A (zh) * | 2020-06-29 | 2020-10-23 | 平安普惠企业管理有限公司 | 催收通话的标签建立方法、装置、电子设备及介质 |
CN112507116A (zh) * | 2020-12-16 | 2021-03-16 | 平安科技(深圳)有限公司 | 基于客户应答语料的客户画像方法及其相关设备 |
CN112861662A (zh) * | 2021-01-22 | 2021-05-28 | 平安科技(深圳)有限公司 | 基于人脸和交互文本的目标对象行为预测方法及相关设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323760A1 (en) * | 2011-06-16 | 2012-12-20 | Xerox Corporation | Dynamic loan service monitoring system and method |
US20150142446A1 (en) * | 2013-11-21 | 2015-05-21 | Global Analytics, Inc. | Credit Risk Decision Management System And Method Using Voice Analytics |
-
2021
- 2021-06-23 CN CN202110695341.5A patent/CN113435998B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992982A (zh) * | 2017-12-28 | 2018-05-04 | 上海氪信信息技术有限公司 | 一种基于深度学习的非结构化数据的违约概率预测方法 |
CN108389125A (zh) * | 2018-02-27 | 2018-08-10 | 挖财网络技术有限公司 | 信贷申请的逾期风险预测方法及装置 |
CN111047429A (zh) * | 2019-12-05 | 2020-04-21 | 中诚信征信有限公司 | 一种概率预测方法及装置 |
CN111476658A (zh) * | 2020-04-13 | 2020-07-31 | 中国工商银行股份有限公司 | 一种贷款连续逾期的预测方法及装置 |
CN111708873A (zh) * | 2020-06-15 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN111563152A (zh) * | 2020-06-19 | 2020-08-21 | 平安科技(深圳)有限公司 | 智能问答语料分析方法、装置、电子设备及可读存储介质 |
CN111767371A (zh) * | 2020-06-28 | 2020-10-13 | 微医云(杭州)控股有限公司 | 一种智能问答方法、装置、设备及介质 |
CN111814467A (zh) * | 2020-06-29 | 2020-10-23 | 平安普惠企业管理有限公司 | 催收通话的标签建立方法、装置、电子设备及介质 |
CN112507116A (zh) * | 2020-12-16 | 2021-03-16 | 平安科技(深圳)有限公司 | 基于客户应答语料的客户画像方法及其相关设备 |
CN112861662A (zh) * | 2021-01-22 | 2021-05-28 | 平安科技(深圳)有限公司 | 基于人脸和交互文本的目标对象行为预测方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113435998A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113435998B (zh) | 贷款逾期预测方法、装置、电子设备及存储介质 | |
CN110020426B (zh) | 将用户咨询分配到客服业务组的方法及装置 | |
CN110995459B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
US11551171B2 (en) | Utilizing natural language processing and machine learning to automatically generate proposed workflows | |
CN110347840A (zh) | 投诉文本类别的预测方法、系统、设备和存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN111949795A (zh) | 工单自动分类方法及装置 | |
CN113435582B (zh) | 基于句向量预训练模型的文本处理方法及相关设备 | |
CN114663223A (zh) | 基于人工智能的信用风险评估方法、装置及相关设备 | |
CN114880449B (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
US11783221B2 (en) | Data exposure for transparency in artificial intelligence | |
CN114372082B (zh) | 基于人工智能的数据查询方法、装置、电子设备及介质 | |
CN113139381B (zh) | 不均衡样本分类方法、装置、电子设备及存储介质 | |
CN113674065B (zh) | 基于服务触点的业务推荐方法、装置、电子设备及介质 | |
CN113268579B (zh) | 对话内容类别识别方法、装置、计算机设备及存储介质 | |
CN112036641B (zh) | 基于人工智能的留存预测方法、装置、计算机设备及介质 | |
CN113806501A (zh) | 意图识别模型的训练方法、意图识别方法和设备 | |
CN108830302A (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN113344415A (zh) | 基于深度神经网络的业务分配方法、装置、设备及介质 | |
CN114492446B (zh) | 法律文书处理方法、装置、电子设备及存储介质 | |
CN113487453A (zh) | 基于犯罪要素的法律判决预测方法及系统 | |
CN114580409A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN113515591A (zh) | 文本不良信息识别方法、装置、电子设备及存储介质 | |
CN113850686A (zh) | 投保概率确定方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |