CN118608077B

CN118608077B - 公积金数据质量评估与分级预警系统及方法

Info

Publication number: CN118608077B
Application number: CN202410737842.9A
Authority: CN
Inventors: 汤泽波; 许柯; 马硕秋; 朱卫益; 何伟华; 陈靖; 梁立涛; 萧克明; 梅丽霞; 伍臻
Original assignee: Jiangsu Xietong Zhilian Technology Co ltd; Jiangsu Fushen Xietong Technology Co ltd
Current assignee: Jiangsu Xietong Zhilian Technology Co ltd; Jiangsu Fushen Xietong Technology Co ltd
Filing date: 2024-06-07
Publication date: 2024-11-19
Anticipated expiration: 2044-06-07

Abstract

本发明属于数据质量评估技术领域，本发明公开了公积金数据质量评估与分级预警系统及方法；包括：从公积金系统中收集m组评估数据，m为大于1的整数；对m组评估数据进行数据清洗；对数据清洗后的m组评估数据进行质量评估，自动识别质量问题；对进行数据清洗和识别出质量问题的评估数据生成对应的预警指令；本发明通过多种数据验证手段全面检查问题数据，实现公积金数据质量管理工作的自动化与高效处理，大幅提升了公积金数据整体质量水平，减轻人工审核负担，从而提高业务决策的科学性与准确性。

Description

公积金数据质量评估与分级预警系统及方法

技术领域

本发明涉及数据质量评估技术领域，更具体地说，本发明涉及公积金数据质量评估与分级预警系统及方法。

背景技术

在公积金管理系统中，公积金数据是经济活动的重要参考依据，公积金数据质量直接影响业务决策的科学性和准确性，以及业务流程的高效性；随着我国社会经济活跃度提升，公职人员数量不断增长，各地区的公积金中心每月均需要处理浩大的公积金个人账户数据，这些数据分别来源于多个部门和单位；由于数据量级大，来源复杂，因此会出现数据重复、错误和不一致的情况；

现有技术中，存在智能化的公积金数据评估方法，例如公开号为CN117252685A的中国专利公开了公积金信息审核方法、系统、装置、设备及存储介质；包括：控制数据采集端的RPA执行器对待审核客户的公积金信息进行数据采集，得到待审核客户的采集数据；利用图片文本识别技术对采集数据中的待识别图片进行图片文本识别，得到待审核客户的文本识别结果；基于文本识别结果对待审核客户进行公积金信息审核；基于RPA技术模拟人的动作，对客户的公积金信息进行采集，并基于采集数据实现对银行客户公积金信息的审核，有效避免了人为出错风险，节省了人力物力，加快了业务处理速度和响应能力，也提高了公积金信息审核的工作准确率和效率；

但上述技术的侧重点在于如何获取待审核客户的采集数据，并未具体介绍公积金信息审核的相关流程，无法获取具体的公积金数据评估规则和标准；

鉴于此，本发明提出公积金数据质量评估与分级预警系统及方法以解决上述问题。

发明内容

为了克服现有技术的上述缺陷，为实现上述目的，本发明提供如下技术方案：公积金数据质量评估与分级预警方法，包括：

从公积金系统中收集m组评估数据，m为大于1的整数；

对m组评估数据进行数据清洗；

对数据清洗后的m组评估数据进行质量评估，自动识别质量问题；

对进行数据清洗和识别出质量问题的评估数据生成对应的预警指令。

进一步地，所述评估数据至少包括个人信息、交易记录和余额记录；

所述个人信息包括公积金账户持有人的姓名、身份证号码、电话号码和地址；

所述交易记录包括缴存记录和提取记录；

所述缴存记录包括单次缴存金额、单次缴存日期和缴存单位；

所述提取记录包括单次提取金额和单次提取日期；

所述余额记录为公积金账户中的余额信息；

一组评估数据对应于公积金系统中的一个公积金账户。

进一步地，所述对m组评估数据进行数据清洗的步骤包括：

步骤1：删除m组评估数据中的重复数据；

步骤2：删除m组评估数据中的不合理数据。

进一步地，所述删除m组评估数据中的重复数据的方法包括：

对m组评估数据内每组个人信息中的每个数据，均采用哈希函数计算对应的哈希值，并标记为个人哈希值；将每个个人哈希值进行对比，判断是否存在相同的个人哈希值；若存在相同的个人哈希值，则将个人哈希值相同的数据标记为重复数据，保留个人哈希值相同的n个重复数据中的一个重复数据，将其余n-1个重复数据从m组评估数据中删除，n为大于1的整数；

若一组评估数据内个人信息中的姓名和身份证号码均被删除，则将对应的评估数据从m组评估数据中删除。

进一步地，所述删除m组评估数据中的不合理数据的步骤包括：

步骤201：判断是否将m组评估数据内每组个人信息中的身份证号码或电话号码标记为不合理数据；

对m组评估数据内每组个人信息中的身份证号码和电话号码，均采用字符串函数获取对应的字符串长度，将身份证号码对应的字符串长度标记为身份证长度，将电话号码对应的字符串长度标记为电话长度；预设身份证长度阈值和电话长度阈值，将每个身份证长度和身份证长度阈值进行对比，若身份证长度与身份证长度阈值不一致，则将对应身份证号码标记为不合理数据；若身份证长度和身份证长度阈值一致，则不将对应身份证号码标记为不合理数据；将每个电话长度和电话长度阈值进行对比，若电话长度和电话长度阈值不一致，则将对应电话号码标记为不合理数据；若电话长度和电话长度阈值一致，则不将对应电话号码标记为不合理数据；

步骤202：判断是否将m组评估数据中的单次缴存金额、单次提取金额或余额记录标记为不合理数据；

对m组评估数据中的单次缴存金额、单次提取金额和余额记录均进行分析；若单次缴存金额小于0，则将对应单次缴存金额标记为不合理数据，若单次缴存金额大于或等于0，则不将对应单次缴存金额标记为不合理数据；若单次提取金额小于0，则将对应单次提取金额标记为不合理数据，若单次提取金额大于或等于0，则不将对应单次提取金额标记为不合理数据；若余额记录小于0，则将对应余额记录标记为不合理数据，若余额记录大于或等于0，则不将对应余额记录标记为不合理数据；

步骤203：判断是否将m组评估数据中的单次缴存日期或单次提取日期标记为不合理数据；

将m组评估数据中的单次缴存日期和单次提取日期均标记为日期数据，将日期数据输入训练好的日期分析模型，判断日期数据是否不合理；

日期分析模型的训练过程包括：

预先对a个日期数据设置对应的判断结果，a为大于1的整数，判断结果包括日期合理和日期不合理，对日期合理和日期不合理均设置不同的数字标签；

将判断结果的数字标签标记为判断标签，将日期数据与对应的判断标签转换为对应的一组特征向量；

将每组特征向量作为日期分析模型的输入，所述日期分析模型以每组日期数据对应的一组预测判断标签作为输出，以每组日期数据对应的实际判断标签作为预测目标，实际判断标签即为上述预先设置的与日期数据对应的判断结果的数字标签；以最小化所有日期数据的预测误差之和作为训练目标；对日期分析模型进行训练，直至预测误差之和达到收敛时停止训练；所述日期分析模型为深度神经网络模型；

根据预测的判断标签获取对应的判断结果；若判断结果为日期合理，则不将对应日期数据标记为不合理数据；若判断结果为日期不合理，则将对应日期数据标记为不合理数据；

步骤204：将不合理数据从m组评估数据中删除。

进一步地，对数据清洗后的m组评估数据进行质量评估的方法包括：

将m组评估数据中身份证号码发送至查询服务器中，查询服务器包括社保查询服务器、户籍查询服务器和运营商查询服务器；其中，社保查询服务器根据身份证号码进行查询，生成对应的姓名和缴存单位，并进行反馈；户籍查询服务器根据身份证号码进行查询，生成对应的地址，并进行反馈；运营商查询服务器根据身份证号码进行查询，生成对应的电话号码，并进行反馈；

对反馈获取的姓名、缴存单位、地址和电话号码，分别采用哈希函数计算对应的哈希值，并标记为对比哈希值；再对m组评估数据中的缴存单位采用哈希函数计算对应的哈希值，也标记为个人哈希值；

将一个身份证号码对应的对比哈希值构建一个分析集合；将一个身份证号码对应的个人哈希值构建一个评估集合；将姓名、缴存单位、地址和电话号码标记为分析数据；将对应身份证号码相同的分析集合和评估集合进行对比，将分析集合中的每个对比哈希值与评估集合中对应的个人哈希值进行对比；

若对比哈希值与对应的个人哈希值相同，则不将对比哈希值和个人哈希值所对应的分析数据标记为问题数据；

若对比哈希值与对应的个人哈希值不同，则将对比哈希值和个人哈希值所对应的分析数据标记为问题数据；

若一个分析集合中每个对比哈希值对应的分析数据均被标记为问题数据，则将对应分析集合标记为问题集合，将问题集合对应的身份证号码标记为问题数据；再将问题集合对应的电话号码发送至运营商查询服务器，运营商查询服务器根据电话号码进行查询，生成对应的姓名并进行反馈；将反馈的姓名采用哈希函数计算对应的哈希值，并标记为二次对比哈希值；将问题集合对应的姓名标记为对比姓名，将对比姓名对应的对比哈希值和二次对比哈希值进行对比；若对比哈希值与二次对比哈希值一致，则不将问题集合对应的电话号码和姓名标记为问题数据；若对比哈希值与二次对比哈希值不一致，则仍将问题集合对应的电话号码和姓名标记为问题数据；

若评估数据中的身份证号码被删除，则将对应评估数据中未被删除的姓名、缴存单位、地址和电话号码均标记为问题数据。

进一步地，所述预警指令包括高级预警指令和低级预警指令；所述高级预警指令包括一级高级预警指令和二级高级预警指令。

进一步地，所述对进行数据清洗的评估数据生成对应的预警指令的方法包括：

若一组评估数据中存在身份证号码或姓名被标记为问题数据或删除，则生成关键错误指令；

若一组评估数据中存在身份证号码和姓名同时被标记为问题数据或删除，则生成多关键错误指令；

若一组评估数据中存在交易记录、电话号码或地址被标记为问题数据或删除，则生成一般错误指令；

若一组评估数据中交易记录、电话号码或地址均被标记为问题数据或删除，则生成多一般错误指令；

若一组评估数据中生成多关键错误指令，则生成二级高级预警指令；

若一组评估数据中未生成多关键错误指令，但生成了关键错误指令，则生成一级高级预警指令；

若一组评估数据中未生成多关键错误指令和关键错误指令，但生成了多一般错误指令，则生成一级高级预警指令；

若一组评估数据中未生成多关键错误指令、关键错误指令和多一般错误指令，但生成了一般错误指令，则生成低级预警指令。

进一步地，对个人哈希值相同的名字所对应的评估数据进行分析，判断是否标记为重复数据；

将个人哈希值相同的名字所对应的评估数据标记为相同数据；

若b组相同数据中的身份证号码均被标记为重复数据，则将b组相同数据中的姓名也标记为重复数据，b为大于1的整数；

若b组相同数据中存在未被标记为重复数据的身份证号码，则将每组相同数据对应的个人哈希值作为一组测试集合，即测试集合与相同数据一一对应；并将未被标记为重复数据的身份证号码所对应的相同数据标记为不同数据；依次对相同数据对应的测试集合和不同数据对应的测试集合递增设置数字标签，将测试集合对应的数字标签标记为测试标签，测试标签的范围为[1,b′]，b′＝b；

将相同数据对应的测试标签和一组不同数据对应的测试标签作为一组总测试集合；将每组总测试集合依次输入训练好的概率预测模型，预测出对应的重复概率；

概率预测模型的训练过程包括：

预先收集b组总测试集合对应的重复概率，将总测试集合与对应的重复概率转换为对应的一组特征向量；

将每组特征向量作为概率分析模型的输入，所述概率分析模型以每组总测试集合对应的一组重复概率作为输出，以每组总测试集合对应的实际重复概率作为预测目标，实际重复概率即为预先收集的与总测试集合对应的重复概率；以最小化所有总测试集合的预测误差之和作为训练目标；对概率分析模型进行训练，直至预测误差之和达到收敛时停止训练；所述概率分析模型为深度神经网络模型；

预设概率阈值P_T；

将重复概率P_C与概率阈值P_T进行对比；

若P_C≤P_T，则不将不同数据中的姓名标记为重复数据，将相同数据中的姓名标记为重复数据；

若P_C＞P_T，则将不同数据中的姓名和相同数据中的姓名均标记为重复数据。

公积金数据质量评估与分级预警系统，实施所述的公积金数据质量评估与分级预警方法，包括：

数据收集模块，用于从公积金系统中收集m组评估数据，m为大于1的整数；

数据预处理模块，用于对m组评估数据进行数据清洗；

数据质量评估模块，用于对数据清洗后的m组评估数据进行质量评估，自动识别质量问题；

预警模块，用于对进行数据清洗和识别出质量问题的评估数据生成对应的预警指令。

本发明公积金数据质量评估与分级预警系统及方法的技术效果和优点：

1.能够对公积金数据进行清洗和质量评估，根据质量问题自动生成不同级别的预警指令，并通过电子方式发送给相关人员；通过多种数据验证手段全面检查问题数据，实现公积金数据质量管理工作的自动化与高效处理，大幅提升了公积金数据整体质量水平，减轻人工审核负担，从而提高业务决策的科学性与准确性。

2.通过对个人哈希值相同的姓名所对应的评估数据进行分析，利用概率预测模型预测重复概率，对判断结果进行定量分析，更加准确判断是否将姓名标记为重复数据；能够更好协调重复数据识别和正常数据保留之间的关系，使得数据清洗工作兼顾重复数据清除和信息损耗最小化，有效提升了公积金数据清洗的效率和水平，从而提升公积金数据评估的准确性。

附图说明

图1为本发明实施例1的公积金数据质量评估与分级预警系统的结构示意图；

图2为本发明实施例2的公积金数据质量评估与分级预警系统的结构示意图；

图3为本发明实施例3的公积金数据质量评估与分级预警方法的流程图；

图4为本发明实施例4的电子设备示意图；

图5为本发明实施例5的存储介质示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1所示，本实施例所述公积金数据质量评估与分级预警系统，包括数据收集模块、数据预处理模块、数据质量评估模块以及预警模块；各个模块通过有线和/或无线的方式进行连接，实现模块间的数据传输。

数据收集模块，用于从公积金系统中收集m组评估数据，m为大于1的整数。

评估数据至少包括个人信息、交易记录和余额记录。

个人信息包括公积金账户持有人的姓名、身份证号码、电话号码和地址。

交易记录包括缴存记录和提取记录。

缴存记录包括单次缴存金额、单次缴存日期和缴存单位。

提取记录包括单次提取金额和单次提取日期。

余额记录为公积金账户中的余额信息。

一组评估数据对应于公积金系统中的一个公积金账户。

数据预处理模块，用于对m组评估数据进行数据清洗。

对m组评估数据进行数据清洗的步骤包括：

步骤1：删除m组评估数据中的重复数据。

删除m组评估数据中的重复数据的方法包括：

对m组评估数据内每组个人信息中的每个数据，均采用哈希函数计算对应的哈希值，并标记为个人哈希值，哈希函数例如SM2、SM3、SHA3-512、Whirlpool等；将每个个人哈希值进行对比，判断是否存在相同的个人哈希值；若存在相同的个人哈希值，则将个人哈希值相同的数据标记为重复数据，保留个人哈希值相同的n个重复数据中的一个重复数据，将其余n-1个重复数据从m组评估数据中删除，n为大于1的整数。

若一组评估数据内个人信息中的姓名和身份证号码均被删除，则将对应的评估数据从m组评估数据中删除；原因在于，若多组评估数据内个人信息中的姓名和身份证号码均相同，说明公积金系统对一个公积金账户进行了重复数据存储，需要将多余的数据删除。

步骤2：删除m组评估数据中的不合理数据。

删除m组评估数据中的不合理数据的步骤包括：

步骤201：判断是否将m组评估数据内每组个人信息中的身份证号码或电话号码标记为不合理数据。

对m组评估数据内每组个人信息中的身份证号码和电话号码，均采用字符串函数获取对应的字符串长度，将身份证号码对应的字符串长度标记为身份证长度，将电话号码对应的字符串长度标记为电话长度，字符串函数例如length、strlen等；预设身份证长度阈值和电话长度阈值，将每个身份证长度和身份证长度阈值进行对比，若身份证长度与身份证长度阈值不一致，则将对应身份证号码标记为不合理数据；若身份证长度和身份证长度阈值一致，则不将对应身份证号码标记为不合理数据；将每个电话长度和电话长度阈值进行对比，若电话长度和电话长度阈值不一致，则将对应电话号码标记为不合理数据；若电话长度和电话长度阈值一致，则不将对应电话号码标记为不合理数据；身份证号码长度阈值和电话长度阈值均由本领域技术人员根据实际情况进行预先设置，本实施例优选身份证号码长度阈值为18，电话长度阈值为11。

步骤202：判断是否将m组评估数据中的单次缴存金额、单次提取金额或余额记录标记为不合理数据。

对m组评估数据中的单次缴存金额、单次提取金额和余额记录均进行分析；若单次缴存金额小于0，则将对应单次缴存金额标记为不合理数据，若单次缴存金额大于或等于0，则不将对应单次缴存金额标记为不合理数据；若单次提取金额小于0，则将对应单次提取金额标记为不合理数据，若单次提取金额大于或等于0，则不将对应单次提取金额标记为不合理数据；若余额记录小于0，则将对应余额记录标记为不合理数据，若余额记录大于或等于0，则不将对应余额记录标记为不合理数据。

需要说明的是，由于单次缴存金额、单次提取金额和余额记录均不存在小于0的情况，因此若m组评估数据中存在单次缴存金额、单次提取金额或余额记录小于0，即为不合理数据。

步骤203：判断是否将m组评估数据中的单次缴存日期或单次提取日期标记为不合理数据。

将m组评估数据中的单次缴存日期和单次提取日期均标记为日期数据，将日期数据输入训练好的日期分析模型，判断日期数据是否不合理。

日期分析模型的具体训练过程包括：

预先对a个日期数据设置对应的判断结果，a为大于1的整数，判断结果包括日期合理和日期不合理，对日期合理和日期不合理均设置不同的数字标签，示例性的，对日期合理设置数字标签为0，对日期不合理设置数字标签为1；日期数据对应的判断结果由本领域技术人员在历史公积金数据质量评估过程中，收集a个不同的日期数据，本领域技术人员根据实际经验依次判断a个不同日期数据是否不合理(例如日期数据为1月32日、2月30日等)，将a组不同的日期数据依次设置对应的判断结果。

将判断结果的数字标签标记为判断标签，将日期数据与对应的判断标签转换为对应的一组特征向量。

将每组特征向量作为日期分析模型的输入，所述日期分析模型以每组日期数据对应的一组预测判断标签作为输出，以每组日期数据对应的实际判断标签作为预测目标，实际判断标签即为上述预先设置的与日期数据对应的判断结果的数字标签；以最小化所有日期数据的预测误差之和作为训练目标；其中，预测误差的计算公式为Zp＝(αp-μp)²，其中Z_p为预测误差，p为日期数据对应特征向量的组号，α_p为第p组日期数据对应的预测判断标签，μ_p为第p组日期数据对应的实际判断标签；对日期分析模型进行训练，直至预测误差之和达到收敛时停止训练。

上述日期分析模型具体为深度神经网络模型。

根据预测的判断标签获取对应的判断结果；若判断结果为日期合理，则不将对应日期数据标记为不合理数据；若判断结果为日期不合理，则将对应日期数据标记为不合理数据。

步骤204：将不合理数据从m组评估数据中删除。

数据质量评估模块，用于对数据清洗后的m组评估数据进行质量评估，自动识别质量问题。

对数据清洗后的m组评估数据进行质量评估的方法包括：

将m组评估数据中身份证号码发送至查询服务器中，查询服务器包括社保查询服务器、户籍查询服务器和运营商查询服务器，运营商查询服务器例如联通查询服务器、电信查询服务器、移动查询服务器；其中，社保查询服务器根据身份证号码进行查询，生成对应的姓名和缴存单位，并进行反馈；户籍查询服务器根据身份证号码进行查询，生成对应的地址，并进行反馈；运营商查询服务器根据身份证号码进行查询，生成对应的电话号码，并进行反馈。

对反馈获取的姓名、缴存单位、地址和电话号码，分别采用哈希函数计算对应的哈希值，并标记为对比哈希值；再对m组评估数据中的缴存单位采用哈希函数计算对应的哈希值，也标记为个人哈希值。

将一个身份证号码对应的对比哈希值构建一个分析集合；将一个身份证号码对应的个人哈希值构建一个评估集合；将姓名、缴存单位、地址和电话号码标记为分析数据；将对应身份证号码相同的分析集合和评估集合进行对比，将分析集合中的每个对比哈希值与评估集合中对应的个人哈希值进行对比，即进行对比的对比哈希值和个人哈希值所对应的分析数据相同，例如均对应于姓名、缴存单位等。

若对比哈希值与对应的个人哈希值相同，则不将对比哈希值和个人哈希值所对应的分析数据标记为问题数据，说明对应的数据不存在质量问题。

若对比哈希值与对应的个人哈希值不同，则将对比哈希值和个人哈希值所对应的分析数据标记为问题数据，说明对应的分析数据存在质量问题，公积金系统中存储的分析数据出现错误，需要进行更改。

若一个分析集合中每个对比哈希值对应的分析数据均被标记为问题数据，则将对应分析集合标记为问题集合，将问题集合对应的身份证号码标记为问题数据；再将问题集合对应的电话号码发送至运营商查询服务器，运营商查询服务器根据电话号码进行查询，生成对应的姓名并进行反馈；将反馈的姓名采用哈希函数计算对应的哈希值，并标记为二次对比哈希值；将问题集合对应的姓名标记为对比姓名，将对比姓名对应的对比哈希值和二次对比哈希值进行对比；若对比哈希值与二次对比哈希值一致，则不将问题集合对应的电话号码和姓名标记为问题数据；若对比哈希值与二次对比哈希值不一致，则仍将问题集合对应的电话号码和姓名标记为问题数据。

需要说明的是，根据电话号码查询姓名的目的在于，虽然问题集合所对应的分析数据均被标记为问题数据，但可能是由于身份证号码错误所导致，因此根据电话号码查询姓名，能够判断出电话号码是否与姓名相对应，若电话号码与姓名相对应，说明电话号码与姓名被标记为问题数据的原因在于身份证号码错误，因此无需将电话号码与姓名标记为问题数据。

预警指令包括高级预警指令和低级预警指令；其中高级预警指令包括一级高级预警指令和二级高级预警指令。

若一组评估数据中存在身份证号码或姓名被标记为问题数据或删除，则生成关键错误指令；说明评估数据中存在关键的数据发生错误。

若一组评估数据中存在身份证号码和姓名同时被标记为问题数据或删除，则生成多关键错误指令；说明评估数据中所有关键的数据发生错误。

若一组评估数据中存在交易记录、电话号码或地址被标记为问题数据或删除，则生成一般错误指令，说明评估数据中存在非关键的数据发生错误。

若一组评估数据中交易记录、电话号码或地址均被标记为问题数据或删除，则生成多一般错误指令，说明评估数据中所有非关键的数据均发生错误；

若一组评估数据中生成多关键错误指令，则生成二级高级预警指令，说明该组评估数据中所有关键的数据均发生错误，进行修改的优先程度最高。

若一组评估数据中未生成多关键错误指令，但生成了关键错误指令，则生成一级高级预警指令，说明该组评估数据中存在关键的数据发生错误，但不为所有关键的数据均发生错误，进行修改的优先程度较高。

若一组评估数据中未生成多关键错误指令和关键错误指令，但生成了多一般错误指令，则生成一级高级预警指令，说明该组评估数据中所有非关键的数据均发生错误，进行修改的优先程度同样较高。

若一组评估数据中未生成多关键错误指令、关键错误指令和多一般错误指令，但生成了一般错误指令，则生成低级预警指令，说明该组评估数据中存在非关键的数据发生错误，进行修改的优先程度较低。

将生成的预警指令通过邮件、短信等方式发送至相关业务人员，使得相关业务人员能够及时有效的根据预警指令对评估数据进行修改处理。

本实施例能够对公积金数据进行清洗和质量评估，根据质量问题自动生成不同级别的预警指令，并通过电子方式发送给相关人员；通过多种数据验证手段全面检查问题数据，实现公积金数据质量管理工作的自动化与高效处理，大幅提升了公积金数据整体质量水平，减轻人工审核负担，从而提高业务决策的科学性与准确性。

实施例2

请参阅图2所示，本实施例在实施例1的基础上进一步改进设计，由于个人信息中的姓名存在重复的可能，即多个人的姓名一致，实施例1中在删除重复数据时，会将m组评估数据中重复但是未存在质量问题的姓名删除；因此本实施例提供了公积金数据质量评估与分级预警系统，还包括数据分析模块。

数据分析模块，用于对个人哈希值相同的名字所对应的评估数据进行分析，判断是否标记为重复数据。

将个人哈希值相同的名字所对应的评估数据标记为相同数据。

若b组相同数据中的身份证号码均被标记为重复数据，则将b组相同数据中的姓名也标记为重复数据，b为大于1的整数；说明b组相同数据均表示为一个公积金账户。

若b组相同数据中存在未被标记为重复数据的身份证号码，则将每组相同数据对应的个人哈希值作为一组测试集合，即测试集合与相同数据一一对应；并将未被标记为重复数据的身份证号码所对应的相同数据标记为不同数据；依次对相同数据对应的测试集合和不同数据对应的测试集合递增设置数字标签，将测试集合对应的数字标签标记为测试标签，测试标签的范围为[1,b′]，b′＝b。

将相同数据对应的测试标签和一组不同数据对应的测试标签作为一组总测试集合；将每组总测试集合依次输入训练好的概率预测模型，预测出对应的重复概率。

概率预测模型的具体训练过程包括：

预先收集b组总测试集合对应的重复概率，将总测试集合与对应的重复概率转换为对应的一组特征向量。

将每组特征向量作为概率分析模型的输入，所述概率分析模型以每组总测试集合对应的一组重复概率作为输出，以每组总测试集合对应的实际重复概率作为预测目标，实际重复概率即为预先收集的与总测试集合对应的重复概率；以最小化所有总测试集合的预测误差之和作为训练目标；其中，预测误差的计算公式为Z_k＝(α_k-μ_k)²，其中Zk为预测误差，k为总测试集合对应特征向量的组号，αk为第k组总测试集合对应的重复概率，μk为第k组总测试集合对应的实际重复概率；对概率分析模型进行训练，直至预测误差之和达到收敛时停止训练。

上述概率分析模型具体为深度神经网络模型，其中包括输入层、隐藏层和输出层；每个隐藏层中包括多个神经元，每个神经元与下一层神经元之间都有连接，连接中包含权重，决定数据在神经网络中传递的重要性和影响；在隐藏层和输出层之间的每个神经元都应用激活函数，激活函数映入非线性，允许网络学习更复杂的模式和特征。

需要说明的是，总测试集合对应的重复概率由本领域技术人员在历史公积金数据质量评估过程中，收集b组不同的总测试集合，在每组总测试集合的条件下，结合实际经验分别分析出对应的重复概率。

预设概率阈值P_T，概率阈值P_T由本领域技术人员在历史公积金数据质量评估过程中，收集c组不同的总测试集合，其中每组总测试集合中不同数据中的姓名均与相同数据中的姓名一致，但不存在质量问题；依次将c组不同的总测试集合输入概率分析模型，获取对应的重复概率，将c个重复概率的均值作为概率阈值P_T。

将重复概率P_C与概率阈值P_T进行对比。

若P_C≤P_T，则不将不同数据中的姓名标记为重复数据，将相同数据中的姓名标记为重复数据；说明不同数据中的姓名虽然与相同数据中的姓名一致，但不同数据中的姓名并未存在质量问题。

若P_C＞P_T，则将不同数据中的姓名和相同数据中的姓名均标记为重复数据；说明不同数据中的姓名存在质量问题，需要被删除。

本实施例通过对个人哈希值相同的姓名所对应的评估数据进行分析，利用概率预测模型预测重复概率，对判断结果进行定量分析，更加准确判断是否将姓名标记为重复数据；能够更好协调重复数据识别和正常数据保留之间的关系，使得数据清洗工作兼顾重复数据清除和信息损耗最小化，有效提升了公积金数据清洗的效率和水平，从而提升公积金数据评估的准确性。

实施例3

请参阅图3所示，本实施例未详细叙述部分见实施例1和实施例2描述内容，提供公积金数据质量评估与分级预警方法，方法包括：

从公积金系统中收集m组评估数据，m为大于1的整数。

对m组评估数据进行数据清洗。

对数据清洗后的m组评估数据进行质量评估，自动识别质量问题。

具体地，所述评估数据至少包括个人信息、交易记录和余额记录。

所述个人信息包括公积金账户持有人的姓名、身份证号码、电话号码和地址。

所述交易记录包括缴存记录和提取记录。

所述缴存记录包括单次缴存金额、单次缴存日期和缴存单位。

所述提取记录包括单次提取金额和单次提取日期。

所述余额记录为公积金账户中的余额信息。

一组评估数据对应于公积金系统中的一个公积金账户。

具体地，所述对m组评估数据进行数据清洗的步骤包括：

步骤1：删除m组评估数据中的重复数据。

步骤2：删除m组评估数据中的不合理数据。

进一步地，所述删除m组评估数据中的重复数据的方法包括：

对m组评估数据内每组个人信息中的每个数据，均采用哈希函数计算对应的哈希值，并标记为个人哈希值；将每个个人哈希值进行对比，判断是否存在相同的个人哈希值；若存在相同的个人哈希值，则将个人哈希值相同的数据标记为重复数据，保留个人哈希值相同的n个重复数据中的一个重复数据，将其余n-1个重复数据从m组评估数据中删除，n为大于1的整数。

具体地，所述删除m组评估数据中的不合理数据的步骤包括：

对m组评估数据内每组个人信息中的身份证号码和电话号码，均采用字符串函数获取对应的字符串长度，将身份证号码对应的字符串长度标记为身份证长度，将电话号码对应的字符串长度标记为电话长度；预设身份证长度阈值和电话长度阈值，将每个身份证长度和身份证长度阈值进行对比，若身份证长度与身份证长度阈值不一致，则将对应身份证号码标记为不合理数据；若身份证长度和身份证长度阈值一致，则不将对应身份证号码标记为不合理数据；将每个电话长度和电话长度阈值进行对比，若电话长度和电话长度阈值不一致，则将对应电话号码标记为不合理数据；若电话长度和电话长度阈值一致，则不将对应电话号码标记为不合理数据。

日期分析模型的训练过程包括：

预先对a个日期数据设置对应的判断结果，a为大于1的整数，判断结果包括日期合理和日期不合理，对日期合理和日期不合理均设置不同的数字标签。

将每组特征向量作为日期分析模型的输入，所述日期分析模型以每组日期数据对应的一组预测判断标签作为输出，以每组日期数据对应的实际判断标签作为预测目标，实际判断标签即为上述预先设置的与日期数据对应的判断结果的数字标签；以最小化所有日期数据的预测误差之和作为训练目标；对日期分析模型进行训练，直至预测误差之和达到收敛时停止训练；所述日期分析模型为深度神经网络模型。

步骤204：将不合理数据从m组评估数据中删除。

具体地，对数据清洗后的m组评估数据进行质量评估的方法包括：

将m组评估数据中身份证号码发送至查询服务器中，查询服务器包括社保查询服务器、户籍查询服务器和运营商查询服务器；其中，社保查询服务器根据身份证号码进行查询，生成对应的姓名和缴存单位，并进行反馈；户籍查询服务器根据身份证号码进行查询，生成对应的地址，并进行反馈；运营商查询服务器根据身份证号码进行查询，生成对应的电话号码，并进行反馈。

将一个身份证号码对应的对比哈希值构建一个分析集合；将一个身份证号码对应的个人哈希值构建一个评估集合；将姓名、缴存单位、地址和电话号码标记为分析数据；将对应身份证号码相同的分析集合和评估集合进行对比，将分析集合中的每个对比哈希值与评估集合中对应的个人哈希值进行对比。

若对比哈希值与对应的个人哈希值相同，则不将对比哈希值和个人哈希值所对应的分析数据标记为问题数据。

若对比哈希值与对应的个人哈希值不同，则将对比哈希值和个人哈希值所对应的分析数据标记为问题数据。

具体地，所述预警指令包括高级预警指令和低级预警指令；所述高级预警指令包括一级高级预警指令和二级高级预警指令。

具体地，所述对进行数据清洗的评估数据生成对应的预警指令的方法包括：

若一组评估数据中存在身份证号码或姓名被标记为问题数据或删除，则生成关键错误指令。

若一组评估数据中存在身份证号码和姓名同时被标记为问题数据或删除，则生成多关键错误指令。

若一组评估数据中存在交易记录、电话号码或地址被标记为问题数据或删除，则生成一般错误指令。

若一组评估数据中交易记录、电话号码或地址均被标记为问题数据或删除，则生成多一般错误指令。

若一组评估数据中生成多关键错误指令，则生成二级高级预警指令。

若一组评估数据中未生成多关键错误指令，但生成了关键错误指令，则生成一级高级预警指令。

若一组评估数据中未生成多关键错误指令和关键错误指令，但生成了多一般错误指令，则生成一级高级预警指令。

具体地，对个人哈希值相同的名字所对应的评估数据进行分析，判断是否标记为重复数据。

若b组相同数据中的身份证号码均被标记为重复数据，则将b组相同数据中的姓名也标记为重复数据，b为大于1的整数。

概率预测模型的训练过程包括：

将每组特征向量作为概率分析模型的输入，所述概率分析模型以每组总测试集合对应的一组重复概率作为输出，以每组总测试集合对应的实际重复概率作为预测目标，实际重复概率即为预先收集的与总测试集合对应的重复概率；以最小化所有总测试集合的预测误差之和作为训练目标；对概率分析模型进行训练，直至预测误差之和达到收敛时停止训练；所述概率分析模型为深度神经网络模型。

预设概率阈值P_T。

将重复概率P_C与概率阈值P_T进行对比。

若P_C≤P_T，则不将不同数据中的姓名标记为重复数据，将相同数据中的姓名标记为重复数据。

实施例4

请参阅图4所示，根据本申请的又一方面还提供了电子设备500。该电子设备500可包括一个或多个处理器以及一个或多个存储器。其中，存储器中存储有计算机可读代码，计算机可读代码当由一个或多个处理器运行时，可以执行如上所述的公积金数据质量评估与分级预警方法。

根据本申请实施方式的方法或系统也可以借助于图4所示的电子设备的架构来实现。如图4所示，电子设备500可包括总线501、一个或多个CPU502、ROM503、RAM504、连接到网络的通信端口505、输入/输出506、硬盘507等。电子设备500中的存储设备，例如ROM503或硬盘507可存储本申请提供的公积金数据质量评估与分级预警方法。进一步地，电子设备500还可包括用户界面508。当然，图4所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图4示出的电子设备中的一个或多个组件。

实施例5

请参阅图5所示，是根据本申请一个实施方式的计算机可读存储介质600。计算机可读存储介质600上存储有计算机可读指令。当计算机可读指令由处理器运行时，可执行参照以上附图描述的根据本申请实施方式的公积金数据质量评估与分级预警方法。存储介质600包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。

另外，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请提供了非暂时性机器可读存储介质，所述非暂时性机器可读存储介质存储有机器可读指令，所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令，例如：公积金数据质量评估与分级预警方法。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.公积金数据质量评估与分级预警方法，其特征在于，包括：

从公积金系统中收集m组评估数据，m为大于1的整数；

所述评估数据至少包括个人信息、交易记录和余额记录；

所述交易记录包括缴存记录和提取记录；

对m组评估数据进行数据清洗；

所述对m组评估数据进行数据清洗的步骤包括：

步骤1：删除m组评估数据中的重复数据；

步骤2：删除m组评估数据中的不合理数据；

所述删除m组评估数据中的重复数据的方法包括：

若一组评估数据内个人信息中的姓名和身份证号码均被删除，则将对应的评估数据从m组评估数据中删除；

对个人哈希值相同的名字所对应的评估数据进行分析，判断是否标记为重复数据；

概率预测模型的训练过程包括：

预设概率阈值P_T；

将重复概率P_C与概率阈值P_T进行对比；

若P_C＞P_T，则将不同数据中的姓名和相同数据中的姓名均标记为重复数据；

对数据清洗后的m组评估数据进行质量评估的方法包括：

若评估数据中的身份证号码被删除，则将对应评估数据中未被删除的姓名、缴存单位、地址和电话号码均标记为问题数据；

2.根据权利要求1所述的公积金数据质量评估与分级预警方法，其特征在于，所述提取记录包括单次提取金额和单次提取日期；

所述余额记录为公积金账户中的余额信息；

一组评估数据对应于公积金系统中的一个公积金账户。

3.根据权利要求2所述的公积金数据质量评估与分级预警方法，其特征在于，所述删除m组评估数据中的不合理数据的步骤包括：

日期分析模型的训练过程包括：

步骤204：将不合理数据从m组评估数据中删除。

4.根据权利要求3所述的公积金数据质量评估与分级预警方法，其特征在于，所述预警指令包括高级预警指令和低级预警指令；所述高级预警指令包括一级高级预警指令和二级高级预警指令。

5.根据权利要求4所述的公积金数据质量评估与分级预警方法，其特征在于，所述对进行数据清洗的评估数据生成对应的预警指令的方法包括：

6.公积金数据质量评估与分级预警系统，实施权利要求1-5任一项所述的公积金数据质量评估与分级预警方法，其特征在于，包括：

数据预处理模块，用于对m组评估数据进行数据清洗；