[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108985341A - 一种神经网络模型的训练集评估方法及系统 - Google Patents

一种神经网络模型的训练集评估方法及系统 Download PDF

Info

Publication number
CN108985341A
CN108985341A CN201810651734.4A CN201810651734A CN108985341A CN 108985341 A CN108985341 A CN 108985341A CN 201810651734 A CN201810651734 A CN 201810651734A CN 108985341 A CN108985341 A CN 108985341A
Authority
CN
China
Prior art keywords
file
classification
default
training set
suffix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810651734.4A
Other languages
English (en)
Inventor
罗培元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Phicomm Shanghai Co Ltd
Original Assignee
Sichuan Feixun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Feixun Information Technology Co Ltd filed Critical Sichuan Feixun Information Technology Co Ltd
Priority to CN201810651734.4A priority Critical patent/CN108985341A/zh
Publication of CN108985341A publication Critical patent/CN108985341A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种神经网络模型的训练集评估方法及系统,该方法包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。本发明使用与训练集同源的测试集的预测结果对训练集的优劣进行评估,实现有效地定位,得到准确度较高的、量化的评估信息。

Description

一种神经网络模型的训练集评估方法及系统
技术领域
本发明涉及神经网络领域,尤其涉及一种神经网络模型的训练集评估方法及系统。
背景技术
在神经网络的训练和调试过程中,训练集的优劣可以直接影响到神经网络的表现效果,训练集的质量越高,神经网络所表现出的性能越好。
现有技术中不会对应用于神经网络的训练集的优劣进行评估,这是因为通常训练集非常巨大,导致评估工作无法有效地定位和开展,缺乏有效的对训练集的评估方法。
发明内容
本发明的目的是提供一种神经网络模型的训练集评估方法及系统,对训练集的优劣进行有效地评估。
本发明提供的技术方案如下:
一种神经网络模型的训练集评估方法,包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。
在上述技术方案中,通过统计神经网络模型对测试集预测的分类概率对训练集的优劣进行评估,基于与训练集同源的原因,评估信息的准确度较高。且评估信息是自动化完成,可有效地开展、实施。
进一步,所述对测试集进行预处理,得到处理后文件集具体为:对所述测试集中的所有文件进行文件格式的校验和后缀的校验;将校验成功的所有文件作为所述处理后文件集;所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。
在上述技术方案中,对文件的文件格式和后缀进行校验,保证处理后数据集的稳定性。
进一步,所述对测试集中的所有文件进行文件格式的校验和后缀的校验的具体过程为:遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。
在上述技术方案中,尽可能多地保留文件,丰富处理后数据集。
进一步,所述处理后文件集中的每个文件的文件格式符合预设文件格式条件、所述文件的后缀与预设后缀一致,且所述文件对应的分类类别未被所述神经网络模型预测完。
在上述技术方案中,处理后文件集中的文件除了文件格式、后缀正确外,还要其所处的分类类别是没有被预测完的,避免宕机等原因重复预测所有的测试集中的文件,提高了评估效率。
进一步,所述对所述测试集进行预处理,得到处理后文件集之后还包括:按照预设分类类别对所述处理后文件集中的所有文件进行分类排序;所述对处理后文件集中的各文件进行归一化处理具体为:对分类排序后的所述处理后文件集中的各文件进行归一化处理。
在上述技术方案中,在评估过程中,按照每一个分类类别进行预测,方便记录每个分类类别的处理进度。
进一步,所述根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息具体为:根据每个文件的分类概率,按照预设统计类别进行分类统计,得到所述预设统计类别下每个统计类别的比率信息和文件列表信息;将所有统计类别的比率信息和文件列表信息作为对所述训练集进行评估的评估信息。
在上述技术方案中,对评估信息进行量化,有效、准确地评估训练集的优劣。
本发明还提供一种神经网络模型的训练集评估系统,包括:数据分类模块,用于将采集的原始数据按照预设比例分为测试集和训练集;预处理模块,用于对所述测试集进行预处理,得到处理后文件集;归一化处理模块,用于对所述处理后文件集中的各文件进行归一化处理;概率预测模块,用于使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。
在上述技术方案中,通过统计神经网络模型对测试集预测的分类概率对训练集的优劣进行评估,基于与训练集同源的原因,评估信息的准确度较高。且评估信息是自动化完成,可有效地开展、实施。
进一步,所述预处理模块,用于对所述测试集进行预处理,得到处理后文件集具体为:所述预处理模块包括:校验子模块,用于对所述测试集中的所有文件进行文件格式的校验和后缀的校验;文件子模块,用于将校验成功的所有文件作为所述处理后文件集;所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。
进一步,所述校验子模块,用于对所述测试集中的所有文件进行文件格式的校验和后缀的校验具体为:所述校验子模块,用于遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。
进一步,所述处理后文件集中的每个文件的文件格式符合预设文件格式条件、所述文件的后缀与预设后缀一致,且所述文件对应的分类类别未被所述神经网络模型预测完。
进一步,还包括:分类排序模块,用于按照预设分类类别对所述处理后文件集中的所有文件进行分类排序;所述归一化处理模块,用于对所述处理后文件集中的各文件进行归一化处理具体为:所述归一化处理模块,用于对分类排序后的所述处理后文件集中的各文件进行归一化处理。
进一步,所述评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息具体为:所述评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到所述预设统计类别下每个统计类别的比率信息和文件列表信息;以及,将所有统计类别的比率信息和文件列表信息作为对所述训练集进行评估的评估信息。
与现有技术相比,本发明的神经网络模型的训练集评估方法及系统有益效果在于:
本发明使用与训练集同源的测试集的预测结果对训练集的优劣进行评估,实现有效地定位,得到准确度较高的、量化的评估信息。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种神经网络模型的训练集评估方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明神经网络模型的训练集评估方法一个实施例的流程图;
图2是本发明神经网络模型的训练集评估方法另一个实施例的流程图;
图3是本发明神经网络模型的训练集评估方法又一个实施例的流程图;
图4是本发明对测试集中的各文件进行预处理一个实施例的流程图;
图5是本发明神经网络模型的训练集评估系统一个实施例的结构示意图;
图6是本发明神经网络模型的训练集评估系统另一个实施例的结构示意图;
图7是本发明神经网络模型的训练集评估系统又一个实施例的结构示意图。
附图标号说明:
10.数据分类模块,20.预处理模块,21.校验子模块,22.文件子模块,30.归一化处理模块,40.概率预测模块,50.评估模块,60.分类排序模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
在本发明的一个实施例中,如图1所示,一种神经网络模型的训练集评估方法,包括:
S101将采集的原始数据按照预设比例分为测试集和训练集。
具体的,原始数据可以通过各种渠道获取,例如:爬虫系统,人工搜集等,只要是神经网络模型需要的数据即可。将原始数据划分为两部分,训练集是为了训练神经网络模型,因训练集和测试集的源头相同,测试集就可以很好地反映训练集的数据优劣。
预设比例是工程师根据需求自行设置,不作限定。例如:90%的原始数据作为训练集,10%的原始数据作为测试集;也可以80%的原始数据作为训练集,20%的原始数据作为测试集。
S102对测试集进行预处理,得到处理后文件集。
具体的,对测试集进行预处理,主要是为了保证测试集里的文件都有效,保证后续流程的稳健性,提高评估过程的效率。
S103对处理后文件集中的各文件进行归一化处理。
具体的,每个神经网络模型对其的输入量都有一定的要求,处理后文件集中的各文件可能并不能满足这个要求,因此,对它们统一按照神经网络模型的要求进行归一化处理,保证输入到神经网络模型时可以正确运行。
S104使用根据训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率。
具体的,先由上述分出来的训练集去训练神经网络模型,然后再将归一化的测试集中的文件输入训练好的神经网络模型进行预测,预测出来的结果(例如:准不准)就可以反映训练集的优劣。
本实施例的神经网络模型是给相应的文件分类,当一个文件输入到训练好的神经网络模型时,会给出这个文件分到哪几类的概率是多少。例如:一共有10类,一个文件输入,给出的预测出这个文件所属类别的百分比在前5名的分类概率为:A类90%,B类80%,C类78%,D类70%,E类67%。
优选地,归一化处理和预测分类概率可以并行化处理,提高处理速度。
实际使用的例子如下:以测试集中的各文件为图片为例,初始化创建tensorflow会话,使用占位符技术,首先定义会话计算方法,暂时不执行。定义了两个会话。第一个会话是对图像进行大小缩放和图像归一化,大小缩放采用线性插值的方法。第二个会话是卷积神经网络的前向传导,此步直接预测得到测试集当前图片的分类概率。在定义完会话之后,直接启动会话,并行化的处理。这种处理方式,避免了会话的重复定义,并行化的处理,也有效提升了处理速度。
S105根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息。
具体的,预设统计类别根据想要的统计结果由人为自行设置。例如:预设统计类别有4类,1)TOP1数据:预测得到的分类概率是第一名并且是正确分类;2)TOP5数据:正确分类在预测得到的分类概率排名的前五中;3)非TOP5数据:正确分类没有出现在预测分类概率前五中(即预测错误);4)TOP1高置信度:预测得到分类概率第一名是正确分类,并且得到的概率评分分值高于0.7,就是高置信度的TOP1数据类(即预测正确,并鲁棒性高)。为这4个类别分别建立文件夹,假设测试集里有1万个文件,根据每个文件分类概率分到这4个统计类别下的文件夹里,有的文件可能会被同时分到多个文件夹中,例如:文件1分类正确,其分类概率为:A类90%,B类80%,C类78%,D类70%,E类67%,那它会被分到TOP1数据、TOP5数据和TOP1高置信度这3个文件夹中。
不同文件夹下的文件直观、清楚地反映了训练集的优劣情况。例如:TOP1高置信度文件夹下的文件越多,说明训练集越好。
可选地,根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息具体为:
根据每个文件的分类概率,按照预设统计类别进行分类统计,得到预设统计类别下每个统计类别的比率信息和文件列表信息;
将所有统计类别的比率信息和文件列表信息作为对训练集进行评估的评估信息。
具体的,除了将相应的文件分到对应统计类别的文件夹下,还计算每个类别的比率信息。
例如:总共1000个文件,1)TOP1数据:分到500个文件,比率为0.5;2)TOP5数据:分到750个文件,比率为0.75;3)非TOP5数据:分到250,比率为0.25;4)TOP1高置信度:分到200个文件,比率为0.2。这些数据反映了神经网络模型使用的训练集的优劣,非TOP5数据的比率越低、TOP1高置信度的比率越高则说明训练集越好。需要注意的是,不同的评估标准,可以设置不同的预设统计类别,得到不同的评估信息。
优选地,S102对测试集进行预处理,得到处理后文件集之后还包括:按照预设分类类别对处理后文件集中的所有文件进行分类排序;
S103对处理后文件集中的各文件进行归一化处理具体为:对分类排序后的处理后文件集中的各文件进行归一化处理。
具体的,在对测试集进行预处理后,得到的处理后文件集中各文件是乱序的,即各个分类类别的文件穿插着排列,因此,可以对处理后文件集按照预设分类类别进行分类排序。
分类排序可能采用不同的排序方法,例如:冒泡排序法对文件名进行排序,文件名使用ASCII码的小写字母的Hex码为排序依据。
预设分类类别是根据实际需求设置的,例如:设置为5类(A-E),处理后文件集中有10个文件,文件1和3属于A类,文件4和5属于B类,文件2和9属于C类,文件6和10属于D类,文件7和8属于E类,现在的排序顺序为文件1-10,对其进行分类排序(预设分类类别中可规定排序方法)后为:文件1,文件3,文件4,文件5,文件2,文件9,文件6,文件10,文件7和文件8。
预设分类类别中包括的分类类别和排序方法根据实际需求设置,不作限定。
本实施例中通过统计神经网络模型对测试集预测的分类概率对训练集的优劣进行评估,基于与训练集同源的原因,评估信息的准确度较高。且评估信息是自动化完成,可有效地开展、实施。
在本发明的另一个实施例中,如图2所示,一种神经网络模型的训练集评估方法,包括:
S210将采集的原始数据按照预设比例分为测试集和训练集。
S220对测试集进行预处理,得到处理后文件集。
S230对对处理后文件集中的各文件进行归一化处理。优选地,归一化处理和预测分类概率可以并行化处理,提高处理速度。
S240使用根据训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率。
S250根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息。
其中,S220对测试集进行预处理,得到处理后文件集具体为:
S221对测试集中的所有文件进行文件格式的校验和后缀的校验;
S222将校验成功的所有文件作为处理后文件集;校验成功是指文件的文件格式符合预设文件格式条件、且文件的后缀与预设后缀一致。
具体的,对测试集进行预处理主要是对测试集中各文件的文件格式和后续进行校验。
以测试集中的文件为图片为例:预设文件格式条件为图片文件格式,预设后缀为.jpeg。测试集中有100张图片,有90张图片的文件格式为JPEG文件格式、且其后缀也为.jpeg,则认为这90张图片校验成功,将它们作为处理后文件集,另外10张图片删除。
在其他实施例中,对测试集中的所有文件进行文件格式的校验和后缀的校验的具体过程为:
遍历测试集中的所有文件,将文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。
具体的,只会将文件格式与预设文件格式条件完全不符合的文件删除,而对仅后续不与预设后续一致的文件则通过修改后续的方式,仍然保留。
例如:预设文件格式条件为图片文件格式,预设后缀为.jpeg。文件1为TXT文件,因其文件格式及其内容完全和图片没有关系,因此,将文件1直接丢弃。文件2是后缀为BMP的图片,则文件2符合预设文件格式条件,仅后缀不符合预设后缀,将BMP修改为.jpeg后,将其加入到处理后文件集。
优选地,预处理采用线程池技术,对测试集的处理进行了整体的加速,即使测试集非常巨大,其处理速度加速效果也非常明显。另外,也可以对训练集采用线程池技术进行预处理,提高训练集中各文件的稳定性。
可选地,S250根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息具体为:
S251根据每个文件的分类概率,按照预设统计类别进行分类统计,得到预设统计类别下每个统计类别的比率信息和文件列表信息;
S252将所有统计类别的比率信息和文件列表信息作为对训练集进行评估的评估信息。
具体的,除了将相应的文件分到对应统计类别的文件夹下,还计算每个类别的比率信息。需要注意的是,不同的评估标准,可以设置不同的预设统计类别,得到不同的评估信息。
优选地,S220对测试集进行预处理,得到处理后文件集之后还包括:按照预设分类类别对处理后文件集中的所有文件进行分类排序。
S230对处理后文件集中的各文件进行归一化处理具体为:对分类排序后的处理后文件集中的各文件进行归一化处理。
具体的,在对测试集进行预处理后,得到的处理后文件集中各文件是乱序的,即各个分类类别的文件穿插着排列,因此,可以对处理后文件集按照预设分类类别进行分类排序。
分类排序可能采用不同的排序方法,例如:冒泡排序法对文件名进行排序,文件名使用ASCII码的小写字母的Hex码为排序依据。预设分类类别中包括的分类类别和排序方法根据实际需求设置,不作限定。
本实施例中,会先对测试集中的各文件进行文件格式和后缀的校验,得到较稳健的处理后数据集,预处理的过程使整个评估流程避免了因文件出错而处理中断的问题,节约了处理时间,提高评估效率。
在本发明的又一个实施例中,如图3所示,一种神经网络模型的训练集评估方法,包括:
S310将采集的原始数据按照预设比例分为测试集和训练集。
S320对测试集进行预处理,得到处理后文件集。
S330对对处理后文件集中的各文件进行归一化处理。优选地,归一化处理和预测分类概率可以并行化处理,提高处理速度。
S340使用根据训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率。
S350根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息。
其中,处理后文件集中的每个文件的文件格式符合预设文件格式条件、文件的后缀与预设后缀一致,且文件对应的分类类别未被神经网络模型预测完。
S320对测试集进行预处理,得到处理后文件集之后还包括:S360按照预设分类类别对处理后文件集中的所有文件进行分类排序。
S330对处理后文件集中的各文件进行归一化处理具体为:S331对分类排序后的处理后文件集中的各文件进行归一化处理。
具体的,在对测试集进行预处理后,得到的处理后文件集中各文件是乱序的,即各个分类类别的文件穿插着排列,因此,可以对处理后文件集按照预设分类类别进行分类排序。
分类排序可能采用不同的排序方法,例如:冒泡排序法对文件名进行排序,文件名使用ASCII码的小写字母的Hex码为排序依据。预设分类类别中包括的分类类别和排序方法根据实际需求设置,不作限定。
在评估过程中,按照一个分类类别一个分类类别的顺序进行预测。
在对测试集中的每个文件进行预处理时,除了对文件格式和后缀进行检验外(具体的检验过程和上述第二个方法实施例相同,在此不作赘述),还会以处理进度进一步进行筛选。
主要是因为:在对整个训练集的评估过程中,测试集和训练集的数量十分巨大,需要很长时间,为预防可能存在的程序宕机退出,或者机器意外挂机,导致的数据丢失,数据进度丢失问题,本实施例设计了处理进度恢复机制。测试集的评估过程,是按照每一个分类类别来进行处理和记录,本机制将流程细化到每一个分类类别,每次处理完后一个分类类别的所有文件时以追加的形式定向到文件系统的记录文件,在因意外重新启动时,检查该记录文件,若发现该类已经处理则,直接跳过进行下一个分类类别的评估。
因此,在对测试集中的各文件进行预处理时,还会对处理进度进行校验。
如图4所示,对测试集中的各文件进行预处理的例子如下:
1、对测试集中的所有文件进行文件格式的校验和后缀的校验,得到校验成功的文件;
2、获取进度文件;
3、判断校验成功的每个文件所处的分类类别是否在进度文件中,若在,则执行5,若不在,则执行4;
4、将不在进度文件中的文件加入处理后文件集;
5、将在进度文件中的文件丢弃。
当然,也可以单独针对没有一次性运行完处理后文件集的情况对处理进度进行校验。
例如:当使用根据训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率的过程中重启时,获取进度文件和未重启前的处理后文件集;判断未重启前的处理后文件集中的每个文件所处的分类类别是否在进度文件中,若在,则加入当前的处理后文件集,若不在,则丢弃。然后对当前的处理后文件集进行归一化处理、预测,结合未宕机前和现在得到的带个测试集中的文件对应的分类概率,得到评估信息。
总的来说,处理后文件集中的文件除了文件格式、后缀正确外,还要其所处的分类类别是没有被预测完的,避免宕机等原因重复预测所有的测试集中的文件,提高了评估效率。
可选地,S350根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息具体为:
S351根据每个文件的分类概率,按照预设统计类别进行分类统计,得到预设统计类别下每个统计类别的比率信息和文件列表信息;
S352将所有统计类别的比率信息和文件列表信息作为对训练集进行评估的评估信息。
具体的,除了将相应的文件分到对应统计类别的文件夹下,还计算每个类别的比率信息。需要注意的是,不同的评估标准,可以设置不同的预设统计类别,得到不同的评估信息。
本实施例中对处理后文件集中的各文件进一步作了限定,出现意外时,神经网络模型不用重新预测测试集中的所有文件,提高了评估效率。
在本发明的一个实施例中,如图5所示,一种神经网络模型的训练集评估系统,包括:
数据分类模块10,用于将采集的原始数据按照预设比例分为测试集和训练集。
具体的,原始数据可以通过各种渠道获取,例如:爬虫系统,人工搜集等,只要是神经网络模型需要的数据即可。将原始数据划分为两部分,训练集是为了训练神经网络模型,因训练集和测试集的源头相同,测试集就可以很好地反映训练集的数据优劣。
预设比例是工程师根据需求自行设置,不作限定。例如:90%的原始数据作为训练集,10%的原始数据作为测试集;也可以80%的原始数据作为训练集,20%的原始数据作为测试集。
预处理模块20,与数据分类模块10电连接,用于对测试集进行预处理,得到处理后文件集。
具体的,对测试集进行预处理,主要是为了保证测试集里的文件都有效,保证后续流程的稳健性,提高评估过程的效率。
归一化处理模块30,与预处理模块20电连接,用于对处理后文件集中的各文件进行归一化处理。
具体的,每个神经网络模型对其的输入量都有一定的要求,处理后文件集中的各文件可能并不能满足这个要求,因此,对它们统一按照神经网络模型的要求进行归一化处理,保证输入到神经网络模型时可以正确运行。
概率预测模块40,与归一化处理模块30电连接,用于使用根据训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率。
具体的,先由上述分出来的训练集去训练神经网络模型,然后再将归一化的测试集中的文件输入训练好的神经网络模型进行预测,预测出来的结果(例如:准不准)就可以反映训练集的优劣。
本实施例的神经网络模型是给相应的文件分类,当一个文件输入到训练好的神经网络模型时,会给出这个文件分到哪几类的概率是多少。例如:一共有10类,一个文件输入,给出的预测出这个文件所属类别的百分比在前5名的分类概率为:A类90%,B类80%,C类78%,D类70%,E类67%。
优选地,归一化处理和预测分类概率可以并行化处理,提高处理速度。
实际使用的例子如下:以测试集中的各文件为图片为例,初始化创建tensorflow会话,使用占位符技术,首先定义会话计算方法,暂时不执行。定义了两个会话。第一个会话是对图像进行大小缩放和图像归一化,大小缩放采用线性插值的方法。第二个会话是卷积神经网络的前向传导,此步直接预测得到测试集当前图片的分类概率。在定义完会话之后,直接启动会话,并行化的处理。这种处理方式,避免了会话的重复定义,并行化的处理,也有效提升了处理速度。
评估模块50,与概率预测模块40电连接,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息。
具体的,预设统计类别根据想要的统计结果由人为自行设置。例如:预设统计类别有4类,1)TOP1数据:预测得到的分类概率是第一名并且是正确分类;2)TOP5数据:正确分类在预测得到的分类概率排名的前五中;3)非TOP5数据:正确分类没有出现在预测分类概率前五中(即预测错误);4)TOP1高置信度:预测得到分类概率第一名是正确分类,并且得到的概率评分分值高于0.7,就是高置信度的TOP1数据类(即预测正确,并鲁棒性高)。具体的例子请参见对应的方法实施例。
不同文件夹下的文件直观、清楚地反映了训练集的优劣情况。例如:TOP1高置信度文件夹下的文件越多,说明训练集越好。
可选地,评估模块50,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息具体为:
评估模块50,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到预设统计类别下每个统计类别的比率信息和文件列表信息;以及,将所有统计类别的比率信息和文件列表信息作为对训练集进行评估的评估信息。
具体的,除了将相应的文件分到对应统计类别的文件夹下,还计算每个类别的比率信息。需要注意的是,不同的评估标准,可以设置不同的预设统计类别,得到不同的评估信息。具体的例子请参见对应的方法实施例,在此不作赘述。
优选地,还包括:分类排序模块,用于按照预设分类类别对处理后文件集中的所有文件进行分类排序;
归一化处理模块,用于对处理后文件集中的各文件进行归一化处理具体为:归一化处理模块,用于对分类排序后的处理后文件集中的各文件进行归一化处理。
具体的,在对测试集进行预处理后,得到的处理后文件集中各文件是乱序的,即各个分类类别的文件穿插着排列,因此,可以对处理后文件集按照预设分类类别进行分类排序。
分类排序可能采用不同的排序方法,例如:冒泡排序法对文件名进行排序,文件名使用ASCII码的小写字母的Hex码为排序依据。预设分类类别中包括的分类类别和排序方法根据实际需求设置,不作限定。
本实施例中通过统计神经网络模型对测试集预测的分类概率对训练集的优劣进行评估,基于与训练集同源的原因,评估信息的准确度较高。且评估信息是自动化完成,可有效地开展、实施。
在本发明的另一个实施例中,如图6所示,一种神经网络模型的训练集评估系统,包括:
数据分类模块10,用于将采集的原始数据按照预设比例分为测试集和训练集。
预处理模块20,与数据分类模块10电连接,用于对测试集进行预处理,得到处理后文件集。
归一化处理模块30,与预处理模块20电连接,用于对处理后文件集中的各文件进行归一化处理。
概率预测模块40,与归一化处理模块30电连接,用于使用根据训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率。优选地,归一化处理和预测分类概率可以并行化处理,提高处理速度。
评估模块50,与概率预测模块40电连接,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息。
其中,预处理模块20,用于对测试集进行预处理,得到处理后文件集具体为:
预处理模块20包括:校验子模块21,用于对测试集中的所有文件进行文件格式的校验和后缀的校验;
文件子模块22,用于将校验成功的所有文件作为处理后文件集;校验成功是指文件的文件格式符合预设文件格式条件、且文件的后缀与预设后缀一致。
具体的,对测试集进行预处理主要是对测试集中各文件的文件格式和后续进行校验。
以测试集中的文件为图片为例:预设文件格式条件为图片文件格式,预设后缀为.jpeg。测试集中有100张图片,有90张图片的文件格式为JPEG文件格式、且其后缀也为.jpeg,则认为这90张图片校验成功,将它们作为处理后文件集,另外10张图片删除。
在其他实施例中,校验子模块21,用于对测试集中的所有文件进行文件格式的校验和后缀的校验具体为:
校验子模块21,用于遍历测试集中的所有文件,将文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。
具体的,只会将文件格式与预设文件格式条件完全不符合的文件删除,而对仅后续不与预设后续一致的文件则通过修改后续的方式,仍然保留。具体的例子请参见对应的方法实施例,在此不作赘述。
优选地,预处理采用线程池技术,对测试集的处理进行了整体的加速,即使测试集非常巨大,其处理速度加速效果也非常明显。另外,也可以对训练集采用线程池技术进行预处理,提高训练集中各文件的稳定性。
可选地,还包括:分类排序模块,用于按照预设分类类别对处理后文件集中的所有文件进行分类排序;
归一化处理模块,用于对处理后文件集中的各文件进行归一化处理具体为:
归一化处理模块,用于对分类排序后的处理后文件集中的各文件进行归一化处理。
具体的,在对测试集进行预处理后,得到的处理后文件集中各文件是乱序的,即各个分类类别的文件穿插着排列,因此,可以对处理后文件集按照预设分类类别进行分类排序。
分类排序可能采用不同的排序方法,例如:冒泡排序法对文件名进行排序,文件名使用ASCII码的小写字母的Hex码为排序依据。预设分类类别中包括的分类类别和排序方法根据实际需求设置,不作限定。
可选地,评估模块50,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息具体为:
评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到预设统计类别下每个统计类别的比率信息和文件列表信息;以及,将所有统计类别的比率信息和文件列表信息作为对训练集进行评估的评估信息。
具体的,除了将相应的文件分到对应统计类别的文件夹下,还计算每个类别的比率信息。需要注意的是,不同的评估标准,可以设置不同的预设统计类别,得到不同的评估信息。
本实施例中,会先对测试集中的各文件进行文件格式和后缀的校验,得到较稳健的处理后数据集,预处理的过程使整个评估流程避免了因文件出错而处理中断的问题,节约了处理时间,提高评估效率。
在本发明的又一个实施例中,如图7所示,一种神经网络模型的训练集评估系统,包括:
数据分类模块10,用于将采集的原始数据按照预设比例分为测试集和训练集。
预处理模块20,与数据分类模块10电连接,用于对测试集进行预处理,得到处理后文件集。
分类排序模块60,与预处理模块20电连接,用于按照预设分类类别对处理后文件集中的所有文件进行分类排序。
归一化处理模块30,与分类排序模块60电连接,用于对处理后文件集中的各文件进行归一化处理具体为:归一化处理模块,用于对分类排序后的处理后文件集中的各文件进行归一化处理。
概率预测模块40,与归一化处理模块30电连接,用于使用根据训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率。优选地,归一化处理和预测分类概率可以并行化处理,提高处理速度。
评估模块50,与概率预测模块40电连接,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息。
其中,处理后文件集中的每个文件的文件格式符合预设文件格式条件、文件的后缀与预设后缀一致,且文件对应的分类类别未被神经网络模型预测完。
具体的,在对测试集进行预处理后,得到的处理后文件集中各文件是乱序的,即各个分类类别的文件穿插着排列,因此,可以对处理后文件集按照预设分类类别进行分类排序。
分类排序可能采用不同的排序方法,例如:冒泡排序法对文件名进行排序,文件名使用ASCII码的小写字母的Hex码为排序依据。预设分类类别中包括的分类类别和排序方法根据实际需求设置,不作限定。
在评估过程中,按照每一个分类类别进行预测。
在对测试集中的每个文件进行预处理时,除了对文件格式和后缀进行检验外(具体的检验过程和上述第二个系统实施例相同,在此不作赘述),还会以处理进度进一步进行筛选。
主要是因为:在对整个训练集的评估过程中,测试集和训练集的数量十分巨大,需要很长时间,为预防可能存在的程序宕机退出,或者机器意外挂机,导致的数据丢失,数据进度丢失问题,本实施例设计了处理进度恢复机制。测试集的评估过程,是按照每一个分类类别来进行处理和记录,本机制将流程细化到每一个分类类别,每次处理完后一个分类类别的所有文件时以追加的形式定向到文件系统的记录文件,在因意外重新启动时,检查该记录文件,若发现该类已经处理则,直接跳过进行下一个分类类别的评估。
因此,在对测试集中的各文件进行预处理时,还会对处理进度进行校验。具体的例子请参见对应的方法实施例,在此不作赘述。
总的来说,处理后文件集中的文件除了文件格式、后缀正确外,还要其所处的分类类别是没有被预测完的,避免宕机等原因重复预测所有的测试集中的文件,提高了评估效率。
可选地,评估模块50,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对训练集进行评估的评估信息具体为:
评估模块50,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到预设统计类别下每个统计类别的比率信息和文件列表信息;以及,将所有统计类别的比率信息和文件列表信息作为对训练集进行评估的评估信息。
具体的,除了将相应的文件分到对应统计类别的文件夹下,还计算每个类别的比率信息。需要注意的是,不同的评估标准,可以设置不同的预设统计类别,得到不同的评估信息。
本实施例中对处理后文件中的各文件进一步作了限定,出现意外时,神经网络模型不用重新预测测试集中的所有文件,提高了评估效率。
本发明使用与训练集同源的测试集的预测结果对训练集的优劣进行评估,实现有效地定位,得到准确度较高的、量化的评估信息。在对测试集进行预处理时,对文件进行不同方面的校验,保证了处理后文件集的稳定性,且采用线程池技术对预处理实现整体加速。
应当说明的是,上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种神经网络模型的训练集评估方法,其特征在于,包括:
将采集的原始数据按照预设比例分为测试集和训练集;
对所述测试集进行预处理,得到处理后文件集;
对所述处理后文件集中的各文件进行归一化处理;
使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;
根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。
2.如权利要求1所述的神经网络模型的训练集评估方法,其特征在于,所述对测试集进行预处理,得到处理后文件集具体为:
对所述测试集中的所有文件进行文件格式的校验和后缀的校验;
将校验成功的所有文件作为所述处理后文件集;
所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。
3.如权利要求2所述的神经网络模型的训练集评估方法,其特征在于,所述对测试集中的所有文件进行文件格式的校验和后缀的校验的具体过程为:
遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。
4.如权利要求1所述的神经网络模型的训练集评估方法,其特征在于:
所述处理后文件集中的每个文件的文件格式符合预设文件格式条件、所述文件的后缀与预设后缀一致,且所述文件对应的分类类别未被所述神经网络模型预测完。
5.如权利要求1-4任意一项所述的神经网络模型的训练集评估方法,其特征在于:
所述对所述测试集进行预处理,得到处理后文件集之后还包括:
按照预设分类类别对所述处理后文件集中的所有文件进行分类排序;
所述对处理后文件集中的各文件进行归一化处理具体为:
对分类排序后的所述处理后文件集中的各文件进行归一化处理。
6.如权利要求1-4任意一项所述的神经网络模型的训练集评估方法,其特征在于,所述根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息具体为:
根据每个文件的分类概率,按照预设统计类别进行分类统计,得到所述预设统计类别下每个统计类别的比率信息和文件列表信息;
将所有统计类别的比率信息和文件列表信息作为对所述训练集进行评估的评估信息。
7.一种神经网络模型的训练集评估系统,其特征在于,包括:
数据分类模块,用于将采集的原始数据按照预设比例分为测试集和训练集;
预处理模块,用于对所述测试集进行预处理,得到处理后文件集;
归一化处理模块,用于对所述处理后文件集中的各文件进行归一化处理;
概率预测模块,用于使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;
评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。
8.如权利要求7所述的神经网络模型的训练集评估系统,其特征在于,所述预处理模块,用于对所述测试集进行预处理,得到处理后文件集具体为:
所述预处理模块包括:校验子模块,用于对所述测试集中的所有文件进行文件格式的校验和后缀的校验;
文件子模块,用于将校验成功的所有文件作为所述处理后文件集;
所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。
9.如权利要求8所述的神经网络模型的训练集评估系统,其特征在于,所述校验子模块,用于对所述测试集中的所有文件进行文件格式的校验和后缀的校验具体为:
所述校验子模块,用于遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。
10.如权利要求7所述的神经网络模型的训练集评估系统,其特征在于:
所述处理后文件集中的每个文件的文件格式符合预设文件格式条件、所述文件的后缀与预设后缀一致,且所述文件对应的分类类别未被所述神经网络模型预测完。
11.如权利要求7-10任意一项所述的神经网络模型的训练集评估系统,其特征在于,还包括:
分类排序模块,用于按照预设分类类别对所述处理后文件集中的所有文件进行分类排序;
所述归一化处理模块,用于对所述处理后文件集中的各文件进行归一化处理具体为:
所述归一化处理模块,用于对分类排序后的所述处理后文件集中的各文件进行归一化处理。
12.如权利要求7-10任意一项所述的神经网络模型的训练集评估系统,其特征在于,所述评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息具体为:
所述评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到所述预设统计类别下每个统计类别的比率信息和文件列表信息;以及,将所有统计类别的比率信息和文件列表信息作为对所述训练集进行评估的评估信息。
CN201810651734.4A 2018-06-26 2018-06-26 一种神经网络模型的训练集评估方法及系统 Pending CN108985341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810651734.4A CN108985341A (zh) 2018-06-26 2018-06-26 一种神经网络模型的训练集评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810651734.4A CN108985341A (zh) 2018-06-26 2018-06-26 一种神经网络模型的训练集评估方法及系统

Publications (1)

Publication Number Publication Date
CN108985341A true CN108985341A (zh) 2018-12-11

Family

ID=64538101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810651734.4A Pending CN108985341A (zh) 2018-06-26 2018-06-26 一种神经网络模型的训练集评估方法及系统

Country Status (1)

Country Link
CN (1) CN108985341A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729170A (zh) * 2019-01-09 2019-05-07 武汉巨正环保科技有限公司 一种新算法的云计算数据备份和还原方法
CN112798020A (zh) * 2020-12-31 2021-05-14 中汽研(天津)汽车工程研究院有限公司 一种用于评估智能汽车定位精度的系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980857A (zh) * 2017-02-24 2017-07-25 浙江工业大学 一种基于碑帖的毛笔字分割识别方法
CN107633265A (zh) * 2017-09-04 2018-01-26 深圳市华傲数据技术有限公司 用于优化信用评估模型的数据处理方法及装置
CN108197668A (zh) * 2018-01-31 2018-06-22 达闼科技(北京)有限公司 模型数据集的建立方法及云系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980857A (zh) * 2017-02-24 2017-07-25 浙江工业大学 一种基于碑帖的毛笔字分割识别方法
CN107633265A (zh) * 2017-09-04 2018-01-26 深圳市华傲数据技术有限公司 用于优化信用评估模型的数据处理方法及装置
CN108197668A (zh) * 2018-01-31 2018-06-22 达闼科技(北京)有限公司 模型数据集的建立方法及云系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729170A (zh) * 2019-01-09 2019-05-07 武汉巨正环保科技有限公司 一种新算法的云计算数据备份和还原方法
CN112798020A (zh) * 2020-12-31 2021-05-14 中汽研(天津)汽车工程研究院有限公司 一种用于评估智能汽车定位精度的系统及方法

Similar Documents

Publication Publication Date Title
CN108985344A (zh) 一种神经网络模型的训练集优化方法及系统
US9430288B2 (en) Job scheduling based on historical job data
US20150278706A1 (en) Method, Predictive Analytics System, and Computer Program Product for Performing Online and Offline Learning
CN110221953A (zh) 测试结果分析方法、装置、服务器及存储介质
CN110634471A (zh) 一种语音质检方法、装置、电子设备和存储介质
CN107203464B (zh) 业务问题的定位方法以及装置
CN108985341A (zh) 一种神经网络模型的训练集评估方法及系统
CN108829802B (zh) 关联日志回放方法及装置
CN111367782B (zh) 回归测试数据自动生成的方法及装置
CN111243647B (zh) 闪存编程参数确定方法、装置、电子设备及存储介质
CN117290719B (zh) 基于数据分析的巡检管理方法、装置及存储介质
CN116701931B (zh) 一种水质参数反演方法、装置、存储介质及电子设备
CN106502842A (zh) 数据恢复方法及系统
CN110262950A (zh) 基于多项指标的异动检测方法和装置
CN114185938A (zh) 基于数字金融及大数据溯源的项目溯源分析方法及系统
CN103106103B (zh) 请求信息分类方法及装置
CN111061875B (zh) 超参数确定方法、装置、计算机设备和存储介质
CN114443970A (zh) 基于人工智能和大数据的数字化内容推送方法及ai系统
CN111881266B (zh) 一种应答方法及装置
CN112527631A (zh) bug定位方法、系统、电子设备及存储介质
CN113839839B (zh) 一种多线程并发通信的测试方法及系统
Mirzaei et al. Reinforcement learning reward function for test case prioritization in continuous integration
CN111475267B (zh) 系统任务自动调度方法、装置、计算机设备及存储介质
CN112765196B (zh) 数据处理及数据识别方法、装置、电子设备及存储介质
CN112506803B (zh) 大数据测试方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200807

Address after: 201616 Shanghai city Songjiang District Sixian Road No. 3666

Applicant after: Phicomm (Shanghai) Co.,Ltd.

Address before: 610100 125 Longquan Street Park Road, Longquanyi District, Chengdu, Sichuan.

Applicant before: SICHUAN PHICOMM INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181211

WD01 Invention patent application deemed withdrawn after publication