CN109034392A

CN109034392A - 一种罗非鱼杂交配套系的选育方法及系统

Info

Publication number: CN109034392A
Application number: CN201811146505.3A
Authority: CN
Inventors: 肖俊; 罗永巨; 郭忠宝; 杨弘; 于凡; 钟欢; 周毅; 梁军能; 唐瞻杨; 严欣; 雷燕
Original assignee: Guangxi Academy of Fishery Sciences
Current assignee: Guangxi Academy of Fishery Sciences
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2018-12-18

Abstract

本发明属于信息处理技术领域，公开了一种罗非鱼杂交配套系的选育方法及系统,包括：收集罗非鱼杂交配套系的相关数据；处理搜集的相关数据，进行统计分析，建立数据挖掘平台；搭建人机交互系统。本发明通过对采集的罗非鱼的相关信息进行数据分析，建立人机交互系统，推算出罗非鱼杂交配套系的可靠的选育方法，有效的节约了数据信息采集分析的时间，提高了罗非鱼杂交配套系的选育方法的工作效率，保证了选育的优良性与可靠性。

Description

一种罗非鱼杂交配套系的选育方法及系统

技术领域

本发明属于信息处理技术领域，尤其涉及一种罗非鱼杂交配套系的选育方法及系统。

背景技术

目前，我国通过全国水产原种和良种审定委员会审定通过的罗非鱼品种有奥尼罗非鱼、吉富品系尼罗罗非鱼、新吉富罗非鱼、“夏奥1号”奥利亚罗非鱼等。但面对我国庞大的罗非鱼产业，选育良种还远不能满足产业快速发展的需求。如何充分发挥我国尼罗罗非鱼引进资源群体多、遗传背景丰富的特点，开展这些引进后养殖群体种质资源的综合利用，将是我国罗非鱼良种选育和产业化开发的重要方向之一。配套系育种是应用具有某种(些)经济性状的“专门化”品系进行杂交，生产具有显著“杂种优势”的配套组合的一种育种方式，在农作物、家禽和家畜育种中应用普遍，并取得很好的效果，在水产业，鱼类的配套系育种近年已有所开展。

现代罗非鱼杂交配套选育技术体系复杂，需要多个学科交叉和多种技术支撑，缺乏有效数据组织和管理。

我国选育技术相关数据量很大，但分散，未有效组织。目前育种者在育种过程中利用的数据主要为自身内部数据，而公开的文献和基因组相关数据等其他数据很少利用或无法利用。导致大量内部数据成为“数据孤岛”，同时大量公开的育种相关数据(如基因组数据)成为“数据海洋”，无从下手。上述问题极大地限制了育种相关数据的利用和育种效率的提高。

大数据有5大特征，即所谓5V:数量巨大(volume)，类型多样(variety)，处理速度快(velocity)，价值密度低(value)，真实性(veracity)。在这5V中，数量巨大、类型多样指数据量大而形式多样，同时要求处理速度要快，而其中价值密度低则指的是数据信息存在垃圾多、污染重以及利用难的问题，然而就是在这样的低密度中却实实在在蕴涵着巨大的价值。可以说，大数据时代的到来将对研究方式、思维方式乃至于生活方式和生产方式都产生革命性变化。

综上所述，现有技术存在的问题是：

(1)现代罗非鱼杂交配套选育技术体系复杂，需要多个学科交叉和多种技术支撑，缺乏有效数据组织和管理；且选育技术相关数据量很大，分散、未有效组织，极大地限制了相关数据的利用和育种效率的提高。

(2)在生物信息网络中对复杂和大规模的数据集进行挖掘时所出现的算法挖掘精度低、运行速度慢、内存占用大等问题

(3)实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据，而且通常带有缺失值。

(4)分类算法不能能个处理多分类任务，不适合增量式训练，算法复杂，不具有稳定的分类效率。

发明内容

针对现有技术存在的问题，本发明提供了一种罗非鱼杂交配套系的选育方法及系统。

本发明是这样实现的，一种罗非鱼杂交配套系的选育方法，包括：

处理搜集的相关数据，进行统计分析，建立数据挖掘平台；处理搜集的相关数据采用神经网络训练算法，具体包括：

1)在前向阶段，输入层获取到输入信号并将其传递到隐藏层中的每个神经元；然后，隐藏层处理这些信号并将处理结果传递到输出层；对于一个输入向量义X＝(X₁,X₂,...X_m)，隐藏层中每个神经元的输入和输出信号标记为u_j和h_j，这两个信号分别可W通过公式计算；

其中W_ij是输入层神经元i和隐藏层神经元j之间的权重，θ_j是偏置；

输出层从隐藏层获取到信号之后同样需要进行后续处理；输出层神经元的输入信号l_k和输出信号c_k分别由公式计算得出；

其中V_ij是输入层神经元j和隐藏层神经元jk之间的权重，γ_k是偏置；在前向过程中，神经网络模型权重W，V和偏置θ，γ并不发生变化；如果前向处理得出的神经网络最终输出信号与真实信号一致，那么下一个输入向量将被输入到该神经网络并开始新一轮的前向过程；否则，该算法将进入后向过程；这里，将神经网络的最终输出信号和真实信号之间的差值称为偏差；

(2)后向阶段

在后向过程，首先将采用公式计算出每个输出层神经元的偏差，然后进一步地利用公式计算出每个隐藏层神经元e_i的偏差；

d_k＝(y_k-c_k)c_k(1-c_k)(k＝1,2,)；

偏差从输出层反向回馈到隐藏层；通过送种偏差后向传播方式，利用公式更新输出层和隐藏层的连接权重；利用公式更新隐藏层与输入层之间的连接权重；

i＝1,2,…m；j＝1,2,…q；k＝1,2,..n；a₁和a₂是取值范围在0到1的学习率；N表示当前训练轮数的编号。

进一步，所述罗非鱼杂交配套系的选育方法，具体包括：

通过数据集成模块，将互相关联的分布式异构数据源集成到一起，使用户以透明的方式访问罗非鱼杂交配套系的相关数据源；

通过数据管理模块利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用；实现数据有效管理；具体有：收集罗非鱼杂交配套系的相关数据处理搜集的相关数据，进行统计分析，建立数据挖掘平台；搭建人机交互系统；

通过数据储存模块将罗非鱼杂交配套系的相关数据储存在计算机中；

通过数据挖掘模通过对大量的罗非鱼杂交配套系的相关数据进行分析，提取隐含的信息和知识。

3、如权利要求2所述的罗非鱼杂交配套系的选育方法，其特征在于，

收集罗非鱼杂交配套系的相关数据中，相关数据包括：

(1)罗非鱼的种类、数量、生存年份、形态标准、生存环境类数据信息；

(2)选育方案；

(3)基础群组建；

(4)关于专门化品系的选育法；

(5)数个杂交组合的比较试验，筛选组合。

进一步，数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法，进行分析、提取隐含的信息和知识；具体包括：

假设子空间的维度为d，先挖掘处于不同子空间的不同数据集，子空间用矩阵M表示，为:

假设两个数据集V_i和V_k分别位于两个不同的子空间Mⁱ(i≤d)和M^k(k≤d)，其中这两个子空间的欧几里德距离为D(i，k)，两个数据集的欧几里德距离为d(i，k)，则对于不同子空间的两个数据集的挖掘公式为：

其中：σ表示子空间挖掘因子，P(V_i)、P(V_k)，分别表示数据集V_i和数据集V_k的挖掘频率；

对于同一子空间的不同数据集的挖掘，通过不同数据集之间的关联程度进行区分，先通过式

求得K₁和K₂然后求得在同一空间下数据集V_i和V_k的关联因子:

得到数据集V_i和V_k的关联因子g(i，k)之后，得到相同子空间下这两个数据集的挖掘公式为

假设在同一空间Mⁱ下数据集之间关联程度限定阈值T(V)，当数据集之间的关联因子g(i，k)大于T(V)时，则这两个数据集具有强相关性，则两个数据集的区分公式写成

当数据集之间的关联因子g(i，k)小于T(V)时，则这两个数据集具有弱相关性，则两个数据集的区分公式写成

进一步，数据储存模块中采用朴素贝叶斯分类算法将罗非鱼杂交配套系的相关数据储存在计算机中，具体包括：

设D是训练对象与其相关联的类标号的集合，每个对象用一个n维属性向量X＝{x₁，x₂…x_n}表示,描述n维属性向量X＝{x₁，x₂…x_n}表示，描述n个属性A₁，A₂…A_n的值，假定原始集合基于n维属性共划分为m个类C1,C2…Cm,计算每个类对X的后验概率,并将对象X归属于具有最高后验概率的类，后验概率P(C_i|X)的计算公式为:

由于P(C_i|X)的计算开销较大，进行类条件独立的假定,给定向量的类标号,并假定属性值有条件的相互独立，P(X|C_i)的计算公式为:

进一步，数据集成模块中采用不完备混合数据的集成聚类算法将互相关联的分布式异构数据源集成到一起，使用户以透明的方式访问罗非鱼杂交配套系的相关数据源；具体包括：

输入：带有缺失值的数据集D、聚类个数k；

输出：最终聚类结果π^＊(D)；

步骤一，对数据集D分别运用平均值填充法、KNN填充法、SKNN填充法填充得到完备数据集D₁，D₂，D₃；

步骤二，对D_i(1≤i≤3)分别执行M_i次K-Prototypes聚类算法，得到基聚类结果集Π(D)；

步骤三，根据式

计算样本与样本之间的相似度矩阵SM_n×n；

步骤四，基于相似度矩阵SM_n×n，分别根据以下式：

单链(single link)方法.由2个类中相似度最大的2个样本决定

全链(complete link)方法，由2个类中相似度最小的2个样本决定

组平均(average link)方法，由2个类中所有样本点相似度的平均值决定

式中:样本之间的相似度sim(x，x′)为相似度矩阵SM_n×n中的对应元素值；

运行层次聚类算法得到最终的聚类结果π^＊(D)。

本发明的另一目的在于提供一种罗非鱼杂交配套系的选育计算机程序，其特征在于，所述罗非鱼杂交配套系的选育计算机程序实现所述的罗非鱼杂交配套系的选育方法。

本发明的另一目的在于提供一种终端，所述终端至少搭载实现所述的罗非鱼杂交配套系的选育方法的控制器。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的罗非鱼杂交配套系的选育方法。

本发明的另一目的在于提供一种罗非鱼杂交配套系的选育系统包括数据集成模块、数据储存模块、数据管理模块、数据挖掘模块；

数据集成模块，用于将互相关联的分布式异构数据源集成到一起，使用户以透明的方式访问罗非鱼杂交配套系的相关数据源；

数据管理模块，用于利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用；实现数据有效管理；

数据储存模块，用于将罗非鱼杂交配套系的相关数据储存在计算机中；

数据挖掘模块，用于通过对大量的罗非鱼杂交配套系的相关数据进行分析，提取隐含的信息和知识

本发明的优点及积极效果为：

本发明通过对采集的罗非鱼的相关信息进行数据分析，建立人机交互系统，推算出罗非鱼杂交配套系的可靠的选育方法；将大数据的处理方法与罗非鱼杂交配套系的选育方法相结合，利用大数据处理的特点，有效的对罗非鱼的前期采集数据进行采集，节省了大量的人力物力，提高了选育技术的效率；同时利用神经网络训练算法对采集的数据进行处理，在隐藏层神经元数目足够的情况下，可对任意精度近似逼近任何连续的非线性函数，提高了数据分析的准确性，提高了罗非鱼杂交配套系的选育的优良性与可靠性；本发明在提高罗非鱼杂交配套系的选育的工作效率的同时，提高了选育的准确性与优良性。在生物信息网络中对复杂和大规模的数据集进行挖掘时，采用基于关联规则映射的罗非鱼生物信息多维数据挖掘算法挖掘精度高、运行速度快、内存占用小等问题；实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据，采用不完备混合数据的集成聚类算，可以可负带有缺失值的缺点带来的问题；采用朴素贝叶斯分类算法能个处理多分类任务，适合增量式训练，算法简单，具有稳定的分类效率。

附图说明

图1是本发明实施例提供的罗非鱼杂交配套系的选育方法的数据管理模块管理方法流程图。

图2是本发明实施例提供的非鱼杂交配套系的选育系统示意图。

图中：1、数据集成模块；2、数据储存模块；3、数据管理模块；4、数据挖掘模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供的罗非鱼杂交配套系的选育方法，具体包括：

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例提供的数据管理模块管理方法包括以下步骤：

S101：收集罗非鱼杂交配套系的相关数据；

S102：处理搜集的相关数据，进行统计分析，建立数据挖掘平台；

S103：搭建人机交互系统。

作为本发明的优选实施例，所述S101的相关数据包括：

(2)选育方案；

(3)基础群组建；

(4)关于专门化品系的选育法；

(5)数个杂交组合的比较试验，筛选“最佳”组合。

作为本发明的优选实施例，所述S102的处理搜集的相关数据采用神经网络训练算法，如下：

(1)前向阶段

在前向阶段，输入层获取到输入信号并将其传递到隐藏层中的每个神经元。然后，隐藏层处理这些信号并将处理结果传递到输出层。对于一个输入向量义X＝(X₁,X₂,...X_m)，隐藏层中每个神经元的输入和输出信号标记为u_j和h_j，这两个信号分别可W通过公式(1)和公式(2)算出；

其中W_ij是输入层神经元i和隐藏层神经元j之间的权重，θ_j是偏置。

输出层从隐藏层获取到信号之后同样需要进行后续处理。输出层神经元的输入信号l_k和输出信号c_k分别由公式(3)和公式(4)计算得出。

其中V_ij是输入层神经元j和隐藏层神经元jk之间的权重，γ_k是偏置。

至此，前向过程的信息处理流程结束。在前向过程中，神经网络模型权重W，V和偏置θ，γ并不发生变化。如果前向处理得出的神经网络最终输出信号与真实信号一致，那么下一个输入向量将被输入到该神经网络并开始新一轮的前向过程。否则，该算法将进入后向过程。这里，将神经网络的最终输出信号和真实信号之间的差值称为偏差(Error)。

(2)后向阶段

在后向过程，首先将采用公式(5)计算出每个输出层神经元的偏差，然后进一步地利用公式(6)计算出每个隐藏层神经元e_i的偏差。

d_k＝(y_k-c_k)c_k(1-c_k)(k＝1,2,) (5)

偏差从输出层反向回馈到隐藏层。通过送种偏差后向传播方式，利用公式(7)更新输出层和隐藏层的连接权重。进一步地，利用公式(8)更新隐藏层与输入层之间的连接权重。

在上述的公式中，i＝1,2,…m；j＝1,2,…q；k＝1,2,..n。a₁和a₂是取值范围在0到1的学习率。N表示当前训练轮数的编号。

如图2,本发明实施例提供的非鱼杂交配套系的选育系统包括：数据集成模块1、数据储存模块2、数据管理模块3、数据挖掘模块4；

数据集成模块1，数据集成是要将互相关联的分布式异构数据源集成到一起，使用户能够以透明的方式访问罗非鱼杂交配套系的相关数据源；

数据管理模块3，利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用的过程；其目的在于充分有效地发挥数据的作用，实现数据有效管理的关键是数据组织；

数据储存模块2，将罗非鱼杂交配套系的相关数据储存在计算机中；

数据挖掘模块4，通过对大量的数据进行分析，以发现和提取隐含在其中的具有价值的信息和知识的过程。

所述数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法为：

假设子空间的维度为d，先挖掘处于不同子空间的不同数据集，其中子空间用矩阵M表示，定义为

得到数据集V_i和V_k的关联因子g(i，k)之后，可以得到相同子空间下这两个数据集的挖掘公式为

作为本发明的优选实施例，所述数据储存模块中采用朴素贝叶斯分类算法为：

作为本发明的优选实施例，所述数据集成模块中采用不完备混合数据的集成聚类算法：

输入：带有缺失值的数据集D、聚类个数k；

输出：最终聚类结果π^＊(D)；

步骤三，根据式

计算样本与样本之间的相似度矩阵SM_n×n；

步骤四，基于相似度矩阵SM_n×n，分别根据以下式：

单链(single link)方法.由2个类中相似度最大的2个样本决定

全链(complete link)方法，由2个类中相似度最小的2个样本决定

运行层次聚类算法得到最终的聚类结果π^＊(D)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种罗非鱼杂交配套系的选育方法，其特征在于，所述罗非鱼杂交配套系的选育方法包括：

(2)后向阶段

d_k＝(y_k-c_k)c_k(1-c_k)(k＝1,2,)；

2.如权利要求1所述的罗非鱼杂交配套系的选育方法，其特征在于，所述罗非鱼杂交配套系的选育方法，具体包括：

3.如权利要求2所述的罗非鱼杂交配套系的选育方法，其特征在于，

收集罗非鱼杂交配套系的相关数据中，相关数据包括：

(2)选育方案；

(3)基础群组建；

(4)关于专门化品系的选育法；

(5)数个杂交组合的比较试验，筛选组合。

4.如权利要求2所述的罗非鱼杂交配套系的选育方法，其特征在于，数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法，进行分析、提取隐含的信息和知识；具体包括：

5.如权利要求2所述的罗非鱼杂交配套系的选育方法，其特征在于，数据储存模块中采用朴素贝叶斯分类算法将罗非鱼杂交配套系的相关数据储存在计算机中，具体包括：

设D是训练对象与其相关联的类标号的集合，每个对象用一个n维属性向量X＝{x₁，x₂…x_n}表示,描述n维属性向量X＝{x₁，x₂…x_n}表示，描述n个属性A₁，A₂…，A_n的值，假定原始集合基于n维属性共划分为m个类C1,C2…Cm,计算每个类对X的后验概率,并将对象X归属于具有最高后验概率的类，后验概率P(C_i|X)的计算公式为:

6.如权利要求2所述的罗非鱼杂交配套系的选育方法，其特征在于，数据集成模块中采用不完备混合数据的集成聚类算法将互相关联的分布式异构数据源集成到一起，使用户以透明的方式访问罗非鱼杂交配套系的相关数据源；具体包括：

输入：带有缺失值的数据集D、聚类个数

输出：最终聚类结果π^＊(D)；

步骤三，根据式

计算样本与样本之间的相似度矩阵SM_n×n；

步骤四，基于相似度矩阵SM_n×n，分别根据以下式：

单链(single link)方法.由2个类中相似度最大的2个样本决定

全链(complete link)方法，由2个类中相似度最小的2个样本决定

运行层次聚类算法得到最终的聚类结果π^＊(D)。

7.一种罗非鱼杂交配套系的选育计算机程序，其特征在于，所述罗非鱼杂交配套系的选育计算机程序实现权利要求1～6任意一项所述的罗非鱼杂交配套系的选育方法。

8.一种终端，其特征在于，所述终端至少搭载实现权利要求1～6任意一项所述的罗非鱼杂交配套系的选育方法的控制器。

9.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的罗非鱼杂交配套系的选育方法。

10.一种实施权利要求1所述罗非鱼杂交配套系的选育方法的罗非鱼杂交配套系的选育系统，其特征在于，所述罗非鱼杂交配套系的选育系统包括数据集成模块、数据储存模块、数据管理模块、数据挖掘模块；

数据挖掘模块，用于通过对大量的罗非鱼杂交配套系的相关数据进行分析，提取隐含的信息和知识。