[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109034392A - 一种罗非鱼杂交配套系的选育方法及系统 - Google Patents

一种罗非鱼杂交配套系的选育方法及系统 Download PDF

Info

Publication number
CN109034392A
CN109034392A CN201811146505.3A CN201811146505A CN109034392A CN 109034392 A CN109034392 A CN 109034392A CN 201811146505 A CN201811146505 A CN 201811146505A CN 109034392 A CN109034392 A CN 109034392A
Authority
CN
China
Prior art keywords
data
tilapia mossambica
corss combination
combination system
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811146505.3A
Other languages
English (en)
Inventor
肖俊
罗永巨
郭忠宝
杨弘
于凡
钟欢
周毅
梁军能
唐瞻杨
严欣
雷燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Academy of Fishery Sciences
Original Assignee
Guangxi Academy of Fishery Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Academy of Fishery Sciences filed Critical Guangxi Academy of Fishery Sciences
Priority to CN201811146505.3A priority Critical patent/CN109034392A/zh
Publication of CN109034392A publication Critical patent/CN109034392A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K61/00Culture of aquatic animals
    • A01K61/10Culture of aquatic animals of fish
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/80Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
    • Y02A40/81Aquaculture, e.g. of fish

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Environmental Sciences (AREA)
  • Neurology (AREA)
  • Animal Husbandry (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Zoology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Agronomy & Crop Science (AREA)
  • Economics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Mining & Mineral Resources (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息处理技术领域,公开了一种罗非鱼杂交配套系的选育方法及系统,包括:收集罗非鱼杂交配套系的相关数据;处理搜集的相关数据,进行统计分析,建立数据挖掘平台;搭建人机交互系统。本发明通过对采集的罗非鱼的相关信息进行数据分析,建立人机交互系统,推算出罗非鱼杂交配套系的可靠的选育方法,有效的节约了数据信息采集分析的时间,提高了罗非鱼杂交配套系的选育方法的工作效率,保证了选育的优良性与可靠性。

Description

一种罗非鱼杂交配套系的选育方法及系统
技术领域
本发明属于信息处理技术领域,尤其涉及一种罗非鱼杂交配套系的选育方法及系统。
背景技术
目前,我国通过全国水产原种和良种审定委员会审定通过的罗非鱼品种有奥尼罗非鱼、吉富品系尼罗罗非鱼、新吉富罗非鱼、“夏奥1号”奥利亚罗非鱼等。但面对我国庞大的罗非鱼产业,选育良种还远不能满足产业快速发展的需求。如何充分发挥我国尼罗罗非鱼引进资源群体多、遗传背景丰富的特点,开展这些引进后养殖群体种质资源的综合利用,将是我国罗非鱼良种选育和产业化开发的重要方向之一。配套系育种是应用具有某种(些)经济性状的“专门化”品系进行杂交,生产具有显著“杂种优势”的配套组合的一种育种方式,在农作物、家禽和家畜育种中应用普遍,并取得很好的效果,在水产业,鱼类的配套系育种近年已有所开展。
现代罗非鱼杂交配套选育技术体系复杂,需要多个学科交叉和多种技术支撑,缺乏有效数据组织和管理。
我国选育技术相关数据量很大,但分散,未有效组织。目前育种者在育种过程中利用的数据主要为自身内部数据,而公开的文献和基因组相关数据等其他数据很少利用或无法利用。导致大量内部数据成为“数据孤岛”,同时大量公开的育种相关数据(如基因组数据)成为“数据海洋”,无从下手。上述问题极大地限制了育种相关数据的利用和育种效率的提高。
大数据有5大特征,即所谓5V:数量巨大(volume),类型多样(variety),处理速度快(velocity),价值密度低(value),真实性(veracity)。在这5V中,数量巨大、类型多样指数据量大而形式多样,同时要求处理速度要快,而其中价值密度低则指的是数据信息存在垃圾多、污染重以及利用难的问题,然而就是在这样的低密度中却实实在在蕴涵着巨大的价值。可以说,大数据时代的到来将对研究方式、思维方式乃至于生活方式和生产方式都产生革命性变化。
综上所述,现有技术存在的问题是:
(1)现代罗非鱼杂交配套选育技术体系复杂,需要多个学科交叉和多种技术支撑,缺乏有效数据组织和管理;且选育技术相关数据量很大,分散、未有效组织,极大地限制了相关数据的利用和育种效率的提高。
(2)在生物信息网络中对复杂和大规模的数据集进行挖掘时所出现的算法挖掘精度低、运行速度慢、内存占用大等问题
(3)实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值。
(4)分类算法不能能个处理多分类任务,不适合增量式训练,算法复杂,不具有稳定的分类效率。
发明内容
针对现有技术存在的问题,本发明提供了一种罗非鱼杂交配套系的选育方法及系统。
本发明是这样实现的,一种罗非鱼杂交配套系的选育方法,包括:
处理搜集的相关数据,进行统计分析,建立数据挖掘平台;处理搜集的相关数据采用神经网络训练算法,具体包括:
1)在前向阶段,输入层获取到输入信号并将其传递到隐藏层中的每个神经元;然后,隐藏层处理这些信号并将处理结果传递到输出层;对于一个输入向量义X=(X1,X2,...Xm),隐藏层中每个神经元的输入和输出信号标记为uj和hj,这两个信号分别可W通过公式计算;
其中Wij是输入层神经元i和隐藏层神经元j之间的权重,θj是偏置;
输出层从隐藏层获取到信号之后同样需要进行后续处理;输出层神经元的输入信号lk和输出信号ck分别由公式计算得出;
其中Vij是输入层神经元j和隐藏层神经元jk之间的权重,γk是偏置;在前向过程中,神经网络模型权重W,V和偏置θ,γ并不发生变化;如果前向处理得出的神经网络最终输出信号与真实信号一致,那么下一个输入向量将被输入到该神经网络并开始新一轮的前向过程;否则,该算法将进入后向过程;这里,将神经网络的最终输出信号和真实信号之间的差值称为偏差;
(2)后向阶段
在后向过程,首先将采用公式计算出每个输出层神经元的偏差,然后进一步地利用公式计算出每个隐藏层神经元ei的偏差;
dk=(yk-ck)ck(1-ck)(k=1,2,);
偏差从输出层反向回馈到隐藏层;通过送种偏差后向传播方式,利用公式更新输出层和隐藏层的连接权重;利用公式更新隐藏层与输入层之间的连接权重;
i=1,2,…m;j=1,2,…q;k=1,2,..n;a1和a2是取值范围在0到1的学习率;N表示当前训练轮数的编号。
进一步,所述罗非鱼杂交配套系的选育方法,具体包括:
通过数据集成模块,将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
通过数据管理模块利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;具体有:收集罗非鱼杂交配套系的相关数据处理搜集的相关数据,进行统计分析,建立数据挖掘平台;搭建人机交互系统;
通过数据储存模块将罗非鱼杂交配套系的相关数据储存在计算机中;
通过数据挖掘模通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识。
3、如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,
收集罗非鱼杂交配套系的相关数据中,相关数据包括:
(1)罗非鱼的种类、数量、生存年份、形态标准、生存环境类数据信息;
(2)选育方案;
(3)基础群组建;
(4)关于专门化品系的选育法;
(5)数个杂交组合的比较试验,筛选组合。
进一步,数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法,进行分析、提取隐含的信息和知识;具体包括:
假设子空间的维度为d,先挖掘处于不同子空间的不同数据集,子空间用矩阵M表示,为:
假设两个数据集Vi和Vk分别位于两个不同的子空间Mi(i≤d)和Mk(k≤d),其中这两个子空间的欧几里德距离为D(i,k),两个数据集的欧几里德距离为d(i,k),则对于不同子空间的两个数据集的挖掘公式为:
其中:σ表示子空间挖掘因子,P(Vi)、P(Vk),分别表示数据集Vi和数据集Vk的挖掘频率;
对于同一子空间的不同数据集的挖掘,通过不同数据集之间的关联程度进行区分,先通过式
求得K1和K2然后求得在同一空间下数据集Vi和Vk的关联因子:
得到数据集Vi和Vk的关联因子g(i,k)之后,得到相同子空间下这两个数据集的挖掘公式为
假设在同一空间Mi下数据集之间关联程度限定阈值T(V),当数据集之间的关联因子g(i,k)大于T(V)时,则这两个数据集具有强相关性,则两个数据集的区分公式写成
当数据集之间的关联因子g(i,k)小于T(V)时,则这两个数据集具有弱相关性,则两个数据集的区分公式写成
进一步,数据储存模块中采用朴素贝叶斯分类算法将罗非鱼杂交配套系的相关数据储存在计算机中,具体包括:
设D是训练对象与其相关联的类标号的集合,每个对象用一个n维属性向量X={x1,x2…xn}表示,描述n维属性向量X={x1,x2…xn}表示,描述n个属性A1,A2…An的值,假定原始集合基于n维属性共划分为m个类C1,C2…Cm,计算每个类对X的后验概率,并将对象X归属于具有最高后验概率的类,后验概率P(Ci|X)的计算公式为:
由于P(Ci|X)的计算开销较大,进行类条件独立的假定,给定向量的类标号,并假定属性值有条件的相互独立,P(X|Ci)的计算公式为:
其中,P(x1|Ci)P(x2|Ci)…P(xn|Ci)容易地由训练对象求算,Xk表示X在属性Ak上的值,对每个类别Ci计算P(X|Ci)P(Ci),当P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j≠i成立时,X属于类Ci
进一步,数据集成模块中采用不完备混合数据的集成聚类算法将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;具体包括:
输入:带有缺失值的数据集D、聚类个数k;
输出:最终聚类结果π(D);
步骤一,对数据集D分别运用平均值填充法、KNN填充法、SKNN填充法填充得到完备数据集D1,D2,D3
步骤二,对Di(1≤i≤3)分别执行Mi次K-Prototypes聚类算法,得到基聚类结果集Π(D);
步骤三,根据式
计算样本与样本之间的相似度矩阵SMn×n
步骤四,基于相似度矩阵SMn×n,分别根据以下式:
单链(single link)方法.由2个类中相似度最大的2个样本决定
全链(complete link)方法,由2个类中相似度最小的2个样本决定
组平均(average link)方法,由2个类中所有样本点相似度的平均值决定
式中:样本之间的相似度sim(x,x′)为相似度矩阵SMn×n中的对应元素值;
运行层次聚类算法得到最终的聚类结果π(D)。
本发明的另一目的在于提供一种罗非鱼杂交配套系的选育计算机程序,其特征在于,所述罗非鱼杂交配套系的选育计算机程序实现所述的罗非鱼杂交配套系的选育方法。
本发明的另一目的在于提供一种终端,所述终端至少搭载实现所述的罗非鱼杂交配套系的选育方法的控制器。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的罗非鱼杂交配套系的选育方法。
本发明的另一目的在于提供一种罗非鱼杂交配套系的选育系统包括数据集成模块、数据储存模块、数据管理模块、数据挖掘模块;
数据集成模块,用于将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
数据管理模块,用于利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;
数据储存模块,用于将罗非鱼杂交配套系的相关数据储存在计算机中;
数据挖掘模块,用于通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识
本发明的优点及积极效果为:
本发明通过对采集的罗非鱼的相关信息进行数据分析,建立人机交互系统,推算出罗非鱼杂交配套系的可靠的选育方法;将大数据的处理方法与罗非鱼杂交配套系的选育方法相结合,利用大数据处理的特点,有效的对罗非鱼的前期采集数据进行采集,节省了大量的人力物力,提高了选育技术的效率;同时利用神经网络训练算法对采集的数据进行处理,在隐藏层神经元数目足够的情况下,可对任意精度近似逼近任何连续的非线性函数,提高了数据分析的准确性,提高了罗非鱼杂交配套系的选育的优良性与可靠性;本发明在提高罗非鱼杂交配套系的选育的工作效率的同时,提高了选育的准确性与优良性。在生物信息网络中对复杂和大规模的数据集进行挖掘时,采用基于关联规则映射的罗非鱼生物信息多维数据挖掘算法挖掘精度高、运行速度快、内存占用小等问题;实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,采用不完备混合数据的集成聚类算,可以可负带有缺失值的缺点带来的问题;采用朴素贝叶斯分类算法能个处理多分类任务,适合增量式训练,算法简单,具有稳定的分类效率。
附图说明
图1是本发明实施例提供的罗非鱼杂交配套系的选育方法的数据管理模块管理方法流程图。
图2是本发明实施例提供的非鱼杂交配套系的选育系统示意图。
图中:1、数据集成模块;2、数据储存模块;3、数据管理模块;4、数据挖掘模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的罗非鱼杂交配套系的选育方法,具体包括:
通过数据集成模块,将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
通过数据管理模块利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;具体有:收集罗非鱼杂交配套系的相关数据处理搜集的相关数据,进行统计分析,建立数据挖掘平台;搭建人机交互系统;
通过数据储存模块将罗非鱼杂交配套系的相关数据储存在计算机中;
通过数据挖掘模通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
如图1所示,本发明实施例提供的数据管理模块管理方法包括以下步骤:
S101:收集罗非鱼杂交配套系的相关数据;
S102:处理搜集的相关数据,进行统计分析,建立数据挖掘平台;
S103:搭建人机交互系统。
作为本发明的优选实施例,所述S101的相关数据包括:
(1)罗非鱼的种类、数量、生存年份、形态标准、生存环境类数据信息;
(2)选育方案;
(3)基础群组建;
(4)关于专门化品系的选育法;
(5)数个杂交组合的比较试验,筛选“最佳”组合。
作为本发明的优选实施例,所述S102的处理搜集的相关数据采用神经网络训练算法,如下:
(1)前向阶段
在前向阶段,输入层获取到输入信号并将其传递到隐藏层中的每个神经元。然后,隐藏层处理这些信号并将处理结果传递到输出层。对于一个输入向量义X=(X1,X2,...Xm),隐藏层中每个神经元的输入和输出信号标记为uj和hj,这两个信号分别可W通过公式(1)和公式(2)算出;
其中Wij是输入层神经元i和隐藏层神经元j之间的权重,θj是偏置。
输出层从隐藏层获取到信号之后同样需要进行后续处理。输出层神经元的输入信号lk和输出信号ck分别由公式(3)和公式(4)计算得出。
其中Vij是输入层神经元j和隐藏层神经元jk之间的权重,γk是偏置。
至此,前向过程的信息处理流程结束。在前向过程中,神经网络模型权重W,V和偏置θ,γ并不发生变化。如果前向处理得出的神经网络最终输出信号与真实信号一致,那么下一个输入向量将被输入到该神经网络并开始新一轮的前向过程。否则,该算法将进入后向过程。这里,将神经网络的最终输出信号和真实信号之间的差值称为偏差(Error)。
(2)后向阶段
在后向过程,首先将采用公式(5)计算出每个输出层神经元的偏差,然后进一步地利用公式(6)计算出每个隐藏层神经元ei的偏差。
dk=(yk-ck)ck(1-ck)(k=1,2,) (5)
偏差从输出层反向回馈到隐藏层。通过送种偏差后向传播方式,利用公式(7)更新输出层和隐藏层的连接权重。进一步地,利用公式(8)更新隐藏层与输入层之间的连接权重。
在上述的公式中,i=1,2,…m;j=1,2,…q;k=1,2,..n。a1和a2是取值范围在0到1的学习率。N表示当前训练轮数的编号。
如图2,本发明实施例提供的非鱼杂交配套系的选育系统包括:数据集成模块1、数据储存模块2、数据管理模块3、数据挖掘模块4;
数据集成模块1,数据集成是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问罗非鱼杂交配套系的相关数据源;
数据管理模块3,利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用的过程;其目的在于充分有效地发挥数据的作用,实现数据有效管理的关键是数据组织;
数据储存模块2,将罗非鱼杂交配套系的相关数据储存在计算机中;
数据挖掘模块4,通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程。
所述数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法为:
假设子空间的维度为d,先挖掘处于不同子空间的不同数据集,其中子空间用矩阵M表示,定义为
假设两个数据集Vi和Vk分别位于两个不同的子空间Mi(i≤d)和Mk(k≤d),其中这两个子空间的欧几里德距离为D(i,k),两个数据集的欧几里德距离为d(i,k),则对于不同子空间的两个数据集的挖掘公式为:
其中:σ表示子空间挖掘因子,P(Vi)、P(Vk),分别表示数据集Vi和数据集Vk的挖掘频率;
对于同一子空间的不同数据集的挖掘,通过不同数据集之间的关联程度进行区分,先通过式
求得K1和K2然后求得在同一空间下数据集Vi和Vk的关联因子:
得到数据集Vi和Vk的关联因子g(i,k)之后,可以得到相同子空间下这两个数据集的挖掘公式为
假设在同一空间Mi下数据集之间关联程度限定阈值T(V),当数据集之间的关联因子g(i,k)大于T(V)时,则这两个数据集具有强相关性,则两个数据集的区分公式写成
当数据集之间的关联因子g(i,k)小于T(V)时,则这两个数据集具有弱相关性,则两个数据集的区分公式写成
作为本发明的优选实施例,所述数据储存模块中采用朴素贝叶斯分类算法为:
设D是训练对象与其相关联的类标号的集合,每个对象用一个n维属性向量X={x1,x2…xn}表示,描述n维属性向量X={x1,x2…xn}表示,描述n个属性A1,A2…An的值,假定原始集合基于n维属性共划分为m个类C1,C2…Cm,计算每个类对X的后验概率,并将对象X归属于具有最高后验概率的类,后验概率P(Ci|X)的计算公式为:
由于P(Ci|X)的计算开销较大,进行类条件独立的假定,给定向量的类标号,并假定属性值有条件的相互独立,P(X|Ci)的计算公式为:
其中,P(x1|Ci)P(x2|Ci)…P(xn|Ci)可以容易地由训练对象求算,Xk表示X在属性Ak上的值,对每个类别Ci计算P(X|Ci)P(Ci),当P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j≠i成立时,X属于类Ci
作为本发明的优选实施例,所述数据集成模块中采用不完备混合数据的集成聚类算法:
输入:带有缺失值的数据集D、聚类个数k;
输出:最终聚类结果π(D);
步骤一,对数据集D分别运用平均值填充法、KNN填充法、SKNN填充法填充得到完备数据集D1,D2,D3
步骤二,对Di(1≤i≤3)分别执行Mi次K-Prototypes聚类算法,得到基聚类结果集Π(D);
步骤三,根据式
计算样本与样本之间的相似度矩阵SMn×n
步骤四,基于相似度矩阵SMn×n,分别根据以下式:
单链(single link)方法.由2个类中相似度最大的2个样本决定
全链(complete link)方法,由2个类中相似度最小的2个样本决定
组平均(average link)方法,由2个类中所有样本点相似度的平均值决定
式中:样本之间的相似度sim(x,x′)为相似度矩阵SMn×n中的对应元素值;
运行层次聚类算法得到最终的聚类结果π(D)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种罗非鱼杂交配套系的选育方法,其特征在于,所述罗非鱼杂交配套系的选育方法包括:
处理搜集的相关数据,进行统计分析,建立数据挖掘平台;处理搜集的相关数据采用神经网络训练算法,具体包括:
1)在前向阶段,输入层获取到输入信号并将其传递到隐藏层中的每个神经元;然后,隐藏层处理这些信号并将处理结果传递到输出层;对于一个输入向量义X=(X1,X2,...Xm),隐藏层中每个神经元的输入和输出信号标记为uj和hj,这两个信号分别可W通过公式计算;
其中Wij是输入层神经元i和隐藏层神经元j之间的权重,θj是偏置;
输出层从隐藏层获取到信号之后同样需要进行后续处理;输出层神经元的输入信号lk和输出信号ck分别由公式计算得出;
其中Vij是输入层神经元j和隐藏层神经元jk之间的权重,γk是偏置;在前向过程中,神经网络模型权重W,V和偏置θ,γ并不发生变化;如果前向处理得出的神经网络最终输出信号与真实信号一致,那么下一个输入向量将被输入到该神经网络并开始新一轮的前向过程;否则,该算法将进入后向过程;这里,将神经网络的最终输出信号和真实信号之间的差值称为偏差;
(2)后向阶段
在后向过程,首先将采用公式计算出每个输出层神经元的偏差,然后进一步地利用公式计算出每个隐藏层神经元ei的偏差;
dk=(yk-ck)ck(1-ck)(k=1,2,);
偏差从输出层反向回馈到隐藏层;通过送种偏差后向传播方式,利用公式更新输出层和隐藏层的连接权重;利用公式更新隐藏层与输入层之间的连接权重;
i=1,2,…m;j=1,2,…q;k=1,2,..n;a1和a2是取值范围在0到1的学习率;N表示当前训练轮数的编号。
2.如权利要求1所述的罗非鱼杂交配套系的选育方法,其特征在于,所述罗非鱼杂交配套系的选育方法,具体包括:
通过数据集成模块,将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
通过数据管理模块利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;具体有:收集罗非鱼杂交配套系的相关数据处理搜集的相关数据,进行统计分析,建立数据挖掘平台;搭建人机交互系统;
通过数据储存模块将罗非鱼杂交配套系的相关数据储存在计算机中;
通过数据挖掘模通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识。
3.如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,
收集罗非鱼杂交配套系的相关数据中,相关数据包括:
(1)罗非鱼的种类、数量、生存年份、形态标准、生存环境类数据信息;
(2)选育方案;
(3)基础群组建;
(4)关于专门化品系的选育法;
(5)数个杂交组合的比较试验,筛选组合。
4.如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法,进行分析、提取隐含的信息和知识;具体包括:
假设子空间的维度为d,先挖掘处于不同子空间的不同数据集,子空间用矩阵M表示,为:
假设两个数据集Vi和Vk分别位于两个不同的子空间Mi(i≤d)和Mk(k≤d),其中这两个子空间的欧几里德距离为D(i,k),两个数据集的欧几里德距离为d(i,k),则对于不同子空间的两个数据集的挖掘公式为:
其中:σ表示子空间挖掘因子,P(Vi)、P(Vk),分别表示数据集Vi和数据集Vk的挖掘频率;
对于同一子空间的不同数据集的挖掘,通过不同数据集之间的关联程度进行区分,先通过式
求得K1和K2然后求得在同一空间下数据集Vi和Vk的关联因子:
得到数据集Vi和Vk的关联因子g(i,k)之后,得到相同子空间下这两个数据集的挖掘公式为
假设在同一空间Mi下数据集之间关联程度限定阈值T(V),当数据集之间的关联因子g(i,k)大于T(V)时,则这两个数据集具有强相关性,则两个数据集的区分公式写成
当数据集之间的关联因子g(i,k)小于T(V)时,则这两个数据集具有弱相关性,则两个数据集的区分公式写成
5.如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,数据储存模块中采用朴素贝叶斯分类算法将罗非鱼杂交配套系的相关数据储存在计算机中,具体包括:
设D是训练对象与其相关联的类标号的集合,每个对象用一个n维属性向量X={x1,x2…xn}表示,描述n维属性向量X={x1,x2…xn}表示,描述n个属性A1,A2…,An的值,假定原始集合基于n维属性共划分为m个类C1,C2…Cm,计算每个类对X的后验概率,并将对象X归属于具有最高后验概率的类,后验概率P(Ci|X)的计算公式为:
由于P(Ci|X)的计算开销较大,进行类条件独立的假定,给定向量的类标号,并假定属性值有条件的相互独立,P(X|Ci)的计算公式为:
其中,P(xl|Ci)P(x2|Ci)…P(xn|Ci)容易地由训练对象求算,Xk表示X在属性Ak上的值,对每个类别Ci计算P(X|Ci)P(Ci),当P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j≠i成立时,X属于类Ci
6.如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,数据集成模块中采用不完备混合数据的集成聚类算法将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;具体包括:
输入:带有缺失值的数据集D、聚类个数
输出:最终聚类结果π(D);
步骤一,对数据集D分别运用平均值填充法、KNN填充法、SKNN填充法填充得到完备数据集D1,D2,D3
步骤二,对Di(1≤i≤3)分别执行Mi次K-Prototypes聚类算法,得到基聚类结果集Π(D);
步骤三,根据式
计算样本与样本之间的相似度矩阵SMn×n
步骤四,基于相似度矩阵SMn×n,分别根据以下式:
单链(single link)方法.由2个类中相似度最大的2个样本决定
全链(complete link)方法,由2个类中相似度最小的2个样本决定
组平均(average link)方法,由2个类中所有样本点相似度的平均值决定
式中:样本之间的相似度sim(x,x′)为相似度矩阵SMn×n中的对应元素值;
运行层次聚类算法得到最终的聚类结果π(D)。
7.一种罗非鱼杂交配套系的选育计算机程序,其特征在于,所述罗非鱼杂交配套系的选育计算机程序实现权利要求1~6任意一项所述的罗非鱼杂交配套系的选育方法。
8.一种终端,其特征在于,所述终端至少搭载实现权利要求1~6任意一项所述的罗非鱼杂交配套系的选育方法的控制器。
9.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的罗非鱼杂交配套系的选育方法。
10.一种实施权利要求1所述罗非鱼杂交配套系的选育方法的罗非鱼杂交配套系的选育系统,其特征在于,所述罗非鱼杂交配套系的选育系统包括数据集成模块、数据储存模块、数据管理模块、数据挖掘模块;
数据集成模块,用于将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
数据管理模块,用于利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;
数据储存模块,用于将罗非鱼杂交配套系的相关数据储存在计算机中;
数据挖掘模块,用于通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识。
CN201811146505.3A 2018-09-29 2018-09-29 一种罗非鱼杂交配套系的选育方法及系统 Pending CN109034392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811146505.3A CN109034392A (zh) 2018-09-29 2018-09-29 一种罗非鱼杂交配套系的选育方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811146505.3A CN109034392A (zh) 2018-09-29 2018-09-29 一种罗非鱼杂交配套系的选育方法及系统

Publications (1)

Publication Number Publication Date
CN109034392A true CN109034392A (zh) 2018-12-18

Family

ID=64614941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811146505.3A Pending CN109034392A (zh) 2018-09-29 2018-09-29 一种罗非鱼杂交配套系的选育方法及系统

Country Status (1)

Country Link
CN (1) CN109034392A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110063298A (zh) * 2019-05-30 2019-07-30 江西正邦科技股份有限公司 一种基于大数据的种猪选育工艺
CN110892879A (zh) * 2019-12-05 2020-03-20 刘宝祥 二元杂交培育方法与训练方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140079297A1 (en) * 2012-09-17 2014-03-20 Saied Tadayon Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities
CN105379647A (zh) * 2015-10-23 2016-03-09 广西壮族自治区水产科学研究院 一种基于家系选育的罗非鱼保种方法
CN106818546A (zh) * 2016-12-05 2017-06-13 广西壮族自治区水产科学研究院 一种高繁型尼奥罗非鱼杂交配套系的选育方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140079297A1 (en) * 2012-09-17 2014-03-20 Saied Tadayon Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities
CN105379647A (zh) * 2015-10-23 2016-03-09 广西壮族自治区水产科学研究院 一种基于家系选育的罗非鱼保种方法
CN106818546A (zh) * 2016-12-05 2017-06-13 广西壮族自治区水产科学研究院 一种高繁型尼奥罗非鱼杂交配套系的选育方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
史倩玉 等: "一种不完备混合数据集成聚类算法", 《计算机研究与发展》 *
唐晓东: "基于关联规则映射的生物信息网络多维数据挖掘算法", 《计算机应用研究》 *
张锐: "Android环境下恶意软件静态检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
顾荣: "大数据处理技术与系统研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110063298A (zh) * 2019-05-30 2019-07-30 江西正邦科技股份有限公司 一种基于大数据的种猪选育工艺
CN110892879A (zh) * 2019-12-05 2020-03-20 刘宝祥 二元杂交培育方法与训练方法及设备

Similar Documents

Publication Publication Date Title
US20210173817A1 (en) Method and system for large scale data curation
CN111240662B (zh) 一种基于任务可视化拖拽的spark机器学习系统及学习方法
US20170213127A1 (en) Method and System for Discovering Ancestors using Genomic and Genealogic Data
CN110008259A (zh) 可视化数据分析的方法及终端设备
CN109739850A (zh) 一种档案大数据智能分析清洗挖掘系统
CN107368700A (zh) 基于计算云平台的微生物多样性交互分析系统及其方法
CN111627552B (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
Peters et al. An integrated view of complex landscapes: a big data-model integration approach to transdisciplinary science
CN107391963A (zh) 基于计算云平台的真核无参转录组交互分析系统及其方法
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
CN112835570A (zh) 一种基于机器学习的可视化数学建模方法和系统
CN107944465A (zh) 一种适用于大数据的无监督快速聚类方法及系统
CN117423391A (zh) 一种基因调控网络数据库的建立方法、系统及设备
CN109034392A (zh) 一种罗非鱼杂交配套系的选育方法及系统
Chen et al. Predicting user retweeting behavior in social networks with a novel ensemble learning approach
CN114399634B (zh) 基于弱监督学习的三维图像分类方法、系统、设备及介质
Cao Design and optimization of a decision support system for sports training based on data mining technology
Chegini et al. An agriprecision decision support system for weed management in pastures
CN110837859A (zh) 一种融合多维度医疗数据的肿瘤精细分类系统及方法
Rahdari et al. Analysis of online user behaviour for art and culture events
Alberink et al. Repeatability and reproducibility of earprint acquisition
Gao et al. Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm
Li [Retracted] Research on the Social Security and Elderly Care System under the Background of Big Data
Wang CPSO: Chaotic Particle Swarm Optimization for Cluster Analysis
CN111291102A (zh) 一种政务数据挖掘的高性能规模统计计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218