CN109034392A - 一种罗非鱼杂交配套系的选育方法及系统 - Google Patents
一种罗非鱼杂交配套系的选育方法及系统 Download PDFInfo
- Publication number
- CN109034392A CN109034392A CN201811146505.3A CN201811146505A CN109034392A CN 109034392 A CN109034392 A CN 109034392A CN 201811146505 A CN201811146505 A CN 201811146505A CN 109034392 A CN109034392 A CN 109034392A
- Authority
- CN
- China
- Prior art keywords
- data
- tilapia mossambica
- corss combination
- combination system
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000276701 Oreochromis mossambicus Species 0.000 title claims abstract description 86
- 238000009395 breeding Methods 0.000 claims abstract description 37
- 230000001488 breeding effect Effects 0.000 claims abstract description 34
- 238000007418 data mining Methods 0.000 claims abstract description 24
- 230000002452 interceptive effect Effects 0.000 claims abstract description 7
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 48
- 210000002569 neuron Anatomy 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 230000010354 integration Effects 0.000 claims description 15
- 238000013500 data storage Methods 0.000 claims description 14
- 238000013523 data management Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000009412 basement excavation Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013480 data collection Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 241000251468 Actinopterygii Species 0.000 claims description 6
- 230000004069 differentiation Effects 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 239000010749 BS 2869 Class C1 Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000000052 comparative effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000009396 hybridization Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000219233 Oreochromis aureus Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01K—ANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
- A01K61/00—Culture of aquatic animals
- A01K61/10—Culture of aquatic animals of fish
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Marine Sciences & Fisheries (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Environmental Sciences (AREA)
- Neurology (AREA)
- Animal Husbandry (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Zoology (AREA)
- Biodiversity & Conservation Biology (AREA)
- General Business, Economics & Management (AREA)
- Agronomy & Crop Science (AREA)
- Economics (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Mining & Mineral Resources (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于信息处理技术领域,公开了一种罗非鱼杂交配套系的选育方法及系统,包括:收集罗非鱼杂交配套系的相关数据;处理搜集的相关数据,进行统计分析,建立数据挖掘平台;搭建人机交互系统。本发明通过对采集的罗非鱼的相关信息进行数据分析,建立人机交互系统,推算出罗非鱼杂交配套系的可靠的选育方法,有效的节约了数据信息采集分析的时间,提高了罗非鱼杂交配套系的选育方法的工作效率,保证了选育的优良性与可靠性。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种罗非鱼杂交配套系的选育方法及系统。
背景技术
目前,我国通过全国水产原种和良种审定委员会审定通过的罗非鱼品种有奥尼罗非鱼、吉富品系尼罗罗非鱼、新吉富罗非鱼、“夏奥1号”奥利亚罗非鱼等。但面对我国庞大的罗非鱼产业,选育良种还远不能满足产业快速发展的需求。如何充分发挥我国尼罗罗非鱼引进资源群体多、遗传背景丰富的特点,开展这些引进后养殖群体种质资源的综合利用,将是我国罗非鱼良种选育和产业化开发的重要方向之一。配套系育种是应用具有某种(些)经济性状的“专门化”品系进行杂交,生产具有显著“杂种优势”的配套组合的一种育种方式,在农作物、家禽和家畜育种中应用普遍,并取得很好的效果,在水产业,鱼类的配套系育种近年已有所开展。
现代罗非鱼杂交配套选育技术体系复杂,需要多个学科交叉和多种技术支撑,缺乏有效数据组织和管理。
我国选育技术相关数据量很大,但分散,未有效组织。目前育种者在育种过程中利用的数据主要为自身内部数据,而公开的文献和基因组相关数据等其他数据很少利用或无法利用。导致大量内部数据成为“数据孤岛”,同时大量公开的育种相关数据(如基因组数据)成为“数据海洋”,无从下手。上述问题极大地限制了育种相关数据的利用和育种效率的提高。
大数据有5大特征,即所谓5V:数量巨大(volume),类型多样(variety),处理速度快(velocity),价值密度低(value),真实性(veracity)。在这5V中,数量巨大、类型多样指数据量大而形式多样,同时要求处理速度要快,而其中价值密度低则指的是数据信息存在垃圾多、污染重以及利用难的问题,然而就是在这样的低密度中却实实在在蕴涵着巨大的价值。可以说,大数据时代的到来将对研究方式、思维方式乃至于生活方式和生产方式都产生革命性变化。
综上所述,现有技术存在的问题是:
(1)现代罗非鱼杂交配套选育技术体系复杂,需要多个学科交叉和多种技术支撑,缺乏有效数据组织和管理;且选育技术相关数据量很大,分散、未有效组织,极大地限制了相关数据的利用和育种效率的提高。
(2)在生物信息网络中对复杂和大规模的数据集进行挖掘时所出现的算法挖掘精度低、运行速度慢、内存占用大等问题
(3)实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值。
(4)分类算法不能能个处理多分类任务,不适合增量式训练,算法复杂,不具有稳定的分类效率。
发明内容
针对现有技术存在的问题,本发明提供了一种罗非鱼杂交配套系的选育方法及系统。
本发明是这样实现的,一种罗非鱼杂交配套系的选育方法,包括:
处理搜集的相关数据,进行统计分析,建立数据挖掘平台;处理搜集的相关数据采用神经网络训练算法,具体包括:
1)在前向阶段,输入层获取到输入信号并将其传递到隐藏层中的每个神经元;然后,隐藏层处理这些信号并将处理结果传递到输出层;对于一个输入向量义X=(X1,X2,...Xm),隐藏层中每个神经元的输入和输出信号标记为uj和hj,这两个信号分别可W通过公式计算;
其中Wij是输入层神经元i和隐藏层神经元j之间的权重,θj是偏置;
输出层从隐藏层获取到信号之后同样需要进行后续处理;输出层神经元的输入信号lk和输出信号ck分别由公式计算得出;
其中Vij是输入层神经元j和隐藏层神经元jk之间的权重,γk是偏置;在前向过程中,神经网络模型权重W,V和偏置θ,γ并不发生变化;如果前向处理得出的神经网络最终输出信号与真实信号一致,那么下一个输入向量将被输入到该神经网络并开始新一轮的前向过程;否则,该算法将进入后向过程;这里,将神经网络的最终输出信号和真实信号之间的差值称为偏差;
(2)后向阶段
在后向过程,首先将采用公式计算出每个输出层神经元的偏差,然后进一步地利用公式计算出每个隐藏层神经元ei的偏差;
dk=(yk-ck)ck(1-ck)(k=1,2,);
偏差从输出层反向回馈到隐藏层;通过送种偏差后向传播方式,利用公式更新输出层和隐藏层的连接权重;利用公式更新隐藏层与输入层之间的连接权重;
i=1,2,…m;j=1,2,…q;k=1,2,..n;a1和a2是取值范围在0到1的学习率;N表示当前训练轮数的编号。
进一步,所述罗非鱼杂交配套系的选育方法,具体包括:
通过数据集成模块,将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
通过数据管理模块利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;具体有:收集罗非鱼杂交配套系的相关数据处理搜集的相关数据,进行统计分析,建立数据挖掘平台;搭建人机交互系统;
通过数据储存模块将罗非鱼杂交配套系的相关数据储存在计算机中;
通过数据挖掘模通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识。
3、如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,
收集罗非鱼杂交配套系的相关数据中,相关数据包括:
(1)罗非鱼的种类、数量、生存年份、形态标准、生存环境类数据信息;
(2)选育方案;
(3)基础群组建;
(4)关于专门化品系的选育法;
(5)数个杂交组合的比较试验,筛选组合。
进一步,数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法,进行分析、提取隐含的信息和知识;具体包括:
假设子空间的维度为d,先挖掘处于不同子空间的不同数据集,子空间用矩阵M表示,为:
假设两个数据集Vi和Vk分别位于两个不同的子空间Mi(i≤d)和Mk(k≤d),其中这两个子空间的欧几里德距离为D(i,k),两个数据集的欧几里德距离为d(i,k),则对于不同子空间的两个数据集的挖掘公式为:
其中:σ表示子空间挖掘因子,P(Vi)、P(Vk),分别表示数据集Vi和数据集Vk的挖掘频率;
对于同一子空间的不同数据集的挖掘,通过不同数据集之间的关联程度进行区分,先通过式
求得K1和K2然后求得在同一空间下数据集Vi和Vk的关联因子:
得到数据集Vi和Vk的关联因子g(i,k)之后,得到相同子空间下这两个数据集的挖掘公式为
假设在同一空间Mi下数据集之间关联程度限定阈值T(V),当数据集之间的关联因子g(i,k)大于T(V)时,则这两个数据集具有强相关性,则两个数据集的区分公式写成
当数据集之间的关联因子g(i,k)小于T(V)时,则这两个数据集具有弱相关性,则两个数据集的区分公式写成
进一步,数据储存模块中采用朴素贝叶斯分类算法将罗非鱼杂交配套系的相关数据储存在计算机中,具体包括:
设D是训练对象与其相关联的类标号的集合,每个对象用一个n维属性向量X={x1,x2…xn}表示,描述n维属性向量X={x1,x2…xn}表示,描述n个属性A1,A2…An的值,假定原始集合基于n维属性共划分为m个类C1,C2…Cm,计算每个类对X的后验概率,并将对象X归属于具有最高后验概率的类,后验概率P(Ci|X)的计算公式为:
由于P(Ci|X)的计算开销较大,进行类条件独立的假定,给定向量的类标号,并假定属性值有条件的相互独立,P(X|Ci)的计算公式为:
其中,P(x1|Ci)P(x2|Ci)…P(xn|Ci)容易地由训练对象求算,Xk表示X在属性Ak上的值,对每个类别Ci计算P(X|Ci)P(Ci),当P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j≠i成立时,X属于类Ci。
进一步,数据集成模块中采用不完备混合数据的集成聚类算法将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;具体包括:
输入:带有缺失值的数据集D、聚类个数k;
输出:最终聚类结果π*(D);
步骤一,对数据集D分别运用平均值填充法、KNN填充法、SKNN填充法填充得到完备数据集D1,D2,D3;
步骤二,对Di(1≤i≤3)分别执行Mi次K-Prototypes聚类算法,得到基聚类结果集Π(D);
步骤三,根据式
计算样本与样本之间的相似度矩阵SMn×n;
步骤四,基于相似度矩阵SMn×n,分别根据以下式:
单链(single link)方法.由2个类中相似度最大的2个样本决定
全链(complete link)方法,由2个类中相似度最小的2个样本决定
组平均(average link)方法,由2个类中所有样本点相似度的平均值决定
式中:样本之间的相似度sim(x,x′)为相似度矩阵SMn×n中的对应元素值;
运行层次聚类算法得到最终的聚类结果π*(D)。
本发明的另一目的在于提供一种罗非鱼杂交配套系的选育计算机程序,其特征在于,所述罗非鱼杂交配套系的选育计算机程序实现所述的罗非鱼杂交配套系的选育方法。
本发明的另一目的在于提供一种终端,所述终端至少搭载实现所述的罗非鱼杂交配套系的选育方法的控制器。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的罗非鱼杂交配套系的选育方法。
本发明的另一目的在于提供一种罗非鱼杂交配套系的选育系统包括数据集成模块、数据储存模块、数据管理模块、数据挖掘模块;
数据集成模块,用于将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
数据管理模块,用于利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;
数据储存模块,用于将罗非鱼杂交配套系的相关数据储存在计算机中;
数据挖掘模块,用于通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识
本发明的优点及积极效果为:
本发明通过对采集的罗非鱼的相关信息进行数据分析,建立人机交互系统,推算出罗非鱼杂交配套系的可靠的选育方法;将大数据的处理方法与罗非鱼杂交配套系的选育方法相结合,利用大数据处理的特点,有效的对罗非鱼的前期采集数据进行采集,节省了大量的人力物力,提高了选育技术的效率;同时利用神经网络训练算法对采集的数据进行处理,在隐藏层神经元数目足够的情况下,可对任意精度近似逼近任何连续的非线性函数,提高了数据分析的准确性,提高了罗非鱼杂交配套系的选育的优良性与可靠性;本发明在提高罗非鱼杂交配套系的选育的工作效率的同时,提高了选育的准确性与优良性。在生物信息网络中对复杂和大规模的数据集进行挖掘时,采用基于关联规则映射的罗非鱼生物信息多维数据挖掘算法挖掘精度高、运行速度快、内存占用小等问题;实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,采用不完备混合数据的集成聚类算,可以可负带有缺失值的缺点带来的问题;采用朴素贝叶斯分类算法能个处理多分类任务,适合增量式训练,算法简单,具有稳定的分类效率。
附图说明
图1是本发明实施例提供的罗非鱼杂交配套系的选育方法的数据管理模块管理方法流程图。
图2是本发明实施例提供的非鱼杂交配套系的选育系统示意图。
图中:1、数据集成模块;2、数据储存模块;3、数据管理模块;4、数据挖掘模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的罗非鱼杂交配套系的选育方法,具体包括:
通过数据集成模块,将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
通过数据管理模块利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;具体有:收集罗非鱼杂交配套系的相关数据处理搜集的相关数据,进行统计分析,建立数据挖掘平台;搭建人机交互系统;
通过数据储存模块将罗非鱼杂交配套系的相关数据储存在计算机中;
通过数据挖掘模通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
如图1所示,本发明实施例提供的数据管理模块管理方法包括以下步骤:
S101:收集罗非鱼杂交配套系的相关数据;
S102:处理搜集的相关数据,进行统计分析,建立数据挖掘平台;
S103:搭建人机交互系统。
作为本发明的优选实施例,所述S101的相关数据包括:
(1)罗非鱼的种类、数量、生存年份、形态标准、生存环境类数据信息;
(2)选育方案;
(3)基础群组建;
(4)关于专门化品系的选育法;
(5)数个杂交组合的比较试验,筛选“最佳”组合。
作为本发明的优选实施例,所述S102的处理搜集的相关数据采用神经网络训练算法,如下:
(1)前向阶段
在前向阶段,输入层获取到输入信号并将其传递到隐藏层中的每个神经元。然后,隐藏层处理这些信号并将处理结果传递到输出层。对于一个输入向量义X=(X1,X2,...Xm),隐藏层中每个神经元的输入和输出信号标记为uj和hj,这两个信号分别可W通过公式(1)和公式(2)算出;
其中Wij是输入层神经元i和隐藏层神经元j之间的权重,θj是偏置。
输出层从隐藏层获取到信号之后同样需要进行后续处理。输出层神经元的输入信号lk和输出信号ck分别由公式(3)和公式(4)计算得出。
其中Vij是输入层神经元j和隐藏层神经元jk之间的权重,γk是偏置。
至此,前向过程的信息处理流程结束。在前向过程中,神经网络模型权重W,V和偏置θ,γ并不发生变化。如果前向处理得出的神经网络最终输出信号与真实信号一致,那么下一个输入向量将被输入到该神经网络并开始新一轮的前向过程。否则,该算法将进入后向过程。这里,将神经网络的最终输出信号和真实信号之间的差值称为偏差(Error)。
(2)后向阶段
在后向过程,首先将采用公式(5)计算出每个输出层神经元的偏差,然后进一步地利用公式(6)计算出每个隐藏层神经元ei的偏差。
dk=(yk-ck)ck(1-ck)(k=1,2,) (5)
偏差从输出层反向回馈到隐藏层。通过送种偏差后向传播方式,利用公式(7)更新输出层和隐藏层的连接权重。进一步地,利用公式(8)更新隐藏层与输入层之间的连接权重。
在上述的公式中,i=1,2,…m;j=1,2,…q;k=1,2,..n。a1和a2是取值范围在0到1的学习率。N表示当前训练轮数的编号。
如图2,本发明实施例提供的非鱼杂交配套系的选育系统包括:数据集成模块1、数据储存模块2、数据管理模块3、数据挖掘模块4;
数据集成模块1,数据集成是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问罗非鱼杂交配套系的相关数据源;
数据管理模块3,利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用的过程;其目的在于充分有效地发挥数据的作用,实现数据有效管理的关键是数据组织;
数据储存模块2,将罗非鱼杂交配套系的相关数据储存在计算机中;
数据挖掘模块4,通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程。
所述数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法为:
假设子空间的维度为d,先挖掘处于不同子空间的不同数据集,其中子空间用矩阵M表示,定义为
假设两个数据集Vi和Vk分别位于两个不同的子空间Mi(i≤d)和Mk(k≤d),其中这两个子空间的欧几里德距离为D(i,k),两个数据集的欧几里德距离为d(i,k),则对于不同子空间的两个数据集的挖掘公式为:
其中:σ表示子空间挖掘因子,P(Vi)、P(Vk),分别表示数据集Vi和数据集Vk的挖掘频率;
对于同一子空间的不同数据集的挖掘,通过不同数据集之间的关联程度进行区分,先通过式
求得K1和K2然后求得在同一空间下数据集Vi和Vk的关联因子:
得到数据集Vi和Vk的关联因子g(i,k)之后,可以得到相同子空间下这两个数据集的挖掘公式为
假设在同一空间Mi下数据集之间关联程度限定阈值T(V),当数据集之间的关联因子g(i,k)大于T(V)时,则这两个数据集具有强相关性,则两个数据集的区分公式写成
当数据集之间的关联因子g(i,k)小于T(V)时,则这两个数据集具有弱相关性,则两个数据集的区分公式写成
作为本发明的优选实施例,所述数据储存模块中采用朴素贝叶斯分类算法为:
设D是训练对象与其相关联的类标号的集合,每个对象用一个n维属性向量X={x1,x2…xn}表示,描述n维属性向量X={x1,x2…xn}表示,描述n个属性A1,A2…An的值,假定原始集合基于n维属性共划分为m个类C1,C2…Cm,计算每个类对X的后验概率,并将对象X归属于具有最高后验概率的类,后验概率P(Ci|X)的计算公式为:
由于P(Ci|X)的计算开销较大,进行类条件独立的假定,给定向量的类标号,并假定属性值有条件的相互独立,P(X|Ci)的计算公式为:
其中,P(x1|Ci)P(x2|Ci)…P(xn|Ci)可以容易地由训练对象求算,Xk表示X在属性Ak上的值,对每个类别Ci计算P(X|Ci)P(Ci),当P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j≠i成立时,X属于类Ci。
作为本发明的优选实施例,所述数据集成模块中采用不完备混合数据的集成聚类算法:
输入:带有缺失值的数据集D、聚类个数k;
输出:最终聚类结果π*(D);
步骤一,对数据集D分别运用平均值填充法、KNN填充法、SKNN填充法填充得到完备数据集D1,D2,D3;
步骤二,对Di(1≤i≤3)分别执行Mi次K-Prototypes聚类算法,得到基聚类结果集Π(D);
步骤三,根据式
计算样本与样本之间的相似度矩阵SMn×n;
步骤四,基于相似度矩阵SMn×n,分别根据以下式:
单链(single link)方法.由2个类中相似度最大的2个样本决定
全链(complete link)方法,由2个类中相似度最小的2个样本决定
组平均(average link)方法,由2个类中所有样本点相似度的平均值决定
式中:样本之间的相似度sim(x,x′)为相似度矩阵SMn×n中的对应元素值;
运行层次聚类算法得到最终的聚类结果π*(D)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种罗非鱼杂交配套系的选育方法,其特征在于,所述罗非鱼杂交配套系的选育方法包括:
处理搜集的相关数据,进行统计分析,建立数据挖掘平台;处理搜集的相关数据采用神经网络训练算法,具体包括:
1)在前向阶段,输入层获取到输入信号并将其传递到隐藏层中的每个神经元;然后,隐藏层处理这些信号并将处理结果传递到输出层;对于一个输入向量义X=(X1,X2,...Xm),隐藏层中每个神经元的输入和输出信号标记为uj和hj,这两个信号分别可W通过公式计算;
其中Wij是输入层神经元i和隐藏层神经元j之间的权重,θj是偏置;
输出层从隐藏层获取到信号之后同样需要进行后续处理;输出层神经元的输入信号lk和输出信号ck分别由公式计算得出;
其中Vij是输入层神经元j和隐藏层神经元jk之间的权重,γk是偏置;在前向过程中,神经网络模型权重W,V和偏置θ,γ并不发生变化;如果前向处理得出的神经网络最终输出信号与真实信号一致,那么下一个输入向量将被输入到该神经网络并开始新一轮的前向过程;否则,该算法将进入后向过程;这里,将神经网络的最终输出信号和真实信号之间的差值称为偏差;
(2)后向阶段
在后向过程,首先将采用公式计算出每个输出层神经元的偏差,然后进一步地利用公式计算出每个隐藏层神经元ei的偏差;
dk=(yk-ck)ck(1-ck)(k=1,2,);
偏差从输出层反向回馈到隐藏层;通过送种偏差后向传播方式,利用公式更新输出层和隐藏层的连接权重;利用公式更新隐藏层与输入层之间的连接权重;
i=1,2,…m;j=1,2,…q;k=1,2,..n;a1和a2是取值范围在0到1的学习率;N表示当前训练轮数的编号。
2.如权利要求1所述的罗非鱼杂交配套系的选育方法,其特征在于,所述罗非鱼杂交配套系的选育方法,具体包括:
通过数据集成模块,将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
通过数据管理模块利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;具体有:收集罗非鱼杂交配套系的相关数据处理搜集的相关数据,进行统计分析,建立数据挖掘平台;搭建人机交互系统;
通过数据储存模块将罗非鱼杂交配套系的相关数据储存在计算机中;
通过数据挖掘模通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识。
3.如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,
收集罗非鱼杂交配套系的相关数据中,相关数据包括:
(1)罗非鱼的种类、数量、生存年份、形态标准、生存环境类数据信息;
(2)选育方案;
(3)基础群组建;
(4)关于专门化品系的选育法;
(5)数个杂交组合的比较试验,筛选组合。
4.如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,数据挖掘模块中基于关联规则映射的罗非鱼生物信息多维数据挖掘算法,进行分析、提取隐含的信息和知识;具体包括:
假设子空间的维度为d,先挖掘处于不同子空间的不同数据集,子空间用矩阵M表示,为:
假设两个数据集Vi和Vk分别位于两个不同的子空间Mi(i≤d)和Mk(k≤d),其中这两个子空间的欧几里德距离为D(i,k),两个数据集的欧几里德距离为d(i,k),则对于不同子空间的两个数据集的挖掘公式为:
其中:σ表示子空间挖掘因子,P(Vi)、P(Vk),分别表示数据集Vi和数据集Vk的挖掘频率;
对于同一子空间的不同数据集的挖掘,通过不同数据集之间的关联程度进行区分,先通过式
求得K1和K2然后求得在同一空间下数据集Vi和Vk的关联因子:
得到数据集Vi和Vk的关联因子g(i,k)之后,得到相同子空间下这两个数据集的挖掘公式为
假设在同一空间Mi下数据集之间关联程度限定阈值T(V),当数据集之间的关联因子g(i,k)大于T(V)时,则这两个数据集具有强相关性,则两个数据集的区分公式写成
当数据集之间的关联因子g(i,k)小于T(V)时,则这两个数据集具有弱相关性,则两个数据集的区分公式写成
5.如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,数据储存模块中采用朴素贝叶斯分类算法将罗非鱼杂交配套系的相关数据储存在计算机中,具体包括:
设D是训练对象与其相关联的类标号的集合,每个对象用一个n维属性向量X={x1,x2…xn}表示,描述n维属性向量X={x1,x2…xn}表示,描述n个属性A1,A2…,An的值,假定原始集合基于n维属性共划分为m个类C1,C2…Cm,计算每个类对X的后验概率,并将对象X归属于具有最高后验概率的类,后验概率P(Ci|X)的计算公式为:
由于P(Ci|X)的计算开销较大,进行类条件独立的假定,给定向量的类标号,并假定属性值有条件的相互独立,P(X|Ci)的计算公式为:
其中,P(xl|Ci)P(x2|Ci)…P(xn|Ci)容易地由训练对象求算,Xk表示X在属性Ak上的值,对每个类别Ci计算P(X|Ci)P(Ci),当P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j≠i成立时,X属于类Ci。
6.如权利要求2所述的罗非鱼杂交配套系的选育方法,其特征在于,数据集成模块中采用不完备混合数据的集成聚类算法将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;具体包括:
输入:带有缺失值的数据集D、聚类个数
输出:最终聚类结果π*(D);
步骤一,对数据集D分别运用平均值填充法、KNN填充法、SKNN填充法填充得到完备数据集D1,D2,D3;
步骤二,对Di(1≤i≤3)分别执行Mi次K-Prototypes聚类算法,得到基聚类结果集Π(D);
步骤三,根据式
计算样本与样本之间的相似度矩阵SMn×n;
步骤四,基于相似度矩阵SMn×n,分别根据以下式:
单链(single link)方法.由2个类中相似度最大的2个样本决定
全链(complete link)方法,由2个类中相似度最小的2个样本决定
组平均(average link)方法,由2个类中所有样本点相似度的平均值决定
式中:样本之间的相似度sim(x,x′)为相似度矩阵SMn×n中的对应元素值;
运行层次聚类算法得到最终的聚类结果π*(D)。
7.一种罗非鱼杂交配套系的选育计算机程序,其特征在于,所述罗非鱼杂交配套系的选育计算机程序实现权利要求1~6任意一项所述的罗非鱼杂交配套系的选育方法。
8.一种终端,其特征在于,所述终端至少搭载实现权利要求1~6任意一项所述的罗非鱼杂交配套系的选育方法的控制器。
9.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的罗非鱼杂交配套系的选育方法。
10.一种实施权利要求1所述罗非鱼杂交配套系的选育方法的罗非鱼杂交配套系的选育系统,其特征在于,所述罗非鱼杂交配套系的选育系统包括数据集成模块、数据储存模块、数据管理模块、数据挖掘模块;
数据集成模块,用于将互相关联的分布式异构数据源集成到一起,使用户以透明的方式访问罗非鱼杂交配套系的相关数据源;
数据管理模块,用于利用计算机硬件和软件技术对罗非鱼杂交配套系的相关数据进行有效的收集、存储、处理和应用;实现数据有效管理;
数据储存模块,用于将罗非鱼杂交配套系的相关数据储存在计算机中;
数据挖掘模块,用于通过对大量的罗非鱼杂交配套系的相关数据进行分析,提取隐含的信息和知识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811146505.3A CN109034392A (zh) | 2018-09-29 | 2018-09-29 | 一种罗非鱼杂交配套系的选育方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811146505.3A CN109034392A (zh) | 2018-09-29 | 2018-09-29 | 一种罗非鱼杂交配套系的选育方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109034392A true CN109034392A (zh) | 2018-12-18 |
Family
ID=64614941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811146505.3A Pending CN109034392A (zh) | 2018-09-29 | 2018-09-29 | 一种罗非鱼杂交配套系的选育方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109034392A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110063298A (zh) * | 2019-05-30 | 2019-07-30 | 江西正邦科技股份有限公司 | 一种基于大数据的种猪选育工艺 |
CN110892879A (zh) * | 2019-12-05 | 2020-03-20 | 刘宝祥 | 二元杂交培育方法与训练方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
CN105379647A (zh) * | 2015-10-23 | 2016-03-09 | 广西壮族自治区水产科学研究院 | 一种基于家系选育的罗非鱼保种方法 |
CN106818546A (zh) * | 2016-12-05 | 2017-06-13 | 广西壮族自治区水产科学研究院 | 一种高繁型尼奥罗非鱼杂交配套系的选育方法 |
-
2018
- 2018-09-29 CN CN201811146505.3A patent/CN109034392A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
CN105379647A (zh) * | 2015-10-23 | 2016-03-09 | 广西壮族自治区水产科学研究院 | 一种基于家系选育的罗非鱼保种方法 |
CN106818546A (zh) * | 2016-12-05 | 2017-06-13 | 广西壮族自治区水产科学研究院 | 一种高繁型尼奥罗非鱼杂交配套系的选育方法 |
Non-Patent Citations (4)
Title |
---|
史倩玉 等: "一种不完备混合数据集成聚类算法", 《计算机研究与发展》 * |
唐晓东: "基于关联规则映射的生物信息网络多维数据挖掘算法", 《计算机应用研究》 * |
张锐: "Android环境下恶意软件静态检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
顾荣: "大数据处理技术与系统研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110063298A (zh) * | 2019-05-30 | 2019-07-30 | 江西正邦科技股份有限公司 | 一种基于大数据的种猪选育工艺 |
CN110892879A (zh) * | 2019-12-05 | 2020-03-20 | 刘宝祥 | 二元杂交培育方法与训练方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210173817A1 (en) | Method and system for large scale data curation | |
CN111240662B (zh) | 一种基于任务可视化拖拽的spark机器学习系统及学习方法 | |
US20170213127A1 (en) | Method and System for Discovering Ancestors using Genomic and Genealogic Data | |
CN110008259A (zh) | 可视化数据分析的方法及终端设备 | |
CN109739850A (zh) | 一种档案大数据智能分析清洗挖掘系统 | |
CN107368700A (zh) | 基于计算云平台的微生物多样性交互分析系统及其方法 | |
CN111627552B (zh) | 一种医疗流式数据血缘关系分析、存储方法及装置 | |
Peters et al. | An integrated view of complex landscapes: a big data-model integration approach to transdisciplinary science | |
CN107391963A (zh) | 基于计算云平台的真核无参转录组交互分析系统及其方法 | |
Rahman et al. | Discretization of continuous attributes through low frequency numerical values and attribute interdependency | |
CN112835570A (zh) | 一种基于机器学习的可视化数学建模方法和系统 | |
CN107944465A (zh) | 一种适用于大数据的无监督快速聚类方法及系统 | |
CN117423391A (zh) | 一种基因调控网络数据库的建立方法、系统及设备 | |
CN109034392A (zh) | 一种罗非鱼杂交配套系的选育方法及系统 | |
Chen et al. | Predicting user retweeting behavior in social networks with a novel ensemble learning approach | |
CN114399634B (zh) | 基于弱监督学习的三维图像分类方法、系统、设备及介质 | |
Cao | Design and optimization of a decision support system for sports training based on data mining technology | |
Chegini et al. | An agriprecision decision support system for weed management in pastures | |
CN110837859A (zh) | 一种融合多维度医疗数据的肿瘤精细分类系统及方法 | |
Rahdari et al. | Analysis of online user behaviour for art and culture events | |
Alberink et al. | Repeatability and reproducibility of earprint acquisition | |
Gao et al. | Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm | |
Li | [Retracted] Research on the Social Security and Elderly Care System under the Background of Big Data | |
Wang | CPSO: Chaotic Particle Swarm Optimization for Cluster Analysis | |
CN111291102A (zh) | 一种政务数据挖掘的高性能规模统计计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181218 |