CN116506444B

CN116506444B - 一种基于深度强化学习与信誉机制的区块链稳定分片方法

Info

Publication number: CN116506444B
Application number: CN202310768589.9A
Authority: CN
Inventors: 罗熊; 李耀宗; 马铃
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-10-17
Anticipated expiration: 2043-06-28
Also published as: CN116506444A

Abstract

本发明公开了一种基于深度强化学习与信誉机制的区块链稳定分片方法，属于区块链技术领域，包括：构建分片区块链系统；在分片区块链系统中构建马尔可夫决策模型；构建基于信誉机制的分片区块链系统的稳定性评价指标，根据各个区块链节点的行为表现计算分片区块链系统的系统稳定性因子；根据分片区块链系统的系统稳定性因子，通过马尔可夫决策模型为分片区块链系统提供分片策略；根据分片数量和节点片区划分方式进行片区划分，将各个片区内的区块链节点作为成员节点组成片内共识委员会，将各个片内共识委员会的主节点组成最终共识委员会。通过片内共识委员会完成片内共识，通过最终共识委员会完成最终共识，更新系统稳定性因子，进行下一轮共识。

Description

一种基于深度强化学习与信誉机制的区块链稳定分片方法

技术领域

本发明属于区块链技术领域，具体涉及一种基于深度强化学习与信誉机制的区块链稳定分片方法。

背景技术

随着物联网设备与传输数据的爆炸式增长，传统区块链技术难以满足高通量和高可扩展性方面的需求，分片技术被认为是一种用来解决区块链系统可扩展性问题的代表性方法。在区块链应用场景中，分片技术是指将所有节点划分成若干个子网络，每个子网络构成一个分片，其中不同分片并行运行，各个分片只需要处理部分事务。根据实现方式不同，分片技术可分为网络分片、事务分片以及状态分片。在物联网等对可扩展性有较高要求的应用场景中，区块链分片技术可以随节点数量增加实现事务吞吐量的线性增长。

ELASTICO是第一个基于分片技术的区块链系统，其提出的针对无许可区块链的安全分片协议是目前随机分片策略的基础。现有的分片区块链系统如OmniLedger和RapidChain等均采用了类似的随机分片策略，即通过竞争求解简单工作量证明（proof ofwork, PoW）过程确立节点身份，完成共识委员会的组建。每个节点的片号ID是根据求解简单PoW问题计算结果的后s位随机产生，各节点被分配到不同片区的概率相同。

然而，现有的区块链分片技术忽视了不同片区节点计算资源与通信性能上的差异，使得表现最差的片区成为提升系统性能的瓶颈。另外，在区块链系统运行过程中，难以保证所有节点都能作为诚实节点正常参与共识过程，传统随机分片策略导致单个片区的故障节点数量存在不确定性，增加了系统整体安全风险。现有的分片区块链系统缺乏对节点行为的有效评估方式，并难以根据节点及共识组的整体共识表现及时调整系统运行策略。

发明内容

为了解决现有技术缺乏对节点行为的有效评估方式，并难以根据节点及共识组的整体共识表现及时调整系统运行策略的技术问题，本发明提供一种基于深度强化学习与信誉机制的区块链稳定分片方法。

本发明提供一种基于深度强化学习与信誉机制的区块链稳定分片方法，包括：

S101：构建分片区块链系统，其中，分片区块链系统包括N个区块链节点，各个区块链节点按照预设的行为模式参与到共识过程中，共识过程包括片内共识阶段和最终共识阶段；

S102：在分片区块链系统中构建马尔可夫决策模型；

S103：构建基于信誉机制的分片区块链系统的稳定性评价指标，根据各个区块链节点的行为表现计算分片区块链系统的系统稳定性因子；

S104：根据分片区块链系统的系统稳定性因子，通过马尔可夫决策模型为分片区块链系统提供分片策略，分片策略包括分片数量和节点片区划分方式；

S105：分片区块链系统根据分片数量和节点片区划分方式进行片区划分，将各个片区内的区块链节点作为成员节点组成片内共识委员会，将各个片内共识委员会的主节点组成最终共识委员会；

S106：通过片内共识委员会完成片内共识，通过最终共识委员会完成最终共识，更新系统稳定性因子，回到S104进行下一轮共识。

与现有技术相比，本发明至少具有以下有益技术效果：

在本发明中，构建基于信誉机制的分片区块链系统的稳定性评价指标，根据各个区块链节点的行为表现计算分片区块链系统的系统稳定性因子，对各个区块链节点的行为表现进行评价。根据系统稳定性因子，通过马尔可夫决策模型为分片区块链系统提供分片策略，调整系统运行策略，提升系统运行安全性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种基于深度强化学习与信誉机制的区块链稳定分片方法的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例一

参考图1，图1示出了本发明提供的一种基于深度强化学习与信誉机制的区块链稳定分片方法的流程示意图。

本发明提供的一种基于深度强化学习与信誉机制的区块链稳定分片方法，包括：

S101：构建分片区块链系统。

其中，分片区块链系统包括N个区块链节点，各个区块链节点按照预设的行为模式参与到共识过程中，共识过程包括片内共识阶段和最终共识阶段。在片内共识阶段，各片区主节点将片内事务收集打包并创建本地区块，在片内进行一个完整的实用拜占庭容错共识过程。在最终共识阶段由最终共识委员会从各个分片中接收本地区块，并将其合并成一个最终区块，在经过与片内共识相同的实用拜占庭容错共识过程后在整个区块链网络中广播最终区块，完成区块上链。

其中，各个区块链节点拥有固定计算资源，各个区块链节点之间的传输速率会随状态转移矩阵的变化而动态变化。

其中，区块链节点包括正常节点和故障节点，故障节点可以理解为未能正常参与到共识过程的节点，故障节点在共识委员会运行共识机制时，其将出现传播错误信息或故意拒绝响应等行为，进而显著提升共识延迟。故障节点具有三级风险等级。

在故障节点的故障概率大于第一预设概率的情况下，将故障节点的风险等级确定为一级风险等级。一级风险等级的故障节点只会偶尔拒绝响应。

在故障节点的故障概率大于第二预设概率的情况下，将故障节点的风险等级确定为二级风险等级。二级风险等级的故障节点会拒绝响应或主动传播错误消息。

在故障节点的故障概率大于第三预设概率的情况下，将故障节点的风险等级确定为三级风险等级。

其中，第一预设概率可以为30%，第二预设概率可以为60%，第三预设概率可以为90%。本领域技术人员可以根据实际需要设置第一预设概率、第二预设概率和第三预设概率的具体大小，本发明不做限定。

需要说明的是，当共识委员会内潜在故障节点数量比例接近1/3时，会显著提升自身故障概率，因此，应当尽量减少共识委员会中参与共识的故障节点的数量。

其中，所有故障节点被预设风险等级，高风险节点将具备更高的故障概率，并展现出不同的恶意行为，而低风险节点则只是偶尔拒绝响应，并不会主动破坏共识过程；所有故障节点在仿真开始前被随机初始化，并参与分片区块链系统共识过程。

S102：在分片区块链系统中构建马尔可夫决策模型。

其中，马尔可夫决策模型（Markov Decision Process，简称MDP）是一种用于建模具有随机性的决策过程的数学框架，由马尔可夫链（Markov chain）和决策理论相结合而成的，被广泛应用于人工智能、运筹学、控制理论等领域。

需要说明的是，马尔可夫决策模型可以对环境、状态、动作、奖励函数等强化学习基本要素进行形式化定义；马尔可夫决策模型根据当前环境状态选择动作，调整分片策略、区块大小、区块间隔等关键参数；系统按照当前参数设置进行共识过程，根据共识延迟、安全性、稳定性约束条件与整体事务吞吐量计算奖励，并按照当前状态与状态转移矩阵进行状态更新；基于竞争架构Q网络（dueling deep Q-learning network）进行马尔可夫决策模型训练，实现根据当前环境状态动态调整合适的区块链分片与运行策略。

在一种可能的实施方式中，马尔可夫决策模型包括：状态空间S(t)。

状态空间S(t)为各个区块链节点的计算资源C、节点间链路数据传输速率R以及节点信誉历史组成的集合，状态空间S(t)可表示为：

其中，表示第i个区块链节点所拥有的计算资源。/>表示第i个区块链节点到第j个区块链节点间链路的数据传输速率。/>表示第i个区块链节点在过去第p次共识中的信誉值。

在一种可能的实施方式中，马尔可夫决策模型还包括：动作空间A(t)。

动作空间A(t)为分片数量K、节点片区划分方式D、区块大小、区块间隔/>组成的集合，动作空间A(t)可表示为：

其中，分片数量K与节点片区划分方式D共同构成分片区块链系统的分片策略，在分片阶段首先确定本次划分片区数量K，将各个片区从1到K进行编号。然后为所有节点分配所属片区，表示第i个节点被划分到编号为k的片区，/>表示区块大小，/>表示区块间隔，其取值空间为从0到预设最大值之间按一定间隔均匀分布的有限个数的集合。

在一种可能的实施方式中，马尔可夫决策模型还包括：奖励函数R。

奖励函数R包括目标函数和约束条件，目标函数和约束条件可表示为：

其中，表示Deep Q-Learning算法中的动作价值函数，C1为共识延迟约束条件，C2为安全性约束条件, />表示共识延迟，/>表示区块间隔，w表示共识成功所需满足的最大区块间隔数量。

其中，最优动作价值函数表示马尔可夫决策模型在状态S下执行动作A后按照任意策略所能获得奖励的最大期望：

其中，表示折扣因子，/>表示动作策略，/>表示马尔可夫决策模型获得的即时奖励，/>的计算公式为：

其中，表示系统稳定性因子。在马尔可夫决策模型同时满足C1与C2约束条件的情况下，可获得即时奖励，否则，即时奖励置零。

S103：构建基于信誉机制的分片区块链系统的稳定性评价指标，根据各个区块链节点的行为表现计算分片区块链系统的系统稳定性因子。

可选地，系统稳定性因子可以根据节点的可用性、响应时间、区块确认速度、交易处理能力等进行综合计算而来。

在本发明中，可以根据各个区块链节点的行为表现计算分片区块链系统的系统稳定性因子，建立基于信誉机制的分片区块链共识过程与系统整体稳定性评价标准，实现对破坏共识行为的有效监控与提前预防。

在一种可能的实施方式中，S103具体包括子步骤S1031至S1033：

S1031：计算各个区块链节点在共识过程中各个周期的信誉值。

进一步地，S1031具体包括：

根据区块链节点在第t+1个周期的身份和行为特征以及在第t个周期的信誉值，计算区块链节点在第t+1个周期的信誉值：

其中，a表示奖励系数，用来控制正常节点的信誉值的增加程度。和/>表示惩罚系数，用来控制故障节点的信誉值的降低程度。id表示区块链节点的身份系数，用于根据区块链节点的身份重要性对奖励系数和惩罚系数进行相应调整。γ(t) 表示区块链节点在第t周期的信誉值。

需要说明的是，在分片区块链系统中，区块链节点只能以三种身份参与共识过程，按照对共识过程的贡献与影响程度从高到低分别为普通节点、片内主节点和最终主节点。在一轮共识过程中，拥有更重要身份节点的信誉值变化程度更为剧烈。同时系统还将记录所有节点最近一段时间的信誉值变化情况，作为信誉历史以用于调整区块链系统分片策略和关键参数。

当新成员节点获得准入资格并加入区块链系统时，其将获得系统分配的初始信誉值。在每次共识过程之前，马尔可夫决策模型根据当前环境状态选择分片策略，系统根据基于深度强化学习的分片策略完成节点分配与身份建立。在共识过程中系统评估所有节点的共识行为，根据前一周期中的节点身份与行为计算节点的当前信誉值，并将其加入到记录的信誉历史中。

S1032：根据共识委员会中所有成员节点的信誉历史，评估共识委员会的整体信誉值。

共识委员会包括片内共识委员会和最终共识委员会。

具体而言，根据片内共识委员会中所有成员节点的信誉历史，评估片内共识委员会的整体信誉值。根据最终共识委员会中所有成员节点的信誉历史，评估最终共识委员会的整体信誉值。

进一步地，S1032具体包括：

根据共识委员会中所有成员节点的信誉历史，评估共识委员会的整体信誉值：

其中，N表示共识委员会中成员节点的数量，代表信誉历史的长度，/>表示第i个节点在第j个周期中的信誉值。

S1033：根据片内共识委员会的整体信誉值和最终共识委员会的整体信誉值根据各个区块链节点的行为表现计算分片区块链系统的系统稳定性因子。

进一步地，S1033具体包括：

根据片内共识委员会的整体信誉值和最终共识委员会的整体信誉值根据各个区块链节点的行为表现计算分片区块链系统的系统稳定性因子：

其中，表示第k个片内共识委员会的整体信誉值，并由所有片内共识委员会的整体信誉值的最低值代表分片区块链系统在片内共识阶段的稳定性，/>表示最终共识委员会的整体信誉值，代表分片区块链系统在最终共识阶段的稳定性，/>表示比例因子，用于调整片内共识委员会的整体信誉值和最终共识委员会的整体信誉值的权重。

S104：根据分片区块链系统的系统稳定性因子，通过马尔可夫决策模型为分片区块链系统提供分片策略。

其中，分片策略包括分片数量和节点片区划分方式。

需要说明的是，马尔可夫决策模型通过与环境不断交互来学习动作策略，在共识开始之前根据当前环境状态选择最优动作，为系统提供包括片区数量与节点分配在内的分片策略，并对区块大小与区块间隔进行合理调整。区块链节点根据所分配片区与身份完成共识委员会组建，并按照设定的区块大小与区块间隔处理事务，使得分片区块链系统可以有效避免故障节点带来的安全风险，在较稳定状态下达到更高的事务吞吐量性能。

在本发明中，将原有的随机分片策略改为基于深度强化学习的分片策略，根据系统当前运行状态动态调整分片数量与节点片区划分，解决随机分片策略导致的片区性能瓶颈与安全风险问题。

在一种可能的实施方式中，S104具体包括子步骤S1041至S104G：

S1041：初始化马尔可夫决策模型中的evaluation Q-network与target Q-network的网络结构，evaluation Q-network的网络参数为，target Q-network的网络参数为/>。

S1042：初始化经验回放池、最大训练周期、探索周期/>以及更新周期/>。

S1043：初始化节点数量为N的分片区块链系统仿真环境，设置状态空间S、动作空间A和奖励函数R。

需要说明的是，分片区块链系统共有包括正常节点与故障节点在内的N个区块链节点。在环境初始化阶段，系统为每个节点分配计算资源，并设置节点间数据传输速率，获得准入资格的节点将在首次参与共识之前获得初始信誉值。为了模拟分片区块链系统可能面临的安全挑战，环境随机生成特定比例的故障节点，每个故障节点都拥有各自的风险等级，用于区分其故障概率和恶意行为。故障节点根据预定义的行为模式与其它节点共同参与共识过程。在一个完整的仿真周期中，深度强化学习马尔可夫决策模型首先根据当前状态选择动作，环境根据马尔可夫决策模型的分片策略进行片区划分与节点共识身份建立，并同时确定片内主要节点与最终共识委员会。在两阶段共识过程完成后，根据共识延迟与安全性约束条件来计算实际事务吞吐量。环境根据事务吞吐量和基于信誉的稳定性指标计算并返回即时奖励。最后系统根据当前状态与状态转移矩阵获得下一状态，同时更新所有节点的信誉历史。

S1044：设置初始时刻t=0，且t小于最大训练周期。

S1045：在当前时刻t小于探索周期的情况下，则马尔可夫决策模型按照随机策略选择动作A(t)。

S1046：在当前时刻t大于或者等于探索周期的情况下，马尔可夫决策模型根据当前状态S(t)和/>策略选择动作A(t)。

S1047：仿真环境首先根据马尔可夫决策模型所选择动作A(t)，确定分片数量与各成员节点片区划分，将各个片区内的区块链节点作为成员节点组成片内共识委员会，将各个片内共识委员会的主节点组成最终共识委员会，分片区块链系统对本次共识过程中各个区块链节点的行为进行评估，并更新节点信誉历史。

S1048：仿真环境通过当前分片数量、区块大小与区块按照预设频率计算系统事务吞吐量，并根据共识延迟、安全性与稳定性约束条件给出当前时刻的即时奖励。

S1049：根据当前状态与状态转移矩阵得到系统下一状态/>。

S104A：将由当前状态、当前动作/>、当前奖励/>和下一状态所构成的四元组/>存入经验回放池中。

S104B：随机从经验回放池中选出一批次的样本记录。

S104C：计算作为目标Q值target Q-value，为根据target Q-network所选择动作。

S104D：计算损失函数，并通过反向传播来训练评估网络evaluation Q-network。

S104E：每隔个训练周期，将evaluation Q-network参数/>赋值给target Q-network参数/>。

S104F：将下一周期状态赋值给当前周期/>，完成系统状态转移。

S104G：时刻，回到S1045。

在本发明中，将分片策略、区块大小以及区块间隔整合为深度强化学习马尔可夫决策模型动作空间，并引入dueling deep Q-learning架构提升了模型性能与稳定性。相比其他方案，本发明可以有效阻止有预谋、集群式的恶意攻击，改善非安全环境下分片区块链系统的稳定性，并能达到较高的事务吞吐量性能。

S105：分片区块链系统根据分片数量和节点片区划分方式进行片区划分，将各个片区内的区块链节点作为成员节点组成片内共识委员会，将各个片内共识委员会的主节点组成最终共识委员会。

与现有技术相比，本发明至少具有以下有益技术效果：

本发明不局限于以上实施例的具体技术方案，除上述实施例外，本发明还可以有其他实施方案。凡采用等同替换形成的技术方案，均为本发明要求的保护范围。

Claims

1.一种基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，包括：

S101：构建分片区块链系统，其中，所述分片区块链系统包括N个区块链节点，各个所述区块链节点按照预设的行为模式参与到共识过程中，所述共识过程包括片内共识阶段和最终共识阶段；

S102：在所述分片区块链系统中构建马尔可夫决策模型；

S103：构建基于信誉机制的所述分片区块链系统的稳定性评价指标，根据各个所述区块链节点的行为表现计算所述分片区块链系统的系统稳定性因子；

S104：根据所述分片区块链系统的系统稳定性因子，通过所述马尔可夫决策模型为所述分片区块链系统提供分片策略，所述分片策略包括分片数量和节点片区划分方式；

S105：所述分片区块链系统根据分片数量和节点片区划分方式进行片区划分，将各个片区内的区块链节点作为成员节点组成片内共识委员会，将各个所述片内共识委员会的主节点组成最终共识委员会；

S106：通过所述片内共识委员会完成片内共识，通过所述最终共识委员会完成最终共识，更新所述系统稳定性因子，回到S104进行下一轮共识。

2.根据权利要求1所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述区块链节点包括正常节点和故障节点，所述故障节点具有三级风险等级；

在所述故障节点的故障概率大于第一预设概率的情况下，将所述故障节点的风险等级确定为一级风险等级；

在所述故障节点的故障概率大于第二预设概率的情况下，将所述故障节点的风险等级确定为二级风险等级；

在所述故障节点的故障概率大于第三预设概率的情况下，将所述故障节点的风险等级确定为三级风险等级。

3.据权利要求1所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述马尔可夫决策模型包括：状态空间S(t)；

所述状态空间S(t)为各个所述区块链节点的计算资源C、节点间链路数据传输速率R以及节点信誉历史组成的集合，所述状态空间S(t)可表示为：

；

其中，表示第i个区块链节点所拥有的计算资源；/>表示第i个区块链节点到第j个区块链节点间链路的数据传输速率；/>表示第i个区块链节点在过去第p次共识中的信誉值。

4.根据权利要求3所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述马尔可夫决策模型还包括：动作空间A(t)；

所述动作空间A(t)为分片数量K、节点片区划分方式D、区块大小、区块间隔/>组成的集合，所述动作空间A(t)可表示为：

；

其中，分片数量K与节点片区划分方式D共同构成所述分片区块链系统的分片策略，在分片阶段首先确定本次划分片区数量K，将各个片区从1到K进行编号；然后为所有节点分配所属片区，表示第i个节点被划分到编号为k的片区，/>表示区块大小，/>表示区块间隔，其取值空间为从0到预设最大值之间按一定间隔均匀分布的有限个数的集合。

5.根据权利要求4所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述马尔可夫决策模型还包括：奖励函数R；

所述奖励函数R包括目标函数和约束条件，所述目标函数和所述约束条件可表示为：

；

其中，表示Deep Q-Learning算法中的动作价值函数，C1为共识延迟约束条件，C2为安全性约束条件,/>表示共识延迟，/>表示区块间隔，w表示共识成功所需满足的最大区块间隔数量；

其中，最优动作价值函数表示所述马尔可夫决策模型在状态S下执行动作A后按照任意策略所能获得奖励的最大期望：；

其中，表示折扣因子，/>表示动作策略，/>表示所述马尔可夫决策模型获得的即时奖励，/>的计算公式为：

；

其中，表示系统稳定性因子；在所述马尔可夫决策模型同时满足C1与C2约束条件的情况下，可获得即时奖励，否则，所述即时奖励置零；/>表示区块大小。

6.根据权利要求1所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述S103具体包括：

S1031：计算各个所述区块链节点在共识过程中各个周期的信誉值；

S1032：根据共识委员会中所有成员节点的信誉历史，评估共识委员会的整体信誉值，所述共识委员会包括片内共识委员会和最终共识委员会；

S1033：根据所述片内共识委员会的整体信誉值、所述最终共识委员会的整体信誉值、以及各个所述区块链节点的行为表现，计算所述分片区块链系统的系统稳定性因子。

7.根据权利要求6所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述S1031具体包括：

根据所述区块链节点在第t+1个周期的身份和行为特征以及在第t个周期的信誉值，计算所述区块链节点在第t+1个周期的信誉值：

；

其中，a表示奖励系数，用来控制正常节点的信誉值的增加程度；b ₁和b ₂表示惩罚系数，用来控制故障节点的信誉值的降低程度；id表示所述区块链节点的身份系数，用于根据所述区块链节点的身份重要性对所述奖励系数和所述惩罚系数进行相应调整；γ(t) 表示所述区块链节点在第t周期的信誉值。

8.根据权利要求7所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述S1032具体包括：

；

其中，N表示所述共识委员会中成员节点的数量，l代表信誉历史的长度，表示第i个节点在第j个周期中的信誉值。

9.根据权利要求8所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述S1033具体包括：

根据所述片内共识委员会的整体信誉值、所述最终共识委员会的整体信誉值、以及各个所述区块链节点的行为表现，计算所述分片区块链系统的系统稳定性因子：

；

其中，表示第k个片内共识委员会的整体信誉值，并由所有片内共识委员会的整体信誉值的最低值代表所述分片区块链系统在片内共识阶段的稳定性，/>表示最终共识委员会的整体信誉值，代表所述分片区块链系统在最终共识阶段的稳定性，/>表示比例因子，用于调整所述片内共识委员会的整体信誉值和所述最终共识委员会的整体信誉值的权重。

10.根据权利要求1所述的基于深度强化学习与信誉机制的区块链稳定分片方法，其特征在于，所述S104具体包括：

S1041：初始化所述马尔可夫决策模型中的evaluationQ-network与targetQ-network的网络结构，evaluationQ-network的网络参数为，targetQ-network的网络参数为/>；

S1042：初始化经验回放池、最大训练周期、探索周期/>以及更新周期/>；

S1043：初始化节点数量为N的分片区块链系统仿真环境，设置状态空间S、动作空间A和奖励函数R；

S1044：设置初始时刻t=0，且t小于最大训练周期；

S1045：在当前时刻t小于探索周期的情况下，则所述马尔可夫决策模型按照随机策略选择动作A(t)；

S1046：在当前时刻t大于或者等于所述探索周期的情况下，所述马尔可夫决策模型根据当前状态S(t)和/>策略选择动作A(t)；

S1047：仿真环境首先根据所述马尔可夫决策模型所选择动作A(t)，确定分片数量与各成员节点片区划分，将各个片区内的区块链节点作为成员节点组成片内共识委员会，将各个所述片内共识委员会的主节点组成最终共识委员会，所述分片区块链系统对本次共识过程中各个区块链节点的行为进行评估，并更新节点信誉历史；

S1048：仿真环境通过当前分片数量、区块大小与区块按照预设频率计算系统事务吞吐量，并根据共识延迟、安全性与稳定性约束条件给出当前时刻的即时奖励；

S1049：根据当前状态与状态转移矩阵得到系统下一状态/>；

S104A：将由当前状态、当前动作/>、当前奖励/>和下一状态所构成的四元组/>存入经验回放池中；

S104B：随机从经验回放池中选出一批次的样本记录；

S104C：计算作为目标Q值target Q-value，/>为根据target Q-network所选择动作；

S104D：计算损失函数，并通过反向传播来训练评估网络evaluationQ-network；

S104E：每隔个训练周期，将evaluationQ-network参数/>赋值给targetQ-network参数/>；

S104F：将下一周期状态赋值给当前周期/>，完成系统状态转移；

S104G：时刻，回到S1045。