CN117272982A

CN117272982A - 基于大型语言模型的协议文本检测方法及装置

Info

Publication number: CN117272982A
Application number: CN202311206343.9A
Authority: CN
Inventors: 鲍梦瑶; 刘佳伟; 章鹏; 张谦; 杨仁慧
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-22

Abstract

本说明书实施例提供了基于大型语言模型的协议文本检测方法及装置。该方法包括：从预设的多个要素中确定目标协议文本(例如与隐私数据有关的协议文本等)中的目标段落对应的目标要素；其中，该多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板；基于目标段落和目标要素对应的提词模板生成目标提词；将目标提词输入大型语言模型，使得大型语言模型进行与目标要素有关的推理，并输出推理结果。

Description

基于大型语言模型的协议文本检测方法及装置

技术领域

本说明书实施例属于计算机技术领域，尤其涉及基于大型语言模型的协议文本检测方法及装置。

背景技术

数据资产(Data Asset)可以指由企业拥有或者控制的，能够为企业带来未来经济利益的，以物理或电子的方式记录的数据资源，如文件资料、电子数据等。目前，企业可以使用和处理数据资产，例如有关个人隐私数据信息的数据资产，并且还可以与个人或其他企业等签署与数据资产有关的协议。

发明内容

本发明的目的在于提供一种基于大型语言模型的协议文本检测方案，能利用大型语言模型的泛化能力，实现少样本/零样本场景下的协议文本自动化解析，显著降低协议文本解析成本。

本说明书第一方面提供一种基于大型语言模型的协议文本检测方法，包括：从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素；其中，所述多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板；基于所述目标段落和所述目标要素对应的提词模板生成目标提词；将所述目标提词输入所述大型语言模型，使得所述大型语言模型进行与所述目标要素有关的推理，并输出推理结果。

本说明书第二方面提供一种基于大型语言模型的协议文本检测装置，包括：确定单元，被配置成从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素；其中，所述多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板；生成单元，被配置成基于所述目标段落和所述目标要素对应的提词模板生成目标提词；推理单元，被配置成将所述目标提词输入所述大型语言模型，使得所述大型语言模型进行与所述目标要素有关的推理，并输出推理结果。

本说明书第三方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行如第一方面描述的方法。

本说明书第四方面提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现如第一方面描述的方法。

本说明书第五方面提供一种计算机程序产品，当该计算机程序产品在计算机中执行时，令计算机执行如第一方面描述的方法。

在本说明书实施例提供的方案中，可以从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素；其中，该多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板。之后，可以基于目标段落和目标要素对应的提词模板生成目标提词，并将目标提词输入大型语言模型，使得大型语言模型进行与目标要素有关的推理，并输出推理结果。由此，能基于与要素对应的提词模板生成用于输入大型语言模型的提词，利用大型语言模型的泛化能力，实现少样本/零样本场景下的协议文本自动化解析，显著降低协议文本解析成本。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例可以应用于其中的一个应用场景的示意图；

图2是本说明书实施例中目标协议文本的分段处理过程的示意图；

图3是本说明书实施例中基于大型语言模型的协议文本检测方法的流程图；

图4是本说明书实施例中目标提词的示意图；

图5是本说明书实施例中人工审核与反馈机制的示意图；

图6是本说明书实施例中操作行为数据的检测过程的示意图；

图7是本说明书实施例中基于大型语言模型的协议文本检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

如前所述，企业可以使用和处理数据资产，例如有关个人隐私数据信息的数据资产，并且还可以与个人或其他企业等签署与数据资产有关的协议。

实践中，可以根据实际需求对协议文本进行检测。例如，可以对协议文本进行必要条款的检测，以防协议文本缺失对某些必要条款的限定。

另外，数据作为国家基础性战略资源，是大数据产业的核心和命脉。为了规范数据的生成、采集、存储、加工、分析、服务等处理，我国出台了多项法律法规及政策文件。这些法律法规及政策文件一起共同构建了我国的数据治理立法框架，共同维护网络安全和数据安全，促进大数据产业的发展，激活数据要素潜能，加快经济社会发展质量变革、效率变革、动力变革。因此，如何合法合规地收集、处理和应用个人信息应当引起企业更多的重视。为了帮助企业实现数据资产全生命周期的合法合规，规避相关法律风险，帮助监管单位对违法违规进行治理，以及确保协议内容符合相关法律规定，可以对协议文本进行合规检测。

传统的协议文本检测方法通常依赖于人工编写的规则或者基于标注数据的机器学习模型。这些方法存在一些局限性，如规则编写困难、维护成本高、泛化能力差，标注数据获取困难、成本高、覆盖范围有限等。

大型语言模型(Large Language Model，LLM)可以指使用大量文本数据训练的深度神经网络模型，能够根据上下文生成自然语言文本。其中，大型语言模型能进行少样本/零样本学习。少样本学习可以指利用少量的标注数据来训练模型，使其能够适应新的任务或类别。零样本学习可以指在没有任何标注数据的情况下，利用额外的辅助信息来训练模型，使其能够识别未见过的类别。

考虑到大型语言模型在少样本/零样本场景下强大的泛化能力，本说明书实施例提供了一种基于大型语言模型的协议文本检测方案，能利用大型语言模型的泛化能力，实现少样本/零样本场景下的协议文本自动化解析，显著降低协议文本解析成本。

图1是本说明书实施例可以应用于其中的一个应用场景的示意图。在图1所示的应用场景中，可以包括协议文本检测引擎101。协议文本检测引擎101可以用于对协议文本进行自动化解析。

协议文本检测引擎101中可以存储有大型语言模型M、与协议文本有关的多个要素、及该多个要素分别对应的提词模板。在一个例子中，大型语言模型M可以是具有千亿级参数量的大型语言模型。大型语言模型M可以接受定制化的提词输入，并输出文本解析的结果，也即推理结果。实践中，提词(Prompt)可以是一种为了更好的使用预训练语言模型的知识，采用在输入段添加额外的文本的技术。

在本说明书实施例中，单个协议文本可以包括但不限于与隐私数据有关的协议文本，例如包括隐私授权协议或隐私政策等。上述多个要素中的每个要素可以为与协议文本有关的问题。与要素对应的提词模板可以是提词设计人员基于提词工程的相关技术设计的。与要素对应的提词模板可以用于指示进行与该要素有关的推理。在一个例子中，该提词模板例如可以包括但不限于包含该要素和多个备选答案的指令。进一步地，该提词模板还可以包括以下至少一项：示例、用于表征段落的槽位标记等。该示例可供大型语言模型M参考，能引导大型语言模型M更为正确的执行该指令。

需要指出，在需要对协议文本进行合规检测的场景下，协议文本检测引擎101中存储的与与协议文本有关的各个要素可以为合规要素。可以理解，合规要素是用于合规检测的要素。

协议文本检测引擎101中存储的上述各个要素可以是行业专家根据法律法规和相关规定设计的。在一个例子中，本说明书实施例可以涉及若干隐私数据使用场景，上述各个要素可以包括针对该若干隐私数据使用场景分别设计的多个要素。单个隐私数据使用场景例如可以包括以下中的任一项：隐私数据采集场景、隐私数据传输场景、隐私数据存储场景、隐私数据共享场景等。以隐私数据采集场景为例，在需要对隐私数据采集场景下的协议文本进行合规检测的情况下，针对隐私数据采集场景设计的与协议文本有关的多个合规要素例如可以包括，是否声明采集个人姓名，是否声明采集个人身份标识，是否有不合理的免责声明，等等。

在一种实施方式中，如前所述的指令中的各个备选答案可以分别对应标签。在单个提词模板包括示例、指令和用于表征段落的槽位标记的情况下，以“是否有不合理的免责声明”这一合规要素为例，该合规要素对应的提词模板P例如可以为“常见的不合理的免责声明措辞有：本平台不承担任何责任、用户独立承担任何的责任等。请据此判断下面段落中是否有不合理的免责声明，只需回答“包含”或者“不包含”。【对应段落】”。其中，“常见的不合理的免责声明措辞有：本平台不承担任何责任、用户独立承担任何的责任等”为示例，“请据此判断下面段落中是否有不合理的免责声明，只需回答“包含”或者“不包含””为指令，该指令中的“包含”和“不包含”均为备选答案，“【对应段落】”为用于表征段落的槽位标记。备选答案“包含”对应的标签例如可以为“是”，备选答案“不包含”对应的标签例如可以为“否”。应该理解，提词模板中的示例、指令、及指令中的各个备选答案分别对应的标签可以根据实际需求设置，在此不做具体限定。

对于待检测的目标协议文本，在对目标协议文本进行检测之前，可以由协议文本检测引擎101或其他引擎对目标协议文本进行分段处理，得到目标协议文本中的目标段落。之后，协议文本检测引擎101可以针对目标协议文本中的目标段落进行检测。

在对目标协议文本进行分段处理时，可以通过正则表达式和上下文推断技术对目标协议文本进行结构化的解析，解析出目标协议文本的主要章节段落和对应的章节标题。

具体地，参看图2，其是本说明书实施例中目标协议文本的分段处理过程的示意图。

如图2所示，在步骤S201，使用预设的用于检测多种数字序号标识的正则表达式，对目标协议文本进行数字序号标识检测，并从目标协议文本中提取出检测到的数字序号标识和该数字序号标识对应的标题文本。

其中，上述正则表达式可以用于检测多种数字序号标识，例如“1.”、“1)”、“(一)”等。在对目标协议文本进行数字序号标识检测时，可以先将目标协议文本按句或换行符分割，以便逐行处理文本内容。在得到分割出的各个子文本后，可以使用上述正则表达式对该各个子文本分别进行数字序号标识检测，并提取出检测到的数字序号标识和该数字序号标识对应的标题文本。

在步骤S203，对提取出的数字序号标识进行分类。

具体地，可以根据数字序号标识类型对提取出的数字序号标识进行分类。例如，“1.”、“2.”属于一类，“(二)”、“(三)”属于一类。

在步骤S205，基于每类数字序号标识在目标协议文本中的出现顺序，确定提取出的各个标题文本分别对应的级别。

其中，单个级别例如可以为一级、二级或三级等。不同级别的标题文本可以具有以下特点：二级标题文本出现在一级标题文本之后，三级标题文本出现在二级标题文本之后，而一级标题文本有可能出现在二级/三级标题文本之后。

在步骤S207，基于各个标题文本分别对应的级别对目标协议文本进行分段处理。

作为示例，对于目标协议文本中任意的相邻的两个一级标题文本，可以将出现顺序在前的一级标题文本和位于该两个一级标题文本之间的其他文本形成一个目标段落。

图2对应的实施例提供的方案高效灵活，使用正则表达式自动化匹配、解析数字序号标识，可以适应多种文本格式和样式的变化，大幅降低了人工解析的时间和成本。通过数字序号标识的上下文关系分析，能确保每个级别的标题的正确性。另外，可以通过修改正则表达式增加该方案的可扩展性，能够适应更多的文本格式。

图3是本说明书实施例中基于大型语言模型的协议文本检测方法的流程图。该方法可以由协议文本检测引擎101执行。

如图3所示，首先，在步骤S301，从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素；其中，该多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板。

需要说明，在需要对目标协议文本进行合规检测的情况下，上述多个要素可以为多个合规要素。在一个例子中，目标协议文本可以归属于预设的若干隐私数据使用场景中的某个场景，上述多个要素可以是针对该场景配置的。单个隐私数据使用场景可以为以下中的任一项：隐私数据采集场景、隐私数据传输场景、隐私数据存储场景、隐私数据共享场景等。

与要素对应的提词模板可以用于指示进行与该要素有关的推理。在一个例子中，该提词模板例如可以包括但不限于包含该要素和多个备选答案的指令。进一步地，该提词模板还可以包括以下至少一项：示例、用于表征段落的槽位标记等。关于提词模板的详细解释，可参考前文中的相关说明，在此不再赘述。

在一种实施方式中，上述多个要素可以分别对应关键词。该关键词可以包含在其对应的要素中。以“是否有不合理的免责声明”这一合规要素为例，其对应的关键词例如可以为“免责”。再以“是否声明采集个人姓名”这一合规要素为例，其对应的关键词例如可以为“个人姓名”。对于上述多个要素中的要素，若该要素对应的关键词包含在目标段落的段落内容中，则可以将该要素确定为目标段落对应的目标要素。

在步骤S303，基于目标段落和目标要素对应的提词模板生成目标提词。

具体地，可以对目标段落和目标要素对应的提词模板进行拼接，例如将该提词模板拼接到目标段落的头部或尾部，并将拼接结果作为目标提词。或者，在目标要素对应的提词模板包括用于表征段落的槽位标记时，可以将目标段落的段落内容写入该提词模板中的该槽位标记所处的位置，得到目标提词。

以单个提词模板包括示例、指令和用于表征段落的槽位标记为例，假设目标段落的段落内容为“第六条免责条款您理解并同意，**银行一户通在以下情况下不承担责任(包括但不限于)：一、**银行一户通不对本服务提供任何形式的保证，包括但不限于本服务符合您的需求，本服务不受干扰、及时提供或免于出错。二、**银行一户通的合作单位所提供的服务内容及品质由该合作单位自行负责。三、**银行一户通不保证为向会员提供便利而设置的外部链接的准确性和完整性，同时对于该等外部链接指向的不由**银行一户通实际控制的任何网页上的内容，**银行一户通不承担任何责任。四、对于本协议第四条造成的服务变更、中断或终止，**银行一户通不承担责任。五、因以下情况没有正确执行您提交的**银行一户通会员操作指令而造成损失的，**银行一户通不承担任何责任：1、指令信息不明、存在乱码或不完整等；2、您所拥有的产品或服务发生失效、终止等情况；3、其他**银行一户通无过失的情况。六、对于受到计算机病毒、木马或其他恶意程序、黑客攻击所造成的损失。七、您须安全使用账户，妥善保存**银行一户通的用户名、密码，对您保管不善造成的损失**银行一户通不承担责任。”目标段落对应的目标要素为“是否有不合理的免责声明”，该目标要素对应如前所述的提词模板P，将目标段落的段落内容写入提词模板P中的槽位标记“【对应段落】”所处的位置，可以得到如图4所示的目标提词。其中，图4是本说明书实施例中目标提词的示意图。

在步骤S305，将目标提词输入大型语言模型M，使得大型语言模型M进行与目标要素有关的推理，并输出推理结果。

其中，当单个提词模板包括如前所述的指令时，大型语言模型M输出的推理结果可以包括在目标提词中的指令包括的各个备选答案中选择的答案A1。进一步地，该推理结果还可以包括目标段落的段落内容中作用为答案A1的推理依据的内容。

以图4所示的目标提词为例，将该目标提词输入大型语言模型M，能使得大型语言模型M结合该目标提词中的示例“常见的不合理的免责声明措辞有：本平台不承担任何责任、用户独立承担任何的责任等”，通过执行目标提词中的指令“请据此判断下面段落中是否有不合理的免责声明，只需回答“包含”或者“不包含””，对目标段落的段落内容进行是否有不合理的免责声明的推理，并输出推理结果，该推理结果包括从备选答案“包含”和“不包含”中选择的答案A1。应该理解，答案A1为“包含”或者“不包含”。假设答案A1为“包含”，目标段落的段落内容中作用为答案A1的推理依据的内容例如可以包括“三、**银行一户通不保证为向会员提供便利而设置的外部链接的准确性和完整性，同时对于该等外部链接指向的不由**银行一户通实际控制的任何网页上的内容，**银行一户通不承担任何责任。五、因以下情况没有正确执行您提交的**银行一户通会员操作指令而造成损失的，**银行一户通不承担任何责任”。

图3对应的实施例提供的方案，可以从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素；其中，该多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板。之后，可以基于目标段落和目标要素对应的提词模板生成目标提词，并将目标提词输入大型语言模型，使得大型语言模型进行与目标要素有关的推理，并输出推理结果。由此，能基于与要素对应的提词模板生成用于输入大型语言模型的提词，利用大型语言模型的泛化能力，实现少样本/零样本场景下的协议文本自动化解析，显著降低协议文本解析成本。

在一个实施例中，为了确保大型语言模型M的推理结果的可靠性，在获得大型语言模型M输出的推理结果后，可以对该推理结果进行人工审核。例如，可以向结果审核人员提供目标提词和推理结果，以使得结果审核人员审核推理结果中的答案A1的正确性。基于此，图1所示的应用场景还可以包括结果审核人员使用的结果审核装置102，协议文本检测引擎101可以与结果审核装置102通信。

另外，为了提高大型语言模型M的推理准确性，在答案A1未通过人工审核时，可以向提词设计人员进行信息反馈，以提示提词设计人员目标要素对应的提词模板中的示例为错误示例，从而使得提词设计人员优化该提词模板。基于此，图1所示的应用场景还可以包括提词设计人员使用的提词设计装置103，协议文本检测引擎101可以与提词设计装置103通信。

下面，结合图5，介绍本说明书实施例中的人工审核与反馈机制。其中，图5是本说明书实施例中人工审核与反馈机制的示意图。

如图5所示，在步骤S501，协议文本检测引擎101向结果审核装置102发送目标提词和推理结果，以使得结果审核人员审核推理结果中的答案A1的正确性。

需要说明，结果审核装置102可以向结果审核人员展示接收到的目标提词和推理结果，以供结果审核人员基于目标提词，审核推理结果中的答案A1的正确性。在一个例子中，为了方便人工审核，推理结果中还可以包括作用为答案A1的推理依据的内容，结果审核人员可以基于目标提词和该内容，审核答案A1的正确性。结果审核人员在审核答案A1的正确性后，可以向结果审核装置102提交审核结果。其中，该审核结果为审核通过或审核不通过。之后，结果审核装置102可以执行步骤S503。

在一种实施方式中，在审核结果为审核不通过时，结果审核人员可以将错误的答案A1修改为正确的答案A2，并将答案A2归入审核结果。可以理解，答案A2是结果审核人员从目标提词中的指令包括的各个备选答案中选择的。

在步骤S503，结果审核装置102向协议文本检测引擎101发送审核结果，其由结果审核人员在审核推理结果中的答案A1的正确性后提交。

在步骤S505，协议文本检测引擎101确定审核结果是否为审核通过。

作为示例，审核结果中例如可以包括用于指示审核通过或审核不通过的标记，协议文本检测引擎101可以通过识别该标记来确定审核结果是否为审核通过。当审核结果为审核不通过时，协议文本检测引擎101可以执行步骤S507。另外，无论审核结果是审核通过还是审核不通过，协议文本检测引擎101都可以执行步骤S509。

在步骤S507，协议文本检测引擎101响应于审核结果为审核不通过，向提词设计装置103发送用于指示目标合规要素对应的提词模板中的示例为错误示例的反馈信息，以使得提词设计人员优化该提词模板。

需要说明，提词设计装置103在接收到该反馈信息后，可以向提词设计人员展示该反馈信息，以使得提词设计人员优化目标要素对应的提词模板，例如优化该提词模板中的示例。以目标要素对应如前所述的提词模板T为例，提词设计人员例如可以通过修改提词模板T中“常见的不合理的免责声明措辞有：”后的内容进行修正，以提高大型语言模型M的推理准确性。

在步骤S509，协议文本检测引擎101基于审核结果确定目标答案；其中，当审核结果为审核通过时，目标答案为答案A1；当审核结果为审核不通过、且包括结果审核人员提供的答案A2时，目标答案为答案A2。

在步骤S511，协议文本检测引擎101将目标答案对应的标签确定为目标要素对应的目标标签。

根据前文中的描述，提词模板中的指令包括的各个备选答案可以分别对应标签。协议文本检测引擎101在确定出目标答案后，可以将目标答案映射为其对应的标签，并将该标签确定为目标要素对应的目标标签。

图5对应的实施例提供的方案，通过人工审核和反馈机制，可以实现确保大型语言模型M的推理结果的可靠性，以及提高大型语言模型M的推理准确性。

在一个实施例中，目标协议文本可以用于规范用户A对隐私数据的操作行为。其中，用户A例如可以为企业用户。该操作行为例如可以包括以下中的任一种：采集行为、传输行为、存储行为、共享行为等。协议文本检测引擎101的某个下游引擎(如决策引擎)可以用于对基于用户A的该操作行为而产生的操作行为数据进行检测，协议文本检测引擎101通过对目标协议文本进行检测而确定各个目标要素和该各个目标要素分别对应的目标标签，可用于该下游引擎在对该操作行为数据进行检测时参考。

基于此，图1所示的应用场景还可以包括决策引擎104，协议文本检测引擎101可以向决策引擎104提供各个目标要素和其分别对应的目标标签，以供决策引擎104参考。

在一种实施方式中，协议文本检测引擎101还可以存储有与目标协议文本有关的若干规则，单个规则可以包括与上述操作行为有关的义务条件，和包含与协议文本有关的要素的义务要求。其中，该要素包含在如前所述的步骤S301中提及的多个要素中。在一个例子中，当该多个要素为多个合规要素时，该若干规则可称为若干合规规则，该若干合规规则可以提供给决策引擎104，以用于操作行为数据的合规检测。该若干规则可以是行业专家根据法律法规和相关规定设计的。在该多个要素是针对如前所述的若干隐私数据使用场景中的某个场景配置的情况下，该若干规则也可以是针对该场景配置的。

实践中，当企业要采集个人隐私数据时，相关的协议中需要对企业要采集的隐私数据所属的数据类型等做出要求。基于此，当上述若干规则是针对隐私数据采集场景配置的若干合规规则时，用户A对隐私数据的操作行为可以为采集行为，该若干合规规则可以包括合规规则R1和合规规则R2等；其中，合规规则R1中的义务条件例如可以包括数据类型属于个人姓名，义务要求例如可以包括合规要素“是否声明采集个人姓名”和该合规要素对应的标签(例如“是”)；合规规则R2中的义务条件例如可以包括数据类型属于个人身份标识，义务要求例如可以包括合规要素“是否声明采集个人身份标识”和该合规要素对应的标签(例如“是”)。

下面，结合图6，介绍操作行为数据的检测过程。其中，图6是本说明书实施例中操作行为数据的检测过程的示意图。

如图6所示，在步骤S601，协议文本检测引擎101向决策引擎104发送与目标协议文本有关的若干规则，及通过对目标协议文本进行检测而确定的各个目标要素和该各个目标要素分别对应的目标标签。

在步骤S603，对于上述若干规则中的规则，若基于用户A对隐私数据的操作行为而产生的操作行为数据满足该规则中的义务条件，则在各个目标要素中确定包含在该规则的义务要求中的目标要素，基于该目标要素对应的目标标签判断该操作行为数据是否满足该义务要求，并基于判断结果生成检测结果，检测结果用于指示该操作行为数据是否通过该规则。

需要指出，在将操作行为数据与上述若干规则中的任一规则进行匹配时，如果操作行为数据不满足该任一规则中的义务条件，则不需要继续将操作行为数据与该任一规则中的义务要求进行匹配。如果操作行为数据满足该任一规则中的义务条件，则需要继续将操作行为数据与该任一规则中的义务要求进行匹配。

以如前所述的合规规则R1为例，假设操作行为数据基于用户A对个人姓名的采集而产生，该操作行为数据包括用于表征个人姓名的字段名和与该字段名对应的字段值等，通过将该操作行为数据与合规规则R1中的义务条件进行匹配，可以确定该操作行为数据满足该义务条件。而后，可以在各个目标要素中确定包含在合规规则R1的义务要求中的目标要素，例如“是否声明采集个人姓名”。接着，可以基于目标要素“是否声明采集个人姓名”和其对应的目标标签，判断该操作行为数据是否满足该义务要求，并基于判断结果生成检测结果。可以理解，当该目标要素对应的目标标签为“是”时，可以判定该操作行为数据满足该义务要求，从而生成用于指示该操作行为数据通过合规规则R1的检测结果，该检测结果可以表明目标协议文本中声明了采集个人姓名，用户A对个人姓名的采集行为是合规的。另外，当该目标要素对应的目标标签为“否”时，可以判定该操作行为数据不满足该义务要求，从而生成用于指示该操作行为数据未通过合规规则R1的检测结果，该检测结果可以表明目标协议文本中未声明采集个人姓名，用户A对个人姓名的采集行为是不合规的。

在步骤S605，决策引擎104基于生成的各个检测结果生成检测报告。

其中，该检测报告可以包括该各个检测结果。进一步地，该检测报告还可以包括其他信息，例如包括操作行为数据通过的规则的数量和未通过的规则的数量、检测时间等。

在图6对应的实施例提供的方案中，目标要素对应的目标标签是与目标答案对应的标签，该目标答案是基于人工审核结果确定的，具有极高的可靠性。通过将与目标协议文本有关的若干规则、及通过对目标协议文本进行检测而确定的各个目标要素和该各个目标要素分别对应的目标标签提供给决策引擎，以用于操作行为数据自动化检测，能有效提升检测效率和检测结果准确率。

根据前文中的描述，本说明书实施例提出了一种基于大型语言模型的协议文本自动化解析方案，能解决少样本/零样本场景下的协议自动化解析问题。该方案可以利用大型语言模型的泛化能力来解决该问题。预训练好的大型语言模型(如GPT-3.5)已经在海量文本上进行了无监督学习，通过简单而有效地调整提词信息，使其能够完成不同类型和领域的协议文本自动化解析任务，实现从协议文本中提取出关键信息和逻辑关系，并转换为结构化数据，用于下游的决策引擎推理判断。另外，通过增加人工审核和反馈机制，可以实现确保推理结果的可靠性并不断提升模型的推理准确性。该方案使用要素(如合规要素)和规则(如合规规则)作为决策逻辑的定义方式，增加了可配置性和可扩展性。

图7是本说明书实施例中基于大型语言模型的协议文本检测装置的结构示意图。该装置例如可以应用于如前所述的协议文本检测引擎101。该装置可以执行如图2、图3、图5、图6分别所示的方法。该装置可以包括：确定单元701，被配置成从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素；其中，该多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板；生成单元702，被配置成基于目标段落和目标要素对应的提词模板生成目标提词；推理单元703，被配置成将目标提词输入大型语言模型，使得大型语言模型进行与目标要素有关的推理，并输出推理结果。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令计算机执行如图2、图3、图5、图6分别所示的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现如图2、图3、图5、图6分别所示的方法。

本说明书实施例还提供了一种计算机程序产品，其中，当该计算机程序产品在计算机中执行时，令计算机执行如图2、图3、图5、图6分别所示的方法。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为服务器系统。当然，本申请不排除随着未来计算机技术的发展，实现上述实施例功能的计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种基于大型语言模型的协议文本检测方法，包括：

从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素；其中，所述多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板；

基于所述目标段落和所述目标要素对应的提词模板生成目标提词；

将所述目标提词输入所述大型语言模型，使得所述大型语言模型进行与所述目标要素有关的推理，并输出推理结果。

2.根据权利要求1所述的方法，其中，所述多个要素为多个合规要素。

3.根据权利要求1所述的方法，其中，在从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素之前，还包括：

对所述目标协议文本进行分段处理，得到所述目标协议文本的目标段落。

4.根据权利要求3所述的方法，其中，所述对所述目标协议文本进行分段处理，包括：

使用预设的用于检测多种数字序号标识的正则表达式，对所述目标协议文本进行数字序号标识检测，并从所述目标协议文本中提取出检测到的数字序号标识和该数字序号标识对应的标题文本；

对提取出的数字序号标识进行分类；

基于每类数字序号标识在所述目标协议文本中的出现顺序，确定提取出的各个标题文本分别对应的级别；

基于所述各个标题文本分别对应的级别对所述目标协议文本进行分段处理。

5.根据权利要求1所述的方法，其中，所述多个要素分别对应关键词；以及

所述从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素，包括：

对于所述多个要素中的要素，若该要素对应的关键词包含在所述目标段落的段落内容中，则将该要素确定为所述目标段落对应的目标要素。

6.根据权利要求1-5之一所述的方法，其中，所述任一要素对应的提词模板包括示例、包含该要素和多个备选答案的指令、及用于表征段落的槽位标记；以及

所述基于所述目标段落和所述目标要素对应的提词模板生成目标提词，包括：

将所述目标段落的段落内容写入所述目标要素对应的提词模板中的所述槽位标记所处的位置，得到目标提词。

7.根据权利要求6所述的方法，其中，所述推理结果包括从所述目标提词中的指令包括的各个备选答案中选择的第一答案；以及

所述方法还包括：

向第一用户提供所述目标提词和所述推理结果，以使得所述第一用户审核所述第一答案的正确性；

接收所述第一用户提交的审核结果。

8.根据权利要求7所述的方法，其中，所述多个要素分别对应的提词模板是第二用户在提词设计装置中配置的；以及

所述方法还包括：

响应于所述审核结果为审核不通过，向所述提词设计装置发送用于指示所述目标要素对应的提词模板中的示例为错误示例的反馈信息，以使得所述第二用户优化该提词模板。

9.根据权利要求7所述的方法，其中，所述各个备选答案分别对应标签；以及

所述方法还包括：

基于所述审核结果确定目标答案；其中，当所述审核结果为审核通过时，所述目标答案为所述第一答案；当所述审核结果为审核不通过、且包括所述第一用户在所述各个备选答案中选择的第二答案时，所述目标答案为所述第二答案；

将所述目标答案对应的标签确定为所述目标要素对应的目标标签。

10.根据权利要求9所述的方法，其中，所述目标协议文本用于规范第三用户对隐私数据的操作行为，并且关联预设的若干规则，单个规则包括与所述操作行为有关的义务条件、及包含所述多个要素中的要素的义务要求；以及

所述方法还包括：

将确定的各个目标要素和其分别对应的目标标签、及所述若干规则输入决策引擎，由所述决策引擎对基于所述第三用户的所述操作行为而产生的操作行为数据进行检测处理；所述检测处理包括：

对于所述若干规则中的规则，若所述操作行为数据满足该规则中的义务条件，则在所述各个目标要素中确定包含在该规则的义务要求中的目标要素，基于该目标要素对应的目标标签判断所述操作行为数据是否满足该义务要求，并基于判断结果生成检测结果，所述检测结果用于指示所述操作行为数据是否通过该规则；

基于生成的各个检测结果生成检测报告。

11.根据权利要求10所述的方法，其中，所述目标协议文本归属于预设的若干隐私数据使用场景中的某个场景，所述多个要素和所述若干规则是针对该场景配置的。

12.根据权利要求10所述的方法，其中，单个隐私数据使用场景为以下中的任一项：隐私数据采集场景、隐私数据传输场景、隐私数据存储场景、隐私数据共享场景。

13.一种基于大型语言模型的协议文本检测装置，包括：

确定单元，被配置成从预设的多个要素中确定目标协议文本中的目标段落对应的目标要素；其中，所述多个要素中的任一要素为与协议文本有关的问题、且被预设有与该要素对应的提词模板；

生成单元，被配置成基于所述目标段落和所述目标要素对应的提词模板生成目标提词；

推理单元，被配置成将所述目标提词输入所述大型语言模型，使得所述大型语言模型进行与所述目标要素有关的推理，并输出推理结果。

14.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-12中任一项所述的方法。

15.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。