CN111832280B

CN111832280B - 剧本信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN111832280B
Application number: CN202010658545.7A
Authority: CN
Inventors: 王文超; 阳任科; 赵冲翔
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2023-06-30
Anticipated expiration: 2040-07-09
Also published as: CN111832280A

Abstract

本发明涉及一种剧本信息处理方法、装置、电子设备及存储介质，所述方法包括：获取剧本文件中每个场次对应的对象介绍文本内的参考对象标识，得到参考对象标识集合；在剧本文件中每个场次对应的剧情文本内，获取具有对话属性的待分析对象标识，得到待分析对象标识集合；计算每个场次中参考对象标识集合和待分析对象标识集合之间的匹配结果；根据剧本文件中所有场次对应的匹配结果，确定剧本文件中对象介绍文本的准确度信息。本发明实施例能够通过参考对象标识集合和待分析对象标识集合的匹配计算，得到匹配结果，再基于匹配结果自动确定剧本文件中对象介绍文本的准确度信息，可以实现自动的实际出场人物判断，无需人工核对，提高效率，减少人工成本。

Description

剧本信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种剧本信息处理方法、装置、电子设备及存储介质。

背景技术

出场人物说明是指在剧本的每个场景中，单独写明的本场出场的角色列表。出场人物说明的准确度因作者不同而异，若在出场人物说明中不仅列出对话形式出场的对话角色，还列出群众演员，则说明该出场人物说明准确度较高；若出场人物说明中列出的对话角色不完全，或者列出的群众演员不完全，则说明出场人物说明准确度较低。

在实际应用中，依赖于出场人物说明进行的剧组统筹工作等需要准确的出场人物说明，如果出场人物说明的准确度较低，则会对实际的出场人物判断带来一定的难度，这时需要人工逐个核对出场人物说明中的人物，核对效率非常低，人工成本高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种剧本信息处理方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种剧本信息处理方法，所述方法包括：

获取剧本文件中每个场次对应的对象介绍文本内的参考对象标识，得到参考对象标识集合；

在所述剧本文件中每个场次对应的剧情文本内，获取具有对话属性的待分析对象标识，得到待分析对象标识集合；

计算每个场次中所述参考对象标识集合和所述待分析对象标识集合之间的匹配结果；

根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息。

可选的，根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息，包括：

根据所述剧本文件中所有场次对应的所述匹配结果，计算用于分析所述剧本文件中对象介绍文本的准确度信息的分析指标；

若所述分析指标满足对应的预设分析条件，确定所述剧本文件中对象介绍文本准确；

若所述分析指标不满足对应的预设分析条件，确定所述剧本文件中对象介绍文本不准确。

可选的，所述分析指标包括：对象介绍文本的覆盖度、完整度或者平均余量。

可选的，所述对象介绍文本的覆盖度为所述参考对象标识集合包含所述待分析对象标识集合中所有待分析对象标识的场次占所有场次的比例。

可选的，所述匹配结果包括：所述参考对象标识集合包含所述待分析对象标识集合；

所述根据所述剧本文件中所有场次对应的所述匹配结果，计算用于分析所述剧本文件中对象介绍文本的准确度信息的分析指标，包括：

针对每个场次，确定该场次的待分析对象标识集合中的每个待分析对象标识是否均位于所述参考对象标识集合中；

若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，则用于记录场次数量的第一计数器加一，直至所有场次确定完毕；

将所述第一计数器当前的计数值确定为所述第一数量；

将所述第一数量占总场次数量的第一比例确定为所述对象介绍文本的覆盖度。

可选的，所述对象介绍文本的完整度为所述参考对象标识集合中，除包含所述待分析对象标识集合中所有待分析对象标识之外，存在剩余的参考对象标识的场次占所有场次的比例。

可选的，所述匹配结果包括：所述参考对象标识集合包含所述待分析对象标识集合，且，所述参考对象标识集合不等于所述待分析对象标识集合；

针对每个场次，确定该场次的待分析对象标识集合中的每个待分析对象标识是否均位于所述参考对象标识集合中，且，所述参考对象标识集合中是否还存在不位于所述待分析对象标识集合中的参考对象标识；

若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，且，所述参考对象标识集合中还存在不位于所述待分析对象标识集合中的参考对象标识，则用于记录场次数量的第二计数器加一，直至所有场次确定完毕；

将所述第二计数器当前的计数值确定为所述第二数量；

将所述第二数量占总场次数量的第二比例确定为所述对象介绍文本的完整度。

可选的，所述对象介绍文本的平均余量为所述参考对象标识集合中，除包含所述待分析对象标识集合中所有待分析对象标识之外，剩余的参考对象标识的数量的平均值。

若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，且，所述参考对象标识集合中还存在不位于所述待分析对象标识集合中的参考对象标识，计算位于所述参考对象标识集合中且不位于所述待分析对象标识集合中的参考对象标识的第三数量；

将总场次数量个第三数量的平均值确定为所述平均余量。

可选的，所述根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息，还包括：

若所述对象介绍文本的覆盖度大于第一预设阈值、所述对象介绍文本的完整度大于第二预设阈值且所述对象介绍文本的平均余量大于第三预设阈值，则确定所述分析指标满足对应的预设分析条件；

若所述对象介绍文本的覆盖度小于或者等于第一预设阈值、所述对象介绍文本的完整度小于或者等于第二预设阈值、或者、所述对象介绍文本的平均余量小于或者等于第三预设阈值，则确定所述分析指标不满足对应的预设分析条件。

第二方面，在本申请提供一种剧本信息处理方法，包括：

利用如第一方面任一所述的剧本信息处理方法确定所述剧本文件的对象介绍文本的准确度信息；

若所述剧本文件的对象介绍文本准确，将每个场次的所述参考标识集合中的参考对象标识作为该所述场次实际出场的对象标识，得到每个所述场次实际出场的对象标识；或者，若所述剧本文件的对象介绍文本不准确，在所述剧本文件每个场次对应的剧情文本中分别提取具有动作属性的出场对象标识，得到出场对象标识集合；

对每个场次的待分析对象标识集合中的待分析对象标识和所述出场对象标识集合中的出场对象标识进行组合和去重处理，得到每个所述场次实际出场的对象标识。

第三方面，在本申请提供一种剧本信息处理装置，所述装置包括：

第一获取模块，用于获取剧本文件中每个场次对应的对象介绍文本内的参考对象标识，得到参考对象标识集合；

第二获取模块，用于在所述剧本文件中每个场次对应的剧情文本内，获取具有对话属性的待分析对象标识，得到待分析对象标识集合；

计算模块，用于计算每个场次中所述参考对象标识集合和所述待分析对象标识集合之间的匹配结果；

第一确定模块，用于根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息。

可选的，所述第一确定模块，包括：

计算单元，用于根据所述剧本文件中所有场次对应的所述匹配结果，计算用于分析所述剧本文件中对象介绍文本的准确度信息的分析指标；

第一确定单元，用于若所述分析指标满足对应的预设分析条件，确定所述剧本文件中对象介绍文本准确；

第二确定单元，用于若所述分析指标不满足对应的预设分析条件，确定所述剧本文件中对象介绍文本不准确。

所述计算单元，包括：

第一确定子单元，用于针对每个场次，确定该场次的待分析对象标识集合中的每个待分析对象标识是否均位于所述参考对象标识集合中；

第一计数子单元，用于若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，则用于记录场次数量的第一计数器加一，直至所有场次确定完毕；

第二确定子单元，用于将所述第一计数器当前的计数值确定为所述第一数量；

第三确定子单元，用于将所述第一数量占总场次数量的第一比例确定为所述对象介绍文本的覆盖度。

所述计算单元，包括：

第四确定子单元，用于针对每个场次，确定该场次的待分析对象标识集合中的每个待分析对象标识是否均位于所述参考对象标识集合中，且，所述参考对象标识集合中是否还存在不位于所述待分析对象标识集合中的参考对象标识；

第二计数子单元，用于若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，且，所述参考对象标识集合中还存在不位于所述待分析对象标识集合中的参考对象标识，则用于记录场次数量的第二计数器加一，直至所有场次确定完毕；

第五确定子单元，用于将所述第二计数器当前的计数值确定为所述第二数量；

第六确定子单元，用于将所述第二数量占总场次数量的第二比例确定为所述对象介绍文本的完整度。

所述计算单元，包括：

第七确定子单元，用于针对每个场次，确定该场次的待分析对象标识集合中的每个待分析对象标识是否均位于所述参考对象标识集合中，且，所述参考对象标识集合中是否还存在不位于所述待分析对象标识集合中的参考对象标识；

计算子单元，用于若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，且，所述参考对象标识集合中还存在不位于所述待分析对象标识集合中的参考对象标识，计算位于所述参考对象标识集合中且不位于所述待分析对象标识集合中的参考对象标识的第三数量；

第八确定子单元，用于将总场次数量个第三数量的平均值确定为所述平均余量。

可选的，所述第一确定模块，还包括：

第三确定单元，用于若所述对象介绍文本的覆盖度大于第一预设阈值、所述对象介绍文本的完整度大于第二预设阈值且所述对象介绍文本的平均余量大于第三预设阈值，则确定所述分析指标满足对应的预设分析条件；

第四确定单元，用于若所述对象介绍文本的覆盖度小于或者等于第一预设阈值、所述对象介绍文本的完整度小于或者等于第二预设阈值、或者、所述对象介绍文本的平均余量小于或者等于第三预设阈值，则确定所述分析指标不满足对应的预设分析条件。

第四方面，在本申请提供一种剧本信息处理装置，包括：

第二确定模块，用于利用如第三方面所述的剧本信息处理装置确定所述剧本文件的对象介绍文本的准确度信息；

提取模块，用于若所述剧本文件的对象介绍文本不准确，在所述剧本文件每个场次对应的剧情文本中分别提取具有动作属性的出场对象标识，得到出场对象标识集合；

处理模块，用于对每个场次的待分析对象标识集合中的待分析对象标识和所述出场对象标识集合中的出场对象标识进行组合和去重处理，得到每个所述场次实际出场的对象标识。

第五方面，本申请提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的剧本信息处理方法或者第二方面所述的剧本信息处理方法。

第六方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有剧本信息处理方法的程序，所述剧本信息处理方法的程序被处理器执行时实现第一方面任一所述的剧本信息处理方法或者如第二方面所述的剧本信息处理方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例通过首先获取剧本文件中每个场次对应的对象介绍文本内的参考对象标识，得到参考对象标识集合，然后在所述剧本文件中每个场次对应的剧情文本内，获取具有对话属性的待分析对象标识，得到待分析对象标识集合，再计算每个场次中所述参考对象标识集合和所述待分析对象标识集合之间的匹配结果，最后可以根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息。

本发明实施例能够通过参考对象标识集合和待分析对象标识集合的匹配计算，得到匹配结果，再基于匹配结果自动确定剧本文件中对象介绍文本的准确度信息，可以实现自动的实际出场人物判断，无需人工核对，提高效率，减少人工成本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种剧本信息处理方法的流程图；

图2为图1中步骤S104的一种流程图；

图3为图2中步骤S201的一种流程图；

图4为图2中步骤S201的另一种流程图；

图5为图2中步骤S201的另一种流程图；

图6为图1中步骤S104的另一种流程图；

图7为本申请实施例提供的另一种剧本信息处理方法的流程图；

图8为本申请实施例提供的一种剧本信息处理装置的结构图；

图9为本申请实施例提供的另一种剧本信息处理装置的结构图；

图10为本申请实施例提供的一种电子设备的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于在实际应用中，依赖于出场人物说明进行的剧组统筹工作等需要准确的出场人物说明，如果出场人物说明的准确度较低，则会对实际的出场人物判断带来一定的难度，这时需要人工逐个核对出场人物说明中的人物，核对效率非常低，人工成本高。为此，本申请实施例提供了一种剧本信息处理方法、装置、电子设备及存储介质，如图1所示，所述剧本信息处理可以包括以下步骤：

步骤S101，获取剧本文件中每个场次对应的对象介绍文本内的参考对象标识，得到参考对象标识集合；

在本发明实施例中，剧本文件可以指待确定对象介绍文本是否准确的剧本，对象介绍文本是指在一个剧本的每个场次中，单独写明的本场出场的角色列表。

由于在实际应用中，出场人物说明(即：对象介绍文本)的准确度因作者不同而异，出场人物说明中列出的出场人物(即：参考对象标识)可能准确，也可能不准确，所以，参考对象标识集合中的参考对象标识可能存在准确，或者不准确的情况，所以本申请实施例需要确定对象介绍文本的准确度信息。

示例性的，以下为某个剧本文件的选段：

场次1-1

人物：小明、小刚

正文：小明送走了小刚后关上门，打开灯，拿起一本书读起来，仿佛面前出现了小红昨天教他写作业场景。

小明：今天真好。

在该步骤中，可以首先对剧本文件进行格式统一化处理，示例性的，可以遍历所述剧本文件，将所述剧本文件中的文字统一转换为相同字体类型的文字，将所述剧本文件中的标点符号统一转换为相同语法的标点符号等；然后对处理后的剧本文件进行场次划分，得到多个场次，示例性的，可以使用正则表达式进行场次划分，例如剧本文件的每个场次的开头都有场次名“场次”，通过对场次名进行匹配等；再提取每个所述场次对应的对象介绍文本中的人物，得到参考对象标识集合，示例性的，可以在“人物：”后的内容中提取参考对象标识“小明和小刚”。

步骤S102，在所述剧本文件中每个场次对应的剧情文本内，获取具有对话属性的待分析对象标识，得到待分析对象标识集合；

本发明实施例中，具有对话属性的待分析对象标识可以指剧情文本中存在对话的人物，具体的，可以通过对话标识短语来提取，所述对话标识短语为冒号至上一个结束符号之间的短语，例如：“仿佛面前出现了小红昨天教他写作业场景。”中的“。”与“小明：”中的“：”之间的“小明”等。

在该步骤中，可以利用正则表达式对每个场次的剧情文本进行对话标识短语的识别，再提取对话标识短语对应的人物，得到所述待分析对象标识集合。

步骤S103，计算每个场次中所述参考对象标识集合和所述待分析对象标识集合之间的匹配结果；

由于在对象介绍文本中不仅列出所述待分析对象标识集合中以对话形式出场的对话角色，还列出群众演员的情况时，对象介绍文本准确度较高，所以可以先计算参考对象标识集合和所述待分析对象标识集合之间的匹配结果，进而可以根据匹配结果来确定对象介绍文本的准确度信息。

在该步骤中，可以针对每个场次，将参考对象标识集合中的参考对象标识逐个与待分析对象标识集合中的每个待分析对象标识进行匹配，得到匹配结果。

匹配结果可以包括：待分析对象标识集合为参考对象标识集合的子集或者真子集等。

步骤S104，根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息。

如果某个场次对应的对象介绍文本中列出的人物不光覆盖所述待分析对象标识集合中存在对话的人物，还包含不存在对话或者存在很少对话的群众演员，那么可以说明这个场次对应的对象介绍文本中列出的人物较准确，如果多个场次中很大比例的对象介绍文本列出的人物均较准确，那么可以认为剧本文件的对象介绍文本准确。

本发明实施例能够通过参考对象标识集合和待分析对象标识集合的匹配计算，得到匹配结果，再基于匹配结果自动确定剧本文件中对象介绍文本的准确度信息，可以有助于对实际出场人物判断带来帮助，无需人工核对，提高效率，减少人工成本。

在本发明的又一实施例中，如图2所示，步骤S104可以包括以下步骤：

步骤S201，根据所述剧本文件中所有场次对应的所述匹配结果，计算用于分析所述剧本文件中对象介绍文本的准确度信息的分析指标；

在本发明实施例中，所述分析指标包括：对象介绍文本的覆盖度、完整度或者平均余量。

示例性的，所述对象介绍文本的覆盖度为所述参考对象标识集合包含所述待分析对象标识集合中所有待分析对象标识的场次占所有场次的比例。

所述对象介绍文本的完整度为所述参考对象标识集合中，除包含所述待分析对象标识集合中所有待分析对象标识之外，存在剩余的参考对象标识的场次占所有场次的比例。

所述对象介绍文本的平均余量为所述参考对象标识集合中，除包含所述待分析对象标识集合中所有待分析对象标识之外，剩余的参考对象标识的数量的平均值。

在该步骤中，可以根据剧本文件中所有场次对应的所述匹配结果，计算对象介绍文本的覆盖度、对象介绍文本的完整度和对象介绍文本的平均余量等分析指标。

步骤S202，若所述分析指标满足对应的预设分析条件，确定所述剧本文件中对象介绍文本准确；

在本发明实施例中，可以为不同的分析指标预先设置不同的预设分析条件，如：为对象介绍文本的覆盖度设置的预设分析条件为大于第一预设阈值，为对象介绍文本的完整度设置的预设分析条件为大于第二预设阈值，为对象介绍文本的平均余量设置的预设分析条件为大于第三预设阈值等，预设分析条件可以根据实际情况进行设置，本发明实施例对此不做限定。

在该步骤中，若分析指标为一个，则该分析指标满足对应的预设分析条件，即可确定剧本文件中对象介绍文本准确；若分析指标为多个，则每个分析指标均需满足对应的预设分析条件，确定剧本文件中对象介绍文本准确。

步骤S203，若所述分析指标不满足对应的预设分析条件，确定所述剧本文件中对象介绍文本不准确。

在该步骤中，若分析指标为一个，则该分析指标不满足对应的预设分析条件，即可确定剧本文件中对象介绍文本不准确；若分析指标为多个，则多个分析指标中存在一个或多个不满足对应的预设分析条件时，确定剧本文件中对象介绍文本不准确。

本发明实施例能够根据匹配结果计算分析指标，进而便于自动根据分析指标是否满足对应的预设分析条件，自动确定对象介绍文本的准确度信息，无需人工核对对象介绍文本的准确度，提高效率，节省成本。

在本发明的又一实施例中，所述匹配结果包括：所述参考对象标识集合包含所述待分析对象标识集合；即：待分析对象标识集合为参考对象标识集合的子集。

如图3所示，所述步骤S201可以包括以下步骤：

步骤S301，针对每个场次，确定该场次的待分析对象标识集合中的每个待分析对象标识是否均位于所述参考对象标识集合中；

在该步骤中，可以遍历待分析对象标识集合中的每个待分析对象标识，将每个待分析对象标识分别与参考对象标识集合中的参考对象标识对比，以确定该待分析对象标识集合中的待分析对象标识是否位于参考对象标识集合中。

步骤S302，若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，则用于记录场次数量的第一计数器加一，直至所有场次确定完毕；

在该步骤中，可以预先设置一个用于记录场次数量的第一计数器，在每次某个场次的待分析对象标识集合中的每个待分析对象标识均位于参考对象标识集合中时，第一计数器计数加一，直至所有场次确定完毕。

步骤S303，将所述第一计数器当前的计数值确定为所述第一数量；

在该步骤中，在所有场次确定完毕后，将第一计数器当前的计数值作为第一数量，第一数量即为剧本文件的所有场次中，待分析对象标识集合为参考对象标识集合的子集的场次的数量。

步骤S304，将所述第一数量占总场次数量的第一比例确定为所述对象介绍文本的覆盖度。

示例性的，可以通过以下程序表示此过程：

假设参考对象标识集合SI，待分析对象标识集合ST，群众演员字典(用于记录群众演员名字的数据集)C，剧本中场次的总数(即：总场次数量)K；

其中，count＝＝|ST|表示计数器计数的数量等于ST集合中待分析对象标识的数量，|ST|<＝|SI|表示ST集合为SI集合的子集，计算后，subset可以为0(代表false)或者1(代表true)，subset为0时可以表示ST不为SI的子集，subset为1时可以表示ST为SI的子集，此时第一计数器计数加1，其余场次按此方式重复，得到第一数量N1。

对象介绍文本的覆盖度coverage＝N1/K。

本发明实施例通过确定待分析对象标识集合中的每个待分析对象标识是否均位于参考对象标识集合中，可以得到待分析对象标识集合是否为参考对象标识集合的子集，若为子集，则第一计数器加一，最后再计算第一计数器的计数值占所有场次的总场次数量的第一场次比例，从而自动得到一个分析指标，进而自动便于基于分析指标确定所述剧本文件中的对象介绍文本的准确度信息。

由于前述实施例中，待分析对象标识集合为参考对象标识集合的子集，统计到的第一数量中可能包括待分析对象标识集合与参考对象标识集合相同的情况，而待分析对象标识集合与参考对象标识集合相同表明人物说明中可能未列出群众演员，该场次的人物说明可能不准确，为此，在本发明的又一实施例中，所述匹配结果包括：所述参考对象标识集合包含所述待分析对象标识集合，且，所述参考对象标识集合不等于所述待分析对象标识集合；即：待分析对象标识集合为参考对象标识集合的真子集。

如图4所示，所述步骤S201可以包括以下步骤：

步骤S401，针对每个场次，确定该场次的待分析对象标识集合中的每个待分析对象标识是否均位于所述参考对象标识集合中，且，所述参考对象标识集合中是否还存在不位于所述待分析对象标识集合中的参考对象标识；

在该步骤中，可以遍历待分析对象标识集合中的每个待分析对象标识，将每个待分析对象标识分别与参考对象标识集合中的参考对象标识对比，以确定该待分析对象标识集合中每个待分析对象标识是否均位于参考对象标识集合中，并且，在待分析对象标识集合中的每个待分析对象标识均位于参考对象标识集合中时，确定参考对象标识集合中是否还存在其它不位于待分析对象标识集合中的参考对象标识。

步骤S402，若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，且，所述参考对象标识集合中还存在不位于所述待分析对象标识集合中的参考对象标识，则用于记录场次数量的第二计数器加一，直至所有场次确定完毕；

在该步骤中，可以预先设置一个用于记录场次数量的第二计数器，在每次某个场次的待分析对象标识集合中的每个人物均位于参考对象标识集合中时，第二计数器计数加一，直至所有场次确定完毕。

步骤S403，将所述第二计数器当前的计数值确定为所述第二数量；

在该步骤中，在所有场次确定完毕后，将第二计数器当前的计数值作为第二数量，第二数量即为剧本文件的所有场次中，待分析对象标识集合为参考对象标识集合的真子集的场次的数量。

步骤S404，将所述第二数量占总场次数量的第二比例确定为所述对象介绍文本的完整度。

基于前述实施例，可以计算proper_subset＝(count＝＝|ST|and|ST|<|SI|)

其中，count＝＝|ST|表示计数器计数的数量等于ST集合中待分析对象标识的数量，|ST|<＝|SI|表示ST集合为SI集合的子集，计算后，proper_subset可以为0(代表false)或者1(代表true)，proper_subset为0时可以表示ST不为SI的真子集，subset为1时可以表示ST为SI的真子集，此时第二计数器计数加1，其余场次按此方式重复，得到第二数量N2。

对象介绍文本的完整度completeness＝N2/K。

本发明实施例可以确定待分析对象标识集合是否为参考对象标识集合的真子集，若为真子集，则第二计数器加一，最后再计算第二计数器的计数值占所有场次的总场次数量的第二场次比例，从而自动得到第二个分析指标，进而便于自动基于分析指标确定所述剧本文件中的对象介绍文本的准确度信息。

在本发明的又一实施例中，所述匹配结果包括：所述参考对象标识集合包含所述待分析对象标识集合，且，所述参考对象标识集合不等于所述待分析对象标识集合；即：待分析对象标识集合为参考对象标识集合的子集。

如图5所示，所述步骤S201可以包括以下步骤：

步骤S501，针对每个场次，确定该场次的待分析对象标识集合中的每个待分析对象标识是否均位于所述参考对象标识集合中，且，所述参考对象标识集合中是否还存在不位于所述待分析对象标识集合中的参考对象标识；

步骤S502，若该场次的待分析对象标识集合中的每个待分析对象标识均位于所述参考对象标识集合中，且，所述参考对象标识集合中还存在不位于所述待分析对象标识集合中的参考对象标识，计算位于所述参考对象标识集合中且不位于所述待分析对象标识集合中的参考对象标识的第三数量；

在该步骤中，可以计算参考对象标识集合中除位于待分析对象标识集合中的参考对象标识之外的参考对象标识的数量，得到第三数量。

步骤S503，将总场次数量个第三数量的平均值确定为所述平均余量。

在该步骤中，计算所有场次的第三数量的平均值，得到平均余量。

基于前述实施例，可以计算over＝|SI|-count

计算后，over为一个数值，表示第三数量，其余场次按此方式重复，得到所有场次对应的第三数量，将所有场次对应的第三数量求和，得到N3。

平均余量margin＝N3/K。

本发明实施例可以参考对象标识集合中，除包含待分析对象标识集合中所有待分析对象标识之外，剩余的参考对象标识的数量的平均值，从而自动得到第三个分析指标，进而便于基于分析指标自动确定所述剧本文件中的对象介绍文本的准确度信息。

在本发明的又一实施例中，如图6所示，所述步骤S104，还包括：

步骤S601，若所述对象介绍文本的覆盖度大于第一预设阈值、所述对象介绍文本的完整度大于第二预设阈值且所述对象介绍文本的平均余量大于第三预设阈值，则确定所述分析指标满足对应的预设分析条件；

若所述对象介绍文本的覆盖度大于第一预设阈值、所述对象介绍文本的完整度大于第二预设阈值且所述对象介绍文本的平均余量大于第三预设阈值，说明多个场次中很大比例的对象介绍文本列出的人物均较准确(即：多个场次对应的对象介绍文本中列出的人物不光覆盖所述待分析对象标识集合中存在对话的人物，还包含不存在对话或者存在很少对话的群众演员)，所以可以认为剧本文件的对象介绍文本准确。

步骤S602，若所述对象介绍文本的覆盖度小于或者等于第一预设阈值、所述对象介绍文本的完整度小于或者等于第二预设阈值、或者、所述对象介绍文本的平均余量小于或者等于第三预设阈值，则确定所述分析指标不满足对应的预设分析条件。

若所述对象介绍文本的覆盖度小于或者等于第一预设阈值、所述对象介绍文本的完整度小于或者等于第二预设阈值、或者、所述对象介绍文本的平均余量小于或者等于第三预设阈值，说明多个场次中对象介绍文本列出的人物不太准确，所以可以认为剧本文件的对象介绍文本准确。

本发明实施例中，通过设置预设阈值，将覆盖度与第一预设阈值比较、将完整度与第二预设阈值比较，将平均余量与第三预设阈值比较，可以自动确定分析指标是否满足对应的预设分析条件，进而便于自动确定剧本文件中的对象介绍文本的准确度信息。

在本发明的又一实施例中，还提供一种剧本信息处理方法，如图7所示，包括：

步骤S701，利用如前述实施例所述的剧本信息处理方法确定所述剧本文件的对象介绍文本的准确度信息；

步骤S702，若所述剧本文件的对象介绍文本准确，将每个场次的所述参考标识集合中的参考对象标识作为该所述场次实际出场的对象标识，得到每个所述场次实际出场的对象标识；或者，若所述剧本文件的对象介绍文本准确，说明作者在人物说明中列出的人物准确，可以直接将参考标识集合中的参考对象标识作为该所述场次实际出场的对象标识。

步骤S703，若所述剧本文件的对象介绍文本不准确，在所述剧本文件每个场次对应的剧情文本中分别提取具有动作属性的出场对象标识，得到出场对象标识集合；

在所述剧本文件的对象介绍文本不准确，说明作者在人物说明中列出的人物不准确。由于在每个场次中，除主动说话的人物是出场人物外，没有主动说话但是有动作的人物也可被判断为该场次的出场人物。所以为了得到准确的实际出场人物，可以将将每个场次中没有主动说话但是有动作的人物识别出来，补充为对应场次实际出场的人物。

具有动作属性的出场对象标识可以指剧本文件中利用动作词汇描述的人物，具体的，可以在剧本文件中识别动作词汇，再在动作词汇所在的语句中提取出场对象标识，例如：“小明推开窗看到了小红”中存在动作词汇“推”“看”，则在这个语句中提取出场对象标识“小明”和“小红”等。

步骤S704，对每个场次的待分析对象标识集合中的待分析对象标识和所述出场对象标识集合中的出场对象标识进行组合和去重处理，得到每个所述场次实际出场的对象标识。

由于剧本文件中的对象介绍文本不准确，但是待分析对象标识集合中的待分析对象标识是在剧本文件中每个场次对应的剧情文本内提取出来的，可以确定是已经出场的且有过对话的人物，也就是说，可以认为待分析对象标识集合中的待分析对象标识是准确的；而出场对象标识集合中的出场对象标识也是在剧本文件中每个场次对应的剧情文本内提取出来的，可以确定是已经出场的且有过动作的人物，也就是说，可以认为出场对象标识集合中的出场对象标识是准确的，所以可以以待分析对象标识集合作为基础，将提取出的出场对象标识集合与待分析对象标识集合进行组合，去除组合后重复的内容，即可得到每个所述场次实际出场的人物。

本发明实施例能够在剧本文件中的对象介绍文本不准确的时候，自动在剧本文件中提取具有动作属性的出场对象标识，然后将出场对象标识集合和待分析对象标识集合进行组合和去重，进而得到准确的每个场次实际出场的人物，使得最终确定的实际出场的人物不仅包括有对白的人物，还包括有动作的人物，保证召回率，无需人工查找核对，提高效率，降低成本。

在本发明的又一实施例中，还提供一种剧本信息处理装置，如图8所示，所述装置包括：

第一获取模块11，用于获取剧本文件中每个场次对应的对象介绍文本内的参考对象标识，得到参考对象标识集合；

第二获取模块12，用于在所述剧本文件中每个场次对应的剧情文本内，获取具有对话属性的待分析对象标识，得到待分析对象标识集合；

计算模块13，用于计算每个场次中所述参考对象标识集合和所述待分析对象标识集合之间的匹配结果；

第一确定模块14，用于根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息。

可选的，所述第一确定模块，包括：

所述计算单元，包括：

可选的，所述第一确定模块还包括：

在本发明的又一实施例中，还提供一种剧本信息处理装置，如图9所示，所述装置包括：

第二确定模块21，用于利用如前述装置实施例所述的剧本信息处理装置确定所述剧本文件的对象介绍文本的准确度信息；

提取模块22，用于若所述剧本文件的对象介绍文本不准确，在所述剧本文件每个场次对应的剧情文本中分别提取具有动作属性的出场对象标识，得到出场对象标识集合；

处理模块23，用于对每个场次的待分析对象标识集合中的待分析对象标识和所述出场对象标识集合中的出场对象标识进行组合和去重处理，得到每个所述场次实际出场的对象标识。

在本发明的又一实施例中，还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述方法实施例所述的剧本信息处理方法。

本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了通过本发明实施例通过首先获取剧本文件中每个场次对应的对象介绍文本内的参考对象标识，得到参考对象标识集合，然后在所述剧本文件中每个场次对应的剧情文本内，获取具有对话属性的待分析对象标识，得到待分析对象标识集合，再计算每个场次中所述参考对象标识集合和所述待分析对象标识集合之间的匹配结果，最后可以根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息。本发明实施例能够通过参考对象标识集合和待分析对象标识集合的匹配计算，得到匹配结果，再基于匹配结果自动确定剧本文件中对象介绍文本的准确度信息，可以实现自动的实际出场人物判断，无需人工核对，提高效率，减少人工成本。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明的又一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有剧本信息处理方法的程序，所述剧本信息处理方法的程序被处理器执行时实现前述方法实施例所述的剧本信息处理方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种剧本信息处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的剧本信息处理方法，其特征在于，根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息，包括：

3.根据权利要求2所述的剧本信息处理方法，其特征在于，所述分析指标包括：对象介绍文本的覆盖度、完整度或者平均余量。

4.根据权利要求3所述的剧本信息处理方法，其特征在于，所述对象介绍文本的覆盖度为所述参考对象标识集合包含所述待分析对象标识集合中所有待分析对象标识的场次占所有场次的比例。

5.根据权利要求4所述的剧本信息处理方法，其特征在于，所述匹配结果包括：所述参考对象标识集合包含所述待分析对象标识集合；

将所述第一计数器当前的计数值确定为第一数量；

6.根据权利要求3所述的剧本信息处理方法，其特征在于，所述对象介绍文本的完整度为所述参考对象标识集合中，除包含所述待分析对象标识集合中所有待分析对象标识之外，存在剩余的参考对象标识的场次占所有场次的比例。

7.根据权利要求6所述的剧本信息处理方法，其特征在于，所述匹配结果包括：所述参考对象标识集合包含所述待分析对象标识集合，且，所述参考对象标识集合不等于所述待分析对象标识集合；

将所述第二计数器当前的计数值确定为第二数量；

8.根据权利要求3所述的剧本信息处理方法，其特征在于，所述对象介绍文本的平均余量为所述参考对象标识集合中，除包含所述待分析对象标识集合中所有待分析对象标识之外，剩余的参考对象标识的数量的平均值。

9.根据权利要求8所述的剧本信息处理方法，其特征在于，所述匹配结果包括：所述参考对象标识集合包含所述待分析对象标识集合，且，所述参考对象标识集合不等于所述待分析对象标识集合；

将总场次数量个第三数量的平均值确定为所述平均余量。

10.根据权利要求3所述的剧本信息处理方法，其特征在于，所述根据所述剧本文件中所有场次对应的所述匹配结果，确定所述剧本文件中对象介绍文本的准确度信息，还包括：

11.一种剧本信息处理方法，其特征在于，包括：

利用如权利要求1至10任一所述的剧本信息处理方法确定所述剧本文件的对象介绍文本的准确度信息；

若所述剧本文件的对象介绍文本准确，将每个场次的参考标识集合中的参考对象标识作为所述场次实际出场的对象标识，得到每个所述场次实际出场的对象标识；或者，若所述剧本文件的对象介绍文本不准确，在所述剧本文件每个场次对应的剧情文本中分别提取具有动作属性的出场对象标识，得到出场对象标识集合；

12.一种剧本信息处理装置，其特征在于，所述装置包括：

13.一种剧本信息处理装置，其特征在于，包括：

第二确定模块，用于利用如权利要求12所述的剧本信息处理装置确定所述剧本文件的对象介绍文本的准确度信息；

14.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1～10任一所述的剧本信息处理方法或者权利要求11所述的剧本信息处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有剧本信息处理方法的程序，所述剧本信息处理方法的程序被处理器执行时实现权利要求1-10任一所述的剧本信息处理方法或者如权利要求11所述的剧本信息处理方法的步骤。