CN111126201B - 剧本中人物识别方法及装置 - Google Patents
剧本中人物识别方法及装置 Download PDFInfo
- Publication number
- CN111126201B CN111126201B CN201911269632.7A CN201911269632A CN111126201B CN 111126201 B CN111126201 B CN 111126201B CN 201911269632 A CN201911269632 A CN 201911269632A CN 111126201 B CN111126201 B CN 111126201B
- Authority
- CN
- China
- Prior art keywords
- phrase
- character
- residual
- target
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种剧本中人物识别方法及装置,该方法包括:对待识别剧本进行格式统一化处理和场次划分得到多个场次,对每个场次的剧本内容进行对话标识短语提取,对每个对话标识短语进行目标人物识别和提取,得到待识别剧本的目标人物集合,根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物,对每个场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个场次的出场人物。通过本申请的技术方案可以自动识别剧本中每个场次的出场人物,且提高了准确率和召回率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种剧本中人物识别方法及装置。
背景技术
出场人物说明是指在一个剧本的每个场次中,单独写明的本场出场的角色列表。但是在剧本的原始作品中,大部分剧本没有出场人物说明,因此需要人工地进行出场人物识别。在大部分剧本中,出场人物一般是以对话形式出场,因此要识别的区域大部分是以冒号为标识,即出场人物一般在冒号之前。现有的方法是直接提取冒号前面的词条作为出场人物,但是采用这种方法会有很多干扰词,因此会对出场人物的判断带来一定的难度;且这种方法还会按照中国人名的姓氏和名字规则来匹配,导致剧本中名字不是非常规范的出场人物被误判,进而导致出场人物识别的召回率和准确率不理想。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请实施例提供了一种剧本中人物识别方法及装置。
第一方面,本申请实施例提供了一种剧本中人物识别方法,该方法包括:
对待识别剧本进行格式统一化处理;
对处理后的待识别剧本进行场次划分得到多个场次;
对每个场次的剧本内容进行对话标识短语提取,其中,对话标识短语为冒号至上一个结束符号之间的短语;
对每个对话标识短语进行目标人物识别和提取,得到待识别剧本的目标人物集合;
根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,第一出场人物为对话主语;
根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物;
对每个场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个场次的出场人物。
可选地,该方法还包括:根据预存的特殊短语集合对目标人物集合中的目标人物进行过滤,以删除目标人物集合中与预存的特殊短语匹配的目标人物得到更新的目标人物集合,将更新的目标人物集合作为待识别剧本的目标人物集合;
将目标人物与预存的特殊短语匹配的对话标识短语的目标人物更新为空。
可选地,对每个场次的剧本内容进行对话标识短语提取,包括:
提取每个场次的剧本内容中冒号至上一个结束符合之间的短语,
删除提取的短语中的特殊字符和括号中的剧本内容得到每个场次的对话标识短语;
对待识别剧本进行格式统一化处理,包括:
遍历待识别剧本,将待识别剧本中的文字统一转换为相同字体类型的文字,将待识别剧本中的标点符号统一转换为相同语法的标点符号。
可选地,对每个对话标识短语进行目标人物识别和提取得到待识别剧本的目标人物集合,包括:
分别对每个对话标识短语进行子对话标识短语提取,其中,子对话标识短语为冒号至上一个标点符号之间的短语;
统计各个子对话标识短语在待识别剧本中的出现次数;
按照出现次数对子对话标识短语进行降序排序;
将排序在第一位的子对话标识短语作为源人物短语;
将源人物短语作为所在对话标识短语的目标人物;
从源人物短语开始向下遍历降序排序的子对话标识短语;
获取源人物短语的相关子对话标识短语,相关子对话标识短语为向下遍历的子对话标识短语中包含源人物短语且未标识为已检验的子对话标识短语;
获取每个相关子对话标识短语中源人物短语的余前缀和余后缀;
分别获取每个相关子对话标识短语的余前缀的属性和余后缀的属性;
根据每个相关子对话标识短语的余前缀的属性、余后缀的属性判断对应的余前缀和/或余后缀与源人物短语是否能组成新的人物短语;
若能组成新的人物短语,则将新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物;
若不能组成新的人物短语,则将源人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物;
将确定目标人物的源人物短语和相关子对话标识短语标记为已检验;
向下遍历,将排序在源人物短语之后的子对话标识短语中第一个遍历到的未标记为已检验的子对话标识短语作为源人物短语,执行从源人物短语开始向下遍历降序排序的子对话标识短语,直至检验完所有子对话标识短语;
将获取到的目标人物组成待识别剧本的目标人物集合。
可选地,分别获取每个相关子对话标识短语的余前缀的属性和余后缀的属性,包括:
对每个相关子对话标识短语的余前缀进行词性分析和姓氏分析,判断余前缀是否为名词或姓氏;
对每个相关子对话标识短语的余后缀进行词性分析和类别分析,判断余后缀是否为名词且类别为人。
可选地,根据每个相关子对话标识短语的余前缀的属性、余后缀的属性判断对应的余前缀和/或余后缀与源人物短语是否能组成新的人物短语,包括:
若对应的余前缀为名词或姓氏,且余后缀不为名词或类别不为人,则余前缀与源人物短语能组成新的人物短语,
若对应的余前缀既不为名词也不为姓氏,且余后缀为名词且类别为人,则余后缀与源人物短语能组成新的人物短语,
若对应的余前缀为名词或姓氏,且余后缀为名词且类别为人,则余前缀、源人物短语、余后缀能组成新的人物短语,
若对应的余前缀既不为名词也不为姓氏,且余后缀不为名词或类别不为人,则余前缀和/或余后缀与源人物短语不能组成新的人物短语;
若能组成新的人物短语,则将新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物,包括:
若能组成新的人物短语,则将余前缀与源人物短语组成的新的人物短语,
或,余后缀与源人物短语组成的新的人物短语,
或,余前缀、源人物短语、余后缀组成的新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
可选地,该方法还包括:
将目标人物集合中由源人物短语和余前缀组成的新的人物短语得到的目标人物作为第一目标人物;
将同一源人物短语对应的第一目标人物的种类为一种的源人物短语作为非独立短语;
分别统计非独立短语和非独立短语对应的第一目标人物为目标人物的次数;
当非独立短语对应的第一目标人物为目标人物的次数大于非独立短语为目标人物的次数时,将目标人物为非独立短语的对话标识短语的目标人物更新为由所述非独立短语和对应的余前缀组成的新的人物短语。
可选地,根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,包括:
对每个对话标识短语从后向前遍历,将每个对话标识短语中遍历到的第一个左邻字符为分割标点的目标人物更新为对应对话标识短语的目标人物;
将每个场次的对话标识短语对应的目标人物作为对应场次的第一出场人物。
可选地,根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物,包括:
提取每个场次的剧本内容中除冒号之后的对话内容以外的剧本内容得到每个场次提取的剧本内容;
获取每个场次提取的剧本内容中未确定为对应场次的出场人物、且与目标人物集合中的目标人物匹配的目标人物;
将匹配的目标人物作为对应场次的第二出场人物。
第二方面,本申请实施例提供了一种剧本中人物识别装置,该装置包括:
处理模块,用于对待识别剧本进行格式统一化处理;
划分模块,用于对处理后的待识别剧本进行场次划分得到多个场次;
提取模块,用于对每个场次的剧本内容进行对话标识短语提取,其中,对话标识短语为冒号至上一个结束符号之间的短语;
第一识别模块,用于对每个对话标识短语进行目标人物识别和提取得到待识别剧本的目标人物集合;
校正模块,用于根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,第一出场人物为对话主语;
第二识别模块,用于根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物;
整合模块,用于对每个场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个场次的出场人物。
第三方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如前面任一项的方法的步骤。
第四方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时执行如前面任一项的方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该技术方案通过识别待识别剧本中说话的人物作为目标人物组成目标人物集合;并对每个场次的目标人物进行校正以保证第一出场人物的准确性;同时根据目标人物集合识别出每个场次中没有说话但是有动作的目标人物并添加为该场次的第二出场人物,防止遗漏出场人物。即将每个场次说话的人物和有动作的人物都识别出来作为对应场次的出场人物。另外在检验识别前还会对待识别剧本进行处理和冗余剧本内容删除,减少无关内容的干扰,使出场人物识别的准确率和召回率更高,相对于人工识别节省了时间,提高了识别效率和准确率,另外,获得的每个场次的出场人物利于指导剧组拍摄统筹等工作,具有广泛的应用前景。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为一个实施例提供的剧本中人物识别方法的应用环境图;
图2为一个实施例提供的剧本中人物识别方法的流程示意图;
图3为一个实施例提供的剧本中人物识别装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图1为一个实施例提供的剧本中人物识别方法的应用环境图。参考图1,该剧本中人物识别方法应用于剧本中人物识别系统。该剧本中人物识别系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110执行:对待识别剧本进行格式统一化处理;对处理后的待识别剧本进行场次划分得到多个场次;对每个场次的剧本内容进行对话标识短语提取,其中,对话标识短语为冒号至上一个结束符号之间的短语;对每个对话标识短语进行目标人物识别和提取,得到待识别剧本的目标人物集合;根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,第一出场人物为对话主语;根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物;对每个场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个场次的出场人物。
上述格式统一处理、场次划分、提取、识别、校正、整合也可以在服务器120中进行,对于得到的每个场次的出场人物发送至终端110。
终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2为一个实施例提供的剧本中人物识别方法的流程示意图。参考图2,该剧本中人物识别方法包括以下步骤:
S100:对待识别剧本进行格式统一化处理。
具体地,待识别剧本的剧本内容可能会有多种不同的格式,例如字体、标点符号、中英文语法等不统一的内容,因此需要对待识别剧本进行格式统一化处理才能准确识别剧本内容,排除由于格式不统一等因素造成的干扰。
S200:对处理后的待识别剧本进行场次划分得到多个场次。
具体地,一般剧本都会有很多场场次,每个场次都会有不同的出场人物,对出场人物进行识别是为了识别出每个场次的出场人物,以便用来剧本统计分析和指导剧组拍摄统筹等工作。
可以使用正则表达式进行场次划分,例如剧本的每个场次的开头都有场次名,通过对场次名进行检索,可以划分场次。
S300:对每个场次的剧本内容进行对话标识短语提取。其中,对话标识短语为冒号至上一个结束符号之间的短语。
具体地,结束符合包括逗号、感叹号、问号、分号、省略号等。通常在一个剧本中,出场人物包括说话的人物、有具体动作的人物,且说话的人物是剧本的核心人物,通常说话的人物在冒号之前。对话标识短语是从冒号向前遍历直至遇到第一个结束符号之间的短语,即,上一个结束符号之后至第一个冒号之间的短语。
对话标识短语为包含分割标点的对话标识短语或不包含分割标点的对话标识短语。分割标点包括逗号、顿号等。
例如:小明和小刚吃完饭后一起去找小红。小明对小红说:“小红,吃了饭吗?”。其中,“小明对小红说”为对话标识短语,且这个对话标识短语不包含分割标点。
小明和小刚吃完饭后一起去找小红。小明和小刚在路上碰巧遇到了小红,小明对小红说:“小红,吃了饭吗?”。其中,“小明和小刚在路上碰巧遇到了小红,小明对小红说”为对话标识短语,且这个对话标识短语包含分割标点:逗号。
S400:对每个对话标识短语进行目标人物识别和提取,得到待识别剧本的目标人物集合。
具体地,主动说话的人物是整个剧本的核心人物,目标人物指每个对话标识短语中主动说话的人物,每个场次的说话人物都不相同,将全剧本每个场次对应的目标人物提取出来可以得到整个剧本说话的目标人物集合。目标人物集合是整个剧本的核心人物。
S500:根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,第一出场人物为对话主语。
具体地,有可能初始判断的目标人物不正确,因此需要根据目标人物集合对每个对话标识短语的目标人物进行校正,校正后的目标人物即为对话主语,从而得到每个场次真正的第一出场人物。
例如:小明对小红说:“小红,你吃饭了吗?”。可能初始判断对话标识短语“小明对小红说”中的目标人物为小红,实际正确的是小明,因此需要根据目标人物集合进行校正。
S600:根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物。
具体地,在每个场次中,除主动说话的人物是出场人物外,没有主动说话但是有动作的人物如果是目标人物集合中的目标人物也可被判断为该场次的出场人物。因此需要根据目标人物集合将每个场次中没有主动说话但是有动作的目标人物识别出来,补充为对应场次的出场人物。
S700:对每个场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个场次的出场人物。
具体地,每个场次的第一出场人物和第二出场人物可能会有重合的,因此在整合的时候可以去重,使最终的结果更加简洁。
在一个实施例中,该方法,还包括以下步骤:根据预存的特殊短语集合对目标人物集合中的目标人物进行过滤,以删除目标人物集合中与预存的特殊短语匹配的目标人物得到更新的目标人物集合,将更新的目标人物集合作为待识别剧本的目标人物集合;将目标人物与预存的特殊短语匹配的对话标识短语的目标人物更新为空。
具体地,剧本中有可能出现识别到的目标人物明显不是人物,而是该剧本中一些特殊短语,例如“闪回”、“对切”、“空镜”等这些特殊短语,因此需要将这些特殊短语从目标人物集合中去除,同时将对话标识短语中有这些特殊短语作为目标人物的将目标人物更新为空,避免对剧本中人物识别造成干扰。
在一个实施例中,步骤S300具体包括:提取每个场次的剧本内容中冒号至上一个结束符合之间的短语,删除提取的短语中的特殊字符和括号中的剧本内容得到每个场次的对话标识短语。
具体地,在一个剧本中,括号中的剧本内容为解释性文字,不是说话的内容,也不是正文,删除待识别剧本中的特殊字符和括号中的剧本内容可以减少对目标人物识别的干扰。
在一个实施例中,步骤S100包括:
遍历待识别剧本,将待识别剧本中的文字统一转换为相同字体类型的文字,将待识别剧本中的标点符号统一转换为相同语法的标点符号。
在一个剧本中,可能同时存在繁体字、简体字等不同字体类型的文字,还可能存在中文语法的标点符号、英文语法的标点符号或其他语法的标点符号等其他格式不统一的情况,因此将剧本内容进行格式统一化处理才能准备识别文字或标点符号。可以将繁体字统一转换为简体字,也可以将简体字统一转换为简体字;可以将中文语法和其他语法的标点符号统一转换为英文语法的标点符号,也可以将英文语法和其他语法的标点符号统一转换为中文语法的标点符号。
在一个实施例中,剧本内容还可能存在全角、半角类型的标点符号或文字,因此还可以将剧本内容都转换为全角或半角输入模式下的字体和符号。但不局限于此。
在一个实施例中,步骤S400包括以下步骤:
分别对每个对话标识短语进行子对话标识短语提取,其中,子对话标识短语为冒号至上一个标点符号之间的短语。
具体地,如果对话标识短语不包含分割标点,则该对话标识短语的子对话标识短语即为本身。
例如:例如:小明和小刚吃完饭后一起去找小红。小明对小红说:“小红,吃了饭吗?”。其中,“小明对小红说”为对话标识短语,且这个对话标识短语不包含分割标点,因此其子对话标识短语即为“小明对小红说”。
如果对话标识短语包含分割标点,则该对话标识短语的子对话标识短语为冒号至上一个分割标点之间的短语。
例如:小明和小刚吃完饭后一起去找小红。小明和小刚在路上碰巧遇到了小红,小明对小红说:“小红,吃了饭吗?”。其中,“小明和小刚在路上碰巧遇到了小红,小明对小红说”为对话标识短语,且包含分割标点:逗号;这个对话标识短语的子对话标识短语为“小明对小红说”。
统计各个子对话标识短语在待识别剧本中的出现次数。
具体地,在剧本中,很多情况是直接以单独的目标人物作为对话标识短语的,例如:小明:“吃饭了吗?”,小红:“吃了”等等,这种情况,对话标识短语“小明”、“小红”可能会在不同的场次出现,或在同一个场次出现多次。而这些对话标识短语的子对话标识短语就是自身。而且其他对话标识短语的子对话标识短语可能包含“小明”、“小红”。
按照出现次数对子对话标识短语进行降序排序。
具体地,对于全剧本中不同子对话标识短语进行降序排序,例如,“小明”出现的次数最多排第一,“小红”出现的次数次之,排第二,“小明对小红说”出现的次数再次之,排第三,“小刚对小红说”出现的次数再次之,排第四,等等。
将排序在第一位的子对话标识短语作为源人物短语。
具体地,例如,将上述排第一的“小明”作为源人物短语。
将源人物短语作为所在对话标识短语的目标人物。
具体地,例如,“小明”既是源人物短语也是对话标识短语,因此源人物短语“小明”是对话标识短语为“小明”的目标人物。
从源人物短语开始向下遍历降序排序的子对话标识短语。
具体地,例如,从上述“小明”开始向下依次遍历到“小红”、“小明对小红说”、“小刚对小红说”等。
获取源人物短语的相关子对话标识短语,相关子对话标识短语为向下遍历的子对话标识短语中包含源人物短语且未标识为已检验的子对话标识短语。
具体地,例如,上述“小明”作为源人物短语,向下遍历包含“小明”且未标识为已检验的子对话标识短语为“小明对小红说”,即“小明对小红说”为源人物短语“小明”的相关子对话标识短语。
获取每个相关子对话标识短语中源人物短语的余前缀和余后缀。
具体地,例如,上述“小明对小红说”中源人物短语“小明”的余前缀为空,即不存在余前缀,余后缀为“对小红说”。
分别获取每个相关子对话标识短语的余前缀的属性和余后缀的属性。
具体地,余前缀的属性包括词性,例如是名词还是动词或形容词,也可以包括是否为姓氏等等,但不局限于此。
余后缀的属性包括词性,例如是名词还是动词或形容词,还包括类别是否为人等等,但不局限于此。
根据每个相关子对话标识短语的余前缀的属性、余后缀的属性判断对应的余前缀和/或余后缀与源人物短语是否能组成新的人物短语。
具体地,根据余前缀的属性判断余前缀是否能与源人物短语组成新的人物短语;或,根据余后缀的属性判断余后缀是否能与源人物短语组成新的人物短语;或,根据余前缀的属性和余后缀的属性判断余前缀、源人物短语、余后缀一起是否能组成新的人物短语。
若能组成新的人物短语,则将新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物;
若不能组成新的人物短语,则将源人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
具体地,不论是余前缀与源人物短语组成的新的人物短语,或,余后缀与源人物短语组成的新的人物短语,或,余前缀、源人物短语、余后缀一起组成的新的人物短语,只要满足能组成新的人物短语,则将新的人物短语作为对应对话标识短语的目标人物。
将确定目标人物的源人物短语和相关子对话标识短语标记为已检验。
向下遍历,将排序在源人物短语之后的子对话标识短语中第一个遍历到的未标记为已检验的子对话标识短语作为源人物短语,执行从源人物短语开始向下遍历降序排序的子对话标识短语,直至检验完所有子对话标识短语。
具体地,例如,上述检验完源人物短语“小明”及其相关子对话标识短语得到各自的目标人物后,再检验降序排序中未检验的子对话标识短语;从“小明”向下遍历到的第一个未标记为已检验的子对话标识短语为“小红”,因此将“小红”作为新的源人物短语,然后从源人物短语“小红”开始向下遍历降序排序的子对话标识短语。获取到源人物短语“小红”的相关子对话标识短语为“小明对小红说”和“小刚对小红说”,但是“小明对小红说”已经被标记为已检验,因此源人物短语“小红”的相关子对话标识短语实际为“小刚对小红说”。
将获取到的目标人物组成待识别剧本的目标人物集合。
具体地,每个子对话标识短语的目标人物即为所在的对话标识短语的目标人物,全剧本中的所有对话标识短语的目标人物集合为该剧本的目标人物集合。
在一个实施例中,分别获取每个相关子对话标识短语的余前缀的属性和余后缀的属性,包括:对每个相关子对话标识短语的余前缀进行词性分析和姓氏分析,判断余前缀是否为名词或姓氏;对每个相关子对话标识短语的余后缀进行词性分析和类别分析,判断余后缀是否为名词且类别为人。
具体地,利用分词工具对余前缀进行词性分析,判断余前缀是否为名词,或者在姓氏词典中检索判断余前缀是否为姓氏。
利用分词工具对余后缀进行词性分析,判断余后缀是否为名词,当余后缀为名词时,利用语言知识库对余后缀进行类别分析,判断余后缀的类别是否为人。语言知识库可以采用HowNet。
在一个实施例中,根据每个相关子对话标识短语的余前缀的属性、余后缀的属性判断对应的余前缀和/或余后缀与源人物短语是否能组成新的人物短语,包括:
若对应的余前缀为名词或姓氏,且余后缀不为名词或类别不为人,则余前缀与源人物短语能组成新的人物短语,
若对应的余前缀既不为名词也不为姓氏,且余后缀为名词且类别为人,则余后缀与源人物短语能组成新的人物短语,
若对应的余前缀为名词或姓氏,且余后缀为名词且类别为人,则余前缀、源人物短语、余后缀能组成新的人物短语,
若对应的余前缀既不为名词也不为姓氏,且余后缀不为名词或类别不为人,则余前缀和/或余后缀与源人物短语不能组成新的人物短语。
在一个实施例中,若能组成新的人物短语,则将新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物,包括:
若能组成新的人物短语,则将余前缀与源人物短语组成的新的人物短语,
或,余后缀与源人物短语组成的新的人物短语,
或,余前缀、源人物短语、余后缀组成的新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
具体地,若对应的余前缀为名词或姓氏,且余后缀不为名词或类别不为人,则余前缀与源人物短语能组成新的人物短语,而余后缀与源人物短语不能组成新的人物短语,此时,将余前缀与源人物短语组成的新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
若对应的余前缀既不为名词也不为姓氏,且余后缀为名词且类别为人,则余后缀与源人物短语能组成新的人物短语,而余前缀与源人物短语不能组成新的人物短语,此时,将余后缀与源人物短语组成的新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
若对应的余前缀为名词或姓氏,且余后缀为名词且类别为人,则余前缀、源人物短语、余后缀能组成新的人物短语,此时,将由余前缀、源人物短语、余后缀一起组成的新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
若对应的余前缀既不为名词也不为姓氏,且余后缀不为名词或类别不为人,则余前缀与源人物短语不能组成新的人物短语,余后缀与源人物短语不能组成新的人物短语,余前缀、源人物短语、余后缀也不能组成新的人物短语,此时将源人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
例如,如前面所述,源人物短语“小明”的相关子对话标识短语为“小明对小红说”,源人物短语“小明”的余前缀为空,余后缀为“对小红说”,经词性分析和类别分析,余后缀“对小红说”不是名词且类别不为人,因此“小明”是相关子对话标识短语为“小明对小红说”的目标人物,也为相关子对话标识短语“小明对小红说”所在的对话标识短语的目标人物。
在一个实施例中,该剧本中人物识别方法还包括以下步骤:
将目标人物集合中由源人物短语和余前缀组成的新的人物短语得到的目标人物作为第一目标人物;将同一源人物短语对应的第一目标人物的种类为一种的源人物短语作为非独立短语;分别统计非独立短语和非独立短语对应的第一目标人物为目标人物的次数;当非独立短语对应的第一目标人物为目标人物的次数大于非独立短语为目标人物的次数时,将目标人物为非独立短语的对话标识短语的目标人物更新为由所述非独立短语和对应的余前缀组成的新的人物短语。
具体地,例如,3个对话标识短语“站长”、“陈站长”、“陈站长夫人”,其中“站长”为源人物短语,“陈站长夫人”中,“站长”能与其余后缀“夫人”组成新的人物短语,因此“陈站长夫人”需要排除,不能作为第一目标人物,而“陈站长”中,“站长”能与其余前缀“陈”组成新的人物短语,因此“陈站长”为第一目标人物;源人物短语“站长”对应的第一目标人物的种类只有一种,即为“陈站长”,因此“站长”为非独立词,当整个剧本内容中“陈站长”为目标人物的次数大于“站长”为目标人物的次数时,则“站长”和“陈站长”指代同一个出场人物,因此将目标人物为“站长”的对话短语的目标人物更新为“陈站长”。这样可以统一同一个剧本中的出场人物。
在一个实施例中,步骤S500包括以下步骤:对每个对话标识短语从后向前遍历,将每个对话标识短语中遍历到的第一个左邻字符为分割标点的目标人物更新为对应对话标识短语的目标人物;将每个场次的对话标识短语对应的目标人物作为对应场次的第一出场人物。
具体地,例如,有多个降序排序的子对话标识短语,“小明”、“小红”、“小红对小明说”,其中,“小明”是出现次数最多的子对话标识短语,作为源人物短语,向下遍历,检测到“小红对小明说”为“小明”的相关子对话标识短语,“小明”的余前缀为“小红对”,既不是名词也不是姓氏,“小明”的余后缀为“说”不是名词类别也不是人,因此“小红对小明说”的目标人物确定为“小明”。
通过对该子对话标识短语“小红对小明说”所在的对话标识短语从后向前遍历,遍历到的第一个左邻字符为分割标点的目标人物是“小红”,因此前面得到的目标人物为“小明”不准确,需要更新为“小红”。
在一个实施例中,步骤S600包括以下步骤:提取每个场次的剧本内容中除冒号之后的对话内容以外的剧本内容得到每个场次提取的剧本内容;获取每个场次提取的剧本内容中未确定为对应场次的出场人物、且与目标人物集合中的目标人物匹配的目标人物;将匹配的目标人物作为对应场次的第二出场人物。
具体地,每个场次的出场人物有多种来源,包括本场次的对话标识短语提取的目标人物,利用本场次的动作描述等其他部分提取的其他出现的人物等都是本场次出场人物的来源。其中动作描述等其他部分是指去除对白部分(双引号中的内容)和对话标识短语后剩下的其他内容,与目标人物集合匹配,最后将两个来源的人物去重得到每个场次的出场人物。
先通过对话标识短语将待识别剧本中主动说话的人物作为目标人物识别出来,将目标人物作为全剧本的核心人物,即,主动说话的人物一定是出场人物。但是很多情况,在待识别剧本中某些目标人物在有的场次有主动说话因此可以识别出来,但是在有些场次没有主动说话,但是有具体动作,因此在这个没有说话但是有动作的场次这个目标人物不会被识别为出场人物。为了将每个场次没有说话但是有动作的出场人物识别出来,需要先排除各个场次的对话内容,以免对检测造成干扰,然后检测剩下的剧本内容中是否有未确定为该场次的出场人物且为目标人物集合中的目标人物,如果存在,则将该目标人物添加为该场次的出场人物。
例如,在全剧本中,目标人物集合包括“小明”、“小红”、“小刚”。在第一个场次中,主动说话的出场人物有“小明”、“小红”,在第二个场次中,主动说话的出场人物有“小明”、“小刚”,但是在第三个场次中,主动说话的出场人物只有“小红”,“小刚”没有主动说话但是有动作或者为“小红”的倾听者,因此在对话标识短语中识别到第三场次的出场人物只有“小红”,实际上,因为“小刚”属于目标人物集合的目标人物,且在第三场次有动作,所以需要将“小刚”添加为第三场次的出场人物。
图2为一个实施例提供的剧本中人物识别方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图3为一个实施例提供的剧本中人物识别装置的结构框图;参考图3,该装置包括:
处理模块10,用于对待识别剧本进行格式统一化处理。
划分模块20,用于对处理后的待识别剧本进行场次划分得到多个场次。
提取模块30,用于对每个场次的剧本内容进行对话标识短语提取,其中,对话标识短语为冒号至上一个结束符号之间的短语。
第一识别模块40,用于对每个对话标识短语进行目标人物识别和提取得到待识别剧本的目标人物集合。
校正模块50,用于根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,第一出场人物为对话主语。
第二识别模块60,用于根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物。
整合模块70,用于对每个所述场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个所述场次的出场人物。
在一个实施例中,提取模块30具体用于提取每个场次的剧本内容中冒号至上一个结束符合之间的短语,删除提取的短语中的特殊字符和括号中的剧本内容得到每个场次的对话标识短语。
在一个实施例中,处理模块10具体用于:遍历待识别剧本,将待识别剧本中的文字统一转换为相同字体类型的文字,将待识别剧本中的标点符号统一转换为相同语法的标点符号。
在一个实施例中,第一识别模块40具体包括:
子提取模块,用于分别对每个对话标识短语进行子对话标识短语提取,其中,子对话标识短语为冒号至上一个标点符号之间的短语。
计数模块,用于统计各个子对话标识短语在待识别剧本中的出现次数。
排序模块,用于按照出现次数对子对话标识短语进行降序排序。
源人物短语获取模块,用于将排序在第一位的子对话标识短语作为源人物短语。
目标人物识别模块,用于将源人物短语作为所在对话标识短语的目标人物。
遍历模块,用于从源人物短语开始向下遍历降序排序的子对话标识短语。
相关短语获取模块,用于获取源人物短语的相关子对话标识短语,相关子对话标识短语为向下遍历的子对话标识短语中包含源人物短语且未标识为已检验的子对话标识短语。
前后缀获取模块,用于获取每个相关子对话标识短语中源人物短语的余前缀和余后缀。
属性分析模块,用于分别获取每个相关子对话标识短语的余前缀的属性和余后缀的属性。
判断模块,用于根据每个相关子对话标识短语的余前缀的属性、余后缀的属性判断对应的余前缀和/或余后缀与源人物短语是否能组成新的人物短语。
目标人物识别模块,还用于若能组成新的人物短语,则将新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物;若不能组成新的人物短语,则将源人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
标记模块,用于将确定目标人物的源人物短语和相关子对话标识短语标记为已检验。
循环模块,用于向下遍历,将排序在源人物短语之后的子对话标识短语中第一个遍历到的未标记为已检验的子对话标识短语作为源人物短语,使执行从源人物短语开始向下遍历降序排序的子对话标识短语,直至检验完所有子对话标识短语。
汇总模块,用于将获取到的目标人物组成待识别剧本的目标人物集合。
在一个实施例中,属性分析模块具体用于:对每个相关子对话标识短语的余前缀进行词性分析和姓氏分析,判断余前缀是否为名词或姓氏;对每个相关子对话标识短语的余后缀进行词性分析和类别分析,判断余后缀是否为名词且类别为人。
在一个实施例中,判断模块具体用于:若对应的余前缀为名词或姓氏,且余后缀不为名词或类别不为人,则余前缀与源人物短语能组成新的人物短语,若对应的余前缀既不为名词也不为姓氏,且余后缀为名词且类别为人,则余后缀与源人物短语能组成新的人物短语,若对应的余前缀为名词或姓氏,且余后缀为名词且类别为人,则余前缀、源人物短语、余后缀能组成新的人物短语,若对应的余前缀既不为名词也不为姓氏,且余后缀不为名词或类别不为人,则余前缀和/或余后缀与源人物短语不能组成新的人物短语。
在一个实施例中,目标人物识别模块还具体用于:若能组成新的人物短语,则将余前缀与源人物短语能组成的新的人物短语,或,余后缀与源人物短语能组成的新的人物短语,或,余前缀、源人物短语、余后缀能组成的新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
在一个实施例中,校正模块50还具体用于:将目标人物集合中由源人物短语和余前缀组成的新的人物短语得到的目标人物作为第一目标人物;将同一源人物短语对应的第一目标人物的种类为一种的源人物短语作为非独立短语;分别统计非独立短语和非独立短语对应的第一目标人物为目标人物的次数;当非独立短语对应的第一目标人物为目标人物的次数大于非独立短语为目标人物的次数时,将目标人物为非独立短语的对话标识短语的目标人物更新为由非独立短语和对应的余前缀组成的新的人物短语。
在一个实施例中,该装置还包括:
过滤模块,用于根据预存的特殊短语集合对目标人物集合中的目标人物进行过滤,以删除目标人物集合中与预存的特殊短语匹配的目标人物得到更新的目标人物集合,将更新的目标人物集合作为待识别剧本的目标人物集合。
校正模块50,还用于将目标人物与预存的特殊短语匹配的对话标识短语的目标人物更新为空。
在一个实施例中,校正模块50具体用于,对每个对话标识短语从后向前遍历,将每个对话标识短语中遍历到的第一个左邻字符为分割标点的目标人物更新为对应对话标识短语的目标人物;将每个场次的对话标识短语对应的目标人物作为对应场次的第一出场人物。
在一个实施例中,第二识别模块60具体用于,提取每个场次的剧本内容中除冒号之后的对话内容以外的剧本内容得到每个场次提取的剧本内容;获取每个场次提取的剧本内容中未确定为对应场次的出场人物、且与目标人物集合中的目标人物匹配的目标人物;将匹配的目标人物作为对应场次的第二出场人物。
图4为一个实施例中计算机设备的内部结构图。参考图4,该计算机设备具体可以是图1中的终端110(或服务器120)。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现剧本中人物识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行剧本中人物识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的剧本中人物识别装置可以实现为一种计算机程序的形式。计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该剧本中人物识别装置的各个程序模块,比如,图3所示的处理模块10、划分模块20、提取模块30、第一识别模块40、校正模块50、第二识别模块60、整合模块70。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的剧本中人物识别方法中的步骤。
具体地,图4所示的计算机设备可以通过图3所示的剧本中人物识别装置中的处理模块10执行对待识别剧本进行格式统一化处理。计算机设备可以通过划分模块20执行对处理后的待识别剧本进行场次划分得到多个场次。计算机设备可以通过提取模块30执行对每个场次的剧本内容进行对话标识短语提取,其中,对话标识短语为冒号至上一个结束符号之间的短语。计算机设备可以通过第一识别模块40执行对每个对话标识短语进行目标人物识别和提取得到待识别剧本的目标人物集合。计算机设备可以通过校正模块50执行根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物。计算机设备还可以通过第二识别模块60根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物。计算机设备还可以通过整合模块70执行对每个所述场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个所述场次的出场人物。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:对待识别剧本进行格式统一化处理;对处理后的待识别剧本进行场次划分得到多个场次;对每个场次的剧本内容进行对话标识短语提取,其中,对话标识短语为冒号至上一个结束符号之间的短语;对每个对话标识短语进行目标人物识别和提取,得到待识别剧本的目标人物集合;根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物;根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物;对每个场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个场次的出场人物。
在一个实施例中,对每个场次的剧本内容进行对话标识短语提取包括以下步骤:提取每个场次的剧本内容中冒号至上一个结束符合之间的短语,删除提取的短语中的特殊字符和括号中的剧本内容得到每个场次的对话标识短语。
在一个实施例中,对待识别剧本进行格式统一化处理,包括:
遍历待识别剧本,将待识别剧本中的文字统一转换为相同字体类型的文字,将待识别剧本中的标点符号统一转换为相同语法的标点符号。
在一个实施例中,对每个对话标识短语进行目标人物识别和提取得到待识别剧本的目标人物集合,包括:
分别对每个对话标识短语进行子对话标识短语提取,其中,子对话标识短语为冒号至上一个标点符号之间的短语;统计各个子对话标识短语在待识别剧本中的出现次数;按照出现次数对子对话标识短语进行降序排序;将排序在第一位的子对话标识短语作为源人物短语;将源人物短语作为所在对话标识短语的目标人物;从源人物短语开始向下遍历降序排序的子对话标识短语;获取源人物短语的相关子对话标识短语,相关子对话标识短语为向下遍历的子对话标识短语中包含源人物短语且未标识为已检验的子对话标识短语;获取每个相关子对话标识短语中源人物短语的余前缀和余后缀;分别获取每个相关子对话标识短语的余前缀的属性和余后缀的属性;根据每个相关子对话标识短语的余前缀的属性、余后缀的属性判断对应的余前缀和/或余后缀与源人物短语是否能组成新的人物短语;若能组成新的人物短语,则将新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物;若不能组成新的人物短语,则将源人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物;将确定目标人物的源人物短语和相关子对话标识短语标记为已检验;向下遍历,将排序在源人物短语之后的子对话标识短语中第一个遍历到的未标记为已检验的子对话标识短语作为源人物短语,执行从源人物短语开始向下遍历降序排序的子对话标识短语,直至检验完所有子对话标识短语;将获取到的目标人物组成待识别剧本的目标人物集合。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:对待识别剧本进行格式统一化处理;对处理后的待识别剧本进行场次划分得到多个场次;对每个场次的剧本内容进行对话标识短语提取,其中,对话标识短语为冒号至上一个结束符号之间的短语;对每个对话标识短语进行目标人物识别和提取,得到待识别剧本的目标人物集合;根据目标人物集合对每个场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物;根据目标人物集合对每个场次的动作主语进行识别和提取,得到每个场次的第二出场人物;对每个场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个场次的出场人物。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种剧本中人物识别方法,其特征在于,所述方法包括:
对待识别剧本进行格式统一化处理;
对处理后的所述待识别剧本进行场次划分得到多个场次;
对每个所述场次的剧本内容进行对话标识短语提取,其中,所述对话标识短语为冒号至上一个结束符号之间的短语;
对每个所述对话标识短语进行目标人物识别和提取,得到所述待识别剧本的目标人物集合;
根据所述目标人物集合对每个所述场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,所述第一出场人物为对话主语;
根据所述目标人物集合对每个所述场次的动作主语进行识别和提取,得到每个所述场次的第二出场人物;
对每个所述场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个所述场次的出场人物。
2.根据权利要求1所述的方法,其特征在于,在所述对每个所述对话标识短语进行目标人物识别和提取,得到所述待识别剧本的目标人物集合之后,所述方法还包括:
根据预存的特殊短语集合对所述目标人物集合中的目标人物进行过滤,以删除所述目标人物集合中与预存的特殊短语匹配的目标人物得到更新的目标人物集合,将更新的目标人物集合作为所述待识别剧本的目标人物集合;
将目标人物与预存的特殊短语匹配的对话标识短语的目标人物更新为空。
3.根据权利要求2所述的方法,其特征在于,所述对每个所述场次的剧本内容进行对话标识短语提取,包括:
提取每个所述场次的剧本内容中冒号至上一个结束符合之间的短语,
删除提取的所述短语中的特殊字符和括号中的剧本内容,得到每个所述场次的对话标识短语;
所述对待识别剧本进行格式统一化处理,包括:
遍历所述待识别剧本,将所述待识别剧本中的文字统一转换为相同字体类型的文字,将所述待识别剧本中的标点符号统一转换为相同语法的标点符号。
4.根据权利要求3所述的方法,其特征在于,所述对每个所述对话标识短语进行目标人物识别和提取,得到所述待识别剧本的目标人物集合,包括:
分别对每个所述对话标识短语进行子对话标识短语提取,其中,所述子对话标识短语为冒号至上一个标点符号之间的短语;
统计各个所述子对话标识短语在所述待识别剧本中的出现次数;
按照所述出现次数对所述子对话标识短语进行降序排序;
将排序在第一位的子对话标识短语作为源人物短语;
将所述源人物短语作为所在对话标识短语的目标人物;
从所述源人物短语开始向下遍历所述降序排序的子对话标识短语;
获取所述源人物短语的相关子对话标识短语,所述相关子对话标识短语为向下遍历的子对话标识短语中包含所述源人物短语且未标识为已检验的子对话标识短语;
获取每个所述相关子对话标识短语中所述源人物短语的余前缀和余后缀;
分别获取每个所述相关子对话标识短语的余前缀的属性和余后缀的属性;
根据每个所述相关子对话标识短语的余前缀的属性、余后缀的属性判断对应的余前缀和/或余后缀与所述源人物短语是否能组成新的人物短语;
若能组成新的人物短语,则将新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物;
若不能组成新的人物短语,则将所述源人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物;
将确定目标人物的所述源人物短语和相关子对话标识短语标记为已检验;
向下遍历,将排序在所述源人物短语之后的子对话标识短语中第一个遍历到的未标记为已检验的子对话标识短语作为源人物短语,执行所述从所述源人物短语开始向下遍历所述降序排序的子对话标识短语,直至检验完所有子对话标识短语;
将获取到的目标人物组成所述待识别剧本的目标人物集合。
5.根据权利要求4所述的方法,其特征在于,所述分别获取每个所述相关子对话标识短语的余前缀的属性和余后缀的属性,包括:
对每个所述相关子对话标识短语的余前缀进行词性分析和姓氏分析,判断所述余前缀是否为名词或姓氏;
对每个所述相关子对话标识短语的余后缀进行词性分析和类别分析,判断所述余后缀是否为名词且类别为人。
6.根据权利要求5所述的方法,其特征在于,所述根据每个所述相关子对话标识短语的余前缀的属性、余后缀的属性判断对应的余前缀和/或余后缀与所述源人物短语是否能组成新的人物短语,包括:
若对应的余前缀为名词或姓氏,且余后缀不为名词或类别不为人,则所述余前缀与源人物短语能组成新的人物短语,
若对应的余前缀既不为名词也不为姓氏,且余后缀为名词且类别为人,则所述余后缀与源人物短语能组成新的人物短语,
若对应的余前缀为名词或姓氏,且余后缀为名词且类别为人,则所述余前缀、源人物短语、余后缀能组成新的人物短语,
若对应的余前缀既不为名词也不为姓氏,且余后缀不为名词或类别不为人,则所述余前缀和/或余后缀与源人物短语不能组成新的人物短语;
所述若能组成新的人物短语,则将新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物,包括:
若能组成新的人物短语,则将余前缀与源人物短语组成的新的人物短语,
或,所述余后缀与源人物短语组成的新的人物短语,
或,所述余前缀、源人物短语、余后缀组成的新的人物短语作为对应的相关子对话标识短语所在的对话标识短语的目标人物。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将所述目标人物集合中由源人物短语和余前缀组成的新的人物短语得到的目标人物作为第一目标人物;
将同一源人物短语对应的所述第一目标人物的种类为一种的源人物短语作为非独立短语;
分别统计所述非独立短语和所述非独立短语对应的第一目标人物为目标人物的次数;
当所述非独立短语对应的第一目标人物为目标人物的次数大于所述非独立短语为目标人物的次数时,将目标人物为所述非独立短语的对话标识短语的目标人物更新为由所述非独立短语和对应的余前缀组成的新的人物短语。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述目标人物集合对每个所述场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,包括:
对每个所述对话标识短语从后向前遍历,将每个所述对话标识短语中遍历到的第一个左邻字符为分割标点的目标人物更新为对应对话标识短语的目标人物;
将每个所述场次的对话标识短语对应的目标人物作为对应场次的第一出场人物。
9.根据权利要求8所述的方法,其特征在于,所述根据所述目标人物集合对每个所述场次的动作主语进行识别和提取,得到每个所述场次的第二出场人物,包括:
提取每个所述场次的剧本内容中除冒号之后的对话内容以外的剧本内容得到每个场次提取的剧本内容;
获取每个场次提取的剧本内容中未确定为对应场次的出场人物、且与所述目标人物集合中的目标人物匹配的目标人物;
将所述匹配的目标人物作为对应场次的第二出场人物。
10.一种剧本中人物识别装置,其特征在于,所述装置包括:
处理模块,用于对待识别剧本进行格式统一化处理;
划分模块,用于对处理后的所述待识别剧本进行场次划分得到多个场次;
提取模块,用于对每个所述场次的剧本内容进行对话标识短语提取,其中,所述对话标识短语为冒号至上一个结束符号之间的短语;
第一识别模块,用于对每个所述对话标识短语进行目标人物识别和提取得到所述待识别剧本的目标人物集合;
校正模块,用于根据所述目标人物集合对每个所述场次的每个对话标识短语对应的目标人物进行校正得到每个场次的第一出场人物,所述第一出场人物为对话主语;
第二识别模块,用于根据所述目标人物集合对每个所述场次的动作主语进行识别和提取,得到每个所述场次的第二出场人物;
整合模块,用于对每个所述场次的第一出场人物和第二出场人物进行整合和去重处理,得到每个所述场次的出场人物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911269632.7A CN111126201B (zh) | 2019-12-11 | 2019-12-11 | 剧本中人物识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911269632.7A CN111126201B (zh) | 2019-12-11 | 2019-12-11 | 剧本中人物识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126201A CN111126201A (zh) | 2020-05-08 |
CN111126201B true CN111126201B (zh) | 2023-06-30 |
Family
ID=70498940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911269632.7A Active CN111126201B (zh) | 2019-12-11 | 2019-12-11 | 剧本中人物识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126201B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832280B (zh) * | 2020-07-09 | 2023-06-30 | 北京奇艺世纪科技有限公司 | 剧本信息处理方法、装置、电子设备及存储介质 |
CN113342829A (zh) * | 2021-07-08 | 2021-09-03 | 北京海马轻帆娱乐科技有限公司 | 剧本处理方法、装置、电子设备及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025413A (ja) * | 2003-06-30 | 2005-01-27 | Nec Corp | コンテンツ処理装置、コンテンツ処理方法及びプログラム |
JP2007052043A (ja) * | 2005-08-15 | 2007-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体 |
EP2230607A1 (en) * | 2009-03-17 | 2010-09-22 | Samsung Electronics Co., Ltd. | Apparatus and method for creating animation from web text |
CN107844477A (zh) * | 2017-10-25 | 2018-03-27 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190295110A1 (en) * | 2016-12-09 | 2019-09-26 | Storyfit Inc. | Performance analytics system for scripted media |
-
2019
- 2019-12-11 CN CN201911269632.7A patent/CN111126201B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025413A (ja) * | 2003-06-30 | 2005-01-27 | Nec Corp | コンテンツ処理装置、コンテンツ処理方法及びプログラム |
JP2007052043A (ja) * | 2005-08-15 | 2007-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体 |
EP2230607A1 (en) * | 2009-03-17 | 2010-09-22 | Samsung Electronics Co., Ltd. | Apparatus and method for creating animation from web text |
CN107844477A (zh) * | 2017-10-25 | 2018-03-27 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
Non-Patent Citations (1)
Title |
---|
陆汝钤,张松懋.从故事到动画片――全过程计算机辅助动画自动生成.自动化学报.2002,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111126201A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
JP5462001B2 (ja) | 文脈上の入力方法 | |
CN107247707B (zh) | 基于补全策略的企业关联关系信息提取方法和装置 | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
US10496751B2 (en) | Avoiding sentiment model overfitting in a machine language model | |
CN111984589A (zh) | 文档处理方法、文档处理装置和电子设备 | |
CN112541095A (zh) | 视频标题生成方法、装置、电子设备及存储介质 | |
CN111126201B (zh) | 剧本中人物识别方法及装置 | |
CN106021532B (zh) | 关键词的显示方法和装置 | |
CN111492364A (zh) | 数据标注方法、装置及存储介质 | |
CN110866390B (zh) | 中文语法错误的识别方法、装置、计算机设备和存储介质 | |
CN112149680A (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
CN110795942A (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN107908792B (zh) | 信息推送方法和装置 | |
CN117422064A (zh) | 搜索文本纠错方法、装置、计算机设备及存储介质 | |
CN111611340A (zh) | 信息抽取方法、装置、计算机设备和存储介质 | |
CN116225956A (zh) | 自动化测试方法、装置、计算机设备和存储介质 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
CN110807322B (zh) | 基于信息熵识别新词的方法、装置、服务器及存储介质 | |
US11182560B2 (en) | System and method for language independent iterative learning mechanism for NLP tasks | |
CN113435217A (zh) | 语言测试处理方法、装置及电子设备 | |
CN112364632A (zh) | 图书校对方法和装置 | |
CN115204182B (zh) | 一种待校对电子书数据的识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |