CN114186557A - 主题词确定方法、设备及存储介质 - Google Patents
主题词确定方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114186557A CN114186557A CN202210143658.2A CN202210143658A CN114186557A CN 114186557 A CN114186557 A CN 114186557A CN 202210143658 A CN202210143658 A CN 202210143658A CN 114186557 A CN114186557 A CN 114186557A
- Authority
- CN
- China
- Prior art keywords
- phrase
- text
- degree
- phrases
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000002776 aggregation Effects 0.000 claims abstract description 77
- 238000004220 aggregation Methods 0.000 claims abstract description 76
- 230000011218 segmentation Effects 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000012216 screening Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 abstract description 20
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000005054 agglomeration Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015271 coagulation Effects 0.000 description 1
- 238000005345 coagulation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种主题词确定方法、设备及存储介质,涉及数据处理技术领域,尤其涉及文本处理技术领域。该方法包括:获取待处理文本中的多个短语,每个短语中包括至少一个分词;针对所述多个短语,计算每个短语的凝聚度和所述多个短语之间的自由度,其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,多个短语之间的自由度用于表征一个短语与其相邻短语的固定程度;根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述待处理文本的主题词,实现了文本主题词的自动提取,提高了所提取的主题词的完整性和准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种主题词确定方法、设备及存储介质。
背景技术
随着互联网的快速发展以及线上协同软件的功能的完备,音视频的线上处理方式以其高便捷性的优点,得到了越来越多的用户的青睐。
针对线上音视频处理场景,如线上音频会议、线上视频会议、线上教育、音视频作品处理等,以线上会议为例,会议软件通常具备保存会议音频、将会议音频转换为文本数据的功能,以便于用户在会议结束之后,通过会议音频或文本数据进行会议总结、回顾等,如撰写会议纪要,以更好地了解会议内容。由于线上会议时长较长,导致所转换的文本数据篇幅较长,从而使得用户需要耗费较长时间进行会议内容的提炼,用户体验欠佳。
发明内容
本申请提供一种主题词确定方法、设备及存储介质,实现了文本主题词的自动提取,提高了文本内容提炼的效率。
第一方面,本申请提供一种主题词确定方法,包括:
获取待处理文本中的多个短语,每个短语中包括至少一个分词;针对所述多个短语,计算每个短语的凝聚度和所述多个短语之间的自由度,其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,所述自由度用于表征一个短语与其相邻短语的固定程度;根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述待处理文本的主题词。
第二方面,本申请提供另一种主题词确定方法,包括:
获取会议系统采集的会议的音频数据,并根据所述音频数据,生成待处理文本;获取所述待处理文本中的多个短语,每个短语中包括至少一个分词;针对所述多个短语,计算每个短语的凝聚度和所述多个短语之间的自由度,其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,所述自由度用于表征一个短语与其相邻短语的固定程度;根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述会议的主题词。
第三方面,本申请提供一种主题词确定装置,包括:
短语获取模块,用于获取待处理文本中的多个短语,每个短语中包括至少一个分词;短语参数计算模块,用于针对所述多个短语,计算每个短语的凝聚度和多个短语之间的自由度,其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,所述自由度用于表征一个短语与其相邻短语的固定程度;主题词确定模块,用于根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述待处理文本的主题词。
第四方面,本申请提供一种主题词确定设备,包括:
处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现本申请第一方面或第二方面提供的主题词确定方法。
第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现本申请第一方面或第二方面提供的主题词确定方法。
第六方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请第一方面或第二方面提供的主题词确定方法。
本申请提供的主题词确定方法、设备、存储介质和程序产品,对待处理文本进行短语划分,得到待处理文本中的各个短语,基于短语的凝聚度和自由度,对待处理文本的短语进行处理,得到待处理文本的主题词,实现了文本主题词的快速抽取,为待处理文本内容提炼提供了便利,且以短语为单位进行主题词抽取,提高了主题词抽取的完整性,使得用户可以基于所抽取的主题词快速确定待处理文本的主要内容,提高内容提炼的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例的一种应用场景示意图;
图2为本申请实施例提供的一种主题词确定方法的流程示意图;
图3为本申请图2所示实施例中步骤S203的流程示意图;
图4为本申请另一个实施例提供的主题词确定方法的流程示意图;
图5为本申请图4所示实施例中加权有向图的示意图;
图6为本公开图4所示实施例中候选短语主题词判断的示意图;
图7为本申请另一个实施例提供的主题词确定方法的流程示意图;
图8为本申请实施例提供的一种主题词确定装置的结构示意图;
图9为本申请实施例提供的一种主题词确定设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例可以用于实现文本主题词的抽取,尤其可以用于口语化文本的主题词抽取。图1为本申请实施例的一种应用场景示意图,如图1所示,在线上会议中,一个或多个参会用户可以通过用户终端102上安装的会议软件参加线上会议,各用户终端102通过网络与服务器104进行通信,实现线上会议的会议音频数据的通信。图1中以3个用户终端102为例,多个参会用户可以公用一个用户终端102。
在一些技术中,参会用户可以通过会议软件的相关功能,将会议音频数据存储在相应的用户终端102,以便于在会议结束后对会议内容进行回顾、总结。
在一些技术中,会议软件或服务器104还提供将会议音频数据转换为文本的功能。或者用户可以借助其他音频识别工具,将会议音频数据转换为文本数据。从而基于该文本数据,快速回顾会议的内容,或者提炼会议的主要内容。
在其他线上音视频场景中,如语音备忘录、影音作品、线上教育等,往往仅提供了通过音频识别将音频转换为文本数据例如字幕的功能。
在上述各种音视频场景下,均存在由于音视频时长较长,导致所转换的文本数据篇幅过长,用户无法基于音频转换的文本数据快速掌握音视频的主要内容的问题,即用户需要花费较长时间,进行文本阅读和内容提炼,用户体验较差。
在一些技术中,提供了文本数据的主题词抽取方法,该方法所依赖的模型为书面语模型,对音频转换的口语化文本的场景的主题词抽取准确的较差,且现有的主题词抽取方法大多仅依赖分词的属性,如分词的位置、词频等进行,容易导致所提取的主题词不完整。
本申请提供的主题词确定方法,旨在解决现有技术的如上技术问题。该主题词确定方法的主要构思为:将待处理文本,如口语化文本,划分为多个短语,该短语可以由一个或多个分词组成,基于该多个短语的短语属性,包括凝聚度和自由度,确定待处理文本的主题词,实现了主题词的自动提取,同时确保了主题词提取的完整性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种主题词确定方法的流程示意图。本实施例提供的方法可以应用于音视频数据的文本的主题词抽取,如图1所示线上会议场景、线下会议场景、庭审场景、在线教育、影视作品、等场景下语音数据转换的文本的主题词抽取,该方法可以由任意具备数据处理功能的设备执行,如图1中的服务器104、用户终端102或后续实施例中的主题词提取设备。
如图2所示,该主题词确定方法包括:
步骤S201,获取待处理文本中的多个短语。
其中,一个短语中可以包括一个或多个分词。
在一个实施例中,待处理文本可以为音视频数据转换的文本数据,如口语化文本。
示例性的,待处理文本可以为在线教育场景下,教师授课时输出的音频数据转换的文本数据,还可以为线上或线下会议场景下,记录的会议音频数据转换的文本数据,还可以为语音备忘录转换的文本数据,或者为影音作品,如脱口秀、电影、访谈等作品,转换的文本数据。
在一个实施例中,待处理文本可以为论文、新闻、说明书等书面文本。
在一个实施例中,在获取待处理文本之后,可以对待处理文本进行分词处理,通过对待处理文本的分词的整合,得到待处理文本的各个短语。
在一个实施例中,可以基于分词器,对待处理文本进行分词处理,得到待处理文本的各个分句和各个分词,以及对各个分词进行词性标注,和分词归一化等操作。
在一个实施例中,针对每个分句,根据该分句中各个分词的出现频次、各个分词的相邻词的出现频次等参数,对该分句的分词进行组合,从而得到该分句对应的一个或多个短语。
在一个实施例中,可以对待处理文本进行语言检测,得到待处理文本采用的语言,选择语言匹配的分词器,进行待处理文本的分词处理。
在一个实施例中,分词器可以基于预先存储的词典,对待处理文本进行分词划分,得到待处理文本的各个分词。
在一个实施例中,可以通过用户上传的语料以及训练语料,生成该客户对应的领域词典。
在一个实施例中,可以基于n元模型,如二元模型、三元模型等,获取待处理文本的各个短语。可以基于n元模型,对待处理文本进行分词、词性标注。
示例性的,以待处理文本中的一个分句“这是一种安全可靠的方案”为例,可以通过分词器或n元模型将其拆分为“这是”、“一种”、“安全”、“可靠的”、“方案”五个分词,通过待处理文本全文分析,可以将该分句拆分为“这是一种”、“安全可靠的方案”两个短语。
在一个实施例中,在得到待处理文本的各个分词之后,还可以对待处理文本的分词进行过滤,以删除部分分词。
在一个实施例中,可以基于停用词表和过滤词表,对待处理文本的分词进行过滤,以删除待处理文本的分词中的停用词和过滤词。其中,停用词为停用词表中的词,过滤词为过滤词表中的词。过滤词表可以基于n元模型以及语料生成。
在一个实施例中,还可以基于分词的词性和词长,对待处理文本的分词进行过滤。如可以通过过滤删除分词中的语气助词、感叹词等词性的分词,还可以删除词长过短或过长的分词。
步骤S202,针对所述多个短语,计算每个短语的凝聚度和多个短语之间的自由度。
其中,凝聚度用于描述一个短语中各个分词同时出现的概率,自由度用于表征一个短语与其相邻短语的固定程度。相邻短语为在待处理文本中与短语相邻的分词或其他短语,可以包括左相邻短语和右相邻短语。凝聚度,又称为聚合度或凝固度,用于描述一个短语中所包括的分词或基元之间的关联程度,是短语的内部属性。自由度则用于描述一个短语的相邻短语固定程度,是短语的外部属性。短语的相邻短语的约固定,则短语的自由度越低,短语的自由度可以理解为该短语相对于其他一个或多个短语的自由度,或者为该短语与其他一个或多个短语之间的自由度。
具体的,可以针对待处理文本中的每个短语,计算该短语的凝聚度,以及计算该短语与其他短语之间的自由度,简称为该短语的自由度。在一个实施例中,计算多个短语之间的自由度,可以替换为计算每个短语的自由度,或者计算每个短语相对于其他短语的自由度。
在一个实施例中,组成短语的各个分词同时出现的次数或概率越高,则短语的凝聚度越高。短语的相邻短语的种类越多,则短语的自由度越高。
在一个实施例中,可以基于待处理文本中各个分词的出现频次,计算各个短语的凝聚度和自由度。
步骤S203,根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述待处理文本的主题词。
其中,一个主题词可以由一个或多个短语组成。
在一个实施例中,可以基于凝聚度和自由度,对待处理文本的短语进行筛选、组合等操作,从而得到待处理文本的各个主题词。
在一个实施例中,在得到待处理文本的主题词之后,还可以基于黑名单、敏感词表等,对主题词进行合规检查,以删除不合规的各个主题词,并输出最终的结果。
本实施例提供的主题词抽取方法,对待处理文本进行短语划分,得到待处理文本中的各个短语,基于短语的凝聚度和自由度,对待处理文本的短语进行处理,得到待处理文本的主题词,实现了文本主题词的快速抽取,为待处理文本内容提炼提供了便利,且以短语为单位进行主题词抽取,提高了主题词抽取的完整性。
可选的,计算每个短语的凝聚度和多个短语之间的自由度,包括:
针对第N个短语,根据所述第N个短语在所述待处理文本中的出现频次以及组成所述第N个短语的各个分词在所述待处理文本中的出现频次,计算所述第N个短语的凝聚度;根据所述第N个短语在所述待处理文本中的出现频次,以及,所述第N个短语的各个拼接短语在所述待处理文本中的出现频次,计算所述第N个短语的自由度,其中,所述第N个短语的拼接短语包括:所述第N个短语,以及与所述第N个短语相邻的短语,N为正整数,N小于或等于待处理文本中的短语的数量。
在一个实施例中,第N个短语的凝聚度可以由第N个短语在待处理文本中的出现频次,与组成该第N个短语的各个分词在待处理文本中的出现频次之和的比值确定。
在一个实施例中,可以根据第N个短语在待处理文本中的出现概率以及组成第N个短语的各个分词在待处理文本中的出现概率,计算第N个短语的凝聚度,短语或分词的出现概率可以为短语或分词的出现频次,与待处理文本的各个分词的出现频次之和的比值。
示例性的,短语的凝聚度可以基于下述表达式计算:
在一个实施例中,为了避免凝聚度的取值过大,可以对凝聚度进行取对数操作,基于凝聚度的对数进行后续的操作。
在一个实施例中,拼接短语可以包括左拼接短语和右拼接短语,左拼接短语由短语与其左相邻短语组成,右拼接短语则由短语与其右相邻短语组成。短语(如第N个短语)的自由度也相应的包括左自由度和右自由度,左自由度用于描述短语与其左侧相邻短语的固定程度,可以由短语在待处理文本中的出现频次以及短语的各个左拼接短语在待处理文本中的出现频次确定。右自由度用于描述短语与其右侧相邻短语的固定程度,可以由短语在待处理文本中的出现频次以及短语的各个右拼接短语在待处理文本中的出现频次确定。
需要了解的是,本申请实施例涉及的出现概率或出现频次,通常是以待处理文本为基础,即为短语或分词的出现频次或出现概率通常为短语或分词在该待处理文本中的出现频次或出现频率。
示例性的,以“晒后及时修复显得尤为重要”为例,短语“及时修复”的相邻短语或相邻词包括“晒后”,以及“显得”或“显得尤为重要”,其中,“晒后”为短语“及时修复”的左相邻短语,“显得”或“显得尤为重要”为短语“及时修复”的右相邻短语。
在一个实施例中,可以根据短语在待处理文本中的出现频次与短语的各个左拼接短语在待处理文本中的出现频次之和的比值,确定短语的左自由度。相应的,可以根据短语在待处理文本中的出现频次与短语的各个右拼接短语在待处理文本中的出现频次之和的比值,确定短语的右自由度。
在一个实施例中,可以确定短语的左自由度或右自由度中的较小值为短语的自由度。
可选的,根据所述第N个短语在所述待处理文本中的出现频次,以及,所述第N个短语的各个拼接短语在所述待处理文本中的出现频次,计算所述第N个短语的自由度,包括:
根据所述第N个短语在所述待处理文本中的出现频次,以及,所述第N个短语的各个拼接短语在所述待处理文本中的出现频次,分别计算各个拼接短语在所述第N个短语出现的情况下出现的第一概率;根据各个拼接短语的第一概率的信息熵,确定所述第N个短语的自由度。
其中,拼接短语,左拼接短语或右拼接短语,在短语(如第N个短语)出现的情况下
出现的第一概率,为条件概率,具体表达式为:,
其中,为短语phrase的第j个相邻短语,j为小于或等于m的正整数,m为待处理文本中短语
phrase的相邻短语的总数量,为由相邻短语和短语phrase组成的拼接短语
的第一概率,为该拼接短语在待处理文本中的出现频次,为短语
phrase在待处理文本中的出现频次。
示例性的,在待处理文本中短语的相邻短语包括、和,该短语在待处理文
本中出现6次,短语与、和对应的拼接短语在待处理文本中出现的次数分别为2、3和
1次,则短语与、和对应的拼接短语的第一概率分别为:1/3、1/2和1/6。
在一个实施例中,短语的自由度为:
在一个实施例,可以基于上述表达式计算短语的左自由度或右自由度,仅需将计算的对象由短语的拼接短语改为短语的左拼接短语或短语的右拼接短语即可。
可选的,图3为本申请图2所示实施例中步骤S203的流程示意图,如图3所示,步骤S203可以包括以下步骤:
步骤S301,根据所述每个短语的凝聚度和所述多个短语之间的自由度,从所述多个短语及其拼接短语中,确定至少一个候选短语。
在一个实施例中,可以根据凝聚度和自由度,从多个短语中,确定至少一个候选短语。
在一个实施例中,可以设置凝聚度和自由度的下限值,确定凝聚度和自由度均大于对应的下限值的各个短语为各个候选短语。
可选的,根据所述每个短语的凝聚度和所述多个短语之间的自由度,从所述多个短语及其拼接短语中,确定至少一个候选短语,包括:
根据所述凝聚度,对所述多个短语进行筛选,删除凝聚度低于预设凝聚度的短语;针对筛选后的每个短语,根据短语的自由度,确定所述短语或所述短语的拼接短语为候选短语。
其中,预设凝聚度即为上述凝聚度的下限值,可以手动设置,或者采用默认值,还可以根据待处理文本的分词的总数量确定。短语的自由度,为该短语相对于其他短语的自由度,或该短语与其他一个或多个短语之间的自由度。
在一个实施例中,可以先判断筛选后的短语的自由度是否大于预设自由度;若是,则确定该短语为其中一个候选短语;若否,则确定该短语的一个或多个拼接短语为候选短语。
在一个实施例中,当短语的自由度小于预设自由度时,还可以基于该短语的各个拼接短语的第一概率,从该短语的各个拼接短语中,确定一个或多个拼接短语为候选短语。如确定第一概率最高的该短语的拼接短语为候选短语,或者确定第一概率大于预设概率的该短语的各个拼接短语为候选短语。
在一个实施例中,可以先判断短语的自由度是否大于预设自由度;若否,则确定对该短语进行组合,得到组合短语,如将该短语与相邻短语中出现频次最高或第一概率最高的相邻短语组合,相邻短语的第一概率为该相邻短语与该短语组成的拼接短语的第一概率。进而基于凝聚度,从自由度大于预设自由度的各个短语,以及各个组合短语中,确定各个候选短语。如确定凝聚度大于预设凝聚度以及自由度大于预设自由度的短语为候选短语,以及确定凝聚度大于预设凝聚度的组合短语为候选短语。
示例性的,以预设凝聚度为50,预设自由度为0.5,待处理文本的各个分词的出现次数之和为1000为例,短语ph1在待处理文本中的出现次数或出现频次为10次,ph1的出现概率为0.01;ph1有分词v1和v2组成,v1和v2在待处理文本中的出现次数分别为:10和16,v1和v2出现概率分别为:0.01和0.016,则短语ph1的凝聚度为:62.5,高于预设凝聚度。短语ph1的左相邻短语包括:pl1、pl2,右相邻短语包括:pl3,pl1、pl2和pl3分别与ph1组成的拼接短语在待处理文本中的出现批次为:1、8和1,则pl1、pl2和pl3对应的第一概率分别0.1、0.8和0.1,ph1的自由度为:0.2969,低于预设自由度,则可以确定pl2(对应的第一概率最高的相邻短语)和ph1组成的拼接短语为其中一个候选短语。
步骤S302,根据候选短语的特性,从所述至少一个候选短语中确定所述待处理文本的主题词。
其中,候选短语的特性包括候选短语在所述待处理文本中的出现频次,和/或,组成候选短语的各个分词在所述待处理文本中的出现频次。
在一个实施例中,可以根据组成候选短语的分词在待处理文本中的出现频次的平均值、最大值等参数,判断该候选短语是否为主题词。
在一个实施例中,若候选短语在待处理文本中的出现频次大于预设次数,如3、5或者其他值,则确定该候选短语为主题词。
在一个实施例中,若候选短语在待处理文本中的出现频次大于预设次数,且组成候选短语的各个分词在待处理文本中的出现频次满足预设条件,如组成候选短语的各个分词在待处理文本中的出现频次位于预设区间,则确定该候选短语为主题词。其中,预设区间的上限值可以为10、15、20等值,预设区间的下限值可以为2、3、4、5或者其他值。
在一个实施例中,预设条件可以为组成候选短语的各个分词在待处理文本中的出现频次的平均值大于第一数值,以及组成候选短语的各个分词在待处理文本中的出现频次中的最大值大于第二数值中的一项或多项。
在一个实施例中,候选短语的特性还包括候选短语的长度,确定为主题词的候选短语的长度可以位于设定区间内。
在一个实施例中,候选短语的特性还包括候选短语中分词的分词得分,分词得分可以根据分词的出现频次、分词的语言、分词的逆文档频率、分词的词覆盖度、分词之间的词关联性等中的一项或多项确定。其中,分词的词覆盖度可以采用待处理文本中包括该分词的分句的数量,与待处理文本的分句的总数量的比值描述。分词之间的词关联性用于描述该分词与待处理文本中的其他分词的关联程度。
在一个实施例中,可以根据候选短语的出现频次和组成候选短语的各个分词的出现频次中的一项或多项,以及组成候选短语的各个分词的分词得分,从待处理文本的候选短语中确定所述待处理文本的主题词,以提高主题词确定的准确度。
图4为本申请另一个实施例提供的主题词确定方法的流程示意图,如图4所示,本实施例是在图3所示实施例的基础上,在步骤S201之前增加对待处理文本进行分词处理,以及在步骤S302之前增加计算分词得分的步骤,如图4所示,本实施例提供的主题词确定方法可以包括以下步骤:
步骤S401,基于分词器对所述待处理文本进行分词处理,得到多个分句、多个分词以及每个分词的词性。
在一个实施例中,可以基于预处理模块检测待处理文本对应的语言,调用待处理文本对应的语言对应的分词器,对待处理文本进行分句、分词、词性标注和词语归一化处理,从而得到待处理文本的各个分句、各个分词以及每个分词的词性。
步骤S402,绘制所述待处理文本的加权有向图。
其中,所述加权有向图的每个节点对应所述待处理文本的一个分词,每个边的值或权重用于表征所述边连接的至少两个分词组成的短语的出现频次。
在一个实施例中,加权有向图又称为分词有向图。可以基于待处理文本的各个分词的组合关系以及组合的分词的出现频次,绘制待处理文本的加权有向图。
在一个实施例中,可以通过窗口宽度为k的窗口遍历待处理文本的方式,基于每个窗口内的分词建立上述加权有向图,在该加权有向图中,每条边的权重或值可以为该边连接的两个分词出现在同一个窗口的频次。
示例性的,图5为本申请图4所示实施例中加权有向图的示意图,如图5所示,以待处理文本的部分分句为例,该部分分句包括10个分词,该10个分词与节点1至节点10一一对应,两个节点之间的箭头表示这两个节点对应的分词的组合关系,箭头上标注的数字表示箭头连接的两个分词的出现频次或出现在同一个窗口的频次。
在一个实施例中,可以基于上述加权有向图,确定各个分词的词频或在待处理文本中的出现频次。
步骤S403,基于所述加权有向图,确定各个分词之间的词关联性。
其中,分词之间的词关联性,也可以称为分词的词关联性,用于描述一个分词与其他分词的关联程度。
在一个实施例中,针对每个分词,该分词的词关联性可以基于加权有向图中与该分词连接的边的值或权重确定。与该分词连接的边包括指向该分词对应的节点的各边以及该分词对应的节点指出的各边。
示例性的,图5所示加权有向图中节点2对应的分词的词关联性为:6(1+2+2+1),节点5对应的分词的词关联性为:6(3+2+1)。
步骤S404,针对每个分词,根据所述分词的出现频次、词覆盖度、逆文档频率以及语言中的一项或多项,以及所述分词之间的词关联性,计算分词的分词得分。
其中,分词的逆文档频率可以基于语料中包括分词的文档的数量以及语料的文档的总数量确定。
在一个实施例中,可以统计待处理文本中各个分词的出现频次以及各个分词的语言,如英文、中文等,以及计算各个分词的词关联性、出现频次和词覆盖度,进而对分词的上述参数进行数值化和归一化处理,进而基于上述一个或多个参数,计算分词的分词得分。
在一个实施例中,可以基于分词的出现频次、词覆盖度、词关联性、逆文档频率和语言的加权平均值,确定分词的分词得分。
通过分词多维度的参数进行分词得分的评估,提高了分词得分的准确度,为后续的主题词的确定打下了基础。
步骤S405,获取待处理文本中的多个短语,其中,每个短语中包括至少一个分词。
步骤S406,针对所述多个短语,计算每个短语的凝聚度和多个短语之间的自由度。
步骤S407,根据所述每个短语的凝聚度和所述多个短语之间的自由度,从所述多个短语及其拼接短语中,确定至少一个候选短语。
步骤S408,根据组成所述候选短语的各个分词的分词得分,以及所述候选短语在所述待处理文本中的出现频次,组成所述候选短语的各个分词在所述待处理文本中的出现频次中的至少一项,从所述至少一个候选短语中确定所述待处理文本的主题词。
在一个实施例中,针对每个候选短语,可以根据组成候选短语的各个分词的分词得分的平均值、组成候选短语的各个分词的分词得分中的最大值、组成候选短语的各个分词的出现频次等分词参数,以及候选短语在待处理文本中的出现频次、候选短语的长度等短语参数,判断该候选短语是否为待处理文本的主题词。
可选的,根据候选短语的特性,从所述至少一个候选短语中确定所述待处理文本的主题词,包括:
针对每个候选短语,根据组成所述候选短语的各个分词的出现频次、各个分词的分词得分以及所述候选短语的短语长度,计算候选短语的短语得分;根据各个候选短语的短语得分,从各个所述候选短语中确定所述待处理文本的主题词。
在一个实施例中,针对每个候选短语,可以基于组成该候选短语的各个分词的出现频次、各个分词的分词得分以及该候选短语的短语长度的加权平均值,确定该候选短语的短语得分。
在一个实施例中,当候选短语的短语长度大于第一长度时,短语得分随短语长度增大而减小。当候选短语的短语长度小于第二长度时,短语得分随短语长度增大而增大。当候选短语的短语长度位于第一长度和第二长度之间时,短语长度与短语得分的关系可以为正相关关系、负相关关系或者非单调关系等,可以手动设置。分词的分词得分越高,则候选短语的短语得分越高。
在一个实施例中,当分词的出现频次小于或等于预设频次时,分词得分与出现频次为正相关关系,当分词的出现频次大于该预设频次时,分词得分与出现频次则为负相关关系。
在一个实施例中,可以根据候选短语的短语得分以及候选短语的相似度,从各个候选短语中确定待处理文本的主题词,以提高主题词的多样性。
在一个实施例中,可以基于候选短语的相似度对各个候选短语进行分组,以将相似度较高的各个候选短语划分为一组。从每组中选取短语得分最高的候选短语为待处理文本的主题词。
在一个实施例中,可以根据候选短语的短语得分以及预设次数,从各个候选短语中确定待处理文本的主题词,以使待处理文本的主题词的集合中分词的出现次数小于预设次数,以避免主题词中分词的出现次数过高,以提高主题词的多样性。
示例性的,预设次数可以为2次、3次、4次或者其他次数。
在一个实施例中,可以基于短语得分对候选短语进行排序,或者按照短语得分由高到低的顺序,依次对各个候选短语进行主题词判断,以保证最终确定的待处理文本的主题词的集合中各分词的出现次数小于该预设次数。
可选的,根据各个候选短语的短语得分,从各个所述候选短语中确定所述待处理文本的主题词,包括:
根据各个候选短语之间的相似度、预设次数以及各个候选短语的短语得分,从各个候选短语中确定所述待处理文本的主题词集,其中,所述主题词集包括至少一个主题词,且组成所述主题词集的各个分词在所述主题词集中的出现次数小于所述预设次数,候选短语之间的相似度由候选短语之间的编辑距离和向量距离确定。
在一个实施例中,可以先基于短语得分对候选短语进行筛选,以删除短语得分较低的候选短语。进而基于预设次数、相似度和组成短语的各个分词等参数,从筛选后的各个候选短语中确定待处理文本的主题词集,以提高主题词的多样性。
在一个实施例中,在确定各个候选短语的短语得分之后,可以基于短语得分对各个候选短语进行排序,基于排序结果,依次对各个候选短语进行主题词判定,即判断该候选短语是否为其中一个主题词,若是,则将该候选短语放入主题词集中,以更新主题词集中的主题词。在候选短语被放入主题词集时或主题词集被更新时,需要更新主题词集中各个分词的出现次数。首先,将短语得分最高的候选词确定为主题词,即放入主题词集中,在对后续的候选短语进行主题词判定时,针对组成该候选短语的各个第一分词,判断主题词集中该第一分词的出现次数与候选短语中该第一分词的出现次数(通常为1)之和,是否大于预设次数,若是,则确定该候选短语不是该待处理文本的主题词。其中,第一分词为候选短语和主题词集中均存在的分词。以及,若该候选短语与当前主题词集中的任意一个主题词的相似度大于预设相似度,则确定该候选短语不是该待处理文本的主题词。
示例性的,待处理文本的候选短语按照短语得分由高到低依次为:ph5、ph3、ph8、ph10和ph15,当前主题词集包括ph5和ph3,则对ph8进行主题词判定时,需要计算ph8与ph5和ph3的相似度,以及ph5、ph3和ph8对应的集合中分词的出现次数,基于相似度和分词的出现次数,判断是否将ph8确定为主题词。
示例性的,图6为本公开图4所示实施例中候选短语主题词判断的示意图,如图6所示,待处理文本短语得分高于60的候选短语按照短语得分由高到低依次为包括:“语音识别技术”、“长语音识别”、“口语识别”和“神经网络模型”。当前主题词集中包括语音识别技术,则为了提高主题词的多样性,“长语音识别”与“语音识别技术”的相似度较高,则“长语音识别”不会被确定为主题词,“口语识别”与“语音识别技术”中均包含分词“识别”,为了避免主题词中同一分词出现多次,则“口语识别”也不会被确定为主题词,最终输出的主题词集,即最终主题词集由:“语音识别技术”和“神经网络模型”组成。
在一个实施例中,还可以设置主题词的上限值,以免主题词数量过多,导致用户无法快速、准确地掌握待处理文本的主要内容。
在一个实施例中,在确定待处理文本的主题词之后,还可以输出或显示待处理文本的主题词,或者基于待处理文本的主题词对待处理文本对应的音频数据或音视频数据进行标注。
在一个实施例中,可以将待处理文本的主题词发送至用户终端。
在本实施例中,基于待处理文本的短语的凝聚度和自由度,确定短语的边界,得到多个候选短语,以确保主题词的完整性;基于待处理文本的分词的加权有向图,确定各分词的词关联性,结合该词关联性、出现频次、词覆盖度、语言、逆文档频率等多维度参数,计算分词的分词得分,基于分词得分、分词的出现频次等分词特性以及候选短语的长度、出现频次等短语特性,计算各候选短语的短语得分,基于候选短语的得分,确定待处理文本的主题词,提高了主题词确定的准确性,以便于用户基于主题词快速知悉待处理文本或待处理文本对应的音视频数据的主要内容。
图7为本申请另一个实施例提供的主题词确定方法的流程示意图,本实施例针对会议场景,如图7所示,该主题词确定方法包括以下步骤:
可选的,针对线上会议的场景,一种主题词确定方法,可以包括:
步骤S701,获取会议系统采集的会议的音频数据,并根据所述音频数据,生成待处理文本。
步骤S702,获取所述待处理文本中的多个短语,每个短语中包括至少一个分词。
步骤S703,针对所述多个短语,计算每个短语的凝聚度和多个短语之间的自由度。
其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,所述自由度用于表征一个短语与其相邻短语的固定程度。
步骤S704,根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述会议的主题词。
在一个实施例中,会议系统可以包括一个或多个用户终端和处理装置。上述音频数据可以由该用户终端采集,上述主题词确定方法可以由该处理装置执行。用户可以通过用户终端在会议现场或进行线上会议的过程中,采集会议的音频数据,进而将该音频数据上报至处理装置,以由该处理装置执行本申请实施例提供的主题词确定方法,从而输出该会议的主题词,以便于用户进行会议纪要的撰写,或者便于用户快速回顾会议内容。
在一个实施例中,该会议系统可以包括投影仪、会议设备和处理装置,该会议设备与投影仪连接,以展示会议内容。音频数据可以由该会议设备采集,并发送至处理装置,以实现会议的音频数据的主题词抽取。
在一个实施例中,会议系统可以包括服务器和多个用户终端,服务器与各个用户终端通过网络连接,以实现线上会议。用户可以通过用户终端安装的会议软件参加线上会议,并采集该线上会议的音频数据,进而由服务器或用户终端执行本申请实施例提供的主题词确定方法,从而实现线上会议的音频数据的主题词抽取。
可选的,针对在线教育场景,一种主题词确定方法,可以包括:获取教育辅助系统采集的音频数据,并根据所述音频数据,生成待处理文本;获取所述待处理文本中的多个短语,其中,每个短语中包括至少一个分词;针对所述多个短语,计算每个短语的凝聚度和多个短语之间的自由度,其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,所述自由度用于表征一个短语与其相邻短语的固定程度;根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述音频数据的主题词。
通过提取授课过程中的音频数据的主题词,并为授课视频添加该主题词,以便于用户基于主题词快速掌握视频的主要内容,以便于进行课程的选择。
需要了解的是,可以基于图2至图4对应的任意一个实施例提供的主题词确定方法进行上述各场景下音频数据转换的待处理文本的主题词确定,其具体步骤和技术效果类似,本实施例此处不再赘述。
图8为本申请实施例提供的一种主题词确定装置的结构示意图,如图8所示,本实施例提供的主题词确定装置包括:短语获取模块810、短语参数计算模块820和主题词确定模块830。
其中,短语获取模块810,用于获取待处理文本中的多个短语,每个短语中包括至少一个分词;短语参数计算模块820,用于针对所述多个短语,计算每个短语的凝聚度和多个短语之间的自由度,其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,所述自由度用于表征一个短语与其相邻短语的固定程度;主题词确定模块830,用于根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述待处理文本的主题词。
可选的,该装置还包括:
待处理文本生成模块,用于获取会议系统采集的会议的音频数据,并根据所述音频数据,生成待处理文本。
相应的,主题词确定模块830,用于:
根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述会议的主题词。
可选的,短语参数计算模块820,包括:
凝聚度计算单元,用于针对第N个短语,根据所述第N个短语在所述待处理文本中的出现频次以及组成所述第N个短语的各个分词在所述待处理文本中的出现频次,计算所述第N个短语的凝聚度;自由度计算单元,用于针对第N个短语,根据所述第N个短语在所述待处理文本中的出现频次以及所述第N个短语的各个拼接短语在所述待处理文本中的出现频次,计算所述第N个短语的自由度,其中,所述第N个短语的拼接短语包括:所述第N个短语,以及与所述第N个短语相邻的短语;N为正整数。
可选的,自由度计算单元,具体用于:
根据所述第N个短语在所述待处理文本中的出现频次以及所述第N个短语的各个拼接短语在所述待处理文本中的出现频次,分别计算各个拼接短语在所述第N个短语出现的情况下出现的第一概率;根据各个拼接短语的第一概率的信息熵,确定所述第N个短语的自由度。
可选的,主题词确定模块830,包括:
候选短语确定单元,用于根据所述每个短语的凝聚度和所述多个短语之间的所述自由度,从所述多个短语及其拼接短语中,确定至少一个候选短语;主题词确定单元,用于根据候选短语的特性,从所述至少一个候选短语中确定所述待处理文本的主题词,其中,候选短语的特性包括候选短语在所述待处理文本中的出现频次,和/或,组成候选短语的各个分词在所述待处理文本中的出现频次。
可选的,候选短语确定单元,具体用于:
根据所述凝聚度,对所述多个短语进行筛选,删除凝聚度低于预设凝聚度的短语;针对筛选后的每个短语,根据短语的自由度,确定所述短语或所述短语的拼接短语为候选短语。
可选的,所述候选短语的特性还包括所述候选短语中分词的分词得分,所述装置还包括:
分词处理模块,用于基于分词器对所述待处理文本进行分词处理,得到多个分句、多个分词以及每个分词的词性;分词得分计算模块,用于针对每个分词,根据所述分词的出现频次、词覆盖度、逆文档频率以及语言中的一项或多项,计算分词的分词得分,其中,所述词覆盖度为包括所述分词的分句的数量与所述待处理文本的分句的总数量的比值。
可选的,所述装置还包括:
关联程度计算模块,用于在基于分词器对所述待处理文本进行分词处理,得到各个分句、各个分词以及各个分词的词性之后,绘制所述待处理文本的加权有向图,其中,所述加权有向图的每个节点对应所述待处理文本的一个分词,每个边的值用于表征所述边连接的至少两个分词组成的短语的出现频次;基于所述加权有向图,确定各个分词之间的词关联性,其中,分词之间的词关联性用于描述一个分词与其他分词的关联程度;
相应的,该分词得分计算模块,具体用于:
根据所述分词的出现频次、词覆盖度、逆文档频率以及语言中的一项或多项,以及所述分词的词关联性,计算分词的分词得分。
可选的,主题词确定单元,包括:
短语得分计算子单元,用于对每个候选短语,根据组成所述候选短语的各个分词的出现频次、各个分词的分词得分以及所述候选短语的短语长度,计算候选短语的短语得分;主题词计算子单元,用于根据各个候选短语的短语得分,从各个所述候选短语中确定所述待处理文本的主题词。
可选的,主题词计算子单元,具体用于:
根据各个候选短语之间的相似度、预设次数以及各个候选短语的短语得分,从各个候选短语中确定所述待处理文本的主题词集,其中,所述主题词集包括至少一个主题词,且组成所述主题词集的各个分词在所述主题词集中的出现次数小于所述预设次数,候选短语之间的相似度由候选短语之间的编辑距离和向量距离确定。
本申请实施例提供的主题词确定装置,可用于执行上述图2至图4以及图7对应的任意实施例提供的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图9为本申请实施例提供的一种主题词确定设备的结构示意图,如图9所示,本实施例的提供的主题词确定设备包括:
至少一个处理器910;以及与所述至少一个处理器通信连接的存储器920;其中,存储器920存储有可被所述至少一个处理器910执行的计算机执行指令,所述至少一个处理器910执行存储器920存储的计算机执行指令,以使所述主题词确定设备执行如上述任一实施例提供的主题词确定方法。
可选地,存储器920既可以是独立的,也可以跟处理器910集成在一起。
本实施例提供的主题词确定设备的实现原理和技术效果可以参见前述各实施例,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现前述任一实施例提供的主题词确定方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一实施例提供的主题词确定方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例提供的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (12)
1.一种主题词确定方法,其特征在于,所述方法包括:
获取待处理文本中的多个短语,每个短语中包括至少一个分词;
针对所述多个短语,计算每个短语的凝聚度和多个短语之间的自由度,其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,所述自由度用于表征一个短语与其相邻短语的固定程度;
根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述待处理文本的主题词。
2.根据权利要求1所述的方法,其特征在于,计算每个短语的凝聚度和多个短语之间的自由度,包括:
针对第N个短语,根据所述第N个短语在所述待处理文本中的出现频次以及组成所述第N个短语的各个分词在所述待处理文本中的出现频次,计算所述第N个短语的凝聚度;
根据所述第N个短语在所述待处理文本中的出现频次,以及,所述第N个短语的各个拼接短语在所述待处理文本中的出现频次,计算所述第N个短语的自由度,其中,所述第N个短语的拼接短语包括:所述第N个短语,以及与所述第N个短语相邻的短语;N为正整数。
3.根据权利要求2所述的方法,其特征在于,根据所述第N个短语在所述待处理文本中的出现频次,以及,所述第N个短语的各个拼接短语在所述待处理文本中的出现频次,计算所述第N个短语的自由度,包括:
根据所述第N个短语在所述待处理文本中的出现频次以及所述第N个短语的各个拼接短语在所述待处理文本中的出现频次,分别计算各个拼接短语在所述第N个短语出现的情况下出现的第一概率;
根据各个拼接短语的第一概率的信息熵,确定所述第N个短语的自由度。
4.根据权利要求2或3所述的方法,其特征在于,根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述待处理文本的主题词,包括:
根据所述每个短语的凝聚度和所述多个短语之间的自由度,从所述多个短语及其拼接短语中,确定至少一个候选短语;
根据候选短语的特性,从所述至少一个候选短语中确定所述待处理文本的主题词,其中,候选短语的特性包括候选短语在所述待处理文本中的出现频次,和/或,组成候选短语的各个分词在所述待处理文本中的出现频次。
5.根据权利要求4所述的方法,其特征在于,根据所述每个短语的凝聚度和所述多个短语之间的自由度,从所述多个短语及其拼接短语中,确定至少一个候选短语,包括:
根据所述凝聚度,对所述多个短语进行筛选,删除凝聚度低于预设凝聚度的短语;
针对筛选后的每个短语,根据短语的自由度,确定所述短语或所述短语的拼接短语为候选短语。
6.根据权利要求4所述的方法,其特征在于,所述候选短语的特性还包括所述候选短语中分词的分词得分,所述方法还包括:
基于分词器对所述待处理文本进行分词处理,得到多个分句、多个分词以及每个分词的词性;
针对每个分词,根据所述分词的出现频次、词覆盖度、逆文档频率以及语言中的一项或多项,计算分词的分词得分,其中,所述词覆盖度为包括所述分词的分句的数量与所述待处理文本的分句的总数量的比值。
7.根据权利要求6所述的方法,其特征在于,在基于分词器对所述待处理文本进行分词处理,得到多个分句、多个分词以及每个分词的词性之后,所述方法还包括:
绘制所述待处理文本的加权有向图,其中,所述加权有向图的每个节点对应所述待处理文本的一个分词,每个边的值用于表征所述边连接的至少两个分词组成的短语的出现频次;
基于所述加权有向图,确定各个分词之间的词关联性,其中,分词之间的词关联性用于描述一个分词与其他分词的关联程度;
所述根据所述分词的出现频次、词覆盖度、逆文档频率以及语言中的一项或多项,计算分词的分词得分,包括:
根据所述分词的出现频次、词覆盖度、逆文档频率以及语言中的一项或多项,以及所述分词之间的词关联性,计算分词的分词得分。
8.根据权利要求6所述的方法,其特征在于,根据候选短语的特性,从所述至少一个候选短语中确定所述待处理文本的主题词,包括:
针对每个候选短语,根据组成所述候选短语的各个分词的出现频次、各个分词的分词得分以及所述候选短语的短语长度,计算候选短语的短语得分;
根据各个候选短语的短语得分,从各个所述候选短语中确定所述待处理文本的主题词。
9.根据权利要求8所述的方法,其特征在于,根据各个候选短语的短语得分,从各个所述候选短语中确定所述待处理文本的主题词,包括:
根据各个候选短语之间的相似度、预设次数以及各个候选短语的短语得分,从各个候选短语中确定所述待处理文本的主题词集,其中,所述主题词集包括至少一个主题词,且组成所述主题词集的各个分词在所述主题词集中的出现次数小于所述预设次数,候选短语之间的相似度由候选短语之间的编辑距离和向量距离确定。
10.一种主题词确定方法,其特征在于,所述方法包括:
获取会议系统采集的会议的音频数据,并根据所述音频数据,生成待处理文本;
获取所述待处理文本中的多个短语,每个短语中包括至少一个分词;
针对所述多个短语,计算每个短语的凝聚度和多个短语之间的自由度,其中,所述凝聚度用于描述一个短语中各个分词同时出现的概率,所述自由度用于表征一个短语与其相邻短语的固定程度;
根据所述每个短语的凝聚度和所述多个短语之间的自由度,确定所述会议的主题词。
11.一种主题词确定设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-10任一项所述的主题词确定方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-10任一项所述的主题词确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143658.2A CN114186557A (zh) | 2022-02-17 | 2022-02-17 | 主题词确定方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143658.2A CN114186557A (zh) | 2022-02-17 | 2022-02-17 | 主题词确定方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186557A true CN114186557A (zh) | 2022-03-15 |
Family
ID=80546077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210143658.2A Pending CN114186557A (zh) | 2022-02-17 | 2022-02-17 | 主题词确定方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186557A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115392243A (zh) * | 2022-08-29 | 2022-11-25 | 中国电信股份有限公司 | 热词确定方法及装置、存储介质和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077274A (zh) * | 2014-06-13 | 2014-10-01 | 清华大学 | 一种从文档集中抽取热词短语的方法和装置 |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
CN109918660A (zh) * | 2019-03-04 | 2019-06-21 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN112560448A (zh) * | 2021-02-20 | 2021-03-26 | 京华信息科技股份有限公司 | 一种新词提取方法及装置 |
CN113033183A (zh) * | 2021-03-03 | 2021-06-25 | 西北大学 | 一种基于统计量与相似性的网络新词发现方法及系统 |
CN113157903A (zh) * | 2020-12-28 | 2021-07-23 | 国网浙江省电力有限公司信息通信分公司 | 一种面向多领域的电力词库构建方法 |
-
2022
- 2022-02-17 CN CN202210143658.2A patent/CN114186557A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077274A (zh) * | 2014-06-13 | 2014-10-01 | 清华大学 | 一种从文档集中抽取热词短语的方法和装置 |
US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
CN109918660A (zh) * | 2019-03-04 | 2019-06-21 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN113157903A (zh) * | 2020-12-28 | 2021-07-23 | 国网浙江省电力有限公司信息通信分公司 | 一种面向多领域的电力词库构建方法 |
CN112560448A (zh) * | 2021-02-20 | 2021-03-26 | 京华信息科技股份有限公司 | 一种新词提取方法及装置 |
CN113033183A (zh) * | 2021-03-03 | 2021-06-25 | 西北大学 | 一种基于统计量与相似性的网络新词发现方法及系统 |
Non-Patent Citations (1)
Title |
---|
夏天: "《面向中文学术文本的单文档关键短语抽取》", 《数据分析与知识发现》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115392243A (zh) * | 2022-08-29 | 2022-11-25 | 中国电信股份有限公司 | 热词确定方法及装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
WO2015062482A1 (en) | System and method for automatic question answering | |
CN114556328B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN109543007A (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
CN109815491B (zh) | 答题评分方法、装置、计算机设备及存储介质 | |
US11361759B2 (en) | Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN111274442B (zh) | 确定视频标签的方法、服务器及存储介质 | |
CN109657137B (zh) | 舆情新闻分类模型构建方法、装置、计算机设备和存储介质 | |
CN114461852B (zh) | 音视频摘要提取方法、装置、设备及存储介质 | |
CN110895656B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN111062221A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
TWI725375B (zh) | 資料搜尋方法及其資料搜尋系統 | |
CN116738250A (zh) | 提示文本扩展方法、装置、电子设备和存储介质 | |
CN108241856A (zh) | 资讯信息生成方法及设备 | |
CN114186557A (zh) | 主题词确定方法、设备及存储介质 | |
WO2022083132A1 (zh) | 一种基于文字段落的动画草稿生成方法与装置 | |
CN113128205A (zh) | 一种剧本信息处理方法、装置、电子设备及存储介质 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN116055825B (zh) | 一种生成视频标题的方法及装置 | |
CN109145261B (zh) | 一种生成标签的方法和装置 | |
CN114048742B (zh) | 文本信息的知识实体和关系抽取方法及文本质量评估方法 | |
CN114155841A (zh) | 语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |