CN118012930B - 用于人防指挥的事件监测方法 - Google Patents
用于人防指挥的事件监测方法 Download PDFInfo
- Publication number
- CN118012930B CN118012930B CN202410428666.0A CN202410428666A CN118012930B CN 118012930 B CN118012930 B CN 118012930B CN 202410428666 A CN202410428666 A CN 202410428666A CN 118012930 B CN118012930 B CN 118012930B
- Authority
- CN
- China
- Prior art keywords
- frequent
- term
- pattern
- data
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012544 monitoring process Methods 0.000 title claims abstract description 34
- 230000007123 defense Effects 0.000 title claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 238000007418 data mining Methods 0.000 claims abstract description 17
- 239000006185 dispersion Substances 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 235000013399 edible fruits Nutrition 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了用于人防指挥的事件监测方法,方法包括数据采集、预处理、数据挖掘、基于权重的排序和基于相似矩阵的事件重要性识别。本发明属于数据处理技术领域,具体是指用于人防指挥的事件监测方法,本方案基于预先相似度对频繁模式间距离进行改进,可以更好地理解数据集中的模式;基于检查树的单一路径实现不同状态下频繁模式的合并和存储;通过改进TF‑IDF计算术语重要性和特异性从而得到频繁模式权重,基于评估相似矩阵中元素的分散程度实现对事件划分,从而完成事件监测任务。
Description
技术领域
本发明涉及数据处理技术领域,具体是指用于人防指挥的事件监测方法。
背景技术
人防指挥的事件监测方法可以利用多种技术进行实现,包括但不限于自然语言处理、文本挖掘、数据分析和机器学习等技术,通过搭建一个有效的人防指挥事件监测系统,从而帮助管理人员及时了解事件动态,做出及时的决策和应对措施。但是一般事件监测方法存在输入数据的质量差,适应性低,不同频繁模式间关联程度衡量不当从而导致数据挖掘效果差的问题;一般事件监测方法存在术语特异性解释不当,导致无法识别频繁模式的重要性,对事件的重要性评估准确性差的问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了用于人防指挥的事件监测方法,针对一般事件监测方法存在输入数据的质量差,适应性低,不同频繁模式间关联程度衡量不当从而导致数据挖掘效果差的问题,本方案基于预先相似度对频繁模式间距离进行改进,可以更好地理解数据集中的模式;基于检查树的单一路径实现不同状态下频繁模式的合并和存储;提高数据挖掘结果的质量和可解释性;针对一般事件监测方法存在术语特异性解释不当,导致无法识别频繁模式的重要性,对事件的重要性评估准确性差的问题,本方案通过改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重,基于评估相似矩阵中元素的分散程度实现对事件划分,从而完成事件监测任务。
本发明采取的技术方案如下:本发明提供的用于人防指挥的事件监测方法,该方法包括以下步骤:
步骤S1:数据采集;
步骤S2:预处理;
步骤S3:数据挖掘;
步骤S4:基于权重的排序;
步骤S5:基于相似矩阵的事件重要性识别。
进一步地,在步骤S1中,所述数据采集是采集人防指挥的事件监测数据,包括社交媒体文本数据、新闻媒体文本数据和论坛博客文本数据。
进一步地,在步骤S2中,所述预处理具体包括以下步骤:
步骤S21:数据预处理,包括数据清洗、数据转换和建立增量频繁模式树;所述数据清洗是处理缺失值、异常值和重复值;所述数据转换是将清洗后的数据转化为向量形式;所述建立增量频繁模式树是基于FP-growth算法得到增量频繁模式树,并在增量频繁模式树节点数据结构中添加节点结构,最终的增量频繁模式树节点结构包括:节点的唯一标识符名称,用于标识每个节点的唯一性、子节点列表,存储当前节点的所有子节点、指向当前节点的父节点、指向同一层级中当前节点的下一个节点、记录当前节点对应的频繁模式出现的次数和案例标识集合;案例标识集合用CaseIdSet表示,用于标识每个事件的唯一标识符;
步骤S22:定义频繁模式间距离,频繁模式指文本关键词的组合,所用公式如下:
;
;
;
式中,WMD(·)是频繁模式间距离;Tij表示一个从术语i到术语j的术语权重参数;c
(i,j)表示从术语i到术语j的距离;fi表示第i个术语在频繁模式f中出现的次数;表示第
i个术语在频繁模式中出现的次数;n是术语总数;术语指组成频繁模式的文本关键词;T是
术语间权重;
步骤S23:定义频繁模式间相似度,所用公式如下:
;
式中,sim(·)是频繁模式间相似度,f1和f2是两个频繁模式;是l2范数。
进一步地,在步骤S3中,所述数据挖掘具体包括以下步骤:
步骤S31:检查树是否包含单一路径P:定义α是增量频繁模式树的后缀模式,初始为空;θs是最小支持度阈值;θn是频繁项集的项数阈值;θw是频繁模式间相似度阈值;
步骤S32:如果树包含单一路径P,则对路径P中节点的所有组合,并将组合定义为β,执行以下步骤:
步骤S321:生成模式β∪α;支持度等于β中节点的最小支持度,支持度是指在数据集中模式出现的频率;
步骤S322:检查模式的长度是否等于θn且支持度大于θs:
步骤S3221:如果是,则生成频繁模式候选集;
步骤S3222:取路径中所有节点的CaseIdSet节点的交集,其中,CaseIdSet是数据挖掘中频繁模式树的一种节点类型;
步骤S323:对于每个在F中,其中F是存储所有发现的频繁模式的集合;是F中
的频繁模式:
步骤S3231:如果和中的每个频繁模式的相似度都低于θw,则将合并到F中;
步骤S3232:否则,选择中具有最大频繁模式相似度的,将的术语与
CaseIdSet合并,并将其存储在F中,术语指组成频繁模式的关键词;
步骤S33:如果树不包含单一路径P:对于树顶部的每个频繁模式ai,执行以下步骤:
步骤S331:生成模式β=ai∪α:其中生成模式的支持度等于ai的支持度;
步骤S332:检查模式的长度是否等于θn且支持度大于θs:
步骤S3321:如果是,则生成频繁模式候选集;
步骤S3322:取路径中所有节点的CaseIdSet节点的交集;
步骤S333:对于每个中的F;
步骤S3331:如果与之间的每个频繁模式相似度都低于θw,则将合并到F中;
步骤S3332:否则,选择具有最大的频繁模式相似度的,将的术语和
CaseIdSet合并,并存储在F中;
步骤S34:输出包含频繁模式的集合F。
进一步地,在步骤S4中,所述基于权重的排序具体包括以下步骤:
步骤S41:计算术语重要性,所用公式如下:
;
式中,是第i个术语在第j个文本中的重要性;ni,j是第i个术语在第j个文本中
的词频;p是第i个术语所在的文本;k是文本中术语的索引,nk,j是第k个术语在第j个文本中
的词频;
步骤S42:计算术语特异性,所用公式如下:
;
式中,ipfi是第i个术语的特异性;是总文档数量;是包含术语gi的文
档数量,预先设有词阈值,当术语在文档中出现的次数大于词阈值,则被认为是包含术语的
文档,否则被认为不包含术语的文档;
步骤S43:计算频繁模式的权重,计算候补权重Weight(·),归一化处理后作为频繁模式的权重;所用公式如下:
;
式中,Weight(f)是第频繁模式f的候补权重;
步骤S44:排序,基于频繁模式的权重对步骤S3输出的集合F中的频繁模式进行排序。
进一步地,在步骤S5中,所述基于相似矩阵的事件重要性识别具体包括以下步骤:
步骤S51:构建频繁模式的特征向量,基于排序后的频繁模式集合F中的每个频繁模式,构建特征向量;每个特征向量的维度对应频繁模式集合中的术语数,且特征向量中的每个值为术语的权重;
步骤S52:计算余弦相似度,计算任意两个频繁模式特征向量的余弦相似度;
步骤S53:构建相似度矩阵,基于计算得到的频繁模式间的相似度,构建相似度矩阵;
步骤S54:评估相似矩阵中元素的分散程度,所用公式如下:
;
式中,γ是相似矩阵元素的离散程度;Std(S)是矩阵元素的标准差;是矩阵的
范数;
步骤S55:事件划分,预先设有评估阈值;当γ大于评估阈值时,步骤S3得到的频繁模式的集合F被视为重要事件的文本集合,对文本涉及事件进行事件监测,及时采取应对措施;否则F被视为非重要事件的文本集合。
采用上述方案本发明取得的有益效果如下:
(1)针对一般事件监测方法存在输入数据的质量差,适应性低,不同频繁模式间关联程度衡量不当从而导致数据挖掘效果差的问题,本方案基于预先相似度对频繁模式间距离进行改进,可以更好地理解数据集中的模式;基于检查树的单一路径实现不同状态下频繁模式的合并和存储;提高数据挖掘结果的质量和可解释性。
(2)针对一般事件监测方法存在术语特异性解释不当,导致无法识别频繁模式的重要性,对事件的重要性评估准确性差的问题,本方案通过改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重,基于评估相似矩阵中元素的分散程度实现对事件划分,从而完成事件监测任务。
附图说明
图1为本发明提供的用于人防指挥的事件监测方法的流程示意图;
图2为步骤S4的流程示意图;
图3为步骤S5的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的用于人防指挥的事件监测方法,该方法包括以下步骤:
步骤S1:数据采集,采集人防指挥的事件监测数据;
步骤S2:预处理,对采集的文本数据进行数据清洗、数据转换和建立增量频繁模式树;并定义频繁模式间距离和频繁模式间相似度;
步骤S3:数据挖掘,基于检查树的单一路径实现不同状态下频繁模式的合并和存储;最终输出包含频繁模式的集合;
步骤S4:基于权重的排序,改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重,基于权重实现对频繁模式的排序;
步骤S5:基于相似矩阵的事件重要性识别,基于评估相似矩阵中元素的分散程度实现对事件划分,从而完成事件监测任务。
实施例二,参阅图1,该实施例基于上述实施例,在步骤S1中,事件监测数据包括社交媒体文本数据、新闻媒体文本数据和论坛博客文本数据。
实施例三,参阅图1,该实施例基于上述实施例,在步骤S2中,预处理具体包括以下步骤:
步骤S21:数据预处理,包括数据清洗、数据转换和建立增量频繁模式树;所述数据清洗是处理缺失值、异常值和重复值;所述数据转换是将清洗后的数据转化为向量形式;所述建立增量频繁模式树是基于FP-growth算法得到增量频繁模式树,并在增量频繁模式树节点数据结构中添加节点结构,最终的增量频繁模式树节点结构包括:节点的唯一标识符名称,用于标识每个节点的唯一性、子节点列表,存储当前节点的所有子节点、指向当前节点的父节点、指向同一层级中当前节点的下一个节点、记录当前节点对应的频繁模式出现的次数和案例标识集合;案例标识集合用CaseIdSet表示,用于标识每个事件的唯一标识符;
步骤S22:定义频繁模式间距离,频繁模式指文本关键词的组合,所用公式如下:
;
;
;
式中,WMD(·)是频繁模式间距离;Tij表示一个从术语i到术语j的术语权重参数;c
(i,j)表示从术语i到术语j的距离;fi表示第i个术语在频繁模式f中出现的次数;表示第
i个术语在频繁模式中出现的次数;n是术语总数;术语指组成频繁模式的文本关键词;T是
术语间权重;
步骤S23:定义频繁模式间相似度,所用公式如下:
;
式中,sim(·)是频繁模式间相似度,f1和f2是两个频繁模式;是l2范数。
实施例四,参阅图1,该实施例基于上述实施例,在步骤S3中,数据挖掘具体包括以下步骤:
步骤S31:检查树是否包含单一路径P:定义α是增量频繁模式树的后缀模式,初始为空;θs是最小支持度阈值;θn是频繁项集的项数阈值;θw是频繁模式间相似度阈值;
步骤S32:如果树包含单一路径P,则对路径P中节点的所有组合,并将组合定义为β,执行以下步骤:
步骤S321:生成模式β∪α;支持度等于β中节点的最小支持度,支持度是指在数据集中模式出现的频率;
步骤S322:检查模式的长度是否等于θn且支持度大于θs:
步骤S3221:如果是,则生成频繁模式候选集;
步骤S3222:取路径中所有节点的CaseIdSet节点的交集,其中,CaseIdSet是数据挖掘中频繁模式树的一种节点类型;
步骤S323:对于每个在F中,其中F是存储所有发现的频繁模式的集合;是F中
的频繁模式:
步骤S3231:如果和中的每个频繁模式的相似度都低于θw,则将合并到F中;
步骤S3232:否则,选择中具有最大频繁模式相似度的,将的术语与
CaseIdSet合并,并将其存储在F中,术语指组成频繁模式的关键词;
步骤S33:如果树不包含单一路径P:对于树顶部的每个频繁模式ai,执行以下步骤:
步骤S331:生成模式β=ai∪α:其中生成模式的支持度等于ai的支持度;
步骤S332:检查模式的长度是否等于θn且支持度大于θs:
步骤S3321:如果是,则生成频繁模式候选集;
步骤S3322:取路径中所有节点的CaseIdSet节点的交集;
步骤S333:对于每个中的F;
步骤S3331:如果与之间的每个频繁模式相似度都低于θw,则将合并到F中;
步骤S3332:否则,选择具有最大的频繁模式相似度的,将的术语和
CaseIdSet合并,并存储在F中;
步骤S34:输出包含频繁模式的集合F。
通过执行上述操作,针对一般事件监测方法存在输入数据的质量差,适应性低,不同频繁模式间关联程度衡量不当从而导致数据挖掘效果差的问题,本方案基于预先相似度对频繁模式间距离进行改进,可以更好地理解数据集中的模式;基于检查树的单一路径实现不同状态下频繁模式的合并和存储;提高数据挖掘结果的质量和可解释性。
实施例五,参阅图1和图2,该实施例基于上述实施例,在步骤S4中,基于权重的排序具体包括以下步骤:
步骤S41:计算术语重要性,所用公式如下:
;
式中,是第i个术语在第j个文本中的重要性;ni,j是第i个术语在第j个文本中
的词频;p是第i个术语所在的文本;k是文本中术语的索引,nk,j是第k个术语在第j个文本中
的词频;
步骤S42:计算术语特异性,所用公式如下:
;
式中,ipfi是第i个术语的特异性;是总文档数量;是包含术语gi的文
档数量,预先设有词阈值,当术语在文档中出现的次数大于词阈值,则被认为是包含术语的
文档,否则被认为不包含术语的文档;
步骤S43:计算频繁模式的权重,计算候补权重Weight(·),归一化处理后作为频繁模式的权重;所用公式如下:
;
式中,Weight(f)是第频繁模式f的候补权重;
步骤S44:排序,基于频繁模式的权重对步骤S3输出的集合F中的频繁模式进行排序。
实施例六,参阅图1和图3,该实施例基于上述实施例,在步骤S5中,基于相似矩阵的事件重要性识别具体包括以下步骤:
步骤S51:构建频繁模式的特征向量,基于排序后的频繁模式集合F中的每个频繁模式,构建特征向量;每个特征向量的维度对应频繁模式集合中的术语数,且特征向量中的每个值为术语的权重;
步骤S52:计算余弦相似度,计算任意两个频繁模式特征向量的余弦相似度;
步骤S53:构建相似度矩阵,基于计算得到的频繁模式间的相似度,构建相似度矩阵;
步骤S54:评估相似矩阵中元素的分散程度,所用公式如下:
;
式中,γ是相似矩阵元素的离散程度;Std(S)是矩阵元素的标准差;是矩阵的
范数;
步骤S55:事件划分,预先设有评估阈值;当γ大于评估阈值时,步骤S3得到的频繁模式的集合F被视为重要事件的文本集合,对文本涉及事件进行事件监测,及时采取应对措施;否则F被视为非重要事件的文本集合。
通过执行上述操作,针对一般事件监测方法存在术语特异性解释不当,导致无法识别频繁模式的重要性,对事件的重要性评估准确性差的问题,本方案通过改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重,基于评估相似矩阵中元素的分散程度实现对事件划分,从而完成事件监测任务。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (5)
1.用于人防指挥的事件监测方法,其特征在于:该方法包括以下步骤:
步骤S1:数据采集;
步骤S2:预处理,对采集的文本数据进行数据清洗、数据转换和建立增量频繁模式树;并定义频繁模式间距离和频繁模式间相似度;
步骤S3:数据挖掘,基于检查树的单一路径实现不同状态下频繁模式的合并和存储;最终输出包含频繁模式的集合;
步骤S4:基于权重的排序,改进TF-IDF计算术语重要性和特异性从而得到频繁模式权重,基于权重实现对频繁模式的排序;
步骤S5:基于相似矩阵的事件重要性识别,基于评估相似矩阵中元素的分散程度实现对事件划分,从而完成事件监测任务;
在步骤S4中,所述基于权重的排序具体包括以下步骤:
步骤S41:计算术语重要性,所用公式如下:
;
式中,是第i个术语在第j个文本中的重要性;ni,j是第i个术语在第j个文本中的词频;p是第i个术语所在的文本;k是文本中术语的索引,nk,j是第k个术语在第j个文本中的词频;
步骤S42:计算术语特异性,所用公式如下:
;
式中,ipfi是第i个术语的特异性;是总文档数量;是包含术语gi的文档数量,预先设有词阈值,当术语在文档中出现的次数大于词阈值,则被认为是包含术语的文档,否则被认为不包含术语的文档;
步骤S43:计算频繁模式的权重,计算候补权重Weight(·),归一化处理后作为频繁模式的权重;所用公式如下:
;
式中,Weight(f)是第频繁模式f的候补权重;
步骤S44:排序,基于频繁模式的权重对步骤S3输出的集合F中的频繁模式进行排序。
2.根据权利要求1所述的用于人防指挥的事件监测方法,其特征在于:在步骤S2中,所述预处理具体包括以下步骤:
步骤S21:数据预处理,包括数据清洗、数据转换和建立增量频繁模式树;所述数据清洗是处理缺失值、异常值和重复值;所述数据转换是将清洗后的数据转化为向量形式;所述建立增量频繁模式树是基于FP-growth算法得到增量频繁模式树,并在增量频繁模式树节点数据结构中添加节点结构,最终的增量频繁模式树节点结构包括:节点的唯一标识符名称,用于标识每个节点的唯一性、子节点列表,存储当前节点的所有子节点、指向当前节点的父节点、指向同一层级中当前节点的下一个节点、记录当前节点对应的频繁模式出现的次数和案例标识集合;案例标识集合用CaseIdSet表示,用于标识每个事件的唯一标识符;
步骤S22:定义频繁模式间距离,频繁模式指文本关键词的组合,所用公式如下:
;
;
;
式中,WMD(·)是频繁模式间距离;Tij表示一个从术语i到术语j的术语权重参数;c(i,j)表示从术语i到术语j的距离;fi表示第i个术语在频繁模式f中出现的次数;表示第i个术语在频繁模式中出现的次数;n是术语总数;术语指组成频繁模式的文本关键词;T是术语间权重;
步骤S23:定义频繁模式间相似度,所用公式如下:
;
式中,sim(·)是频繁模式间相似度,f1和f2是两个频繁模式;是l2范数。
3.根据权利要求1所述的用于人防指挥的事件监测方法,其特征在于:在步骤S5中,所述基于相似矩阵的事件重要性识别具体包括以下步骤:
步骤S51:构建频繁模式的特征向量,基于排序后的频繁模式集合F中的每个频繁模式,构建特征向量;每个特征向量的维度对应频繁模式集合中的术语数,且特征向量中的每个值为术语的权重;
步骤S52:计算余弦相似度,计算任意两个频繁模式特征向量的余弦相似度;
步骤S53:构建相似度矩阵,基于计算得到的频繁模式间的相似度,构建相似度矩阵;
步骤S54:评估相似矩阵中元素的分散程度,所用公式如下:
;
式中,γ是相似矩阵元素的离散程度;Std(S)是矩阵元素的标准差;是矩阵的范数;
步骤S55:事件划分,预先设有评估阈值;当γ大于评估阈值时,步骤S3得到的频繁模式的集合F被视为重要事件的文本集合,对文本涉及事件进行事件监测,及时采取应对措施;否则F被视为非重要事件的文本集合。
4.根据权利要求1所述的用于人防指挥的事件监测方法,其特征在于:在步骤S3中,所述数据挖掘具体包括以下步骤:
步骤S31:检查树是否包含单一路径P:定义α是增量频繁模式树的后缀模式,初始为空;θs是最小支持度阈值;θn是频繁项集的项数阈值;θw是频繁模式间相似度阈值;
步骤S32:如果树包含单一路径P,则对路径P中节点的所有组合,并将组合定义为β,执行以下步骤:
步骤S321:生成模式β∪α;支持度等于β中节点的最小支持度,支持度是指在数据集中模式出现的频率;
步骤S322:检查模式的长度是否等于θn且支持度大于θs:
步骤S3221:如果是,则生成频繁模式候选集;
步骤S3222:取路径中所有节点的CaseIdSet节点的交集,其中,CaseIdSet是数据挖掘中频繁模式树的一种节点类型;
步骤S323:对于每个在F中,其中F是存储所有发现的频繁模式的集合;是F中的频繁模式:
步骤S3231:如果和中的每个频繁模式的相似度都低于θw,则将合并到F中;
步骤S3232:否则,选择中具有最大频繁模式相似度的,将的术语与CaseIdSet合并,并将其存储在F中,术语指组成频繁模式的关键词;
步骤S33:如果树不包含单一路径P:对于树顶部的每个频繁模式ai,执行以下步骤:
步骤S331:生成模式β=ai∪α:其中生成模式的支持度等于ai的支持度;
步骤S332:检查模式的长度是否等于θn且支持度大于θs:
步骤S3321:如果是,则生成频繁模式候选集;
步骤S3322:取路径中所有节点的CaseIdSet节点的交集;
步骤S333:对于每个中的F;
步骤S3331:如果与之间的每个频繁模式相似度都低于θw,则将合并到F中;
步骤S3332:否则,选择具有最大的频繁模式相似度的,将的术语和CaseIdSet合并,并存储在F中;
步骤S34:输出包含频繁模式的集合F。
5.根据权利要求1所述的用于人防指挥的事件监测方法,其特征在于:在步骤S1中,所述数据采集是采集人防指挥的事件监测数据,包括社交媒体文本数据、新闻媒体文本数据和论坛博客文本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410428666.0A CN118012930B (zh) | 2024-04-10 | 2024-04-10 | 用于人防指挥的事件监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410428666.0A CN118012930B (zh) | 2024-04-10 | 2024-04-10 | 用于人防指挥的事件监测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118012930A CN118012930A (zh) | 2024-05-10 |
CN118012930B true CN118012930B (zh) | 2024-07-05 |
Family
ID=90952428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410428666.0A Active CN118012930B (zh) | 2024-04-10 | 2024-04-10 | 用于人防指挥的事件监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118012930B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887219A (zh) * | 2021-08-12 | 2022-01-04 | 南京汇宁桀信息科技有限公司 | 一种主管部门热线舆情识别与预警方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678620B (zh) * | 2013-12-18 | 2017-02-15 | 国家电网公司 | 一种基于用户历史行为特征的知识文档推荐方法 |
CN107862070B (zh) * | 2017-11-22 | 2021-08-10 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN115062147A (zh) * | 2022-06-17 | 2022-09-16 | 北京计算机技术及应用研究所 | 融合命名实体频繁模式特征的篇章级文本事件分类方法 |
CN117724795A (zh) * | 2023-12-27 | 2024-03-19 | 北京字跳网络技术有限公司 | 页面交互方法、装置、设备及存储介质 |
-
2024
- 2024-04-10 CN CN202410428666.0A patent/CN118012930B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887219A (zh) * | 2021-08-12 | 2022-01-04 | 南京汇宁桀信息科技有限公司 | 一种主管部门热线舆情识别与预警方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN118012930A (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902153A (zh) | 基于自然语言处理和案例推理的设备故障诊断方法及系统 | |
CN112581000B (zh) | 企业风险指数计算方法及装置 | |
CN112508053A (zh) | 基于集成学习框架的智能诊断方法、装置、设备及介质 | |
CN117290462B (zh) | 一种数据大模型的智能决策系统及方法 | |
KR102009284B1 (ko) | 비즈니스 프로세스의 마지막 액티비티의 수행 시점을 예측하기 위해 동적 순환신경망을 학습시키는 비즈니스 프로세스 학습 장치 | |
Wang et al. | Wood: Wasserstein-based out-of-distribution detection | |
US20220004565A1 (en) | Review and curation of record clustering changes at large scale | |
Sadiq et al. | Data missing solution using rough set theory and swarm intelligence | |
Wistuba et al. | Inductive transfer for neural architecture optimization | |
CN118012930B (zh) | 用于人防指挥的事件监测方法 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
Shankar et al. | Analyzing attrition and performance of an employee using machine learning techniques | |
CN110781206A (zh) | 一种学习拆回表故障特征规则预测在运电能表是否故障的方法 | |
CN113849656A (zh) | 基于聚类图谱的技术文本挖掘方法和系统 | |
CN117371861B (zh) | 基于数字化的家政服务质量智能分析方法及系统 | |
CN104636422B (zh) | 用于挖掘数据集中的模式的方法和系统 | |
Khoshgoftaar et al. | Identifying noise in an attribute of interest | |
CN116151107A (zh) | 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备 | |
CN108460117A (zh) | 一种预测结果驱动的数据修复方法 | |
Judijanto et al. | Trends and Evolution of Data-Driven Financial Management: A Bibliometric Analysis of Scientific Publications and Their Influence on Financial Decision Making | |
CN112215514A (zh) | 一种经营分析报告生成方法及系统 | |
Gupta et al. | Exploratory Data Analysis of Titanic Survival Prediction using Machine Learning Techniques | |
CN117113148B (zh) | 基于时序图神经网络的风险识别方法、装置及存储介质 | |
CN117574141B (zh) | 一种基于人工智能的无线充电设备故障检测方法及系统 | |
CN118245849B (zh) | 基于大数据的汽车故障检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |