CN107783959A - 一种基于贝叶斯预测的处警、接警信息评分方法 - Google Patents
一种基于贝叶斯预测的处警、接警信息评分方法 Download PDFInfo
- Publication number
- CN107783959A CN107783959A CN201710782155.9A CN201710782155A CN107783959A CN 107783959 A CN107783959 A CN 107783959A CN 201710782155 A CN201710782155 A CN 201710782155A CN 107783959 A CN107783959 A CN 107783959A
- Authority
- CN
- China
- Prior art keywords
- text
- alert
- information
- emergencies
- dealing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于贝叶斯预测的处警、接警信息评分方法,首先通过正则表达式匹配出个人信息进行分词;然后通过分词结果预测文本类型,将分词的结果与内部的分类特征样本通过朴素贝叶斯算法判断文本所属类别,得到一个文本所属案情类别的概率;最后通过数据碰撞模型图进行数据碰撞,完成警情关联。本发明通过对警情文本分词的结果与警情关键词库,采用贝叶斯分类器得到一个警情文本分类的类别概率,然后将类别概率与警情权重通过决策树累加得到一个评分结果,还可以通过提取警情文本的特殊标识如身份证号等去关联相关文本的方式,实现了基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。
Description
技术领域
本发明属于文本挖掘技术领域,尤其涉及警情文本数据的贝叶斯分类和案情的决策树评分算法。
背景技术
文本数据挖掘分为文本分类和文本预测。文本分类指的是通过分类和回归的方式提取文本的特征和标签;文本预测是通过分类、回归、聚类的方式得到文本特征和部分标签。现有的文本分类技术一般首先进行分词,然后使用监督学习的算法对文本直接进行分类。
对于警情的处理,目前常用方式是人力进行分类,费时且容易出错,容易造成对关键警情的评判错误,通过监督学习分类评分可以尽可能避免因人力出现的错误。
但上述文本分类技术技术的缺点是无法判别每个分类之后文本的重要性,忽视了文本做概率分析后的遗失率计算,而且对文本的特征抽取数据碰撞也没有做深度处理。
贝叶斯预测是一种以动态模型为研究对象的时间序列预测方法,一般模式为先验+总体分布+样本→后验分布。贝叶斯预测模型是运用贝叶斯统计进行的一种预测。贝叶斯统计不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用了先验信息。贝叶斯模型不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。
如何结合贝叶斯预测可以结合决策者的经验和判断的优点,实现警情文本数据的贝叶斯分类和案情的决策树评分显得尤为重要。
发明内容
本发明的目的是在文本分类的基础上,使用数据抽取的方式,按照关键词权重使用决策树的方式对文本进行了评分,实现了基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。
为实现上述目的,本发明采用的技术方案为一种基于贝叶斯预测的处警、接警信息评分方法,具体包含以下步骤:
S1:通过正则表达式匹配出个人信息进行分词;
S2:通过分词结果预测文本类型,将分词的结果与内部的分类特征样本通过朴素贝叶斯算法判断文本所属类别,得到一个文本所属案情类别的概率;
S3:通过数据碰撞模型图进行数据碰撞,完成警情关联。
进一步,步骤1中,分词可以通过前缀字典对文本进行快速分词,对不在字典内的词可以通过HMM算法进行特征抽象。
所述个人信息包括但不限于手机号码、固定电话、QQ号、微信号、身份证号等信息。
步骤2中,对于不同的文本类型,赋予不同的权重,通过决策树对文本完成评分操作。
步骤3具体包括将警情信息与文本关键信息抽取后的数据放入碰撞模型图的节点中,利用图论中的单源最短路径算法得到关联数据抽取,然后通过搜索算法得到两个数据关联之间所有关联信息。
作为优选,上述搜索算法为BFS算法。
与现有技术相比,本发明具有的有益效果:
1,本发明通过对警情文本分词的结果与警情关键词库,采用贝叶斯分类器得到一个警情文本分类的类别概率,然后将类别概率与警情权重通过决策树累加得到一个评分结果。
2,可以通过提取警情文本的特殊标识如身份证号等去关联相关文本的方式。
3,实现了基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。
附图说明
图1为本发明基于贝叶斯预测的处警、接警信息评分流程图。
图2为本发明的数据碰撞模型图。
具体实施方式
现结合附图对本发明做进一步详尽的说明。
如图1所示,本发明提出的基于贝叶斯预测的处警、接警信息评分流程分为以下几个步骤:
一,分词:基于前缀字典和HMM算法对文本进行分词,将分词数据与案件类别词库数据通过贝叶斯概率模型判定文本所属类别,将其所属类别通过决策树进行权重处理,得到打分结果。
一个典型的原始样例文本如下:
警情编号 警情文本
J001 A村村民报警,苏B2222堵路,车主手机号179510998889
J002 B街道市民报警,苏A 1234占道,车主手机号179510998889
通过正则表达式匹配出手机号码、固定电话、QQ号、微信号、身份证号;通过前缀字典对文本快速分词,对不在字典内的词通过HMM算法进行特征抽象。
二、通过分词结果预测文本类型
将分词的结果与内部的分类特征样本通过朴素贝叶斯算法,判断文本所属类别,得到一个文本所属案情类别的概率。对于不同类型的文本,对应着不同的权重,通过决策树对文本完成评分操作。
比如对于上面的原始样例文本:
文本分词结果为:“A/ 村/ 村民/ 报警/ ,/ 苏/ B2222/ 堵路/ ,/ 车主/ 手机号/179510998889;B/ 街道/ 市民/ 报警/ ,/ 苏/ A/ / 1234/ 占道/ ,/ 车主/ 手机号/179510998889”
根据警情类型权重字典通过贝叶斯分类器判定该警情属于移车类警情文本,与历史数据进行关键信息碰撞,发现手机号是存在关联的,通过决策树进行警情评分,评分20,不做预警。
三、通过图完成数据碰撞
将警情信息与文本关键信息抽取后的数据如:手机号码、固定电话、QQ号、微信号、车牌、身份证号等,放入数据碰撞模型图(如图2所示)的节点中,利用图论中的单源最短路径算法得到关联数据抽取;BFS算法得到两个数据关联之间所有关联信息。
示例文本抽取后的数据为:
警情编号 地址 车牌 手机号
J001 A村 苏B2222 179510998889
J002 B街道 苏A 1234 179510998889
通过图模型发现,对于这两个警情,涉案人的关联在于有着同一个手机号码,通过BFS算法可以通过手机号码将J001与J002进行关联。
综上所述,本发明利用对警情文本分词的结果与警情关键词库,采用贝叶斯分类器得到一个警情文本分类的类别概率,然后将类别概率与警情权重通过决策树累加得到一个评分结果。具体实施时可以通过提取警情文本的特殊标识如身份证号等去关联相关文本的方式,易于操作。本发明可以实现基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。
Claims (6)
1.一种基于贝叶斯预测的处警、接警信息评分方法,其特征在于包含以下步骤:
S1:通过正则表达式匹配出个人信息进行分词;
S2:通过分词结果预测文本类型,将分词的结果与内部的分类特征样本通过朴素贝叶斯算法判断文本所属类别,得到一个文本所属案情类别的概率;
S3:通过数据碰撞模型图进行数据碰撞,完成警情关联。
2.根据权利要求1所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于步骤1中分词可以通过前缀字典对文本进行快速分词,对不在字典内的词可以通过HMM算法进行特征抽象。
3.根据权利要求1所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于所述个人信息包括手机号码、固定电话、QQ号、微信号、身份证号。
4.根据权利要求1所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于步骤2中对于不同的文本类型,赋予不同的权重,通过决策树对文本完成评分操作。
5.根据权利要求1所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于步骤3具体包括将警情信息与文本关键信息抽取后的数据放入碰撞模型图的节点中,利用图论中的单源最短路径算法得到关联数据抽取,然后通过搜索算法得到两个数据关联之间所有关联信息。
6.根据权利要求5所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于所述搜索算法为BFS算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710782155.9A CN107783959A (zh) | 2017-09-02 | 2017-09-02 | 一种基于贝叶斯预测的处警、接警信息评分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710782155.9A CN107783959A (zh) | 2017-09-02 | 2017-09-02 | 一种基于贝叶斯预测的处警、接警信息评分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107783959A true CN107783959A (zh) | 2018-03-09 |
Family
ID=61437993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710782155.9A Withdrawn CN107783959A (zh) | 2017-09-02 | 2017-09-02 | 一种基于贝叶斯预测的处警、接警信息评分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107783959A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492110A (zh) * | 2018-11-28 | 2019-03-19 | 南京中孚信息技术有限公司 | 文档分类方法及装置 |
CN111339768A (zh) * | 2020-02-27 | 2020-06-26 | 携程旅游网络技术(上海)有限公司 | 敏感文本检测方法、系统、电子设备及介质 |
CN113111898A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于支持向量机的车辆类型确定方法和装置 |
CN113111234A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的处警警情类别确定方法和装置 |
CN113947288A (zh) * | 2021-09-18 | 2022-01-18 | 南京莱斯信息技术股份有限公司 | 一种交通警情的智能派单方法及终端 |
CN116385965A (zh) * | 2023-03-17 | 2023-07-04 | 深圳市明源云科技有限公司 | 流浪动物识别方法、设备及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
CN101201835A (zh) * | 2007-12-21 | 2008-06-18 | 四川大学 | 应急联动警情自动分类系统 |
CN103886533A (zh) * | 2014-04-04 | 2014-06-25 | 四川天翼网络服务有限公司 | 扁平化指挥信息系统处警辅助系统及方法 |
CN104992557A (zh) * | 2015-05-13 | 2015-10-21 | 浙江银江研究院有限公司 | 一种城市交通警情等级预测方法 |
CN105912576A (zh) * | 2016-03-31 | 2016-08-31 | 北京外国语大学 | 情感分类方法及系统 |
CN106096623A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种犯罪识别与预测方法 |
CN106326585A (zh) * | 2016-08-29 | 2017-01-11 | 东软集团股份有限公司 | 基于贝叶斯网络推理的预测分析方法以及装置 |
-
2017
- 2017-09-02 CN CN201710782155.9A patent/CN107783959A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
CN101201835A (zh) * | 2007-12-21 | 2008-06-18 | 四川大学 | 应急联动警情自动分类系统 |
CN103886533A (zh) * | 2014-04-04 | 2014-06-25 | 四川天翼网络服务有限公司 | 扁平化指挥信息系统处警辅助系统及方法 |
CN104992557A (zh) * | 2015-05-13 | 2015-10-21 | 浙江银江研究院有限公司 | 一种城市交通警情等级预测方法 |
CN105912576A (zh) * | 2016-03-31 | 2016-08-31 | 北京外国语大学 | 情感分类方法及系统 |
CN106096623A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种犯罪识别与预测方法 |
CN106326585A (zh) * | 2016-08-29 | 2017-01-11 | 东软集团股份有限公司 | 基于贝叶斯网络推理的预测分析方法以及装置 |
Non-Patent Citations (1)
Title |
---|
范敏: "基于贝叶斯网络的学习与决策方法研究及应用", 《中国博士学位论文全文数据库》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492110A (zh) * | 2018-11-28 | 2019-03-19 | 南京中孚信息技术有限公司 | 文档分类方法及装置 |
CN113111898A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于支持向量机的车辆类型确定方法和装置 |
CN113111234A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的处警警情类别确定方法和装置 |
CN111339768A (zh) * | 2020-02-27 | 2020-06-26 | 携程旅游网络技术(上海)有限公司 | 敏感文本检测方法、系统、电子设备及介质 |
CN111339768B (zh) * | 2020-02-27 | 2024-03-05 | 携程旅游网络技术(上海)有限公司 | 敏感文本检测方法、系统、电子设备及介质 |
CN113947288A (zh) * | 2021-09-18 | 2022-01-18 | 南京莱斯信息技术股份有限公司 | 一种交通警情的智能派单方法及终端 |
CN116385965A (zh) * | 2023-03-17 | 2023-07-04 | 深圳市明源云科技有限公司 | 流浪动物识别方法、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107783959A (zh) | 一种基于贝叶斯预测的处警、接警信息评分方法 | |
CN107944480B (zh) | 一种企业行业分类方法 | |
CN109547423B (zh) | 一种基于机器学习的web恶意请求深度检测系统及方法 | |
Alomari et al. | Road traffic event detection using twitter data, machine learning, and apache spark | |
CN108536756A (zh) | 基于双语信息的情绪分类方法及系统 | |
CN103632168A (zh) | 一种机器学习中的分类器集成方法 | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN106547875B (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
CN109240258A (zh) | 基于词向量的汽车故障智能辅助诊断方法和系统 | |
CN110188092B (zh) | 一种挖掘人民调解中新型矛盾纠纷的系统及方法 | |
CN109858974A (zh) | 已购车用户识别模型构建方法及识别方法 | |
CN112001170A (zh) | 一种识别经过变形的敏感词的方法和系统 | |
CN111353050A (zh) | 一种电信客服垂直领域的词库构建方法及工具 | |
CN110888983B (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
US11562133B2 (en) | System and method for detecting incorrect triple | |
CN110704616B (zh) | 设备告警工单识别方法及装置 | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN104462229A (zh) | 一种事件分类方法及装置 | |
CN103902733A (zh) | 基于疑问词扩展的信息检索方法 | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN110226179A (zh) | 通过神经网络整合情境信息来自动检测支付交易流中的欺诈 | |
CN109033351A (zh) | 案情数据的归并方法及装置 | |
CN110008699A (zh) | 一种基于神经网络的软件漏洞检测方法及装置 | |
CN114398891A (zh) | 基于日志关键词生成kpi曲线并标记波段特征的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180309 |