CN101201835A

CN101201835A - 应急联动警情自动分类系统

Info

Publication number: CN101201835A
Application number: CNA2007100509435A
Authority: CN
Inventors: 成飏; 李志蜀; 周维; 王红军
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2007-12-21
Filing date: 2007-12-21
Publication date: 2008-06-18

Abstract

本发明属计算机系统的数据处理。警情自动分类系统作为应急联动系统的一个重要部分，与应急联动系统共享数据库数据。其核心部件是分类器，分类器是计算机处理系统，在分类器中利用贝叶斯算法构建的软件进行警情的自动分类。分类的过程包括构建分类器和分类器工作两部分，分类器采用机器学习的原理，用历史警情信息数据作为学习数据，采用改进的朴素贝叶斯算法来构造。分类时输入新的警情数据后生成标准的警情矢量信息，根据TOKEN串出现的次数，依据预定的概率阀值，由复合概率公式判断报警信息的类别。本分类系统不仅适应各种应急系统，也可成为独立体系，分类快捷、准确，规范化，科学化。

Description

应急联动警情自动分类系统

所属技术领域

本发明属计算机系统的数据处理范畴，涉及根据概率进行数据的分类处理。

背景技术

城市的报警系统，与城市的现代化建设和人民的生活质量息息相关。单一的报警系统已经远远不能满足现代发展的需要，应急联动系统已经成为发展的必然趋势。集公安(110)、消防(119)、交警(122)、急救(120)、防洪、防震、防灾、森林防火、环保及其它相关的需要及时响应的应急事件处理部门于一体，实现多警种和多个职能部门统一接警、联动处警的集成联动系统，是适应现代发展的结果。现有国内的应急联动警情系统，大都是将以往的各级硬件资源，设施，通过各种通讯网络的方式联系在一起。虽然硬件投资大，建设规格较高，但是，普遍存在软件建设落后的情况。特别是接警部分，几乎全部采用人工判断的方式。即接警人员收到报警信息后，判断报警信息的类型，认为是110，120，122，或119中的一种，然后在此基础上进行调度。人工接警分类的缺点是反应速度慢，主观性较强，分类精度较差。在这种情况下，利用先进的计算机进行辅助决策，充分发挥计算机的决策支持功能，就显得尤为重要。而国内现有的警情联动报警系统都不具备这一警情自动分类功能。

发明内容

本发明的目的是在应急联动系统的基础上，建立接处警自动分类系统，作为应急联动的重要组成部分。本系统提供一种具有自学习性和进化性的自动分类系统为应急联动系统的大量接警信息进行自动分类，以减少接警人员进行人为判别警情类别的工作量，极大提高接警工作的效率、分类精确度和可靠性。本系统还可作为一个接处警系统单独使用。

本发明的目的是这样达到的：

一种应急联动警情自动分类系统，其特征在于：警情自动分类系统作为应急联动系统的一个重要部分，设立在接警和分级分类处警系统之间。与应急联动系统共享数据库数据，支持应急联动系统使用的GIS地理信息系统、GPS卫星定位系统以及视频监控系统。其核心部件是分类器。分类器是一套计算机数据处理系统，在分类器中利用一种改进的贝叶斯算法进行警情的自动分类。分类的过程包括构建分类器和分类器工作两部分，分类器采用机器学习的原理，用历史警情信息数据作为学习数据，采用改进的朴素贝叶斯算法来构造；

构建分类器的步骤是：

(1)输入历史警情数据；

(2)对报警信息进行规格化，生成标准的警情矢量信息；

(3)用改进的朴素贝叶斯自动分类算法来构造分类器；

(4)对分类结果进行评估；

(5)用评估结果对分类器进行改进；

分类器工作的步骤是：

(1)输入新的警情数据；

(2)用分类器进行分类；

(3)检验修正分类结果；

(4)存储分类结果。

所述贝叶斯警情自动分类算法构建分类器的流程如下：

(1)、首先对历史报警信息数据集进行训练，根据具体的需要与要求建立相应类型的报警信息集合；

(2)、规格化报警信息，生成标准的警情矢量信息，分别处理各种不同类别的报警信息；

(3)每一个报警信息集合对应一个哈西表，建立表中存储的TOKEN串到词频的映射关系；

(4)、计算每个哈希表中TOKEN串出现的概率P，

P＝(某TOKEN串的词频)/(对应哈希表的长度)；

(5)、综合考虑所有哈西表中TOKEN串出现的概率，推断出当新来的报警信息中出现某个TOKEN串时，该报警信息为以上任何一个范畴的概率；

(6)、对每个类别的报警信息，逐个计算P(Ai|tj)(i＝1，2，...n；j＝1，2...m)，建立新的哈希表hashtable_probability_i存储TOKEN串tj到P(Ai|tj)的映射(j＝0，1，…m，m表示属于i类报警信息的字符串总数，i＝1，2，…n，n表示报警类别总数)；

(7)、至此，以上各类报警信息集合的学习过程结束，根据建立的哈希表hashtable_probability_i估计新到达的、已经生成标准的警情矢量的报警信息属于何类报警类型。

所述规格化报警信息，生成标准的警情矢量信息的具体方法如下：提取报警信息中出现的独立字符串，得到的内容作为TOKEN串，并且统计提取出TOKEN串出现的次数即词频来生成矢量信息并按照上述方法分别处理各种类别报警信息集合中的所有报警信息；所述“报警信息中出现的独立字符串”是指对于结构化的报警信息直接进行特征字符串统计，对于无结构的文本信息选择分词器，通过遍历报警信息得到符合要求的字符串。

所述综合考虑所有哈西表中TOKEN串出现的概率，推断出当新来的报警信息中出现某个TOKEN串时，该报警信息为某一个范畴的概率用其数学表达式表达为：

设：Ai事件----报警信息为特定的某一类报警信息；(i＝1，2，3…n)

t1，t2…….tm代表TOKEN串，

P(Ai|ti)表示在报警信息中出现TOKEN串ti时事件Ai发生的概率，则

P(Ai|tj)＝Pi(tj)/[(P1(tj)+P2(tj)+P3(tj)+P4(tj)+P5(tj)]

推断出当出现字符串tj时，报警信息为i类事件的概率。

所述进行分类器的工作流程如下：

(1)输入新的警情数据，按照报警信息规格化的要求，生成TOKEN串；

(2)抽取得到关键字t1、t2 t3……tn；

(3)查询对报警类别i对应的hashtable_probability_i得到P1，P2，……PN，表示在报警信息中出现TOKEN串tj时，该报警信息属于报警类别i的概率；

(4)按照复合概率公式计算概率，根据事先设定的阀值结果判断报警信息的类别；

(5)判断分类结果是否需要修正，若需要，修正，并将最后结果存储。

所述由复合概率公式判断报警信息的类别方法是：设报警信息共得到N个TOKEN串，t1，t2……tn，hashtable_probability_i中对应的值为P1，P2，……PN，P(Ai|t1，t2，t3……tn)表示在报警信息中同时出现多个TOKEN串t1，t2……tn，且报警信息属于i类报警信息的概率；

复合概率公式可得：P(Ai|t1，t2，t3……tn)＝(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)]

当P(Ai|t1，t2，t3……tn)超过预定阈值α时，即可判定报警信息属于i类报警信息。

所述当P(Ai|t1，t2，t3……tn)超过预定阈值α时，即可判定报警信息属于i类报警信息，是指当α的取值为0.5时，若P(Ai|t1，t2，t3……tn)＞0.5则为第i类报警信息。

所述检验修正分类结果是：进行重复生成TOKEN串并进行判断的过程；所述对分类结果进行评估，用评估结果对分类器进行改进是指对分类结果进行评判，对报警信息的规格化进行改进，生成新的警情矢量信息。

所述P(Ai|ti)表示在报警信息中出现TOKEN串ti时事件Ai发生的概率，是设置：A1表示事件“报警信息为119报警信息”，A2表示事件“报警信息为110报警信息”，A3表示事件“报警信息为120报警信息”，A4表示事件“报警信息为122报警信息”，A5表示事件“报警信息为其它类型的报警信息”；通过统计报警信息样本数据，得到了表格hashtable_119，hashtable_110，hashtable_120，hashtable_122，hashtable_other，分别存储了字符串ti在119，110，120，122以及其它报警信息中出现的频率：

Pl(tj)＝(tj在hashtable_119中对应的值)，

P2(tj)＝(tj在hashtable_110中对应的值)，

P3(tj)＝(tj在hashtable_120中对应的值)，

P4(tj)＝(tj在hashtable_122中对应的值)，

P5(tj)＝(tj在hashtable_other中对应的值)。

所述对于无结构的文本信息选择分词器，是选用最大匹配法分词器。

本发明具有以下积极效果：

1、提出了一个扩展性强的统一的报警矢量信息规范。能够适应各种复杂的报警情况。国内目前建成的应急联动系统，大都是将以往的各级硬件资源，设施，通过各种通讯网络的方式联系在一起。硬件投资大，建设规格较高。但是普遍存在软件建设落后的情况。未能发挥信息化带来的真正威力。在报警信息这一块上，多数系统存在缺乏相应的配套软件支持。就是有，也大都存在设计简单，涵盖面窄等等缺点。本发明提出的统一的报警矢量信息规范。具有很好的适应性，可以根据不同的实际情况灵活配置。适应不同地区，不同部门的要求。大大降低了开发和日后维护费用。

2、自动化分类报警信息，大大提高反应速度。降低判断误差。前面已经提到目前国内建成的应急联动系统大都存在反应速度较慢，判断误差较大的特点。采用计算机辅助的自动化分类以后。能够最大可能的减少人为因素的干扰。做到规范化，科学化。从而大大提高反应速度，降低判断误差。

3、本自动分类系统可对应急联动系统的接警信息进行自动分类归档，使应急联动系统能够清晰的反映出各类警情的发生频率，并且简化了报警历史数据的归档和查询工作，为今后对报警历史信息进行进一步的数据挖掘做好了铺垫。

4、适应了现代发展需要，规范工作流程，提高政府执政形象。

附图说明

图1是警情自动分类系统的结构和程序流程示意图。

图2是应急联动系统组织结构示意图。

图3是警情自动分类系统在应急联动系统中的结构部署示意图。

图4是构建分类器的程序流程图。

图5是分类器进行分类时的流程图。

具体实施方式

从附图可知，应急联动系统是集公安(110)、消防(119)、交警(122)、急救(120)、防洪、防震、防灾、森林防火、环保及其它相关的需要及时响应的应急事件处理部门于一体，实现多个警种和多个职能部门统一接警、联动处警的集成系统。整个系统以数据库系统为基础，综合运用先进的计算机网络技术、现代通信技术、呼叫中心技术、GIS地理信息系统技术、GPS卫星定位技术等建立和完善一个具备指挥中心及辅助决策能力的先进的应急联动系统和指挥中心。从层次结构上来说，应急联动系统成立统一的领导组织机构，下设若干个专业分支机构(分别设立于各相关职能部门中)，将公安、消防、交警、急救、防洪、防震、防灾、环保等职能部门处理各类危机事件的职能统一纳入到应急机制中，实现统一接警、统一处警、统一指挥、资源共享、联合行动，保证应急机制的快速反应、协调作战、协调运转。为了实现这一目标，系统必须能够对各种不同类型的报警信息进行及时、正确、有效的处理。由于报警信息种类繁多，可能涉及到不同的应急联动相关部门，如果能够对报警信息进行正确分类，按照警情的等级与类别将不同的报警信息和与之相关的部门进行关联，能够极大的提升系统的吞吐量，增强其处理能力。而目前现有的应急联动系统在这一方面还比较欠缺，对于报警信息大多没有进行有效的分类处理，或者由接警人员凭经验判断，效率低下，判断缺乏同一的标准，分类结果受人为因素影响较大。警情自动分类系统，能够根据具体的需要采用不同的标准对应急联动系统的报警信息进行自动分类，从而对报警信息进行了有效的管理，有效解决了接处警子系统人工处理效率较低的瓶颈。

警情自动分类采用了机器学习的原理，用历史警情信息数据作为学习数据，采用改进的朴素贝叶斯算法来构造分类器，这是自动分类系统的关键。本发明采用的是基于多项式朴素贝叶斯算法，本实施例是基于火警119报警信息，110报警信息，120报警信息，交通事故报警信息以及其它报警信息的应急联动。同时，假定每一条报警信息必须并且只能属于上面5种类型中的一种，并且不能同时属于任何两种。

附图4、5分别给出了分类器的构建和分类器工作的流程图。从图中知分类器的构建的具体过程是：

1、首先对历史报警信息数据集进行训练，根据具体的需要与要求建立相应类型的报警信息集合，包括119、110、120、交通事故报警和由各地具体情况决定的其它报警信息，确定总的报警类别。

2、将所有的报警信息规格化，生成标准的警情矢量信息。具体方法如下：提取报警信息中出现的独立字符串如“盗窃”、“偷”、“受伤”、“火”、“追尾”等，得到的内容等作为TOKEN串，并且统计提取出的TOKEN串出现的次数即词频。按照上述的方法分别处理各种类别报警信集合中的所有报警信息。对于结构化的报警信息可以直接进行特征字符串统计，对于无结构的文本信息可以根据需要选择适当的分词器，如最大匹配法分词器，通过遍历报警信息得到符合要求的字符串。

3、每一个报警信息集合对应一个哈西表，例如，hashtable_119对应火警报警信息，hashtable_110对应110报警信息，hashtable_120对应120报警信息，hashtable_122对应交警报警信息.hashtable_other对应其他类型的报警信息，表中存储TOKEN串到词频的映射关系。

4、计算每个哈希表中TOKEN串出现的概率P＝(某TOKEN串的词频)/(对应哈希表的长度)，用概率值取代步骤3中得到的词频，hashtable_i中存储的是词频到出现频率的映射。

5、统计所有哈希表得到总的词典表key_total。

6、取一类报警类别，用i表示，事件Ai表示报警信息属于i类报警信息，依次取总的哈希表key_total中的一个关键tj，计算当报警信息中出现上述tj时，报警信息属于i的概率。(Ai|tj)＝Pi(tj)/[(P1(tj)+P2(tj)+P3(tj)+P4(tj)+P5(tj)]；其中Pi(tj)表示tj在hashtable_i中的值。

7、检查key_total是否已经遍历，若没有，继续进行步骤6，已经完成，进入下一步。

8、生成对应于报警类别i的hashtable_probability_i，存储TOKEN串tj到P(Ai|tj)的映射。

9、检查是否所有的报警类别检查完毕，否，回到步骤6，检查完毕，则学习过程结束，完成分类器的构建。

分类器的工作过程是：

1、将报警信息规格化，生成标准的警情矢量信息。

2、抽取得到关键字t1、t2 t3……tn。

3、查询对报警类别i对应的hashtable_probability_i得到P1，P2，……PN，表示在报警信息中出现TOKEN串tj时，该报警信息属于报警类别i的概率。

4、P(Ai|t1，t2，t3……tn)表示在报警信息中同时出现多个tn时，该报警信息属于类别i报警信息的概率。由复合概率公式可得P(Ai|t1，t2，t3……tn)＝(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)]。

5、检查P(A|t1，t2，t3……tn)的值是否超过预先设定的阈值α。

6、超过预定阈值时，就可以判断报警信息为属于第i类报警信息，否则不属于第i类报警信息。

7、检查确认已经属于第i类报警信息，检查所有报警类别是否检查完毕，没有，返回第3步，已经完成，检查是否需要人工修正，需要，将修正结果加入训练集合，重新训练，若不需要，则分类工作完成，信息储存。

以上过程的伪代码如下：

设A表示训练集合{a1，a2，…an}(其中元素ai具有这样的结构{stringmsg，class}，stringmsg表示报警信息的文字信息，class表示已经知道的报警信息的种类)，B为指定的分类类别集合{b1，b2，…bm}，C为关键词字典{c1，c2，…c1}。

训练过程：

//生成哈希表

for each ai in A(i＝0，1...n-1，n表示A中报警信息的个数)

{

抽取ai中关键字形成关键字表key_table_ai＝{string1，string2...stringn}

根据以上的关键字表key_table_ai，生成对应的hash_ai表

for each entity_hash_ai in hash_ai(entity_hash_ai表示表hash_ai中的条目，其结构为{key(表示关键字)，probability(表示概率)}

{ 计算关键字key出现的概率

entity_hash_ai.key＝key_table_ai中存在但不重复的关键字；

entity_hash_ai.probability＝nkeyi/∑nkeyj(j＝0，1...m-1，m表示key_table_ai中的关键字的个数，nkeyi表示keyi关键字出现的次数)

//从而得到得到对应与报警信息ai的对应的hash_ai。

}

生成总的hash_total

for each hash_ai(i＝0，1...n-1，n表示A中报警信息的个数)

{

抽取hash_a中不重复的关键字形成z总的关键字表

key_table_total＝{string1，string2...stringn}

}

//生成概率表hash_keyi_cj(每张表记录了出现keyi关键字并且属于类别cj的概率情况

for each keyi in key_table_total

{

for each cj in C(对于分类类别集合中的每一个类别ci)

计算当出现keyi时的本报警信息属于cj的概率

//判断

收到新报警信息axin的时候，

for each cj in C

{//对每种分类情况分别调用各自的hash_keyi_cj

for each keyi in axin

{

查询哈希表hash_keyi_cj可得

P(报警信息属于cj|keyi)}＞α(预先设定的阈值，则报警信息属于cj类)。

}

//反馈过程，将axin加入训练集合A，重复训练过程

该算法具有良好的自学习性和进化性，并且该算法实现较为简单且效率高，计算代价小，是一种廉价高效的警情自动分类系统。

警情自动分类的过程实际是贝叶斯过滤算法的过程，例如：训练数据阶段，一条报警信息含有“受伤”，“抢劫”，“凶手”字样的110报警信息A和一条含有“受伤”，“追尾”字样的122交警报警信息B以及一条含有“受伤”，“坠楼”字样的120交警报警信息C。

根据报警信息A生成hashtable_110，该哈希表中的记录为“受伤”：1次“抢劫”：1次“凶手”：1次，计算得在本表中：“受伤”出现的概率为0.3“抢劫”出现的概率为0.3“凶手”出现的概率为0.3。

根据报警信息B生成hashtable_122，该哈希表中的记录为：“受伤”：1次“追尾”：1次，计算得在本表中：“受伤”出现的概率为0.5“追尾”出现的概率为0.5。

根据报警信息C生成hashtable_120，该哈希表中的记录为：“受伤”：1次“坠楼”：1次计算得在本表中：“受伤”出现的概率为0.5“坠楼”出现的概率为0.5。

综合考虑三个哈希表，共有7个TOKEN串：“受伤”“抢劫”“凶手”“追尾”“坠楼”。

当报警信息中出现“受伤”时，该报警信息为110报警信息的概率为：

P＝0.3/(0.3+0.5+0.5+0)＝0.23 ，

出现“抢劫”时，该报警信息为110报警信息的概率为：

P＝0.3/(0.3+0+0+0)＝1，

出现“凶手”时，该报警信息为110报警信息的概率为：

P＝0.3/(0.3+0+0+0)＝1，

出现“追尾”时，该报警信息为110报警信息的概率为：

P＝0/(0+0.5+0+0)＝0，

出现“坠楼”时，该报警信息为110报警信息的概率为：

P＝0/(0+0+0.5+0)＝0，

由此可得第4个哈希表hashtable_probability，其数据为：“受伤”：0.23“抢劫”：1“凶手”：1“追尾”：0“坠楼”：0。

当新到一条报警信息，“望江宾馆发生抢劫，凶手逃离现场”的时候，我们可得到两个TOKEN串：“抢劫”，“凶手”，

查询哈希表hashtable_probability可得：

P(110报警信息|“抢劫”)＝1

P(110报警信息|“凶手”)＝1

此时该报警信息为110报警信息的可能性为：

P＝(1*1)/[1*1+(1-1)*(1-1)]＝1

如果我们事先定义阈值为0.5，则当P＞0.5就表示信息为110报警信息，那么，由此可推出该报警信息为110报警信息。

再比如，当新到一条报警信息，“商场混乱，消费者受伤”的时候，我们可得到两个TOKEN串：“消费者”，“受伤”

查询哈希表hashtable_probability可得：

P(110报警信息|“消费者”)＝0

P(110报警信息|“受伤”)＝0.23

此时该报警信息为110报警信息的可能性为：

P＝(0*0.23)/[0*0.23+(1-0)*(1-0.23)]＝0

再比如，当新到一条报警信息，“商场混乱，消费者受伤”的时候，我们可得到两个TOKEN串：“消费者”，“受伤”由此可推出该报警信息为不属于110报警信息，得出这个消息属于other类型。可见，贝叶斯分类算法发挥了作用。

另外，如果收到一条消息“人民南路发生打斗，有人受伤”，这样一条消息的时候，可得到一个TOKEN串：“受伤”查询哈希表hashtable_probability可得：

P(110报警信息|“受伤”)＝0.23＜0.5，系统将不会判断为110类型的报警信息。同样系统也将不会判断为120，119，122的范围，而是其他类型。其实，这是应该进入110报警事件的范畴，之所以无法判断，完全是因为训练样本过小的原因。所以，系统中有“对分类结果进行评估”的环节，通过评估分类结果是否合理，对结果加以修正。同时利用刚刚判断处理过的样本中提供的新信息来改进分类算法，扩大训练数据，增加系统精度。从这个过程来看，系统运行的越久，样本库就越大，判断的精度就越高。这是一个逐渐优化的过程。同时报警信息进入数据库后，对接警信息进行自动分类归档，使应急联动系统能够清晰的反映出各类警情的发生频率，为今后对报警历史信息进行进一步的数据挖掘做好了铺垫。

Claims

1.一种应急联动警情自动分类系统，其特征在于：警情自动分类系统作为应急联动系统的一个重要部分，设立在接警和分级分类处警系统之间，与应急联动系统共享数据库数据，支持应急联动系统使用的GIS地理信息系统、GPS卫星定位系统以及视频监控系统；其核心部件是分类器，分类器是一套计算机数据处理系统，在分类器中利用一种改进的贝叶斯算法进行警情的自动分类，分类的过程包括构建分类器和分类器工作两部分，分类器采用机器学习的原理，用历史警情信息数据作为学习数据，采用改进的朴素贝叶斯算法来构造；

构建分类器的步骤是：

(1)输入历史警情数据；

(2)对报警信息进行规格化，生成标准的警情矢量信息；

(3)用改进的朴素贝叶斯自动分类算法来构造分类器；

(4)对分类结果进行评估；

(5)用评估结果对分类器进行改进；

分类器工作的步骤是：

(1)输入新的警情数据；

(2)用分类器进行分类；

(3)检验修正分类结果；

(4)存储分类结果。

2.如权利要求1所述的自动分类系统，其特征在于：所述贝叶斯警情自动分类算法构建分类器流程如下：

(4)、计算每个哈希表中TOKEN串出现的概率P，

P＝(某TOKEN串的词频)/(对应哈希表的长度)；

3.如权利要求1或2所述的自动分类系统，其特征在于：所述规格化报警信息，生成标准的警情矢量信息的具体方法如下：提取报警信息中出现的独立字符串，得到的内容作为TOKEN串，并且统计提取出TOKEN串出现的次数即词频来生成矢量信息并按照上述方法分别处理各种类别报警信息集合中的所有报警信息；所述报警信息中出现的独立字符串是指对于结构化的报警信息直接进行特征字符串统计，对于无结构的文本信息选择分词器，通过遍历报警信息得到符合要求的字符串。

4.如权利要求2所述的自动分类方法，其特征在于：所述综合考虑所有哈西表中TOKEN串出现的概率，推断出当新来的报警信息中出现某个TOKEN串时，该报警信息为某一个范畴的概率用其数学表达式表达为：

t1，t2…….tm代表TOKEN串，

P(Ai|ti)表示在报警信息中出现TOKEN串ti时事件Ai发生的概率，

则P(Ai|tj)＝Pi(tj)/[(P1(tj)+P2(tj)+P3(tj)+P4(tj)+P5(tj)]推出当出现字符串tj时，报警信息为i类事件的概率。

5.如权利要求1所述的自动分类方法，其特征在于：所述进行分类器的工作流程如下：

(2)抽取得到关键字t1、t2 t3……tn；

6.如权利要求5所述的自动分类方法，其特征在于：所述由复合概率公式判断报警信息的类别方法是：设报警信息共得到N个TOKEN串，t1，t2……tn，hashtable_probability_i中对应的值为P1，P2，……PN，P(Ai|t1，t2，t3……tn)表示在报警信息中同时出现多个TOKEN串t1，t2……tn，且报警信息属于i类报警信息的概率；

7.如权利要求6所述的自动分类系统，其特征在于：所述当P(Ai|t1，t2，t3……tn)超过预定阈值α时，即可判定报警信息属于i类报警信息，是指当α的取值为0.5时，若P(Ai|t1，t2，t3……tn)＞0.5则为第i类报警信息。

8.如权利要求1所述的自动分类方法，其特征在于：所述检验修正分类结果是：进行重复生成TOKEN串并进行判断的过程；所述对分类结果进行评估，用评估结果对分类器进行改进是指对分类结果进行评判，对报警信息的规格化进行改进，生成新的警情矢量信息。

9.如权利要求4所述的自动分类方法，其特征在于：所述P(Ai|ti)表示在报警信息中出现TOKEN串ti时事件Ai发生的概率，是设置：A1表示事件“报警信息为119报警信息”，A2表示事件“报警信息为110报警信息”，A3表示事件“报警信息为120报警信息”，A4表示事件“报警信息为122报警信息”，A5表示事件“报警信息为其它类型的报警信息”；通过统计报警信息样本数据，得到了表格hashtable_119，hashtable_110，hashtable_120，hashtable_122，hashtable_other，分别存储了字符串ti在119，110，120，122以及其它报警信息中出现的频率：

P1(tj)＝(tj在hashtable_119中对应的值)，

P2(tj)＝(tj在hashtable_110中对应的值)，

P3(tj)＝(tj在hashtable_120中对应的值)，

P4(tj)＝(tj在hashtable_122中对应的值)，

P5(tj)＝(tj在hashtable_other中对应的值)。

10.如权利要求3所述的自动分类方法，其特征在于：所述对于无结构的文本信息选择分词器，是选用最大匹配法分词器。