CN109492097B - 一种企业新闻数据风险分类方法 - Google Patents
一种企业新闻数据风险分类方法 Download PDFInfo
- Publication number
- CN109492097B CN109492097B CN201811239290.XA CN201811239290A CN109492097B CN 109492097 B CN109492097 B CN 109492097B CN 201811239290 A CN201811239290 A CN 201811239290A CN 109492097 B CN109492097 B CN 109492097B
- Authority
- CN
- China
- Prior art keywords
- news
- classification
- enterprise
- categories
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000000463 material Substances 0.000 claims abstract description 29
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000008451 emotion Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 241000931705 Cicada Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种企业新闻数据风险分类方法,包括如下步骤:根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别;本发明根据企业主体进行句子提取,通过对句子分类进行预测,进而实现针对于该主体的新闻材料的类别预测。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种企业新闻数据风险分类方法。
背景技术
目前,最新技术有大量的文本分类模型和情感分析模型,其算法都相对较为成熟。现有的文本分类模型和情感分析模型为相互独立的算法。其中文本分类模型采用的主流算法有Bi-LSTM算法和CNN、FastText算法,都可以是基于字符、基于词的针对整篇新闻作为训练语料数据,由于其针对全文作为训练语料,那么对于特定的一篇新闻文章只有一个分类,但是当新闻中出现多个公司主体时,在事实上对于不同的公司主体来说可能具有不同的分类。例如,某篇新闻内容描述了公司A的负面信息和公司B的正面信息,如果针对全文进行分类,始终只能得出一个类别,该分类可能针对公司A的类别是对的,但是在公司A和公司B的类别不一样的情况下(公司A为负面类别,公司B为正面类别),现有分类思路始终无法满足在同一篇新闻中针对不同主体打标分类。而情感分析较多采用Bi-LSTM算法,情感分析通常只输出整篇文章情感倾向,包括正面概率,负面概率;没有更加具体的情感类别区分。因此,完全依赖一个模型预测,其准确度高度依赖于新闻语料数据的准备,鉴于新闻样式繁多,同样的新闻出自不同的撰写人可能风格完全不同,因此具有局限性。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供一种可针对某一特定主体进行分类的企业新闻数据风险分类方法。
本发明所采用的技术方案为:
一种企业新闻数据风险分类方法,包括如下步骤:
根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;
将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;
将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。
进一步,所述相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。
更进一步,所述CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型。
更进一步,所述CNN句子分类模型采用如下方法训练而成:
准备训练语料数据;
将训练语料数据中的句子输入CNN句子分类训练模型中,训练得到CNN句子分类模型。
更进一步,所述准备训练语料数据包括如下步骤:
使用网络爬虫在新闻数据来源中抓取企业类新闻材料,并将该企业类新闻材料以文本的形式存储在数据库中;
根据企业关注的新闻焦点,总结统计所需新闻类别;
针对不同的新闻类别自定义一系列的强规则;
根据所述自定义的强规则,在数据库中筛选出与该强规则相匹配的新闻材料作为备用语料数据;
采用人工对强规则筛出来的备用语料数据进行核对,筛选出第一训练语料数据;
采用人工从各大网站获取不同新闻类别的数据,作为第二训练语料数据;
将第一语料数据和第二语料数据融合,得到训练语料数据。
本发明的有益效果为:
本发明根据企业主体进行句子提取,通过对句子分类进行预测,进而实现针对于该主体的新闻材料的类别预测。由于每个句子均包含确定企业的相关属性,因此预测结果必然是针对于该确定企业的。若同一篇新闻材料中涉及多个企业主体,采用本发明方法,可根据不同主体提取出不同的句子,得到针对于不同企业主体的新闻分类,其分类更加准确。
附图说明
图1为本发明流程图。
图2为准备训练语料数据流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。以下实施例仅用于更加清楚地说明本发明的产品,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例:
本发明实施例提供的一种企业新闻数据风险分类方法,如图1所示,包括如下步骤:
S101、根据确定企业的公司名称获取该确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与该确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子。
确定企业为需要进行新闻数据风险分析的企业,根据该确定企业的公司名称获取该确定企业的相关属性,相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。
两两组合的意思为两个相关属性是and的关系。以两两组合的相关属性为关键词进行新闻材料的搜索,其准确性更高,可防止因不同公司相同属性值的出现而搜索到与该确定企业不相关的新闻材料,影响后续计算。例如,重庆誉存大数据科技有限公司和北京誉存大数据科技有限公司的公司简称均有可能为誉存大数据,如果仅以单个的相关属性进行搜索,则无法准确定位搜索结果中的新闻材料是关于重庆誉存大数据科技有限公司还是北京誉存大数据科技有限公司。
将确定企业的相关属性两两组合,并以此为关键词在互联网上进行搜索,获取与该确定企业相关的新闻材料,并从该新闻材料中提取出含有该确定企业相关属性(关键词)的句子。
S102、将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别。
CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型,该模型可采用现有文本分类模型训练方法训练而成。通过CNN句子分类模型对每个句子类别进行预测,得到每个句子的分类,该分类为正面类别或负面类别。由于每个句子含有确定企业的相关属性,因此,该句子分类的预测是针对该确定企业进行的预测。
S103、将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别。
本实施例中,将新闻标题权重赋予3,其余均权重赋予1,因为新闻标题往往更多的代表作者的情感倾向。将新闻材料中每个句子类别分别加权处理后相加,取值大者作为该新闻材料的新闻分类。即将正面类别的句子和负面类别的句子分别加权处理后相加,若正面类别的值大,则该新闻分类为正面类别,若负面类别的值大,则该新闻分类为负面类别。
本发明根据企业主体进行句子提取,通过对句子分类进行预测,进而实现针对于该主体的新闻材料的类别预测。由于每个句子均包含确定企业的相关属性,因此预测结果必然是针对于该确定企业的。若同一篇新闻材料中涉及多个企业主体,采用本发明方法,可根据不同主体提取出不同的句子,得到针对于不同企业主体的新闻分类,其分类更加准确。
本发明仅针对企业类新闻(如新闻的财经板块、公司板块等)进行预测,通过结合CNN句子分类模型对新闻数据风险类别进行预测,可更加准确地预测新闻中企业主体的风险信息,准确性更高。
训练CNN句子分类模型离不开训练语料,参见图2:本发明中,训练语料数据准备方法包括如下步骤:
S201、使用网络爬虫在新闻数据来源中抓取尽可能多的企业类新闻材料,并将该企业类新闻材料以文本的形式存储在数据库中。
新闻数据来源包括全国各大门户网站的公司新闻和财经新闻板块以及与财经、企业等相关的各个中小型网站。
S202、根据企业关注的新闻焦点,总结统计所需新闻类别。
新闻类别包括但不限于“偷税漏税”、“政策监管”、“失信风险”、“违法犯罪”、“事故信息”、“股权变动”、“产品问题”、“合作共赢”、“业务变动”、“抄袭侵权”、“法务纠纷”、“违反规定”、“工资拖欠”、“产品升级”、“高管离职”、“投资融资”、“运营风险”、“畏罪潜逃”、“贪污贿赂”、“欺诈骗局”、“成果奖项”、“裁员降薪”、“上市失利”、“股票利好”、“破产倒闭”、“战略风险”、“披露有误”、“公告公示”、“抵押质押”、“停业整改”、“股票利空”、“债务信息”、“业绩亏损”、“财务风险”、“业务欠款”、“其他”、“合作风险”。
多数新闻类别为风险性类别,比如偷税漏税,直观体现了新闻描述了主体公司的负面信息,使得用户对主体企业有一个基本的认识。
S203、针对不同的新闻类别自定义一系列的强规则。
强规则根据实际情况进行设置,例如针对成果奖项,设定规则为:'赞.* 成果|(年度|福布斯).*(榜|人物|集体|经理人)|(获得|荣获|授予|入选).*(单位"|单位”|企业"|企业”|公司”|公司"|专利|奖(金)|称号|荣誉|”学位| 博士|人物|经理人|集体)|(年报|中国|企业|全球|世界).*(强<强|榜单|名公司|最佳|纳税排行)|(进入|跻身).*(世界|中国|地区).*强|(人力资源|强).* 排行榜|”蝉联|获.*最佳|入围.*(强|榜)|跃.*首位|价值榜.*发布|入.*榜|全球.*最大.*平台|发布.*独角兽名单|卖地.*第一|荣膺年度|财富.*改变世界的公司|'超过.*登顶|净利润.*行业榜首|身家暴涨.*登首富|亮点突出|媒.*评.* 最美|成功.*最大|获.*(季军|冠军|亚军)|保持.*稳健.*扩张|大赛.*奖金|赢得.*好评|'创.*项第一'。
S204、根据步骤S203自定义的强规则,在数据库中筛选出与该强规则相匹配的新闻材料作为备用语料数据。
S205、采用人工对强规则筛出来的备用语料数据进行核对,筛选出第一训练语料数据。
在具体实施例中,人工根据需要对指定强规则筛选出来的备用语料数据进行核对,以确定筛选出来的备用语料是否属于所指定的新闻类别,防止强规则出错。因为新闻型式变化万千,受撰写人的影响相当大,有时候强规则筛选出的数据并不完全都是我们想要拿到的数据。增加人工核对的步骤,使训练语料数据更加准确,从而保证训练的模型准确率更高。
S206、采用人工从各大网站获取不同新闻类别的数据,作为第二训练语料数据。
S207、将第一语料数据和第二语料数据融合,得到训练语料数据。
训练语料数据中,每个新闻类别的训练语料数据不少于5000条。
第一训练语料数据和第二训练语料数据按1:1比例准备。并且第一训练语料数据与第二训练语料数据不重复。
将训练语料中的句子输入CNN句子分类训练模型中,采用开源CNN算法,训练得到CNN句子分类模型。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。
Claims (5)
1.一种企业新闻数据风险分类方法,其特征在于,包括如下步骤:
根据确定企业的公司名称获取所述确定企业的相关属性,将所述相关属性两两组合并以此为关键词进行搜索,获取与所述确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;
将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;
将该新闻正面类别的句子和负面类别的句子分别加权处理后相加,若正面类别的加权和值大,则该新闻分类为正面类别,若负面类别的加权和值大,则该新闻分类为负面类别。
2.根据权利要求1所述的企业新闻数据风险分类方法,其特征在于,所述相关属性包括但不限于法人名、高管名、公司简称、股票简称、公司历史名和产品名。
3.根据权利要求1所述的企业新闻数据风险分类方法,其特征在于,所述CNN句子分类模型是采用CNN算法训练而成的企业新闻分类模型。
4.根据权利要求3所述的企业新闻数据风险分类方法,其特征在于,所述CNN句子分类模型采用如下方法训练而成:
准备训练语料数据;
将训练语料数据中的句子输入CNN句子分类训练模型中,训练得到CNN句子分类模型。
5.根据权利要求4所述的企业新闻数据风险分类方法,其特征在于,所述准备训练语料数据包括如下步骤:
使用网络爬虫在新闻数据来源中抓取企业类新闻材料,并将所述企业类新闻材料以文本的形式存储在数据库中;
根据企业关注的新闻焦点,总结统计所需新闻类别;
针对不同的新闻类别自定义一系列的强规则;
根据所述自定义的强规则,在数据库中筛选出与所述强规则相匹配的新闻材料作为备用语料数据;
采用人工对强规则筛出来的备用语料数据进行核对,筛选出第一训练语料数据;
采用人工从各大网站获取不同新闻类别的数据,作为第二训练语料数据;
将第一语料数据和第二语料数据融合,得到训练语料数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811239290.XA CN109492097B (zh) | 2018-10-23 | 2018-10-23 | 一种企业新闻数据风险分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811239290.XA CN109492097B (zh) | 2018-10-23 | 2018-10-23 | 一种企业新闻数据风险分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492097A CN109492097A (zh) | 2019-03-19 |
CN109492097B true CN109492097B (zh) | 2021-11-16 |
Family
ID=65692537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811239290.XA Active CN109492097B (zh) | 2018-10-23 | 2018-10-23 | 一种企业新闻数据风险分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492097B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298403B (zh) * | 2019-07-02 | 2023-12-12 | 北京金融大数据有限公司 | 一种财经新闻中企业主体的情感分析方法和系统 |
CN110502638B (zh) * | 2019-08-30 | 2023-05-16 | 重庆誉存大数据科技有限公司 | 一种基于目标实体的企业新闻风险分类方法 |
CN111475646A (zh) * | 2020-03-17 | 2020-07-31 | 赵志杰 | 环境形象的评估方法、装置和设备 |
CN111694955B (zh) * | 2020-05-08 | 2023-09-12 | 中国科学院计算技术研究所 | 一种社交平台的早期争议性消息检测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
CN106294326A (zh) * | 2016-08-23 | 2017-01-04 | 成都科来软件有限公司 | 一种新闻报道情感倾向分析方法 |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
CN107403017A (zh) * | 2017-08-09 | 2017-11-28 | 上海数旦信息技术有限公司 | 一种智能分析实时新闻对金融市场影响的方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1629837A (zh) * | 2003-12-17 | 2005-06-22 | 国际商业机器公司 | 电子文档的处理、浏览及分类查询的方法、装置及其系统 |
US9477749B2 (en) * | 2012-03-02 | 2016-10-25 | Clarabridge, Inc. | Apparatus for identifying root cause using unstructured data |
CN105205043A (zh) * | 2015-08-26 | 2015-12-30 | 苏州大学张家港工业技术研究院 | 一种新闻读者情绪的分类方法与系统 |
US20180150562A1 (en) * | 2016-11-25 | 2018-05-31 | Cognizant Technology Solutions India Pvt. Ltd. | System and Method for Automatically Extracting and Analyzing Data |
-
2018
- 2018-10-23 CN CN201811239290.XA patent/CN109492097B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
CN106294326A (zh) * | 2016-08-23 | 2017-01-04 | 成都科来软件有限公司 | 一种新闻报道情感倾向分析方法 |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
CN107403017A (zh) * | 2017-08-09 | 2017-11-28 | 上海数旦信息技术有限公司 | 一种智能分析实时新闻对金融市场影响的方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109492097A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
US11164075B2 (en) | Evaluation method and apparatus based on text analysis, and storage medium | |
CN107209750B (zh) | 用于自动地标识文档中的潜在重要事实的系统及方法 | |
AU2021388096B2 (en) | Systems and methods for relevance-based document analysis and filtering | |
US20160232630A1 (en) | System and method in support of digital document analysis | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
CN104137128A (zh) | 用于使用源于社交媒体的数据和情绪分析来生成企业绿色分数的方法及系统 | |
CN112182246A (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN110880142B (zh) | 一种风险实体获取方法及装置 | |
CN112036842A (zh) | 一种科技服务智能匹配平台 | |
CN114303140A (zh) | 与产品和服务相关的知识产权数据分析 | |
CN110222180A (zh) | 一种文本数据分类与信息挖掘方法 | |
CN112036841A (zh) | 基于智能语义识别的政策解析系统及方法 | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及系统 | |
Font-Pomarol et al. | Socially disruptive periods and topics from information-theoretical analysis of judicial decisions | |
Sancheti et al. | Agent-Specific Deontic Modality Detection in Legal Language | |
Jishtu et al. | Prediction of the stock market based on machine learning and sentiment analysis | |
CN110766091B (zh) | 一种套路贷团伙的识别方法及系统 | |
Ying et al. | The clues in the news media coverage: detecting Chinese collective action trend from a text analytics research framework | |
Zhu et al. | A cross-institutional database of operational risk external loss events in Chinese banking sector 1986–2023 | |
Zhang | News Communication Value Evaluation Algorithm Based on Deep Neural Network | |
Wan et al. | Data mining technology application in false text information recognition | |
Yang | Automatic Decision Algorithm of Interpretation Power in Criminal Justice Based on Data Activity Consultant | |
Shanmugarajah et al. | WoKnack–A Professional Social Media Platform for Women Using Machine Learning Approach | |
Goel | Fraud detection and corporate filings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor Patentee after: Chongqing Yucun Technology Co.,Ltd. Country or region after: China Address before: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD. Country or region before: China |
|
CP03 | Change of name, title or address |