CN107958091A - 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统 - Google Patents
一种基于金融垂直知识图谱的nlp人工智能方法及交互系统 Download PDFInfo
- Publication number
- CN107958091A CN107958091A CN201711459522.8A CN201711459522A CN107958091A CN 107958091 A CN107958091 A CN 107958091A CN 201711459522 A CN201711459522 A CN 201711459522A CN 107958091 A CN107958091 A CN 107958091A
- Authority
- CN
- China
- Prior art keywords
- financial
- questions
- nlp
- information
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 16
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 7
- 238000013507 mapping Methods 0.000 title abstract 3
- 238000013459 approach Methods 0.000 title abstract 2
- 238000003058 natural language processing Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000005516 engineering process Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 4
- 230000008909 emotion recognition Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012917 library technology Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Animal Behavior & Ethology (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于金融垂直知识图谱的NLP人工智能方法及交互系统,通过建立的金融垂直图谱,与NLP即自然语言处理进行关联,从而建立一套完善的智能金融问题交互系统,与传统的搜索、问答系统被动响应不同,此种方法可进行主动反问,推荐、挖掘用户深层想问的问题,流程上,此种方法收到用户的问题,先通过NLP技术,然后分析出语义,通过语义到金融垂直图谱中进行检索,圈定问题回答的场景范围,选取最适合的回答推送给客户,这样可以将客户提出的问题,结合知识图谱更好的理解问题,同时可以更精准的检索回答。
Description
技术领域
本发明涉及人工智能对话系统领域,机器人语言领域。
背景技术
目前,理财经理在金融产品的购买过程中,一般大多充当导购的角色,客户在整个思考决策过程中需要持续的沟通陪伴。而与传统产品销售不同,对于金融产品来说,购买仅是一个开始,后续过程需要更多的沟通来起到照顾陪伴的作用。然而采用人工服务来全天候提供沟通,保证高质高效的服务显然是不可能的。AI智能的兴起,使得对客户的全天候高效智能服务在技术上实现的成为了可能。
而现有技术中,人机对话系统所依赖的技术主要分为以下两种:
基于问答库的技术,即通过提取句子中的关键词到整理好的海量问答中进行匹配。很多智能客服就是采用此种方法来替代了部分人工客服的成本,而这种方法缺点是海量数据间无相互关联,另外若部分句子语序更换,意思完全不同,但匹配的回答有可能是一致的;
基于搜索引擎的技术,即将用户的问题利用搜索引擎返回的结果进行筛选并回答,而这种技术一方面获得的答复质量低,另一方面获得的答案不可控。
可见,现有技术中至少存在以下几点问题:
1.传统方法的问题和对应回答是相对独立存储的,各个问题间无关联,无法有效通过语义推测用户问题;
2.传统方法更侧向于解决常见用户问题、售前的问题,对于售后的大部分个性化问题无法准确回答;
3.传统方法基于模板的匹配,问题丰富度靠人工海量问题的泛化得来,同一个问题需要想到各种各样的问法,需要耗费大量的时间和精力。
发明内容
针对现有技术中存在的问题,本申请提供了一种全新的解决方案。
本申请公开了一种基于金融垂直知识图谱的NLP(自然语言处理)人工智能方法以实现机器和客户之间的智能金融问题交互,其具体包括以下步骤:
S1、提问,客户提出金融相关的问题;
S2、NLP自然语言处理,通过NLP技术对客户提出的问题进行处理;
S3、语义分析与理解,根据处理后的信息选择合适的代表实体/关系的短语、关键词以备后续检索使用;
S4、信息检索,根据所述语义分析与理解得到的信息在金融垂直图谱中进行检索;
S5、结果输出,根据检索结果生成答案输出以回答客户提问,并进行问题的引导和挖掘。
其中,所述金融垂直图谱的制作是通过数据库利用机器学习技术将金融领域知识和所述金融领域知识之间关系进行梳理与保存而得到。
进一步地,所述金融垂直图谱的制作包括:
1)准备金融领域相关学习资料;
2)借助机器学习技术利用半监督方式对所述金融领域相关学习资料进行学习;
3)将学习到的金融领域知识实体及金融领域知识实体之间的关系进行梳理并保存在数据库中得到图数据库;
4)对所述金融领域知识实体之间的关系进行半监督维护,将表示同一关系的同义词在该关系涉及的实体范围内进行聚合;
5)对常见的实体增加图片描述,并作为检索项供后续结果输出时选择提取使用,这样可以提高交互回答形式的多样化。
其中,每个实体概念存入的时候,会关联其他已有的实体,最终形成各实体间存在相互关系的金融垂直图谱。
进一步地,所述NLP自然语言处理按先后顺序包括以下步骤:
S2.1数据处理,所述数据处理包括繁简转换、中文分词、词性标注、数据清洗、句法解析、实体识别和/或语音转字过程;
S2.2分类模型,所述分类模型从问题类型、用户行为、情感识别三个方面对所述数据处理过的问题进行分类;
S2.3信息提取,所述信息提取按基于词性标注提取、基于语义分析提取、基于语篇分析提取的步骤依次进行;
其中所述基于词性标注提取简称基于PoS(Part-of-Speech)提取,即根据标注出的名词、动词、形容词或其他词性,进行选择提取;
所述基于语义分析提取则选择基于行业关键词或实体列表的方式进行信息的提取调用,调用的方法就是常见业内熟知的卡方、信息增益、互信息技术等统计方法。
所述语篇分析则采用依存树的方式对信息进行提取调用,其中所述依存树表示句中各词语间的依存关系。
S2.4信息补全,检测客户提出问题中句子结构的缺失,并将缺失部分补全;
S2.5信息队列:将提取的关键信息放入队列,并在大于5轮对话后再将该关键信息移出队列,同时还对句子中的指示代词进行消解释义。
其中对话和队列具体指的是,将用户说的最近一句话的关键信息放到这个信息队列中,较早进入队列(比如5轮前)的关键信息将会被移出队列。该队列信息供信息检索的语义范围进行控制,并对多轮问题回复提供依据。
进一步地,所述信息检索按先后顺序包括以下步骤:
S4.1问题分类,根据语义分析与理解得到的信息对问题分类圈定问题回答的场景范围,所述问题的类型包括:特殊场景类问题、投前或投后问题、QA(问答类)问题。
S4.2问题检索,在确定完问题类型后在所圈定的场景范围内在所述金融垂直图谱中根据语义分析与理解得到的信息进行检索得到所需的实体和/或关系,之后根据词语共现相似度、句型匹配策略和/或用词顺序考量的方式来生成答案以备发送给客户。
词语共现相似度是一种以统计为基础的模型,在一段语言表述中,经常会有若干个词语共同出现(即共现)在同一个句子或同一个段落中,这样就认为这几个词语在意义上是有所关联的。采用此种方式进行相似度计算,是将通过语义检索出来的实体,通过此种方式进行计算,提高后续输出结果的准确性。
句型匹配策略的作用是,通过信息检索步骤提取了答复所需的相关实体,但还不是一个完整的句子。通过句型匹配策略,可以通过已知的问题句式,对应选取回答的句式,再复用“信息补全”部分的“空白槽位填充”进行回答的生成。
用词顺序考量是共现相似度的一个补充,在选取实体后,实际是选取了一组相似的实体,通过检索出的该组实体与问题的匹配程度,从而确定该组实体的优先级排序,优先级高的出现在回答中,低的为备选回答。
进一步地,所述结果输出包括将生成的答案、引导和挖掘出的问题输出给客户,其中所述引导和挖掘出的问题为根据所述金融垂直图谱中与该答案相关联的实体进行进一步引导和挖掘,形成新的问题输出给客户供客户进行回答或确认,这样可以实现更加真实有效地对话交互状态。
此外,本申请还公开了一种利用基于金融垂直知识图谱的NLP人工智能方法进行智能金融问题交互的系统,具体包括输入模块、NLP自然语言处理模块、语义分析与理解模块、信息检索模块和结果输出模块;
其中,
所述输入模块用于接收客户提出的金融相关的问题并将所述问题发送给所述NLP自然语言处理模块进行处理;
所述NLP自然语言处理模块通过NLP技术对客户提出的问题进行处理;
所述语义分析与理解模块根据处理后的信息选择合适的代表实体/关系的短语、关键词以备后续检索使用;
所述信息检索模块根据所述语义分析与理解得到的信息在所述金融垂直图谱中进行检索;
所述结果输出模块根据检索结果生成答案输出以回答客户提问,并进行问题的引导和挖掘。
通过建立的金融垂直图谱,与NLP(自然语言处理)进行关联,从而建立一套完善的智能金融问题交互系统。与传统的搜索、问答系统被动响应不同,此种方法可进行主动反问,推荐、挖掘用户深层想问的问题。流程上,此种方法收到用户的问题,先通过NLP技术,然后分析出语义,通过语义到金融垂直图谱中进行检索,圈定问题回答的场景范围,选取最适合的回答推送给客户。
这样做一方面可以将客户提出的问题,结合知识图谱更好的理解问题,另一方面可以更精准的检索回答。在整个金融活动中有很多的知识点,梳理所涉及的知识点的关系,恰当的借助图数据库进行存储,以备NLP系统进行后续的读取检索。
本申请相比于现有技术,其优点在于:
1.通过建立的金融知识图谱,可以不断完善和丰富数据库中的实体/关系数据,在每个实体概念存入的时候,会智能地关联其他已有的实体,最终形成一个存在复杂关系的金融垂直图谱,从而可以应对客户复杂的个性化问题,同时不同类型数据的存入(比如图片信息)以及特有的信息检索和答案生成输出机制可以提高交互回答形式的多样化。
2.可进行主动反问,推荐、挖掘用户深层想问的问题,实现更加真实有效地对话交互状态。
3.可以更好更高效的理解客户问题,并精准的检索最合适的答案,大大提升了对话沟通效率。
附图说明
图1为图数据库所存的金融垂直图谱中金融知识实体的示例的说明图;
图2为智能对话的总体流程示意图;
图3为基于金融垂直知识图谱的NLP人工智能方法以实现机器和客户之间的智能金融问题交互的详细流程图。
具体实施方式
为充分公开的目的,以下将结合实施例对本发明做进一步详细说明。应当理解,以下所述的具体实施例仅用于解释本发明,并非用于限定本发明的保护范围。
本申请具体公开了一种基于金融垂直知识图谱的NLP人工智能方法以实现机器和客户之间的智能金融问题交互,参见图2,其具体包括以下步骤:
S1、提问,客户提出金融相关的问题;
S2、NLP自然语言处理,通过NLP技术对客户提出的问题进行处理;
S3、语义分析与理解,根据处理后的信息选择合适的代表实体/关系的短语、关键词以备后续检索使用;
S4、信息检索,根据所述语义分析与理解得到的信息在金融垂直图谱中进行检索;
S5、结果输出,根据检索结果生成答案输出以回答客户提问,并进行问题的引导和挖掘。
其中,所述金融垂直图谱的制作是通过数据库利用机器学习技术将金融领域知识和所述金融领域知识之间关系进行梳理与保存而得到。
如图1所示的金融垂直图谱中金融知识实体的示例,所述金融垂直图谱的制作包括:
1)准备金融领域相关学习资料,在图1所示的示例中该学习资料是银行相关知识的资料;
2)借助机器学习技术利用半监督方式对所述金融领域相关学习资料进行学习,在该示例中,学习资料中存在中国四大行及其相关关系的信息;
3)将学习到的金融领域知识实体及金融领域知识实体之间的关系进行梳理并保存在数据库中得到图数据库,在该示例中,学习“中国四大行有中国银行,中国工商银行,中国农业银行,中国建设银行”,通过此句的学习到5个实体及4组关系,即中国四大行-有-中国银行,中国四大行-有-中国工商银行,中国四大行-有-中国农业银行,中国四大行-有-中国建设银行;
4)对所述金融领域知识实体之间的关系进行半监督维护,将表示同一关系的同义词在该关系涉及的实体范围内进行聚合,比如,再次接收到金融知识,中国四大行包含中国银行,中国工商银行,中国农业银行,中国建设银行。会再已存在的5个实体间出现新的关系“包含”,而在语义上现有的两个关系“有”和“包含”一致,可合并为一个关系,并对该实体记录相近的关系,提高机器学习的准确性;
5)对常见的实体增加图片描述,并作为检索项供后续选择提取使用,图片的存入为了提高交互回答的形式多样化,对常见的实体导入相关的图片,供回复时候选择提取。
其中,每个实体概念存入的时候,会关联其他已有的实体,最终形成各实体间存在相互关系的金融垂直图谱。
如图3所示,图3示出了基于金融垂直知识图谱的NLP人工智能方法以实现机器和客户之间的智能金融问题交互的详细流程,
其中步骤S2所述NLP自然语言处理按先后顺序包括以下步骤:
S2.1数据处理,所述数据处理包括繁简转换、中文分词、词性标注、数据清洗、句法解析、实体识别和/或语音转字过程;
其中中文分词所采用方法的数学表达式为:
(T)=(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)
P代表出现的概率,其中W1代表第一个字区域识别的结果,所以P(W1)代表第一个字出现的概率。P(W2|W1)代表如果第一个字出现,再出现第二字的概率,可以看出W1W2是否是个常见的词。这样操作直到句子末尾,就会生成一个已经分好词的句子。如:中国|四大|银行|有哪几个|?
S2.2分类模型,所述分类模型从问题类型、用户行为、情感识别三个方面对所述数据处理过的问题进行分类;
问题类型主要是区分用户的问题是5w类问题(where,what,when,why,how)、常规问题还是非问题类沟通。
用户行为指的是用户在哪个页面、什么环境下进行的提问。
情感识别会根据用户本次会话过程、提取所涉及到的情感词。
S2.3信息提取,所述信息提取按基于词性标注提取、基于语义分析提取、基于语篇分析提取的步骤依次进行;
其中所述基于词性标注提取简称基于PoS(Part-of-Speech)提取,即根据标注出的名词、动词、形容词或其他词性,进行选择提取;
所述基于语义分析提取则选择基于行业关键词或实体列表的方式进行信息的提取调用,调用的方法就是常见业内熟知的卡方、信息增益、互信息技术等统计方法。
所述语篇分析则采用依存树的方式对信息进行提取调用,其中所述依存树表示句中各词语间的依存关系。
更具体地,其中通过卡方进行信息提取的数学表达式:
特征提取算法分为特征选择和特征抽取两大类。其中卡方检验就属于特征选择算法中较优的算法。
t和c分别是两个随机变量,χ2代表卡方值,用以检验数据的相关性,t代表一个词,c代表一个类别。比如t可以代表花,c可以代表植物。
当我们找了N篇文章,分别将t进行包含、不包含的分类,再将c进行属于、不属于的分类。从而可以生成以下表格,分别对应上述公式中的字母。
特征选择 | c1.属于“植物” | c2.不属于“植物” | 总计 |
t1.包含“花” | A | B | A+B |
t2.不包含“花” | C | D | C+D |
总数 | A+C | B+D | N |
其中通过信息增益进行信息提取的数学表达式:
在特征为Y固定的情况下,X的条件熵为H(X|Y),P(x|y)为出现的概率。通俗点解释就是,在知道Y这个信息量之后信息量X的不确定性相比于不知道信息量Y时,X的不确定性减少了多少。信息增益的两个变量X,Y的地位不同,是把Y看成减少X不确定性的一种手段。而互信息的两个变量地位相同。
其中通过互信息进行信息提取的数学表达式:
g(D,A)=H(D)-H(D|A)
H(D)代表自信息量,即发出的信息,H(D|A)代表条件信息量,g(D,A)代表互信息量。所以互信息量=自信息量-条件信息量。通过互信息进行信息提取,利用互信息计算字串的内部结合强度,使得提取的信息更加完整,而不是关键词的状态。比如自然语言处理,其通过互信息发现这几个词是一个固定的学术词汇,所以并不会拆分为三个词来理解。
S2.4信息补全,检测客户提出问题中句子结构的缺失(也称为槽位空白检测),并将缺失部分补全(也称为空白槽位填充);
S2.5信息队列:将提取的关键信息放入队列,并在大于5轮对话后再将该关键信息移出队列,同时还对句子中的指示代词进行消解释义。
其中对话和队列具体指的是,将用户说的最近一句话的关键信息放到这个信息队列中,较早进入队列(比如5轮前)的关键信息将会被移出队列。该队列信息供信息检索的语义范围进行控制,并对多轮问题回复提供依据。
其中步骤S4所述信息检索按先后顺序包括以下步骤:
S4.1问题分类,根据语义分析与理解得到的信息对问题分类圈定问题回答的场景范围,所述问题的类型包括:特殊场景类问题、投前或投后问题、QA(问答类)问题。
S4.2问题检索,在确定完问题类型后在所圈定的场景范围内在所述金融垂直图谱中根据语义分析与理解得到的信息进行检索得到所需的实体和/或关系,之后根据词语共现相似度、句型匹配策略和/或用词顺序考量的方式来生成答案以备发送给客户。
共现相似度计算数学表达式:
Similarity(s1,s2)=αSDMG(s1,s2)+βSDMG(s1,s2)+γSDMG(s1,s2)
s1、s2是两个词,α、β、γ是在分别三个空间向量的共现相关性。
其中步骤S4所述结果输出包括将生成的答案、引导和挖掘出的问题输出给客户,其中所述引导和挖掘出的问题为根据所述金融垂直图谱中与该答案相关联的实体进行进一步引导和挖掘,形成新的问题输出给客户供客户进行回答或确认,这样可以实现更加真实有效地对话交互状态。,比如:
最终用户问:中国四大银行有哪几个?
对话回答:中国四大银行都有中国银行,中国工商银行,中国农业银行,中国建设银行,您知道吗?其中中国工商银行于1984年成立。
上述实施例具体可以通过利用基于金融垂直知识图谱的NLP人工智能方法进行智能金融问题交互的系统来实现,所述系统包括输入模块、NLP自然语言处理模块、语义分析与理解模块、信息检索模块和结果输出模块;
其中,
所述输入模块用于接收客户提出的金融相关的问题并将所述问题发送给所述NLP自然语言处理模块进行处理;
所述NLP自然语言处理模块通过NLP技术对客户提出的问题进行处理;
所述语义分析与理解模块根据处理后的信息选择合适的代表实体/关系的短语、关键词以备后续检索使用;
所述信息检索模块根据所述语义分析与理解得到的信息在所述金融垂直图谱中进行检索;
所述结果输出模块根据检索结果生成答案输出以回答客户提问,并进行问题的引导和挖掘。
以上所述实施细例仅表达了本专利的实施方式,其描述不能理解为对本专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本专利构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本专利的保护范围应以所附权利要求为准。以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于金融垂直知识图谱的NLP人工智能方法,其特征在于,其具体包括以下步骤:
S1、提问,客户提出金融相关的问题;
S2、NLP自然语言处理,通过NLP技术对客户提出的问题进行处理;
S3、语义分析与理解,根据处理后的信息选择代表实体/关系的短语、关键词以备后续检索使用;
S4、信息检索,根据所述语义分析与理解得到的信息在金融垂直图谱中进行检索;
S5、结果输出,根据检索结果生成答案输出以回答客户提问,并进行问题的引导和挖掘;
其中,所述金融垂直图谱的制作是通过数据库利用机器学习技术将金融领域知识和所述金融领域知识之间关系进行梳理与保存而得到。
2.如权利要求1中所述的基于金融垂直知识图谱的NLP人工智能方法,其特征在于,所述金融垂直图谱的制作包括:
1)准备金融领域相关学习资料;
2)借助机器学习技术利用半监督方式对所述金融领域相关学习资料进行学习;
3)将学习到的金融领域知识实体及金融领域知识实体之间的关系进行梳理并保存在数据库中得到图数据库;
4)对所述金融领域知识实体之间的关系进行半监督维护,将表示同一关系的同义词在该关系涉及的实体范围内进行聚合;
5)对常见的实体增加图片描述,并作为检索项供后续结果输出时选择提取使用,这样可以提高交互回答形式的多样化;
其中,每个实体概念存入的时候,会关联其他已有的实体,最终形成各实体间存在相互关系的金融垂直图谱。
3.如权利要求1中所述的基于金融垂直知识图谱的NLP人工智能方法,其特征在于,所述NLP自然语言处理按先后顺序包括以下步骤:
S2.1数据处理,所述数据处理包括繁简转换、中文分词、词性标注、数据清洗、句法解析、实体识别和/或语音转字过程;
S2.2分类模型,所述分类模型从问题类型、用户行为、情感识别三个方面对所述数据处理过的问题进行分类;
S2.3信息提取,所述信息提取按基于词性标注提取、基于语义分析提取、基于语篇分析提取的步骤依次进行;
S2.4信息补全,检测客户提出问题中句子结构的缺失,并将缺失部分补全;
S2.5信息队列:将提取的关键信息放入队列,并在大于5轮对话后再将该关键信息移出队列,同时还对句子中的指示代词进行消解释义。
4.如权利要求1中所述的基于金融垂直知识图谱的NLP人工智能方法,其特征在于,所述信息检索按先后顺序包括以下步骤:
S4.1问题分类,根据语义分析与理解得到的信息对问题分类圈定问题回答的场景范围,所述问题的类型包括:特殊场景类问题、投前或投后问题、QA(问答类)问题;
S4.2问题检索,在确定完问题类型后在所圈定的场景范围内在所述金融垂直图谱中根据语义分析与理解得到的信息进行检索得到所需的实体和/或关系,之后根据词语共现相似度、句型匹配策略和/或用词顺序考量的方式来生成答案以备发送给客户。
5.如权利要求1中所述的基于金融垂直知识图谱的NLP人工智能方法,其特征在于,所述结果输出包括将生成的答案、引导和挖掘出的问题输出给客户,其中所述引导和挖掘出的问题为根据所述金融垂直图谱中与该答案相关联的实体进行进一步引导和挖掘,形成新的问题输出给客户供客户进行回答或确认。
6.一种利用权利要求1-5中任一所述的基于金融垂直知识图谱的NLP人工智能方法进行智能金融问题交互的系统,其特征在于,所述系统包括输入模块、NLP自然语言处理模块、语义分析与理解模块、信息检索模块和结果输出模块;
其中,
所述输入模块用于接收客户提出的金融相关的问题并将所述问题发送给所述NLP自然语言处理模块进行处理;
所述NLP自然语言处理模块通过NLP技术对客户提出的问题进行处理;
所述语义分析与理解模块根据处理后的信息选择合适的代表实体/关系的短语、关键词以备后续检索使用;
所述信息检索模块根据所述语义分析与理解得到的信息在所述金融垂直图谱中进行检索;
所述结果输出模块根据检索结果生成答案输出以回答客户提问,并进行问题的引导和挖掘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711459522.8A CN107958091A (zh) | 2017-12-28 | 2017-12-28 | 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711459522.8A CN107958091A (zh) | 2017-12-28 | 2017-12-28 | 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107958091A true CN107958091A (zh) | 2018-04-24 |
Family
ID=61957098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711459522.8A Pending CN107958091A (zh) | 2017-12-28 | 2017-12-28 | 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107958091A (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733654A (zh) * | 2018-05-21 | 2018-11-02 | 宁波薄言信息技术有限公司 | 一种信息处理方法 |
CN108920603A (zh) * | 2018-06-28 | 2018-11-30 | 厦门快商通信息技术有限公司 | 一种基于客服机器模型的客服引导方法 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109344174A (zh) * | 2018-09-13 | 2019-02-15 | 深圳易投云智能科技有限公司 | 金融分析方法和系统 |
CN109559144A (zh) * | 2018-09-20 | 2019-04-02 | 欧阳江 | 一种个性化证券行业客服系统及方法 |
CN109658271A (zh) * | 2018-12-19 | 2019-04-19 | 前海企保科技(深圳)有限公司 | 一种基于保险专业场景的智能客服系统及方法 |
CN109829041A (zh) * | 2018-12-25 | 2019-05-31 | 出门问问信息科技有限公司 | 问题处理方法、装置、计算机设备及计算机可读存储介质 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110019742A (zh) * | 2018-06-19 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 用于处理信息的方法和装置 |
CN110019687A (zh) * | 2019-04-11 | 2019-07-16 | 宁波深擎信息科技有限公司 | 一种基于知识图谱的多意图识别系统、方法、设备及介质 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN110443382A (zh) * | 2019-07-09 | 2019-11-12 | 青岛聚好联科技有限公司 | 一种基于智能客服平台的用户交互方法 |
CN110543546A (zh) * | 2019-07-18 | 2019-12-06 | 华瑞新智科技(北京)有限公司 | 一种工业设备中的隐患问题查询方法和装置 |
CN110597952A (zh) * | 2019-08-20 | 2019-12-20 | 深圳壹账通智能科技有限公司 | 信息处理方法、服务器及计算机存储介质 |
CN110727773A (zh) * | 2019-10-11 | 2020-01-24 | 沈阳民航东北凯亚有限公司 | 信息提供方法及装置 |
CN110807091A (zh) * | 2019-03-01 | 2020-02-18 | 王涵 | 一种酒店智能问答推荐与决策支持分析方法及系统 |
CN110990526A (zh) * | 2019-11-21 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 一种查询语句展示方法及相关设备 |
CN111091454A (zh) * | 2019-11-05 | 2020-05-01 | 新华智云科技有限公司 | 一种基于知识图谱的金融舆情推荐方法 |
WO2020114269A1 (zh) * | 2018-12-05 | 2020-06-11 | 中兴通讯股份有限公司 | 一种智能投顾的实现方法及系统 |
CN111309888A (zh) * | 2020-02-25 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 人机对话方法、装置、电子设备及存储介质 |
CN111739541A (zh) * | 2019-03-19 | 2020-10-02 | 上海云思智慧信息技术有限公司 | 一种基于语音的会议协助方法及系统、存储介质及终端 |
CN111753021A (zh) * | 2020-06-17 | 2020-10-09 | 第四范式(北京)技术有限公司 | 构建知识图谱的方法、装置、设备和可读存储介质 |
WO2020221142A1 (zh) * | 2019-04-28 | 2020-11-05 | 华为技术有限公司 | 一种基于绘本的问答交互方法及电子设备 |
CN112015919A (zh) * | 2020-09-15 | 2020-12-01 | 重庆广播电视大学重庆工商职业学院 | 一种基于学习辅助知识图谱的对话管理方法 |
CN112328808A (zh) * | 2020-11-03 | 2021-02-05 | 四川长虹电器股份有限公司 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN113312489A (zh) * | 2021-04-13 | 2021-08-27 | 武汉烽火众智数字技术有限责任公司 | 一种基于nlp和图数据库的全景检索系统及方法 |
CN113326367A (zh) * | 2021-06-30 | 2021-08-31 | 四川启睿克科技有限公司 | 基于端到端文本生成的任务型对话方法和系统 |
CN113434645A (zh) * | 2021-05-26 | 2021-09-24 | 上海声通信息科技股份有限公司 | 一种金融产品智能客服系统 |
CN117151122A (zh) * | 2023-10-30 | 2023-12-01 | 湖南三湘银行股份有限公司 | 一种基于自然语言处理的银行客服会话问答处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050256A (zh) * | 2014-06-13 | 2014-09-17 | 西安蒜泥电子科技有限责任公司 | 基于主动学习的问答方法及采用该方法的问答系统 |
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106919655A (zh) * | 2017-01-24 | 2017-07-04 | 网易(杭州)网络有限公司 | 一种答案提供方法和装置 |
CN107341215A (zh) * | 2017-06-07 | 2017-11-10 | 北京航空航天大学 | 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法 |
-
2017
- 2017-12-28 CN CN201711459522.8A patent/CN107958091A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050256A (zh) * | 2014-06-13 | 2014-09-17 | 西安蒜泥电子科技有限责任公司 | 基于主动学习的问答方法及采用该方法的问答系统 |
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106919655A (zh) * | 2017-01-24 | 2017-07-04 | 网易(杭州)网络有限公司 | 一种答案提供方法和装置 |
CN107341215A (zh) * | 2017-06-07 | 2017-11-10 | 北京航空航天大学 | 一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法 |
Non-Patent Citations (2)
Title |
---|
公安部第三研究所: "多摄像机协同关注目标检测跟踪技术", 《多摄像机协同关注目标检测跟踪技术》 * |
陆刚等: "机电工程网络信息资源检索与利用", 《机电工程网络信息资源检索与利用》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733654A (zh) * | 2018-05-21 | 2018-11-02 | 宁波薄言信息技术有限公司 | 一种信息处理方法 |
CN110019742A (zh) * | 2018-06-19 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 用于处理信息的方法和装置 |
CN110019742B (zh) * | 2018-06-19 | 2024-05-17 | 北京京东尚科信息技术有限公司 | 用于处理信息的方法和装置 |
CN108920603A (zh) * | 2018-06-28 | 2018-11-30 | 厦门快商通信息技术有限公司 | 一种基于客服机器模型的客服引导方法 |
CN108920603B (zh) * | 2018-06-28 | 2021-12-21 | 厦门快商通信息技术有限公司 | 一种基于客服机器模型的客服引导方法 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109344174A (zh) * | 2018-09-13 | 2019-02-15 | 深圳易投云智能科技有限公司 | 金融分析方法和系统 |
CN109559144A (zh) * | 2018-09-20 | 2019-04-02 | 欧阳江 | 一种个性化证券行业客服系统及方法 |
CN111353013A (zh) * | 2018-12-05 | 2020-06-30 | 中兴通讯股份有限公司 | 一种智能投顾的实现方法及系统 |
WO2020114269A1 (zh) * | 2018-12-05 | 2020-06-11 | 中兴通讯股份有限公司 | 一种智能投顾的实现方法及系统 |
CN109658271A (zh) * | 2018-12-19 | 2019-04-19 | 前海企保科技(深圳)有限公司 | 一种基于保险专业场景的智能客服系统及方法 |
CN109829041A (zh) * | 2018-12-25 | 2019-05-31 | 出门问问信息科技有限公司 | 问题处理方法、装置、计算机设备及计算机可读存储介质 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110807091B (zh) * | 2019-03-01 | 2023-08-18 | 王涵 | 一种酒店智能问答推荐与决策支持分析方法及系统 |
CN110807091A (zh) * | 2019-03-01 | 2020-02-18 | 王涵 | 一种酒店智能问答推荐与决策支持分析方法及系统 |
CN111739541A (zh) * | 2019-03-19 | 2020-10-02 | 上海云思智慧信息技术有限公司 | 一种基于语音的会议协助方法及系统、存储介质及终端 |
CN110019687B (zh) * | 2019-04-11 | 2021-03-23 | 宁波深擎信息科技有限公司 | 一种基于知识图谱的多意图识别系统、方法、设备及介质 |
CN110019687A (zh) * | 2019-04-11 | 2019-07-16 | 宁波深擎信息科技有限公司 | 一种基于知识图谱的多意图识别系统、方法、设备及介质 |
WO2020221142A1 (zh) * | 2019-04-28 | 2020-11-05 | 华为技术有限公司 | 一种基于绘本的问答交互方法及电子设备 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN110443382A (zh) * | 2019-07-09 | 2019-11-12 | 青岛聚好联科技有限公司 | 一种基于智能客服平台的用户交互方法 |
CN110543546A (zh) * | 2019-07-18 | 2019-12-06 | 华瑞新智科技(北京)有限公司 | 一种工业设备中的隐患问题查询方法和装置 |
CN110543546B (zh) * | 2019-07-18 | 2022-03-22 | 华瑞新智科技(北京)有限公司 | 一种工业设备中的隐患问题查询方法和装置 |
CN110597952A (zh) * | 2019-08-20 | 2019-12-20 | 深圳壹账通智能科技有限公司 | 信息处理方法、服务器及计算机存储介质 |
CN110727773B (zh) * | 2019-10-11 | 2022-02-01 | 沈阳民航东北凯亚有限公司 | 信息提供方法及装置 |
CN110727773A (zh) * | 2019-10-11 | 2020-01-24 | 沈阳民航东北凯亚有限公司 | 信息提供方法及装置 |
CN111091454A (zh) * | 2019-11-05 | 2020-05-01 | 新华智云科技有限公司 | 一种基于知识图谱的金融舆情推荐方法 |
CN110990526A (zh) * | 2019-11-21 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 一种查询语句展示方法及相关设备 |
CN110990526B (zh) * | 2019-11-21 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 一种查询语句展示方法及相关设备 |
CN111309888B (zh) * | 2020-02-25 | 2023-10-24 | 百度在线网络技术(北京)有限公司 | 人机对话方法、装置、电子设备及存储介质 |
CN111309888A (zh) * | 2020-02-25 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 人机对话方法、装置、电子设备及存储介质 |
CN111753021A (zh) * | 2020-06-17 | 2020-10-09 | 第四范式(北京)技术有限公司 | 构建知识图谱的方法、装置、设备和可读存储介质 |
CN112015919A (zh) * | 2020-09-15 | 2020-12-01 | 重庆广播电视大学重庆工商职业学院 | 一种基于学习辅助知识图谱的对话管理方法 |
CN112328808A (zh) * | 2020-11-03 | 2021-02-05 | 四川长虹电器股份有限公司 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN113312489A (zh) * | 2021-04-13 | 2021-08-27 | 武汉烽火众智数字技术有限责任公司 | 一种基于nlp和图数据库的全景检索系统及方法 |
CN113434645A (zh) * | 2021-05-26 | 2021-09-24 | 上海声通信息科技股份有限公司 | 一种金融产品智能客服系统 |
CN113326367B (zh) * | 2021-06-30 | 2023-06-16 | 四川启睿克科技有限公司 | 基于端到端文本生成的任务型对话方法和系统 |
CN113326367A (zh) * | 2021-06-30 | 2021-08-31 | 四川启睿克科技有限公司 | 基于端到端文本生成的任务型对话方法和系统 |
CN117151122A (zh) * | 2023-10-30 | 2023-12-01 | 湖南三湘银行股份有限公司 | 一种基于自然语言处理的银行客服会话问答处理方法及系统 |
CN117151122B (zh) * | 2023-10-30 | 2024-03-22 | 湖南三湘银行股份有限公司 | 基于自然语言处理的银行客服会话问答处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107958091A (zh) | 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统 | |
CN104111933B (zh) | 获取业务对象标签、建立训练模型的方法及装置 | |
CN106570708B (zh) | 一种智能客服知识库的管理方法及系统 | |
CN109271537B (zh) | 一种基于蒸馏学习的文本到图像生成方法和系统 | |
Ye et al. | Advise: Symbolism and external knowledge for decoding advertisements | |
CN103049433B (zh) | 自动问答方法、自动问答系统及构建问答实例库的方法 | |
CN108595696A (zh) | 一种基于云平台的人机交互智能问答方法和系统 | |
CN113505586A (zh) | 一种融合语义分类与知识图谱的坐席辅助问答方法与系统 | |
CN116881426B (zh) | 一种基于aigc的自解释问答系统 | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
CN109460462B (zh) | 一种中文相似问题生成系统与方法 | |
Nanda et al. | A hindi question answering system using machine learning approach | |
CN110909116B (zh) | 一种面向社交媒体的实体集合扩展方法及系统 | |
CN111737558A (zh) | 一种资讯推荐方法、装置及计算机可读存储介质 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN110347833B (zh) | 一种多轮对话的分类方法 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
CN113761114A (zh) | 短语生成方法、装置和计算机可读存储介质 | |
CN115168615A (zh) | 结合数据可视化的知识图谱大数据处理方法及系统 | |
Alqaraleh | Turkish Sentiment Analysis System via Ensemble Learning | |
Breuing et al. | LET’S TALK TOPICALLY WITH ARTIFICIAL AGENTS!-Providing Agents with Humanlike Topic Awareness in Everyday Dialog Situations | |
CN114722830A (zh) | 智能客服语义识别通用模型的构建方法及问答机器人 | |
Dubey et al. | Sentiment analysis using SVM and deep neural network | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
CN112905752A (zh) | 一种智能交互方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180424 |