CN116795973B - 基于人工智能的文本处理方法及装置、电子设备、介质 - Google Patents
基于人工智能的文本处理方法及装置、电子设备、介质 Download PDFInfo
- Publication number
- CN116795973B CN116795973B CN202311031816.6A CN202311031816A CN116795973B CN 116795973 B CN116795973 B CN 116795973B CN 202311031816 A CN202311031816 A CN 202311031816A CN 116795973 B CN116795973 B CN 116795973B
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- instruction text
- model
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 42
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims description 38
- 238000013145 classification model Methods 0.000 claims description 26
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000000153 supplemental effect Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 15
- 239000010410 layer Substances 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 235000017048 Garcinia mangostana Nutrition 0.000 description 5
- 240000006053 Garcinia mangostana Species 0.000 description 5
- 239000013589 supplement Substances 0.000 description 5
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 244000303258 Annona diversifolia Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例揭示了基于人工智能的文本处理方法及装置、电子设备、介质。该方法包括:对待处理的指令文本进行问题类型的识别处理;若识别到所述指令文本包含事实类型的问题,则对所述指令文本进行实体识别,得到所述指令文本包含的实体对象;其中,所述事实类型问题表征具有客观答案的问题;对所述指令文本包含的实体对象进行实体链接处理,得到所述实体对象对应的准确实体信息,并由所述实体对象对应的准确实体信息形成所述指令文本的图谱知识;将所述指令文本和所述图谱知识共同输入至大语言模型中进行文本处理,获得所述大语言模型输出的答案文本。本申请能够提升大语言模型回答问题的质量。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于人工智能的文本处理方法、装置、电子设备以及计算机可读存储介质。
背景技术
在人工智能领域,大语言模型是大型语言模型(Large Language Modeling,LLM)的简称,是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,例如文本分类、问答、对话等。
目前,在智能问答场景下,针对部分事实类问题,还存在由于大语言模型缺乏相关的先验知识导致回答质量较差的问题。因此,如何提升大语言模型的回答质量,是本领域的技术人员亟待解决的技术问题。
发明内容
为解决如上技术问题,本申请的实施例分别提供了一种基于人工智能的文本处理方法、基于人工智能的文本处理装置、电子设备、计算机可读存储介质以及计算机程序产品。
根据本申请实施例的一个方面,提供了一种基于人工智能的文本处理方法,包括:对待处理的指令文本进行问题类型的识别处理;若识别到所述指令文本包含事实类型的问题,则对所述指令文本进行实体识别,得到所述指令文本包含的实体对象;其中,所述事实类型问题表征具有客观答案的问题;对所述指令文本包含的实体对象进行实体链接处理,得到所述实体对象对应的准确实体信息,并由所述实体对象对应的准确实体信息形成所述指令文本的图谱知识;将所述指令文本和所述图谱知识共同输入至大语言模型中进行文本处理,获得所述大语言模型输出的答案文本。
根据本申请实施例的一个方面,提供了一种基于人工智能的文本处理装置,包括:问题类型识别模块,配置为对待处理的指令文本进行问题类型的识别处理;实体识别模块,配置为若识别到所述指令文本包含事实类型的问题,则对所述指令文本进行实体识别,得到所述指令文本包含的实体对象;其中,所述事实类型问题表征具有客观答案的问题;图谱知识获取模块,配置为对所述指令文本包含的实体对象进行实体链接处理,得到所述实体对象对应的准确实体信息,并由所述实体对象对应的准确实体信息形成所述指令文本的图谱知识;答案获取模块,配置为将所述指令文本和所述图谱知识共同输入至大语言模型中进行文本处理,获得所述大语言模型输出的答案文本。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如前所述的基于人工智能的文本处理方法中的步骤。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的基于人工智能的文本处理方法中的步骤。
根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的文本处理方法中的步骤。
在本申请的实施例提供的技术方案中,通过对文本预先进行事实类问题的识别,在识别到指令文本中包含事实类型的问题的情况下,通过对指令文本进行实体识别,并基于识别得到的实体引入图谱知识,将指令文本和图谱知识共同输入至大语言模型中进行文本处理,如此,相当于是通过引入图谱知识来增强大语言模型的知识能力,丰富了大语言模型的信息量,从而能够提高大语言模型回答的准确性和可靠性,最终提高大语言模型的回答质量。
应理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1是本申请提出的一种文本处理架构的示意图。
图2是本申请的一示例性实施例示出的一种基于人工智能的文本处理方法的流程图。
图3是在图2所示实施例的基础上进一步提出的基于人工智能的文本处理方法的流程图。
图4是一示例性的问题需求分类模型的模型架构示意图。
图5是一示例性的GPT模型的架构示意图。
图6是在图2所示实施例的基础上进一步提出的基于人工智能的文本处理方法的流程图。
图7是在图2所示实施例的基础上进一步提出的基于人工智能的文本处理方法的流程图。
图8是本申请的一示例性实施例示出的基于人工智能的文本处理装置的框图。
图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先说明的是,本申请的实施例涉及人工智能(Artificial Intelligence, AI)技术领域。可以理解,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
大语言模型(LLM)是自然语言处理领域常用的模型,用于处理多种自然语言任务,例如文本分类、问答、对话等,用以生成自然语言文本或理解语言文本的含义。大语言模型也是对使用大量文本数据训练的深度学习模型的统称,例如GPT-3、PaLM、Galactica、LLaMA等模型都是本领域的技术人员常用到的大语言模型。
本申请的发明人在大语言模型的实际智能问答场景应用中发现,针对部分事实类问题,由于大语言模型缺乏相关的先验知识,导致大语言模型会虚构答案,导致输出的回答质量较差。
举例来说,若将下表1中示例的问题输入到大语言模型中,大语言模型输出的回答可能出现事实性错误,请参见下表1中示例的回答,诗句“举头望明月,低头思故乡”是出自诗人李白所作的《静夜思》,而非出自诗人杜甫所作的《月夜忆舍弟戍边秋口夜送烽火》。
需要理解的是,本申请提及的事实类型的问题是指存在客观答案的问题,也可以理解为是存在明确答案的问题,例如诗句“举头望明月,低头思故乡”是明确出自诗人李白所作的《静夜思》,诗人所表达出的思乡之情也是能够明确得到的。
又例如,若将下表2示出的问题“山竹带来的危害”输入大语言模型中,大语言模型输出的回答是有关山竹水果的介绍和种植中可能出现的危害,而并非是2018年在被中央气象台认定在西北太平洋洋面上生成的台风山竹所带来的危害。由于台风山竹登录我国带来的危害可以通过公开数据来衡量,因此下表2中示例的问题“山竹带来的危害”应存在客观答案,但是由于大语言模型缺乏相关的先验知识,导致大语言模型无法输出准确的回答。
需要说明的是,如上表1和表2仅是针对大语言模型因缺乏先验知识,导致无法针对事实类型的问题输出高质量回答的现象的示例性描述,并不表示在实际应用场景中,将表1和表2中示例的问题输入至大语言模型中定会输出如表1和表2中分别示出的答案内容。
并且可以看出,上表1和表2所示的问题均为存在客观答案的问题,因此将这些问题称为事实类型的问题。同理,非事实类型的问题通常不存在客观答案,也即,非事实类型的问题的答案通常是主观性的,从不同的思考角度触发会得到不同的回答内容,比如对于“不是门当户对的爱情是否应该结婚”的问题,可能考虑的侧重点不同会得到不同的回答,这类问题则相应称为是非事实类的问题。非事实类问题类型也可理解为是因问题具有主观性而导致不存在明确答案的问题,例如,预设类别列表中的非事实类问题类型包括情感类型、模糊问题类型、个人主观类型、代码类型等,在此不对非事实类问题类型进行一一列举。需要说明的是,本实施例不涉及非事实类问题的处理方式,因此不再对非事实类型的问题作过多介绍。
为提升大语言模型对于事实类型问题的回答质量,本申请的发明人想到,针对事实类问题,可以通过引入图谱知识来增强大语言模型的知识能力,也即丰富大语言模型的信息量,从而提高大语言模型回答的准确性和可靠性,最终提高大语言模型的回答质量。
下面将对本申请提出的技术方案进行详细介绍:
首先请参见图1,图1是本申请提出的一种文本处理架构的示意图。可以看出,首先由用户向总控模块110输入指示大语言模型需要执行动作或者生成输出的文本,也即包含问题的文本,由总控模块110将文本输出至事实类别模块120中判断文本中包含的问题是否属于事实类问题,如果判定为是,则继续通过事实注入模块130引入图谱知识,将文本和图谱知识共同输入到大语言模型140中进行文本处理,得到大语言模型140输出的回答;如果判定为否,则直接将文本输入到大语言模型140中获取回答。大语言模型140将输出的回答内容返回给总控模块110,由总控模块110将回答内容返回用户,由此实现从问题输入到答案获取的整体过程。
可以理解,图1所示的总控模块110、事实类别模块120、事实注入模块130和大语言模型140在实质上均为实现各自功能的软件程序模块。这些软件程序可以部署在同一设备上,以在此设备中执行如上所示的从问题输入到答案获取的过程,也可以部署在不同的设备上,通过不同设备之间的相互配置,来执行实现上述过程,本处并不对此进行限制。
请继续参阅图2,图2是本申请的一示例性实施例示出的一种基于人工智能的文本处理方法的流程图。
该文本处理方法可以由终端或者服务器执行,示例性的,终端例如可以是台式计算机、笔记本电脑、平板电脑等设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、以及大数据和人工智能平台等基础云计算服务的云服务器,在此也不进行限制。
例如,该文本处理方法可以由服务器具体执行,该服务器则具体实现为智能问答服务器,其中部署有大语言模型。该服务器用于接收用户在客户端软件中输入的指令文本,并针对接收到的指令文本进行具体处理,如事实类型问题的识别、图谱知识的引入等,最终获得由大语言模型输出的回答内容,即答案文本。
如图2所示,该文本处理方法包括S210-S240,详细介绍如下:
S210,对待处理的指令文本进行问题类型的识别处理。
在本实施例涉及的智能问答场景下,待处理的指令文本是指用户输入的指令文本,也是包含问题的文本内容。例如,待处理的指令文本可以是由用户直接输入的文本内容,也可以是对用户输入的语音进行识别得到的文本内容,本实施例不对此进行限制。
本实施例对待处理的指令文本进行问题类型的识别处理,其目的是识别指令文本的文本内容中是否包含事实类型的问题。如前所述的,事实类型的问题是指具有客观答案的问题,可以使用训练好的人工智能模型对指令文本进行识别,以得到该指令文本是否含有事实类型的问题的结果。例如,可以使用大量的样本数据对人工智能模型进行训练,样本数据是标记了是否包含事实类问题的数据,对人工智能模型进行训练的目的为,使人工智能模型可以从包含事实类问题的样本数据中准确地识别出该事实类的问题,或者准确地识别出不包含事实类问题的样本数据。
S220,若识别到指令文本包含事实类型的问题,对指令文本进行实体识别,得到指令文本包含的实体对象。
若识别到指令文本中包含事实类型的问题,则表示,若直接将该指令文本输入至大语言模型中,容易出现由于大语言模型缺乏相应的先验知识而无法输出准确的答案文本的问题,因此需要针对指令文本进一步处理,而并非直接将指令文本输入大语言模型中。若识别到指令文本中不含有事实类型的问题,作为一种示例性的实施方式,通过直接将指令文本输入大语言模型,以得到相应的答案文本。
本实施例在指令文本包含事实类型的问题的情况下,需要引入图谱知识来与指令文本共同输入大语言模型,以增强大语言模型的知识能力,丰富大语言模型的信息量,提高大语言模型回答问题的准确性和可靠性。图谱知识可以理解为是基于知识图谱获得的知识,知识图谱将复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,因此,知识图谱映射了十分丰富的自然语言资源,并且知识图谱对应的知识库通常是动态维护和更新的,这使得本实施例中引入的图谱知识能够准确且全面地对大语言模型缺乏先验知识的问题进行相关知识补充。
知识图谱的实质是由实体及实体间关系构成的知识网络,因此本实施例需要对指令文本进行实体识别,以识别出指令文本中包含的实体对象,从而便于后续根据识别出的实体对象从知识图谱中匹配得到相关信息,并作为图谱知识对大语言模型进行知识补充。
S230,对指令文本包含的实体对象进行实体链接处理,得到实体对象对应的准确实体信息,并由实体对象对应的准确实体信息形成指令文本的图谱知识。
本实施例对指令文本包含的实体对象进行实体链接处理,其目的是,将指令文本包含的实体对象无歧义地指向预设知识图谱中的目标实体,可通俗理解为是将指令文本包含的实体对象关联到预设的知识图谱中。基于这种关联可以消除实体对象的歧义,造成实体对象存在歧义的原因通常包括两个方面,分别为一个实体对象对应有多个名称,以及一个名称表示多个不同的实体对象,因此,本实施例通过对指令文本包含的实体对象进行实体链接处理后能够得到实体对象对应的准确实体信息,进而可以根据此准确实体信息来得到指令文本的图谱知识。
S240,将指令文本和图谱知识共同输入至大语言模型中进行文本处理,获得大语言模型输出的答案文本。
由于指令文本的图谱知识是在得到实体对象对应的准确实体信息后,基于此准确实体信息形成的,能够保证图谱知识的准确性,并且由于预设知识图谱中的知识本身是可靠的,可理解为预设知识图谱是基于可靠知识构建得到的,能够保证图谱知识的可靠性。因此,本实施例将指令文本和图谱知识共同输入至大语言模型中进行文本处理,可以基于此图谱知识对大语言模型进行精确且可靠的知识补充,从而作用于大语言模型输出更加精确的答案文本。
由上可以看出,本实施例提供的技术方案通过对文本预先进行事实类问题的识别,在识别到指令文本中包含事实类型的问题的情况下,进一步对指令文本进行实体识别,并基于识别得到的实体对象引入图谱知识,将指令文本和图谱知识共同输入至大语言模型中进行文本处理,相当于是通过引入图谱知识来增强大语言模型的知识能力,以丰富大语言模型的信息量,从而能够提高大语言模型回答的准确性和可靠性,最终提高大语言模型的回答质量。
图3是在图2所示实施例的基础上进一步提出的基于人工智能的文本处理方法的流程图。如图3所示,S210对待处理的指令文本进行问题类别的识别处理的过程进一步包括S211-S212,详细介绍如下:
S211,对指令文本对应的问题需求类型进行识别,以及对指令文本进行事实类问题短文本的识别;
S212,若识别到指令文本对应的问题需求类型为事实问题类别,并且识别到指令文本包含的事实类问题短文本,则确定识别到指令文本包含事实类型的问题。
本实施例通过对指令文本进行问题需求类型的识别和事实类问题短文本的识别,当二者识别所得结果共同指向指令文本中含有的事实类型的问题时,则确定识别到了指令文本中含有的事实类型的问题。
示例性的,可以通过问题需求分类模型对指令文本对应的问题需求类型进行识别,以得到问题需求分类模型输出的问题需求分类结果,以及,通过事实类问题识别模型对指令文本进行事实类问题短文本的识别,以得到事实类问题识别模型输出的事实类问题短文本。
问题需求分类模型由双向编码网络层、全连接网络层和分类网络层依次连接形成,例如参阅图4,图4是一示例性的问题需求分类模型的模型架构示意图,可以看出在图4所示模型架构中,双向编码网络层采用BERT网络,BERT网络是一种语言表征模型,其采用了MLM(masked language model,掩码语言模型)进行预训练,能够生成深度的双向语言表征,因此本实施例在事实类问题识别模型中引入BERT网络,能够提取指令文本的深度表征,有利于后续通过对此深度表征进行全连接和分类的处理后,得到更加准确的问题需求分类结果。由图4所示的模型架构也可以看出,BERT网络的输入包含指令文本中每个token(是文本中的最小单位,可理解为是单词、字或词、或者标点符号)对应的表征,还包含用于标识序列的起始位置的分类词CLS、用于标识序列中的分割位置的分割词SEP、以及用于标识序列的结束位置的结束词PAD。另外由图4所示的模型架构还可以看出,问题需求分类模型具体使用了两层全连接网络来形成全连接层,以逐步将特征的维度转换至分类网络层所适合的特征维度。还需要说明的是,图4中示出的问题需求分类模型可采用交叉熵损失函数进行训练。
问题需求分类模型具体用于预测输入的指令文本是否属于事实问题类别,例如,问题需求分类模型用于输出指令文本属于事实问题类别的概率,当此概率大于预设概率值时,可确定指令文本属于事实问题类别。
事实类问题识别模型具体可采用GPT模型,GPT模型是指生成式预训练Transformer模型,是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,其特点是可以根据输入的上下文来生成下一次词,因此常被用于文本生成等自然语言处理任务中。因此,本实施例将事实类问题识别模型实现为GPT模型,其目的是通过GPT模型预测出指令文本中包含的事实类问题短文本,也即,GPT模型可将事实类问题短文本直接输出。
图5是一示例性的GPT模型的架构示意图,由图5可以看出,GPT模型由内容及位置映射网络、Transformer解码器网络和文本预测网络构成,其中,内容及位置映射网络用来提取指令文本中每个token的特征向量和位置向量,Transformer解码器由自注意力层和位置前馈神经网络层组成,并通过残差连接操作和归一化操作堆叠在一起。自注意力层通过自注意力机制来捕捉输入序列中的上下文相关信息,并且在自注意力层还使用掩码机制来遮蔽当前token之后的信息,保证预测仅基于之前的token信息,以提升预测的准确度。为了加速模型收敛,在Transformer解码器中,每一层输出之后采用归一化操作对其进行规范化,以减轻网络中的梯度消失或者梯度爆炸问题。
GPT模型的训练可分为三个阶段,分别为SFT(表征生成模型GPT的有监督精调)、RM(表征奖励模型的训练)和PPO(表征近端策略优化),其中,SFT阶段是通过大量的训练数据对GPT模型进行有监督训练,在训练时,可使用最小化极大似然函数作为训练损失函数。示例性的,可按照下表3所示的模板构造训练数据,也即,需要针对训练数据添加提示内容“提取下面指令文本中的具有客观答案的事实性原子问题,包含实体含义查询、实体属性查询等”,并且还在问题对应的答案中添加关于指令文本中存在事实类型的问题数量的内容。
基于此,在针对事实类问题识别模型的实际应用时,也即在将指令文本输入至事实类型问题识别模型时,需要根据预设的输入文本模板中定义的文本格式以及指令文本生成格式文本,再将该格式文本输入至事实类问题识别模型中。输入文本模板中定义的文本格式包含提示对指令文本中具有客观答案的事实性问题进行实体查询的提示内容,例如上表3示出的提示内容“提取下面指令文本中的具有客观答案的事实性原子问题,包含实体含义查询、实体属性查询等”,即用于提示对指令文本中具有客观答案的事实性问题进行实体查询,以通过提示内容加强GPT模型对于操作任务的理解,从而有助于GPT模型输出更加准确的预测结果,也即得到更加准确的事实类短文本。
需要说明的是,上表3中示出的提示内容仅是作为示例来对输入文本模板中定义的文本格式进行解释,在实际的应用场景中,在输入文本模板中定义的文本格式所包含的提示内容可以做出适应性调整,本实施例并不对具体的提示内容进行限制。
图6是在图2所示实施例的基础上进一步提出的基于人工智能的文本处理方法的流程图。如图6所示,S230对指令文本包含的实体对象进行实体链接处理,得到实体对象对应的准确实体信息的过程包括S231-S233,详细介绍如下:
S231,通过对指令文本包含的实体对象进行实体链接处理,以将实体对象无歧义地指向预设知识图谱中的目标实体。
本实施例通过对指令文本包含的实体对象进行实体链接处理,旨在将实体对象无歧义地指向预设指示图谱中的目标实体,此处的无歧义即理解为是针对实体对象进行实体消歧,从而能够将指令文本中的实体对象准确指向预设知识图谱中的目标实体。
示例性的,作为一种示例性的实施方式,对指令文本中的实体对象进行实体链接处理的过程可以包括如下所示的内容:
从预设知识图谱中检测出每个实体对象对应的候选实体集合;
针对每个实体对象对应的候选实体集合中的每个候选实体进行打分,并基于每个候选实体的分数进行排序,将分数最高的候选实体作为实体对象在预设知识图谱中对应的目标实体,得到各个实体对象对应的实体链接结果;
验证每个实体对象在预设知识图谱中对应的目标实体是否能够被链接至预设知识图谱,如果为否,则将相应的实体链接结果滤除,以最终得到指令文本对应的实体链接汇总结果。
具体来说,可通过命名词典匹配、基于表层形式的扩展、基于搜索引擎等方式从预设知识图谱中检测得到每个实体对象对应的候选实体集合。每个实体对象对应的候选实体是通过过滤掉预设知识图谱中不相关的实体后所得到的,而实体对象与候选实体之间的关联性可以理解为是引用实体对象时可能提及的候选实体。
命名词典是指包含了多种命名实体的名称表达方式的集合,如变体、缩写、混淆名称、拼音变体等,因此,可根据命名词典中含有的命名实体的名称表示方式从预设知识图谱中检测出对应的候选实体,检测方式可以包括精确检测、模糊检测等,例如,模糊检测包括实体对象的名称项被候选实体完全覆盖、实体对象的名称项与候选实体的首字母完全匹配、实体对象的名称项与候选实体之间存在共同的词汇、实体对象与候选实体之间具有较强的字符串相似度,本实施例在此不进行限制。
基于表层形式的扩展方式也可以理解为是模板匹配的方式,例如可以利用N-gram方式在预设知识图谱中匹配实体对象的名称项的首字母,或者在预设知识图谱中查找与实体对象存在包含与被包含的关系的实体,从而得到相应候选实体。
在候选实体排名过程中,具体可以使用预先训练好的监督学习模型来针对每个实体对象从候选实体集合中输出目标实体,也可以基于向量空间相似度计算的方式来对每个实体对象对应的候选实体集合中的每个候选实体进行打分,所得分数也即是实体对象与候选实体之间的相似度,将相似度与实体对象最高的候选实体确定为是实体对象对应的目标实体。
监督学习模型使用到的特征包括上下文无关特征和上下文相关特征。其中,上下文无关特征是指仅基于实体对象和候选实体本身的特征,例如可以包括实体对象和候选实体的名称是否完全匹配、实体对象(或候选实体)是否以候选实体(或实体对象)作为前缀或后缀、实体对象(或候选实体)是否完全包含候选实体(或实体对象)、实体对象所包含单词的首字母序列是否与候选实体所包含单词的首字母序列相同、实体对象和候选实体共同包含的单词数目、候选实体的流行度特征,该流行度特征表征实体对象链接到候选实体的先验概率、实体对象和候选实体之间的类型匹配特征等等,在此并不进行限制。
上下文相关特征是指实体对象和候选实体所在上下文之间的相关性特征,例如可以包括词袋特征。词袋特征是指实体对象和候选实体各自所在上下文对应的词袋向量表示,结合上下文信息分别将实体对象和候选实体表示为向量形式,即可得到实体对象和候选实体各自对应的词袋向量。
基于上述的上下文无关特征和上下文相关特征,则可利用机器学习模型训练得到候选实体排序模型,也即得到训练好的监督学习模型。机器学习模型例如可以是朴素贝叶斯模型、最大熵模型或支持向量机模型,本实施例对此并不进行限制。
由于知识图谱的不完备性,并不是每个实体对象在预设知识图谱中都能够连接到对应的目标实体,因此,在验证实体对象在预设知识图谱中对应的目标实体不能被链接至预设知识图谱时,将相应的实体链接结果滤除,可见,在最终得到指令文本对应的实体链接汇总结果中,可能并不含有部分实体对象的目标实体,对于此种情况,则表示预设知识图谱中不存在针对此实体对象进行补充的知识,因此并不需要引入相应的图谱知识。或者,在验证实体对象在预设知识图谱中对应的目标实体不能被链接至预设知识图谱时,通过将该实体对象链接至表征空实体的指定字符,如NULL,则可使得最终得到的指令文本对应的实体链接汇总结果包含所有实体对象对应的链接信息,对于文本处理的整体性流程上,能够保持信息的一致性,在一定程度上有利于后续大语言模型准确地理解输入其中的指令文本和相关的图谱知识。
作为另一示例性的实施方式,对指令文本包含的实体对象进行实体链接处理是基于实体对象的实体名称和实体类别执行实现的,以基于实体名称和实体类别从预设知识图谱中更加准确地查找相应的目标实体。
需要说明的是,实体对象的实体名称和实体类别是在S220对指令文本进行实体识别过程中所得到的,例如,可将指令文本输入至实体识别模型中,得到该实体识别模型输出的实体名称和实体类别,从而基于此实体名称和实体类别确定得到指令文本中包含的实体对象。
下表4示出了将指令文本输入至实体识别模型时所需要参考的文本模板。该文本模板包含提示对指令文本进行实体识别的提示内容,通过在将指令文本输入至实体识别模型时,增加提示内容“对下面指令文本进行实体识别”,使得实体识别模型能够基于此提示内容增强自身对于操作任务的理解,从而输出更加准确的实体识别结果。另外需要说明的是,在下表4所示的实体结果中,“手机”和“充电器”即实体名称,“产品”即实体类型。
S232,在预设知识图谱中查询目标实体的实体简介和实体热度,将目标实体的实体简介作为相应实体对象的实体简介,以及将目标实体的实体热度作为相应实体对象的实体简介。
对于链接到目标对象的实体对象,进一步在预设知识图谱中查询目标实体的实体简介和实体热度,实体简介也即是对目标实体的介绍内容,实体热度理解为是预设知识图谱对于目标实体的查询频次的统计信息,若目标实体被查询的次数越多,目标实体的实体热度则越高。
本实施例将目标实体的实体简介作为相应实体对象的实体简介,将目标实体的实体热度作为相应实体对象的实体热度,其目的是通过实体简介和实体热度作为针对实体对象的知识补充。
S233,由实体对象的实体名称、实体热度和实体简介形成实体信息三元组,将实体信息三元组作为实体对象的准确实体信息。
由于实体对象的实体简介和实体热度是基于预设知识图谱中所链接到的目标实体进行确定的,实体简介和实体热度可以对实体对象进行更加准确的知识补充,基于此,本实施例将由实体对象的实体名称、实体热度和实体简介形成实体信息三元组,并将实体信息三元组作为实体对象的准确实体信息,后续由指令文本包含的全部实体对象的准确实体信息形成指令文本的图谱知识,能够对指令文本进行准确的知识补充,从而能够保证后续将指令文本和图谱知识共同输入至大语言模型中进行文本处理,获得大语言模型输出的更加精确的答案文本,由此提升大语言模型输出的答案质量。
还需要说明的是,在通过问题需求分类模型和事实类问题识别模型对指令文本进行问题类型的识别处理,以及通过实体识别模型对指令文本进行实体识别的应用场景下,问题需求分类模型、事实类问题识别模型和实体识别模型可以是分别训练得到,也可以是联合训练得到的,但是需要理解的是,联合训练是指将三者模型集成为一个综合模型,通过对该综合模型进行训练,来同时实现对于三者模型的共同训练。
示例性的,如上提及的模型训练过程如下:
将分别针对问题需求分类模型、事实类问题识别模型和实体识别模型对应的训练数据集逐条进行拼接,得到包含多组拼接数据的训练数据总集;
获取对问题需求分类模型、事实类问题识别模型和实体识别模型集成得到的综合模型;
通过训练数据总集包含的多组拼接数据对综合模型进行训练。
可以理解,若将训练数据总集中的任一条训练数据表示为“ABC”,其中,“A”部分即为针对问题需求分类模型的一条训练数据,“B”部分即为针对事实类问题识别模型的一条训练数据,“C”部分即为针对实体识别模型的一条训练数据。基于如上示例的对于综合模型的训练过程,可使得模型训练的过程得到一定程度的简化。
图7是在图2所示实施例的基础上进一步提出的基于人工智能的文本处理方法的流程图。如图7所示,S240将指令文本和图谱知识共同输入至大语言模型中进行文本处理,获得大语言模块输出的答案文本的过程进一步包括S241-S242,详细介绍如下:
S241,根据预设的提示文本模板中定义的文本格式、以及指令文本和图谱知识生成提示文本。
可以理解,提示文本模板中定义的文本格式包括提示参考指令文本和图谱知识进行回答的参考内容。例如,该参考内容可以包括提示增强回答逻辑的内容、提示增强信息整合能力的内容、提示根据已有知识补充信息的内容、提示不重复表达相同知识的内容中的至少一种,可以看出,任一种参考内容都能够提示大语言模型在针对指令文本输出答案文本时多参考或关注其中一个方面的内容。
例如,举例来说,在下表5所示例的提示文本模板的文本格式中,“请参考以上知识进行回答,要求:(1)回答尽量详细、通顺、完整且逻辑性强;(2)整合知识涉及到的所有信息;(3)你可以根据知识补充目前你知识储备缺失的背景介绍、时间、重要事件、相关人物等关键信息;(4)当存在多个知识描述时注意不要重复表达”的内容即为提示文本模板中定义的文本格式中包含的参考内容,可以理解的,该第(1)点即为提示增强回答逻辑的内容,该第(2)点即为提示增强信息整合能力的内容,该第(3)点即为提示根据已有知识补充信息的内容,该第(4)点即为提示不重复表达相同知识的内容。
仍需要说明的是,上表5示出的参考内容仅为针对提示文本模板中定义的文本格式所包括的参考内容进行的示例,在实际应用场景中可以根据实际应用需求来设置该参考内容,本实施例并不进行限制。
S242,将提示文本输入大语言模型中,得到大语言模型输出的答案文本。
由于提示文本中融合有指令文本的文本内容以及提示文本模板所定义的参考内容,这使得大语言模型在接收到提示文本后,通过参考提示文本中包含的参考内容,在针对指令文本生成相应的答案文本的过程中,更加关注于参考内容所表征的内容信息,例如以上表5所示的参考信息作为示例,大语言模型会更加关注于输出的答案文本的逻辑性,在输出答案文本时会整合图谱知识中的所有信息,也会注意不会重复表达,还会根据图谱知识对自身知识储备进行补充,基于如此操作,能够在较大程度上提升大语言模型输出的答案文本的准确性和可靠性,进而使得大语言模型针对指令文本输出的答案文本具有更高的质量。
还需要提及的是,为了验证本申请提出的文本处理方案的技术效果,本申请的发明人还针对该文本处理方案进行了GSB评测。
可以理解,GSB评测也称为GSB评估,通常应用于两个模型之间的对比,其中,“G”代表Good,可理解为是后者模型胜出,表征后者模型相比前者模型更优,“S”代表Same,表征两者模型打平,“B”代表Bad,可理解为是后者模型落败,表征前者模型相比后者模型更差。
一般而言,后者模型是指迭代后的模型,前者模型是指迭代前的模型,因此,当GSB评测的结果表征多数情况下后者模型相比前者模型更优时,后者模型才能达到预期的模型效果。
本申请将由用户输入的指令文本直接输入至大语言模型中,使大语言模型输出相应的答案文本的过程看作是前者模型的处理过程,将由用户输入的包含事实类型的问题的指令文本引入图谱知识后,将指令文本和图谱知识共同输入至大语言模型中进行文本处理,以使大语言模型输出相应的答案文本的过程看作为后者模型的处理过程。
通过100组评测数据对二者模型进行GSB评测,得到如下表6所示的评测结果。
由上表6所示GSB评测结果可以看出,绝大多数的评测案例都显示出后者模型胜出或与前者模型打平,并且后者模型胜出的案例数量多于打平的案例数量,因此可以证明,本申请提出的文本处理方案能够提升大语言模型针对指令文本输出的答案文本的质量。
为了进一步验证本申请提出的文本处理方案的技术效果,本申请的发明人还针对表1中的示例的二者模型针对同一指令文本输出的回答进行了对比,得到的对比结果如下表7所示。由表7所示的内容可以看出,由于大语言模型缺乏先验知识,在回答指令文本中包含的问题时会虚构诗句“举头望明月,低头思故乡”的出处,进而会输出不准确的答案文本,而本申请的技术方案通过引入指令文本对应的图谱知识并输出至大语言模型中,能够基于图谱知识对大语言模型进行知识补充,使得大语言模型能够将诗句“举头望明月,低头思故乡”准确识别为是出自诗人李白所作的《静夜诗》,进行输入准确的答案文本。
图8是本申请的一示例性实施例示出的基于人工智能的文本处理装置的框图。如图8所示,示例性的基于人工智能的文本处理装置800包括问题类型识别模块810、实体识别模块820、图谱知识获取模块830和答案获取模块840。
其中,问题类型识别模块810配置为对待处理的指令文本进行问题类型的识别处理。实体识别模块820配置为若识别到指令文本包含事实类型的问题,则对指令文本进行实体识别,得到指令文本包含的实体对象;其中,事实类型问题表征具有客观答案的问题。图谱知识获取模块830配置为对指令文本包含的实体对象进行实体链接处理,得到实体对象对应的准确实体信息,并由实体对象对应的准确实体信息形成指令文本的图谱知识。答案获取模块840配置为将指令文本和图谱知识共同输入至大语言模型中进行文本处理,获得大语言模型输出的答案文本。
在另一示例性实施例中,问题类型识别模块810包括识别单元和确定单元。识别单元配置为对指令文本进行问题需求类型的识别,以及对指令文本进行事实类问题短文本的识别。确定单元配置为在识别到指令文本对应的问题需求类型为事实问题类别,并且识别到指令文本包含的事实类问题短文本的情况下,确定识别到指令文本包含事实类型的问题。
在另一示例性实施例中,识别单元包括第一识别子单元和第二识别子单元。第一识别子单元配置为将指令文本输入问题需求分类模型中,得到问题需求分类模型输出的问题需求分类结果;其中,问题需求分类模型由双向编码网络层、全连接网络层和分类网络层依次连接形成。第二识别子单元配置为将指令文本输入事实类问题识别模型中,得到事实类问题识别模型输出的事实类问题短文本;其中,事实类问题识别模型包括GPT模型。
在另一示例性实施例中,第二识别子单元还配置为:根据预设的输入文本模板中定义的文本格式以及指令文本生成格式文本;其中,输入文本模板中定义的文本格式包含提示对指令文本中具有客观答案的事实性问题进行实体查询的提示内容,并将格式文本输入事实类问题识别模型中。
在另一示例性实施例中,图谱知识获取模块830包括实体链接单元、实体查询单元和信息组合单元。
实体链接单元配置为通过对指令文本包含的实体对象进行实体链接处理,以将实体对象无歧义地指向预设知识图谱中的目标实体。实体查询单元配置为在预设知识图谱中查询目标实体的实体简介和实体热度,将目标实体的实体简介作为相应实体对象的实体简介,以及将目标实体的实体热度作为相应实体对象的实体简介。信息组合单元配置为由实体对象的实体名称、实体热度和实体简介形成实体信息三元组,将实体信息三元组作为实体对象的准确实体信息。
在另一示例性实施例中,实体识别模块820配置为将指令文本输入至实体识别模型中,得到实体识别模型输出的实体名称和实体类别,以基于实体名称和实体类别确定指令文本包含的实体对象;实体链接单元配置为基于实体名称和实体类别,对实体对象进行实体链接处理。
在另一示例性实施例中,答案获取模块840包括提示文本生成单元和提示文本输入单元。
提示文本生成单元配置为根据预设的提示文本模板中定义的文本格式、以及指令文本和图谱知识生成提示文本;其中,提示文本模板中定义的文本格式包括提示参考指令文本和图谱知识进行回答的参考内容。提示文本输入单元配置为将提示文本输入大语言模型中,得到大语言模型输出的答案文本。
在另一示例性实施例中,参考内容包括提示增强回答逻辑的内容、提示增强信息整合能力的内容、提示根据已有知识补充信息的内容、提示不重复表达相同知识的内容中的至少一种。
在另一示例性实施例中,通过问题需求分类模型和事实类问题识别模型对指令文本进行问题类型的识别处理,以及通过实体识别模型对指令文本进行实体识别;文本处理装置800包括数据集拼接模块、综合模型获取模块和模型训练模块。
数据集拼接模块配置为将分别针对问题需求分类模型、事实类问题识别模型和实体识别模型对应的训练数据集逐条进行拼接,得到包含多组拼接数据的训练数据总集。综合模型获取模块配置为获取对问题需求分类模型、事实类问题识别模型和实体识别模型集成得到的综合模型。模型训练模块配置为通过训练数据总集包含的多组拼接数据对综合模型进行训练。
需要说明的是,上述实施例所提供的文本处理装置与上述实施例所提供的文本处理方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的文本处理装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
上述实施例所提供的文本处理装置,通过对文本预先进行事实类问题的识别,在识别到指令文本中包含事实类型的问题的情况下,通过对指令文本进行实体识别,并基于识别得到的实体引入图谱知识,将指令文本和图谱知识共同输入至大语言模型中进行文本处理,如此,相当于是通过引入图谱知识来增强大语言模型的知识能力,丰富了大语言模型的信息量,从而能够提高大语言模型回答的准确性和可靠性,最终提高大语言模型的回答质量。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的文本处理方法。
图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图9示出的电子设备的计算机系统900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(Central Processing Unit,CPU)901,其可以根据存储在只读存储器(Read-Only Memory,ROM)902中的程序或者从储存部分908加载到随机访问存储器(Random Access Memory,RAM)903中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 903中,还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output,I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分907;包括硬盘等的储存部分908;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入储存部分908。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的基于人工智能的文本处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的基于人工智能的文本处理方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
另外需要说明的是,在本申请的具体实施方式中,涉及到指令文本、知识图谱等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
Claims (12)
1.一种基于人工智能的文本处理方法,其特征在于,包括:
对待处理的指令文本进行问题类型的识别处理;
若识别到所述指令文本包含事实类型的问题,则对所述指令文本进行实体识别,得到所述指令文本包含的实体对象;其中,所述事实类型问题表征具有客观答案的问题;
对所述指令文本包含的实体对象进行实体链接处理,得到所述实体对象对应的准确实体信息,并由所述实体对象对应的准确实体信息形成所述指令文本的图谱知识;
将所述指令文本和所述图谱知识共同输入至大语言模型中进行文本处理,获得所述大语言模型输出的答案文本;
其中,所述对所述指令文本包含的实体对象进行实体链接处理,得到所述实体对象对应的准确实体信息,包括:
通过对所述指令文本包含的实体对象进行实体链接处理,以将所述实体对象无歧义地指向预设知识图谱中的目标实体;
在所述预设知识图谱中查询所述目标实体的实体简介和实体热度,将所述目标实体的实体简介作为相应实体对象的实体简介,以及将所述目标实体的实体热度作为相应实体对象的实体简介;
由所述实体对象的实体名称、实体热度和实体简介形成实体信息三元组,将所述实体信息三元组作为所述实体对象的准确实体信息。
2.根据权利要求1所述的方法,其特征在于,所述对待处理的指令文本进行问题类型的识别处理,包括:
对所述指令文本进行问题需求类型的识别,以及对所述指令文本进行事实类问题短文本的识别;
若识别到所述指令文本对应的问题需求类型为事实问题类别,并且识别到所述指令文本包含的事实类问题短文本,则确定识别到所述指令文本包含事实类型的问题。
3.根据权利要求2所述的方法,其特征在于,所述对所述指令文本对应的问题需求类型进行识别,以及对所述指令文本进行事实类问题短文本的识别,包括:
将所述指令文本输入问题需求分类模型中,得到所述问题需求分类模型输出的问题需求分类结果;其中,所述问题需求分类模型由双向编码网络层、全连接网络层和分类网络层依次连接形成;
以及,将所述指令文本输入事实类问题识别模型中,得到所述事实类问题识别模型输出的事实类问题短文本;其中,所述事实类问题识别模型包括GPT模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述指令文本输入事实类问题识别模型中,包括:
根据预设的输入文本模板中定义的文本格式以及所述指令文本生成格式文本;其中,所述输入文本模板中定义的文本格式包含提示对所述指令文本中具有客观答案的事实性问题进行实体查询的提示内容;
将所述格式文本输入所述事实类问题识别模型中。
5.根据权利要求1所述的方法,其特征在于,所述对所述指令文本进行实体识别,得到所述指令文本包含的实体对象,包括:
将所述指令文本输入至实体识别模型中,得到所述实体识别模型输出的实体名称和实体类别,以基于所述实体名称和所述实体类别确定所述指令文本包含的实体对象;
所述通过对所述指令文本包含的实体对象进行实体链接处理,包括:
基于所述实体名称和所述实体类别,对所述实体对象进行实体链接处理。
6.根据权利要求1所述的方法,其特征在于,所述将所述指令文本和所述图谱知识共同输入至大语言模型中进行文本处理,获得所述大语言模型输出的答案文本,包括:
根据预设的提示文本模板中定义的文本格式、以及所述指令文本和所述图谱知识生成提示文本;其中,所述提示文本模板中定义的文本格式包括提示参考所述指令文本和所述图谱知识进行回答的参考内容;
将所述提示文本输入所述大语言模型中,得到所述大语言模型输出的答案文本。
7.根据权利要求6所述的方法,其特征在于,所述参考内容包括提示增强回答逻辑的内容、提示增强信息整合能力的内容、提示根据已有知识补充信息的内容、提示不重复表达相同知识的内容中的至少一种。
8.根据权利要求1-7任一项所述的方法,其特征在于,通过问题需求分类模型和事实类问题识别模型对所述指令文本进行问题类型的识别处理,以及通过实体识别模型对所述指令文本进行实体识别;所述方法还包括:
将分别针对所述问题需求分类模型、所述事实类问题识别模型和所述实体识别模型对应的训练数据集逐条进行拼接,得到包含多组拼接数据的训练数据总集;
获取对所述问题需求分类模型、所述事实类问题识别模型和所述实体识别模型集成得到的综合模型;
通过所述训练数据总集包含的多组拼接数据对所述综合模型进行训练。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
若识别到所述指令文本不包含事实类型的问题,则直接将所述指令文本输入至所述大语言模型中进行文本;
获取所述大语言模型输出的答案文本。
10.一种基于人工智能的文本处理装置,其特征在于,包括:
问题类型识别模块,配置为对待处理的指令文本进行问题类型的识别处理;
实体识别模块,配置为若识别到所述指令文本包含事实类型的问题,则对所述指令文本进行实体识别,得到所述指令文本包含的实体对象;其中,所述事实类型问题表征具有客观答案的问题;
图谱知识获取模块,配置为对所述指令文本包含的实体对象进行实体链接处理,得到所述实体对象对应的准确实体信息,并由所述实体对象对应的准确实体信息形成所述指令文本的图谱知识;
答案获取模块,配置为将所述指令文本和所述图谱知识共同输入至大语言模型中进行文本处理,获得所述大语言模型输出的答案文本;
其中,所述图谱知识获取模块还配置为:通过对所述指令文本包含的实体对象进行实体链接处理,以将所述实体对象无歧义地指向预设知识图谱中的目标实体;
在所述预设知识图谱中查询所述目标实体的实体简介和实体热度,将所述目标实体的实体简介作为相应实体对象的实体简介,以及将所述目标实体的实体热度作为相应实体对象的实体简介;
由所述实体对象的实体名称、实体热度和实体简介形成实体信息三元组,将所述实体信息三元组作为所述实体对象的准确实体信息。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至9中任一项所述的基于人工智能的文本处理方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至9中任一项所述的基于人工智能的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311031816.6A CN116795973B (zh) | 2023-08-16 | 2023-08-16 | 基于人工智能的文本处理方法及装置、电子设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311031816.6A CN116795973B (zh) | 2023-08-16 | 2023-08-16 | 基于人工智能的文本处理方法及装置、电子设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116795973A CN116795973A (zh) | 2023-09-22 |
CN116795973B true CN116795973B (zh) | 2023-10-24 |
Family
ID=88043916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311031816.6A Active CN116795973B (zh) | 2023-08-16 | 2023-08-16 | 基于人工智能的文本处理方法及装置、电子设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116795973B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077791B (zh) * | 2023-10-12 | 2024-08-02 | 北京枫清科技有限公司 | 一种基于图数据结构的模型推理方法、装置、设备及介质 |
CN117150050B (zh) * | 2023-10-31 | 2024-01-26 | 卓世科技(海南)有限公司 | 一种基于大语言模型的知识图谱构建方法及系统 |
CN117235237B (zh) * | 2023-11-10 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 一种文本生成方法及相关装置 |
CN117688186B (zh) * | 2023-11-14 | 2024-09-10 | 中国科学院软件研究所 | 一种基于知识图谱的大语言模型幻觉问题的自动修正方法和装置 |
CN117272425B (zh) * | 2023-11-22 | 2024-04-09 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种装配方法、装置、电子设备及存储介质 |
CN117436441A (zh) * | 2023-12-14 | 2024-01-23 | 浙江口碑网络技术有限公司 | 基于大语言模型的文本结构识别方法 |
CN117591661B (zh) * | 2024-01-18 | 2024-04-26 | 之江实验室 | 一种基于大语言模型的问答数据构建方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11068661B1 (en) * | 2017-02-17 | 2021-07-20 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on smart attributes |
CN115982376A (zh) * | 2022-12-14 | 2023-04-18 | 北京百度网讯科技有限公司 | 基于文本、多模数据和知识训练模型的方法和装置 |
CN116594768A (zh) * | 2023-05-05 | 2023-08-15 | 清华大学 | 面向大模型的通用工具协同和精细化学习系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10691751B2 (en) * | 2017-01-23 | 2020-06-23 | The Trade Desk, Inc. | Data processing system and method of associating internet devices based upon device usage |
US11675825B2 (en) * | 2019-02-14 | 2023-06-13 | General Electric Company | Method and system for principled approach to scientific knowledge representation, extraction, curation, and utilization |
-
2023
- 2023-08-16 CN CN202311031816.6A patent/CN116795973B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11068661B1 (en) * | 2017-02-17 | 2021-07-20 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on smart attributes |
CN115982376A (zh) * | 2022-12-14 | 2023-04-18 | 北京百度网讯科技有限公司 | 基于文本、多模数据和知识训练模型的方法和装置 |
CN116594768A (zh) * | 2023-05-05 | 2023-08-15 | 清华大学 | 面向大模型的通用工具协同和精细化学习系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116795973A (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN111708873B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN110362660B (zh) | 一种基于知识图谱的电子产品质量自动检测方法 | |
CN109271537B (zh) | 一种基于蒸馏学习的文本到图像生成方法和系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
Liu et al. | Open intent discovery through unsupervised semantic clustering and dependency parsing | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN117112595A (zh) | 一种信息查询方法、装置、电子设备及存储介质 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN116821781A (zh) | 分类模型的训练方法、文本分析方法及相关设备 | |
CN116821307A (zh) | 内容交互方法、装置、电子设备和存储介质 | |
CN113095072B (zh) | 文本处理方法及装置 | |
CN114519397B (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN111125550B (zh) | 兴趣点分类方法、装置、设备及存储介质 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN108268443B (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
CN118035945B (zh) | 一种标签识别模型的处理方法和相关装置 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN117371406A (zh) | 基于大型语言模型的注释生成方法、装置、设备及介质 | |
CN116186220A (zh) | 信息检索方法、问答处理方法、信息检索装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40093789 Country of ref document: HK |