[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN116090450A - 一种文本处理方法及计算设备 - Google Patents

一种文本处理方法及计算设备 Download PDF

Info

Publication number
CN116090450A
CN116090450A CN202211506423.1A CN202211506423A CN116090450A CN 116090450 A CN116090450 A CN 116090450A CN 202211506423 A CN202211506423 A CN 202211506423A CN 116090450 A CN116090450 A CN 116090450A
Authority
CN
China
Prior art keywords
text
clause
processed
word
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211506423.1A
Other languages
English (en)
Inventor
曹熠炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202211506423.1A priority Critical patent/CN116090450A/zh
Publication of CN116090450A publication Critical patent/CN116090450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种文本处理方法及计算设备,涉及计算机技术领域。其中,方法包括:对待处理文本处理,得到待处理文本包括的多个分词以及多个分词之间的依存关系。基于待处理文本包括的多个分词之间的依存关系对待处理文本分句,得到一个或多个子句。对于任一子句,基于子句包括的分词之间的依存关系,从子句包括的分词中选择子句的关键词,并基于子句的关键词和子句的情感极性生成子句的关键词的属性标签。如此,可以提高提取出的关键词的准确性,有利于得到准确的标签。从而可以准确的用于指导改善产品质量、提升售后服务等。

Description

一种文本处理方法及计算设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法及计算设备。
背景技术
随着互联网数据的剧增,采用人力分析数据成为了一个难题。例如,采用人力分析大量用户对商品的评价是一件耗时耗力的事情。与此同时,数据的分析结果,往往对改善产品质量,提升售后服务有着至关重要的作用。例如,通过数据分析,确定大量用户认为某款手机的拍照效果很差,手机生产商基于该分析结果可以完善手机的拍照功能,提升拍照效果。由此可见,如何高效的完成数据分析是一项重要的挑战。
然而,发明人在实施本申请实施例的过程中发现,现有技术中尚不存在一种可以自动对文本处理,从而准确分析出用户对某属性的看法的方案。例如,分析出用户对外观好看与否的看法。又例如,分析出用户对性价比高低的看法。再例如,分析出用户对拍照性能好坏的看法。从而无法准确用于指导改善产品质量、提升售后服务等。
发明内容
有鉴于此,本申请提供了一种文本处理方法及计算设备,可以提高提取出的关键词的准确性,有利于得到准确的标签。从而可以准确的用于指导改善产品质量、提升售后服务等。
第一方面,本申请实施例提供了一种文本处理方法,可以应用于需要对平台中的用户反馈信息(如评论、弹幕等)进行分析的场景中。其中,对待处理文本(即评论、弹幕等用户反馈信息)处理,得到待处理文本包括的多个分词以及多个分词之间的依存关系。其中,依存关系是指词与词之间的语法关系。基于待处理文本包括的多个分词之间的依存关系对待处理文本分句,得到一个或多个子句。对于任一子句,基于子句包括的分词之间的依存关系,从子句包括的分词中选择子句的关键词,并基于子句的关键词和子句的情感极性生成子句的关键词的属性标签。
综上,本申请实施例中,基于依存关系分句,即基于词与词之间的语法关系来分句,保证得到的子句的精简性。后续针对精简的子句选择关键词以及生成属性标签,针对性更强,可以提高选择出的关键词的准确性,得到准确的属性标签。从而可以准确的用于指导改善产品质量、提升售后服务等。
在第一方面一种可能的设计方式中,上述基于待处理文本包括的多个分词之间的依存关系对待处理文本分句,得到一个或多个子句,包括:在具有依存关系的多个分词中,若存在具有子句结构的分词,则从待处理文本中具有子句结构的分词的结束位置处分句,得到至少两个子句。若不存在具有子句结构的分词,确定待处理文本为一个子句。
采用本实施例,基于子句结构来划分分句,从而可以将相对独立的单独划分开,得到精简的短句,有利于提高后续处理的针对性。
在第一方面另一种可能的设计方式中,上述基于子句包括的分词之间的依存关系,从子句包括的分词中选择子句的关键词,包括:从子句包括的分词中,选择满足预设依存关系的分词。从满足预设依存关系的分词中选择满足第一条件的关键词作为子句的关键词。
采用本实施例,在基于依存关系选择出预设依存关系(如主谓关系、动宾关系)的分词后,还需要基于第一条件来进一步选择。从而可以保证选出的关键词的准确性。
在第一方面另一种可能的设计方式中,第一条件包括下述至少一种:预设依存关系包括主谓关系,关键词为主谓关系中的主语。关键词的词性为预设词性(如名词)。关键词包括在属性词库中,属性词库中包括用于指示目标领域的属性的词语,目标领域是待处理文本来源的领域。
在第一方面另一种可能的设计方式中,上述对待处理文本处理,得到待处理文本包括的多个分词以及多个分词之间的依存关系,包括:将多个分词作为输入,运行第一人工智能AI模型,得到多个分词之间的依存关系。其中,第一AI模型具有根据多个词语预测多个词语之间的依存关系的能力。
采用本实施例,利用第一AI模型来确定依存关系,可以提高确定依存关系的过程的智能性。
在第一方面另一种可能的设计方式中,第一AI模型包括第一向量化模块、第一注意力网络模块以及第一输出模块。其中,第一向量化模块用于将多个分词表示成对应的多个词向量,第一注意力网络模块用于修正多个词向量,第一输出模块用于对修正后的多个词向量进行融合处理,得到依存关系。
采用本实施例,与传统采用基于长短期记忆网络(Long Short Term Memory,LSTM)搭建的模型相比,采用包括注意力网络模块的第一AI模型,可以修正词向量,从而提高对依存关系预测的准确性。
在第一方面另一种可能的设计方式中,第一注意力网络模块的结构如下:
Figure BDA0003968250950000021
其中,V1表示分词的词向量,Q1是分词中的文字作为上下文中心时的向量表示,T表示转置计算,dv1为V1的维度。
采用本实施例,与业界通用的注意力网络模块的结构相比,上述注意力网络模块的结构中省去了参数K,可以提升执行效率。
在第一方面另一种可能的设计方式中,在基于子句的关键词和子句的情感极性生成子句的关键词的属性标签之前,上述方法还包括:根据子句和多个预设语句预测子句的情感极性。多个预设语句为描述目标领域的专业知识的语句,目标领域是待处理文本来源的领域。
采用本实施例,结合目标领域的专业知识,可以更准确的预测得到情感极性。
在第一方面另一种可能的设计方式中,上述根据子句和多个预设语句预测子句的情感极性,包括:将子句和多个预设语句作为输入,运行第二人工智能AI模型,得到子句的情感极性。其中,第二AI模型具有根据文本和专业知识预测文本的情感极性的能力。
采用本实施例,使用第二AI模型实现情感极性预测,得到子句的情感极性,可以提高情感极性预测的智能性。
在第一方面另一种可能的设计方式中,第二AI模型包括第二向量化模块、第二注意力网络模块以及第二输出模块。其中,第二向量化模块用于将子句和多个预设语句表示成对应的多个句向量,第二注意力网络模块用于修正多个句向量,第二输出模块用于对修正后的多个句向量进行融合处理,得到情感极性。
采用本实施例,使用包括注意力网络模块的第二AI模型,可以修正句向量,从而提高对情感极性预测的准确性。
在第一方面另一种可能的设计方式中,上述生成子句的关键词的属性标签,包括:查询标签库,确定与关键词和情感极性匹配的属性标签。其中,标签库中包括用于指示属性的词语、情感极性和属性标签的对应关系。
在第一方面另一种可能的设计方式中,在对待处理文本处理之前,上述方法还包括:确定待处理文本中包括有效文本。其中,待处理文本中包括有效文本,包括:待处理文本中包括文字;或者,待处理文本中包括文字,且文字为用户输入的文字。
采用本实施例,仅在待处理文本存在有效文本的情况下,才进一步执行后续处理,可以避免针对无价值的待处理文本执行分析处理,提升处理的针对性。
在第一方面另一种可能的设计方式中,待处理文本为获取到的初始文本,或者,待处理文本为对初始文本基于标点符号和/或连接词分句后得到的文本。
采用本实施例,仅在待处理文本存在有效文本的情况下,才进一步执行后续处理,可以避免针对无价值的待处理文本执行分析处理,提升处理的针对性。
第二方面,本申请实施例还提供一种计算设备,计算设备包括存储器和处理器,存储器和处理器耦合;其中,存储器中存储有计算机程序代码,计算机程序代码包括计算机指令,当计算机指令被处理器执行时,使得计算设备执行上述第一方面及其任一种可能的设计方式中的方法。
第三方面,本申请实施例提供一种芯片系统,该芯片系统应用于包括显示屏和存储器的计算设备;所述芯片系统包括一个或多个接口电路和一个或多个处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述计算设备执行如第一方面及其任一种可能的设计方式所述的方法。
第四方面,本申请实施例还提供一种计算机存储介质,该计算机存储介质包括计算机指令,当所述计算机指令在计算设备上运行时,使得计算设备执行如第一方面及其任一种可能的设计方式所述的方法。
第五方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面及其任一种可能的设计方式所述的方法。
可以理解地,上述提供的第二方面所述的计算设备,第三方面所述的芯片系统,第四方面所述的计算机存储介质,第五方面所述的计算机程序产品所能达到的有益效果,可参考第一方面、第二方面、第三方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的文本处理方法的过程简图之一;
图2为本申请实施例提供的一种计算设备的硬件结构图;
图3为本申请实施例提供的文本处理方法的过程简图之二;
图4为本申请实施例提供的文本处理方法的过程简图之三;
图5为本申请实施例提供的文本处理方法的过程简图之四;
图6为本申请实施例提供的文本处理方法的过程简图之五;
图7为本申请实施例提供的文本处理方法的过程简图之六;
图8为本申请实施例提供的文本处理方法的过程简图之七;
图9为本申请实施例提供的文本处理方法的过程简图之八;
图10为本申请实施例提供一种关系预测模型的结构示意图;
图11为本申请实施例提供的文本处理方法的过程简图之九;
图12为本申请实施例提供的文本处理方法的过程简图之十;
图13为本申请实施例提供一种情感预测模型的结构示意图;
图14为本申请实施例提供的文本处理方法的过程简图之十一;
图15为本申请实施例提供的一种芯片系统的结构组成图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接,除非另外说明。“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
在本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例提供了一种文本处理方法,该方法可以应用于购物平台、视频平台、外卖平台、论坛等有大量用户反馈信息(如用户评论、弹幕等)的平台中,用于对平台中的用户反馈信息中的文本进行分析处理,确定每条文本内容的关键词,如外观、电池、内存。以及,确定每条文本的情感极性,情感极性是指文本的感情色彩。情感极性通常包括正向(如“好”)、中性(如“一般”)和负向(如“好”)中的至少两种。其中,正向表示文本的感情色彩积极,中性表示文本的感情色彩中庸,负向表示文本的感情色彩消极。以正向为例,文本中包括“开心”、“真棒”、“好极了”、“好吃”等词语,则文本的感情色彩积极,其情感极性为正向。
以电商平台为例,电商平台中销售有手机A,并且手机A下有大量的用户评论,即用户反馈信息为用户评论。那么,可以从各条用户评论中提取出关键词,确定评论的属性。示例性的,共有1000条评论,从这1000条评论中提取出的关键词如下表1所示:
表1
评论数量(条) 关键词
200 外观
200 拍照
600 内存
基于上表1可知,1000条评论中,200条评论的属性是外观,200评论的属性是拍照性能,600条评论的属性是内存。
然后,手机可以分析1000条评论的情感极性,如好、一般、差。从而得到用户对各个属性的情感极性。示例性的,分析得到的情感极性如下表2所示:
表2
Figure BDA0003968250950000051
基于上表2可知,200条对外观的评论中,150条的情感极性为好,40条的情感极性为一般,剩余10条的情感极性为差。200条对拍照的评论中,15条的情感极性为好,180条的情感极性为一般,剩余5条的情感极性为差。600条对内存的评论中,500条的情感极性为好,80条的情感极性为一般,剩余10条的情感极性为差。
并且,在确定出关键词和情感极性后,可以基于关键词和情感极性生成用户对属性的看法,也可以称为属性标签。从而用于指导改善产品质量、提升售后服务等。
示例性的,对上述表2的结果分析可知,绝大多数关键词为“外观”和“内存”的评论的情感极性都是“好”,则可以确定绝大多数用户对“外观”属性的看法为“外观好看”,以及确定绝大多数用户对“内存”属性的看法为“内存大”。但是,绝大多数关键词为“拍照”的评论的情感极性都只是一般,那么,可以确定绝大多数用户对“拍照性能”属性的看法为“拍照性能一般”。如此,可以确定后续需要着重提升手机A的拍照性能。
在一些实施例中,可以基于句向量、聚类以及关键词提取的方式,提取出待处理文本中的关键词。具体的,可以通过n元组(n-gram)、词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)、隐含狄利克雷分布(Latent DirichletAllocation,LDA)等信息提取算法,将待处理文本转换为定长的句向量。然后,将大量句向量聚类,得到多个句向量簇。针对每一个句向量簇对应的多个待处理文本,通过n-gram、TF-IDF、关键词提取(TextRank)等算法,提取该多个待处理文本中的关键词。
在另一些实施例中,也可以通过词向量以及聚类的方式,提取出待处理文本中的关键词。具体地,可以通过词向量模型确定待处理文本中每个词的词向量,得到待处理文本包括的多个词对应的多个词向量。然后,通过聚类算法将多个词向量聚类,得到K个词向量簇,并将每一个词向量簇对应的若干词中质心词作为待处理文本的关键词。
但是,实操数据表明,上述确定关键词的方式的准确性都不高,从而影响最终确定的属性标签的准确性。例如,以待处理文本的关键词为“外观”,情感极性是“好”为例,那么,属性标签理应为“外观好看”。然而,确定出的关键词却是“屏幕”,那么得到的属性标签可能是“屏幕大”,显然不合理。因此,属性标签无法准确用于指导改善产品质量、提升售后服务等。
基于此,本申请实施例提供了一种文本处理方法,参见图1,在经过分词处理得到待处理文本的多个分词后,可以使用依存句法分析,确定多个分词之间的依存关系(如图1所示的101过程)。其中,依存关系可以描述待处理文本中,词与词之间的语法关系。如图1所示,待处理文本为“这家的羊肉串太咸”,则多个分词可以包括:“这家”、“的”、“羊肉串”、“太”、“咸”,使用依存句法分析得到“这家”与“的”的依存关系为虚词与中心词(即MT)关系,“这家”与“羊肉串”的依存关系为定语与中心词(即ATT)关系,“羊肉串”与“咸”的依存关系为主语与谓语(SBV)关系,“太”和“咸”的依存关系为状语与中心词(即ADV)。然后,基于依存关系从多个分词中选择出关键词(如图1所示的102过程)。示例性的,选取SBV关系中的主语作为关键词。例如,“羊肉串”与“咸”的依存关系为SBV关系,其中“羊肉串”为主语,那么,可以确定待处理文本“这家的羊肉串太咸”的关键词为“羊肉串”。由于依存关系可以描述待处理文本中词与词之间的语法关系,使得依据该依存关系可以准确的确定待处理文本中的关键词。
以及,对待处理文本进行情感极性预测(如图1所示的103过程)。例如,采用情感预测模型,预测出待处理文本“这家的羊肉串太咸”的情感极性为“差”。
最后,结合待处理文本的关键词和情感极性,可以得到用户对关键词的标签(如图1所示的104过程)。例如,结合待处理文本“这家的羊肉串太咸”的关键词“羊肉串”,以及待处理文本“这家的羊肉串太咸”的情感极性“差”,可以得到属性标签“羊肉串难吃”。这样,基于准确的关键词和情感极性,可以得到准确的属性标签,有利于准确指导改善产品质量、提升售后服务等。
本申请实施例还提供了一种计算设备,该计算设备可用于执行本申请实施例提供的文本处理方法。上述计算设备可以是云端、服务器。或者,该计算设备可以是手机、平板电脑等具有较强的运算能力的设备。其中,服务器可以是一台服务器,或者可以是一个服务器集群,也可以是多个服务器集群,或者可以包括一类或多类服务器。示例性的,服务器可以是购物平台、视频平台、外卖平台或者论坛等需要完成舆情分析与监控的平台的服务器。
示例性的,参见图2,以计算设备是服务器为例,计算设备200包括处理器210、存储器220以及通信模块230。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
存储器220可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器210通过运行存储在存储器220的指令,从而执行服务器的各种功能以及数据处理。例如,处理器210可以通过执行存储在存储器220中的指令,完成文本处理的操作。
存储器220可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储服务器使用过程中所创建的数据(比如属性标签)等。此外,存储器220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
通信模块230可以包括移动通信模块和/或无线通信模块,用于实现与外部通信。例如,可以通过通信模块230获取实现文本处理所需的数据,如待处理文本、各种词库等。又例如,在完成文本处理得到处理结果后,通过通信模块230将处理结果传输给需要处理结果的设备。
其中,移动通信模块可以提供应用在服务器上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。
无线通信模块可以提供应用在服务器上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
应理解,图2所示计算设备200的硬件结构仅为一种示例,实际实施时,可以根据需求增加或者减少模块,或者可以合并上述一个或多个模块。示例性的,计算设备200中也可以不包括存储器220。相应的,用于实现文本处理的可执行代码可直接烧录到处理器210中,以及,计算设备200运行过程中所创建的数据(比如属性标签)可以直接通过通信模块230发送给其它设备。本申请实施例对此不作具体限定。
本申请实施例提供的文本处理方法,可以在具有上述硬件结构的计算设备(如服务器)200中实现。下面进一步结合附图,并以计算设备是服务器为例,说明本申请实施例提供的文本处理方法。
参见图3,本申请实施例提供的文本处理方法主要包括文本获取300、文本预处理301、关键词提取302、情感极性预测303以及标签生成304共5个处理过程。下面分别对上述5个处理过程做详细说明。
过程1,文本获取300。
文本获取300可以包括从待需要进行数据分析的平台获取待处理文本。应理解,待处理文本的数量不予限制,可以是一条或多条待处理文本。本申请中,待处理文本可以是用户评论、弹幕、留言等。
示例性的,服务器可以利用爬虫技术、光学字符识别(Optical CharacterRecognition,OCR)技术等文本提取技术,从购物平台、视频平台、外卖平台或者论坛等需要进行数据分析的平台中获取待处理文本。例如,利用爬虫技术从购物平台提取大量的用户评论,一条用户评论可以作为一个待处理文本。
过程2,文本预处理301。
服务器可以先对待处理文本执行文本预处理301,比如对待处理文本执行去噪、过滤、分句、分词、词性标注等一种或多种处理,从而便于后续基于处理后的文本执行关键词提取302以及情感极性预测303等处理。
下面对去噪、过滤、分句、分词、词性标注的处理过程进行说明;
去噪处理主要是指去除待处理文本中的干扰内容,如颜文字、表情等。示例性的,可以采用正则化方式去噪,如:将干扰内容作为第一预设内容,与待处理文本包括的内容一一比对。针对某一第一预设内容,若待处理文本中包括该第一预设内容,则将待处理文本中的该第一预设内容去除;若待处理文本中不包括该第一预设内容,则无需去除。例如,第一预设内容为颜文字,若待处理文本中包括颜文字,通过去噪,可以去除其中的颜文字。如此,可以去除待处理文本中的干扰内容。
过滤处理可以理解为检测待处理文本中是否存在有效文本。在一种具体的实现方式中,待处理文本的内容全为标点,没有文字,则待处理文本中不存在有效文本。例如,待处理文本为“……”、“!!!”等纯标点的文本。也就是说,待处理文本中至少要包括文字,才可以称为包括有效文本。在另一种具体的实现方式中,待处理文本中有文字,但是文字中包括第二预设内容,则待处理文本中不存在有效文本。其中,第二预设内容是指机器自动生成的内容,而非用户输入的内容。例如,第二预设内容包括“用户无评论”、“用户超期未反馈”、“该用户未留下任何意见”等。在该实现方式中,服务器可以从待处理文本来源的平台中获取自动生成用户反馈信息的规则,从而确定第二预设内容。例如,某平台中自动生成用户反馈信息的规则如下:若用户在收到货后15天内未评论,则生成“该用户无评论”的评论语句。基于上述规则,服务器可以确定第二预设内容包括“该用户无评论”。也就是说,待处理文本中不仅要包括文字,还要包括用户输入的文字,才可以称为包括有效文本。
若待处理文本中不存在有效文本,则表明没有对待处理文本作进一步分析的必要,可结束对该待处理文本的处理。若存在有效文本,才需要进一步执行后续处理。这样,可以避免针对无价值的待处理文本执行分析处理,提升处理的针对性。
分句处理可以指对一条包含多句话的文本进行处理得到多个分句。实际中,服务器从平台中获取的一条用户反馈信息(即一条待处理文本),可能包括多句话。例如,待处理文本为“这家店的羊肉串太咸,菜品也不新鲜。服务员的态度也不是很好”。很显然,该待处理文本是一个长句,包括对这家店的羊肉串、菜品以及服务态度等多个角度的评价。因此,在实施时,可以先对该待处理文本执行分句处理,得到待处理子文本。然后对每个待处理子文本(即短句)进行分析处理,可以提高处理的便捷性和准确性。其中,服务器可以基于标点符号或者连接词,对待处理文本分句,得到待处理子文本。
示例性的,在句号、感叹号等表征一句话结束的标点符号位置处分句。以在句号位置处分句为例,则待处理文本“这家店的羊肉串太咸,鸡肉也不新鲜。服务员的态度也不是很好”可以分句为“这家店的羊肉串太咸,鸡肉也不新鲜”以及“服务员的态度也不是很好”两个待处理子文本。
又示例性的,在“并且”、“以及”、“而且”、“还有”、“另外”等表征开始另一个角度的特定连接词的位置处分句。以在“另外”位置处分句为例,则待处理文本“这家店的羊肉串太咸,鸡肉也不新鲜,另外,服务员的态度也不是很好”可以分句为“这家店的羊肉串太咸,鸡肉也不新鲜”以及“另外,服务员的态度也不是很好”两个待处理子文本。
分词处理可以指对一句包括多个词语的文本进行处理得到多个分词(或者称为词语),即分词处理是指将待处理文本以词为单位划分。示例性的,可以采用jieba、SnowNLP等分词工具实现对待处理文本分词。本文中不多赘述。通过分词,可以得到待处理文本包括的多个分词。示例性的,对待处理文本“这家店的羊肉串太咸”分词处理可以得到“这家”、“的”、“羊肉串”、“太”、“咸”共5个分词。
进一步的,待处理文本中可能涉及一些专有名词。例如,用于表示颜色的“远峰蓝”、用于表示音箱品牌的“哈曼卡顿”以及用于表示摄像头设计的“缪斯之眼”等。针对这些专有名词,如果没有一定的知识储备,可能导致分词错误。例如,将“远峰蓝”分词为“远峰”和“蓝”,将“哈曼卡顿”分词为“哈曼”和“卡顿”,将“缪斯之眼”分词为“缪斯”、“之”和“眼”。基于此,服务器在使用jieba、SnowNLP等分词工具的过程中,可以查询目标领域的专有名词词库,辅助完成分词处理。其中,目标领域是指待处理文本来源的领域。例如,待处理文本为对手机的评论,手机属于3C领域,那么,待处理文本来源的领域为3C领域。服务器在使用jieba、SnowNLP等分词工具的过程中,可以查询3C领域的专有名词词库,辅助完成分词处理。若待处理文本中包括专有名词词库中的名词,则将待处理文本中的该名词划分为一个分词。另外,对于待处理文本中未包括在专有名词词库中的内容,则以分词工具的划分结果为准。
词性标注是指标注上述得到的分词的词性。其中,词性包括但不限于名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、感叹词以及拟声词中的一种或多种。示例性的,服务器可以采用THULAC、pyhanlp等词性标注工具完成词性标注。
在后续关键词提取302的过程中,需要使用依存句法分析的方式,分析待处理文本包括的多个分词之前的依存关系。因此,在上述文本预处理301的过程中,至少需要经过分词处理得到多个分词,以用于后续关键词提取302。或者,在一些实施例中,在后续关键词提取302的过程中,不仅需要依据依存句法分析得到的依存关系,还要结合词性来辅助选择出更准确的关键词。因此,本实施例,在文本预处理301的过程中,还需要经过词性标注,得到待处理文本包括的多个分词的词性。关于依据依存关系和词性提取关键词的具体实现,可参见下文过程3中的相关说明,此处暂不做说明。
为了便于对上述文本预处理301的理解,下面结合图4,说明文本预处理301的一种完整的处理流程:如图4所示,服务器可以首先对待处理文本执行去噪处理3011,去除待处理文本中的干扰内容,得到去除干扰后的待处理文本。再对去除干扰后的待处理文本中判断是否存在有效文本3012;若不存在有效文本,则结束对待处理文本的处理。若存在有效文本,则进一步执行分句处理3013,将去除干扰后的待处理文本划分为短句。应理解,如果去除干扰后的待处理文本本身就是短句,则经过分句处理3013后,输出的还是一个句子,即一个待处理子文本。如果去除干扰后的待处理文本是一个长句,则经过分句处理3013后,输出的是至少两个短句,即至少两个待处理子文本。在经过文本预处理301中的分句处理后,后续则针对单个待处理子文本进行处理(如分词处理、关键词提取等)。并且,为了方便描述,在后续处理过程中,可以将一个待处理子文本视为后续处理中的待处理文本。针对待处理文本(即一个待处理子文本),服务器对其执行分词处理3014,得到待处理文本包括的多个分词。在得到多个分词后,服务器对多个分词执行词性标注3015,从而得到多个分词及其词性。
当然,图4所示仅为一种可能的示例。实际中,文本预处理301可能仅包括图4中的部分处理过程。例如,文本预处理301中,可以不包括去噪处理3011、判定是否存在有效文本3012以及分句处理3013中的一种或多种处理。或者,文本预处理301中各个处理过程的先后顺序可能与图4所示的不同。例如,服务器也可以先执行是否存在有效文本3012的判断,在判定存在有效文本的情况下,进一步执行去噪处理3011。
过程3,关键词提取302。本申请中,服务器可以基于待处理文本包括的多个分词的依存关系,实现从待处理文本中选择关键词。
参见图5,在关键词提取302中,服务器可以文本预处理301中分词处理得到的多个分词作为输入。对该多个分词执行依存句法分析3021,确定多个分词之间的依存关系。其中,依存关系可以描述待处理文本中,词与词之间的语法关系。例如,主语和谓语的关系。示例性的,依存关系包括但不限于下述表3所示的一种或多种:
表3
Figure BDA0003968250950000091
Figure BDA0003968250950000101
然后,服务器基于多个分词之间的依存关系执行分句处理3022,将待处理文本划分为一个人或多个子句。从而实现基于词与词之间的语法关系来分句,保证得到的子句的精简性。
具体的,在分句处理3022的过程中,服务器可以查询多个分词的依存关系中是否存在子句结构(即IC)。其中,子句结构用于指示文本中两个结构独立的单句。例如,待处理文本“这家的羊肉串太咸,鸡肉也不新鲜”中,分词“咸”和“新鲜”之间的依存关系为子句结构,即表示“这家的羊肉串太咸”和“鸡肉也不新鲜”是两个结构独立的单句。若存在子句结构,则以具有子句结构的至少两个分词在待处理文本中的结束位置为界限划分分句,得到至少两个子句。若不存在子句结构,则将待处理文本确定为一个子句。其中,分词在待处理文本中的结束位置是指分词的最后一个字的末尾位置,即分词的最后一个字后紧挨着的位置。
示例性的,待处理文本“这家的羊肉串太咸,鸡肉也不新鲜”中,分词“咸”和“新鲜”之间的依存关系为子句结构。那么,在分句处理3022的过程中,可以“咸”和“新鲜”在“这家的羊肉串太咸,鸡肉也不新鲜”中的结束位置(即“咸”后面的位置和“新鲜”后面的位置)为界限划分分句,得到“这家的羊肉串太咸”和“鸡肉也不新鲜”两个子句。
在经过分句处理3022后,可以得到精简的子句。在后续关键词选择3023以及情感极性预测303等处理过程中,则可以子句为单位来处理。其中,在待处理文本中存在具有子句结构的至少两个分词的情况下,则子句是指以具有子句结构的至少两个分词在待处理文本中的结束位置为界限划分得到的子句。以及,在待处理文本中不存在具有子句结构的至少两个分词的情况下,则子句是指待处理文本本身。
并且,后续针对精简的子句执行关键词选择3023以及情感极性预测303等处理,处理的针对性更强,可以提高处理结果的准确性。例如,选择出准确的关键词,预测出准确的情感极性。
需要说明的是,在文本预处理301的过程中,服务器可以基于标点和/或特定连接词对待处理文本执行分句处理(如图4所示的分句处理3013),得到多个待处理子文本。每个待处理子文本可以包括一句话或多句话。在此基础上,在关键词提取302的过程中,基于依存句法分析3021得到的多个分词的依存关系,进一步执行分句处理3022,可以保证得到更精简的子句,更有利于后续选择出准确的关键词,以及更准确的预测情感极性。
示例性的,在文本预处理301的过程中,对待处理文本“这家的羊肉串太咸,鸡肉也不新鲜。服务员的态度也不是很好”以句号划分,可以基于标点和/或特定连接词得到“这家的羊肉串太咸,鸡肉也不新鲜”和“服务员的态度也不是很好”两个待处理子文本。其中,“这家的羊肉串太咸,鸡肉也不新鲜”显然评价的是两个属性,一个是“羊肉串”,另一个是“鸡肉”。也就是说,“这家店的羊肉串太咸”和“鸡肉也不新鲜”是表达的两个属性的评价,两者之间相对独立,关联性不强,将其作为一个整体来处理是不合理。该情况下,在关键词提取302的过程中,针对“这家的羊肉串太咸,鸡肉也不新鲜”,其包括的分词“咸”和“新鲜”之间的依存关系为子句结构,则可以将“这家的羊肉串太咸,鸡肉也不新鲜”划分为“这家的羊肉串太咸”以及“鸡肉也不新鲜”两个子句。如此,可以将评价两个属性的独立子句划分开。
在基于依存关系将待处理文本划分为一个或多个子句后,针对任一子句,服务器可以执行关键词选择,选择出该子句的关键词。
在关键词选择的过程中,服务器可以基于依存句法分析3021得到的多个分词的依存关系和该子句,选择出该子句的关键词(如图5中的关键词选择3023所示)。或者,服务器还可以在基于多个分词的依存关系和该子句,选择出关键词(可称为候选关键词)的基础上,进一步结合多个分词的词性,选择出预设词性的分词作为关键词(如图6中的关键词选择3023所示);或者,进一步结合属性词词库,选择出用于指示目标领域的属性的分词作为关键词(如图7中的关键词选择3023所示);或者,可以进一步结合多个分词的词性以及属性词词库,选择出预设词性、且用于指示目标领域的属性的分词作为关键词(即图6和图7的结合)。
下面将分别说明图5-图7、以及图6和图7结合所示选择关键词的具体实现方案:
如图5所示,针对任一子句,在关键词选择3023的过程中,服务器可以基于依存句法分析3021得到的多个分词的依存关系和该子句,选择出该子句的关键词。具体的,服务器可以根据该子句的内容,从多个分词之间的依存关系中,选择该子句包括的子句分词之间的依存关系。
示例性的,对于待处理文本“这家的羊肉串太咸,鸡肉也不新鲜”,经过依存句法分析3021,得到“这家”、“的”、“羊肉串”、“太”、“咸”、“,”、“鸡肉”、“也”、“不”以及“新鲜”共10个分词之间的依存关系。经过分句处理3022后,得到“这家的羊肉串太咸”和“鸡肉也不新鲜”两个子句。在对子句“这家的羊肉串太咸”的关键词选择3023的过程中,服务器可以从前述10个分词之间的依存关系中,筛选出子句“这家的羊肉串太咸”包括的子句分词之间的依存关系。即,选择出“这家”、“的”、“羊肉串”、“太”以及“咸”共5个分词之间的依存关系。在对子句“鸡肉也不新鲜”的关键词选择3023的过程中,也可同理选择出子句分词“鸡肉”、“也不”、“新鲜”之间的依存关系。
以及,在关键词选择3023的过程中,在选择出子句分词之间的依存关系后,服务器则可以基于子句分词之间的依存关系,选择出子句的关键词。其中,可以从子句包括的子句分词中,选择满足预设依存关系的分词,然后从中选择关键词。如此,使得选择出的关键词为语法关系反映出的关键词,可以准确的选择出子句中的关键词。
示例性的,从子句分词之间的依存关系中,选取主谓关系(即SBV)(即预设依存关系为主谓关系)中的主语作为子句的关键词。例如,待处理文本“这家的羊肉串太咸”中,“羊肉串”和“咸”之间的依存关系为主谓关系,并且“羊肉串”为主语,则可以选择“羊肉串”作为“这家的羊肉串太咸”的关键词。
又示例性的,选择动宾关系(即VOB)(即预设依存关系为动宾关系)中的宾语作为关键词。例如,待处理文本“她送我一本书”中,“送”和“书”的依存关系为动宾关系,并且“书”为宾语,则可以选择“书”作为“她送我一本书”的关键词。
如图6所示,针对任一子句,在关键词选择3023的过程中,服务器可以在多个分词的依存关系和该子句的基础上,进一步结合多个分词的词性,选择出该子句的关键词。
具体的,服务器需要从多个分词的依存关系中,选择出该子句包括的子句分词之间的依存关系,而后基于子句分词之间的依存关系,选择出子句的关键词(可称为候选关键词)。具体可参见前文关于图5中关键词选择3023的相关说明。
并且,本申请中,需要生成属性标签,例如,生成“外观”属性的标签为“外观好看”,生成“电池”属性的标签为“电池容量大”,生成“内存”属性的标签为“内存充足”等等。很显然,本申请中的关键词主要指示某个属性。例如,手机的外观、电池、内存、屏幕等属性。又如,餐厅的羊肉串、烧鸡、米饭、环境、服务等属性。这些指示属性的词通常是名词。因此,在图6所示的实施例中,服务器还可以基于多个分词的词性关系,选择出该子句包括的名词性的、子句分词,得到名词性分词。该名词性分词可用于辅助从候选关键词中筛选出真正的关键词,提高选择出的关键词的准确性。
当然,本领域技术人员可以基于应用场景,选择相应词性(也可称为预设词性)的分词作为关键词,而不仅仅以分词为限。
服务器可以将基于子句分词之间的依存关系选择出的关键词中,不属于名词的关键词剔除,得到最终的关键词。示例性的,服务器将候选关键词与名词性分词一一比对。针对任一候选关键词,若该候选关键词不是名词性分词,可以将该候选关键词过滤掉;若该候选关键词是名词性分词,可以将该候选关键词保留为子句的关键词。例如,候选关键词有“羊肉串”、“好吃”,名词性分词包括“羊肉串”,服务器可以将候选关键词中的“羊肉串”保留,将候选关键词中的“好吃”过滤掉。这样,可以将不是名词的候选关键词过滤掉。
如图7所示,针对任一子句,在关键词选择3023的过程中,服务器可以在多个分词的依存关系和该子句的基础上,进一步结合属性词词库,选择出该子句的关键词。
其中,属性词词库是指用于指示目标领域的属性的词语构成的词库。关于目标领域,可参见前文中的相关说明,此处不再赘述。服务器通过收集指示目标领域的属性的词语,可以构建得到属性词词库。示例性的,以目标领域是3C领域为例,属性词词库中可以包括“屏幕”、“外观”、“电池”、“内存”、“刷新率”、“网络”等指示3C领域中的属性的词语。
具体的,服务器需要从多个分词的依存关系中,选择出该子句包括的子句分词之间的依存关系,而后基于子句分词之间的依存关系,选择出子句的关键词(可称为候选关键词)。具体可参见前文关于图5中关键词选择3023的相关说明。
并且,在图7所示的方案中,针对任一候选关键词,服务器还可以将该候选关键词,与属性词词库中的词语匹配。若该候选关键词是属性词词库中的词语,则保留该候选关键词。若该候选关键词不是属性词词库中的词语,则表明候选关键词不能用于指示目标领域的属性,则可以将该候选关键词过滤掉。这样,可以过滤掉不能用于指示目标领域的属性的候选关键词,提高选择出的关键词的准确性。
示例性的,以将主谓关系中的主语确定为候选关键词为例。若子句中主谓关系的主语是“天气”,则可以将“天气”作为子句的候选关键词。但是,待处理文本是对手机的评论,手机属于3C领域,即目标领域是3C领域。而“天气”不能指示3C领域的属性,不在3C领域的属性词词库中。那么,采用图7所示的实施例,可以将候选关键词“天气”过滤掉。
当然,在一些实施例中,也可以将上述图6所示的实施例和图7所示的实施例结合,即:针对任一子句,在关键词选择3023的过程中,服务器还可以在多个分词的依存关系和该子句的基础上,进一步结合多个分词的词性以及属性词词库,选择出该子句的关键词。也就是说,服务器可以在选出候选关键词之后,需要基于词性和属性词词库对候选关键词过滤,过滤掉不属于名词的候选关键词,以及过滤掉不在属性词词库中的候选关键词。从而可以通过双重过滤,进一步提升选择出的关键词的准确性。
在上述图6、图7或者两者结合的实施例中,关键词选择3023的过程中,都需要对候选关键词过滤。在完成过滤之后,可能出现两种情况:情况一,所有候选关键词都被过滤掉。情况二,仅有部分候选关键词被过滤掉,或者所有候选关键词都未被过滤掉。
基于此,参见图8,在关键词提取302的过程中,在完成关键词选择3023后,服务器还可以执行是否有剩余关键词3024的判断。若有剩余关键词,即仅有部分候选关键词被过滤掉,或者所有候选关键词都未被过滤掉(上述情况二),后续可以将剩余关键词用于生成属性标签。若没有剩余关键词,即所有候选关键词都被过滤掉,则没有剩余关键词可用于后续生成属性标签,只能结束处理。如此,可以仅在有剩余关键词的前提下,才进一步执行后续处理。
进一步的,在关键词提取302中,服务器可以使用人工智能(ArtificialIntelligence,AI)模型实现依存句法分析3021,得到待处理文本包括的多个分词之间的依存关系。从而可以提高依存句法分析的智能性。
参见图9,该用于实现依存句法分析3021的AI模型即为关系预测模型3021a(也可以称为第一AI模型)。关系预测模型3021a具有根据多个词语,预测多个分词之间的依存关系的能力。服务器将文本预处理301得到的多个分词作为关系预测模型3021a的输入,运行关系预测模型3021a,则可以输出得到多个分词之间的依存关系。
上述关系预测模型3021a可以是卷积神经网络(Convolutional Neural Network,CNN),循环神经网络(Recurrent Neural Network,RNN),门循环单元(Gate RecurrentUnit,GRU)等神经网络结构或神经网络模型。
在一些实施例中,关系预测模型3021a中包括注意力网络模块,用于修正分词的词向量,从而提高对依存关系预测的准确性。
示例性的,关系预测模型3021a的模型结构如图10所示,包括向量化模块(embedding)、两个注意力网络模块和输出模块。其中,向量化模块用于将各个分词(如分词1,分词2……分词n)使用向量表示,输出与多个分词一一对应的多个词向量。注意力网络模块采用注意力机制,用于修正词向量,输出与多个词向量一一对应的多个修正后的词向量。应理解,两个注意力网络模块,则可用于对词向量进行两次修正。输出模块用于对多个修正后的词向量进行融合处理,输出多个分词之间的依存关系。其中,输出模块可以为前述CNN、DNN或者RNN等神经网络结构。
进一步的,为了简化关系预测模型3021a的模型结构,关系预测模型3021a中的注意力网络模块可以采用如下结构:
Figure BDA0003968250950000131
其中,V1表示词向量,Q1是分词中的文字作为上下文中心时的向量表示,T表示转置计算,dv1为V1的维度。
很显然,与业界通用的注意力网络模块的结构相比,上述注意力网络模块的结构中省去了参数K,可以提升执行效率。
需要说明的是,图10所示关系预测模型3021a的模型结构仅为一种可能的示例,实际实施时,并不以此为限。例如,关系预测模型3021a的模型结构中还可以包括归一化层、全连接层等。又例如,关系预测模型3021a的模型结构中可以包括比图7所示更多或者更少的注意力网络模块。本申请实施例对此不作具体限定。
示例性的,本申请实施例这里将说明关系预测模型3021a的训练过程:
可以收集多个第一文本样本,对每个第一文本样本进行分词处理,得到每个第一文本样本的一组分词样本。那么,对应多个第一文本样本,则可以得到多组分词样本。一组分词样本包括多个分词样本。以及,标注每组分词样本包括的多个分词样本之间的一组依存关系样本,一组依存关系样本中包括多个依存关系。那么,对应多组分词样本,则可以得到多组依存关系样本。进一步的,在收集多个第一文本样本时,可以收集分词较少的短句,也需要收集分词较多的长句,使得训练得到的关系预测模型3021a可以适用于各种长度的句子划分得到的多个分词的关系预测。
而后,将上述多组分词样本作为输入样本,将多组依存关系样本作为输出样本,训练上述基于注意力机制的网络模型(如图10中包括向量化模块、两个注意力网络模块和输出模块的网络模型)。当网络模型的实际输出与输出样本的差距小于第一预设误差时,结束训练,结束训练时得到的网络模型即为关系预测模型3021a。
采用本实施例,与传统采用基于长短期记忆网络(Long Short Term Memory,LSTM)搭建的模型相比,本实施例提供的关系预测模型3021a中包括注意力网络模块,可以修正词向量,从而提高对依存关系预测的准确性。
过程4,情感极性预测303。参见图11,通过情感极性预测303,可以预测得到关键词提取302中分句处理3022得到的子句的情感极性。情感极性包括正向(如“好”)、中性(如“一般”)或者负向(如“差”)。
其中,若文本(如子句)的感情色彩是积极的,则其情感极性为正向。示例性的,对于子句“这款手机的电量好经用”,其中“好经用”表示的是积极的感情色彩,则子句“这家的羊肉串太咸”的情感极性为正向。
若文本(如子句)的感情色彩是中庸的,则其情感极性为中性。示例性的,对于子句“这款手机的拍照性能不是很突出,但也不差”,其中“不是很突出,但也不差”表示的是中庸的感情色彩,则子句“这款手机的拍照性能不是很突出,但也不差”的情感极性为中性。
若文本(如子句)的感情色彩是消极的,则其情感极性为负向。示例性的,对于子句“这家的羊肉串太咸”,其中“太咸”表示的是消极的感情色彩,则子句“这家的羊肉串太咸”的情感极性为负向。
需要说明的是,本申请中,不对情感极性预测303的具体手段做任何限定,本领域技术人员可根据实际需求灵活选择。
在一些实施例中,可以收集表示消极的感情色彩的词语,构建负向词词库。然后,在对子句执行情感极性预测303时,服务器可以将子句中的子句分词与负向词词库中的词语匹配。若负向词词库中包括至少一个子句分词,则确定子句的情感极性为负向。若负向词词库中不包括子句分词,则确定子句的情感极性为正向。
当然,也可以收集表示积极的感情色彩的词语,构建正向词词库。然后,通过匹配确定子句的情感极性。
这样,通过简单的词语匹配,即可预测得到子句的情感极性。
在另一些实施例中,继续参见图11,服务器可以结合目标领域的领域知识执行情感极性预测303。关于目标领域,可参见前文中的相关说明,此处不再赘述。领域知识主要是指目标领域中的公知常识。例如,哈曼卡顿是音箱品牌,苹果是手机品牌,远峰蓝是一种手机颜色,缪斯之眼是一种摄像头设计结构等等。
在情感极性预测303的过程中,结合目标领域的领域知识,可以更准确的预测得到情感极性。例如,子句为“我家的音箱是哈曼卡顿的”,若不结合领域知识“哈曼卡顿是音箱品牌”,则极有可能因为子句中的“卡顿”,预测得到“我家的音箱是哈曼卡顿的”的情感极性为负向。但是,若结合领域知识“哈曼卡顿是音箱品牌”,则可以避免该错误。
下文中,将主要以结合领域知识实现情感极性预测303为例来说说明。
在又一些实施例中,参见图12,服务器可以使用AI模型实现情感极性预测303,得到子句的情感极性。从而可以提高情感极性预测的智能性。
参见图12,该用于实现情感极性预测303的AI模型即为情感预测模型3031(也可以称为第二AI模型)。情感预测模型3031具有根据文本,预测文本的情感极性的能力。服务器将子句和领域知识作为情感预测模型3031的输入,运行情感预测模型3031,则可以输出得到子句的情感极性。
上述情感预测模型3031可以是CNN,RNN,GRU等神经网络结构或神经网络模型。
进一步的,情感预测模型3031中包括注意力网络模块,用于修正句子(如子句以及领域知识)的句向量,从而提高对依存关系预测的准确性。
示例性的,情感预测模型3031的模型结构如图13所示,包括向量化模块(embedding)、多个(如12个)注意力网络模块以及输出模块。其中,向量化模块用于将多个文本(如子句以及领域知识)使用向量表示,输出多个文本一一对应的多个句向量。需要注意的是,领域知识中通常包括大量知识点,每个知识点为一个知识语句,向量化模块可以生成每个知识语句的句向量。注意力网络层采用注意力机制,可用于修正句向量,输出与多个句向量一一对应的多个修正后的句向量。应理解,多个注意力网络模块,则可用于对句向量进行多次修正。输出模块用于对多个修正后的句向量进行融合处理,输出子句的情感极性。其中,输出模块可以为CNN、DNN、RNN等神经网络结构。
进一步的,为了简化情感预测模型3031的模型结构,同样可以在情感预测模型3031中采用如下结构的注意力网络:
Figure BDA0003968250950000151
其中,V2表示句向量,Q2是文本中的文字作为上下文中心时的向量表示,T表示转置计算,dv2为V2的维度。
很显然,与业界通用的注意力网络模块的结构相比,上述注意力网络模块的结构中省去了参数K,可以提升执行效率。
同样的,图13所示情感预测模型3031的模型结构也仅为一种可能的示例,实际实施时,并不以此为限。
示例性的,本申请实施例这里将说明情感预测模型3031的训练过程:
可以收集多个第二文本样本,并标注每个第二文本样本的情感极性样本,如正向、中性、负向。那么,对应多个第二文本样本,则可以得到多个情感极性样本。其中,多个第二文本样本可与前文中的多个第一文本样本相同,或者,多个第二文本样本也可与前文中的多个第一文本样本不相同。进一步的,在收集多个第二文本样本时,可以收集正向、中性以及负向的文本,也需要收集长句文本和短句文本,使得训练得到的情感预测模型3031可以适用于各种长度以及各种情感极性的句子的情感极性预测。
而后,将上述多个第二文本样本作为输入样本,将多个情感极性样本作为输出样本,训练上述网络模型(如图13中包括向量化模块、多个注意力网络模块和输出模块的网络模型)。当网络模型的实际输出与输出样本的差距小于第二预设误差时,结束训练,结束训练时得到的网络模型即为情感预测模型3031。
过程5,标签生成304。在一些实施例中,在得到关键词和情感极性后,可以通过标签生成304的过程,生成属性标签。例如,关键词为“外观”,情感极性为“正向”,则可以生成属性标签“外观好看”。又如,关键词为“性价比”,情感极性为“负向”,则可以生成属性标签为“性价比低”。再如,关键词为“物流”,情感极性为“中性”,则可以生成属性标签为“物流一般”。
参见图14,服务器在标签生成304的过程中,可以查询目标领域的标签库,确定关键词和情感极性对应的属性标签。其中,目标领域的标签库中包括指示目标领域的属性的词语、情感极性和标签的对应关系。示例性的,标签库中的数据如下表4所示:
表4
正向 中性 负向
外观 外观好看 外观一般 外观丑
电池 容量大 容量中等 容量小
内存 内存充足 内存中等 内存小
刷新率 刷新率高 刷新率一般 刷新率低
性价比 性价比高 性价比一般 性价比低
以关键词是“内存”,情感极性是“正向”为例,查询上表4可以得到属性标签为“内存充足”。以关键词是“刷新率”,情感极性是“负向”为例,查询上表4可以得到属性标签为“刷新率低”。
本申请实施例还提供了一种计算设备,该计算设备可以包括:存储器和一个或多个处理器。存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,计算设备可执行上述方法实施例中计算设备执行的各个功能或者步骤,实现文本处理。
本申请实施例还提供一种芯片系统,如图15所示,该芯片系统1500包括至少一个处理器1501和至少一个接口电路1502。处理器1501和接口电路1502可通过线路互联。例如,接口电路1502可用于从其它装置(例如电子设备的存储器)接收信号。又例如,接口电路1502可用于向其它装置(例如处理器1501)发送信号。示例性的,接口电路1502可读取存储器中存储的指令,并将该指令发送给处理器1501。当所述指令被处理器1501执行时,可使得计算设备执行上述实施例中的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算设备上运行时,使得计算设备执行上述方法实施例中服务器执行的各个功能或者步骤,实现文本处理。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述方法实施例中服务器执行的各个功能或者步骤,实现文本处理。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述方法实施例中服务器执行的各个功能或者步骤,实现文本处理。
其中,本实施例提供的计算设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (16)

1.一种文本处理方法,其特征在于,包括:
对待处理文本处理,得到待处理文本包括的多个分词以及所述多个分词之间的依存关系;
基于所述待处理文本包括的多个分词之间的依存关系对所述待处理文本分句,得到一个或多个子句;
对于任一子句,基于所述子句包括的分词之间的依存关系,从所述子句包括的分词中选择所述子句的关键词,并基于所述子句的关键词和所述子句的情感极性生成所述子句的关键词的属性标签。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本包括的多个分词之间的依存关系对所述待处理文本分句,得到一个或多个子句,包括:
在具有所述依存关系的多个分词中,若存在具有子句结构的分词,则从所述待处理文本中具有所述子句结构的分词的结束位置处分句,得到至少两个子句;
若不存在具有所述子句结构的分词,确定所述待处理文本为一个子句。
3.根据权利要求2所述的方法,其特征在于,所述基于所述子句包括的分词之间的依存关系,从所述子句包括的分词中选择所述子句的关键词,包括:
从所述子句包括的分词中,选择满足预设依存关系的分词;
从满足预设依存关系的分词中选择满足第一条件的关键词作为所述子句的关键词。
4.根据权利要求3所述的方法,其特征在于,所述第一条件包括下述至少一种:
所述预设依存关系包括主谓关系,所述关键词为所述主谓关系中的主语;
所述关键词的词性为预设词性;
所述关键词包括在属性词库中,所述属性词库中包括用于指示目标领域的属性的词语,所述目标领域是所述待处理文本来源的领域。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述对待处理文本处理,得到待处理文本包括的多个分词以及所述多个分词之间的依存关系,包括:
将所述多个分词作为输入,运行第一人工智能AI模型,得到所述多个分词之间的所述依存关系;
其中,所述第一AI模型具有根据多个词语预测所述多个词语之间的依存关系的能力。
6.根据权利要求5所述的方法,其特征在于,所述第一AI模型包括第一向量化模块、第一注意力网络模块以及第一输出模块;
其中,所述第一向量化模块用于将所述多个分词表示成对应的多个词向量,所述第一注意力网络模块用于修正所述多个词向量,所述第一输出模块用于对修正后的所述多个词向量进行融合处理,得到所述依存关系。
7.根据权利要求6所述的方法,其特征在于,所述第一注意力网络模块的结构如下:
Figure FDA0003968250940000011
其中,V1表示分词的词向量,Q1是分词中的文字作为上下文中心时的向量表示,T表示转置计算,dv1为V1的维度。
8.根据权利要求1-4中任一项所述的方法,其特征在于,在所述基于所述子句的关键词和所述子句的情感极性生成所述子句的关键词的属性标签之前,所述方法还包括:
根据所述子句和多个预设语句预测所述子句的所述情感极性;
其中,所述多个预设语句为描述目标领域的专业知识的语句,所述目标领域是所述待处理文本来源的领域。
9.根据权利要求8所述的方法,其特征在于,所述根据所述子句和多个预设语句预测所述子句的所述情感极性,包括:
将所述子句和所述多个预设语句作为输入,运行第二人工智能AI模型,得到所述子句的所述情感极性;
其中,所述第二AI模型具有根据文本和专业知识预测所述文本的情感极性的能力。
10.根据权利要求9所述的方法,其特征在于,所述第二AI模型包括第二向量化模块、第二注意力网络模块以及第二输出模块;
其中,所述第二向量化模块用于将所述子句和所述多个预设语句表示成对应的多个句向量,所述第二注意力网络模块用于修正所述多个句向量,所述第二输出模块用于对修正后的所述多个句向量进行融合处理,得到所述情感极性。
11.根据权利要求1-4中任一项所述的方法,其特征在于,所述生成所述子句的关键词的属性标签,包括:
查询标签库,确定与所述关键词和所述情感极性匹配的所述属性标签;
其中,所述标签库中包括用于指示属性的词语、情感极性和属性标签的对应关系。
12.根据权利要求1-4中任一项所述的方法,其特征在于,在所述对所述待处理文本处理之前,所述方法还包括:
确定所述待处理文本中包括有效文本;
其中,所述待处理文本中包括有效文本,包括:所述待处理文本中包括文字;或者,所述待处理文本中包括文字,且所述文字为用户输入的文字。
13.根据权利要求1-4中任一项所述的方法,其特征在于,所述待处理文本为获取到的初始文本,或者,所述待处理文本为对所述初始文本基于标点符号和/或连接词分句后得到的文本。
14.一种计算设备,其特征在于,所述计算设备包括存储器和处理器,所述存储器和所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述计算设备执行如权利要求1-13中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在计算设备上运行时,使得所述计算设备执行如权利要求1-13中任一项所述的方法。
16.一种芯片系统,其特征在于,所述芯片系统应用于包括处理器和存储器的计算设备,所述芯片系统包括一个或多个接口电路和一个或多个处理器,所述接口电路和所述处理器通过线路互联,所述接口电路用于从所述计算设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令,当所述处理器执行所述计算机指令时,使得所述计算设备执行如权利要求1-13中任一项所述的方法。
CN202211506423.1A 2022-11-28 2022-11-28 一种文本处理方法及计算设备 Pending CN116090450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211506423.1A CN116090450A (zh) 2022-11-28 2022-11-28 一种文本处理方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211506423.1A CN116090450A (zh) 2022-11-28 2022-11-28 一种文本处理方法及计算设备

Publications (1)

Publication Number Publication Date
CN116090450A true CN116090450A (zh) 2023-05-09

Family

ID=86209128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211506423.1A Pending CN116090450A (zh) 2022-11-28 2022-11-28 一种文本处理方法及计算设备

Country Status (1)

Country Link
CN (1) CN116090450A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991969A (zh) * 2023-05-23 2023-11-03 暨南大学 可配置语法关系的检索方法、系统、电子设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737013A (zh) * 2011-04-02 2012-10-17 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN108399158A (zh) * 2018-02-05 2018-08-14 华南理工大学 基于依存树和注意力机制的属性情感分类方法
CN109284499A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 一种行业文本情感获取方法、装置及存储介质
CN110362833A (zh) * 2019-07-22 2019-10-22 腾讯科技(深圳)有限公司 一种基于文本的情感分析方法及相关装置
CN111241290A (zh) * 2020-01-19 2020-06-05 车智互联(北京)科技有限公司 一种评论标签生成方法、装置和计算设备
CN111414749A (zh) * 2020-03-18 2020-07-14 哈尔滨理工大学 基于深度神经网络的社交文本依存句法分析系统
CN111881291A (zh) * 2020-06-19 2020-11-03 山东师范大学 一种文本情感分类方法及系统
CN113312478A (zh) * 2021-04-25 2021-08-27 国家计算机网络与信息安全管理中心 基于阅读理解的观点挖掘方法及装置
CN114564953A (zh) * 2022-02-28 2022-05-31 中山大学 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
CN114648015A (zh) * 2022-03-15 2022-06-21 北京理工大学 一种基于依存关系注意力模型的方面级情感词识别方法
CN114676699A (zh) * 2022-03-17 2022-06-28 广州荔支网络技术有限公司 实体情感分析方法、装置、计算机设备和存储介质
CN115204183A (zh) * 2022-09-19 2022-10-18 华南师范大学 基于知识增强的双通道情感分析方法、装置以及设备
CN115269847A (zh) * 2022-08-02 2022-11-01 广西师范大学 基于知识增强句法异构图的方面级情感分类方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737013A (zh) * 2011-04-02 2012-10-17 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN108399158A (zh) * 2018-02-05 2018-08-14 华南理工大学 基于依存树和注意力机制的属性情感分类方法
CN109284499A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 一种行业文本情感获取方法、装置及存储介质
CN110362833A (zh) * 2019-07-22 2019-10-22 腾讯科技(深圳)有限公司 一种基于文本的情感分析方法及相关装置
CN111241290A (zh) * 2020-01-19 2020-06-05 车智互联(北京)科技有限公司 一种评论标签生成方法、装置和计算设备
CN111414749A (zh) * 2020-03-18 2020-07-14 哈尔滨理工大学 基于深度神经网络的社交文本依存句法分析系统
CN111881291A (zh) * 2020-06-19 2020-11-03 山东师范大学 一种文本情感分类方法及系统
CN113312478A (zh) * 2021-04-25 2021-08-27 国家计算机网络与信息安全管理中心 基于阅读理解的观点挖掘方法及装置
CN114564953A (zh) * 2022-02-28 2022-05-31 中山大学 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
CN114648015A (zh) * 2022-03-15 2022-06-21 北京理工大学 一种基于依存关系注意力模型的方面级情感词识别方法
CN114676699A (zh) * 2022-03-17 2022-06-28 广州荔支网络技术有限公司 实体情感分析方法、装置、计算机设备和存储介质
CN115269847A (zh) * 2022-08-02 2022-11-01 广西师范大学 基于知识增强句法异构图的方面级情感分类方法
CN115204183A (zh) * 2022-09-19 2022-10-18 华南师范大学 基于知识增强的双通道情感分析方法、装置以及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张彬彬: "基于深度学习的服装商品评论细粒度情感分析", 中国优秀硕士学位论文全文数据库信息科技辑, no. 9, pages 14 - 27 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991969A (zh) * 2023-05-23 2023-11-03 暨南大学 可配置语法关系的检索方法、系统、电子设备及存储介质
CN116991969B (zh) * 2023-05-23 2024-03-19 暨南大学 可配置语法关系的检索方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11216504B2 (en) Document recommendation method and device based on semantic tag
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
WO2018227930A1 (zh) 智能提示答案的方法及装置
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN115114916A (zh) 用户反馈数据的分析方法、装置及计算机设备
CN114997288A (zh) 一种设计资源关联方法
CN114970514A (zh) 基于人工智能的中文分词方法、装置、计算机设备及介质
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN116090450A (zh) 一种文本处理方法及计算设备
CN113705207A (zh) 语法错误识别方法及装置
CN117194616A (zh) 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质
Gong et al. A semantic similarity language model to improve automatic image annotation
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN112905752A (zh) 一种智能交互方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination