CN113111658B - 校验信息的方法、装置、设备和存储介质 - Google Patents
校验信息的方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113111658B CN113111658B CN202110380128.5A CN202110380128A CN113111658B CN 113111658 B CN113111658 B CN 113111658B CN 202110380128 A CN202110380128 A CN 202110380128A CN 113111658 B CN113111658 B CN 113111658B
- Authority
- CN
- China
- Prior art keywords
- text information
- information
- text
- stored
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012795 verification Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 18
- 238000013145 classification model Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本公开公开了一种校验信息的方法、装置、设备和存储介质,应用于计算机技术领域,具体应用于语音识别领域和自然语言处理领域。校验信息的方法的具体实现方案为:获取来自多方会话中任一方的音频数据;识别音频数据,获得针对音频数据的第一文本信息;在任一方为主持方且基于第一文本信息确定音频数据为目标数据的情况下,从预定存储空间获取已存储文本信息;以及基于已存储文本信息对第一文本信息进行校验。其中,已存储文本信息包括针对多方会话中已识别音频数据的文本信息。
Description
技术领域
本公开涉及计算机技术领域,具体涉及语音识别领域和自然语言处理领域,更具体地涉及一种校验信息的方法、装置、设备和存储介质。
背景技术
随着计算机技术和网络技术的发展,以多方会话形式开展的在线会议和在线教育等得到了快速发展。该多方会话形式向用户提供了便捷的沟通方式。
由于环境等因素的影响,在多方会话中,会议发起者或会议记录者通常较难准确地记录会议的完整内容。
发明内容
提供了一种提高校验效率和校验准确性的校验信息的方法、装置、设备和存储介质。
根据本公开的一个方面,提供了一种校验信息的方法,该方法包括:获取来自多方会话中任一方的音频数据;识别音频数据,获得针对音频数据的第一文本信息;在该任一方为主持方且基于第一文本信息确定音频数据为目标数据的情况下,从预定存储空间获取已存储文本信息;以及基于已存储文本信息对第一文本信息进行校验,其中,已存储文本信息包括针对多方会话中已识别音频数据的文本信息。
根据本公开的另一个方面,提供了一种校验信息的装置,该装置包括:数据获取模块,用于获取来自多方会话中任一方的音频数据;数据识别模块,用于识别音频数据,获得针对音频数据的第一文本信息;信息获取模块,用于在任一方为主持方且基于第一文本信息确定音频数据为目标数据的情况下,从预定存储空间获取已存储文本信息;以及校验模块,用于基于已存储文本信息对第一文本信息进行校验,其中,已存储文本信息包括针对多方会话中已识别音频数据的文本信息。
根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的校验信息的方法。
根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的校验信息的方法。
根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的校验信息的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的校验信息的方法、装置、设备和存储介质的应用场景示意图;
图2是根据本公开实施例的校验信息的方法的流程示意图;
图3是根据本公开另一实施例的校验信息的方法的流程示意图;
图4是根据本公开实施例的从预定存储空间获取已存储文本信息的原理示意图;
图5是根据本公开实施例的基于已存储文本信息对第一文本信息进行校验的流程示意图;
图6是根据本公开实施例的校验信息的装置的结构框图;以及
图7是用来实现本公开实施例的校验信息的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种校验信息的方法,该方法包括音频数据获取阶段、音频数据识别阶段、文本信息获取阶段和文本信息校验阶段。在音频数据获取阶段中,获取来自多方会话中任一方的音频数据。在音频数据识别阶段,识别音频数据,获得针对音频数据的第一文本信息。在文本信息获取阶段,在该任一方为主持方且基于第一文本信息确定音频数据为目标数据的情况下,从预定存储空间获取已存储文本信息。在文本信息校验阶段,基于已存储文本信息对第一文本信息进行校验。其中,已存储文本信息包括针对多方会话中已识别音频数据的文本信息。
以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
图1是根据本公开实施例的校验信息的方法、装置、设备和存储介质的应用场景示意图。
如图1所示,该应用场景100包括终端设备111~114和服务器120。终端设备111~114可以通过网络与服务器120通信连接,网络可以包括有线或无线通信链路。
根据本公开的实施例,终端设备111~114可以为具有显示屏、能够进行音频和/或视频通话的终端设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。该终端设备111~114上可以安装有各种通讯客户端应用,例如即时通信工具、社交平台软件、网页浏览器应用、搜索类应用等(仅为示例)。
在一实施例中,用户可以使用终端设备111~114通过网络与服务器120交互,以构建多方会话。其中,用户例如可以为企业内工作人员,或者可以为教师、学生等。用户可以分别使用个人的终端设备经由社交平台软件等建立与其他用户的远程会话,以进行信息分享、知识传授或知识研讨等。
服务器120例如可以作为中间媒介,接收各终端设备采集的用户的音频信息和/或视频信息,并向各终端设备发送其他终端设备采集到的音频信息和/或视频信息,以实现多个用户之间的远程会话。该服务器120可以是提供各种服务的服务器,例如对社交平台软件提供支持的后台管理服务器。该服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
在一实施例中,服务器120在接收到各终端设备采集的音频信息和/或视频信息后,例如还可以对音频信息进行识别转换以得到文本信息,并对转换得到的文本信息进行存储。根据实际需求,服务器120例如还可以对转换得到的文本信息进行语义理解,以对文本信息进行校验。
需要说明的是,本公开所提供的校验信息的方法可以由服务器120执行。相应地,本公开所提供的校验信息的装置可以设置于服务器120中。或者,本公开所提供的校验信息的方法也可以由不同于服务器120且能够与服务器120通信的服务器或服务器集群执行。相应地,本公开所提供的校验信息的装置也可以设置于不同于服务器120且能够与服务器120通信的服务器或服务器集群中。
应该理解,图1中的终端设备和服务器的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备。
图2是根据本公开实施例的校验信息的方法的流程示意图。
如图2所示,该实施例的校验信息的方法200可以包括操作S210、操作S230、操作S250和操作S270。
在操作S210,获取来自多方会话中任一方的音频数据。
根据本公开的实施例,多方会话例如可以由多个用户采用各自终端设备中的社交平台软件发起,多个用户可以包括主持方和参与方。其中,主持方可以为企业内的团队领导或项目管理人员,参与方可以为团队内成员或项目工程师。或者,主持方可以为教师,参与方可以为学生。
根据本公开的实施例,多个用户中每个用户的终端设备可以采集该每个用户的语音得到音频数据,并发送给支持社交平台软件运行的服务器,从而使得服务器获取到来自多方会话中任一方的音频数据。
在操作S230,识别该音频数据,获得针对音频数据的第一文本信息。
根据本公开的实施例,可以采用语音识别技术(Automatic Speech Recognition,ASR)将音频数据转化为第一文本信息。具体地,可以采用动态时间规整(Dynamic TimeWarping,DTW)方法、隐马尔可夫(Hidden Markov Model,HMM)理论、矢量量化(VectorQuantization,VQ)技术或基于人工神经网络(Artificial Neural Network,ANN)技术等,来将音频数据转换为第一文本信息。
在操作S250,在该任一方为主持方且基于第一文本信息确定音频数据为目标数据的情况下,从预定存储空间获取已存储文本信息。
根据本公开的实施例,前述获取的音频数据例如可以携带有账户信息,该账户信息唯一指示多方会话中的任一方。在发起多方会话时,服务器例如可以基于多个用户对各自终端设备中社交平台软件的操作,维护有主持方的账户信息列表和参与方的账户信息列表。通过比对获取的音频数据所携带的账户信息与维护的账户信息列表,可以确定该任一方为主持方还是参与方。
根据本公开的实施例,目标数据为表征结论的数据。例如,目标数据可以为多方会议进行过程中,采集到的主持方表达结论的语音。该实施例可以在确定任一方为主持方的情况下,通过对第一文本信息进行语义识别来确定音频数据是否为目标数据。或者,通过对该第一文本信息进行关键信息提取,基于提取的关键信息来确定视频数据是否为目标数据。可以理解的是,上述目标数据仅作为示例以利于理解本公开,本公开对此不做限定。
根据本公开的实施例,预定存储空间例如可以存储有通过识别多方会话中已获取音频数据而得到的文本信息,即预定存储空间中存储的文本信息包括针对多方会话中已识别音频数据的文本信息。该预定存储空间中已存储的文本信息可以是采用与前述操作S210和操作S230类似的操作而获得的。已识别音频数据为在操作S210获取音频数据之前采集的多个用户发言的语音。
在操作S270,基于已存储文本信息对第一文本信息进行校验。
根据本公开的实施例,可以先基于已存储文本信息,采用语义理解模型来确定已存储文本信息的结论信息。其中,语义理解模型例如可以用于对文本信息进行实体词识别,并将识别得到的实体词嵌入该预定模板采用得到结论信息。该语义理解模型的输入可以为已存储文本信息,输出可以为结论文本,该语义理解模型例如可以基于双向转换编码器(Bidirectional Encoder Representation from Transformers,BERT)或基于知识图谱增强BERT语言表征模型(ERNIE)等构建得到。可以理解的是,上述语义理解模型的类型仅作为示例以利于理解本公开,本公开对此不做限定。例如,语义理解模型还可以包括长短期记忆网络模型等。
示例性地,语义理解模型可以基于已存储文本信息的语义来进行实体词识别。例如,对于已存储文本信息“项目X由张三跟进,李四别跟进了”,识别的实体词可以包括“项目X”和“张三”,而不包括“李四”。这是由于基于已存储文本信息的语义可知,“李四”与“项目X”不再具有关联关系。
根据本公开的实施例,在采用语义理解模型得到结论信息后,可以将该结论信息与第一文本信息进行比对,确定二者是否相匹配。具体地,可以采用以下参数形式中的至少之一来确定结论信息与第一文本信息之间的相似度:余弦相似度、皮尔逊相关系数、杰卡德相似系数等,在结论信息与第一文本信息之间的相似度大于预定相似度时,确定结论信息与第一文本信息相匹配。
示例性地,在确定结论信息与第一文本信息不相匹配时,可以确定第一文本信息未通过校验。在确定结论信息与第一文本信息匹配时,确定第一文本信息通过了校验。
通过采用该语义理解模型来得到结论信息,可以实现对多个已存储文本信息的语义的融合,对多个已存储文本信息之间的语义关联性的充分考虑。通过基于融合得到的结论信息与第一文本信息的比对来对第一文本信息进行校验,可以提高对第一文本信息进行校验的准确性。
根据本公开的实施例,在对第一文本信息进行校验时,例如也可以仅采用文本处理模型从已存储文本信息中提取关键信息。然后确定第一文本信息中是否包括该关键信息,若包括该关键信息,则确定第一文本信息通过校验,否则确定第一文本信息未通过校验。该文本处理模型例如可以基于双向长短期记忆网络模型和条件随机场模型构建得到。可以理解的是,该文本处理模型的类型仅作为示例以利于理解本公开,本公开对此不做限定。
示例性地,文本处理模型可以基于关键词提取算法来构建得到,该关键词提取算法例如可以基于预定词库进行关键词提取。该实施例可以根据实际需求预先维护有预定词库,该实施例对该预定词库中包括的词不做限定。
本公开实施例在音频数据为目标数据、且音频数据通过采集主持方的语音得到的情况下,通过获取多方会话中已识别音频数据的文本信息,可以达到通过关联会话的上下文来对目标数据进行自动校验的效果,并因此可以提升校验准确性,提升语音识别技术的使用覆盖度和商业价值。
图3是根据本公开另一实施例的校验信息的方法的流程示意图。
根据本公开的实施例,如图3所示,该实施例中的校验信息的方法300可以包括操作S310、操作S330、操作S350和操作S370,以及在操作S330与操作S350之间执行的操作S391和操作S393。
操作S310~操作S330用于在多方会话过程中循环执行,以获取来自多方会话中任一方的音频数据,并对该音频数据进行识别,得到针对该音频数据的文本信息。
在得到针对音频数据的第一文本信息后,可以执行操作S391,判断该任一方是否为主持方。若为主持方,则执行操作S393,否则返回继续获取音频数据。
在操作S393,判断第一文本信息是否为结论类型的文本。
示例性地,可以采用文本分类模型来对第一文本信息进行分类,分类结果指示第一文本信息表达结论的概率,在概率大于预定值时,确定音频数据为目标数据。或者,分类结果指示第一文本信息是否属于结论类别,在属于结论类别时,确定音频数据为目标数据。其中,文本分类模型例如可以为支持向量机模型、K最邻近分类算法(K-Nearest Neighbor,KNN)等。预定值例如可以为0.8等任意值,该预定值和文本分类模型可以根据实际需求进行设定,本公开对此不做限定。
示例性地,文本分类模型例如可以先从第一文本信息中提取关键信息。在提取到关键信息后,根据关键信息来确定第一文本信息的类别。在一实施例中,文本分类模型例如可以基于前文描述的文本处理模型构建得到,以从第一文本信息中提取关键信息。
示例性地,前述预定词库中可以维护有实体词、关联场景的动词、指示结论的词、指示补充内容的词和疑问词等。在关联场景为企业场景时,该动词例如可以包括:跟进、解决、处理、确认、评估、推动等,指示结论的词可以包括:结论、简而言之、综上所述等,指示补充内容的词可以包括:补充、提醒、还、也等。关键词提取算法例如可以为词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法、网页排名(PageRank)算法等。可以理解的是,上述预定词库和文本处理模型仅作为示例以利于理解本公开,本公开对此不做限定。在关键信息中包括指示结论的词和指示补充内容的词,且不包括疑问词的情况下,可以确定第一文本信息为结论类型。
若第一文本信息为结论类型的文本,则执行操作S350和操作S370,以从预定存储空间获取已存储文本信息,并基于已存储文本信息对第一文本信息进行校验。若第一文本信息不是结论类型的文本,则返回获取音频数据。
该实施例通过根据文本分类模型来对第一文本信息进行分类,并确定音频数据是否为目标数据,可以提高确定的目标数据的准确性,并因此可以避免对非目标数据的校验,提高校验效率。
图4是根据本公开实施例的从预定存储空间获取已存储文本信息的原理示意图。
根据本公开的实施例,在从预定存储空间中获取已存储文本信息时,例如可以仅获取与当前第一文本信息表达的主题相关的文本信息,以此提高对第一文本信息进行校验的效率和准确性。
如图4所示,在该实施例400中,在获取已存储文本信息时,可以先确定第一文本信息410包含的主题信息420,该主题信息420可以通过前述识别的关键信息来确定。例如,对于第一文本信息“我说一下问题Y的结论,由E来跟进”,可以根据关键信息确定主题信息为“问题Y”。在得到第一文本信息的主题信息后,可以先从预定存储空间搜索包含该主题信息的文本信息,作为第二文本信息。然后从预定存储空间中获取该第二文本信息和在第二文本信息被存储之后存入预定存储空间的文本信息,作为用于对第一文本信息进行校验的已存储文本信息。
示例性地,如图4所示,预定存储空间中存储有文本信息431~434,且该文本信息431~434是按时间顺序依次存入预定存储空间的。若该四个文本信息中,确定包含第一文本信息中的主题信息的文本信息为文本信息432,则获取的已存储文本信息为文本信息432~434。
根据本公开的实施例,在预定存储空间中具有多个包含该主题信息的文本信息时,该实施例可以确定该多个文本信息中被最早存储的文本信息为第二文本信息。在针对该主题信息所表达的主题进行探讨的过程中,若主题信息被多次提及,则通过该方式可以保证获取到的已存储文本信息能够覆盖到该主题探讨的整个过程。其中,预定存储空间为唯一对应于该次多方会话的存储空间,以此避免在存储空间中存储有针对同一主题的多次探讨而得到的文本信息时,在当前次探讨之前得到的文本信息对当前次校验的影响。
根据本公开的实施例,在获取的音频数据来自除主持方外的参与方,或者音频数据为非目标数据的情况下,可以将该音频数据存入前述的预定存储空间,以便于在后续对针对目标数据的文本信息进行校验时使用。
根据本公开的实施例,在获取的音频数据来自主持方且该音频数据为目标数据的情况下,若完成对针对该目标数据的文本信息的校验后,可以将针对该目标数据的文本信息存入预定存储空间,以使得预定存储空间中存储有多方会话的完整音频数据所对应的文本信息。
示例性地,在存储针对音频数据的第一文本信息时,例如可以先采用前文描述的文本处理模型从第一文本信息中提取关键信息。在关键信息包括主题信息的情况下,将该主题信息添加至第一文本信息。最终存储至预定存储空间的第一文本信息为添加了主题信息的文本信息。其中,主题信息例如可以为文本信息中包括的项目名称、课程名称、课程章节等。通过将该主题信息添加至第一文本信息,可以便于确定预定存储空间中的第二文本信息。
示例性地,在得到第一文本信息后,例如可以先从第一文本信息中提取关键信息,并将关键信息作为第一文本信息的标签,以便于在后续处理过程中对该第一文本信息进行文本分类和结论信息的生成。其中,关键信息例如还可以结合音频数据的来源来获得。例如,若第一文本信息为来自参与方B的音频数据获得的“我来跟进”,则得到的关键信息可以为“B跟进”。
示例性地,在多方会话基于讨论项目进度的目的而发起时,采用该实施例的校验信息的方法可以针对各音频数据得到如下表所示的文本信息和关键信息。其中,发言人A为主持方,发言人B、D、E、F、G为参与方。
示例性地,对于第一文本信息“我说一下问题Y的结论,由E来跟进”的校验,可以先从预定存储空间中获取到已存储的文本信息“咱说下一个主题,线上问题Y,还有一个问题Y也需要看一下,这个谁来跟进?”~文本信息“问题Y我也一起跟进吧”,通过采用语义理解模型可以得到结论信息“问题Y由E、D和G跟进,这周完成”,通过比对该结论信息和第一文本信息可知,该第一文本信息不完整,未提及关键信息“D”、“G”和“这周”,则确定校验不通过。
图5是根据本公开实施例的基于已存储文本信息对第一文本信息进行校验的流程示意图。
根据本公开的实施例,在确定第一文本信息未通过校验的情况下,服务器还可以向该任一方推送预定提示信息,以提示该任一方发言不准确。其中,预定提示信息例如可以为文本信息、声音信息等,该预定提示信息可以推送给该任一方所使用的终端设备,以使得该任一方所使用的终端设备对文本信息进行展示,或对声音信息进行播放等。
示例性地,该提示信息例如可以为指示第一文本信息不正确的提示文字,或者该提示信息还可以包括结论信息与第一文本信息之间的差异信息,以提示主持方对发言内容进行补充。
根据本公开的实施例,在多方会议中,会存在主持方为多个,或者主持方在进行总结性发言时进行了多次发言的情况,因此会存在获取到的针对主题信息所表达主题的音频数据中,具有来自主持方的、属于目标数据的多个音频数据的情况。此种情况下,可以先从已存储文本信息中挑选出针对该多个音频数据的文本信息,作为第三文本信息。在得到第三文本信息后,对该第三文本信息和当前的第一文本信息进行融合得到待校验文本信息。随后基于已存储文本信息中除第三文本信息外的其他文本信息,对待校验文本信息进行校验。通过该方式,可以保证对第一文本信息进行校验的准确性。
如图5所示,在该实施例中,在通过操作S550从唯一对应多方会话的预定存储空间中获取到已存储文本信息后,基于已存储文本信息对第一文本进行校验的流程可以包括操作S571~操作S577。
在操作S571,判断已存储文本信息中是否包括第三文本信息。若包括,则执行操作S573,否则执行操作S575。其中,第三文本信息为包含第一文本信息所包含的主题、且通过识别主持方的目标数据获得的文本信息。其中,主持方的目标数据即为来自主持方且属于目标数据的音频数据。
在操作S573,基于第三文本信息和第一文本信息生成待校验文本信息。例如可以从第三文本信息和第一文本信息中提取关键词,然后将该关键词套入预定模板中,得到待校验文本信息。例如,若第三文本信息为“问题Y由E来跟进”,第一文本信息为“问题Y还有D来跟进”,则提取到的关键词包括:“问题Y”、“E”、“F”和“跟进”,生成的待校验文本信息可以为“问题Y由E和F来跟进”。预定模板为“XX由XXX来跟进”。该待校验文本信息例如可以由前述的语义理解模型生成,本公开对此不做限定。
在操作S575,将第一文本信息作为待校验文本信息。
在获得待校验文本信息后,执行操作S577,基于已存储文本信息中除第三文本信息外的其他文本信息,对待校验文本信息进行校验。可以理解的是,该操作S577的实现方法与前文描述的基于已存储文本信息对第一文本信息进行校验的方法类似,在此不再赘述。
基于本公开提供的校验信息的方法,本公开还提供了一种校验信息的装置,以下将结合图6对该装置进行详细描述。
图6是根据本公开实施例的校验信息的装置的结构框图。
如图6所示,该实施例的校验信息的装置600包括数据获取模块610、数据识别模块630、信息获取模块650和校验模块670。
数据获取模块610用于获取来自多方会话中任一方的音频数据。在一实施例中,该数据获取模块610例如可以用于执行前文描述的操作S210,在此不再赘述。
数据识别模块630用于识别音频数据,获得针对音频数据的第一文本信息。在一实施例中,数据识别模块630例如可以用于执行前文描述的操作S230,在此不再赘述。
信息获取模块650用于在该任一方为主持方且基于第一文本信息确定音频数据为目标数据的情况下,从预定存储空间获取已存储文本信息。其中,已存储文本信息包括针对多方会话中已识别音频数据的文本信息。在一实施例中,信息获取模块650例如可以用于执行前文描述的操作S250,在此不再赘述。
校验模块670用于基于已存储文本信息对第一文本信息进行校验。在一实施例中,校验模块670例如可以用于执行前文描述的操作S270,在此不再赘述。
根据本公开的实施例,上述校验信息的装置600例如还可以包括目标数据确定模块,用于基于第一文本信息确定音频数据是否为目标数据。该目标数据确定模块例如可以包括文本类型确定子模块和数据确定子模块。文本类型确定子模块用于在任一方为主持方的情况下,采用文本分类模型确定第一文本信息是否为结论类型的文本。数据确定子模块用于在第一文本信息为结论类型的文本的情况下,确定音频数据为目标数据。
根据本公开的实施例,上述第一文本信息包含主题信息,上述预定存储空间唯一对应多方会话。上述信息获取模块650可以包括文本确定子模块和获取子模块。文本确定子模块用于确定预定存储空间中的第二文本信息,该第二文本信息包含主题信息。获取子模块用于从预定存储空间中获取第二文本信息及在第二文本信息被存储之后存入预定存储空间的文本信息。
根据本公开的实施例,上述校验模块670可以包括信息确定子模块和校验子模块。信息确定子模块用于基于已存储文本信息,采用语义理解模型确定针对已存储文本信息的结论信息。校验子模块用于在结论信息与第一文本信息相匹配的情况下,确定第一文本信息通过校验。
根据本公开的实施例,上述校验信息的装置600例如还可以包括信息推送模块,用于在确定第一文本信息未通过校验的情况下,向任一方推送预定提示信息。
根据本公开的实施例,上述第一文本信息包含主题信息,预定存储空间唯一对应上述多方会话。上述校验模块包括信息生成子模块和校验子模块。信息生成子模块用于在已存储文本信息包括第三文本信息的情况下,基于第三文本信息和第一文本信息生成待校验文本信息。校验子模块用于基于已存储文本信息中除第三文本信息外的其他文本信息,对待校验文本信息进行校验。其中,第三文本信息为包含主题信息的文本信息,且第三文本信息是通过识别支持方的目标数据获得的。
根据本公开的实施例,上述校验信息的装置600例如还可以包括存储模块,该存储模块用于在任一方为参与方,或基于第一文本信息确定音频数据为非目标数据的情况下,将第一文本信息存入预定存储空间。或者该存储模块用于在基于已存储文本信息对第一文本信息完成校验后,将第一文本信息存入预定存储空间。
根据本公开的实施例,上述存储模块包括信息提取子模块、主题信息添加子模块和存储子模块。第二信息提取子模块用于在基于第一文本信息确定音频数据为非目标数据的情况下,采用文本处理模型从第一文本信息中提取关键信息。主题信息添加子模块用于在关键信息包括主题信息的情况下,将主题信息添加至第一文本信息。存储子模块用于将添加了主题信息的第一文本信息存入预定存储空间。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7是用来实现本公开实施例的校验信息的方法的电子设备的框图。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如校验信息的方法。例如,在一些实施例中,校验信息的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的校验信息的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行校验信息的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (16)
1.一种校验信息的方法,包括:
获取来自多方会话中任一方的音频数据;
识别所述音频数据,获得针对所述音频数据的第一文本信息;
在所述任一方为主持方且基于所述第一文本信息确定所述音频数据为目标数据的情况下,从预定存储空间获取已存储文本信息;以及
基于所述已存储文本信息对所述第一文本信息进行校验,
其中,所述已存储文本信息包括针对所述多方会话中已识别音频数据的文本信息;
其中,所述第一文本信息包含主题信息,所述预定存储空间唯一对应所述多方会话;从预定存储空间获取已存储文本信息包括:
确定所述预定存储空间中的第二文本信息,所述第二文本信息包含所述主题信息;以及
从所述预定存储空间中获取所述第二文本信息和在所述第二文本信息被存储之后存入所述预定存储空间的文本信息。
2. 根据权利要求1所述的方法,还包括基于所述第一文本信息确定所述音频数据是否为目标数据,包括:
在所述任一方为主持方的情况下,采用文本分类模型确定所述第一文本信息是否为结论类型的文本;以及
在所述第一文本信息为结论类型的文本的情况下,确定所述音频数据为目标数据。
3. 根据权利要求1所述的方法,其中,所述基于所述已存储文本信息对所述第一文本信息进行校验包括:
基于所述已存储文本信息,采用语义理解模型确定针对所述已存储文本信息的结论信息;以及
在所述结论信息与所述第一文本信息相匹配的情况下,确定所述第一文本信息通过校验。
4.根据权利要求1所述的方法,还包括:
在确定所述第一文本信息未通过校验的情况下,向所述任一方推送预定提示信息。
5. 根据权利要求1所述方法,其中,所述基于所述已存储文本信息对所述第一文本信息进行校验包括:
在所述已存储文本信息包括第三文本信息的情况下,基于所述第三文本信息和所述第一文本信息生成待校验文本信息;以及
基于所述已存储文本信息中除所述第三文本信息外的其他文本信息,对所述待校验文本信息进行校验,
其中,所述第三文本信息为包含所述主题信息的文本信息,且所述第三文本信息是通过识别所述主持方的目标数据获得的。
6. 根据权利要求1所述的方法,还包括:
在所述任一方为参与方,或基于所述第一文本信息确定所述音频数据为非目标数据的情况下,将所述第一文本信息存入所述预定存储空间;或者
在基于所述已存储文本信息对所述第一文本信息完成校验后,将所述第一文本信息存入所述预定存储空间。
7.根据权利要求6所述的方法,其中,将所述第一文本信息存入所述预定存储空间包括:
采用文本处理模型从所述第一文本信息中提取关键信息;
在所述关键信息包括主题信息的情况下,将所述主题信息添加至所述第一文本信息;以及
将添加了所述主题信息的第一文本信息存入所述预定存储空间。
8.一种校验信息的装置,包括:
数据获取模块,用于获取来自多方会话中任一方的音频数据;
数据识别模块,用于识别所述音频数据,获得针对所述音频数据的第一文本信息;
信息获取模块,用于在所述任一方为主持方且基于所述第一文本信息确定所述音频数据为目标数据的情况下,从预定存储空间获取已存储文本信息;以及
校验模块,用于基于所述已存储文本信息对所述第一文本信息进行校验,
其中,所述已存储文本信息包括针对所述多方会话中已识别音频数据的文本信息;
其中,所述第一文本信息包含主题信息,所述预定存储空间唯一对应所述多方会话;所述信息获取模块包括:
文本确定子模块,用于确定所述预定存储空间中的第二文本信息,所述第二文本信息包含所述主题信息;以及
获取子模块,用于从所述预定存储空间中获取所述第二文本信息及在所述第二文本信息被存储之后存入所述预定存储空间的文本信息。
9. 根据权利要求8所述的装置,还包括目标数据确定模块,用于基于所述第一文本信息确定所述音频数据是否为目标数据;所述目标数据确定模块包括:
文本类型确定子模块,用于在所述任一方为主持方的情况下,采用文本分类模型确定所述第一文本信息是否为结论类型的文本;以及
数据确定子模块,用于在所述第一文本信息为结论类型的文本的情况下,确定所述音频数据为目标数据。
10. 根据权利要求8所述的装置,其中,所述校验模块包括:
信息确定子模块,用于基于所述已存储文本信息,采用语义理解模型确定针对所述已存储文本信息的结论信息;以及
校验子模块,用于在所述结论信息与所述第一文本信息相匹配的情况下,确定所述第一文本信息通过校验。
11.根据权利要求10所述的装置,还包括:
信息推送模块,用于在确定所述第一文本信息未通过校验的情况下,向所述任一方推送预定提示信息。
12. 根据权利要求8所述的装置,其中,所述校验模块包括:
信息生成子模块,用于在所述已存储文本信息包括第三文本信息的情况下,基于所述第三文本信息和所述第一文本信息生成待校验文本信息;以及
校验子模块,用于基于所述已存储文本信息中除所述第三文本信息外的其他文本信息,对所述待校验文本信息进行校验,
其中,所述第三文本信息为包含所述主题信息的文本信息,且所述第三文本信息是通过识别所述主持方的目标数据获得的。
13. 根据权利要求8所述的装置,还包括存储模块,用于:
在所述任一方为参与方,或基于所述第一文本信息确定所述音频数据为非目标数据的情况下,将所述第一文本信息存入所述预定存储空间;或者
在基于所述已存储文本信息对所述第一文本信息完成校验后,将所述第一文本信息存入所述预定存储空间。
14.根据权利要求13所述的装置,其中,所述存储模块包括:
信息提取子模块,用于采用文本处理模型从所述第一文本信息中提取关键信息;
主题信息添加子模块,用于在所述关键信息包括主题信息的情况下,将所述主题信息添加至所述第一文本信息;以及
存储子模块,用于将添加了所述主题信息的第一文本信息存入所述预定存储空间。
15. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380128.5A CN113111658B (zh) | 2021-04-08 | 2021-04-08 | 校验信息的方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380128.5A CN113111658B (zh) | 2021-04-08 | 2021-04-08 | 校验信息的方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111658A CN113111658A (zh) | 2021-07-13 |
CN113111658B true CN113111658B (zh) | 2023-08-18 |
Family
ID=76714932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110380128.5A Active CN113111658B (zh) | 2021-04-08 | 2021-04-08 | 校验信息的方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111658B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897104A (zh) * | 2022-06-14 | 2022-08-12 | 北京金堤科技有限公司 | 信息获取方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887508A (zh) * | 2019-01-25 | 2019-06-14 | 广州富港万嘉智能科技有限公司 | 一种基于声纹的会议自动记录方法、电子设备及存储介质 |
CN110139062A (zh) * | 2019-05-09 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种视频会议记录的创建方法、装置及终端设备 |
CN110379429A (zh) * | 2019-07-16 | 2019-10-25 | 招联消费金融有限公司 | 语音处理方法、装置、计算机设备和存储介质 |
CN111277589A (zh) * | 2020-01-19 | 2020-06-12 | 腾讯云计算(北京)有限责任公司 | 会议文档生成方法及装置 |
CN112528660A (zh) * | 2020-12-04 | 2021-03-19 | 北京百度网讯科技有限公司 | 处理文本的方法、装置、设备、存储介质和程序产品 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9269073B2 (en) * | 2012-09-20 | 2016-02-23 | Avaya Inc. | Virtual agenda participant |
CN109285548A (zh) * | 2017-07-19 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 信息处理方法、系统、电子设备、和计算机存储介质 |
-
2021
- 2021-04-08 CN CN202110380128.5A patent/CN113111658B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887508A (zh) * | 2019-01-25 | 2019-06-14 | 广州富港万嘉智能科技有限公司 | 一种基于声纹的会议自动记录方法、电子设备及存储介质 |
CN110139062A (zh) * | 2019-05-09 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种视频会议记录的创建方法、装置及终端设备 |
CN110379429A (zh) * | 2019-07-16 | 2019-10-25 | 招联消费金融有限公司 | 语音处理方法、装置、计算机设备和存储介质 |
CN111277589A (zh) * | 2020-01-19 | 2020-06-12 | 腾讯云计算(北京)有限责任公司 | 会议文档生成方法及装置 |
CN112528660A (zh) * | 2020-12-04 | 2021-03-19 | 北京百度网讯科技有限公司 | 处理文本的方法、装置、设备、存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113111658A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250839B2 (en) | Natural language processing models for conversational computing | |
US11063890B2 (en) | Technology for multi-recipient electronic message modification based on recipient subset | |
US9483582B2 (en) | Identification and verification of factual assertions in natural language | |
US20190066696A1 (en) | Method and apparatus for verifying information | |
US10956480B2 (en) | System and method for generating dialogue graphs | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
WO2022252636A1 (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN107430616A (zh) | 语音查询的交互式再形成 | |
US10762906B2 (en) | Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques | |
CN104346480A (zh) | 信息挖掘方法和装置 | |
CN111832308A (zh) | 语音识别文本连贯性处理方法和装置 | |
WO2023142451A1 (zh) | 工作流生成方法、装置、电子设备 | |
KR102030551B1 (ko) | 인스턴트 메신저 구동 장치 및 그 동작 방법 | |
US10102289B2 (en) | Ingesting forum content | |
WO2020199590A1 (zh) | 情绪检测分析方法及相关装置 | |
CN110738056A (zh) | 用于生成信息的方法和装置 | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN113470625A (zh) | 语音对话处理方法、装置、设备及存储介质 | |
US20240037324A1 (en) | Generating Meeting Notes | |
CN116010571A (zh) | 知识库构建方法、信息查询方法、装置以及设备 | |
CN116049370A (zh) | 信息查询方法和信息生成模型的训练方法、装置 | |
CN112632241A (zh) | 智能会话的方法、装置、设备和计算机可读介质 | |
CN112969000A (zh) | 网络会议的控制方法、装置、电子设备和存储介质 | |
CN114501112B (zh) | 用于生成视频笔记的方法、装置、设备、介质和产品 | |
US20240143678A1 (en) | Intelligent content recommendation within a communication session |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |