[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111062221A - 数据处理方法、装置、电子设备以及存储介质 - Google Patents

数据处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN111062221A
CN111062221A CN201911283529.8A CN201911283529A CN111062221A CN 111062221 A CN111062221 A CN 111062221A CN 201911283529 A CN201911283529 A CN 201911283529A CN 111062221 A CN111062221 A CN 111062221A
Authority
CN
China
Prior art keywords
text
word
determining
presentation format
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911283529.8A
Other languages
English (en)
Inventor
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Opper Communication Co Ltd
Original Assignee
Beijing Opper Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Opper Communication Co Ltd filed Critical Beijing Opper Communication Co Ltd
Priority to CN201911283529.8A priority Critical patent/CN111062221A/zh
Publication of CN111062221A publication Critical patent/CN111062221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种数据处理方法、装置、电子设备以及存储介质。其中,所述方法包括:获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。

Description

数据处理方法、装置、电子设备以及存储介质
技术领域
本发明涉及同声传译技术,尤其涉及一种数据处理方法、装置、电子设备以及存储介质。
背景技术
机器同传翻译系统是指利用自动语音识别(ASR,Automatic SpeechRecognition)技术对同传会议的发言者的发言内容进行自动识别,将发言者的发言内容从语音数据转换为文本数据;再利用机器翻译(MT,Machine Translation)技术对文本数据进行翻译,将发言者的发言内容转换为目标语言文本,并将翻译的结果展示给同传会议的参会者。随着自动语音识别技术与机器翻译技术的显著发展,机器同传翻译系统已达到实用阶段,且与人工同传的差距越来越小。
然而,相关技术中,在进行同声传译会议时,由于发言者的语速一般比较快,机器同传翻译系统展示给参会者的字幕切换的频率也较大,有时参会者还没有完全看完一个画面的字幕就已切换到下一个画面的字幕,严重影响了参会者对发言者的发言内容的理解。
发明内容
本发明实施例提供一种数据处理方法、装置、电子设备以及存储介质。
本发明实施例提供了一种数据处理方法,包括:
获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;
对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;
确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
上述方案中,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,包括:
对得到的至少一个词进行过滤,得到过滤后的分词结果;
基于所述过滤后的分词结果中每个词在所述识别本文中的出现频率,确定关键词。
上述方案中,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,包括:
针对每个词,确定相应词在所述识别文本中的出现频率;当所述相应词在所述识别文本中的出现频率符合第一预设条件时,将所述相应词确定为关键词。
上述方案中,所述确定相应词在所述识别文本中的出现频率,包括以下之一:
确定相应词在所述识别文本对应的分词结果中的出现频率;
确定相应词在第一信息库中的出现频率;所述第一信息库存储有当前同声传译过程的历史分词结果;
确定相应词在第二信息库中的出现频率;所述第二信息库包括第一信息库和所述识别文本对应的分词结果。
上述方案中,确定关键词时,所述方法还包括:
将相应词在所述识别文本中的出现频率与相应词与所述待处理的语音数据对应的技术领域相关联的概率进行加权处理,得到加权结果;当加权结果符合第一预设条件时,将所述相应词确定为关键词。
上述方案中,所述利用确定的关键词确定所述识别文本中的目标片段,包括以下之一:
将所述关键词确定为所述目标片段;
将所述识别文本划分成至少一个文本片段;将包含所述关键词的文本片段确定为所述目标片段。
上述方案中,所述对所述识别文本进行分词,包括:
利用预设分词模型,对所述识别文本进行分词。
上述方案中,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,包括:
在当前同声传译过程满足第二预设条件的情况下,利用得到的至少一个词在所述识别本文中的出现频率,确定关键词;
或者,
在当前同声传译过程不满足第二预设条件的情况下,基于得到的至少一个词在所述识别本文中的出现频率,并结合第三信息库,确定关键词;所述第三信息库存储有与所述待处理的语音数据对应的技术领域相关联的专业术语。
上述方案中,确定所述目标片段的第一呈现格式时,所述方法还包括:
针对确定的关键词中的第一关键词,利用词的出现频率与呈现格式的对应关系,确定与所述第一关键词在所述识别文本中的出现频率所对应的呈现格式;
将确定的呈现格式作为所述目标片段中与所述第一关键词对应的文本的呈现格式。
本发明实施例还提供了一种数据处理装置,包括:
获取单元,用于获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;
第一处理单元,用于对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;
第二处理单元,用于确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;
其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。
本发明实施例还提供了一种存储介质,所述介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
本发明实施例提供的数据处理方法、装置、电子设备以及存储介质,获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。本发明实施例的方案,基于对识别文本分词得到的至少一个词在所述识别本文中的出现频率,确定关键词,利用确定的关键词确定所述识别文本中的目标片段,并确定所述目标片段的呈现格式,以在呈现识别文本时使目标片段的呈现格式不同于识别文本中除所述目标片段外的其它文字的呈现格式,如此,能够对发言者的发言进行关键信息提取,以在为同传会议的参会者展示同传数据时将关键信息进行重点呈现,从而能够使参会者抓住发言者发言的重点信息,进一步更好地理解发言者的发言内容。
附图说明
图1为相关技术中机器同传系统的结构示意图;
图2为本发明实施例数据处理方法的流程示意图一;
图3为本发明实施例确定目标片段的流程示意图;
图4为本发明实施例数据处理方法的流程示意图二;
图5为本发明应用实施例数据处理方法的流程示意图;
图6为本发明实施例数据处理装置的结构示意图;
图7为本发明实施例电子设备的硬件结构示意图。
具体实施方式
以下结合说明书附图及实施例对本发明的技术方案作进一步详细的阐述。
在对本发明实施例的技术方案进行详细说明之前,首先对相关技术中的机器同传翻译系统进行简单说明,以下将机器同传翻译系统简称为机器同传系统。
图1为相关技术中机器同传系统的结构示意图;如图1所示,所述系统可包括:机器同传服务端、语音处理服务器、用户持有的终端、操作端、显示屏幕。所述用户持有的终端可以为手机、平板电脑等;所述操作端可以采用个人电脑(PC,Personal Computer)、手机等,其中,所述PC可以为台式电脑、笔记本电脑、平板电脑等。
实际应用时,同传会议的发言者可以通过操作端进行发言,在发言的过程中,操作端采集发言者的语音数据,将采集的语音数据发送给机器同传服务端,所述机器同传服务端通过语音处理服务器对语音数据进行识别,得到识别文本(所述识别文本可以是与语音数据相同语种的识别文本,也可以是对所述识别文本进行翻译后得到的其他语种的识别文本);机器同传服务端可以将识别文本发送给操作端,由操作端将识别文本投屏到显示屏幕上;还可以将识别文本发送给用户持有的终端(具体依据参会者所需的语种,对应发送相应语种的识别结果),为参会者展示识别文本,从而实现将发言者的发言内容翻译成参会者需要的语种并进行展示。其中,所述语音处理服务器可以包括:语音识别模块(即所述语音识别系统)、文本顺滑模块、机器翻译模块。所述语音识别模块用于对用户的语音数据进行文本识别,得到识别文本;所述文本顺滑模块用于对所述识别文本进行格式处理,例如:口语顺滑、标点恢复和逆文本标准化等;所述机器翻译模块用于将格式处理后的识别文本翻译成另一种语种的文本,即得到翻译文本。
这里,需要说明的是,图1仅作为机器同传系统结构的举例说明,实际应用时,机器同传系统也可以在一个移动设备上实现。
然而,在进行同传会议的过程中,发言者的发言语速可能会比较快,使得显示屏幕或用户持有的终端为参会者展示发言者的发言内容时,切换展示数据的速度也比较快;在参会者还没有看完一个画面的展示数据的情况下,可能会出现显示屏幕或用户持有的终端已切换到下一个画面的展示数据的情况。为此,如何使参会者更快地抓住发言者发言的重点信息,进一步更好地理解发言者的发言内容,是亟待解决的问题。
在一实施例中,对待处理的语音数据进行文本识别,获得识别文本;对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中需要重点展示的片段,并确定所述需要重点展示的片段的呈现格式;以使需要重点展示的片段的呈现格式区别于识别文本中其它文本的呈现格式。如此,能够对发言者的发言进行关键信息提取,以在为同传会议的参会者展示同传数据时将关键信息进行重点呈现,从而能够使参会者抓住发言者发言的重点信息,进一步更好地理解发言者的发言内容。
本发明实施例提供一种数据处理方法,应用于电子设备;如图2所示,所述方法包括以下步骤:
步骤201:获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;
这里,所述识别文本用于在播放所述语音数据时进行呈现。
步骤202:对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段。
步骤203:确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;
这里,所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
具体地,在步骤201中,所述识别文本用于在播放所述语音数据时进行呈现,指在播放所述语音数据的同时呈现所述识别文本,即本发明实施例提供的数据处理方法可以应用于同声传译的场景,所述同声传译场景可以采用如图1所示的系统结构,所述电子设备可以是在图1系统结构中新增加的设备,也可以是对图1架构中某一设备进行改进,以能够实现本发明实施例的方法即可。
需要说明的是,实际应用时,在同声传译场景下,随着发言者发言的进行,语音数据将会不断变化,因此识别文本也随着语音数据的变化而不断变化。
实际应用时,所述电子设备可以是终端或服务器。在所述电子设备为终端的情况下,终端可以通过自身具备的语音采集模块(比如麦克风)或与自身建立了通信连接的语音采集模块采集所述待处理的语音数据。在所述电子设备为服务器的情况下,可以先由终端采集所述待处理的语音数据,服务器再从终端获取所述待处理的语音数据;或者,服务器也可以通过自身具备的语音采集模块或与自身建立了通信连接的语音采集模块直接采集所述待处理的语音数据。
举例来说,实际应用时,在同声传译场景下,当发言者进行发言时,可以由第一终端(如图1所示的操作端)利用语音采集模块实时采集发言内容,即得到待处理的语音数据。所述第一终端与用于实现同声传译的服务器之间可以建立通信连接,所述第一终端将获取的语音数据发送给用于实现同声传译的服务器,所述服务器即可实时获取所述待处理的语音数据并对所述语音数据进行文本识别,得到识别文本以进行呈现,即实现在播放所述语音数据的同时呈现所述识别文本。
在步骤201中,实际应用时,根据语音数据得到的识别文本可以对应有一种或多种语种,不同语种的识别文本用以展示给不同语种的参会者。
这里,所述识别文本对应有至少一种语种,所述识别文本可以是与所述待处理的语音数据相同语种(记做第一语种)的识别文本,也可以是针对第一语种的识别文本进行翻译后的其他语种的识别文本,具体可以是第二语种的识别文本、……、第N语种的识别文本,N大于或等于1。
实际应用时,当所述识别文本为与所述待处理的语音数据相同语种的文本时,所述对所述语音数据进行文本识别,获得识别文本,包括:
对所述语音数据进行语音识别,获得第一语种的识别文本;所述第一语种与所述语音数据对应的语种相同。
当所述识别文本为与所述待处理的语音数据不同语种的文本时,所述对所述语音数据进行文本识别,获得识别文本,包括:
对所述语音数据进行语音识别,获得第一语种的识别文本;所述第一语种与所述语音数据对应的语种相同;
运用预设的翻译模型对所述第一语种的识别文本进行机器翻译,获得其他语种的识别文本。
通过上述方式对所述语音数据进行文本识别,获得的识别文本对应有至少一种语种,即根据所述语音数据可以得到第一语种的识别文本、第二语种的识别文本、……、第N语种的识别文本,N大于或等于1。
这里,所述翻译模型用于将一种语种的文本翻译为另一种语种的文本。实际应用时,所述翻译模型可以是利用机器学习技术(比如神经网络技术)训练得到的模型。
实际应用时,对所述语音数据进行语音识别时,识别出的文本可能存在缺少标点符号、标点符号错误以及语句不通顺等问题;因此可以利用预设文本整理模型整理语音识别出的文本,将所述预设文本整理模型输出的文本作为第一语种的识别文本。
所述预设文本整理模型,用于整理输入的文本,并输出整理后的文本;所述整理输入的文本包括以下至少之一:为输入的文本增加、修改或删除标点符号;为输入的文本调整语序。实际应用时,所述预设文本整理模型可以是利用机器学习技术(比如神经网络技术)训练得到的模型。
实际应用时,所述电子设备获得识别文本后,可以在自身具备的显示屏幕或与自身建立了通信连接的显示屏幕上直接呈现所述识别文本,也可以将所述识别文本发送至第二终端(如图1所示的操作端或用户持有的终端),在播放所述语音数据时由所述第二终端为同传会议的参会者呈现识别文本,参会者即可阅读识别文本,以了解所述语音数据的内容。所述第二终端可以预设目标翻译语种,也可以通过自身具备的人机交互界面或与自身建立了通信连接的人机交互界面为参会者提供语种选择服务,参会者可以在所述人机交互界面上选择自己需要的目标翻译语种;所述第二终端确定目标翻译语种后,可以发送包含所述目标翻译语种的识别文本请求消息到所述电子设备,所述电子设备再将所述目标翻译语种对应的识别文本发送给所述第二终端进行呈现。当然,所述电子设备中也可以预设目标翻译语种,或者,通过自身具备的人机交互界面或与自身建立了通信连接的人机交互界面为参会者提供语种选择服务,在确定目标翻译语种后,直接呈现所述目标翻译语种对应的识别文本,并将所述目标翻译语种对应的识别文本发送给所述第二终端进行呈现。
其中,对于步骤202,在一实施例中,所述对所述识别文本进行分词,可以包括:
利用预设分词模型,对所述识别文本进行分词。
这里,所述预设分词模型,用于对输入的文本进行词语划分,并输出划分得到的至少一个词。实际应用时,所述预设分词模型可以是利用机器学习技术(比如神经网络技术)训练得到的模型。
对于步骤202,在一实施例中,如图3所示,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,可以包括以下步骤:
步骤2021:对得到的至少一个词进行过滤,得到过滤后的分词结果;
步骤2022:基于所述过滤后的分词结果中每个词在所述识别本文中的出现频率,确定关键词。
其中,对于步骤2021,所述对得到的至少一个词进行过滤,可以包括:
利用预设过滤模型,对得到的至少一个词进行过滤。
具体地,所述预设过滤模型,用于对输入的词进行过滤,滤除其中的常用词(比如同学、好、谢谢、开始、和结束等词语)和停用词(比如鄙人、除开、和也罢等词语)等日常生活中经常使用但实际表达的信息量较少的词,并输出过滤后的词,即输出过滤后的分词结果。实际应用时,所述预设过滤模型可以是利用机器学习技术(比如神经网络技术)训练得到的模型。
实际应用时,在同传会议的开场白以及结束语等阶段,所述待处理的语音数据中的词语可能都是日常生活中经常使用但实际表达的信息量较少的词;也就是说,对所述识别文本进行分词,得到至少一个词,对所述至少一个词进行过滤时,可能将所述至少一个词全部滤除,无法得到过滤后的分词结果;这种情况下,说明所述识别文本中没有需要重点呈现的部分,可以直接以预设的基本呈现格式呈现所述识别文本。
基于此,在一实施例中,所述方法还可以包括:对所述至少一个词进行过滤时,在所述至少一个词被全部滤除的情况下,将所述识别文本的呈现格式确定为预设呈现格式。
当然,在所述至少一个词未被全部滤除的情况下,可以将所述过滤后的分词结果包含的所有词都确定为目标片段。实际应用时,所述目标片段可以是至少一个字、词、句子或段落。
实际应用时,存在分词结果(可以是未经过滤的分词结果或过滤后的分词结果)包含大量词语的情况,如果将分词结果包含的所有词都确定为目标片段,识别文本中重点呈现的文本过多,参会者无法更直观的抓住发言者发言的重点信息;此时,可以确定分词结果包含的每个词在识别文本中的出现频率,利用出现频率满足预设条件的词确定关键词,再利用确定的关键词确定目标片段;这样,能够进一步地精简需要重点呈现的文本,使参会者更直观地抓住发言者发言的重点信息,进一步更好地理解发言者的发言内容。
基于此,对于步骤2022,在一实施例中,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,可以包括:
针对每个词,确定相应词在所述识别文本中的出现频率;当所述相应词在所述识别文本中的出现频率符合第一预设条件时,将所述相应词确定为关键词。
这里,所述每个词可以是未经过滤的分词结果包含的每个词,也可以是过滤后的分词结果包含的每个词。
实际应用时,所述确定相应词在所述识别文本中的出现频率,可以包括以下之一:
确定相应词在所述识别文本对应的分词结果中的出现频率;
确定相应词在第一信息库中的出现频率;所述第一信息库存储有当前同声传译过程的历史分词结果;
确定相应词在第二信息库中的出现频率;所述第二信息库包括第一信息库和所述识别文本对应的分词结果。
这里,所述分词结果可以是未经过滤的分词结果或过滤后的分词结果。
实际应用时,可以根据需要选择上述任一方法确定相应词在所述识别文本中的出现频率。并且,在确定相应词在所述识别文本中的出现频率时,可以统计相应词出现的次数,将所述相应词出现的次数直接作为相应词的出现频率;也可以计算相应词的出现次数除以总词数的值,将得到的值作为相应词的出现频率。举例来说,可以根据需要设置一个第一预设阈值(比如200)。在所述识别文本对应的分词结果的总词数大于或等于第一预设阈值的情况下,确定相应词在所述识别文本对应的分词结果中的出现次数,将出现次数作为相应词的出现频率;或者,确定相应词在所述识别文本对应的分词结果中的出现次数除以所述识别文本对应的分词结果的总词数的值,将确定的值作为相应词的出现频率。在所述识别文本对应的分词结果的总词数小于第一预设阈值的情况下,利用当前同声传译过程的历史分词结果确定相应词的出现频率;即确定相应词在第一信息库中的出现频率(确定相应词在第一信息库中的出现次数,将出现次数作为相应词的出现频率;或者,确定相应词在第一信息库中的出现次数除以所述第一信息库的总词数的值,将确定的值作为相应词的出现频率),或者确定相应词在第二信息库中的出现频率(确定相应词在第二信息库中的出现次数,将出现次数作为相应词的出现频率;或者,确定相应词在第二信息库中的出现次数除以所述第二信息库的总词数的值,将确定的值作为相应词的出现频率)。
实际应用时,当前同声传译过程的历史分词结果可以存储在服务器的本地数据库或缓存中,也可以存储在云端。
基于此,在一实施例中,所述方法还包括:
从本地、缓存或云端获取所述第一信息库。
实际应用时,第一信息库是基于当前同声传译的过程不断更新的,即每次确定分词结果(可以是未经过滤的分词结果或过滤后的分词结果)时,可以将确定的分词结果增加到第一信息库中,得到第二信息库;并在获得下一个待处理的语音数据之前,利用第二信息库更新第一信息库。
实际应用时,可以根据需要设置所述第一预设条件。比如,所述第一预设条件可以是一个预设阈值(记做第二预设阈值),所述第二预设阈值也可以根据需要设置(比如在将出现次数作为相应词的出现频率的情况下,可以设置第二预设阈值为50;再比如,在将相应词的出现次数除以总词数的值作为相应词的出现频率的情况下,可以设置第二预设阈值为25%);当相应词在所述识别文本中的出现频率大于或等于所述第二预设阈值时,可看作相应词在所述识别文本中的出现频率符合第一预设条件;当然,当相应词在所述识别文本中的出现频率小于所述第二预设阈值时,可看作相应词在所述识别文本中的出现频率不符合第一预设条件。
实际应用时,考虑到可能会存在相应词在所述识别文本中的出现频率高,但并不是所述待处理的语音数据对应的技术领域相关联的词语的情况,即不符合当前同声传译会议的主题,不需要重点呈现给参会者;所以可以在确定关键词时,还确定相应词与所述待处理的语音数据对应的技术领域相关联的概率,对所述相应词在所述识别文本中的出现频率和所述相应词与所述待处理的语音数据对应的技术领域相关联的概率进行加权处理,在加权处理得到的结果符合第一预设条件时,将所述相应词确定为关键词;如此,能够进一步准确地确定关键词,使参会者抓住发言者发言的重点信息,进一步更好地理解发言者的发言内容。
基于此,在一实施例中,确定关键词时,所述方法还可以包括:
将相应词在所述识别文本中的出现频率与相应词与所述待处理的语音数据对应的技术领域相关联的概率进行加权处理,得到加权结果;当加权结果符合第一预设条件时,将所述相应词确定为关键词。
这里,需要说明的是,在进行加权处理的情况下,确定相应词在所述识别文本中的出现频率的方式包括以下之一:
确定相应词在所述识别文本对应的分词结果中的出现次数除以所述识别文本对应的分词结果的总词数的值;
确定相应词在所述第一信息库中的出现次数除以所述第一信息库总词数的值;
确定相应词在所述第二信息库中的出现次数除以所述第二信息库总词数的值。
实际应用时,在确定多个关键词之后,可以直接将确定的关键词确定为目标片段;也可以将所述识别文本划分成至少一个文本片段,将包含多个关键词中的至少一个关键词的文本片段确定为目标片段;还可以设置一个第三预设阈值,对于所述至少一个文本片段中的每个文本片段,在相应文本片段包含的关键词个数大于或等于所述第三预设阈值的情况下,将相应文本片段确定为目标片段。这样,在确定需要重点呈现的文本时,可以根据需要,确定发言者发言的重点信息的重点强度,进一步使参会者更好地理解发言者的发言内容。
基于此,在一实施例中,所述利用确定的关键词确定所述识别文本中的目标片段,可以包括以下之一:
将所述关键词确定为所述目标片段;
将所述识别文本划分成至少一个文本片段;将包含所述关键词的文本片段确定为所述目标片段。
在步骤203中,实际应用时,所述第一呈现格式和所述第二呈现格式,可以包括以下至少之一:
字体;
字号;
字体颜色。
所述字体,可以包括加粗或非加粗、斜体或非斜体、有下划线或无下划线等字体格式。
实际应用时,为了进一步突出所述目标片段中出现频率更高的关键词对应的文本,可以预先设置词的出现频率与呈现格式的对应关系;在确定所述目标片段的第一呈现格式时,利用预设的词的出现频率与呈现格式的对应关系,所述目标片段的第一呈现格式;如此,可以进一步突出发言者发言的重点信息,进一步使参会者更好地理解发言者的发言内容。
基于此,在一实施例中,确定所述目标片段的第一呈现格式时,所述方法还可以包括:
针对确定的关键词中的第一关键词,利用词的出现频率与呈现格式的对应关系,确定与所述第一关键词在所述识别文本中的出现频率所对应的呈现格式;
将确定的呈现格式作为所述目标片段中与所述第一关键词对应的文本的呈现格式。
这里,需要说明的是,针对所述目标片段中的全部文本,呈现格式可以相同或不同。
实际应用时,所述目标片段中与所述第一关键词对应的文本可以是与所述第一关键词相同的文本或包含所述第一关键词的一个文本片段;在所述目标片段中与所述第一关键词对应的文本是包含所述第一关键词的一个文本片段(记做第一文本片段)的情况下,所述第一文本片段可能会包含确定的关键词中除所述第一关键词外的其它关键词;此时,可以确定所述第一文本片段包含的至少一个关键词中每个关键词在所述识别文本中的出现频率,得到至少一个出现频率;确定得到的至少一个出现频率的平均出现频率,利用词的出现频率与呈现格式的对应关系,将所述平均出现频率对应的呈现格式确定为所述第一文本片段的呈现格式;或者,确定得到的至少一个出现频率的最大出现频率,利用词的出现频率与呈现格式的对应关系,将所述最大出现频率对应的呈现格式确定为所述第一文本片段的呈现格式。
实际应用时,可以根据需要设置词的出现频率与呈现格式的对应关系,并在词的出现频率越大的情况下,将对应的呈现格式设置的越突出(即与所述第二呈现格式的区别越大)。
比如,可以设置每个出现频率值对应一种呈现格式;举例来说,假设所述第二呈现格式为“4号字、楷体、黑色”,此时,可以设置出现频率值25%对应的呈现格式为“3号字、楷体、黑色”、出现频率值26%对应的呈现格式为“3号字、楷体、加粗、黑色”;当所述第一关键词在所述识别文本中的出现频率为25%时,将所述目标片段中与所述第一关键词对应的文本的呈现格式确定为“3号字、楷体、黑色”;当所述第一关键词在所述识别文本中的出现频率为26%时,将所述目标片段中与所述第一关键词对应的文本的呈现格式确定为““3号字、楷体、加粗、黑色”。
再比如,为了提高所述电子设备的计算速度,减少同声传译时延,可以设置至少一个出现频率范围以及每个出现频率范围对应的呈现格式;举例来说,假设所述第二呈现格式为“4号字、楷体、黑色”,此时,可以设置三个频率范围:25%~50%、50%~75%和75%~100%,并设置频率范围25%~50%对应的呈现格式为“3号字、楷体、黑色”、频率范围50%~75%对应的呈现格式为“3号字、楷体、加粗、黑色”、频率范围75%~100%对应的呈现格式为“2号字、宋体、加粗、红色”;当所述第一关键词在所述识别文本中的出现频率在25%~50%的频率范围内时,将所述目标片段中与所述第一关键词对应的文本的呈现格式确定为“3号字、楷体、黑色”;当所述第一关键词在所述识别文本中的出现频率在50%~75%的频率范围内时,将所述目标片段中与所述第一关键词对应的文本的呈现格式确定为“3号字、楷体、加粗、黑色”;当所述第一关键词在所述识别文本中的出现频率在75%~100%的频率范围内时,将所述目标片段中与所述第一关键词对应的文本的呈现格式确定为“2号字、宋体、加粗、红色”。
实际应用时,可能会存在当前同声传译过程刚刚开始、或者历史分词结果较少等不适用于上述利用相应词在所述识别文本中的出现频率确定关键词的情况;此时,可以通过在服务器或云端预设关键词库的方式,对所述识别文本和所述关键词库进行匹配,将匹配得到的词确定为关键词,再利用确定的关键词确定目标片段。所述关键词库可以由当前同声传译过程的发言者事先提供;也可以在服务器或云端预先存储各技术领域对应的专业术语词库,在服务器获得待处理的语音数据后,先确定所述语音数据对应的技术领域(可以由主办方预先在服务器中设置当前同传会议对应的技术领域,也可以利用前述预设分类模型确定所述语音数据对应的技术领域),再从本地或云端获取所述语音数据对应的技术领域所对应的专业术语词库,将获得的专业术语词库确定为关键词库。
基于此,在一实施例中,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,可以包括:
在当前同声传译过程满足第二预设条件的情况下,利用得到的至少一个词在所述识别本文中的出现频率,确定关键词;
或者,
在当前同声传译过程不满足第二预设条件的情况下,基于得到的至少一个词在所述识别本文中的出现频率,并结合第三信息库,确定关键词;所述第三信息库存储有与所述待处理的语音数据对应的技术领域相关联的专业术语。
具体地,在当前同声传译过程满足第二预设条件时,仅利用得到的至少一个词在所述识别本文中的出现频率,确定关键词;在当前同声传译过程不满足第二预设条件时,基于得到的至少一个词在所述识别本文中的出现频率,并结合第三信息库,确定关键词。也就是说,在当前同声传译过程不满足第二预设条件的情况下,所述第一预设条件为能够与所述第三信息库存储的信息匹配。
实际应用时,所述第二预设条件可以根据需要设置。比如,可以将所述第二预设条件设置为判断当前同声传译过程的进行时长是否大于或等于第四预设阈值(比如30分钟);在当前同声传译过程的进行时长大于或等于第四预设阈值的情况下,可看作当前同声传译过程满足第二预设条件;在当前同声传译过程的进行时长小于第四预设阈值的情况下,可看作当前同声传译过程不满足第二预设条件。再比如,可以将所述第二预设条件设置为判断所述第一词库的总词数是否大于或等于第五预设阈值(比如1000);在所述第一词库的总词数大于或等于第五预设阈值的情况下,可看作当前同声传译过程满足第二预设条件;在所述第一词库的总词数小于第五预设阈值的情况下,可看作当前同声传译过程不满足第二预设条件。
实际应用时,在同一个同声传译场景中,在所述电子设备为服务器的情况下,服务器会面向多个终端,为每个终端发送同声传译数据;为保证服务器向多个终端同时发送同声传译数据的时效性,所述服务器可以采用缓存的方式,在接收到获取同声传译数据的请求时直接从缓存中获取相应的数据;如此,可以保证同声传译数据下发的高时效性,保护服务器的计算资源。
基于此,在一实施例中,所述电子设备为服务器,利用所述待处理的语音数据获得的同声传译数据对应至少一种语种;所述方法还可以包括:
将至少一种语种对应的同声传译数据,按语种进行分类缓存;
这里,所述每种语种的同声传译数据包括所述识别文本、所述目标片段、第一呈现格式和第二呈现格式。
实际应用时,服务器可以预先确定至少一个终端中各终端的预置语种,从数据库中获取预置语种对应的同声传译数据进行缓存。
通过缓存操作,当有终端选择不同于预置语种的其他语种时,可以直接从缓存中获取相应语种的同声传译数据,从而可以提高时效性和对计算资源的保护。
实际应用时,终端选择与预置语种不同的其他语种,所述其他语种的同声传译数据可能未缓存,服务器确定终端发送选择不同于其预置语种的其他语种的获取请求时,可以将该终端请求的其他语种的同声传译数据也进行缓存;当再有其它终端也选择相同的语种,则可以直接从缓存中获取相应的同声传译数据,从而可以提高时效性和对计算资源的保护。
实际应用时,为了提供符合参会者需求的语种对应的同声传译数据,可以根据参会者通过终端发送的获取请求,获取目标语种对应的同声传译数据。
基于此,在一实施例中,如图4所示,所述方法还可以包括以下步骤:
步骤401:接收终端发送的获取请求;所述获取请求用于获取同声传译数据;所述获取请求至少包括:目标语种;
步骤402:从缓存的同声传译数据中获取所述目标语种对应的同声传译数据;
步骤403:将获取的所述目标语种对应的同声传译数据发送给终端。
这里,所述终端可以是图1所示系统架构中用户持有的终端,所述终端可以设有人机交互界面,参会者可以通过人机交互界面选择语种,终端根据参会者的选择生成包含目标语种的获取请求,并将获取请求发送给服务器,从而所述服务器接收所述获取请求。
本发明实施例提供的数据处理方法,获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。如此,能够对发言者的发言进行关键信息提取,以在为同传会议的参会者展示同传数据时将关键信息进行重点呈现,从而能够使参会者抓住发言者发言的重点信息,进一步更好地理解发言者的发言内容。
下面结合应用实施例对本发明再作进一步详细的描述。
本应用实施例提供的数据处理装置,应用于同声传译场景,所述数据处理装置包括:语音识别模块和机器翻译模块;其中,
所述语音识别模块,用于将发言者发言的语音从声波转换为文本;
所述机器翻译模块,用于将语音识别模块输出的文本翻译为参会者需要的语种对应的文本,得到翻译结果。
本应用实施例提供的数据处理方法,应用于所述数据处理装置,如图5所示,所述数据处理方法具体包括以下步骤:
步骤501:采集待处理的发言者的发言语音(即上述待处理的语音数据),利用语音识别模块将发言语音从声波转换为文本,得到识别文本;之后执行步骤502。
这里,所述语音识别模块直接识别发言语音得到的文本可能会存在缺失标点符号、标点符号错误以及语句不通顺等问题;所以,所述语音识别模块需要对识别的文本进行增加标点符号、删除标点符号、修改标点符号以及调整语序等规范化处理,将处理后的文本确定为识别文本,并输出识别文本到所述机器翻译模块。
步骤502:利用机器翻译模块对所述语音识别模块输出的识别文本进行翻译,得到翻译结果;之后执行步骤503。
这里,所述语音识别模块输出的识别文本以及所述机器翻译模块输出的翻译结果相当于图2所示的数据处理方法的步骤201获得的识别文本;步骤501和步骤502的具体实现过程与图2所示的数据处理方法的步骤201的具体实现过程相同;这里不多赘述。
步骤503:抓取所述识别文本中的重点片段以及所述翻译结果中的重点片段;之后执行步骤504。
这里,所述重点片段可以是字、词、句子或段落。
实际应用时,可以采用以下两种方式抓取所述识别文本中的重点片段以及所述翻译结果中的重点片段:
方式一:在所述数据处理装置中预设专业术语词典或用户词典;所述用户词典为当前同声传译过程的发言者在会议前提供的重点词词典;所述专业术语词典为各技术领域对应的专业术语词典;所述专业术语词典和所述用户词典各自对应了至少两种语种(与发言者的发言语音相同的语种以及任一不同于发言者的发言语音的语种)。利用所述专业术语词典或所述用户词典分别匹配所述识别文本和所述翻译结果,将所述识别文本和所述翻译结果中与所述专业术语词典或所述用户词典相同的文本分别确定为需要抓取的所述识别文本的重点片段以及需要抓取的所述翻译结果的重点片段。
方式二:利用分词工具(即上述预设分词模型)分别对所述识别文本和所述翻译结果进行分词。对于所述识别文本,对分词之后得到的词进行过滤,滤除停用词和常用词等日常生活中经常使用但包含的信息量较少的词语,统计过滤得到的每个词在所述识别文本中出现的频率,将频率较高(即上述大于或等于第二预设阈值)的词确定为所述识别文本中的重点片段。对于所述翻译结果,对分词之后得到的词进行过滤,滤除停用词和常用词等日常生活中经常使用但包含的信息量较少的词语,统计过滤得到的每个词在所述翻译结果中出现的频率,将频率较高(即上述大于或等于第二预设阈值)的词确定为所述翻译结果中的重点片段。
对于上述两种方法,方式一比较简单、直接,可以快速地抓取到所述识别文本中的重点片段以及所述翻译结果中的重点片段;方式二比较灵活和全面,可以在不依赖于外部资源(预设的词典)的情况下有效地抓取到所述识别文本中的重点片段以及所述翻译结果中的重点片段;实际应用时,可以根据需要结合方式一和方式二,以抓取所述识别文本中的重点片段以及所述翻译结果中的重点片段。
具体地,步骤503的具体实现过程与图2所示的数据处理方法的步骤202的具体实现过程相同;这里不多赘述。
步骤504:在在终端装置的屏幕上呈现所述识别文本和所述翻译结果,对步骤503中抓取的所述识别文本中的重点片段以及所述翻译结果中的重点片段进行粗体和放大显示。
这里,所述数据处理装置将所述识别文本、所述翻译结果以及所述识别文本和所述翻译结果的呈现格式发送给终端装置,由终端装置在屏幕上进行呈现。
具体地,步骤504的具体实现过程与图2所示的数据处理方法的步骤203的具体实现过程相同;这里不多赘述。
本应用实施例提供的数据处理装置以及数据处理方法,具备以下优点:
能够对发言者的发言进行关键信息提取,以在为同传会议的参会者展示同传数据时将关键信息进行重点呈现,从而能够辅助参会者更好地通过同传字幕来抓住发言者发言的重点信息,进一步更好地理解发言者的发言内容。
为了实现本发明实施例的方法,本发明实施例还提供了一种数据处理装置;如图6所示,数据处理装置600包括:获取单元601、第一处理单元602和第二处理单元603;其中,
所述获取单元601,用于获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;
所述第一处理单元602,用于对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;
所述第二处理单元603,用于确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
在一实施例中,所述第一处理单元602,具体用于:
对得到的至少一个词进行过滤,得到过滤后的分词结果;
基于所述过滤后的分词结果中每个词在所述识别本文中的出现频率,确定关键词。
在一实施例中,所述第一处理单元602,具体用于:
针对每个词,确定相应词在所述识别文本中的出现频率;当所述相应词在所述识别文本中的出现频率符合第一预设条件时,将所述相应词确定为关键词;其中,
所述确定相应词在所述识别文本中的出现频率,包括以下之一:
确定相应词在所述识别文本对应的分词结果中的出现频率;
确定相应词在第一信息库中的出现频率;所述第一信息库存储有当前同声传译过程的历史分词结果;
确定相应词在第二信息库中的出现频率;所述第二信息库包括第一信息库和所述识别文本对应的分词结果;
所述利用确定的关键词确定所述目标片段,包括以下之一:
将所述关键词确定为所述目标片段;
将所述识别文本划分成至少一个文本片段;将包含所述关键词的文本片段确定为所述目标片段。
在一实施例中,确定关键词时,所述第一处理单元602,还用于:
将相应词在所述识别文本中的出现频率与相应词与所述待处理的语音数据对应的技术领域相关联的概率进行加权处理,得到加权结果;当加权结果符合第一预设条件时,将所述相应词确定为关键词。
在一实施例中,所述第一处理单元602,还具体用于:
利用预设分词模型,对所述识别文本进行分词。
在一实施例中,所述第一处理单元602,还用于:
在当前同声传译过程满足第二预设条件的情况下,利用得到的至少一个词在所述识别本文中的出现频率,确定关键词;
或者,
在当前同声传译过程不满足第二预设条件的情况下,基于得到的至少一个词在所述识别本文中的出现频率,并结合第三信息库,确定关键词;所述第三信息库存储有与所述待处理的语音数据对应的技术领域相关联的专业术语。
在一实施例中,确定所述目标片段的第一呈现格式时,所述第二处理单元603,还用于:
针对确定的关键词中的第一关键词,利用词的出现频率与呈现格式的对应关系,确定与所述第一关键词在所述识别文本中的出现频率所对应的呈现格式;
将确定的呈现格式作为所述目标片段中与所述第一关键词对应的文本的呈现格式。
其中,所述获取单元601、所述第一处理单元602和所述第二处理单元603的功能相当于上述应用实施例中数据处理装置的语音识别模块和机器翻译模块的功能。
实际应用时,所述获取单元601、所述第一处理单元602和所述第二处理单元603可由数据处理装置600中的处理器结合通信接口实现;所述处理器可以是中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable GateArray)。
需要说明的是:上述实施例提供的数据处理装置600在进行同声传译时,仅以上述各程序模块的划分进行举例说明,实际应用时,可以根据需要而将上述处理分配由不同的程序模块完成,即将终端的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述设备的硬件实现,本发明实施例还提供了一种电子设备,图7为本发明实施例的电子设备的硬件组成结构示意图,如图7所示,电子设备70包括存储器73、处理器72及存储在存储器73上并可在处理器72上运行的计算机程序所述处理器72执行所述程序时实现上述一个或多个技术方案提供的方法。
具体地,位于电子设备70的处理器72执行所述程序时实现:获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
需要说明的是,位于电子设备70的处理器72执行所述程序时实现的具体步骤已在上文详述,这里不再赘述。
可以理解,电子设备70还包括通信接口71,所述通信接口71用于和其它设备进行信息交互;同时,电子设备70中的各个组件通过总线系统74耦合在一起。可理解,总线系统74配置为实现这些组件之间的连接通信。总线系统74除包括数据总线之外,还包括电源总线、控制总线和状态信号总线等。
可以理解,本实施例中的存储器73可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,ReadOnly Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccess Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器72中,或者由处理器72实现。处理器72可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器72中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器72可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器72可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器72读取存储器中的信息,结合其硬件完成前述方法的步骤。
本发明实施例还提供了一种存储介质,具体为计算机存储介质,更具体的为计算机可读存储介质。其上存储有计算机指令,即计算机程序,该计算机指令被处理器执行时上述一个或多个技术方案提供的方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;
对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;
确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
2.根据权利要求1所述的方法,其特征在于,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,包括:
对得到的至少一个词进行过滤,得到过滤后的分词结果;
基于所述过滤后的分词结果中每个词在所述识别本文中的出现频率,确定关键词。
3.根据权利要求1所述的方法,其特征在于,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,包括:
针对每个词,确定相应词在所述识别文本中的出现频率;当所述相应词在所述识别文本中的出现频率符合第一预设条件时,将所述相应词确定为关键词。
4.根据权利要求3所述的方法,其特征在于,所述确定相应词在所述识别文本中的出现频率,包括以下之一:
确定相应词在所述识别文本对应的分词结果中的出现频率;
确定相应词在第一信息库中的出现频率;所述第一信息库存储有当前同声传译过程的历史分词结果;
确定相应词在第二信息库中的出现频率;所述第二信息库包括第一信息库和所述识别文本对应的分词结果。
5.根据权利要求3或4所述的方法,其特征在于,确定关键词时,所述方法还包括:
将相应词在所述识别文本中的出现频率与相应词与所述待处理的语音数据对应的技术领域相关联的概率进行加权处理,得到加权结果;当加权结果符合第一预设条件时,将所述相应词确定为关键词。
6.根据权利要求1所述的方法,其特征在于,所述利用确定的关键词确定所述识别文本中的目标片段,包括以下之一:
将所述关键词确定为所述目标片段;
将所述识别文本划分成至少一个文本片段;将包含所述关键词的文本片段确定为所述目标片段。
7.根据权利要求1所述的方法,其特征在于,所述对所述识别文本进行分词,包括:
利用预设分词模型,对所述识别文本进行分词。
8.根据权利要求1所述的方法,其特征在于,所述基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,包括:
在当前同声传译过程满足第二预设条件的情况下,利用得到的至少一个词在所述识别本文中的出现频率,确定关键词;
或者,
在当前同声传译过程不满足第二预设条件的情况下,基于得到的至少一个词在所述识别本文中的出现频率,并结合第三信息库,确定关键词;所述第三信息库存储有与所述待处理的语音数据对应的技术领域相关联的专业术语。
9.根据权利要求1所述的方法,其特征在于,确定所述目标片段的第一呈现格式时,所述方法还包括:
针对确定的关键词中的第一关键词,利用词的出现频率与呈现格式的对应关系,确定与所述第一关键词在所述识别文本中的出现频率所对应的呈现格式;
将确定的呈现格式作为所述目标片段中与所述第一关键词对应的文本的呈现格式。
10.一种数据处理装置,其特征在于,包括:
获取单元,用于获得待处理的语音数据,对所述语音数据进行文本识别,获得识别文本;所述识别文本用于在播放所述语音数据时进行呈现;
第一处理单元,用于对所述识别文本进行分词,得到至少一个词;基于得到的至少一个词在所述识别本文中的出现频率,确定关键词,并利用确定的关键词确定所述识别文本中的目标片段;
第二处理单元,用于确定所述目标片段的第一呈现格式,以在呈现所述识别文本时以所述第一呈现格式呈现所述目标片段;所述第一呈现格式与第二呈现格式不同;所述第二呈现格式为所述识别文本中除所述目标片段外的其它文字的呈现格式。
11.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至9任一项所述方法的步骤。
12.一种存储介质,所述介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。
CN201911283529.8A 2019-12-13 2019-12-13 数据处理方法、装置、电子设备以及存储介质 Pending CN111062221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911283529.8A CN111062221A (zh) 2019-12-13 2019-12-13 数据处理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911283529.8A CN111062221A (zh) 2019-12-13 2019-12-13 数据处理方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN111062221A true CN111062221A (zh) 2020-04-24

Family

ID=70301538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911283529.8A Pending CN111062221A (zh) 2019-12-13 2019-12-13 数据处理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111062221A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723816A (zh) * 2020-06-28 2020-09-29 北京联想软件有限公司 一种教学笔记的获取方法及电子设备
CN113782027A (zh) * 2021-09-01 2021-12-10 维沃移动通信(杭州)有限公司 音频处理方法及音频处理装置
CN113849606A (zh) * 2021-09-29 2021-12-28 联想(北京)有限公司 文件处理方法及装置、电子设备
CN113918759A (zh) * 2021-09-28 2022-01-11 湖北美和易思教育科技有限公司 基于bs架构的音频数据识别结果显示方法、系统及介质
CN113989807A (zh) * 2021-10-13 2022-01-28 深圳Tcl新技术有限公司 字幕显示方法、浏览器及存储介质和终端设备
US20230230588A1 (en) * 2022-01-20 2023-07-20 Zoom Video Communications, Inc. Extracting filler words and phrases from a communication session
US12026199B1 (en) * 2022-03-09 2024-07-02 Amazon Technologies, Inc. Generating description pages for media entities

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536654A (zh) * 2018-04-13 2018-09-14 科大讯飞股份有限公司 识别文本展示方法及装置
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN110189751A (zh) * 2019-04-24 2019-08-30 中国联合网络通信集团有限公司 语音处理方法及设备
CN110211570A (zh) * 2019-05-20 2019-09-06 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN110263149A (zh) * 2019-05-29 2019-09-20 科大讯飞股份有限公司 一种文本展示方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536654A (zh) * 2018-04-13 2018-09-14 科大讯飞股份有限公司 识别文本展示方法及装置
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN110189751A (zh) * 2019-04-24 2019-08-30 中国联合网络通信集团有限公司 语音处理方法及设备
CN110211570A (zh) * 2019-05-20 2019-09-06 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN110263149A (zh) * 2019-05-29 2019-09-20 科大讯飞股份有限公司 一种文本展示方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723816A (zh) * 2020-06-28 2020-09-29 北京联想软件有限公司 一种教学笔记的获取方法及电子设备
CN111723816B (zh) * 2020-06-28 2023-10-27 北京联想软件有限公司 一种教学笔记的获取方法及电子设备
CN113782027A (zh) * 2021-09-01 2021-12-10 维沃移动通信(杭州)有限公司 音频处理方法及音频处理装置
CN113918759A (zh) * 2021-09-28 2022-01-11 湖北美和易思教育科技有限公司 基于bs架构的音频数据识别结果显示方法、系统及介质
CN113849606A (zh) * 2021-09-29 2021-12-28 联想(北京)有限公司 文件处理方法及装置、电子设备
CN113989807A (zh) * 2021-10-13 2022-01-28 深圳Tcl新技术有限公司 字幕显示方法、浏览器及存储介质和终端设备
US20230230588A1 (en) * 2022-01-20 2023-07-20 Zoom Video Communications, Inc. Extracting filler words and phrases from a communication session
US12112748B2 (en) * 2022-01-20 2024-10-08 Zoom Video Communications, Inc. Extracting filler words and phrases from a communication session
US12026199B1 (en) * 2022-03-09 2024-07-02 Amazon Technologies, Inc. Generating description pages for media entities

Similar Documents

Publication Publication Date Title
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN107832286B (zh) 智能交互方法、设备及存储介质
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
US10192544B2 (en) Method and system for constructing a language model
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN108595406B (zh) 一种用户状态的提醒方法、装置、电子设备及存储介质
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN112399269A (zh) 视频分割方法、装置、设备及存储介质
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN107424612B (zh) 处理方法、装置和机器可读介质
WO2021102754A1 (zh) 数据处理方法、装置和存储介质
CN113688231B (zh) 一种答案文本的摘要提取方法及装置、电子设备及介质
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
CN114171000A (zh) 一种基于声学模型和语言模型的音频识别方法
CN112417095A (zh) 语音消息处理方法和装置
CN111161710A (zh) 同声传译方法、装置、电子设备及存储介质
CN116882418A (zh) 为对话数据生成情景任务的方法、装置、计算设备和介质
CN114822506A (zh) 一种消息播报方法、装置、移动终端及存储介质
CN108831473B (zh) 一种音频处理方法及装置
CN111161737A (zh) 数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100125 1503, 15th floor, building 2, yard 10, Chaoyang Park South Road, Chaoyang District, Beijing

Applicant after: Beijing opper Communication Co.,Ltd.

Address before: 100080 12-02, 12-05, 10th floor, building 38, Haidian Street, Haidian District, Beijing

Applicant before: Beijing opper Communication Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424

RJ01 Rejection of invention patent application after publication