[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111629164B - 一种视频录制生成方法及电子设备 - Google Patents

一种视频录制生成方法及电子设备 Download PDF

Info

Publication number
CN111629164B
CN111629164B CN202010477437.XA CN202010477437A CN111629164B CN 111629164 B CN111629164 B CN 111629164B CN 202010477437 A CN202010477437 A CN 202010477437A CN 111629164 B CN111629164 B CN 111629164B
Authority
CN
China
Prior art keywords
voice information
sound
audio
audio data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010477437.XA
Other languages
English (en)
Other versions
CN111629164A (zh
Inventor
刘宝利
罗应文
许威
张学荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202010477437.XA priority Critical patent/CN111629164B/zh
Publication of CN111629164A publication Critical patent/CN111629164A/zh
Application granted granted Critical
Publication of CN111629164B publication Critical patent/CN111629164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请实施例公开了一种视频录制生成方法及电子设备,该方法包括:获取第一影音数据,其中,所述第一影音数据包括第一图像数据和第一音频数据,所述第一音频数据包括至少一个对象的语音信息;获取所述至少一个对象中的第一对象的第一声音特征;从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据。本申请实施例的视频录制生成方法,能够去除或静默掉与第一声音特征不相关的杂音,使录制的视频不包含杂音,能够显著提高用户体验。

Description

一种视频录制生成方法及电子设备
技术领域
本申请涉及电子设备技术领域,特别涉及一种视频录制生成方法及电子设备。
背景技术
随着移动互联网的迅速发展,小视频逐渐成为一种常规的通讯方式。用户自行录制小视频时,由于物距较短,如果不借助辅助工具,通常只能录制到用户的头部或上半身,如果需要录制全身视频或较大场景下的视频,通常需要其他用户帮助录制。其他用户帮助录制视频的过程大致为,被录像用户在特定场景下准备好,录像用户持图像采集设备,在打开图像采集设备进行录像的同时,向被录像用户喊开始命令,被录像用户开始讲话。以英语学习为例,经常会遇到录制学习视频的场景,传统的操作方法是由家长或同学等其他人拿着手机,打开摄像机开始录像的同时喊出开始命令,学生听到开始命令后,开始阅读或朗诵。
但这样做存在问题是,录像用户很难做到点击摄像机开始按钮和喊出开始命令完全同步,开始命令的喊出时间稍有延后就会被摄像机采集到,导致录制的视频中包含该开始命令。另外,在录像过程中,如果环境场景中如果有其他人在说话,其他人的声音也可能被采集到而成为视频的杂音。无论是由开始命令所形成的杂音,亦或是由其他人说话所形成的杂音均会对被录像用户的讲话声音造成干扰。
申请内容
有鉴于现有技术中存在的上述问题,本申请实施例采用的技术方案如下:
本申请实施例一方面提供了一种视频录制生成方法,包括:
获取第一影音数据,其中,所述第一影音数据包括第一图像数据和第一音频数据,所述第一音频数据包括至少一个对象的语音信息;
获取所述至少一个对象中的第一对象的第一声音特征;
从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据。
在一些实施例中,所述获取所述至少一个对象中的第一对象的第一声音特征,包括:
从预置声音特征库中确定所述第一对象的第一声音特征。
在一些实施例中,所述从预置声音特征库中确定所述第一对象的第一声音特征,包括:
获取所述第一图像数据中的面部图像;
基于所述面部图像确定所述第一对象,从所述预置声音特征库中确定所述第一对象的第一声音特征。
在一些实施例中,所述从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据,包括:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
仅基于所述第一图像数据和所述第一语音信息生成所述第二影音数据。
在一些实施例中,所述从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据,包括:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
基于从所述第一音频数据中获取的至少一个第二声音特征,从所述第一音频数据中提取至少一个第二语音信息,其中,所述第二声音特征不同于所述第一声音特征;
从所述至少一个第二语音信息中确定与所述第一语音信息具有语义关系的第二语音信息,基于所述第一图像数据、所述第一语音信息和与所述第一语音信息具有语义关系的第二语音信息生成第二影音数据。
在一些实施例中,所述方法还包括:
识别所述第一音频数据中各个所述对象的声音特征;
基于各个所述对象的声音特征从所述第一音频数据中获取各个所述对象的语音信息;
基于预设条件从各个所述对象的语音信息中确定所述第一对象的第一语音信息。
在一些实施例中,所述方法还包括:
基于所述第一语音信息从各个所述对象的声音特征中确定所述第一对象的第一声音特征,将所述第一声音特征保存至预置声音特征库。
本申请实施例另一方面提供了一种电子设备,包括:
第一获取模块,用于获取第一影音数据,其中,所述第一影音数据包括第一图像数据和第一音频数据,所述第一音频数据包括至少一个对象的语音信息;
第二获取模块,用于获取所述至少一个对象中的第一对象的第一声音特征;
生成模块,用于从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据。
在一些实施例中,所述第二获取模块具体用于:
从预置声音特征库中确定所述第一对象的第一声音特征。
在一些实施例中,所述第二获取模块进一步用于:
获取所述第一图像数据中的面部图像;
基于所述面部图像确定所述第一对象,从所述预置声音特征库中确定所述第一对象的第一声音特征。
在一些实施例中,所述生成模块具体用于:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
仅基于所述第一图像数据和所述第一语音信息生成所述第二影音数据。
在一些实施例中,所述生成模块具体用于:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
基于从所述第一音频数据中获取的至少一个第二声音特征,从所述第一音频数据中提取至少一个第二语音信息,其中,所述第二声音特征不同于所述第一声音特征;
从所述至少一个第二语音信息中确定与所述第一语音信息具有语义关系的第二语音信息,基于所述第一图像数据、所述第一语音信息和与所述第一语音信息具有语义关系的第二语音信息生成第二影音数据。
在一些实施例中,所述电子设备还包括:
识别模块,用于识别所述第一音频数据中各个所述对象的声音特征;
第三获取模块,用于基于各个所述对象的声音特征从所述第一音频数据中获取各个所述对象的语音信息;
确定模块,用于基于预设条件从各个所述对象的语音信息中确定所述第一对象的第一语音信息。
在一些实施例中,所述电子设备还包括:
存储模块,用于基于所述第一语音信息从各个所述对象的声音特征中确定所述第一对象的第一声音特征,将所述第一声音特征保存至预置声音特征库。
本申请实施例第三方面提供了一种存储介质,存储有计算机程序,当执行所述计算机程序时实现如下步骤:
获取第一影音数据,其中,所述第一影音数据包括第一图像数据和第一音频数据,所述第一音频数据包括至少一个对象的语音信息;
获取所述至少一个对象中的第一对象的第一声音特征;
从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据。
本申请实施例第四方面提供了一种电子设备,至少包括存储器和处理器,所述存储器上存储有可执行程序,所述处理器在执行所述存储器上的可执行程序时实现如下步骤:
获取第一影音数据,其中,所述第一影音数据包括第一图像数据和第一音频数据,所述第一音频数据包括至少一个对象的语音信息;
获取所述至少一个对象中的第一对象的第一声音特征;
从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据。
本申请实施例的视频录制生成方法,获取至少一个对象中第一对象的第一声音特征,之后基于该第一声音特征从第一音频数据中获取与第一声音特征相关联的语音信息,进而基于第一图像数据和第一声音特征相关联的语音信息生成第二影音数据,能够去除或静默掉与第一声音特征不相关的杂音,使录制的视频不包含杂音,能够显著提高用户体验。
附图说明
图1为本申请实施例的视频录制生成方法的流程图;
图2为本申请实施例的视频录制生成方法的步骤S200的流程图;
图3为本申请实施例的视频录制生成方法的步骤S300的一种实施例的流程图;
图4为本申请实施例的视频录制生成方法的步骤S300的另一种实施例的流程图;
图5为本申请实施例的电子设备的一种实施例的结构框图;
图6为本申请实施例的电子设备的另一种实施例的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本申请实施例提供了一种视频录制生成方法,通过获取被录像的目标人物的声音特征,并基于该声音特征对录制的视频进行处理,能够去除与目标人物不相关的杂音,从而提高视频录制体验。
图1为本申请实施例的视频录制生成方法的流程图,参见图1所示,本申请实施例的视频录制生成方法具体包括如下步骤:
S100,获取第一影音数据,其中,第一影音数据包括第一图像数据和第一音频数据,第一音频数据包括至少一个对象的语音信息。
根据该视频录制生成方法的应用对象不同,该获取第一影音数据的过程可以有多种实施方式。如,以该视频录制生成方法应用在例如智能手机、平板电脑及笔记本电脑等自带摄像装置和音频采集装置的电子设备为例,获取第一影音数据可为通过自带摄像装置和音频采集装置采集第一影音数据,也即通过摄像装置采集第一图像数据,并通过音频采集设备采集第一音频数据。在另一种情况下,获取第一影音数据也可为电子设备从例如VR眼镜或AR眼镜等可穿戴式设备获取第一影音数据,由于可穿戴式设备的处理能力有限,所以,在采集第一影音数据后可发送至移动电子设备进行去杂音的处理。该视频录制生成方法还可应用在如服务器等电子设备上,此时,获取第一影音数据可为从移动电子设备、穿戴式设备等另一电子设备上获取该第一影音数据。例如,用户佩戴的VR眼镜或AR眼镜所采集的第一影音数据后,可通过特定应用程序发送至服务器,由服务器进行去杂音处理。
S200,获取至少一个对象中的第一对象的第一声音特征。
其中,该至少一个对象是指在采集第一音频数据时被采集到语音信息的对象。该第一音频数据中可包括一个对象的语音信息,也可包括多个对象的语音信息。如采集第一音频数据时可能仅采集到一个人物的语音信息,此时,该第一音频数据中可能不存在杂音。在此情况下,作为一种优选实施例,在实施步骤S200之前,该方法还可包括:识别第一音频数据中各个对象的声音特征,并基于识别到的声音特征确定该第一音频数据中包含的对象数量,在对象数量为多个的情况下,执行步骤S200。
该第一对象即为采集第一影音数据时的目标人物,该目标人物可为一个,也可为多个。如,当家长为学生录制作业视频时,则该学生为目标人物,也即第一对象。第一声音特征可包括能够表征目标人物的声音参数,如音量、音色、音调、能量及频率等特征参数,还可包括例如声纹特征等。
在具体实施时,获取至少一个对象中第一对象的第一声音特征可包括获取预置的第一对象的第一声音特征,例如,当用户使用其自己的移动电子设备采集第一影音信息时,该移动电子设备内可预存有该用户的第一声音特征。当然,也可在采集第一影音信息之前,也可预采集第一对象的语音信息,并从采集的第一对象的语音信息中提取第一对象的第一声音特征。亦或者,也可在获取到第一影音信息之后,从其中的第一音频信息中提取第一对象的第一声音特征,这样就不需要预先存储,节省存储空间,并且能够实现实时识别。
S300,从第一音频数据中获取与第一声音特征相关联的语音信息,基于第一图像数据和与第一声音特征相关联的语音信息生成第二影音数据。
该与第一声音特征相关联的语音信息可仅包括与第一声音特征相对应的第一对象的语音信息。例如,在录制学生朗诵英语文章的视频时,第一对象可仅包括该学生,相对应的第一声音特征也包括该学生的声音特征,从第一音频数据中获取与第一声音特征相关联的语音信息则仅包括获取该学生的语音信息。
该与第一声音特征相关联的语音信息也可包括与第一声音特征相对应的第一对象的语音信息,以及与该第一对象的语音信息相关的另外至少一个其他对象的语音信息。例如,在录制家长配合学生完胜英语对话的视频时,除去作为第一对象的学生,可能还需要一个或多个家长配合完成英语对话,如学生说“Nice to meet you”,家长会配合说“Niceto meet you,too”或者“You too”,此时,如果仅获取学生的语音信息就会导致英语对话的内容不完整,并且语义不连续。所以,此时可同时获取学生的语音信息,以及家长的语音信息。
在获取到与第一声音特征相关的语音信息之后,可基于第一图像数据和获取到的与第一声音特征相关的语音信息来生成第二影音数据。具体的,可基于第一图像数据和与第一声音特征相关的语音信息合成第二影音数据,也可为基于获取到的与第一声音特征相关的语音信息去除或静默第一音频数据中其他语音信息,从而生成第二影音数据。
本申请实施例的视频录制生成方法,获取至少一个对象中第一对象的第一声音特征,之后基于该第一声音特征从第一音频数据中获取与第一声音特征相关联的语音信息,进而基于第一图像数据和第一声音特征相关联的语音信息生成第二影音数据,能够去除或静默掉与第一声音特征不相关的杂音,使录制的视频不包含杂音,能够显著提高用户体验。
在一些实施例中,获取至少一个对象中的第一对象的第一声音特征,包括:从预置声音特征库中确定第一对象的第一声音特征。
其中,预置声音特征库中可包括预先存储的对象信息和声音特征,对象信息和声音特征之间具有关联关系,该对象信息可包括对象名称或姓名、对象的面部图像、性别及年龄等相关信息,该声音特征可为音量、音色、音调、能量及频率等特征参数,也可包括例如声纹特征等。
该预置声音特征库可设置在用户使用的电子设备端,例如,在用户的智能手机或平板电脑上可预存有用户个人和常用用户的声音特征,以及用户个人信息和常用用户的个人信息。在用户使用该电子设备进行视频录制时,可弹出提示信息来提示用户选取对象信息,在用户选定对象信息后,就能够从预置声音特征库中确定与用户选定的对象信息相关联的第一声音特征。
该预置声音特征库也可设置在服务器端,这样,在用户使用电子设备录制视频时,也可弹出提示窗口以提示用户输入对象信息,电子设备在获取到输入的对象信息后,可基于该对象信息向服务器发送获取请求,该获取请求中至少包括该对象信息,之后能够从服务器获取反馈的基于对象信息匹配到的第一声音特征。
配合图2所示,在一些实施例中,从预置声音特征库中确定第一对象的第一声音特征,可包括:
S210,获取第一图像数据中的面部图像。在视频录制过程中,第一对象通常会出现在视频画面中,也即第一图像数据中通常会包含或仅包含第一对象的面部图像。因此,在获取到第一影音数据后,可基于对第一图像数据所进行的图像识别来获取面部图像。当仅识别到一个面部图像时,将该面部图像作为所要获取的面部图像,当识别到多个面部图像时,可分别基于这些面部图像确定与之相对应的第一对象,也可弹出提示信息,请用户从这些面部图像中确定所要获取的面部图像。
S220,基于面部图像确定第一对象,从预置声音特征库中确定第一对象的第一声音特征。在获取到面部图像后,可基于该面部图像识别人脸特征信息,预存的对象信息可包括预设人脸特征信息,将识别到的人脸特征信息与预设人脸特征信息进行匹配即可确定第一对象,就能够从预置声音特征库中确定第一对象的第一声音特征。
在没有预置声音特征库,或者从预置声音特征库未识别到第一对象的第一声音特征的情况下,可基于如下方法确定第一对象的第一语音信息:
识别第一音频数据中各个对象的声音特征。识别各个对象的声音特征的方法有多种,如可基于数学模型的方法,对第一音频数据中各个对象的声音特征进行描述,从而获得一组或多组特征描述向量,该特征描述向量即作为各个对象的声音特征。也可基于例如深度神经网络等自学习模型识别第一音频数据中各个对象的声音特征,构建模型之后基于大量的数据对模型进行训练,基于自学习模型所获取的声音特征能够对对象的声音特性进行精准描述,效果较好。
基于各个对象的声音特征从第一音频数据中获取各个对象的语音信息。在获取到各个对象的声音特征后,可将第一音频数据中具有相同声音特征的语音信息归为一类,进而获取到各个对象的语音信息。如在获取到特征描述向量后,可基于特征描述向量的相似度计算从第一音频数据中获取各个对象的语音信息。具体的,可基于人物A的特征描述向量,从第一音频数据中提取人物A的语音信息,基于人物B的特征描述向量,从第一音频数据中提取人物B的语音信息,直至获取到全部对象的语音信息。当然,上述获取对象的语音信息的方法仅为示例性的,也可采用其他方法。
基于预设条件从各个对象的语音信息中确定第一对象的第一语音信息。作为第一对象的目标人物的语音信息通常音量较高、清晰度较高且内容连续,另外第一对象的语音信息通常贯穿整个第一音频数据,或者位置第一音频数据的中间时段。基于目标人物的语音信息的常规特性可配置预设条件,如可将该预设条件配置为时长较长的语音信息作为第一对象的第一语音信息,将时间主要分布在第一音频数据中间区域且占该第一音频数据的时长大于第一阈值的语音信息作为第一对象的第一语音信息,或者,将语义连续的语音信息作为第一对象的第一语音信息。基于这样的方法,在未设置预置声音特征库,或者预置声音特征库未匹配到该第一对象的第一声音特征的情况下,可以自动确定第一对象的第一语音信息。之后,可确定是否存在与第一对象的第一语音信息相关的其他对象的语音信息。
在一种优选实施方案中,如果在预置声音特征库中未匹配到第一对象得第一声音特征,在获取到第一对象的第一语音信息之后,所述方法还可包括:
基于第一语音信息从各个对象的声音特征中确定第一对象的第一声音特征,将第一声音特征保存至预置声音特征库。例如,当第一音频数据中分别包括人物A、人物B及人物C的语音信息,基于各个人物的声音特征分别获取其各自的语音信息,继而基于前述步骤确定人物A的语音信息为第一对象的第一语音信息后,可反向将人物A的声音特征确定为第一对象的第一声音特征,并将该第一声音特征存储在预置声音特征库中,以便在后续使用过程中可以从该预置声音特征库中查询到人物A的声音特征。
在一些实施例中,获取至少一个对象中的第一对象的第一声音特征,也可包括:
基于第一图像数据获取对象图像,并基于所述对象图像获取第一位置信息。在具体实施时,可基于图像识别获取第一图像数据中各个对象的对象图像,并基于获取的对象图像确定各个对象的第一位置信息。例如,第一图像数据中可仅包括人物A,或者包括人物A和人物B,基于图像识别可获取人物A和人物B的第一位置信息。
识别第一音频数据中各个对象的声音特征,基于各个对象的声音特征从第一音频数据中获取各个对象的语音信息,基于各个对象的语音信息获取第二位置信息。例如,从第一音频数据中可识别到人物A和人物C的语音信息,并基于人物A和人物C的语音信息识别到人物A和人物就C的第二位置信息。
基于第一位置信息和第二位置信息确定第一对象的第一声音特征。匹配该第一位置信息和第二位置信息,此时,仅有人物A的第一位置信息和其第二位置信息能够相匹配,即可将人物A的声音特征确定为第一对象的第一声音特征,并将人物A的语音信息确定为第一对象的第一语音信息。如此,能够将第一影音数据中采集到对象图像的对象的语音信息的保留,而将没有采集到对象图像的语音信息作为杂音去除或静默。
配合图3所示,在一些实施例中,从第一音频数据中获取与第一声音特征相关联的语音信息,基于第一图像数据和与第一声音特征相关联的语音信息生成第二影音数据,包括:
S311,基于第一声音特征从第一音频数据中提取第一语音信息;
S312,仅基于第一图像数据和第一语音信息生成第二影音数据。
在获取到第一对象的第一声音特征后,可基于聚类分析或相似性分析,将第一音频数据中具有该第一声音特征的语音信息确定为第一语音信息。继而可基于第一图像数据的第一时间信息和第一语音信息的第二时间信息,将第一图像数据和第一语音信息进行音视频混流,从而生成第二影音数据。例如,可确定第一图像数据中的各个帧图像的第一时间信息,并确定第一语音信息的各个语音段的第二时间信息,就能够准确地将第一语音信息与第一图像数据中的各个帧图像相匹配。当然,该第一语音信息也可仅具有始末时间。通过该方法获取的第二影音数据仅包括第一对象的第一语音信息,而不包括与第一对象相关的其他对象的语音信息,杂音去除较为彻底,适于应用在单人模式下。
配合图4所示,在一些实施例中,从第一音频数据中获取与第一声音特征相关联的语音信息,基于第一图像数据和与第一声音特征相关联的语音信息生成第二影音数据,包括:
S321,基于第一声音特征从第一音频数据中提取第一语音信息;
S322,基于从第一音频数据中获取的至少一个第二声音特征,从第一音频数据中提取至少一个第二语音信息,其中,第二声音特征不同于第一声音特征;
S323,从至少一个第二语音信息中确定与第一语音信息具有语义关系的第二语音信息,基于第一图像数据、第一语音信息和与第一语音信息具有语义关系的第二语音信息生成第二影音数据。
在获取到第一对象的第一声音特征后,可基于聚类分析或相似性分析,将第一音频数据中具有该第一声音特征的语音信息确定为第一语音信息。第二声音特征为第一音频数据中第一对象之外的其他对象的声音特征,该第二声音特征可为一个,也可为多个。基于其他对象的声音特征,可从第一音频数据中提取其他对象的第二语音信息。例如,当第一音频数据中包含人物A、人物B及人物C,当确定人物A为第一对象,则人物A的语音信息即为第一语音信息,而人物B和人C的声音特征即为第二声音特征,基于该第二声音特征可获取人物B和人C的语音信息,并作为第二语音信息。
继而可对获取例如第一语音信息所对应的第一文本内容和各个第二语音信息所对应的第二文本内容,对第一文本内容和第二文本内容进行语义分析,以确定各所述第二语音信息是否与第一语音信息具有语义关系。例如,当人物A的第一文本内容为“Nice tomeet you”,人物B的第二文本内容为“Nice to meet you,too”或者“You too”,人物C的第二文本内容为“开始”。基于语义分析,则可确定人物B的第二文本内容与人物A的第一文本内容具有语义关系,而人物C的第二文本内容与人物A的第一文本内容不具有语义关系,进而可将人物B的第二语音信息确定为与第一语音信息具有语义关系的第二语音信息,并同时基于第一图像数据、第二语音和与第一语音信息具有语义关系的第二语音信息生成第二影音数据。这样,所生成的第二影音数据中不仅包括第一对象的第一语音信息,还包括其他相关对象的第二语音信息,能够保证语义的连贯性和完整性,适于应用在多人模式下。
在具体实施过程中,仅基于第一图像数据和第一语音信息来生成第二影音数据,还是同时基于第一图像数据、第一语音信息和与第一语音信息具有语义关系的第二语音信息生成第二影音数据,可基于用户的选择来确定。例如,在进行视频录制之前,可弹出提示信息,请求用户选择单人模式,还是双人模式。当然,也可在获取到与第一语音信息具有语义关系的第二语音信息时,基于第一图像数据、第一语音信息和与第一语音信息具有语义关系的第二语音信息生成第二影音数据,而在未获取到与第一语音信息具有语义关系的第二语音信息的情况下,仅基于第一图像数据和第一语音信息来生成第二影音数据。
基于相同的发明构思,本申请实施例还提供了一种电子设备,参见图5所示,本申请实施例的电子设备包括:
第一获取模块10,用于获取第一影音数据,其中,第一影音数据包括第一图像数据和第一音频数据,第一音频数据包括至少一个对象的语音信息;
第二获取模块20,用于获取至少一个对象中的第一对象的第一声音特征;
生成模块30,用于从第一音频数据中获取与第一声音特征相关联的语音信息,基于第一图像数据和与第一声音特征相关联的语音信息生成第二影音数据。
在一些实施例中,所述第二获取模块20具体用于:
从预置声音特征库中确定第一对象的第一声音特征。
在一些实施例中,所述第二获取模块20进一步用于:
获取第一图像数据中的面部图像;
基于面部图像确定第一对象,从预置声音特征库中确定第一对象的第一声音特征。
在一些实施例中,所述生成模块30具体用于:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
仅基于所述第一图像数据和所述第一语音信息生成所述第二影音数据。
在一些实施例中,所述生成模块30具体用于:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
基于从所述第一音频数据中获取的至少一个第二声音特征,从所述第一音频数据中提取至少一个第二语音信息,其中,所述第二声音特征不同于所述第一声音特征;
从所述至少一个第二语音信息中确定与所述第一语音信息具有语义关系的第二语音信息,基于所述第一图像数据、所述第一语音信息和与所述第一语音信息具有语义关系的第二语音信息生成第二影音数据。
在一些实施例中,所述电子设备还包括:
识别模块,用于识别所述第一音频数据中各个所述对象的声音特征;
第三获取模块,用于基于各个所述对象的声音特征从所述第一音频数据中获取各个所述对象的语音信息;
确定模块,用于基于预设条件从各个所述对象的语音信息中确定所述第一对象的第一语音信息。
在一些实施例中,所述电子设备还包括:
存储模块,用于基于所述第一语音信息从各个所述对象的声音特征中确定所述第一对象的第一声音特征,将所述第一声音特征保存至预置声音特征库。
参见图6所示,本申请实施例还提供了一种电子设备,至少包括存储器901和处理器902,所述存储器901上存储有可执行程序,所述处理器902在执行所述存储器901上的可执行程序时实现如下步骤:
获取第一影音数据,其中,所述第一影音数据包括第一图像数据和第一音频数据,所述第一音频数据包括至少一个对象的语音信息;
获取所述至少一个对象中的第一对象的第一声音特征;
从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据。
处理器902在执行存储器901上存储的获取所述至少一个对象中的第一对象的第一声音特征的可执行程序时,具体实现如下步骤:从预置声音特征库中确定所述第一对象的第一声音特征。
处理器902在执行存储器901上存储的从预置声音特征库中确定所述第一对象的第一声音特征的可执行程序时,具体实现如下步骤:
获取所述第一图像数据中的面部图像;
基于所述面部图像确定所述第一对象,从所述预置声音特征库中确定所述第一对象的第一声音特征。
处理器902在执行存储器901上存储的从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据的可执行程序时,具体实现如下步骤:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
仅基于所述第一图像数据和所述第一语音信息生成所述第二影音数据。
处理器902在执行存储器901上存储的从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据的可执行程序时,具体实现如下步骤:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
基于从所述第一音频数据中获取的至少一个第二声音特征,从所述第一音频数据中提取至少一个第二语音信息,其中,所述第二声音特征不同于所述第一声音特征;
从所述至少一个第二语音信息中确定与所述第一语音信息具有语义关系的第二语音信息,基于所述第一图像数据、所述第一语音信息和与所述第一语音信息具有语义关系的第二语音信息生成第二影音数据。
处理器902在执行存储器901上存储的可执行程序时还用于实现如下步骤:
识别所述第一音频数据中各个所述对象的声音特征;
基于各个所述对象的声音特征从所述第一音频数据中获取各个所述对象的语音信息;
基于预设条件从各个所述对象的语音信息中确定所述第一对象的第一语音信息。
处理器902在执行存储器901上存储的可执行程序时还用于实现如下步骤:
基于所述第一语音信息从各个所述对象的声音特征中确定所述第一对象的第一声音特征,将所述第一声音特征保存至预置声音特征库。
本申请实施例还提供了一种存储介质,存储有计算机程序,当执行计算机程序时实现本申请上述任一实施例提供的视频录制生成方法。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (6)

1.一种视频录制生成方法,包括:
获取第一影音数据,其中,所述第一影音数据包括第一图像数据和第一音频数据,所述第一音频数据包括至少一个对象的语音信息;
获取所述至少一个对象中的第一对象的第一声音特征;
从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据;
其中,所述从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据,包括:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
基于从所述第一音频数据中获取的至少一个第二声音特征,从所述第一音频数据中提取至少一个第二语音信息,其中,所述第二声音特征不同于所述第一声音特征;
从所述至少一个第二语音信息中确定与所述第一语音信息具有语义关系的第二语音信息,基于所述第一图像数据、所述第一语音信息和与所述第一语音信息具有语义关系的第二语音信息生成第二影音数据。
2.根据权利要求1所述的视频录制生成方法,其中,所述获取所述至少一个对象中的第一对象的第一声音特征,包括:
从预置声音特征库中确定所述第一对象的第一声音特征。
3.根据权利要求2所述的视频录制生成方法,其中,所述从预置声音特征库中确定所述第一对象的第一声音特征,包括:
获取所述第一图像数据中的面部图像;
基于所述面部图像确定所述第一对象,从所述预置声音特征库中确定所述第一对象的第一声音特征。
4.根据权利要求1所述的视频录制生成方法,其中,所述方法还包括:
识别所述第一音频数据中各个所述对象的声音特征;
基于各个所述对象的声音特征从所述第一音频数据中获取各个所述对象的语音信息;
基于预设条件从各个所述对象的语音信息中确定所述第一对象的第一语音信息。
5.根据权利要求4所述的视频录制生成方法,其中,所述方法还包括:
基于所述第一语音信息从各个所述对象的声音特征中确定所述第一对象的第一声音特征,将所述第一声音特征保存至预置声音特征库。
6.一种电子设备,包括:
第一获取模块,用于获取第一影音数据,其中,所述第一影音数据包括第一图像数据和第一音频数据,所述第一音频数据包括至少一个对象的语音信息;
第二获取模块,用于获取所述至少一个对象中的第一对象的第一声音特征;
生成模块,用于从所述第一音频数据中获取与所述第一声音特征相关联的语音信息,基于所述第一图像数据和与所述第一声音特征相关联的语音信息生成第二影音数据;
其中,所述生成模块具体用于:
基于所述第一声音特征从所述第一音频数据中提取第一语音信息;
基于从所述第一音频数据中获取的至少一个第二声音特征,从所述第一音频数据中提取至少一个第二语音信息,其中,所述第二声音特征不同于所述第一声音特征;
从所述至少一个第二语音信息中确定与所述第一语音信息具有语义关系的第二语音信息,基于所述第一图像数据、所述第一语音信息和与所述第一语音信息具有语义关系的第二语音信息生成第二影音数据。
CN202010477437.XA 2020-05-29 2020-05-29 一种视频录制生成方法及电子设备 Active CN111629164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010477437.XA CN111629164B (zh) 2020-05-29 2020-05-29 一种视频录制生成方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010477437.XA CN111629164B (zh) 2020-05-29 2020-05-29 一种视频录制生成方法及电子设备

Publications (2)

Publication Number Publication Date
CN111629164A CN111629164A (zh) 2020-09-04
CN111629164B true CN111629164B (zh) 2021-09-14

Family

ID=72272321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010477437.XA Active CN111629164B (zh) 2020-05-29 2020-05-29 一种视频录制生成方法及电子设备

Country Status (1)

Country Link
CN (1) CN111629164B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118573942B (zh) * 2024-08-01 2024-10-29 宁波菊风系统软件有限公司 多媒体数据流的处理方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103915095B (zh) * 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
US9953637B1 (en) * 2014-03-25 2018-04-24 Amazon Technologies, Inc. Speech processing using skip lists
WO2015184186A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
CN107301862A (zh) * 2016-04-01 2017-10-27 北京搜狗科技发展有限公司 一种语音识别方法、识别模型建立方法、装置及电子设备
CN107331404A (zh) * 2017-06-22 2017-11-07 深圳传音通讯有限公司 音视频的声音处理方法及装置
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
CN107360387A (zh) * 2017-07-13 2017-11-17 广东小天才科技有限公司 一种视频录制的方法、装置及终端设备
US10680993B2 (en) * 2018-03-30 2020-06-09 Facebook, Inc. Sonic social network
CN108962256A (zh) * 2018-07-10 2018-12-07 科大讯飞股份有限公司 一种对象状态检测方法、装置、设备及存储介质
CN110348011A (zh) * 2019-06-25 2019-10-18 武汉冠科智能科技有限公司 一种无纸化会议展示对象确定方法、装置和存储介质
CN110740259B (zh) * 2019-10-21 2021-06-25 维沃移动通信有限公司 视频处理方法及电子设备
CN110913073A (zh) * 2019-11-27 2020-03-24 深圳传音控股股份有限公司 一种语音处理方法及相关设备

Also Published As

Publication number Publication date
CN111629164A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
CN109215632B (zh) 一种语音评测方法、装置、设备及可读存储介质
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN109509470B (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
CN110853646B (zh) 会议发言角色的区分方法、装置、设备及可读存储介质
Zhou et al. A compact representation of visual speech data using latent variables
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN111401268B (zh) 一种面向开放环境的多模态情感识别方法及装置
CN110519636A (zh) 语音信息播放方法、装置、计算机设备及存储介质
CN113067953A (zh) 客户服务方法、系统、装置、服务器及存储介质
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN113886641A (zh) 数字人生成方法、装置、设备及介质
CN111326152A (zh) 语音控制方法及装置
CN111629164B (zh) 一种视频录制生成方法及电子设备
CN111145748B (zh) 音频识别置信度确定方法、装置、设备及存储介质
CN108847246A (zh) 一种动画制作方法、装置、终端及可读介质
CN110347869B (zh) 一种视频生成方法、装置、电子设备及存储介质
CN113593565B (zh) 一种智能家庭设备管控方法和系统
CN115565534A (zh) 多模态语音识别方法、装置、设备及存储介质
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
CN114443889A (zh) 音频获取的方法、装置、电子设备及存储介质
CN114282046A (zh) 一种风格语料获取方法及相关方法和设备
CN114400009B (zh) 声纹识别方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant