[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109756683B - 全景音视频录制方法、装置、存储介质和计算机设备 - Google Patents

全景音视频录制方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN109756683B
CN109756683B CN201711062668.9A CN201711062668A CN109756683B CN 109756683 B CN109756683 B CN 109756683B CN 201711062668 A CN201711062668 A CN 201711062668A CN 109756683 B CN109756683 B CN 109756683B
Authority
CN
China
Prior art keywords
panoramic
audio
video data
data
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711062668.9A
Other languages
English (en)
Other versions
CN109756683A (zh
Inventor
詹五洲
李英才
柳振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Rishi Audio & Video Technology Co ltd
Original Assignee
Shenzhen Rishi Audio & Video Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Rishi Audio & Video Technology Co ltd filed Critical Shenzhen Rishi Audio & Video Technology Co ltd
Priority to CN201711062668.9A priority Critical patent/CN109756683B/zh
Publication of CN109756683A publication Critical patent/CN109756683A/zh
Application granted granted Critical
Publication of CN109756683B publication Critical patent/CN109756683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Studio Devices (AREA)

Abstract

本发明涉及一种全景音视频录制方法、装置、存储介质和计算机设备。获取多路摄像头模组所拍摄的原始视频数据,将原始视频数据通过视频拼接算法实时拼接成全景视频数据。获取多路传声器所采集的原始音频数据,将原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据。将全景视频数据和全景音频数据进行实时录制,生成全景音视频数据。采用多路传声器对拍摄场景的声音进行采集,再对多路传声器所采集的原始音频数据通过音频算法合成全景音频数据。这样就采集了所拍摄场景的全景音频数据,再将全景音频数据与全景视频数据进行合成,就生成了全景音视频数据。从而实现了真正意义上的全景沉浸效果。

Description

全景音视频录制方法、装置、存储介质和计算机设备
技术领域
本发明涉及音视频处理技术领域,特别是涉及一种全景音视频录制方法、装置、存储介质和计算机设备。
背景技术
随着虚拟现实技术的发展,摄像机也经历了从单摄像头普通图像拍摄到多摄像头全景图像拍摄的技术变革。现有的多个摄像头的全景相机能够实现全景视频的拍摄,但很少能做到全景音频的录制,全景音频的录制技术明显滞后于全景视频的拍摄技术。因为传统的虚拟现实场景中未实现全景音频录制,所以尽管实现了全景视频录制,还是无法实现真正意义上的全景沉浸效果。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现全景音频录制的全景音视频录制方法、装置、存储介质和计算机设备。
一种全景音视频录制方法,所述方法包括:
获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据;
获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据;
将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据。
在其中一个实施例中,所述获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,包括:
通过视频FPGA获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,所述视频FPGA用于处理视频数据。
在其中一个实施例中,所述获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,包括:
通过音频FPGA获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,所述音频FPGA用于处理音频数据。
在其中一个实施例中,所述将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,包括:
通过畸变校正算法将所述原始视频数据中的畸变数据进行校正,生成校正后的视频数据;
通过图像配准算法对所述校正后的不同视频数据进行图像配准;
通过图像融合算法对进行了图像配准后的不同图像进行融合,得到融合后的全景视频数据。
在其中一个实施例中,所述多路传声器包括64路麦克风,将所述全景声Ambisonic算法配置为水平为7阶、垂直为3阶;
所述获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,包括:
将所述64路麦克风实时采集到的原始音频数据,通过所述内置的、水平为7阶、垂直为3阶的全景声Ambisonic算法实时合成为水平7阶垂直3阶的全景音频数据。
在其中一个实施例中,在所述将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据之后,还包括:
将所述全景音视频数据推流至服务器,以使所述服务器对全景音视频数据进行解码后,并实时向终端下发所述解码后的全景音视频数据。
一种全景音视频录制系统,所述系统包括:全景音视频录制设备、服务器及终端,其中:
所述全景音视频录制设备,用于获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据;获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据;将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据,将所述全景音视频数据推流至服务器;
所述服务器,用于接收所述全景音视频录制设备推流的所述全景音视频数据,对所述全景音视频数据实时进行转码处理,将转码后的全景音视频数据实时发送至所述终端;
所述终端,用于从所述服务器实时获取所述转码后的全景音视频数据,并实时直播所述转码后的全景音视频数据。
一种全景音视频录制装置,所述装置包括:
全景视频数据拼接模块,用于获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据;
全景音频数据合成模块,用于获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据;
全景音视频数据生成模块,用于将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据。
在其中一个实施例中,所述全景视频数据拼接模块包括:
畸变校正模块,用于通过畸变校正算法将所述原始视频数据中的畸变数据进行校正,生成校正后的视频数据;
图像配准模块,用于通过图像配准算法对所述校正后的不同视频数据进行图像配准;
图像融合模块,用于通过图像融合算法对进行了图像配准后的不同图像进行融合,得到融合后的全景视频数据。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据;
获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据;
将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据。
一种计算机设备,所述计算机设备包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据;
获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据;
将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据。
上述全景音视频录制方法、装置、存储介质和计算机设备,获取多路摄像头模组所拍摄的原始视频数据,将原始视频数据通过视频拼接算法实时拼接成全景视频数据。获取多路传声器所采集的原始音频数据,将原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据。将全景视频数据和全景音频数据进行实时录制,生成全景音视频数据。全景音视频录制设备采用多路传声器对拍摄场景的声音进行采集,再对多路传声器所采集的原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据。在全景音视频录制设备中内置了全景声Ambisonic算法,可以在机内即可实现全景音频合成,不需要随身携带计算机设备进行机外全景音频合成,因此方便易行。这样就采集了所拍摄场景的全景音频数据,再将全景音频数据与实时拼接的全景视频数据进行实时录制,就生成了全景音视频数据。从视觉和听觉上都实现了真正意义上的全景沉浸效果。
附图说明
图1为一个实施例中全景音视频录制方法的应用环境图;
图2为一个实施例中全景音视频录制方法的流程图;
图3为一个实施例中全景音视频录制方法的流程图;
图4为图2中将原始视频数据通过视频拼接算法拼接成全景视频数据方法的流程图;
图5为又一个实施例中全景音视频录制方法的流程图;
图6为一个实施例中全景音视频录制装置的结构示意图;
图7为图6中全景视频数据拼接模块的结构示意图;
图8为又一个实施例中全景音视频录制装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本发明实施例提供的全景音视频录制方法可应用于如图1所示的环境中。参考图1所示,全景音视频录制设备110通过网络与服务器120连接,终端130也通过网络与服务器120连接。全景音视频录制设备110包含多个用于采集不同角度视频的多个摄像头,包含用于采集多个角度音频的多个麦克风。FPGA将采集的原始视频数据实时拼接成全景视频数据,FPGA将采集的原始音频数据实时合成全景视频数据。再将全景视频数据和全景音频数据发送至处理器进行录制,最终生成全景音视频数据。可以将全景音视频数据通过网络(例如Ethernet以太网)上传至服务器120,终端130从服务器上实时获取全景音视频数据,就可以实现在线直播。也可以将全景音视频数据存储在存储器140(例如SD卡)中。
在一个实施例中,如图2所示,提供了一种全景音视频录制方法,该方法包括:
步骤202,获取多路摄像头模组所拍摄的原始视频数据,将原始视频数据通过视频拼接算法实时拼接成全景视频数据。
摄像头模组指的是可以实现拍摄照片的电子设备,具体的,可以为摄像头。本发明实施例中的全景音视频录制设备使用了多个摄像头用来拍摄全景视频数据。例如,采用9个摄像头进行拍摄,在与所拍摄的场景水平方向摆设8个摄像头,每个摄像头摆放的角度不同,分别同时对场景的某一个特定角度进行拍摄,使之能够拍摄到场景的全景。在与所拍摄场景垂直方向即场景的顶部放置1个摄像头。这样就可以实现对场景进行全景拍摄。请参见图3,FPGA(Field-Programmable Gate Array,即现场可编程门阵列)通过LVDS(LowVoltage Differential Signaling,低压差分信号传输)接口采集每一时刻多个摄像头所拍摄的原始视频数据,每一个摄像头拍摄的原始视频数据称为一路原始视频数据。LVDS是一种满足当今高性能数据传输应用的新型技术。所以FPGA获取了多路摄像头在同一时刻所拍摄的原始视频数据,再将上述多路摄像头在同一时刻所拍摄的原始视频数据通过视频拼接算法进行实时拼接,就生成了同一时刻的全景视频数据。再通过LVDS接口将全景视频数据传送至处理器,例如ARM处理器。
步骤204,获取多路传声器所采集的原始音频数据,将原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据。
传声器指的是将声音信号转换为电信号的能量转换器件,也称为麦克风或话筒。在本发明实施例中,全景音视频录制设备采取多个麦克风获取多路音频数据。例如,采用64路麦克风,均匀分布在球体的表面。其中每个麦克风的音腔背离球心指向球体外表面,用于采集不同方向的音频信号。全景音视频录制设备中内置了全景声Ambisonic算法。FPGA通过ADC采集芯片采集每一时刻多个麦克风获取的多路原始音频数据,将原始音频数据通过全景音视频录制设备中内置的全景声Ambisonic算法实时合成全景音频数据,再通过SDIO(Secure Digital Input and Output,安全数字输入输出)接口将全景音频数据传送至处理器,例如ARM处理器。市面上的VR相机,通常是单声道或者由4个麦克风组成的麦克风阵列来进行音频录制。在进行合成全景音频数据时,VR相机通常采用外接的计算机设备来进行合成全景音频数据,且这些外接的计算机设备也都是采用1阶Ambisonic算法来进行合成。在录制现场需要随身携带计算机设备进行机外全景音频合成,极其不方便。
因此,本发明实施例中,在全景音视频录制设备中内置了全景声Ambisonic算法,不需要外接具有Ambisonic算法的计算机设备,在机内即可实现实时全景音频合成。且内置的是高阶的Ambisonic算法,从空间的角度来说,Ambisonic阶数越高所采集的声场信息越准确,也越能完整的还原目标声场的声学信息。因此,高阶的Ambisonic算法相比于低阶的Ambisonic算法,具有更高的空间解析度。
步骤206,将全景视频数据和全景音频数据进行实时录制,生成全景音视频数据。
FPGA将同一时刻的全景视频数据和全景音频数据发送至处理器上进行实时处理,可以是ARM处理器。处理的过程具体为,ARM处理器获取了全景视频数据之后,使用H.264标准进行压缩,H.264标准是一个高度压缩数字视频编解码器标准。ARM处理器获取了全景音频数据之后,使用AAC标准进行压缩,AAC(Advanced Audio Coding,高级音频编码)标准,是一种基于MPEG-2的音频编码技术。将压缩后的音视频数据文件都放入MP4容器中生成MP4文件。也可以将压缩后的音视频文件都放入AVI容器中生成AVI文件。当然,还可以使用其他生成音视频文件的方式。请再次参见图3,在经过处理器实时处理生成了全景音视频文件之后,可以将全景音视频文件存储在存储器(例如SD卡)中,也可以将全景音视频数据通过网络(例如Ethernet以太网)上传至服务器实现在线直播。
本实施例中,全景音视频录制设备采用多路传声器对拍摄场景的声音进行采集,再对多路传声器所采集的原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据。在全景音视频录制设备中内置了全景声Ambisonic算法,可以在机内即可实现全景音频合成,不需要随身携带计算机设备进行机外全景音频合成,因此方便易行。这样就采集了所拍摄场景的全景音频数据,再将全景音频数据与实时拼接的全景视频数据进行实时录制,就生成了全景音视频数据。从视觉和听觉上都实现了真正意义上的全景沉浸效果。
在一个实施例中,所述获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,包括:
通过视频FPGA获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,所述视频FPGA用于处理视频数据。
如图3所示,采用不同的FPGA来分别处理视频数据和音频数据。因为一颗FPGA的数据处理能力有限,为了避免传统的同一颗FPGA同时处理音频和视频数据,大量的数据造成的拼接质量难以保证的问题。因此,为全景音视频录制设备配置了一颗或多颗视频FPGA,专门用于处理视频数据。可以在视频数据量较大的时候也依然可以高效处理,实现高质量的实时拼接。视频FPGA获取了多路摄像头在同一时刻所拍摄的原始视频数据,再将上述多路摄像头在同一时刻所拍摄的原始视频数据通过视频拼接算法进行实时拼接,就生成了同一时刻的全景视频数据。再通过LVDS接口将全景视频数据传送至处理器,例如ARM处理器。
在一个实施例中,所述获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,包括:
通过音频FPGA获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,所述音频FPGA用于处理音频数据。
如图3所示,采用不同的FPGA来分别处理视频数据和音频数据。因为一颗FPGA的数据处理能力有限,为了避免传统的同一颗FPGA同时处理音频和视频数据,大量的数据造成的拼接质量难以保证的问题。因此,为全景音视频录制设备配置了一颗或多颗音频FPGA,专门用于处理音频数据,达到在多路音频数据的同时输入的情况下,实现高质量的实时拼接。音频FPGA通过ADC采集芯片采集每一时刻多个麦克风获取的多路原始音频数据,将原始音频数据通过全景音视频录制设备中内置的全景声Ambisonic算法实时合成全景音频数据,再通过SDIO(Secure Digital Input and Output,安全数字输入输出)接口将全景音频数据传送至处理器,例如ARM处理器。
在一个实施例中,视频拼接算法包括畸变校正算法、图像配准算法和图像融合算法。
拍摄全景视频的摄像头一般会使用鱼眼镜头,鱼眼镜头属于超广角镜头中的一种特殊镜头,它的视角力求达到或超出人眼所能看到的范围。鱼眼镜头最大的作用是视角范围大,视角一般可达到220°或230°,这为近距离拍摄大范围景物创造了条件。但是鱼眼镜头拍摄的图像存在很大的畸变,需要通过畸变校正算法将畸变图像转化成正常图像。畸变校正算法是一种可以对鱼眼镜头所拍摄的有畸变的图像转换成正常图像的方法。
图像融合算法是一种通过找到不同图片的特征点,以特征点为参考对齐图像的处理方法。
图像融合算法是可以将不同的图像进行融合的方法。通过图像融合算法可以将不同摄像头所拍摄的同一时刻的不同视角的图像进行融合,融合成一张完整的全景图像。图像融合算法包含颜色插值技术或多分辨率样条等相关算法。
在本实施例中,对多路摄像头模组所拍摄的原始视频数据通过畸变校正算法进行图像校正,对畸形的图像进行了校正。再通过图像配准算法对图像进行对齐,找到了不同图像之间的对应关系,将不同图像进行对齐。最后,通过图像融合算法对图像进行融合,从而将不同摄像头所拍摄的图像进行了融合。最终生成了高质量的全景视频图像。
在一个实施例中,如图4所示,将原始视频数据通过视频拼接算法实时拼接成全景视频数据,包括:
步骤302,通过畸变校正算法将原始视频数据中的畸变数据进行校正,生成校正后的视频数据。
拍摄全景视频的摄像头一般会使用鱼眼镜头,鱼眼镜头属于超广角镜头中的一种特殊镜头,它的视角力求达到或超出人眼所能看到的范围。鱼眼镜头最大的作用是视角范围大,视角一般可达到220°或230°,这为近距离拍摄大范围景物创造了条件。但是鱼眼镜头拍摄的图像存在很大的畸变,通过畸变校正算法可以将畸变图像转化成正常图像。
步骤304,通过图像配准算法对校正后的不同视频数据进行图像配准。
对不同的摄像头在同一时刻所拍摄的图像,需要分别找到不同图像的特征点,以特征点为参考将不同图像对齐。具体为,通过图像配准算法来实现对齐。
步骤306,通过图像融合算法对进行了图像配准后的不同图像进行融合,得到融合后的全景视频数据。
最后,在将同一时刻所拍摄的不同图像对齐后,将图像与图像之间的拼接缝通过颜色插值技术或多分辨率样条等图像融合算法进行融合。从而得到同一时刻融合之后的全景图像,将不同时刻的全景视频图像以一定的帧数进行播放,便构成了全景视频图像。
在本实施例中,对多路摄像头模组所拍摄的原始视频数据通过畸变校正算法进行图像校正,对畸形的图像进行了校正。再通过图像配准算法对图像进行对齐,找到了不同图像之间的对应关系,将不同图像进行对齐。最后,通过图像融合算法对图像进行融合,从而将不同摄像头所拍摄的图像进行了融合。最终实时生成了高质量的全景视频图像。
在一个实施例中,多路传声器包括64路麦克风,将全景声Ambisonic算法配置为水平为7阶、垂直为3阶;
获取多路传声器所采集的原始音频数据,将原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,包括:
将64路麦克风实时采集到的原始音频数据,通过内置的、水平为7阶、垂直为3阶的全景声Ambisonic算法实时合成为水平7阶垂直3阶的全景音频数据。
Ambisonic系统是由Michael A.Gerzon于1974年提出的,它使用了X,Y,Z三个分别指向x,y,z轴方向的“8”字型指向传声器,及1个W无指向传声器,组成可以拾取声音三维空间信息的录音系统。,在球坐标状态下,这4个传声器指向特性有严格定义
W=0.707
使用一定数量的、围绕聆听者作均匀布置的扬声器做声重发,并对这4个传声器拾取信号进行不同比例的混合,可重现三维空间的环绕声效果。
具体的,在本发明实施例中使用64路麦克风均匀分布在球体的表面,麦克风音的腔均背离球心指向球体外表面,每个麦克风都用来采集声音。FPGA通过ADC(Analog-to-Digital Converter,模数转换电路)采集芯片实时采集麦克风数据。将Ambisonic算法配置为水平为7阶、垂直为3阶,则FPGA将采集到的64路麦克风数据通过Ambisonic算法就实时生成了水平7阶垂直3阶的Fuma格式全景音频数据。Fuma格式是将麦克风采集到的音频数据经过Ambsonic算法处理后生成的一种音频格式。一般的,将麦克风采集到的音频数据经过1阶Ambisonic算法处理后,输出4路音频;经过2阶Ambisonic算法处理后则输出9路音频;经过3阶Ambisonic算法处理后则输出16路音频。即经过Ambisonic算法输出的音频轨数是(阶数+1)的平方。
当然也可以将Ambisonic算法配置为水平3阶、垂直3阶,则FPGA将采集到的64路麦克风数据通过Ambisonic算法就生成了水平3阶垂直3阶的Fuma格式全景音频数据。也可以将Ambisonic算法只配置为水平3阶,则FPGA将采集到的64路麦克风数据通过Ambisonic算法就生成了水平3阶的Fuma格式全景音频数据。
在本实施例中,将Ambisonic算法配置为水平为7阶、垂直为3阶,则FPGA将采集到的64路麦克风数据通过Ambisonic算法就实时生成了水平7阶垂直3阶的Fuma格式全景音频数据。Ambisonic算法可以实现对不同麦克风所采集的声音实时合成全景音频数据。全景音频数据再与全景视频数据进行实时合成,就生成了全景音视频数据,加入了全景音频数据从而实现了真正意义上的全景沉浸效果。
在一个实施例中,如图5所示,在将全景视频数据和全景音频数据进行实时录制,生成全景音视频数据之后,还包括:
步骤208,将全景音视频数据推流至服务器,以使服务器对全景音视频数据进行解码后,并实时向终端下发解码后的全景音视频数据。
在本实施例中,将经过处理器实时合成后的全景音视频数据通过网络上传至服务器上,因为上传的全景音视频数据是经过编码的文件,所以服务器需要对其进行解码,并实时向终端下发解码后的全景音视频数据,以便可以直接在终端上进行播放。终端从服务器上实时获取解码后的全景音视频数据,并在终端上进行实时播放。这样就实现了全景音视频的直播推流功能。具体的,终端可以是能够实现全景音视频的新型VR设备。
在一个实施例中,一种全景音视频录制系统,请参见图1,系统包括:全景音视频录制设备110、服务器120及终端130,其中:
全景音视频录制设备110,用于获取多路摄像头模组所拍摄的原始视频数据,将原始视频数据通过视频拼接算法实时拼接成全景视频数据;获取多路传声器所采集的原始音频数据,将原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据;将全景视频数据和全景音频数据进行实时录制,生成全景音视频数据,将全景音视频数据推流至服务器。
服务器120,用于接收全景音视频录制设备推流的全景音视频数据,对全景音视频数据实时进行转码处理,将转码后的全景音视频数据实时发送至终端。
终端130,用于从服务器实时获取转码后的全景音视频数据,并实时直播转码后的全景音视频数据。
在一个实施例中,如图6所示,提供了一种全景音视频录制装置600,该装置包括:全景视频数据拼接模块602、全景音频数据合成模块604及全景音视频数据生成模块606。
全景视频数据拼接模块602,用于获取多路摄像头模组所拍摄的原始视频数据,将原始视频数据通过视频拼接算法实时拼接成全景视频数据。
全景音频数据合成模块604,用于获取多路传声器所采集的原始音频数据,将原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据。
全景音视频数据生成模块606,用于将全景视频数据和全景音频数据进行实时录制,生成全景音视频数据。
在一个实施例中,全景视频数据拼接模块602还用于通过视频FPGA获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,所述视频FPGA用于处理视频数据。
在一个实施例中,全景音视频数据生成模块606还用于通过音频FPGA获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,所述音频FPGA用于处理音频数据。
在一个实施例中,如图7所示,全景视频数据拼接模块602包括:
畸变校正模块602a,用于通过畸变校正算法将原始视频数据中的畸变数据进行校正,生成校正后的视频数据;
图像配准模块602b,用于通过图像配准算法对校正后的不同视频数据进行图像配准;
图像融合模块602c,用于通过图像融合算法对进行了图像配准后的不同图像进行融合,得到融合后的全景视频数据。
在一个实施例中,全景音频数据合成模块604还用于将64路麦克风实时采集到的原始音频数据,通过内置的、水平为7阶、垂直为3阶的全景声Ambisonic算法实时合成为水平7阶垂直3阶的全景音频数据。
在一个实施例中,如图8所示,还提供了一种全景音视频录制装置600,该装置还包括直播推流模块608,该模块用于将全景音视频数据推流至服务器,以使服务器对全景音视频数据进行解码后,并实时向终端下发解码后的全景音视频数据。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取多路摄像头模组所拍摄的原始视频数据,将原始视频数据通过视频拼接算法实时拼接成全景视频数据;获取多路传声器所采集的原始音频数据,将原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据;将全景视频数据和全景音频数据进行实时录制,生成全景音视频数据。
在一个实施例中,上述程序被处理器执行时还实现以下步骤:通过视频FPGA获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,所述视频FPGA用于处理视频数据。
在一个实施例中,上述程序被处理器执行时还实现以下步骤:通过音频FPGA获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,所述音频FPGA用于处理音频数据。
在一个实施例中,上述程序被处理器执行时还实现以下步骤:通过畸变校正算法将原始视频数据中的畸变数据进行校正,生成校正后的视频数据;通过图像配准算法对校正后的不同视频数据进行图像配准;通过图像融合算法对进行了图像配准后的不同图像进行融合,得到融合后的全景视频数据。
在一个实施例中,上述程序被处理器执行时还实现以下步骤:将64路麦克风实时采集到的原始音频数据,通过内置的、水平为7阶、垂直为3阶的全景声Ambisonic算法实时合成为水平7阶垂直3阶的全景音频数据。
在一个实施例中,上述程序被处理器执行时还实现以下步骤:将全景音视频数据推流至服务器,以使服务器对全景音视频数据进行解码后,并实时向终端下发解码后的全景音视频数据。
在一个实施例中,还提供了一种计算机设备,该计算机设备包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取多路摄像头模组所拍摄的原始视频数据,将原始视频数据通过视频拼接算法实时拼接成全景视频数据;获取多路传声器所采集的原始音频数据,将原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据;将全景视频数据和全景音频数据进行实时录制,生成全景音视频数据。
在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:通过视频FPGA获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,所述视频FPGA用于处理视频数据。
在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:通过音频FPGA获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的全景声Ambisonic算法实时合成全景音频数据,所述音频FPGA用于处理音频数据。
在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:通过畸变校正算法将原始视频数据中的畸变数据进行校正,生成校正后的视频数据;通过图像配准算法对校正后的不同视频数据进行图像配准;通过图像融合算法对进行了图像配准后的不同图像进行融合,得到融合后的全景视频数据。
在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:将64路麦克风实时采集到的原始音频数据,通过内置的、水平为7阶、垂直为3阶的全景声Ambisonic算法实时合成为水平7阶垂直3阶的全景音频数据。
在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:将全景音视频数据推流至服务器,以使服务器对全景音视频数据进行解码后,并实时向终端下发解码后的全景音视频数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种全景音视频录制方法,其特征在于,所述方法包括:
通过视频FPGA获取全景音视频录制设备中多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,所述视频FPGA用于处理视频数据;
通过音频FPGA获取所述全景音视频录制设备中多路传声器所采集的原始音频数据,将所述原始音频数据通过所述全景音视频录制设备中内置的高阶全景声Ambisonic算法实时合成全景音频数据,所述音频FPGA用于处理音频数据;所述多路传声器包括64路麦克风,将所述高阶全景声Ambisonic算法配置为水平为7阶、垂直为3阶;
将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,包括:
通过畸变校正算法将所述原始视频数据中的畸变数据进行校正,生成校正后的视频数据;
通过图像配准算法对所述校正后的不同视频数据进行图像配准;
通过图像融合算法对进行了图像配准后的不同图像进行融合,得到融合后的全景视频数据。
3.根据权利要求1所述的方法,其特征在于,所述通过音频FPGA获取所述全景音视频录制设备中多路传声器所采集的原始音频数据,将所述原始音频数据通过所述全景音视频录制设备中内置的高阶全景声Ambisonic算法实时合成全景音频数据,包括:
通过所述音频FPGA将所述64路麦克风实时采集到的原始音频数据,通过所述内置的、水平为7阶、垂直为3阶的高阶全景声Ambisonic算法实时合成为水平7阶垂直3阶的全景音频数据。
4.根据权利要求1所述的方法,其特征在于,在所述将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据之后,还包括:
将所述全景音视频数据推流至服务器,以使所述服务器对全景音视频数据进行解码后,并实时向终端下发所述解码后的全景音视频数据。
5.一种全景音视频录制系统,其特征在于,所述系统包括:全景音视频录制设备、服务器及终端,其中:
所述全景音视频录制设备,用于通过视频FPGA获取多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,所述视频FPGA用于处理视频数据;通过音频FPGA获取多路传声器所采集的原始音频数据,将所述原始音频数据通过内置的高阶全景声Ambisonic算法实时合成全景音频数据,所述音频FPGA用于处理音频数据;所述多路传声器包括64路麦克风,将所述高阶全景声Ambisonic算法配置为水平为7阶、垂直为3阶;将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据,将所述全景音视频数据推流至服务器;
所述服务器,用于接收所述全景音视频录制设备推流的所述全景音视频数据,对所述全景音视频数据实时进行转码处理,将转码后的全景音视频数据实时发送至所述终端;
所述终端,用于从所述服务器实时获取所述转码后的全景音视频数据,并实时直播所述转码后的全景音视频数据。
6.一种全景音视频录制装置,其特征在于,所述装置包括:
全景视频数据拼接模块,用于通过视频FPGA获取全景音视频录制设备中多路摄像头模组所拍摄的原始视频数据,将所述原始视频数据通过视频拼接算法实时拼接成全景视频数据,所述视频FPGA用于处理视频数据;
全景音频数据合成模块,用于通过音频FPGA获取所述全景音视频录制设备中多路传声器所采集的原始音频数据,将所述原始音频数据通过所述全景音视频录制设备中内置的高阶全景声Ambisonic算法实时合成全景音频数据,所述音频FPGA用于处理音频数据;所述多路传声器包括64路麦克风,将所述高阶全景声Ambisonic算法配置为水平为7阶、垂直为3阶;
全景音视频数据生成模块,用于将所述全景视频数据和所述全景音频数据进行实时录制,生成全景音视频数据。
7.根据权利要求6所述的装置,其特征在于,所述全景视频数据拼接模块包括:
畸变校正单元,用于通过畸变校正算法将所述原始视频数据中的畸变数据进行校正,生成校正后的视频数据;
图像配准单元,用于通过图像配准算法对所述校正后的不同视频数据进行图像配准;
图像融合单元,用于通过图像融合算法对进行了图像配准后的不同图像进行融合,得到融合后的全景视频数据。
8.根据权利要求6所述的装置,其特征在于,所述全景音频数据合成模块还用于通过所述音频FPGA将所述64路麦克风实时采集到的原始音频数据,通过所述内置的、水平为7阶、垂直为3阶的高阶全景声Ambisonic算法实时合成为水平7阶垂直3阶的全景音频数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的全景音视频录制方法。
10.一种计算机设备,所述计算机设备包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的全景音视频录制方法。
CN201711062668.9A 2017-11-02 2017-11-02 全景音视频录制方法、装置、存储介质和计算机设备 Active CN109756683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711062668.9A CN109756683B (zh) 2017-11-02 2017-11-02 全景音视频录制方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711062668.9A CN109756683B (zh) 2017-11-02 2017-11-02 全景音视频录制方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN109756683A CN109756683A (zh) 2019-05-14
CN109756683B true CN109756683B (zh) 2024-06-04

Family

ID=66398396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711062668.9A Active CN109756683B (zh) 2017-11-02 2017-11-02 全景音视频录制方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN109756683B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136392A (zh) * 2019-05-31 2019-08-16 深圳中物智建科技有限公司 一种建筑工地安防监控系统及方法
CN114513698B (zh) * 2020-11-16 2023-08-22 中国联合网络通信集团有限公司 一种全景声播放系统及方法
CN115065808A (zh) * 2022-06-10 2022-09-16 河北经贸大学 一种红外全景视频采集设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006052188A1 (en) * 2004-11-12 2006-05-18 Catt (Computer Aided Theatre Technique) Surround sound processing arrangement and method
CN102326417A (zh) * 2008-12-30 2012-01-18 庞培法布拉大学巴塞隆纳媒体基金会 三维声场编码及优化重建的方法及装置
CN102510436A (zh) * 2011-10-17 2012-06-20 河海大学常州校区 高速微小目标仿蝇视觉在线实时检测装置及检测方法
CN103250207A (zh) * 2010-11-05 2013-08-14 汤姆逊许可公司 高阶高保真度立体声响复制音频数据的数据结构
CN203193773U (zh) * 2013-04-16 2013-09-11 宁波高新区阶梯科技有限公司 一种多媒体全景录制系统
CN103634561A (zh) * 2012-08-21 2014-03-12 徐丙川 会议通信装置和系统
CN104244164A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
CN105072557A (zh) * 2015-08-11 2015-11-18 北京大学 一种三维环绕声重放系统的扬声器环境自适应校准方法
CN106162206A (zh) * 2016-08-03 2016-11-23 北京疯景科技有限公司 全景录制、播放方法及装置
CN106210990A (zh) * 2016-07-13 2016-12-07 北京时代拓灵科技有限公司 一种全景声音频处理方法
CN106851482A (zh) * 2017-03-24 2017-06-13 北京时代拓灵科技有限公司 一种全景声扬声器体感实时交互系统及交互方法
CN106993249A (zh) * 2017-04-26 2017-07-28 深圳创维-Rgb电子有限公司 一种声场的音频数据的处理方法及装置
CN106992959A (zh) * 2016-11-01 2017-07-28 深圳市圆周率软件科技有限责任公司 一种3d全景音视频直播系统及音视频采集方法
CN107026959A (zh) * 2016-02-01 2017-08-08 杭州海康威视数字技术股份有限公司 一种图像采集方法及图像采集设备
WO2017181777A1 (zh) * 2016-04-19 2017-10-26 北京金山安全软件有限公司 全景视频直播方法、装置和系统以及视频源控制设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1989693B1 (en) * 2006-02-23 2010-08-11 Robert Bosch GmbH Audio module for a video surveillance system, video surveillance system and method for keeping a plurality of locations under surveillance
US20120162362A1 (en) * 2010-12-22 2012-06-28 Microsoft Corporation Mapping sound spatialization fields to panoramic video

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006052188A1 (en) * 2004-11-12 2006-05-18 Catt (Computer Aided Theatre Technique) Surround sound processing arrangement and method
CN102326417A (zh) * 2008-12-30 2012-01-18 庞培法布拉大学巴塞隆纳媒体基金会 三维声场编码及优化重建的方法及装置
CN103250207A (zh) * 2010-11-05 2013-08-14 汤姆逊许可公司 高阶高保真度立体声响复制音频数据的数据结构
CN102510436A (zh) * 2011-10-17 2012-06-20 河海大学常州校区 高速微小目标仿蝇视觉在线实时检测装置及检测方法
CN103634561A (zh) * 2012-08-21 2014-03-12 徐丙川 会议通信装置和系统
CN203193773U (zh) * 2013-04-16 2013-09-11 宁波高新区阶梯科技有限公司 一种多媒体全景录制系统
CN104244164A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
CN105072557A (zh) * 2015-08-11 2015-11-18 北京大学 一种三维环绕声重放系统的扬声器环境自适应校准方法
CN107026959A (zh) * 2016-02-01 2017-08-08 杭州海康威视数字技术股份有限公司 一种图像采集方法及图像采集设备
WO2017181777A1 (zh) * 2016-04-19 2017-10-26 北京金山安全软件有限公司 全景视频直播方法、装置和系统以及视频源控制设备
CN106210990A (zh) * 2016-07-13 2016-12-07 北京时代拓灵科技有限公司 一种全景声音频处理方法
CN106162206A (zh) * 2016-08-03 2016-11-23 北京疯景科技有限公司 全景录制、播放方法及装置
CN106992959A (zh) * 2016-11-01 2017-07-28 深圳市圆周率软件科技有限责任公司 一种3d全景音视频直播系统及音视频采集方法
CN106851482A (zh) * 2017-03-24 2017-06-13 北京时代拓灵科技有限公司 一种全景声扬声器体感实时交互系统及交互方法
CN106993249A (zh) * 2017-04-26 2017-07-28 深圳创维-Rgb电子有限公司 一种声场的音频数据的处理方法及装置

Also Published As

Publication number Publication date
CN109756683A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
US10021301B2 (en) Omnidirectional camera with multiple processors and/or multiple sensors connected to each processor
US10853915B2 (en) Generating virtual reality content based on corrections to stitching errors
WO2018082284A1 (zh) 3d全景音视频直播系统及音视频采集方法
US10334220B2 (en) Aggregating images and audio data to generate virtual reality content
US9843725B2 (en) Omnidirectional camera with multiple processors and/or multiple sensors connected to each processor
WO2010022633A1 (zh) 音频信号的生成、播放方法及装置、处理系统
CN108055472A (zh) 一种实时全景直播系统及方法
WO2018094866A1 (zh) 一种基于无人机的全景直播方法及终端
US11431901B2 (en) Aggregating images to generate content
CN109756683B (zh) 全景音视频录制方法、装置、存储介质和计算机设备
JP7177034B2 (ja) レガシー及び没入型レンダリングデバイスのために没入型ビデオをフォーマットする方法、装置、及びストリーム
JP7196399B2 (ja) 音響装置、音響システム、方法およびプログラム
JP7533563B2 (ja) 音響装置、撮像装置、音響システム、方法およびプログラム
JP5555068B2 (ja) 再生装置及びその制御方法及びプログラム
US10937462B2 (en) Using sharding to generate virtual reality content
JP2008510357A (ja) 画像のエンコーディング方法、エンコーディング装置、画像のデコーディング方法及びデコーディング装置
US10075693B2 (en) Embedding calibration metadata into stereoscopic video files
WO2017143756A1 (zh) 实时全景视频录播方法和系统
CN109275010B (zh) 一种4k全景超融合视频终端适配方法及装置
CN107835433B (zh) 一种赛事宽视角直播系统、相关联的设备和直播方法
Jang et al. VLSI architecture for simultaneous capture and playback of 4K UHD audio and video data from multiple channels
CN109348245B (zh) 一种4k全景超融合多通道监测方法及装置
Batke et al. Recording spatial audio signals for interactive broadcast systems
WO2020054605A1 (ja) 映像表示装置、映像処理装置
JP2022034941A (ja) 動画通信システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant