CN109561240B

CN109561240B - 用于生成媒体资产的系统和方法

Info

Publication number: CN109561240B
Application number: CN201811109533.8A
Authority: CN
Inventors: 米甲·沙菲尔尼尔; 弗洛里安·格迈纳; 利亚特·萨德斯腾伯格
Original assignee: Individual
Current assignee: Fuchter; New Delphi
Priority date: 2017-09-24
Filing date: 2018-09-21
Publication date: 2023-02-17
Anticipated expiration: 2038-09-21
Also published as: US10811052B2; US20190096438A1; US20210098023A1; CN109561240A

Abstract

本申请公开了用于生成媒体资产的系统和方法。提供了用于媒体处理的方法和系统，包括：经由网络向用户设备提供多个媒体资产源；处理所述多个媒体资产源，其中所述处理包括在所述媒体资产源的每一个处选择至少一个图像资产，并且沿着媒体资产源帧检测所选择的图像资产源处的特征；经由网络从用户设备接收媒体记录；处理所述用户媒体记录，其中所述处理包括选择媒体记录中的至少一个元素，并将检测到的特征应用于至少一个元素；根据输入数据将处理过的媒体资产与处理过的媒体记录混合，以产生混合的媒体资产的一种或更多种变体。

Description

用于生成媒体资产的系统和方法

交叉引用

本申请要求于2017年9月24日提交的题为“SYSTEM AND METHODS FOR GENERATINGMEDIA ASSETS”的美国临时申请序列第62/562,437号(代理号FU001/USP)的权益，其全部公开内容通过引用并入本文。

发明领域

本发明总体上涉及媒体处理，且特别地涉及来自不同源的视频流和音频流的自动编辑和混合。

通过引用并入

本说明书中提及的所有出版物、专利和专利申请通过引用并入本文，其程度如同每一个单独的出版物、专利或专利申请被具体和单独地指明通过引用并入的相同程度。

发明背景

社交移动视频平台和在线视频平台(包括例如YouTube、Instagram、Snapchat和社交媒体网站例如Facebook)上的现场直播选项仍然越来越受欢迎。因此，在本领域中已知的用于数字图形设计、图像编辑、音频编辑、视频混合和视频编辑的各种应用和系统向社交平台用户提供用于创建各种媒体内容的工具。

上面提到的视频混合和编辑应用在至少一些方面可能不太理想。之前的视频编辑应用耗时且需要专业的编辑技能，因为通常图像混合和融合、滤镜添加和图像处理都是手动地执行的。例如，在来自不同源的多个视频和音频媒体内容被组合为单个电影文件的情况下，编辑过程需要将许多媒体剪辑(clip)手动地编辑到时间线(timeline)中。外行编辑(例如社交媒体用户)将接着发现弄清楚剪辑应该如何被组合、对齐或修剪是很困难的，并且时间上很紧张。此外，在组合视频剪辑中的任何进一步变化将需要在编辑过程中的附加音频和视频同步步骤。外行编辑于是将不愿意对剪辑进行额外的变化，因为这需要在多个地方中进行多个校正。因此，上传的视频剪辑将是不专业的，有增加视频剪辑视图的数量的低可能性。

发明概述

根据一些实施例的第一方面，提供了一种用于媒体处理的方法，包括：经由网络向用户设备提供一个或更多个媒体资产源；处理所述一个或更多个媒体资产源，其中所述处理包括在所述一个或更多个媒体资产源的每一个处选择至少一个图像资产，并且沿着所述媒体资产源帧检测所选择的图像资产源处的特征；经由网络从用户设备接收媒体记录；处理所述媒体记录，其中所述处理包括选择媒体记录中的至少一个元素，并将检测到的特征应用于至少一个元素或媒体资产源帧；根据输入数据将处理过的媒体资产与处理过的媒体记录混合，以产生一个或更多个混合的媒体资产。

在实施例中，混合包括用所述选择的至少一个元素替换所述一个或更多个媒体资产源的图像资产。

在实施例中，混合包括：根据预定义的阿尔法(alpha)图，用所述图像资产的像素替换所述媒体记录的每一帧的像素。

在实施例中，该方法包括处理和同步一个或更多个混合的媒体资产，处理和同步包括平滑融合的边缘和颜色过滤一个或更多个混合的媒体资产的每个帧。

在实施例中，根据处理模块将特征应用于所述一个或更多个媒体源上，所述处理模块选自融合模块、变换模块和图像大小调整模块组成的组。

在实施例中，变换模块被配置成跟踪在媒体资产源的帧之间旋转或剪切(crop)的图像，并且为每个帧定义坐标向量。

在实施例中，所述多个媒体资产源和媒体记录中的每一个包括至少源视频数据和至少源音频数据。

在实施例中，混合还包括：根据输入数据同时且不同地对多个媒体资产源的每个音频进行音频处理。

在实施例中，混合包括：根据输入数据同时且不同地对多个媒体资产源的每个视频进行图像处理。

在实施例中，处理和同步包括附加的音频和视频滤波，所述附加的音频和视频滤波包括一个或更多个低通滤波，用于消除由音频和视频混合导致的噪声。

在实施例中，输入数据包括用于混合和同步一个或更多个媒体源和媒体记录的一个或更多个设置偏好。

在实施例中，其中在所述媒体资产源的每一个处对至少一个图像资产的所述选择包括在所述一个或更多个媒体资产源的每一个上提供视频替换标记。

在实施例中，至少一个元素或所述图像资产是面部或身体的图像。

在实施例中，媒体记录由客户端设备的用户在播放一个或更多个媒体资产源中的至少一个时记录。

在实施例中，媒体记录由客户端设备的用户在播放源音频数据时记录。

在实施例中，该方法包括通过网络向客户端设备传输混合的媒体资产，以供客户端设备的用户回放。

根据一些实施例的第二方面，提供了一种用于媒体处理的系统，包括：存储器，其被配置为保存一个或更多个媒体资产源；和处理器，所述处理器被配置为：在所述一个或更多个媒体资产源的每一个处选择至少一个图像资产，并且沿着媒体资产源帧检测所选择的图像资产中的特征；经由网络从用户设备接收媒体记录；处理所述媒体记录，其中所述处理包括选择媒体记录中的至少一个元素，并将检测到的特征应用于至少一个元素或媒体记录；根据输入数据将媒体资产与处理过的媒体记录混合，以产生一个或更多个混合的媒体资产。

在实施例中，混合包括用所述选择的至少一个元素替换所述媒体资产的图像资产。

在实施例中，混合包括：根据预定义的阿尔法图，用所述图像资产的像素替换所述媒体记录的每一帧的像素。

在实施例中，多个媒体资产源包括至少音频数据和媒体数据，并且其中处理器被配置为根据输入数据同时且不同地处理多个媒体资产源的每个音频数据和视频数据。

根据一些实施例的第三方面，提供了一种用于媒体处理的方法，包括：在客户端设备处显示媒体资产源的列表；在客户端设备处从媒体资产源的列表中接收一个或更多个选择的媒体资产源；接收包括由客户端设备的用户记录的客户端视频和客户端音频数据的一个或更多个媒体记录；检测媒体记录处的一个或更多个区域；在检测到的区域上生成网格；将记录所选择的媒体资产的媒体逐帧投影到所形成的网格上；在形成的网格上生成阿尔法图；根据生成的阿尔法图逐帧替换选择的像素并保留像素，以产生混合的媒体资产。

在实施例中，该方法包括显示混合的媒体资产。

在实施例中，在显示混合的媒体资产的同时实时生成混合的媒体资产。

在实施例中，所选择的一个或更多个媒体资产源以离线模式被处理。

在实施例中，一个或更多个媒体资产源包括背景部分和对象部分，并且其中删除的像素是背景像素，而对象部分像素逐帧保持。

在实施例中，对象图像选自由以下组成的项：角色、动画角色、AR(增强现实)角色、VR(虚拟现实)角色、面部、全身。

在实施例中，检测到的一个或更多个区域是所选择的媒体资产中的平坦表面。

在实施例中，平坦表面是地板或椅子或桌子。

在实施例中，网格是无色(clear colored)网格。

在实施例中，网格正交于检测到的一个或更多个区域被生成。

在实施例中，网格是矩形的。

在实施例中，该方法包括：沿着媒体资产源帧检测所选择的图像资产源处的特征；在一个或更多个媒体记录上应用检测到的特征。

根据一些实施例的第四方面，提供了一种用于媒体处理的方法，包括：向用户设备提供一个或更多个媒体资产源；处理所述一个或更多个媒体资产源，其中所述处理包括在所述一个或更多个媒体资产源帧的每一个处选择至少一个图像资产，并且沿着媒体资产源帧检测所选择的图像资产源处的特征；接收或生成包括由客户端设备的用户记录的客户端视频和客户端音频数据的媒体记录；处理所述媒体记录，其中所述处理包括选择媒体记录中的至少一个元素并将检测到的特征应用于至少一个元素；用所述选择的至少一个元素替换所述一个或更多个媒体资产源的选择的图像资产，以产生混合的媒体资产；以及显示所述选择的媒体元素。

附图说明

通过参考下面的详细描述和附图来获得对本公开的特征和优点的更好的理解，该详细描述阐述说明性实施例，其中本公开的实施例的原理被利用。

图1是根据实施例的自动实时媒体资产创建器和分配系统的示意图；

图2A示出了根据实施例的用于自动混合和同步来自不同源的媒体资产以提供多个不同的混合的媒体资产的方法的流程图；

图2B示出了根据实施例的用于将一个或更多个媒体资产与一个或更多个媒体记录混合的方法的流程图；

图3A示出根据实施例的自动实时电影创建器系统的框图；

图3B示出了根据实施例的用于变换媒体资产源的帧的方法的流程图；

图3C示出了根据实施例的包括替换标记的媒体源图像；

图4示出了根据实施例的用于处理和混合用户媒体记录以基于单个用户媒体记录产生一个或更多个混合的媒体资产的方法的示意性表示示例；

图5是根据实施例的用户界面屏幕的示意表示；

图6示出了根据实施例的用于处理和混合媒体记录与媒体资产源的方法的示意性表示示例；

图7示出了根据实施例的自动实时电影创建器系统700的框图；

图8示出了根据实施例的用于混合媒体资产源和媒体记录的方法的流程图；

图9A-9E示出了根据实施例的相关的UX(用户体验)显示视图的各个示例；

图10示出了根据实施例的用于处理媒体资产源帧(诸如所选择的媒体资产)的方法的详细流程图；和

图11A-11C示出了根据实施例的根据处理方法处理的帧的各个示例。

在下面的详细描述中，将描述本发明的各种方面。为了解释的目的，阐述了具体细节以便提供对本发明的透彻理解。对于本领域中的技术人员将明显，具有在细节上有所不同而不影响本发明的基本性质的本发明的其他实施例。因此，本发明不被在附图中所示和在说明书中描述的事物所限制，但仅如在所附权利要求中所指示的，其中适当的范围仅由所述权利要求的最宽解释确定。

发明的详细描述

在阐述本发明的详细描述之前，阐述在下文中将使用的某些术语的定义可能是有帮助的。

如在本文中以及整个说明书和权利要求书中使用的术语“媒体记录”应该理解为包括诸如客户端视频的视频，该视频还可以包括例如由用户通过客户端设备记录的客户端音频数据。

如在本文中以及在整个说明书和权利要求书中使用的术语“媒体资产源”应该被理解为包括视频和/或音频，用户希望将该视频和/或音频与媒体记录混合。媒体资产源可以是或者可以包括媒体剪辑，其为媒体资产的短版本。

如在本文中以及在整个说明书和权利要求书中使用的术语“图像资产”应被理解为包括媒体资产源的由媒体记录替换或与媒体记录混合或插入到媒体记录的视频部分。

如在本文中使用的术语“用户图像”被定义为媒体记录的视频部分，其在与媒体资产源混合时替换图像资产。

如在本文中以及在整个说明书和权利要求书中使用的术语“混合的媒体资产”应被理解为包括与媒体记录混合的媒体资产源。

当观看诸如电影或游戏之类的媒体资产时，社交媒体用户可能希望录制他们自己的视频，并将他们的记录与其他媒体资产相结合，以创建他们是电影或游戏的一部分的印象。才艺表演和录音室使粉丝和客户端能够实现那些组合记录，但是从时间、金钱和努力方面具有高成本。例如，个人电脑和家庭娱乐控制台上的媒体记录软件允许用户使用媒体资产拍摄他们自己的照片并生成数字效果、运动图像和作品。修改后的图片然后可以上传到网站。然而，将来自不同源的音频和视频混合在一起仍然超出大多数用户和设备自由处置的能力。

下文描述的实施例通过使用户能够以简单且自动的方式将媒体资产源(例如电影或游戏)与媒体记录(例如用户媒体记录)混合并同步来解决这个未满足的需要。用户媒体记录可以包括用户的图像或用户周围的任何图像，例如用户的房间或其他属性。可选地，媒体记录可以包括任何合适类型的媒体内容，例如用户参与的器乐或舞台表演。

在所公开的实施例中，系统、设备或方法被配置为例如经由网络或经由其他源接收一个或更多个媒体记录，其中媒体记录可以包括源音频数据和视频。在一些情况下，用户可以在他的设备或其他设备上记录视频(例如自拍)，并将他的记录上传到服务器或直接上传到他的设备。在上传之后或上传期间，或者当正在执行记录时(例如实时)，用户可以选择例如在用户界面菜单上呈现的一个或更多个媒体资产源，他希望将这些媒体资产源与他的记录或与直接摄像机输入(实时)混合。在下一步骤中，服务器或用户设备自动将所选择的媒体资产与媒体记录混合并同步，以生成一个或更多个混合的媒体资产，并例如在用户的设备显示器上显示混合的媒体资产。最后，用户可以经由网络通过例如一个或更多个社交移动视频平台将一个或更多个混合的媒体资产共享到其他客户端设备。

根据另一实施例，提供了用于生成多个混合的媒体资产的系统设备和方法，该多个混合的媒体资产包括与媒体资产源的每个媒体资产源不同地组合的媒体记录。例如，该系统和方法可以例如实时地自动并同时创建混合的媒体资产的多个变体，其中每个混合的媒体资产涉及不同的媒体类别，例如喜剧、音乐、戏剧等。在组合的媒体资产的每一个处，例如根据所选择的类别或者根据一个或更多个预定义的控制功能(例如，输入数据)，媒体记录被自动混合和同步，例如对于喜剧类别，搞笑音轨和特征将被包括在混合的媒体资产中，而对于恐怖类别，恐怖音轨效果将被组合在混合的媒体资产中。

在一些情况下，一个或更多个预定义控制功能数据可以包括用于混合和同步媒体源和用户媒体记录的一个或更多个设置偏好。设置偏好可以例如提前(例如在媒体资产下载之前)由用户上传或者由系统自动上传，或者在播放媒体资产时实时上传。

根据一个实施例，混合和同步过程可以包括在媒体资产源上提供视频替换标记。替换标记定义了协调器，其中作为媒体资产一部分的图像将被替换为例如用户媒体记录。

图1是根据实施例的媒体资产创建和分配系统100的示意图。媒体服务器22包括处理器24和存储器26，其可以存储一个或更多个媒体资产。存储器26还存储多个媒体记录，例如处理器24从用户客户端接收的不同用户的个人记录。典型地，服务器22包括合适的通用计算机(或这种计算机的集群)，其用软件被编程以执行本文描述的功能。例如，该软件可以通过网络以电子形式被下载到计算机。另外地或可选地，软件可以存储在有形非临时计算机可读介质(例如磁性、光学或电子存储介质)上。

服务器22通过网络28与多个客户端设备30、32、34通信。通常，网络28包括公共因特网，并且服务器22经由合适的Web接口与客户端设备通信，如在本领域中已知的。可选地，服务器和客户端可以使用任何其他合适类型的网络和接口进行通信。

客户端设备30、32、34可以包括例如台式、膝上型或平板电脑、媒体控制台、个人数字助理或智能电话或具有与服务器22交互所需的网络、视频和音频接口以及计算能力类型的任何其他类型的设备。借助示例，客户端设备30包括用于播放媒体资产的具有处理器36、存储器、视频显示器38和扬声器40的计算机以及用于记录的视频摄像机42和麦克风44。客户端设备32和34被类似地配备，尽管采用不同的配置。

在操作中，用户46、48和50可以例如在他们的设备30、32和34上记录他们的记录，并且经由网络将各个用户的记录上传到服务器22。处理器24被配置成将用户的记录存储在存储器26中。用户46、48和50可以选择存储器26上存储的媒体资产之一，并请求服务器22播放与任何用户记录混合的所选择的资产。如下面将参照图2A-11C进一步详细说明的，处理器24被配置为选择或接收对所选择的媒体资产内的一个或更多个图像资产的选择，预处理所选择的媒体记录和媒体资产使得二者将是兼容的，用用户的记录(例如图像)替换所选择的图像资产，并创建包括用户图像和媒体资产的混合物的一个或更多个混合的媒体资产。一旦组合过程完成，用户46、48和50就可以从服务器22下载混合的媒体资产并将其在他们各自的客户端设备30、32和34上播放和/或将其经由网络发送给朋友。

在一些实施例中，处理器被配置为接收图像资产部分。例如，用户46、48和50可以选择特定的图像资产并将所选择的图像资产上传到服务器。可以使用诸如鼠标或触摸屏之类的任何输入设备来启动选择。客户端设备30、32和34被配置为将用户选择翻译成替换标记，并将替换标记上传到服务器22，用于图像资产替换过程，如本文将参照图2A-5所示。

图2A示出了根据实施例的用于自动混合和同步来自不同源的媒体资产的方法200的流程图，例如将一个或更多个媒体资产源与媒体记录混合和同步以提供一个或更多个不同的混合的媒体资产(例如多个混合的媒体资产变体)。在步骤210处，提供一个或更多个媒体资产源，包括例如源视频数据和源音频数据。在一些情况下，可以经由网络将一个或更多个媒体资产源下载到用户设备。在一些情况下，媒体资产源可以由用户和/或在用户设备处生成和形成。在步骤220处，选择并标记媒体资产源的一个或更多个图像资产，例如，通过媒体资产源的每一个的第一帧上的替换标记来定义图像资产。在步骤230处，分析媒体资产源帧(例如，所有帧)以检测和提取不同的特征，例如帧特征。特征的示例可以包括但不限于大小、颜色、形状、帧中的位置(例如坐标x、y、z)和倾斜(例如角度)。沿着媒体资产源的帧提取的图像资产的特征用于确定(例如实时)媒体记录的处理。根据实施例，分析和/或变换步骤包括利用外推方法，例如缓动函数：例如线性、正弦、二次(Quad)、三次(Cubic)、四次(Quart)、循环(Circ)、弹性(Elastic)等，来提取媒体资产源的一个或更多个特征，这些特征稍后将与媒体记录混合并同步。该分析包括根据多个处理模块(例如融合模块、变换模块和图像大小调整模块)提供对于每个帧的特征。在一些情况下，图像资产的特征提取分析和变换以离线模式或以在线模式执行。在步骤240处，例如经由网络从用户设备接收一个或更多个媒体记录。在一些情况下，媒体记录可以包括用户视频和用户音频数据。在一些情况下，例如在播放媒体资产源之一时，由设备(例如设备34)的用户记录这些记录。在步骤250处，选择并处理媒体记录中的一个或更多个元素(例如，用户图像)，以匹配媒体资产源的所选择的图像资产。在一些情况下，选择是自动执行的，并且包括识别和选择例如媒体记录中的用户的面部或全身图像，并且处理所选择的图像，从而其适合媒体资产和/或图像资产。在某些情况下，选择由用户手动执行。在步骤260处，将在步骤230提取的图像资产的特征应用于所选择的用户图像，以使得能够用所选择的图像资产替换用户图像。例如，在媒体记录上执行计算的变换矩阵和/或图像大小调整。在步骤270处，混合媒体资产源和媒体记录的视频和/或音频。在步骤280处，对混合的媒体资产进行后处理。在一些情况下，后处理包括平滑混合的媒体资产的融合的边缘，使得媒体记录和媒体资产源自然匹配。在一些情况下，处理还包括对混合的媒体资产的每个帧进行颜色过滤。在步骤290处，混合且处理过的混合的媒体资产被同步，例如以产生一个或更多个不同的混合的媒体资产，例如多个混合的媒体资产变体。在某些情况下，同步包括附加的音频和视频滤波，例如低通滤波，以消除或减少由音频和视频对齐和混合导致的噪声。

图2B示出了根据实施例的方法291的流程图，该方法291用于将一个或更多个媒体资产与一个或更多个媒体记录混合，例如单个媒体资产与单个媒体记录混合，方法291包括通过用一个或更多个元素(例如媒体记录中的图像元素)替换所选择的媒体资产处的一个或更多个图像来处理和编辑从包括一个或更多个媒体资产的列表中选择的媒体资产。在步骤292处，例如在用户设备处提供或接收一个或更多个媒体资产源。在步骤293处，处理一个或更多个媒体资产源。在一些实施例中，该处理包括从一个或更多个媒体资产源帧的每一个中选择至少一个图像资产，并且沿着媒体资产源帧检测所选择的图像资产源处的特征。在步骤294处，接收或生成一个或更多个媒体记录。根据实施例，媒体记录可以包括例如由客户端设备的用户记录的客户端视频和客户端音频数据。在步骤295处，处理媒体记录。该处理包括选择媒体记录中的至少一个元素(例如图像元素)，并将检测到的特征应用于媒体记录和/或至少一个元素。在步骤296处，用所选择的至少一个元素(例如逐帧)替换一个或更多个媒体资产源的所选择的图像资产，以产生混合的媒体资产。替换和混合过程的示例在本文中参考图4被示出。在步骤297处，混合的媒体资产例如在用户设备显示器上显示，或者经由例如网络共享给社交媒体平台。

图3A示出根据实施例的自动实时电影创建器模块300的框图。在一些情况下，用户可以例如从服务器下载包括模块300的应用，并且可以通过他的移动设备处理器运行该模块。模块300包括控制器模块302，其被配置为接收和管理数据，例如输入数据310。输入数据可以包括媒体资产源定义和特性(例如时间戳、轨道等)。例如，控制器模块302可以接收输入数据310，输入数据310包括提供多个混合的媒体资产(例如四种类型的电影，例如喜剧、恐怖、音乐和戏剧)的指令。控制器模块302被配置为处理接收到的输入310，并相应地向系统的模块提供一个或更多个处理指令320，用于进一步编辑和混合媒体资产330和媒体记录。处理指令可以包括例如颜色过滤或其他过滤方法。

模块300还包括视频创作模块301，其被配置为接收媒体资产源330并对媒体资产源330执行一个或更多个预处理变换。需要预处理变换来分析和准备媒体资产源330的特征，用于后续的混合和同步步骤。具体而言，预处理包括根据多个处理模块(例如融合模块、变换模块和图像大小调整模块)提供对于每个帧的特征。根据一些实施例，视频创作模块301例如针对媒体资产源330的单个帧接收图像资产的替换标记，并且针对所有媒体资产帧分析图像资产。例如，如图3C所示，多个帧，例如媒体资产源330(例如，MP4文件或任何其他类型的文件)的每个帧392，可以包括[1,0]掩模形式的图像资产的替换标记(例如，阿尔法图)，其中“1”定义用户的媒体记录将被集成的位置，“0”定义用户媒体记录将不被集成的位置。具体而言，将选择房屋393的窗口图像394作为要与用户图像集成并包括用户图像的图像资产，并且因此将根据本文关于图2A-2B、图3A和图3B示出的多种编辑方法提取窗口区域并将其替换为媒体记录的选择的元素。该分析包括根据多个处理模块(例如融合模块、变换模块和图像大小调整模块)准备对于每个帧的特征，如本文将在下面说明的。

融合模块被配置为提供阿尔法融合合成所需的信息。融合模式软件模块检查用于视频资产源帧的阿尔法融合信息是否存在。在对于某些帧不存在阿尔法融合信息的情况下，它计算替换标记内的像素的色度方差，以为媒体源的每一帧相应地生成阿尔法融合数据。

变换模块评估变换矩阵，该变换矩阵包括沿着媒体资产源的连续帧在图像资产帧中旋转和/或剪切和/或放置。在某些情况下，变换矩阵由向量坐标x、y、z和阿尔法通道确定。变换模块被配置为跟踪帧之间的图像旋转或剪切，并为每个帧定义坐标向量x、y、z。本文参照图3B说明了变换过程的详细解释。在另一实施例中，视频创作模块301接收单个媒体资产源的多组图像资产，并同时和实时地对多组图像资产执行处理。

注意，视频创作过程通常是离线执行的，但是在某些情况下，创作过程可以在线执行。

模块300还包括第一视频创建器模块303，其被配置为接收例如在用户的智能电话333上或通过任何类型的摄像机记录的一个或更多个媒体记录(例如媒体记录332)，并且自动识别媒体记录332上的一个或更多个元素(例如用户的图像)。一旦图像被识别，就执行许多图像预处理动作，以快速且自然地将媒体记录适配到媒体资产源330。例如，视频创建器303被配置为检测一个或更多个图像面部，例如记录中的用户面部。如果检测到图像面部，它将被定义为要由模块303处理的用户图像。如果没有检测到图像面部，则用户记录的整个图像将被定义为用户的图像。根据实施例，第一视频创建器模块303与视频创作模块301和/或控制器302通信，用于接收关于媒体资产330图像帧的详细信息，例如每帧的图像大小w(帧)h(帧)，并相应地重新调整用户图像的大小。另外，第一视频创建器模块303被配置为接收媒体资产330的每一帧的变换矩阵的坐标向量x、y、z，并相应地生成用户图像的变换矩阵。

在一些实施例中，第一视频创建器303被配置为接收与多个图像资产相关的详细信息，并且可以同时(例如实时地)预处理多个图像资产，如以上本文中所述。

在预处理过程之后，处理后的输出记录被传输到视频混合器模块304，用于将处理后的媒体记录与媒体资产融合以产生一个或更多个混合的媒体资产。在下一步骤处，混合的视频资产被传输到视频编辑器305，用于根据例如从控制器302接收的一个或更多个视频编辑指令323，产生与媒体资产混合的一个或更多个的、例如用户记录(例如图像)的多个变体。在一些情况下，编辑过程包括根据接收到的编辑指令重新调整混合的图像的大小和/或旋转它，以产生与媒体资产源混合的用户图像的多种变体。

在另一实施例中，视频编辑器305接收多个不同的混合的媒体资产，并以用户图像将匹配媒体资产的内容类型的角色的方式生成用户图像的不同变体。这个过程可以通过应用于每个用户图像组合的颜色过滤机制来完成。

模块300还包括第一音频处理器模块306，其被配置为接收例如在用户设备333处记录的音频记录(例如，作为用户视频记录的一部分)，并预处理音频记录。音频处理包括消除用户的设备输出信号(例如，麦克风从设备扬声器截取的失真信号)回声消除，以及为混合的音频资产的每一帧添加背景音频。根据一些实施例，处理包括噪声消除、信号内插和信号错误隐藏。

在接下来的步骤处，处理过的音频记录被传输到音频混合器模块307，该音频混合器模块307被配置为接收媒体资产330并将处理过的音频记录与媒体资产混合。混合的媒体资产还被传输到第二音频处理器模块308，该第二音频处理器模块308被配置为根据一个或更多个音频处理指令322来处理混合的媒体资产。

在一些情况下，音频处理指令322基于例如从用户(例如媒体记录用户)接收的输入数据310。例如，控制器模块302可以接收输入数据310，输入数据310包括例如提供多个混合的媒体资产(例如四种类型的电影：喜剧、恐怖、音乐和戏剧)的指令。控制器模块302处理接收到的输入310，并相应地向系统的模块提供音频处理指令320，用于进一步编辑和混合媒体资产和用户资产。例如，音频处理器308被配置为根据每个电影类别(例如，喜剧、恐怖、音乐和戏剧)提供四种类型的音轨，并且处理混合的音轨，使得它将与媒体资产源音乐兼容。

在一些情况下，输入数据310可以由服务器基于预定义的规则或随机选择来确定。可选地或附加地，用户可以通过网络向服务器输入指令，以指示他们选择一个或更多个媒体资产以包括在混合的媒体资产中。当混合的媒体资产被下载和播放时，这些指令可以被提前输入或者甚至实时输入。

在最后一个步骤处，多个编辑和混合的视频资产和音频资产输出被传输到同步模块309，该同步模块309同步混合的音频和视频资产以产生一个或更多个(例如多个)不同的同步的媒体资产。根据实施例，同步过程包括例如实时地同时编码和同步多个混合的媒体资产中的每个媒体资产，以提供不同的分类媒体资产。

在一些实施例中，多个同步的输出变体基于与媒体记录(例如，用户图像)的不同变体混合的单个视频资产源。

在一些实施例中，多个同步的输出变体基于与多个不同视频资产源混合的单个记录。

根据一些实施例，第一音频处理器模块306、音频混合器模块307和第二音频处理器模块308可以根据本领域已知的音频处理方法(例如，题为“Synchronized videosystem”的美国专利第8,782,176号中描述的方法，其全部公开内容通过引用并入本文)来处理音频记录或混合的音频记录。

图3B示出了根据实施例的用于变换媒体资产源330的每个或所选择的帧的方法370的流程图。在步骤371处，变换模块使用替换标记接收第一帧的图像资产定义，并启动变换矩阵以评估随后帧的变换矩阵。在一些情况下，变换矩阵可以是4×4矩阵，其定义图像位置和旋转随着时间在帧上的线性变换。在步骤373处，变换模块检查是否为下一帧定义了图像资产标记。如果为下一帧定义了图像资产标记，则在步骤379处，变换模块为下一帧的图像资产设置变换矩阵。在未定义图像资产标记的情况下，则在步骤375处，变换模块检查是否针对后续帧的任一个定义了图像资产标记。如果为后续帧之一定义了图像资产标记，则在步骤378处，变换模块为图像资产标记定义的两个帧之间的所有帧执行图像资产的线性缓和。然后，在步骤379处，变换模块为所有帧的图像资产设置变换矩阵。如果在步骤375处没有为后续帧的任一个定义图像资产标记，则在步骤377处变换模块为当前帧识别新的图像资产，并且在步骤379处，变换模块为该帧的新图像资产设置变换矩阵。在步骤379之后，变换评估过程前进到下一帧，直到媒体资产的所有帧都被处理。根据实施例，图像大小调整模块包括通过相互比较媒体资产的连续帧来为媒体资产的每一帧识别图像大小的任何变化。例如，标量图像资产大小可以通过测量每帧的高度和宽度(以像素为单位)(例如，w(帧)、h(帧))来识别。在图像资产的特定帧缺少替换标记的情况下，例如根据预定义的规则，为特定图像资产确定任意值。

在一个实施例中，视频创作模块301被配置为接收多个媒体资产源，并且同时(例如实时地)处理多个媒体资产源，以提供准备好与用户媒体记录混合的多个处理过的媒体资产。

图4示出了根据实施例的用于处理和混合诸如媒体剪辑432的媒体记录和媒体资产430的方法的示意性表示示例。用户记录媒体记录(例如媒体剪辑432)，并将该记录上传到例如他的移动设备433。图像处理器模块403处理第一帧，例如包括用户412的图像和一般背景411的帧401。根据由混合模块(例如图3A的混合模块300)接收的数据(例如包括替换标记)来对用户选择的将与媒体剪辑432混合的一个或更多个源媒体资产(例如媒体资产430)执行图像处理。在图4所示的示例中，媒体资产包括在中心处包括正方形408的开放盒406的图像405，因此，图像处理器模块403识别用户的面部412并旋转面部413，使得它匹配正方形408的大小和位置。在一些情况下，处理包括颜色过滤和附加变换，以将用户图像颜色与源媒体资产背景颜色匹配。

处理后的图像413和源图像被传输到视频混合器404，该视频混合器404被配置为用面部图像413替换正方形408，从而提供混合的媒体资产417。混合的媒体资产被传输到图像处理器模块405，用于处理混合的图像417。该处理包括颜色过滤、背景消除和自动拟合帧以产生改进的混合的图像419。对媒体记录的所有帧重复该过程以生成混合的媒体资产。

在一个实施例中，视频混合器404例如实时地同时接收多个不同的视频资产，并且将每个视频资产与媒体记录混合以生成多个混合的视频资产，每个混合的视频资产与媒体记录混合。

图5是根据一些实施例的用户界面屏幕500的示意性表示示例，该用户界面屏幕500例如从服务器22传输到客户端设备，或者可以在设备(例如用户设备(例如设备30、32、34)本身上例如以应用的形式编码。服务器22可以自动将屏幕调整为客户端设备及它正运行的软件的类型。例如，不同的屏幕版本可以为平板电脑和其他移动设备而提供，以及用于集成到社交网络应用例如

中。

屏幕500允许用户选择不同的功能以便创建和/或播放混合的媒体资产。例如，“类别”的滚动条510列出了用户可以选择的不同源剪辑，例如“电影-明星轨道”512、“卡通-辛普森”513等。当用户选择这些类别之一时，或者一旦他播放了他的记录，例如“自拍”记录530，系统将自动呈现，例如实时呈现与所选择类别之一混合的媒体记录530。例如，如图5所示，用户的图像被呈现为星轨航天飞机屏幕的一部分。

根据另一实施例，提供了用于混合和/或同步一个或更多个媒体资产源(例如所选择的媒体资产源)和媒体记录的系统设备和方法。具体而言，该方法和系统包括自动处理媒体记录并将一个或更多个视频对象(例如阿凡达或卡通人物)放置在所有媒体记录帧上。例如，用户可以选择或生成包括呈现诸如虚拟角色对象的对象的视频的媒体资产，该对象可以自动与诸如用户的媒体记录的媒体记录混合。在一些情况下，可以根据一个或更多个类别(例如喜剧、音乐、戏剧等)从视频对象数据库中创建或选择虚拟角色。在一些情况下，虚拟角色可以是2D(二维)或3D(三维)AR(增强现实)或VR角色，例如阿凡达等。根据实施例，所选择的角色的视频被投影在媒体记录上，并因此媒体记录的像素被所选择的角色的图像像素替换。

图6示出了根据实施例的用于处理和混合媒体记录与媒体资产源的方法600的示意性表示示例，其中媒体资产源包括例如一个或更多个视频角色，例如虚拟角色。方法600可以由诸如移动设备、平板电脑或控制台之类的用户设备来执行。例如，用户设备可以是智能电话，该智能电话具有用于运行视频和混合应用的处理器、用于显示视频的显示器和用于接收用户操作和输出的接口，如本文关于图1所示。在操作中，用户记录诸如媒体剪辑632的视频，并且上传该记录到例如他的设备633上或者服务器上或者任何其他设备上。一旦用户下载并启动包括混合模块701(本文参照图7示出)的混合应用，上传的媒体记录例如被逐帧处理。在一些情况下，上传的媒体剪辑632包括诸如帧601的帧，该帧可以包括例如用户612的图像和一般背景611。媒体记录帧可以由区域检测器模块607处理，区域检测器模块607被配置为检测媒体剪辑632帧中的区域或特定元素，以放置和混合所选择的媒体资产源630的对象。在一些情况下，检测到的区域可以是表面区域，例如平坦表面，例如地板、桌子或椅子或媒体资产源的选择对象自然适合的其他位置。在一些情况下，检测到的区域是对于放置和混合媒体资产630的对象而言最佳的区域。在图6所示的示例中，视频创建器可以将表面区域634标识为选择的区域以定位媒体资产源。

根据一些实施例，在媒体记录之后或者在用户记录或上传媒体剪辑的同时，用户从他希望与记录的媒体剪辑632混合的媒体资产源630的列表中选择一个或更多个媒体资产源。诸如帧605的媒体资产源帧可以包括角色636(例如女士)和背景604(例如丛林)。在下一步骤处，所选择的媒体资产源由背景移除器模块635处理，背景移除器模块635被配置为处理媒体资产源，使得媒体资产内的一个或更多个对象将适合媒体记录632并与媒体记录632自然混合。该处理可以包括例如从媒体资产中去除背景像素和/或用媒体记录632的像素替换和/或添加媒体资产源的像素。例如，背景去除器模块635被配置为连续处理所选择的媒体资产的每个帧，例如帧605。在操作中，背景移除器模块635移除背景像素并处理对象像素，使得所选择的媒体资产源的每一帧稍后将适合媒体记录中的检测表面区域634。在一些情况下，处理还包括颜色过滤和附加变换，以使媒体记录和/或对象636的颜色或大小彼此匹配。

在随后的步骤处，视频混合器模块604将媒体记录632与处理后的对象636混合，以产生包括放置在区域634上的每个帧处的对象636的混合的媒体资产。

在一些情况下，混合的媒体资产被传输到图像处理器607，用于进一步处理混合的媒体资产的混合的帧。该处理可以包括颜色过滤、背景消除和自动拟合帧以产生改进的混合的图像619。在一些实施例中，视频混合器604被配置为例如实时地同时接收多个不同的视频资产源，并且将每个视频资产与媒体记录混合以生成多个混合的视频资产，每个混合的视频资产与媒体记录混合。图7示出根据实施例的自动实时电影创建器系统700的框图。系统700包括混合模块701，混合模块701被配置为将一个或更多个媒体资产源(包括例如由用户选择的例如一个或更多个AR或动画角色)与一个或更多个媒体记录(如由例如智能电话摄像机或任何记录设备记录的视频)混合并同步。在一些情况下，模块701被配置为自动或自主地检测和选择媒体记录内的区域，例如表面区域(例如，记录内的桌子或地板图像)，并将所选择的媒体资产源定位在表面上，使得混合的媒体资产将自然匹配，如图6所示。

系统700包括前述模块300的一些元件，具有用于将一个或更多个媒体资产源与媒体记录混合和同步的附加元件，例如用媒体资产的对象的像素替换媒体记录的像素。根据实施例，模块701包括区域检测器模块707，该区域检测器模块707被配置为识别和选择接收到的媒体记录(例如，接收到的摄像机馈送或由用户记录的视频记录)中的一个或更多个区域或元素，媒体资产源稍后将被放置在该一个或更多个区域或元素中。例如，如图6所示，区域检测器模块707被配置为检测媒体记录中的表面(例如地板)，在该表面中，所选择的角色将被添加并作为所形成的混合的媒体资产的一部分出现。在操作中，区域检测器模块707被配置成接收例如在用户的智能电话733处或通过任何类型的视频摄像机记录的媒体记录732，并且自动识别接收到的记录处的表面区域，并且发送到第一视频创建器模块703，在第一视频创建器模块703处，角色或包括角色的正交网格将被放置在媒体记录上。

根据实施例，模块701还包括视频创作模块702，其被配置为接收所选择的媒体资产源730并在所选择的媒体资产源的每一帧上叠加阿尔法图，以确定所选择的媒体资产的哪些像素将被包括在混合的媒体资产中，以及哪些像素将被替换或删除。根据实施例，所选择的媒体资产源730可以包括用户可以选择的一个或更多个对象，并且模块701可以自动与媒体记录732混合。在一些情况下，对象可以是或可以包括完整的身体元素，例如AR或VR角色或动画角色，如图9A-9E和图6所示。处理过的媒体资产源730还被传输到控制器709，用于接收关于处理过的媒体资产730图像帧的详细信息，例如帧的图像大小w(帧)h(帧)，并相应地调整用户图像的大小。

上面参考图9A-9E在本文中描述了由视频创作模块702执行的处理方法的详细描述。

根据实施例，模块701还包括第一视频创建器703，该第一视频创建器703被配置为接收媒体记录和由区域检测器模块707定义的检测区域(例如，所选择的表面)，并将网格(例如，无色网格)放置在所选择的区域上，并将处理后的媒体记录发送到视频混合器704，在视频混合器704处，所选择的媒体资产源将进一步与媒体记录混合。具体而言，视频混合器将所选择的媒体资产源(例如AR角色)放置在网格上，并用媒体记录的像素替换媒体资产源的像素(例如替换媒体资产背景像素)，同时保持媒体资产源的像素。在某些情况下，混合过程逐帧连续执行，例如实时执行。参考图8示出了由第一视频创建器703和视频混合器模块704执行的处理方法的详细描述。

根据实施例，图8示出了用于将诸如虚拟AR角色的媒体资产源与媒体记录混合的方法的详细流程图800，以及图9A-9E示出了相关UX(用户体验)显示视图900的各个示例。在步骤810处，当用户下载运行上文描述的模块701的混合和编辑应用时，混合应用例如在用户的移动设备显示器(例如，客户端设备显示器)上向用户显示要与媒体记录混合的媒体资产源(例如虚拟或AR对象)的列表。例如，多个图像对象910可以显示在移动设备显示器上。在一些情况下，图像对象的图标显示在媒体设备显示器的底部，例如在媒体记录905背景上。在一些情况下，如图9A所示，每个图像对象涉及不同的类别，例如角色912、新闻914、体育916、TV、电影、动画、迷因(Memes)、真人秀(Real TV)、游戏等。在一些情况下，当用户记录媒体记录时，可以显示一个或更多个媒体资产，例如他的办公室，如图9所示。在选择类别之一时，呈现多个相关的图像角色，例如用于选择的五个图标908。角色908可以包括例如2D或3D AR角色，例如外星人909。在步骤820处，例如在诸如用户设备处理器的处理器处或在服务器处接收一个或更多个所选择的媒体资产源。在一些情况下，例如基于用户先前的选择或基于其他标准，媒体资产源由用户设备的一个或更多个处理器自动确定。例如，所选择的媒体资产可以包括外星人909。在步骤825处，例如在客户端设备处经由网络接收一个或更多个媒体记录。在一些情况下，媒体记录包括客户端视频和客户端音频数据。在一些情况下，媒体记录由客户端设备的用户在播放或观看或选择媒体源列表或所选择的媒体源时记录。在步骤830处，检测媒体记录(例如摄像机馈送)处的一个或更多个区域或位置，用于将所选择的媒体资产放置在检测到的区域。例如，如图9B所示，一个或更多个处理器被配置为使用用于检测表面和用于将所选择的对象放置在检测到的表面上的任何适当的算法来检测或瞄准例如在包括在媒体记录725的地板923区域处的一个或更多个表面，例如平坦表面区域922。例如，检测可以由区域检测器模块707执行，区域检测器模块707被配置为选择“最佳”表面，例如最容易检测的表面，通常是地板。用于表面检测选择的这种算法的非限制性示例可以包括深度缓冲器(Z缓冲器)、扫描线、区域细分、背面、A-缓冲器、深度排序、BSP树。在一些情况下，在步骤840处，生成网格。在一些情况下，例如正交或基本正交于检测到的表面形成无色网格。在一些情况下，另外的网格933形成为与检测到的表面935平行。在一些情况下，如图9B和9C所示，与表面935和网格933正交地生成无色网格932。在一些情况下，网格933或网格932可以是或者可以包括水平和垂直地具有线的格子状结构，其可以是纵向和横向的。在一些情况下，网格932和933的大小可能与投影在其上的视频(其包括角色)的大小相同，例如800x800。在一些情况下，网格932被成形为矩形，并且可以垂直于平行四边形形状的检测表面935生成。在一些情况下，网格932成形为其它形状。在一些情况下，将所形成的网格分辨率与媒体记录的分辨率进行比较。在步骤850处，所选择的媒体资产源(例如，所选择的视频911)被投影在检测区域处的所形成的网格(例如，矩形网格)上。例如，如图9D所示，包括AR外星人角色909的所选择的媒体资产被投影在所形成的网格上或所生成网格的一部分上。在步骤860处，对于媒体资产源(例如，所选择的视频)的每一帧，例如在所形成的网格处生成阿尔法图，并且在步骤870中，根据阿尔法图帧，媒体资产源的所选择的像素被合适的(例如，相同大小的)媒体记录像素替换，例如背景像素被删除，而一些像素(例如对象像素)被保留和显示，以产生在步骤880处向用户显示的混合的媒体资产。显示的混合的媒体资产包括处理过的媒体记录和处理过的媒体资产。例如，如图9D所示，媒体资产源932的背景像素927被替换为与媒体记录像素905匹配的像素，同时对象像素909相应地针对每一帧被投影。图9E中示出了形成的混合的媒体资产，其包括用户记录的站在用户办公室地板上的对象909。在一些情况下，在显示混合的媒体资产的同时实时生成混合的媒体资产。

根据一些实施例，方法800还包括从一个或更多个媒体资产源的每一个选择至少一个图像资产，并沿着媒体资产源帧检测所选择的图像资产源处的特征，以及在媒体记录中选择至少一个元素(如图像元素)并将所检测的特征应用于媒体记录和/或至少一个元素，如图2A-2B所示。

图10示出了根据实施例的用于处理媒体资产源帧(诸如所选择的媒体资产)的方法1000的详细流程图，包括编辑和剪切所选择的媒体资产中的一个或更多个元素，以及将一个或更多个元素与媒体记录相结合。

图11A-11C示出了根据实施例的根据处理方法1000处理的媒体资产源的帧的各个示例。在一些情况下，处理方法1000可以在离线模式或其他模式下执行，例如在媒体资产与媒体记录混合之前。

在步骤1010处，识别出现在媒体资产源帧(例如，所选择的视频)的多于X帧(例如，X>72)中的一个或更多个对象或元素。在一些情况下，如图11A所示，所识别的对象或元素可以是预定义的元素。在一些情况下，对象或元素可以是或可以包括具有完整身体的AR或动画角色。例如，如图11A所示，所选择的媒体资产的帧1112可以包括被沙漠背景1116包围的外星人1114的图像。在步骤1020处，针对帧中的每一个或一些，检测对象背景。例如，如图11A所示，针对包括对象1114的每个帧检测对象1114的背景1116。在步骤1030处，针对包括检测到的对象的每个帧生成阿尔法图。根据一些实施例，阿尔法图可以包括具有媒体资产源的大小和分辨率的2D矩阵。生成的阿尔法图用于指向和确定在每一帧处哪些像素将被保留和呈现在每一帧处，以及哪些像素将被移除或取消并被媒体记录(例如摄像机馈送)像素替换。在步骤1040处，为每个帧叠加阿尔法图，用于定位删除或取消哪个像素(例如背景像素)和保留哪个像素(对象像素)。图11C示出了叠加在帧1112上的阿尔法图1118，其中数字“1”表示将被取消和替换的背景区域，而数字“0”表示被保持且与媒体记录混合的对象像素。在步骤1050处，根据阿尔法图1118删除(或取消)和/或替换对于每帧的像素。具体而言，如图9D和图9E所示，对于媒体记录中的每一帧，被删除的媒体视频像素被替换为合适的摄像机馈送像素，例如根据阿尔法图和如本文参考图10和图11A-11C所示的编辑方法1000的媒体记录像素。

在另外的实施例中，处理单元可以是包括执行设备的功能的一个或更多个硬件中央处理单元(CPU)的数字处理设备。在又一些另外的实施例中，数字处理设备还包括被配置为执行可执行指令的操作系统。在一些实施例中，数字处理设备可选地连接到计算机网络。在另外的实施例中，数字处理设备可选地连接到互联网，使得它访问万维网。在又一些另外的实施例中，数字处理设备可选地连接到云计算基础设施。在其他实施例中，数字处理设备可选地连接到内联网。在其他实施例中，数字处理设备可选地连接到数据存储设备。

根据本文的描述，作为非限制性例子，合适的数字处理设备包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、子笔记本计算机、上网本计算机、netpad计算机、机顶计算机、手持计算机、互联网电器、移动智能电话、平板电脑、个人数字助理、视频游戏控制台和车辆。本领域中的技术人员将认识到，许多智能电话适合于在本文描述的系统中使用。本领域中的技术人员还将认识到，具有可选计算机网络连接的选定电视机适合于在本文描述的系统中使用。合适的平板电脑包括具有本领域中的技术人员已知的小册子、写字板和可转换的配置的平板电脑。

在一些实施例中，数字处理设备包括被配置为执行可执行指令的操作系统。例如，操作系统是软件，包括程序和数据，其管理设备的硬件并提供用于应用的执行的服务。本领域中的技术人员将认识到，作为非限制性例子，合适的服务器操作系统包括FreeBSD、OpenBSD、

Linux、

Mac OS X

Windows

和

本领域中的技术人员将认识到，作为非限制性例子，合适的个人计算机操作系统包括

Mac OS

和UNIX型操作系统，例如GNU/

在一些实施例中，操作系统由云计算提供。本领域中的技术人员还将认识到，作为非限制性例子，合适的移动智能电话操作系统包括

OS、

Research In

BlackBerry

Windows

OS、

Windows

OS、

和

在一些实施例中，该设备包括存储和/或存储器设备。存储和/或存储器设备是用于在临时或永久基础上存储数据或程序的一个或更多个物理装置。在一些实施例中，该设备是易失性存储器并且需要电力来维持所存储的信息。在一些实施例中，该设备是非易失性存储器并且当数字处理设备未被供电时保留所存储的信息。在另外的实施例中，非易失性存储器包括闪存。在一些实施例中，非易失性存储器包括动态随机存取存储器(DRAM)。在一些实施例中，非易失性存储器包括铁电随机存取存储器(FRAM)。在一些实施例中，非易失性存储器包括相变随机存取存储器(PRAM)。在其他实施例中，该设备是存储设备，作为非限制性例子包括CD-ROM、DVD、闪存设备，磁盘驱动器、磁带驱动器、光盘驱动器以及基于云计算的存储器。在另外的实施例中，存储和/或存储器设备是例如在本文公开的那些设备的组合的设备。

在一些实施例中，数字处理设备包括将视觉信息发送给用户的显示器。在一些实施例中，显示器是阴极射线管(CRT)。在一些实施例中，显示器是液晶显示器(LCD)。在另外的实施例中，显示器是薄膜晶体管液晶显示器(TFT-LCD)。在一些实施例中，显示器是有机发光二极管(OLED)显示器。在各种另外的实施例中，在OLED显示器上是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实施例中，显示器是等离子体显示器。在其他实施例中，显示器是视频投影机。在又一些另外的实施例中，显示器是例如本文公开的那些设备的组合的设备。

在一些实施例中，数字处理设备包括用于从用户接收信息的输入设备。在一些实施例中，输入设备是键盘。在一些实施例中，输入设备是定点设备，作为非限制性例子包括鼠标、轨迹球、触控板、操纵杆、游戏控制器或指示笔。在一些实施例中，输入设备是触摸屏或多点触摸屏。在其他实施例中，输入设备是用于捕获语音或其他声音输入的麦克风。在其他实施例中，输入设备是捕获运动或视觉输入的摄像机。在又一些另外的实施例中，输入设备是例如本文公开的那些设备的组合的设备。

在一些实施例中，本文公开的系统包括用程序编码的一个或更多个非临时计算机可读存储介质，程序包括由可选地联网的数字处理设备的操作系统可执行的指令。在另外的实施例中，计算机可读存储介质是数字处理设备的有形部件。在又一些另外的实施例中，计算机可读存储介质可选地从数字处理设备可移除。

在一些实施例中，作为非限制性例子，计算机可读存储介质包括CD-ROM、DVD、闪存设备、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在一些情况下，程序和指令在介质上永久地、实质上永久地、半永久地或非临时地被编码。在一些实施例中，本文公开的系统包括至少一个计算机程序或其使用。计算机程序包括在数字处理设备的CPU中可执行的、被写入以执行指定的任务的一系列指令。计算机可读指令可以被实现为执行特定任务或实现特定抽象数据类型的程序模块，例如功能、对象、应用编程接口(API)、数据结构等。根据在本文提供的公开，本领域中的技术人员将认识到，可以用各种语言的各种版本来编写计算机程序。

计算机可读指令的功能可以根据需要在各种环境中被组合或分配。在一些实施例中，计算机程序包括一个指令序列。在一些实施例中，计算机程序包括多个指令序列。在一些实施例中，从一个位置提供计算机程序。在其他实施例中，从多个位置提供计算机程序。在各种实施例中，计算机程序包括一个或更多个软件模块。在各种实施例中，计算机程序部分地或全部包括一个或更多个web应用、一个或更多个移动应用、一个或更多个独立应用、一个或更多个web浏览器插件、扩展、加载项或附件或其组合。

在一些实施例中，计算机程序包括提供给移动数字处理设备的移动应用。在一些实施例中，移动应用在它被制造的时间被提供给移动数字处理设备。在其他实施例中，经由在本文描述的计算机网络来将移动应用提供给移动数字处理设备。

鉴于本文提供的公开，通过本领域中的技术人员已知的技术使用本领域已知的硬件、语言和发展环境来创建移动应用。本领域的那些技术人员将认识到，移动应用是用几种语言编写的。作为非限制性例子，合适的编程语言包括C、C++、C#、Objective-C、Swift、Java^TM、Javascript、Pascal、Object Pascal、Python^TM、Ruby、VB.NET、WML和有或没有CSS的XHTML/HTML或其组合。

合适的移动应用开发环境从几个源可获得。作为非限制性例子，商业上可得到的开发环境包括AirplaySDK、alcheMo、

Celsius、Bedrock、Flash Lite、.NETCompact Framework、Rhomobile和WorkLight移动平台。其他开发环境在没有成本的情况下可获得，作为非限制性例子包括Lazarus、MobiFlex、MoSync和Phonegap。此外，作为非限制性例子，移动设备制造商分发软件开发工具包，包括iPhone和iPad(iOS)SDK、Android^TMSDK、

SDK、BREW SDK、

OS SDK、Symbian SDK、webOS SDK和

Mobile SDK。

本领域的技术人员将认识到，几个商业论坛可用于分发移动应用，作为非限制性例子包括

App Store、Android^TM Market、

App World、用于Palm设备的App Store、用于webOS的App Catalog、用于Mobile的

Marketplace、用于

设备的Ovi Store、

Apps和

DSi Shop。

在一些实施例中，在本文公开的系统包括软件、服务器和/或数据库模块或其使用。鉴于本文提供的公开，通过本领域中的技术人员已知的技术使用本领域已知的机器、软件和语言来创建软件模块。本文公开的软件模块以多种方式实现。在各种实施例中，软件模块包括文件、一段代码、编程对象、编程结构或其组合。在另外的各种实施例中，软件模块包括多个文件、多个代码段、多个编程对象、多个编程结构或其组合。在各种实施例中，作为非限制性例子，一个或更多个软件模块包括web应用、移动应用和独立应用。在一些实施例中，软件模块在一个计算机程序或应用中。在其他实施例中，软件模块在多于一个计算机程序或应用中。在一些实施例中，软件模块被托管在一台机器上。在其他实施例中，软件模块被托管在多于一台机器上。在另外的实施例中，软件模块被托管在云计算平台上。在一些实施例中，软件模块被托管在一个位置中的一台或更多台机器上。在其他实施例中，软件模块被托管在多于一个位置中的一台或更多台机器上。

在一些实施例中，本文公开的系统包括一个或更多个数据库或其使用。鉴于本文提供的公开，本领域中的技术人员将认识到，许多数据库适合于如本文所述的信息的存储和检索。在各种实施例中，作为非限制性例子，合适的数据库包括关系数据库、非关系数据库、面向对象的数据库、对象数据库、实体-关系模型数据库、联合数据库和XML数据库。在一些实施例中，数据库是基于互联网的。在另外的实施例中，数据库是基于web的。在又一些另外的实施例中，数据库是基于云计算的。在其他实施例中，数据库基于一个或更多个本地计算机存储设备。

在上面的描述中，实施例是本发明的例子或实现。“一个实施例”、“实施例”或“一些实施例”的各种出现并不一定都指相同的实施例。

尽管本发明的各种特征可以在单个实施例的上下文中进行描述，这些特征也可以单独地或以任何合适的组合提供。相反，尽管为了清楚起见，本发明可在本文中在单独实施例的上下文中进行描述，本发明也可以在单个实施例中实现。

说明书中对“一些实施例”、“实施例”、“一个实施例”或“其他实施例”的提及意指结合实施例所描述的特定的特征、结构或特性被包括在发明的至少一些实施例中，但不一定是所有实施例。

应该理解，在本文使用的措辞和术语不应被解释为限制性的，并且仅用于描述性目的。

参考所附说明书、附图和例子可以更好地理解本发明的教导的原理和用途。

应该理解，在本文阐述的细节并不解释对本发明的应用的限制。

此外，可以理解的是，本发明可以按照各种方式执行或实施，并且本发明可以在不同于上述描述中概括的实施例的实施例中实现。

应该理解，术语“包括(including)”、“包括(comprising)”、“由...组成”及其语法变体并不排除一个或更多个组件、特征、步骤或完整事物或其组的添加，并且术语应被解释为指定组件、特征、步骤或完整事物。

如果说明书或权利要求提到“附加”元件，其并不排除有多于一个的附加元件。

应该理解，在权利要求或说明书提到“一个(a)”或“一个(an)”元件的情况下，这样的提及并不被解释为仅存在该元件中的一个。应理解，在说明书规定组件、特征、结构或特性“可以”、“可能”、“能”或“能够”被包括的场合，该特定的组件、特征、结构或特性不要求被包括。在可适用的情况下，虽然可以使用状态图、流程图或两者来描述实施例，但是本发明不限于这些图或相应的描述。例如，流程不需要移动经过每个示出的框或状态，或按照与图示和描述完全相同的顺序移动。本发明的方法可以通过手动地、自动地或其组合执行或完成所选择的步骤或任务来实现。

在权利要求书和说明书中呈现的描述、例子、方法和材料不应被解释为限制性的，而更确切地是仅仅是说明性的。本文使用的技术和科学术语的含义是如本发明所属领域的普通技术人员通常理解的含义，除非另有规定。本发明可以在使用本文所述的那些方法和材料等同或相似的方法和材料的测试或实践中实现。

虽然本发明关于有限数量的实施例进行了描述，但是这些不应被解释为对本发明的范围的限制，而是应作为一些优选实施例的示例。其他可能的变化、修改和应用也落入本发明的范围内。相应地，本发明的范围不应被迄今为止已经描述的内容限定，而是由所附的权利要求及其法律等效物限定。

在本说明书中提及的所有出版物、专利和专利申请在本文中通过引用以其整体并入本说明书中，其程度如同每个单独的出版物、专利或专利申请被具体和单独地指明通过引用并入本文。此外，本申请中引用或标识任何参考文献不应解释为承认该参考文献可用作本发明的现有技术。在使用章节标题的范围内，不应将其解释为必然的限制。

Claims

1.一种用于媒体处理的方法，包括：

经由网络向用户设备提供一个或更多个媒体资产源，其中所述一个或更多个媒体资产源的每个媒体资产源包括多个源视频帧；

处理所述一个或更多个媒体资产源，其中，所述处理包括：

在所述多个源视频帧的每个源视频帧处选择至少一个图像资产；

沿着媒体资产源帧检测所选择的至少一个图像资产处的特征，其中，所述特征是所述选择的至少一个图像资产的大小、颜色、形状、坐标和倾斜中的一个或更多个；

经由所述网络从所述用户设备接收媒体记录；

处理所述媒体记录，其中，所述处理包括：

选择所述媒体记录中的至少一个图像元素并将检测到的特征应用于所述至少一个图像元素或媒体记录，使用变换模块以用于变换和跟踪所述选择的至少一个图像资产在所述媒体资产源帧之间旋转和剪切，以及为每个帧定义坐标向量；和

使用混合模块，根据一个或更多个选择的类别将所处理的一个或更多个媒体资产源与所处理的媒体记录混合，其中所述混合模块被配置成根据所选择类别同时产生混合的媒体资产的不同变体，其中所述混合包括：

使用区域检测器模块，在所接收的媒体记录中自动识别和选择一个或更多个区域或元素；

与所识别的区域正交地生成网格；

将相应的媒体资产投影在所生成的网格上；

在所生成的网格上生成阿尔法图；

根据所生成的阿尔法图替换和删除选择的像素，以产生所述混合的媒体资产的不同变体。

2.根据权利要求1所述的方法，包括处理和同步所述一个或更多个混合的媒体资产，所述处理和同步包括平滑融合的边缘和颜色过滤所述一个或更多个混合的媒体资产的每个帧，使得所述处理的一个或更多个媒体资产源和处理的媒体记录互相自然匹配。

3.根据权利要求1所述的方法，其中，所述多个媒体资产源和媒体记录中的每一个包括至少源视频数据和至少源音频数据。

4.根据权利要求3所述的方法，其中，所述混合还包括：

根据所述一个或更多个选择的类别同时且不同地音频处理所述多个媒体资产源的每个音频，以产生所述混合的媒体资产的不同变体。

5.根据权利要求2所述的方法，其中，所述处理和同步包括附加的音频和视频滤波，所述附加的音频和视频滤波包括一个或更多个低通滤波，用于消除由音频和视频混合导致的噪声。

6.根据权利要求1所述的方法，其中，在所述媒体资产源的每一个处对至少一个图像资产的所述选择包括在所述一个或更多个媒体资产源的每一个上提供视频替换标记。

7.根据权利要求1所述的方法，其中，所述至少一个图像元素或所述至少一个图像资产是面部或身体的图像。

8.根据权利要求1所述的方法，其中，所述媒体记录由客户端设备的用户在播放所述一个或更多个媒体资产源中的至少一个时记录。

9.根据权利要求3所述的方法，其中，所述媒体记录由客户端设备的用户在播放所述源音频数据时记录。

10.根据权利要求1所述的方法，其中，所述一个或更多个媒体资产源包括一个或更多个2D或3D AR角色或动画角色或VR角色。

11.根据权利要求1所述的方法，其中，所述区域检测器模块使用选自由以下项组成的组的一个或更多个算法：深度缓冲器、扫描线、区域细分、背面、A-缓冲器、深度排序、BSP树。

12.根据权利要求1所述的方法，其中，所述混合的媒体资源的不同变体基于与所述媒体记录的不同变体混合的单个视频资产源。

13.根据权利要求1所述的方法，其中，所述混合的媒体资产的不同变体基于与多个不同的视频资产源混合的单个记录。

14.根据权利要求1所述的方法，其中，由所述变换模块变换和跟踪所述选择的至少一个图像资产包括：

使用替换标记接收选择的至少一个图像资产定义的第一帧；

启动变换矩阵，以评估随后帧的变换矩阵；

检查是否为下一帧定义了所述选择的至少一个图像资产，并且如果为下一帧定义了图像资产，则为下一帧的所述选择的至少一个图像资产设置所述变换矩阵，而如果没有为下一帧定义了图像资产，则检查是否为随后帧的任一帧定义了图像资产标记；

为所述至少一个图像资产标记定义的两个帧之间的所有帧执行图像资产的线性缓和；

前进到下一帧，直到处理完至少一个媒体资产的所有帧。

15.根据权利要求14所述的方法，其中，所述变换矩阵被配置成定义图像位置和旋转随着时间的线性变换。

16.根据权利要求4所述的方法，其中，根据所述一个或更多个选择的类别提供多种音轨，所述音轨是喜剧、恐怖、音乐和戏剧中的一种或更多种。

17.根据权利要求1所述的方法，包括：

使用图像大小调整模块，通过相互比较所述选择的至少一个图像资产的连续帧来为所述选择的至少一个图像资产的每一个帧识别图像大小的任何变化；以及

重新调整所述选择的至少一个图像资产的大小。

18.一种用于媒体处理的系统，包括：

存储器，其被配置成保存经由网络向用户设备提供的一个或更多个媒体资产源，其中所述一个或更多个媒体资产源的每个媒体资产源包括多个源视频帧；以及

处理器，所述处理器被配置成：

沿着所述媒体资产源帧检测所选择的至少一个图像资产中的特征，其中所述特征是所述选择的至少一个图像资产的大小、颜色、形状、坐标和倾斜中的一个或更多个；

经由所述网络从所述用户设备接收媒体记录；以及

处理所述媒体记录，其中，所述处理包括：

选择所述媒体记录中的至少一个图像元素；以及

将检测到的特征应用于所述至少一个图像元素或媒体记录，使用变换模块以用于变换和跟踪所述选择的至少一个图像资产在帧之间旋转和剪切，以及为每个帧定义坐标向量；和

使用混合模块，根据一个或更多个选择的类别将所处理的一个或更多个媒体资产源与所处理的媒体记录混合，其中所述混合模块被配置成根据选择的类别同时产生一个或更多个混合的媒体资产的不同变体，其中所述混合包括：

与所识别的区域正交地生成网格；

将相应的媒体资产投影在所生成的网格上；

在所生成的网格上生成阿尔法图；

根据所生成的阿尔法图替换和删除选择的像素，以产生混合的媒体资产的不同变体。

19.根据权利要求18所述的系统，其中，所述多个媒体资产源包括至少音频数据和媒体数据，并且其中，所述处理器被配置成根据输入数据同时且不同地处理所述多个媒体资产源的每个音频数据和视频数据。