CN110808019A

CN110808019A - 一种歌曲生成方法及电子设备

Info

Publication number: CN110808019A
Application number: CN201911053532.0A
Authority: CN
Inventors: 曹新英; 秦帅
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-18

Abstract

本发明实施例公开了一种歌曲生成方法及电子设备，其中，所述方法包括：接收用户输入的图像和文字信息；依据所述图像和所述文字信息，确定目标曲调、目标节奏及目标歌词；依据所述目标曲调、目标节奏及目标歌词生成目标歌曲。本发明实施例公开的歌曲生成方法，电子设备用户仅需选择生成歌曲的图像和文字信息输入至电子设备，即可触发电子设备依据图像和文字信息生成歌曲，即便非专业人士也可轻松完成歌曲制作，操作便捷且对专业度无要求。

Description

一种歌曲生成方法及电子设备

技术领域

本发明实施例涉及电子设备技术领域，尤其涉及一种歌曲生成方法及电子设备。

背景技术

随着移动互联网技术的飞速发展、电子设备不断的普及，人们日常生活中的办公、交流和娱乐等等活动越来越离不开电子设备。通过电子设备用户可以观看视频、播放歌曲、导航或者通信等。

电子设备中播放的歌曲均为成品，电子设备用户仅可从成品歌曲中选择歌曲进行播放。电子设备所播放的成品歌曲需要专业的作曲家、作词家等一些专业人士合作生成，歌曲制作对专业度要求非常高，非专业人士无法根据个人需求创作生成歌曲。

发明内容

本发明实施例提供一种歌曲生成方法，以解决现有技术中存在的非专业人士无法根据个人需求创作生成歌曲的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种歌曲生成方法，应用于电子设备，其中，所述方法包括：接收用户输入的图像和文字信息；依据所述图像和所述文字信息，确定目标曲调、目标节奏及目标歌词；依据所述目标曲调、目标节奏及目标歌词，生成目标歌曲。

第二方面，本发明实施例提供了一种电子设备，其中，所述电子设备包括：接收模块，用于接收用户输入的图像和文字信息；确定模块，用于依据所述图像和所述文字信息，确定目标曲调、目标节奏及目标歌词；生成模块，用于依据所述目标曲调、目标节奏及目标歌词，生成目标歌曲。

第三方面，本发明实施例提供了一种电子设备，其中，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如本发明实施例中所述的任意一种歌曲生成方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其中，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如本发明实施例中所述的任意一种歌曲生成方法的步骤。

在本发明实施例中，通过电子设备接收用户输入的图像和文字信息；依据图像和文字信息，确定目标曲调、目标节奏及目标歌词；依据目标曲调、目标节奏及目标歌词生成目标歌曲，电子设备用户仅需选择生成歌曲的图像和文字信息输入至电子设备，即可触发电子设备依据图像和文字信息生成歌曲，即便非专业人士也可轻松完成歌曲制作，操作便捷且对专业度无要求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一的一种歌曲生成方法的步骤流程图；

图2是根据本发明实施例二的一种歌曲生成方法的步骤流程图；

图3是模型训练示意图；

图4是根据本发明实施例三的一种电子设备的结构框图；

图5是根据本发明实施例四的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定

实施例一

参照图1，示出了本发明实施例一的一种歌曲生成方法的步骤流程图。

本发明实施例的歌曲生成方法包括以下步骤：

步骤101：接收用户输入的图像和文字信息。

本发明实施例中所示的歌曲生成方法应用于电子设备，电子设备上安装有歌曲生成软件。用户欲制作歌曲时，将图像和文字信息输入电子设备中即可触发电子设备依据用户输入的图像和文字信息生成歌曲。

文字信息可以为文章、诗词或者用户编辑的短文等，相应地图像可以为文章中的插图、诗词的配图或者用户拍摄地的图像等。本发明实施例中对图像、文字信息的具体出处不做具体限制。

步骤102：依据图像和文字信息，确定目标曲调、目标节奏及目标歌词。

图像包含场景、主体的行为等特征，比如：静谧的夜晚、晴朗天空下的麦田、比赛的场馆、阴雨下的屋檐、庄严的教堂等。通过图像特征可以确定歌曲的风格类型，比如：轻快的爵士、震撼的摇滚、悲伤的情歌等。通过文字信息包含的语义信息、中心含义等，可分析出文字信息描述的场景、主体人物、时间、事件以及情感类型等。比如：阴天傍晚车窗外、清晨的校园操场上学生跑步、黄昏火车站离别的伤感等。通过歌曲的风格类型、文字信息描述的场景、主体人物、时间、事件以及情感类型等，可确定待生成歌曲对应的目标曲调和目标节奏，根据文字信息中包含的内容确定目标歌词。

步骤103：依据目标曲调、目标节奏及目标歌词，生成目标歌曲。

确定目标曲调、目标节奏及目标歌词后，可通过现有方式将三者进行合成，最终生成目标歌曲，具体合成方式可由本领域技术人员根据实际需求进行选择，本发明实施例中对此不做具体限制。

本发明实施例提供的歌曲生成方法，通过电子设备接收用户输入的图像和文字信息；依据图像和文字信息，确定目标曲调、目标节奏及目标歌词；依据目标曲调、目标节奏及目标歌词生成目标歌曲，电子设备用户仅需选择生成歌曲的图像和文字信息输入至电子设备，即可触发电子设备依据图像和文字信息生成歌曲，即便非专业人士也可轻松完成歌曲制作，操作便捷且对专业度无要求。

实施例二

参照图2，示出了本发明实施例二的一种歌曲生成方法的步骤流程图。

本发明实施例的歌曲生成方法包括以下步骤：

步骤201：确定N组歌曲训练数据。

步骤201至步骤202为对歌曲生成方法中所应用的各网络模型的训练流程。歌曲生成方法中所应用到的网络模型包括：第一神经网络模型、第二神经网络模型、曲调生成网络模型、节奏生成网络模型以及歌词生成网络模型。对各网络模型进行训练时，需要预先对N个歌曲进行标记，得到N组歌曲训练数据。其中，每组歌曲训练数据包括：歌曲对应的图像、文字信息、曲调、节奏以及歌词。N为正整数。

训练所使用的歌曲可从歌曲库中随机选择，也可以由本领域技术人员手动选择。训练所使用的歌曲涵盖不同类型、风格及语言等。

步骤202：通过N组歌曲训练数据对第一神经网络模型、第二神经网络模型、曲调生成网络模型、节奏生成网络模型以及歌词生成网络模型进行训练。

在对网络模型进行训练的过程中，依次从N组歌曲训练数据中提取每组歌曲训练数据对各网络模型进行训练，直至各网络模型均收敛至预设效果后对网络模型的训练结束。下面结合图3对网络模型训练流程进行示意性说明。

电子设备提取一组歌曲训练数据，将图像和文字信息作为输入，分别输入第一神经网络模型、第二神经网络模型。图3中虚线部分所圈出的左、右两侧矩形区域，分别表示提取图像特征和文字特征的第一神经网络模型、第二神经网络模型，所提取出的图像特征与文字特征分别是n维特征向量和m维特征向量。

在获取表示图像特征向量和文字特征向量之后，将其进行拼接得到目标特征向量。将目标特征向量分别代入曲调生成网络模型、节奏生成网络模型以及歌曲生成网络模型中分别确定曲调、节奏以及歌词。曲调生成网络模型、节奏生成网络模型以及歌曲生成网络模型均采用生成对抗网络的结构，该网络结构包含两部分：生成网络部分和判别网络部分。其中生成网络部分用于生成所需的结果如曲调、节奏或者歌词等；判别网络部分用于判别生成的结果是否准确。例如：判别生成的曲调是否准确时，通过比较生成的曲调和原本歌曲对应的曲调来获取两者之间的距离，该距离作为网络模型训练过程中产生的损失函数，损失函数越小说明生成的结果越真实可靠。对网络模型进行训练的过程是调整网络模型的参数不断使产生的损失函数变小的过程，当网络模型所产生的损失函数缩小到预定值时，确定该网络模型的收敛至预设效果，对该网络模型的训练完成。

具体地，图3中从左至右的每一块实线圈起的矩形部分依次为调生成网络模型、节奏生成网络模型以及歌词生成网络模型。由于曲调、节奏和歌词都是属于序列号数据类型，因此这三个生成网络模型采用生成序列化数据的结构。生成网络模型输出曲调、节奏、歌词分别与该组歌曲训练数据中的曲调、节奏、歌词对比，得到损失函数。在输入一组歌曲训练数后三个不同的生成网络模型分别产生损失函数，在三个生成网络模型所产生的损失函数高于预定值时，针对性地调整相应地生成网络模型的参数，继续输入下一组歌曲训练数据对各生成网络模型进行训练，重复该训练流程直至三个生成网络模型产生的损失函数均缩小到预定值后停止训练。

上述仅示例性地介绍了基于训练数据对网络模型进行训练的过程，在具体实现过程中，本领域技术人员可采用现有的任意适当方式训练歌曲生成过程中所需的网络模型。

需要说明的是，步骤201至步骤202为可选步骤，若在执行本发明实施例所示的歌曲生成方法前已完成对各网络模型的训练，则无需执行模型训练了流程，直接执行步骤203及后续步骤即可。

步骤203：接收用户输入的图像和文字信息。

本发明实施例中以基于图像和文字信息生成歌曲为例进行说明，因此用户欲制作歌曲时需向电子设备输入图像和文字信息。其中，图像、文字信息可由用户导入至电子设备中，也可以由用户从网络端下载，还可以由用户手动输入文字或者绘制图像，本发明实施例中对用于制作歌曲的图像和文字信息的具体输入方式不做具体限制。

步骤204：分别对图像和文字信息进行特征提取，得到图像特征和文字特征。

一种优选地分别对图像和文字信息进行特征提取，得到图像特征和文字特征的方式为：

将图像输入第一神经网络模型中；获取第一神经网络模型输出的图像特征向量，其中，所述图像特征向量用于表征目标歌曲的风格；将文字信息输入第二神经网络模型中；获取第二神经网络模型输出的文字特征向量，其中，所述文字特征向量用于表征目标歌曲的中心含义。

优选地第一神经网络模型设置为卷积神经网络模型，卷积神经网络进行图像特征提取时效果更佳。第二神经网络模型设置为循环神经网络，这是由于第二神经网络模型主要用于进行文字信息特征提取，而文字信特征属于序列数据的文字，循环神经网络更佳适用于序列数据的文字特征提取。

步骤205：将图像特征与文字特征进行特征融合，得到目标特征。

对于图像特征与文字特征融合的具体技术，参照现有相关技术即可，本发明实施例中对此不做具体限制。

步骤206：依据目标特征确定目标曲调、目标节奏及目标歌词。

本步骤的具体实现方式与步骤102类似，在此不再赘述。

此外，可选的，在具体实现过程中，可以分别将目标特征输入曲调生成网络模型、节奏生成网络模型以及歌曲生成网络模型中；分别获取曲调生成网络模型输出的目标曲调、节奏生成网络模型输出的目标节奏以及歌词生成网络模型输出的目标歌词。

该种通过预先训练好的生成网络模型确定曲调、节奏及歌词的方式，所输出的曲调、节奏及歌词更加可靠。

步骤207：依据目标曲调、目标节奏及目标歌词，生成目标歌曲。

在确定目标曲调、目标节奏及目标歌词后，可依据歌曲生成软件自动生成目标歌曲。

生成目标歌曲后可在界面上显示试听按键、存储按键以及删除按键，用户可触发试听按键进行目标歌曲试听，也可以直接触发存储按键进行目标歌曲存储。还可以在试听目标歌曲后，根据目标歌曲效果选择存储或者删除目标歌曲。

可选的，以上步骤204-206可以与实施例一中的步骤102进行替换，本发明实施例对此不作具体限定。

本发明实施例提供的歌曲生成方法，通过电子设备接收用户输入的图像和文字信息；依据图像和文字信息，确定目标曲调、目标节奏及目标歌词；依据目标曲调、目标节奏及目标歌词生成目标歌曲，电子设备用户仅需选择生成歌曲的图像和文字信息输入至电子设备，即可触发电子设备依据图像和文字信息生成歌曲，即便非专业人士也可轻松完成歌曲制作，操作便捷且对专业度无要求。此外，本发明实施例提供的歌曲生成方法，通过预先训练的多个生成网络模型确定目标歌曲对应的曲调、节奏及歌词，能够提升所生成的目标歌曲与用户输入图像和文字信息的匹配度。

以上介绍了本发明实施例提供的歌曲生成方法，下面将结合附图介绍本发明实施例提供的电子设备。

实施例三

参照图4，示出了本发明实施例三的一种电子设备的结构框图。

本发明实施例的电子设备包括：接收模块401，用于接收用户输入的图像和文字信息；确定模块402，用于依据所述图像和所述文字信息，确定目标曲调、目标节奏及目标歌词；生成模块403，用于依据所述目标曲调、目标节奏及目标歌词，生成目标歌曲。

优选地，所述确定模块402包括：提取子模块4021，用于分别对所述图像和文字信息进行特征提取，得到图像特征和文字特征；融合子模块4022，用于将所述图像特征与所述文字特征进行特征融合，得到目标特征；确定子模块4023，用于依据所述目标特征确定目标曲调、目标节奏及目标歌词。

优选地，提取子模块具体用于：将所述图像输入第一神经网络模型中；获取所述第一神经网络模型输出的图像特征向量，其中，所述图像特征向量用于表征目标歌曲的风格；将所述文字信息输入第二神经网络模型中；获取所述第二神经网络模型输出的文字特征向量，其中，所述文字特征向量用于表征目标歌曲的中心含义。

优选地，所述确定子模块具体用于：分别将所述目标特征输入曲调生成网络模型、节奏生成网络模型以及歌曲生成网络模型中；分别获取所述曲调生成网络模型输出的目标曲调、所述节奏生成网络模型输出的目标节奏以及所述歌词生成网络模型输出的目标歌曲。

优选地，所述电子设备还包括：训练数据确定模块404，用于在所述接收模块接收用户输入的图像和文字信息之前，确定N组歌曲训练数据，其中，每组歌曲训练数据包括：歌曲对应的图像、文字信息、曲调、节奏以及歌词；模型训练模块405，用于通过所述N组歌曲训练数据对第一神经网络模型、第二神经网络模型、曲调生成网络模型、节奏生成网络模型以及歌词生成网络模型进行训练。

本发明实施例提供的电子设备能够实现图1至图3的方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例提供的电子设备，通过接收用户输入的图像和文字信息；依据图像和文字信息，确定目标曲调、目标节奏及目标歌词；依据目标曲调、目标节奏及目标歌词生成目标歌曲，电子设备用户仅需选择生成歌曲的图像和文字信息输入至电子设备，即可触发电子设备依据图像和文字信息生成歌曲，即便非专业人士也可轻松完成歌曲制作，操作便捷且对专业度无要求。

实施例四

参照图5，示出了本发明实施例四的一种电子设备的结构框图。

图5为实现本发明各个实施例的一种电子设备的硬件结构示意图，该电子设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，用户输入单元507，用于接收用户输入的图像和文字信息；处理器510，用于依据所述图像和所述文字信息，确定目标曲调、目标节奏及目标歌词；依据所述目标曲调、目标节奏及目标歌词，生成目标歌曲。

应理解的是，本发明实施例中，射频单元501可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器510处理；另外，将上行的数据发送给基站。通常，射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元501还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块502为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元503还可以提供与电子设备500执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。

输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。

电子设备500还包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度，接近传感器可在电子设备500移动到耳边时，关闭显示面板5061和/或背光。显示面板501为柔性显示屏，柔性显示屏包括依次叠加设置的屏幕底座、可升降模块阵列以及柔性屏幕。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板5061。

用户输入单元507可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器510，接收处理器510发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071，用户输入单元507还可以包括其他输入设备5072。具体地，其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板5071可覆盖在显示面板5061上，当触控面板5071检测到在其上或附近的触摸操作后，传送给处理器510以确定触摸事件的类型，随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中，触控面板5071与显示面板5061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板5071与显示面板5061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元508为外部装置与电子设备500连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备500内的一个或多个元件或者可以用于在电子设备500和外部装置之间传输数据。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器510是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器510可包括一个或多个处理单元；优选的，处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

电子设备500还可以包括给各个部件供电的电源511(比如电池)，优选的，电源511可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备500包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器510，存储器509，存储在存储器509上并可在所述处理器510上运行的计算机程序，该计算机程序被处理器510执行时实现上述歌曲生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述歌曲生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种歌曲生成方法，应用于电子设备，其特征在于，所述方法包括：

接收用户输入的图像和文字信息；

依据所述图像和所述文字信息，确定目标曲调、目标节奏及目标歌词；

依据所述目标曲调、目标节奏及目标歌词，生成目标歌曲。

2.根据权利要求1所述的方法，其特征在于，

所述依据所述图像和所述文字信息，确定目标曲调、目标节奏及目标歌词的步骤，具体包括：

分别对所述图像和文字信息进行特征提取，得到图像特征和文字特征；

将所述图像特征与所述文字特征进行特征融合，得到目标特征；

依据所述目标特征确定目标曲调、目标节奏及目标歌词。

3.根据权利要求2所述的方法，其特征在于，

所述分别对所述图像和文字信息进行特征提取，得到图像特征和文字特征的步骤，具体包括：

将所述图像输入第一神经网络模型中；

获取所述第一神经网络模型输出的图像特征向量，其中，所述图像特征向量用于表征目标歌曲的风格；

将所述文字信息输入第二神经网络模型中；

获取所述第二神经网络模型输出的文字特征向量，其中，所述文字特征向量用于表征目标歌曲的中心含义。

4.根据权利要求2所述的方法，其特征在于，

所依据所述目标特征确定目标曲调、目标节奏及目标歌词的步骤，具体包括：

分别将所述目标特征输入曲调生成网络模型、节奏生成网络模型以及歌曲生成网络模型中；

分别获取所述曲调生成网络模型输出的目标曲调、所述节奏生成网络模型输出的目标节奏以及所述歌词生成网络模型输出的目标歌曲。

5.根据权利要求1所述的方法，其特征在于，

在所述接收用户输入的图像和文字信息的步骤之前，所述方法还包括：

确定N组歌曲训练数据，其中，每组歌曲训练数据包括：歌曲对应的图像、文字信息、曲调、节奏以及歌词；

通过所述N组歌曲训练数据对第一神经网络模型、第二神经网络模型、曲调生成网络模型、节奏生成网络模型以及歌词生成网络模型进行训练。

6.一种电子设备，其特征在于，所述电子设备包括：

接收模块，用于接收用户输入的图像和文字信息；

确定模块，用于依据所述图像和所述文字信息，确定目标曲调、目标节奏及目标歌词；

生成模块，用于依据所述目标曲调、目标节奏及目标歌词，生成目标歌曲。

7.根据权利要求6所述的电子设备，其特征在于，所述确定模块包括：

提取子模块，用于分别对所述图像和文字信息进行特征提取，得到图像特征和文字特征；

融合子模块，用于将所述图像特征与所述文字特征进行特征融合，得到目标特征；

确定子模块，用于依据所述目标特征确定目标曲调、目标节奏及目标歌词。

8.根据权利要求7所述的电子设备，其特征在于，提取子模块具体用于：

将所述图像输入第一神经网络模型中；

将所述文字信息输入第二神经网络模型中；

9.根据权利要求7所述的电子设备，其特征在于，所述确定子模块具体用于：

10.根据权利要求6所述的电子设备，其特征在于，所述电子设备还包括：

训练数据确定模块，用于在所述接收模块接收用户输入的图像和文字信息之前，确定N组歌曲训练数据，其中，每组歌曲训练数据包括：歌曲对应的图像、文字信息、曲调、节奏以及歌词；

模型训练模块，用于通过所述N组歌曲训练数据对第一神经网络模型、第二神经网络模型、曲调生成网络模型、节奏生成网络模型以及歌词生成网络模型进行训练。