CN101551997B

CN101551997B - 一种乐曲辅助学习系统

Info

Publication number: CN101551997B
Application number: CN200910078486XA
Authority: CN
Inventors: 须清
Original assignee: Beijing Paragon Technology Co Ltd
Current assignee: Beijing Paragon Technology Co Ltd
Priority date: 2009-02-25
Filing date: 2009-02-25
Publication date: 2012-07-04
Anticipated expiration: 2029-02-25
Also published as: CN101551997A

Abstract

本发明提出一种乐曲辅助学习系统，包括存储了至少一首乐曲信息的信息存储体，其特征是还包括：声音输入部件；特征提取部件，从所述声音输入部件输入的声音信号或信息中提取第一特征信息；媒体信息选择部件，选择准备学习的某首乐曲信息；媒体信息特征提取部件，计算所选定乐曲信息的第二特征信息；特征相似性计算部件，用于计算并判断所述第一特征信息与所选定乐曲信息的第二特征信息相似度；信息提示部件，根据信息相似度给出输入的声音与所选定的乐曲信息的差异。本发明可以进一步给出输入的声音与所选定的乐曲信息的整体和/或局部片断和/或单个音节上的差异，学习时就可以根据这种差异发现演奏或演唱的乐曲与乐曲本身的差异以有效地修正。

Description

一种乐曲辅助学习系统

技术领域

本发明涉及一种乐曲辅助学习系统，特别是涉及乐曲演奏过程中判定差异的辅助学习系统。

背景技术

多媒体播放器，如MP3、MP4、移动终端、电脑等已相当普及，这些设备通常都具有较大的信息存储容量，存储了很多条多媒体信息。要从这些多媒体信息中选择所需的多媒体信息进行播放的方法主要是先将多媒体信息按一定规则进行分类，然后以选择菜单的方式由操作者通过操作界面进行选择。当多媒体信息内容很多时，将会使操作界面的菜单层次很多，以至于选择到所需的多媒体信息也是比较困难的。而且通常操作界面所显示的菜单选项通常只显示多媒体信息的标题，当多媒体信息内容很多时，人们往往看到标题有时也不能知道是否是所需内容，往往选中后试听或试看后发现不是所需，再重新选择的情况。

在互联网络发展的今天，网络中的多媒体内容更是十分庞大，从中搜索所需内容并不容易，特别是当人们记不清多媒体内容的标题时搜索更是难以获得。

近年来，语音识别技术和基于声音控制操作电子设备的研究也比较多，在一些移动终端设备上也一些商用，如通过声音选择进行电话拨打操作等。美国专利文件No.4,277,644和No.6,101,467覆盖了语音识别软件的各个方面。而且用于表征音频内容的方法也有描述。特别是美国专利No.6,054,646和No.6,173,250覆盖了用于通过节拍、能量、音高等特征来表征音乐的方法。

尽管有针对语音识别、音频信号分析和音乐特征的表征方法的进步和近年来的发展，以及在一些电子设备上实现语音控制，但其应用在很多情况下并不能满足人们的需求。例如，经常出现的一种情况是，人们使用多媒体播放器选择自己喜欢的多媒体内容时出现一些困难，当时也许能够哼出该多媒体信息中乐曲的某个片断或某一句或者仅仅能够哼出乐曲旋律的一小节的近似内容，但就是想不起来多媒体内容的标题，因而无法有效地找到所需的媒体内容。

在公开日为2005年7月13日，公开号为CN1639975A的中国发明专利申请公开内容中提到了通过提取信号源的语音特征后用语音特征去选择所需信号源的内容。特别是该公开文件中公开的看门狗功能(Watch Dog)：用户可以向音频记录器-播放器中音频分析器唱或哼出一个样式(pattern)，然后音频记录器-播放器可以针对那个特定的音调来监视不同的频道，而且用户可以通过声音识别软件将所说的词输入给音频记录器-播放器，然后音频记录器-播放器可针对包含这些词的一些或全部的对话和独白而监视不同频道。采用高级匹配算法，即当短语在预定的秒数中出现两次或三次时宣布匹配的算法。当出现匹配时，可以产生一个控制事件，控制频道的切换。

但上述描述的技术应用到具有较大容量的多媒体播放器时有其缺陷。因为使用多媒体播放器并非都是专业人员，所唱出或哼出的片断或一句内容或者乐曲旋律的内容时，往往并不是标准的内容，如乐曲旋律的节拍并不一样、或者乐曲旋律的音调并不一样，但其所哼出或唱出的内容与所希望选择的内容又有一定的相似性。比如一首乐曲是C调的，录制的多媒体信息也是基于C调的，但人们哼出或唱出的内容可以用F调或C升调或C降调，但乐曲的韵律却基本相似，人们可以判断出是同一首乐曲；或者一首乐曲是2/4节拍，但哼出或唱出的内容却可能是4/4节拍，但乐曲的韵律却基本相似，人们可以判断出是同一首乐曲。在这种情况下，现有技术是没有很好解决的。

另一方面，对于媒体播放器，还存在的情况是，人们希望某条媒体信息从某个点开始播放，现有技术通常是采用快进按钮或快退按钮，但这种操作方式，只能凭操作者进行预估前进或后退位置，通常不准确，需要多次按快进按钮或快退按钮才能完成。现有的数字媒体记录方式虽然提供了目录式菜单选择方式以选定某条媒体的播放，但仍然不能解决按人们的期望快速控制媒体播放起点的问题。

另外，音乐的版权问题，也越来越受到关注，特别是音乐的抄袭问题时有报道，而且一些抄袭者为了躲避相应的法律规定的漏洞，将乐曲的音调或节拍稍作调整，使其与原曲从形式上不同，但实体内容仍然相似，这种相似性如何被认为是抄袭，现有技术也没有提出相应的方法。

发明内容

本发明所要解决的技术问题是如何更有效地从媒体存储体或从互联网络中选择所需的多媒体信息并有效地随意控制媒体播放的起点。本发明采用语音特征提取、分段提取、相似度计算、相似性判定的方法来实现声音控制电子设备或网络操作实现自动获取所需多媒体信息。同时本发明的技术还可以用于或者实现乐曲抄袭或相似性的自动判定以及乐曲的辅助学习。

术语说明：本文中所指的语音特征是与输入语音的韵律相关的特征信息，而韵律是以每个可识别的音节为基础，也就是说，一段多媒体包含很多音节，而提取语音特征时是以每个音节为基础获得的特征，每个音节的特征按顺序组合在一起即构成了这段多媒体信息的整个韵律或旋律，因此所提取特征组合可以截取其中任意一段，作为本发明中进行特征比对的基础。当一段语音输入包含多个旋律时，可以仅提取主旋律特征或者提取所有旋律的特征。在本文中语音特征和特征信息是相同含义。

术语说明：本发明所指的媒体信息与多媒体信息具有相同的含义，都是指包含有声音信息的语音信息、音乐信息、视频信息、数据信息或这些信息的任意组合。

术语说明：本发明所指相似度是指两个信息之间采用相关性算法得出的表示信息相关性的数据，所述相关性算法包含线性相关性计算方法或非线性相关性计算方法。线性相关性计算方法和非线性相关性计算方法在现有的数学领域和实验物理学中已经给出了很多种数学模型和计算方法，作为与本发明相关联的现有技术进行引用。

为解决上述问题，提出的技术解决方案是：

1、一种多媒体播放装置第一种方案，包括存储了至少一条多媒体信息的信息存储体和多媒体信号输出部件，其特征是还包括：

声音输入部件，既可以是通过声音传感器输入声音，也可以是是一段预先制作的声音文件输入信息；

特征提取部件，从所述声音输入部件输入的声音信号或信息中提取第一特征信息；

媒体信息特征存储部件，存储了对应于所述每条多媒体信息的第二特征信息；

特征相似性计算部件，用于判断所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意一段信息的相似度；

特征相似性判断部件，从所述相似度数据中选取相似度最大值；

多媒体信息选择部件，从所述信息存储体中选择相似度最大值的信息段所在的那条多媒体信息传送到所述多媒体信号输出部件。

2、一种多媒体播放装置第二种方案，包括存储了至少一条多媒体信息的信息存储体和多媒体信号输出部件，其特征是还包括：

媒体信息特征计算部件，计算对应于所述每条多媒体信息的第二特征信息；

3、对于第一特征信息和第二特征信息的提取方法，以大家熟悉的歌曲为例，可提取这首歌曲的主旋律特征信息，如用简谱或五线谱表示，简谱中包含了节拍速度和音调的信息。可以把主旋律特征信息作为本发明的第二特征信息；而不同的人唱出或哼出这首歌曲时，其节拍速度和/或音调可能与这首歌曲本身确定的节拍速度、音调不同，也可能与所录制成多媒体信息的信息段中第二特征信息的节拍速度、音调不同，但如果都是针对同一首歌曲演唱，他们的主旋律是存在很大的相似性的。因此对于第二特征信息进行节拍调整和/或音调调整后，再与第一特征信息进行相似性计算。所述旋律也可以用五线谱或其他旋律表示。在音乐的多媒体信息处理中，其中一种音乐媒体格式是乐谱文件，这种文件以表示音符、乐器以及清晰度信息的数据形式存储声音，最流行的数据格式是MIDI数据格式。MIDI文件包含如何再现声音的规范，可被认为是电可读格式的一张乐谱，它包含有关在重放各MIDI文件中存储的数据所表示的乐谱时要考虑的声道、所用的装置以及升学参数的信息。集合术语“声学参数”表示定义例如音高、音符或其余值分别为响应等级、音速、音色或特殊效果如颤音或混响的描述。因此所述MIDI文件包含了本发明所需要的第二特征信息，可以针对每一条或每一首多媒体信息所对应的MIDI文件作为本发明的第二特征信息，相应的，第一特征信息的提取也采用相同方法，提取出输入语音的MIDI文件作为第一特征信息。或者对于每一条或每一首多媒体信息所对应的MIDI文件再进行数据提取去除乐器、响应等级、音色颤音、混响等特征之一或几个后作为本发明的第二特征信息，相应的，第一特征信息的提取也采用相同方法，提取出输入语音的MIDI文件去除音速、乐器、响应等级、音色颤音、混响等特征之一或几个后作为第一特征信息。

在美国专利No.6,054,646中给出了通过从声音信号中提取特征信号的方法，包括倒频谱系数法(MFCC：Mel Frequency Cepstral Coefficients)、线性预测编码法(LPC：Linear Predictive Coding)。同时也给出了将MFCC特征转化为MIDI文件的参数映射描述。本发明在这里全文引用美国专利No.6,054,646的内容。另外在现有的互联网络中可以很容易找到将采集的声音波形文件(WAVE)转换为MIDI文件的软件，还有将MIDI文件转换为简谱的软件以及将MIDI文件转换为五线谱的软件。因此本发明在这些现有知识的基础之上实现本发明的内容以判定输入的声音信息与存储的多媒体信息之间的关联性。一种实现方案可以描述如下：

对于输入的声音信号提取MFCC系数，然后用MFCC系数生成MIDI文件，再将MIDI文件转换为简谱文件，以简谱文件作为第一特征信息；对于存储的多媒体信息采用相同的方法提取MFCC系数，然后用MFCC系数生成MIDI文件，再将MIDI文件转换为简谱文件，以简谱文件作为第二特征信息；然后计算第一特征信息与第二特征信息的相似度，根据相似度计算结果就可以实现本发明所需要达到的功能。在不同应用要求中，对于第一特征信息与第二特征信息还可以进行进一步的变换，如第二特征信息还包含所述多媒体信息对应的简谱文件进一步生成的基于各种大调的简谱文件的组合，即假如原多媒体信息的简谱文件是C大调的，可以进一步生成D大调、E大调、G大调等的简谱文件作为第二特征信息的部分；再如第二特征信息还包含所述多媒体信息对应的简谱文件进一步生成的基于各种节拍的简谱文件的组合，即假如原多媒体信息的简谱文件是2/4拍的，可以进一步生成4/4拍、6/8拍等的简谱文件作为第二特征信息的部分；再如将简谱文件每个音调都用一个数字表示，将相邻的相同音调合并为一个音调，然后再进行相似度计算，可以排除输入的声音因音调不准或节拍不同造成相似度的差异。

一种可选实现方案中，第一特征信息与第二特征信息可以就是MFCC系数或LPC系数，直接对于MFCC系数或LPC系数进行相似度计算；还可以就是MIDI文件，直接对于MIDI文件进行相似度计算。

4、所述第一特征信息包含声音音调信息和/或音调变化信息；所述第二特征信息包含多媒体信息中包含的声音音调信息和/或音调变化信息。

5、或者所述第一特征信息包含声音音高信息和/或音高变化信息；所述第二特征信息包含多媒体信息中包含的声音音高信息和/或音高变化信息。

6、一种多媒体信息处理方法第一种方案，从至少一条多媒体信息和每条多媒体信息对应的第二特征信息的信息存储体中选择所需的多媒体信息，其特征是包括如下步骤：

第一步：通过声音输入部件输入声音信号或信息；

第二步：从所述声音输入部件输入的声音信号或信息中提取第一特征信息；

第三步：计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意一段信息的相似度数据；

第四步：从所述相似度数据中选取相似度最大值；

第五步：从所述信息存储体中选择相似度最大值的信息段所属的第二特征信息；

第六步：从信息存储体中根据所属的第二特征信息检索到所对应的那条多媒体信息。

7、该方法还包括将所对应的那条多媒体信息输出的步骤。

8、该方法，还包括向信息存储体中输入多媒体信息的步骤，通过有线或无线方式从其他介质中将多媒体信息输入到信息存储体中或者通过网络连接把多媒体信息下载到信息存储体中。

9、进一步的是该方法，还包括对所述输入的多媒体信息计算对应的第二特征信息的步骤并存储在所述信息存储体中。

10、或者该方法还包括直接向信息存储体中输入多媒体信息和对应的第二特征信息的步骤。

11、所述第二特征信息中的任意一段信息的长度与所述第一特征信息的长度相同，或者所述第二特征信息中的任意一段信息通过节拍调整后和/或音调调整后与所述第一特征信息的长度相同。

12、所述第二特征信息与所述第一特征信息是音乐的韵律或旋律信息。

13、或者所述第二特征信息与所述第一特征信息是去除了音拍长度的韵律或旋律信息。

14、所述第三步的计算方法是线性相关性计算方法。一种实现是基于简谱的第一特征信息和第二特征信息，由于通常简谱可用三个八度音符和节拍完全表示。由于音符都是1到7的数字加上高音符或低音符以及停顿音(通常用0表示)表示。当转化为本发明所述特征信息可以进行如下处理。对于高音(第三个八度)用8到15共7个数字表示，对于低音(第一个八度)用-7到-1共7个数字表示，对于中音(第二个八度)用1-7共7个数字表示，停顿音用0表示，因此本发明所述的特征信息在这个实现方案中被转变成了数字信息，每个节拍对应一个数字。用线性相关度计算方法，可以很容易计算出第一特征信息和第二特征信息的相似性，即使第一特征信息与第二特征信息的音高或音调不同，但如果存在相似，则每个节拍音高或音调都会相应地变化。如第二特征信息是音乐中的C调，但第二特征信息可以是B调，由于每个节拍的数字都根据所确定的调而发生相应地变化，虽然每个节拍的数字不同，计算的相似度却很高。线性相似度的数学计算方法属于公知算法，这里就不再赘述。有时也会出现输入语音的第一特征信息所表示的节拍与多媒体信息的第二特征信息的节拍不同，如第二特征信息是2/4节拍，而第一特征信息是4/4节拍，但其表示的主旋律却可能是相似的，因此计算相似度之前需要对于第一特征信息和/或第二特征信息的节拍进行调整。调整方法之一是将一个节拍的数据以相同的数据扩展一个节拍，如某个节拍的数据为5可以调整为两个节拍，每个节拍都是5；调整方法之二是将数据相同的两个相连节拍缩减为一个节拍，如某两个相连节拍的数据都为5可以调整为一个节拍，节拍数据是5。

15、一种多媒体信息处理方法的第二种方案，从至少存储了一条多媒体信息的信息存储体中选择所需的多媒体信息，其特征是包括如下步骤：

第一步：通过声音输入部件输入声音信号或信息；

第二步：从所述声音输入部件输入的声音信号中提取第一特征信息；

第三步：计算每条多媒体信息对应的第二特征信息；

第四步：计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意一段信息的相似度数据；

第五步：从所述相似度数据中选取相似度最大值；

第六步：根据相似度最大值的信息段所属的第二特征信息检索到所对应的那条多媒体信息。

第二种方案与第一种方案的差别在于每条多媒体信息的第二特征信息是预先存储在存储体中，还是应用需要时才计算出来。

16、一种多媒体信息播放器操作方法的第一种方案，从至少一条多媒体信息和每条多媒体信息对应的第二特征信息的信息存储体中选择所需的多媒体信息进行播放，其特征是包括如下步骤：

第一步：通过声音输入部件输入声音信号或信息；

第四步：从所述相似度数据中选取相似度最大值；

第六步：从信息存储体中根据所属的第二特征信息检索到所对应的那条多媒体信息进行播放输出。

每条多媒体信息对应的第二特征信息可以采用MIDI文件，或者抽出MIDI文件的部分要素。

17、一种多媒体信息播放器操作方法第二种方案，从至少存储了一条多媒体信息的信息存储体中选择所需的多媒体信息，其特征是包括如下步骤：

第一步：通过声音输入部件输入声音信号或信息；

第三步：计算每条多媒体信息对应的第二特征信息；

第五步：从所述相似度数据中选取相似度最大值；

第六步：根据相似度最大值的信息段所属的第二特征信息检索到所对应的那条多媒体信息进行播放输出。

本发明所述技术还可以用于判断两首音乐的相似性，在判断音乐是否抄袭中具有较大的用处。

18、一种进行音乐相似性判断方法，对于第一音乐与第二音乐进行相似性判断，其特征是包括如下步骤：

第一步：输入第一音乐的多媒体信息的第一特征信息或者输入第一音乐的多媒体信息后从所述第一音乐的多媒体信息中提取第一特征信息；

第二步：将所述第一特征信息分解成以任意一起点开始的一定长度的多个信息段；

第三步：输入第二音乐的多媒体信息的第二特征信息或者输入第二音乐的多媒体信息后从所述第二音乐的多媒体信息中提取第二特征信息；

第四步：计算所述多个信息段的任意一段与所述第二特征信息中的任意一段信息的相似度数据；

第五步：从所述相似度数据中选取相似度最大值；

第六步：判断相似度最大值是否超过设定的阀值，如果超过设定的阀值则判断所述第一音乐与所述第二音乐相似性高，否则所述第一音乐与所述第二音乐相似性低。

上述一定长度的多个信息段中，对于一定长度的规定可以与相关的法律文件的定义进行关联，如规定连续7个节拍的相似被认定为抄袭的话，可以将所述一定长度设定为7个节拍的长度。

上述设定的阀值的含义是根据对于相关法律的执行严格程度来确定的。对于严格的相似才算抄袭，则设定的阀值就很高，接近1；当执行严格程度降低时设定的阀值就可适当降低，如为0.8或0.9。

19、一种对于互联网中的音乐进行音乐相似性判断方法，其特征是包括如下步骤：

第三步：从互联网络中下载第二音乐的多媒体信息的第二特征信息或者从互联网络中下载第二音乐的多媒体信息后从所述第二音乐的多媒体信息中提取第二特征信息；

第五步：从所述相似度数据中选取相似度最大值；

采用本发明的技术还可以用于互联网络中进行媒体信息搜索，提供一种更加有效的一种搜索系统和搜索方法。

20、一种网络搜索系统的第一种方案，包括远端服务器部件和近端部件，所述远端服务器部件和近端部件通过互联网络或局域网络连接，其特征是：

所述近端部件包含：

声音输入部件；

信息发送部件，将第一特征信息通过网络传递到所述远端服务器部件；

信息接收第一部件，接收所述远端服务器部件发送过来的多媒体信息；

所述远端服务器部件包含：

信息接收第二部件，接收从所述近端部件发送过来的第一特征信息；

媒体信息存储部件，存储了至少一条多媒体信息、计算并存储或预先存储了对应于所述每条多媒体信息的第二特征信息、每条多媒体信息与其第二特征信息对应关系；；

特征相似性判断部件，从所述相似度数据中选取相似度最大值或相似度超过设定阀值的多个相似度数据；

多媒体信息选择部件，从所述媒体信息存储体中选择所述相似度最大值或相似度超过设定阀值的多个相似度数据的信息段所在的第二特征信息对应的一条或多条多媒体信息传送到所述近端部件。

21、采用第一种方案的网络搜索系统实现多媒体信息搜索方法，其特征是包含如下操作步骤：

步骤1：在所述近端部件输入声音信号或信息；

步骤2：所述近端部件提取所述声音信号或信息的第一特征信息；

步骤3：将所述第一特征信息通过互联网络或局域网络发送到远端服务器部件；

步骤4：所述远端服务器部件计算所述第一特征信息与远端服务器部件中存储的每条媒体信息的第二特征信息的相似度；

步骤5：所述远端服务器部件根据所述相似度的最大值或相似度超过设定阀值的多个相似度数据相应的第二特征信息从所述远端服务器部件中检索到所对应的多媒体信息作为选中的多媒体信息；

步骤6：所述远端服务器部件将所选中的多媒体信息通过互联网络或局域网络发送到近端部件。

22、一种网络搜索系统的第二种方案，包括远端服务器部件和近端部件，所述远端服务器部件和近端部件通过互联网络或局域网络连接，其特征是：

所述近端部件包含：

声音输入部件；

下载部件，从所述远端服务器部件下载每条多媒体信息的第二特征信息；

近端存储部件，存储来自下载部件的每条多媒体信息的第二特征信息

选择部件，从所述存储部件中取出相似度最大值或相似度超过设定阀值的多个相似度数据所对应的第二特征信息；

信息发送部件，将选择部件所选择的第二特征信息通过网络传递到所述远端服务器部件；

所述远端服务器部件包含：

信息接收第二部件，接收从所述近端部件发送过来的第二特征信息；

多媒体信息选择部件，从所述媒体信息存储体中选择与所述信息接收部件中接收到的第二特征信息所对应的一条或多条多媒体信息传送到所述近端部件。

23、采用第二种方案的网络搜索系统实现多媒体信息搜索方法，其特征是包含如下操作步骤：

步骤1：所述近端部件通过互联网络或局域网络从所述远端服务器部件下载每条多媒体信息的第二特征信息

步骤2：在所述近端部件输入声音信号或信息；

步骤3：所述近端部件提取所述声音信号或信息的第一特征信息；

步骤4：所述近端部件计算所述第一特征信息与所述每条媒体信息的第二特征信息的相似度；

步骤5：将所述相似度的最大值或相似度超过设定阀值的多个相似度数据所对应的第二特征信息通过互联网络或局域网络发送到远端服务器部件；

步骤6：所述远端服务器部件根据所收到的第二特征信息从所述远端服务器部件中检索到所对应的多媒体信息作为选中的多媒体信息；

步骤7：所述远端服务器部件将所选中的多媒体信息通过互联网络或局域网络发送到近端部件。

24、一种网络搜索系统的第三种方案，包括远端服务器部件和近端部件，所述远端服务器部件和近端部件通过互联网络或局域网络连接，其特征是：

所述近端部件包含：

声音输入部件；

信息发送部件，将来自所述声音输入部件的声音信号或信息通过网络传递到所述远端服务器部件；

所述远端服务器部件包含：

信息接收第二部件，接收从所述近端部件发送过来的声音信号或信息；

特征提取部件，从所述信息接收第二部件接收到的声音信号或信息中提取第一特征信息；

媒体信息存储部件，存储了至少一条多媒体信息、对应于所述每条多媒体信息的第二特征信息、每条多媒体信息与其第二特征信息对应关系；

25、采用第三种方案的网络搜索系统实现多媒体信息搜索方法，其特征是包含如下操作步骤：

步骤1：在所述近端部件输入声音信号或信息；

步骤2：将所述声音信号或信息通过互联网络或局域网络发送到远端服务器部件；

步骤3：所述远端服务器部件提取所收到声音信号或信息的第一特征信息；

26、所述多媒体信息是下列信息之一或其组合：文字、图片、声音、乐曲、电影、电视。

本发明的技术还可以用于根据声音输入自动翻页的装置，如演奏家的乐谱翻页等。

27、一种自动翻页装置，包括存储了至少一条多媒体信息的媒体信息存储体和显示部件，其特征是还包括：

声音输入部件；

特征提取部件，从所述声音输入部件输入的声音信号中提取第一特征信息；

媒体信息特征存储部件，计算并存储或预先存储了对应于所述每条多媒体信息的第二特征信息；

特征相似性计算部件，用于判断所述第一特征信息与所述显示部件所显示的多媒体信息的部分所对应第二特征信息相似度最大的信息段所对应的多媒体信息的当前位置；

翻页判断部件，当所述多媒体信息的当前位置是所述显示部件所显示的多媒体信息的部分的结尾则所述显示部件显示所述多媒体信息的下一页内容；

28、一种乐曲辅助学习系统的一种方案，包括存储了至少一首乐曲信息的存储体，

其特征是还包括：

声音输入部件；

媒体信息选择部件，选择准备学习的某首乐曲信息；

媒体信息特征提取部件，提取所选定乐曲信息的第二特征信息；

特征相似性计算部件，用于计算并判断所述第一特征信息与所选定乐曲信息对应第二特征信息相似度；

信息提示部件，根据信息相似度给出输入的声音与所选定的乐曲信息的差异。

29、一种乐曲辅助学习系统的第二种方案，包括存储了至少一首乐曲信息和与每首乐曲信息对应的第二特征信息的存储体，其特征是还包括：

声音输入部件；

媒体信息选择部件，选择准备学习的某首乐曲信息；

特征相似性计算部件，用于计算并判断所述第一特征信息与所选定的乐曲信息对应第二特征信息相似度；

30、上述乐曲辅助学习系统中，所述输入的声音与乐曲信息的差异包含输入的声音与所选定的乐曲信息的整体差异和/或局部片断和/或单个音节的差异。即可以给出所输入的声音作为整体与所选定的乐曲信息作为整体给出差异，所计算得到的相似度越高则差异性越小，相似度越低则差异度越大；由于本发明中的特征信息是按每个音节进行提取的，因此还可以进一步给出输入的声音与所选定的乐曲信息的局部片断上的差异，也可以给出单个音节的差异，学习时就可以根据这种差异可以准确地发现自己演奏或演唱的乐曲与乐曲本身的差异之处，从而有效地修正。

31、上述乐曲辅助学习系统中，所述信息提示部件包含声音输出部件和/或信息显示部件。即可以通过声音或信息显示方式将输入的声音与所选定的乐曲信息的差异展现出来。如可以用喇叭播放出来和/或用显示器显示出现差异的片断或音节或相似度数据。

本发明的有益效果：采用本发明的技术可以实现更有效地从媒体存储体或从互联网络中选择所需的多媒体信息，通过输入媒体相关的部分语音特征信息，如哼唱某首歌曲的片断即可检索到这首歌曲的完整信息；同时本发明的技术还可以更有效地区分一首乐曲是否有抄袭其他乐曲。本发明采用语音特征提取、分段提取、相似度计算、相似性判定的方法来实现声音控制电子设备或网络操作实现自动获取所需多媒体信息，或者实现乐曲抄袭或相似性的自动判定，并还可以实现乐曲自动翻页功能，使乐曲演奏者可以专心于乐曲的演奏，而不需要手动切换乐曲的页面、乐曲辅助学习功能。本发明实现媒体播放器可以实现通过语音输入从媒体播放器中选择与输入语音具有很大相似度的媒体信息，完全改变了现有媒体播放器的操作方式，具有更准确的媒体信息定位特征，而且大多数情况不用手的操作，直接通过说或唱就可进行媒体信息的选择并可以控制媒体的播放起点，大大降低了用户的操作难度，即使对于盲人或不懂播放器操作的用户都可以实现媒体播放器的操作。本发明实现媒体搜索系统可以实现通过语音输入从互联网络或局域网络中的各种媒体服务器中选择与输入语音具有很大相似度的媒体信息，完全改变了现有网络搜索引擎或搜索工具的搜索方式，具有更准确的媒体信息定位特征，而且大多数情况不用手的操作，直接通过说或唱就可进行媒体信息的搜索，大大简化了用户的操作难度，即使对于盲人或不懂电脑操作的用户都可以实现媒体信息的搜索。

附图说明：

图1是本发明第一种实现多媒体信息检索的系统工作原理示意图。

图2是本发明第二种实现多媒体信息检索的系统工作原理示意图。

图3是本发明中第一特征信息与第二特征信息进行相似度计算的第一种算法工作原理示意图。

图4是本发明中第一特征信息与第二特征信息进行相似度计算的第二种算法工作原理示意图。

图5是本发明中第一特征信息与第二特征信息进行相似度计算的第三种算法工作原理示意图。

图6是本发明通过声音输入选取多媒体信息的工作流程示意图。

图7是本发明通过声音从互联网络中选取多媒体信息的第一种系统实现示意图。

图8是本发明通过声音从互联网络中选取多媒体信息的第二种系统实现示意图。

图9是本发明实现乐谱自动翻页系统原理示意图。

图10是本发明实现乐曲辅助学习系统原理示意图。

图11是本发明实现媒体播放器原理示意图。

图12是本发明判断两首音乐相似性的流程示意图。

具体实施方式：

本发明的核心点在于，对输入的声音信息进行处理，提取第一特征信息，然后采用特定算法与多媒体信息中的第二特征信息进行相似度计算。选出相似度最大的那条多媒体信息作为所输入的声音所希望选定的多媒体信息。当多媒体信息与声音输入及其处理部件集中在一个嵌入式系统中，可以设计出基于本发明的媒体播放器、掌上电脑、移动终端、笔记本电脑等便携式设备。当多媒体信息存储在服务器中，而声音输入在客户端中，声音信息处理部件既可以集成到服务器中又可以集成到客户端中，服务器与客户端通过局域网络或互联网络进行连接，可以设计出基于本发明的媒体搜索系统、音乐侵权判定系统、歌唱学习系统、乐谱自动翻页装置。

下面结合附图进一步描述本发明的具体实施方案。

图1是基于本发明实现声音输入选择的媒体播放系统第一种实现方案。该方案中，特征相似度计算部件105的包含两个输入：一个是来自第一特征信息提取部件103，它通过处理来自语音输入部件101的语音信息，从中提取特征信息；另一个是来自第二特征信息中的任意一段信息截取部件104，它通过从媒体信息特征存储部件102取出媒体信息的特征，然后截取任意一段特征信息。特征相似度计算部件105将计算出的多个相似度数据输出给特征相似度判断部件106，由该部件进行筛选比较，从中选取相似度最大的那段特征信息所属的第二特征信息作为多媒体信息选择部件108从信息存储体107中选择所需多媒体信息。媒体信息特征存储部件102所存储的第二特征信息与信息存储体107存储的媒体信息是一一对应的，即媒体信息特征存储部件102的一条第二特征信息与信息存储体107中的一条媒体信息是一一对应的。这种对应关系也存储在媒体信息特征存储部件102中或信息存储体107中。具体实现中，媒体信息特征存储部件102和信息存储体107可以合并成由一个存储部件，其中第二特征信息与媒体信息的对应可以采用数据表格存储形式，也可以采用数据库的存储形式。典型的语音输入部件101具体实现比如是由麦克风、麦克风信号处理电路及语音信号数字化采集电路构成。第一特征信息提取部件103从所输入的语音中提取的特征比如是语音中的韵律信息、音高信息等，并进一步可以转化为乐谱信息，作为特征。作为媒体播放系统的实现，具体设计中，其中第一特征信息提取部件103、第二特征信息中的任意一段信息截取部件104、特征相似度计算部件105、特征相似度判断部件106和多媒体信息选择部件108都由媒体播放器的处理器通过软件实现。其实现的效果是，当人们希望媒体播放器播放某条媒体信息时，可以对着语音输入部件101的由麦克风哼唱该媒体信息所包含的音乐信息的片断，利用本发明的方法媒体播放器就可以自动选择出与所哼唱片断最近似的媒体信息进行播放，因而省却了因忘记媒体信息名称或因媒体信息太多而进行多级菜单操作的烦恼。即使媒体播放器的使用者所哼唱的乐曲片断并不太准确，只有基本的韵律相似即可，因而具有很大的实用性、适应性、可操作性。本发明实现媒体播放器可以实现通过语音输入从媒体播放器中选择与输入语音具有很大相似度的媒体信息，完全改变了现有媒体播放器的操作方式，具有更准确的媒体信息定位特征，而且大多数情况不用手的操作，直接通过说或唱就可进行媒体信息的选择，大大简化了用户的操作难度，即使对于盲人或不懂播放器操作的用户都可以实现媒体播放器的操作。

图2是基于本发明实现声音输入选择的媒体播放系统第二种实现方案。该方案与图1所示方案的不同之处在于，第二特征信息并不是预先存储在存储体中，而是由媒体信息特征计算部件202通过读取信息存储体107中的媒体信息来计算出第二特征信息。这种实现方案相比于第一种方案的好处在于，可以利用人们对于语音特征的进一步研究成果通过随时更新媒体信息特征计算部件202的算法来提高所提取特征的效率或调整所提取的特征内容。

图3是基于本发明的第一特征信息与第二特征信息进行相似度计算的第一种方法原理示意图。在该图中，假定第一特征信息的长度为4字节，特征内容302每个字节位置分别标记为a、b、c、d，第一特征信息301的长度为16字节，每个字节的位置标记为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16。截取第二特征信息的方法是以任一字节为起点截取相同长度的字节数，省去字节长度不够的截取值。这样得到13个截取段，每个截取段的字节位置分别为1、2、3、4；2、3、4、5；3、4、5、6；4、5、6、7；5、6、7、8；6、7、8、9；7、8、9、10；8、9、10、11；9、10、11、12；10、11、12、13；11、12、13、14；12、13、14、15；13、14、15、16。每个截取段分别与第一特征信息进行相似度计算得到计算结果303，计算结果303包含13个数值，表示为R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11、R12、R13。对于n条多媒体信息，假定每条多媒体信息的第二特征信息长度相同，都为16字节，则按上述相似度计算共有13*n个值，从13*n个值中再选取最大值，根据该最大值所对应的第二特征信息段，就可以得知该第二特征信息，然后根据媒体信息与第二特征信息的对应关系检索到相应的那条媒体信息。

由于每个人哼唱相同的曲调，或说出相同内容的话，哼唱或说话的速度不一定相同，因此所哼唱或说出内容的韵律特征可能比媒体信息的韵律特征的相同片断的长度不同，如某个音节再媒体信息中是单个1/4拍，而哼唱或说出该音节的韵律特征可能是两个1/4拍；或者某个音节再媒体信息中是两个1/4拍，而哼唱或说出该音节的韵律特征可能是单个1/4拍。因此为了提高相似度计算的兼容性和可靠性，在进行相似度计算中，包含对于第一特征信息和/或第二特征信息的相邻的相同特征字节合并为一个特征字节的情况。图4是基于本发明的第一特征信息与第二特征信息进行相似度计算的第二种方法原理示意图。该图中，除了按图3的方式，在对第一特征信息402和第二特征信息401都不做合并处理，计算相似度结果403，计算结果403包含13个数值，表示为R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11、R12、R13。图中第二特征信息401有两处相邻特征相同，即特征2和特征6，我们将相邻相同特征合并为一个特征，此时，第二特征信息变成第二特征信息的合并信息404，然后第一特征信息402与合并信息404按相同的相似度计算方法得到结果405，计算结果405包含10个数值，表示为R14、R15、R16、R17、R18、R19、R20、R21、R22、R23。对于n条多媒体信息，做上述相同的处理和计算，再选取最大值，根据该最大值所对应的第二特征信息段，就可以得知该第二特征信息，然后根据媒体信息与第二特征信息的对应关系检索到相应的那条媒体信息。

图5是基于本发明的第一特征信息与第二特征信息进行相似度计算的第三种方法原理示意图。与图4相比，该图中的第一特征信息存在需要合并处理的相邻的相同特征。先按原第一特征信息502与第二特征信息501做相似度计算得到结果503，计算结果503包含13个数值，表示为R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11、R12、R13，然后把第一特征信息的合并信息504与第二特征信息501做相似度计算得到结果505，计算结果503包含13个数值，表示为R14、R15、R16、R17、R18、R19、R20、R21、R22、R23、R24、R25、R26、R27。对于n条多媒体信息，做上述相同的处理和计算，再选取最大值，根据该最大值所对应的第二特征信息段，就可以得知该第二特征信息，然后根据媒体信息与第二特征信息的对应关系检索到相应的那条媒体信息。

对于第一特征信息与第二特征信息都存在可以合并的特征信息时，则包含四种情况计算，即第一特征信息与第二特征信息直接计算相似度；第一特征信息与第二特征信息的合并信息计算相似度；第一特征信息的合并信息与第二特征信息计算相似度；第一特征信息的合并信息与第二特征信息的合并信息计算相似度。

图6是基于本发明采用声音输入选择多媒体信息的处理流程示意图。该图更进一步给出实现实例，以提取MFCC系数后转换为MIDI文件后，再转换为简谱信息作为特征信息。具体流程是：在步骤601进行声音信号输入，如哼唱一段，对于输入的声音信号在步骤602时提取MFCC系数，在步骤603把得到的MFCC系数转换为MIDI文件，然后在步骤604转换为简谱信息，在步骤605生成第一特征信息；假定媒体存储器中已经存储了每条多媒体信息对应的MIDI文件，如果没有，可以先转换出MIDI文件，进入步骤606读取第一条多媒体信息的MIDI文件，在步骤607转换为简谱信息，在步骤608生成第二特征信息，然后在步骤609计算第一特征信息与第二特征信息的相似度；在步骤610判断是否最后一条多媒体信息？如果不是则进入步骤614读取下一条多媒体信息的MIDI文件，继续步骤607、步骤608、步骤609、步骤610的处理，如果是则进入步骤611判定相似度最大值所对应MIDI文件，在步骤读612取与相似度最大值所对应MIDI文件相关联的多媒体文件，最后在步骤613输出选定多媒体文件。

图7是基于本发明实现媒体搜索系统的第一种原理示意图。媒体搜索系统包含服务器端700和客户端710，客户端710通过互连网络或局域网络704连接服务器端700。其中服务器端700包含媒体信息数据库701、媒体访问处理部件702、网络接口703；客户端710包含信息展示部件706、语音输入部件707、语音信号处理部件708、网络接口705。用户通过语音输入部件707输入语音，如哼唱乐曲的片断，或拷贝预先制作的语音文件，由语音信号处理部件708进行处理，包括语音信号的数字化、语音第一特征信息的提取，然后将提取的第一特征信息通过网络接口705发送到互连网络或局域网络704中，由服务器端700的网络接口703接收到第一特征信息送到媒体访问处理部件702。媒体访问处理部件702从媒体信息数据库701取出每条媒体信息的第二特征信息，然后与收到的第一特征信息采用相似度计算方法计算出每条第二特征信息的每个片断与第一特征信息的相似度，选取相似度最大值所对应的第二特征信息，然后根据每条媒体信息与第二特征信息的对应关系从媒体信息数据库701取出与相似度最大值所对应的第二特征信息相关联的媒体信息，并将所选取的媒体信息通过网络接口703发送到互连网络或局域网络704中，由客户端710的网络接口705该媒体信息并送到语音信号处理部件708，由语音信号处理部件708将该媒体信息送到信息展示部件706进行展示。如媒体信息是单纯音乐信息，展示部件706可以是声音信号输出放大器和喇叭或耳机。如媒体信息是包含音乐信息的视频，展示部件706可以是包含显示屏和声音信号输出放大器和喇叭或耳机的组合部件。如收到媒体信息包含多条可供选择的媒体信息，则可以将信息按条目方式显示在展示部件706的显示屏上供用户选择。本发明实现媒体搜索系统可以实现通过语音输入从互联网络或局域网络中的各种媒体服务器中选择与输入语音具有很大相似度的媒体信息，完全改变了现有网络搜索引擎或搜索工具的搜索方式，具有更准确的媒体信息定位特征，而且大多数情况不用手的操作，直接通过说或唱就可进行媒体信息的搜索，大大简化了用户的操作难度，即使对于盲人或不懂电脑操作的用户都可以实现媒体信息的搜索。

图8是基于本发明实现媒体搜索系统的第二种原理示意图。媒体搜索系统包含服务器端800和客户端810，客户端810通过互连网络或局域网络704连接服务器端800。其中服务器端800包含媒体信息数据库701、媒体访问处理部件802、网络接口703；客户端810包含信息展示部件706、语音输入部件707、语音信号处理部件808、网络接口705和本地媒体第二特征信息存储部件809。在进行语音搜索之前，客户端810需要先通过互连网络或局域网络704从服务器端800下载每条媒体信息所对应的第二特征信息，然后存储到第二特征信息存储部件809中。用户通过语音输入部件707输入语音，如哼唱乐曲的片断，或拷贝预先制作的语音文件，由语音信号处理部件808进行处理，包括语音信号的数字化、语音第一特征信息的提取，然后语音信号处理部件808从第二特征信息存储部件809读取每条媒体信息的第二特征信息，然后与提取的第一特征信息采用相似度计算方法计算出每条第二特征信息的每个片断与第一特征信息的相似度，选取相似度最大值所对应的第二特征信息，将选取的第二特征信息通过网络接口705发送到互连网络或局域网络704中，由服务器端800的网络接口703接收到第二特征信息送到媒体访问处理部件802。媒体访问处理部件802根据每条媒体信息与第二特征信息的对应关系从媒体信息数据库701取出与所收到第二特征信息相关联的媒体信息，并将所选取的媒体信息通过网络接口703发送到互连网络或局域网络704中，由客户端810的网络接口705该媒体信息并送到语音信号处理部件808，由语音信号处理部件808将该媒体信息送到信息展示部件706进行展示。如媒体信息是单纯音乐信息，展示部件706可以是声音信号输出放大器和喇叭或耳机。如媒体信息是包含音乐信息的视频，展示部件706可以是包含显示屏和声音信号输出放大器和喇叭或耳机的组合部件。如收到媒体信息包含多条可供选择的媒体信息，则可以将信息按条目方式显示在展示部件706的显示屏上供用户选择。本发明实现媒体搜索系统可以实现通过语音输入从互联网络或局域网络中的各种媒体服务器中选择与输入语音具有很大相似度的媒体信息，完全改变了现有网络搜索引擎或搜索工具的搜索方式，具有更准确的媒体信息定位特征，而且大多数情况不用手的操作，直接通过说或唱就可进行媒体信息的搜索，大大简化了用户的操作难度，即使对于盲人或不懂电脑操作的用户都可以实现媒体信息的搜索。

图9是本发明实现乐谱自动翻页系统原理示意图。乐谱自动翻页系统包含乐谱显示部件901、处理部件902和语音输入部件903。其中处理部件902包含存储乐谱信息的存储体、处理器和储存程序软件的存储体。语音输入部件903包含收集语音的麦克风和语音数字化采集和存储电路。乐谱显示部件901是电子显示部件，如液晶显示器、有机发光管显示部件、电子纸显示部件等。在演奏乐曲时，乐谱显示部件901在处理部件902的控制下显示相应乐曲的乐谱的第一页内容，在演奏过程中，语音输入部件903不断采集输入所演奏的声音，由处理部件902提取出声音的韵律作为第一特征信息并与预先存储的所演奏乐曲的第二特征信息的片断作相似度计算，根据相似度最大值可以判断已经演奏到乐谱的位置，从而处理部件902一旦分析到显示在显示部件901的乐谱内容已经演奏完毕则自动将乐谱的下一页内容显示在显示部件901上，避免演奏者手动进行乐谱翻页造成演奏的短暂中断。通常演奏家演奏的乐曲与乐谱的快慢是十分接近的，因此进行相似度计算时可以不需要进行合并处理相邻的相同特征。

图10是本发明实现乐曲辅助学习系统原理示意图。乐曲辅助学习系统包含显示部件1001、处理部件1002和语音输入部件1003。其中处理部件1002包含存储乐曲信息的存储体、处理器和储存程序软件的存储体。语音输入部件1003包含收集语音的麦克风和语音数字化采集和存储电路。乐谱显示部件1001是电子显示部件，如液晶显示器、有机发光管显示部件、电子纸显示部件等。在唱歌或演奏乐曲时，显示部件1001在处理部件1002的控制下显示相应乐曲的乐谱，在唱歌或演奏过程中，语音输入部件903不断采集输入所演奏的声音，由处理部件902提取出声音的韵律作为第一特征信息，一首乐曲结束后，将所提取的第一特征信息与预先存储的所演奏乐曲的第二特征信息按音节作相似度计算，根据相似度计算结果给出在唱歌或演奏乐曲时每个音节与标准乐曲的音节的差异，从而处理部件902将这种差异显示在显示部件901上，唱歌或演奏乐者根据所显示音节的差异来发现错误，并调整自己的演奏达到学习辅助的目的。

图11是本发明实现媒体播放器原理示意图。媒体播放器1100包含处理器主机1101、控制操作按钮1102、耳机1103和麦克风1104。处理器主机1101通过连接导线1105与控制操作按钮1102、耳机1103和麦克风1104连接，这种连接的信号是双向的，即控制操作按钮1102的按键信号和麦克风1104输入的声音信号可以传送到处理器主机1101，处理器主机1101的输出信号可以输出到耳机1103。在其他实现中，处理器主机1101通过无线信号与控制操作按钮1102、耳机1103和麦克风1104进行无线连接，如采用蓝牙技术(BlueTooth)或WiFi技术实现无线连接，无论有线连接或无线连接方式，都是现有成熟技术。处理器主机1101包含存储媒体信息及其第二特征信息的存储体1105和信息处理部件1106。控制操作按钮1102上包含第一按键1107和第二按键1108。由于人们使用媒体播放器时，当播放某首媒体时会跟着媒体的音乐哼唱，而本发明的播放器在选择媒体和控制媒体的播放起点时也是采用操作者哼唱媒体片断进行的，为了使媒体播放器区分使用者是跟随正在播放的媒体进行哼唱还是哼唱片断来控制媒体播放器重新选择媒体或播放起点，采用控制操作按钮1102上的第一按键1107和第二按键1108实现。当操作者按下第一按键1107时表示是通过哼唱片断来选择媒体，当操作者按下第二按键1108时表示是通过哼唱片断来选择媒体的播放起点，当第一按键1107和第二按键1108都没有按下时，是跟随正在播放的媒体进行哼唱。控制操作按钮1102的按键信号送入到处理器主机1101，由处理主机进行判断处理。如操作者按下第一按键1107，信息处理部件1106通过处理来自麦克风1104的语音信息，从中提取特征信息；从存储体1105取出媒体信息的特征，然后截取任意一段特征信息计算出的多个相似度数据进行筛选比较，从中选取相似度最大的那段特征信息所属的第二特征信息作为选择所需多媒体信息的依据，然后根据第二特征信息与媒体信息对应关系选取媒体信息进行播放。如操作者按下第二按键1108，信息处理部件1106通过处理来自麦克风1104的语音信息，从中提取特征信息；从存储体1105取出媒体信息的特征，然后截取任意一段特征信息计算出的多个相似度数据进行筛选比较，从中选取相似度最大的那段特征信息所属的第二特征信息作为选择所需多媒体信息的依据，然后根据第二特征信息与媒体信息对应关系选取媒体信息并从与第二特征信息片断相似度最大的位置点开始播放。这样就实现了媒体播放器的媒体选择与媒体播放起点的自动定位。

图12是本发明判断两首音乐相似性的流程示意图，该图更进一步给出实现实例，以提取MFCC系数后转换为MIDI文件后，再转换为简谱信息作为特征信息。具体流程是：在步骤1201输入第一音乐，对于第一音乐在步骤1202提取MFCC系数，在步骤1203把得到的MFCC系数转换为MIDI文件，然后在步骤1204转换为简谱信息，在步骤1205生成第一特征信息；对于第二音乐采取相同的处理：在步骤1206输入第二音乐，对于第二音乐在步骤1207提取MFCC系数，在步骤1208把得到的MFCC系数转换为MIDI文件，然后在步骤1209转换为简谱信息，在步骤1210生成第一特征信息。然后在步骤1211计算第一特征信息与第二特征信息的相似度；在步骤1212从从所述相似度数据中选取相似度最大值并在步骤1213判断相似度最大值是否超过阀值？如果超过阀值则进入步骤1214得出结论：第一音乐与所述第二音乐相似性高；如果没有超过阀值则进入步骤1215得出结论：第一音乐与所述第二音乐相似性低。

Claims

1.一种乐曲辅助学习系统，包括存储了至少一首乐曲信息的信息存储体，其特征是还包括：

声音输入部件；

特征提取部件，从所述声音输入部件输入的声音信号中提取第一特征信息；当所述第一特征信息包含MIDI数据时，从所述第一特征信息中去除MIDI数据中的乐器、响应等级、音色颤音、混响特征数据之一或几个；

媒体信息选择部件，选择准备学习的某首乐曲信息；

媒体信息特征提取部件，计算所选定乐曲信息的第二特征信息，当所述第二特征信息包含MIDI数据时，从所述第二特征信息中去除MIDI数据中的乐器、响应等级、音色颤音、混响特征数据之一或几个；

特征相似性计算部件，用于计算并判断所述第一特征信息与所选定乐曲信息的第二特征信息的相似度；在所述相似度计算中包含对于第一特征信息和/或第二特征信息进行节拍调整，和/或者在所述相似度计算中包含对于第二特征信息进行音调调整，和/或者在所述相似度计算中包含对于第一特征信息和/或第二特征信息的相邻的相同特征进行合并；

所述相似度计算的方法包括：对于所选定乐曲信息的第二特征信息，以任一字节为起点从第二特征信息中截取与第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与第一特征信息进行相似度计算得到计算结果，从所述计算结果中选取最大值；或者

所述相似度计算的方法包括：对于所选定乐曲信息的第二特征信息，以任一字节为起点从第二特征信息中截取与第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与第一特征信息进行相似度计算得到计算结果；并且对于所选定乐曲信息的第二特征信息进行相邻相同特征合并为一个特征处理后，以任一字节为起点从经过相邻相同特征合并为一个特征处理后的第二特征信息中截取与第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与第一特征信息进行相似度计算得到计算结果；然后从所有计算结果中选取最大值；或者

所述相似度计算的方法包括：对于所选定乐曲信息的第二特征信息，以任一字节为起点从第二特征信息中截取与第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与第一特征信息进行相似度计算得到计算结果；并且对于第一特征信息进行相邻相同特征合并为一个特征处理后，对所选定乐曲信息的第二特征信息以任一字节为起点从第二特征信息中截取与经过相邻相同特征合并为一个特征处理后的第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与经过相邻相同特征合并为一个特征处理后的第一特征信息进行相似度计算得到计算结果；然后从所有计算结果中选取最大值；或者

所述相似度计算的方法包括：对于所选定乐曲信息的第二特征信息，以任一字节为起点从第二特征信息中截取与第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与第一特征信息进行相似度计算得到计算结果；并且对于所选定乐曲信息的第二特征信息进行相邻相同特征合并为一个特征处理后，以任一字节为起点从经过相邻相同特征合并为一个特征处理后的第二特征信息中截取与第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与第一特征信息进行相似度计算得到计算结果；而且对于第一特征信息进行相邻相同特征合并为一个特征处理后，对所选定乐曲信息的第二特征信息以任一字节为起点从第二特征信息中截取与经过相邻相同特征合并为一个特征处理后的第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与经过相邻相同特征合并为一个特征处理后的第一特征信息进行相似度计算得到计算结果；并且对于第一特征信息进行相邻相同特征合并为一个特征处理，同时对于所选定乐曲信息的第二特征信息进行相邻相同特征合并为一个特征处理后，以任一字节为起点从经过相邻相同特征合并为一个特征处理后的第二特征信息中截取与经过相邻相同特征合并为一个特征处理后的第一特征信息相同长度的字节数，省去字节长度不够的截取值，每个截取段分别与经过相邻相同特征合并为一个特征处理后的第一特征信息进行相似度计算得到计算结果；然后从所有计算结果中选取最大值；

信息提示部件，根据所述特征相似性计算部件计算的相似度给出输入的声音信号与所选定的乐曲信息的差异。

2.根据权利要求1所述的系统，其特征是所述输入的声音信号与所选定的乐曲信息的差异包含输入的声音信号与乐曲信息的整体差异和/或局部片断的差异和/或单个音节的差异。

3.根据权利要求1所述的系统，其特征是所述信息提示部件包含声音输出部件和/或信息显示部件。

4.根据权利要求1所述的系统，其特征是所述第一特征信息进一步包含所述输入的声音信号的声音音调信息和/或音调变化信息；所述第二特征信息进一步包含所述乐曲信息的声音音调信息和/或音调变化信息。

5.根据权利要求1所述的系统，其特征是所述第一特征信息进一步包含如下信息之一或组合：简谱、五线谱、倒频谱系数法数据、线性预测编码法数据；所述第二特征信息进一步包含如下信息之一或组合：简谱、五线谱、倒频谱系数法数据、线性预测编码法数据、音乐的韵律信息、音乐的旋律信息。

6.根据权利要求1至5中任一项所述的系统，其特征是所述特征提取部件、媒体信息选择部件、特征相似性计算部件、信息存储体由包含处理器的信息处理部件实现，所述信息处理部件与声音输入部件之间采用有线导线连接或采用无线信号连接。

7.一种乐曲辅助学习系统，包括存储了至少一首乐曲信息和与每首乐曲信息对应的第二特征信息的信息存储体，当所述第二特征信息包含MIDI数据时，从所述第二特征信息中去除MIDI数据中的乐器、响应等级、音色颤音、混响特征数据之一或几个；

其特征是所述系统还包括：

声音输入部件；

媒体信息选择部件，选择准备学习的某首乐曲信息；

特征相似性计算部件，用于计算并判断所述第一特征信息与所选定的乐曲信息对应的第二特征信息的相似度；在所述相似度计算中包含对于第一特征信息和/或第二特征信息进行节拍调整，和/或者在所述相似度计算中包含对于第二特征信息进行音调调整，和/或者在所述相似度计算中包含对于第一特征信息和/或第二特征信息的相邻的相同特征进行合并；

8.根据权利要求7所述的系统，其特征是所述输入的声音信号与所选定的乐曲信息的差异包含输入的声音信号与乐曲信息的整体差异和/或局部片断的差异和/或单个音节的差异。

9.根据权利要求7所述的系统，其特征是所述信息提示部件包含声音输出部件和/或信息显示部件。

10.根据权利要求7所述的系统，其特征是所述第一特征信息进一步包含所述输入的声音信号的声音音调信息和/或音调变化信息；所述第二特征信息进一步包含所述乐曲信息的声音音调信息和/或音调变化信息。

11.根据权利要求7所述的系统，其特征是所述第一特征信息进一步包含如下信息之一或组合：简谱、五线谱、倒频谱系数法数据、线性预测编码法数据；所述第二特征信息进一步包含如下信息之一或组合：简谱、五线谱、倒频谱系数法数据、线性预测编码法数据、音乐的韵律信息、音乐的旋律信息。

12.根据权利要求7至11中任一项所述的系统，其特征是所述特征提取部件、媒体信息选择部件、特征相似性计算部件、信息存储体由包含处理器的信息处理部件实现，所述信息处理部件与声音输入部件之间采用有线导线连接或采用无线信号连接。