[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111506766A - 音频帧聚类方法、装置及设备 - Google Patents

音频帧聚类方法、装置及设备 Download PDF

Info

Publication number
CN111506766A
CN111506766A CN202010314785.5A CN202010314785A CN111506766A CN 111506766 A CN111506766 A CN 111506766A CN 202010314785 A CN202010314785 A CN 202010314785A CN 111506766 A CN111506766 A CN 111506766A
Authority
CN
China
Prior art keywords
category
audio
distance matrix
elements
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010314785.5A
Other languages
English (en)
Other versions
CN111506766B (zh
Inventor
王征韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010314785.5A priority Critical patent/CN111506766B/zh
Publication of CN111506766A publication Critical patent/CN111506766A/zh
Application granted granted Critical
Publication of CN111506766B publication Critical patent/CN111506766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供音频帧聚类方法、装置及设备,其中,方法包括:获取目标音频数据对应的距离矩阵;从该距离矩阵中确定出第一种子元素,以该第一种子元素为区域生长的起点,将该距离矩阵中满足区域生长条件的各个元素确定为第一元素,将该第一元素中的各个元素对应的音频帧的类别确定为第一类别;获取该距离矩阵包括的元素集合与第一集合之间的差集;从该差集中确定出第二种子元素,以该第二种子元素为区域生长的起点,将该距离矩阵中满足该区域生长条件的各个元素确定为第二元素,将该第二元素中的各个元素对应的音频帧的类别确定为第二类别。采用本申请实施例,可以实现将多个具有相似特征的音频帧聚类,从而提高查找效率。

Description

音频帧聚类方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及音频帧聚类方法、装置及设备。
背景技术
在对音频数据进行音乐结构分析等技术中通常会涉及到对音频帧的查找,由于针对一首或者多首歌曲或者音乐而言,音频帧的数量可能较多,而在进行音乐结构分析时需要查找到某些特定的音频帧。
现有的音频帧查找方法为遍历音频数据对应的所有音频帧,从而找到满足条件的音频帧,例如查找一个音频帧需要遍历一次音频数据对应的所有音频帧,当需要查找多个音频帧时,需要遍历多次音频数据对应的所有音频帧,导致音频帧查找效率较低。
发明内容
本申请实施例提供音频帧聚类方法、装置及设备,解决在音频帧数量过多的情况下,不便于查找的问题。
第一方面,提供音频帧聚类方法,包括:
获取目标音频数据对应的距离矩阵,该目标音频数据包括N个音频帧,该距离矩阵为对称矩阵,该距离矩阵中位于主对角线上的元素为0,该距离矩阵中除位于主对角线上的元素外的其他元素用于表示该N个音频帧中每两个音频帧对应的音频特征向量之间的距离,该N为大于或等于2的正整数;
从该距离矩阵中确定出第一种子元素,以该第一种子元素为区域生长的起点,将该距离矩阵中满足区域生长条件的各个元素确定为第一元素,将该第一元素中的各个元素对应的音频帧的类别确定为第一类别,以及将该第一种子元素对应的音频帧的类别确定为该第一类别,该第一种子元素映射到二维坐标系上的横纵坐标之间的绝对差值等于1;
获取该距离矩阵包括的元素集合与第一集合之间的差集,该第一集合包括该第一种子元素和该第一元素;
从该差集中确定出第二种子元素,以该第二种子元素为区域生长的起点,将该距离矩阵中满足该区域生长条件的各个元素确定为第二元素,将该第二元素中的各个元素对应的音频帧的类别确定为第二类别,以及将该第二种子元素对应的音频帧的类别确定为该第二类别,该第二种子元素映射到该二维坐标系上的横纵坐标之间的绝对差值等于1,该第二种子元素小于该第一种子元素。
结合第一方面,在一种可能的实现方式中,该距离矩阵包括N*N个元素,该从该距离矩阵中确定出第一种子元素,以该第一种子元素为区域生长的起点,将该距离矩阵中满足区域生长条件的各个元素确定为第一元素,将该第一元素中的各个元素对应的音频帧的类别确定为第一类别,包括:将该距离矩阵中的N*N个元素映射到该二维坐标系上,以得到该距离矩阵中N*N个元素对应的N*N个坐标点,一个元素对应一个坐标点,该距离矩阵中第一个元素映射为该二维坐标系的坐标原点,该距离矩阵中每两个相邻元素映射到该二维坐标系上的两个相邻坐标点之间的距离相等;从该N*N个坐标点中确定出横纵坐标之间的绝对差值等于1的种子坐标点,并将该种子坐标点对应的元素确定为该第一种子元素;将该距离矩阵中属于该第一种子元素的邻域内且小于目标阈值的元素确定为该第一元素,并将该第一元素中的每个元素对应的两个音频帧的类别确定为该第一类别,直到该距离矩阵中不存在属于该第一种子元素的邻域内且小于该目标阈值的元素;将该距离矩阵中属于该第一元素中的每个元素的邻域内且小于该目标阈值的元素确定为第三元素,并将该第三元素中的每个元素对应的两个音频帧的类别确定为该第一类别。
结合第一方面,在一种可能的实现方式中,该方法还包括:若该距离矩阵中存在映射到该二维坐标系上的横纵坐标之间的绝对差值大于1的K个第四元素,且该K个第四元素属于该第一种子元素和该第二种子元素的邻域外,则确定该K个第四元素中每个第四元素对应的音频帧的类别,得到K个第三类别,一个第四元素对应的音频帧的类别为一个第三类别,该K为大于或等于1的正整数。
结合第一方面,在一种可能的实现方式中,该方法还包括:根据该N个音频帧中属于第一类别的各个音频帧、属于该第二类别的各个音频帧以及属于该K个第三类别中每个第三类别的音频帧的时间先后顺序生成该目标音频数据对应的音频帧序列。
结合第一方面,在一种可能的实现方式中,该方法还包括:获取该N个音频帧中属于该第一类别的各个音频帧中播放时间最小的音频帧的第一帧号;获取该N个音频帧中属于该第一类别的各个音频帧中播放时间最大的音频帧的第二帧号;计算该N个音频帧中属于该第一类别的各个音频帧对应的音频特征向量之间的均值;根据该第一帧号、该第二帧号以及该均值,生成该第一类别的类别标识,该第一类别的类别标识包括该第一帧号、该第二帧号以及该均值。
结合第一方面,在一种可能的实现方式中,该距离矩阵中的元素aij为该N个音频帧中第i个音频帧对应的音频特征向量与第j个音频帧的音频特征向量之间的相似距离,其中i和j为大于0且小于或等于N的正整数。
结合第一方面,在一种可能的实现方式中,该获取目标音频数据对应的距离矩阵之前,还包括:将该目标音频数据划分为该N个音频帧;获取该N个音频帧中每个音频帧的音频特征向量,得到N个音频特征向量,该音频特征向量为梅尔频谱特征向量;计算该N个音频特征向量中每两个音频特征向量之间的相似距离,得到N*(N-1)个距离值;根据该N*(N-1)个距离值构建主对角线为0的对称矩阵,并将该对称矩阵确定为该距离矩阵。
第二方面,提供音频帧聚类装置,包括:
矩阵获取模块,用于获取目标音频数据对应的距离矩阵,该目标音频数据包括N个音频帧,该距离矩阵为对称矩阵,该距离矩阵中位于主对角线上的元素为0,该距离矩阵中除位于主对角线上的元素外的其他元素用于表示该N个音频帧中每两个音频帧对应的音频特征向量之间的距离,该N为大于或等于2的正整数;
第一确定模块,用于从该距离矩阵中确定出第一种子元素,以该第一种子元素为区域生长的起点,将该距离矩阵中满足区域生长条件的各个元素确定为第一元素,将该第一元素中的各个元素对应的音频帧的类别确定为第一类别,以及将该第一种子元素对应的音频帧的类别确定为该第一类别,该第一种子元素映射到二维坐标系上的横纵坐标之间的绝对差值等于1;
差集获取模块,用于获取该距离矩阵包括的元素集合与第一集合之间的差集,该第一集合包括该第一种子元素和该第一元素;
第二确定模块,用于从该差集中确定出第二种子元素,以该第二种子元素为区域生长的起点,将该距离矩阵中满足该区域生长条件的各个元素确定为第二元素,将该第二元素中的各个元素对应的音频帧的类别确定为第二类别,以及将该第二种子元素对应的音频帧的类别确定为该第二类别,该第二种子元素映射到该二维坐标系上的横纵坐标之间的绝对差值等于1,该第二种子元素小于该第一种子元素。
结合第二方面,在一种可能的实现方式中,该距离矩阵包括N*N个元素,该第一确定模块,具体用于将该距离矩阵中的N*N个元素映射到该二维坐标系上,以得到该距离矩阵中N*N个元素对应的N*N个坐标点,一个元素对应一个坐标点,该距离矩阵中第一个元素映射为该二维坐标系的坐标原点,该距离矩阵中每两个相邻元素映射到该二维坐标系上的两个相邻坐标点之间的距离相等;从该N*N个坐标点中确定出横纵坐标之间的绝对差值等于1的种子坐标点,并将该种子坐标点对应的元素确定为该第一种子元素;将该距离矩阵中属于该第一种子元素的邻域内且小于目标阈值的元素确定为该第一元素,并将该第一元素中的每个元素对应的两个音频帧的类别确定为该第一类别,直到该距离矩阵中不存在属于该第一种子元素的邻域内且小于该目标阈值的元素;将该距离矩阵中属于该第一元素中的每个元素的邻域内且小于该目标阈值的元素确定为第三元素,并将该第三元素中的每个元素对应的两个音频帧的类别确定为该第一类别。
结合第二方面,在一种可能的实现方式中,该装置还包括:第三确定模块,用于若该距离矩阵中存在映射到该二维坐标系上的横纵坐标之间的绝对差值大于1的K个第四元素,且该K个第四元素属于该第一种子元素和该第二种子元素的邻域外,则确定该K个第四元素中每个第四元素对应的音频帧的类别,得到K个第三类别,一个第四元素对应的音频帧的类别为一个第三类别,该K为大于或等于1的正整数。
结合第二方面,在一种可能的实现方式中,该装置还包括:序列确定模块,用于根据该N个音频帧中属于第一类别的各个音频帧、属于该第二类别的各个音频帧以及属于该K个第三类别中每个第三类别的音频帧的时间先后顺序生成该目标音频数据对应的音频帧序列。
结合第二方面,在一种可能的实现方式中,该装置还包括:标识确定模块,用于获取该N个音频帧中属于该第一类别的各个音频帧中播放时间最小的音频帧的第一帧号;获取该N个音频帧中属于该第一类别的各个音频帧中播放时间最大的音频帧的第二帧号;计算该N个音频帧中属于该第一类别的各个音频帧对应的音频特征向量之间的均值;根据该第一帧号、该第二帧号以及该均值,生成该第一类别的类别标识,该第一类别的类别标识包括该第一帧号、该第二帧号以及该均值。
结合第二方面,在一种可能的实现方式中,该距离矩阵中的元素aij为该N个音频帧中第i个音频帧对应的音频特征向量与第j个音频帧的音频特征向量之间的相似距离,其中i和j为大于0且小于或等于N的正整数。
结合第二方面,在一种可能的实现方式中,该装置还包括:矩阵构建模块,用于将该目标音频数据划分为该N个音频帧;获取该N个音频帧中每个音频帧的音频特征向量,得到N个音频特征向量,该音频特征向量为梅尔频谱特征向量;计算该N个音频特征向量中每两个音频特征向量之间的相似距离,得到N*(N-1)个距离值;根据该N*(N-1)个距离值构建主对角线为0的对称矩阵,并将该对称矩阵确定为该距离矩阵。
第三方面,提供电子设备,包括处理器、存储器、以及输入输出接口,该处理器、存储器和输入输出接口相互连接,其中,该输入输出接口用于输入或输出数据,该存储器用于存储电子设备执行上述方法的应用程序代码,该处理器被配置用于执行上述第一方面的音频帧聚类方法。
第四方面,提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面的音频帧聚类方法。
本申请实施例中,通过获取目标音频数据对应的距离矩阵;从距离矩阵中确定出第一种子元素,以第一种子元素为区域生长的起点,将距离矩阵中满足区域生长条件的各个元素确定为第一元素,将第一元素中的各个元素对应的音频帧的类别确定为第一类别,并将第一种子元素对应的音频帧的类别确定为第一类别;获取距离矩阵包括的元素集合与第一集合之间的差集;从差集中确定出第二种子元素,以第二种子元素为区域生长的起点,将距离矩阵中满足区域生长条件的各个元素确定为第二元素,将第二元素中的各个元素对应的音频帧的类别确定为第二类别,并将第二种子元素对应的音频帧的类别确定为第二类别。在保留目标音频数据的所有音频帧信息的同时,通过将音频特征向量相似的各个音频帧确定为相同类别,在查找音频帧时,可以提高查找效率;通过区域生长的方法确定种子元素对应的元素,由于只需要在种子元素的邻域内进行查找满足条件的元素,无需对目标音频数据包括的每个音频帧进行查找,并对查找到的相似音频帧进行聚类,可以提高对音频帧的查找以及聚类效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频帧聚类方法的流程示意图;
图2是本申请实施例提供的距离矩阵的示意图;
图3是本申请实施例提供的距离矩阵构建方法的流程示意图;
图4是本申请实施例提供的第一种子元素以及第一类别的确定方法的流程示意图;
图5是本申请实施例提供的距离矩阵与二维坐标系的映射关系的示意图;
图6是本申请实施例提供的第一种子元素的邻域的示意图;
图7是本申请实施例提供的距离矩阵的上三角元素的示意图;
图8是本申请实施例提供的另一种音频帧聚类方法的流程示意图;
图9是本申请实施例提供的一种音频帧聚类装置的组成结构示意图;
图10是本申请实施例提供的一种电子设备的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的一种音频帧聚类方法的流程示意图。如图1所示,该音频帧聚类方法可包括步骤:
S101,获取目标音频数据对应的距离矩阵。
其中,目标音频数据包括N个音频帧,距离矩阵为对称矩阵,距离矩阵中位于主对角线上的元素为0,距离矩阵中除位于主对角线上的元素外的其他元素用于表示N个音频帧中每两个音频帧对应的音频特征向量之间的距离,N为大于或等于2的正整数。目标音频数据例如可以为一首歌曲对应的音频数据、一首乐曲对应的音频数据,等等。
这里,距离矩阵包括N*N个元素。距离矩阵中的元素aij为N个音频帧中第i个音频帧对应的音频特征向量与第j个音频帧的音频特征向量之间的相似距离。i和j均为大于0且小于或等于N的正整数。由于距离矩阵为对称矩阵,可知,矩阵中的元素aij=aji,aji为N个音频帧中第j个音频帧对应的音频特征向量与第i个音频帧的音频特征向量之间的相似距离。如图2所示,图2是本申请实施例提供的距离矩阵的示意图。如图2的2a所示,距离矩阵中包含N*N个元素,其主对角线上的元素为aii,aii表示两个相同的音频帧对应的音频特征向量之间的距离,其对应的值为0,即距离矩阵还可以如图2的2b所示。
本申请实施例中,在获取目标音频数据对应的距离矩阵之前,可以预先构建距离矩阵,具体构建距离矩阵的方法可以如图3所示,图3是本申请实施例提供的距离矩阵构建方法的流程示意图,包括如下步骤:
S1,将目标音频数据划分为N个音频帧。
具体地,可以以预设的采样周期对目标音频数据进行采样,将连续的音频数据变换为离散化的音频数据。采样周期可以为根据奈奎斯特采样定理确定的周期。然后通过传递函数为H(Z)=1-αZ-1的数字滤波器对离散后的音频数据进行滤波,增加音频数据的高频分辨率。α为预加重系数,α大于0.9小于1。最后,可以利用窗函数对离散的音频数据进行分帧处理得到多个音频帧,这里即得到N个音频帧。其中,窗函数可以为矩形窗、汉明窗或汉宁窗中的任意一种窗函数。
可选地,在将目标音频数据划分为N个音频帧之后,还可以通过端点检测剔除音频帧中的噪声和干扰。其中,可以通过基于能量的端点检测、基于信息熵的端点检测或基于频带方差的端点检测等方式进行端点检测。
S2,获取N个音频帧中每个音频帧的音频特征向量,得到N个音频特征向量,音频特征向量为梅尔频谱特征向量。
这里,一个音频帧对应一个音频特征向量。具体实现中,可以通过对N个音频帧中每个音频帧对应的音频数据进行短时傅里叶变换(Short-time Fourier Transform,STFT),从而获取到N个音频帧中每个音频帧的梅尔频谱特征向量,即得到N个音频帧中每个音频帧的音频特征向量,从而得到N个音频帧对应的N个音频特征向量。
S3,计算N个音频特征向量中每两个音频特征向量之间的相似距离,得到N*(N-1)个距离值。
这里,两个音频特征向量之间的相似距离即两个音频特征向量之间的相似程度,可以采用现有的相似度计算方法对每两个音频特征向量之间的相似距离进行计算。例如欧氏距离、余弦距离、街区距离以及曼哈顿距离计算方法等。可以理解的是,针对N个音频特征向量中每两个音频特征向量,应采用同一种相似度计算方法进行计算,例如都采用欧氏距离,或者都采用余弦距离进行计算,等等。
可知,计算音频帧1对应的音频特征向量与音频帧2对应的音频特征向量之间的相似距离得到的距离值和计算音频帧2对应的音频特征向量与音频帧1对应的音频特征向量之间的相似距离得到的距离值相等。音频帧1与音频帧2为两个不同的音频帧,由此可以得到N*(N-1)个距离值。
S4,根据N*(N-1)个距离值构建主对角线为0的对称矩阵,并将对称矩阵确定为距离矩阵。
这里,根据N*(N-1)个距离值构建主对角线为0的距离矩阵可以如图2的2b所示。
S102,从距离矩阵中确定出第一种子元素,以第一种子元素为区域生长的起点,将距离矩阵中满足区域生长条件的各个元素确定为第一元素,将第一元素中的各个元素对应的音频帧的类别确定为第一类别,将第一种子元素对应的音频帧的类别确定为第一类别。
这里,第一种子元素映射到二维坐标系上的横纵坐标之间的绝对差值等于1。区域生长是指先确定出一个区域生长的起点(即第一种子元素),将在该起点的邻域内,且具有相同或相似特征的元素聚类起来的过程,即先确定一个音频帧,将在该音频帧的邻域内,且与该音频帧具有相同或相似特征的音频帧聚类起来的过程。例如,区域生长的起点为音频帧d1,该起点d1具有特征a,将在d1的邻域内且具有特征a或具有与特征a相似的特征的所有元素(音频帧)聚类起来,得到类别A,在后续通过查找类别A,即可查找到类别A中的所有元素(音频帧),且查找到的元素(音频帧)都具有特征a或具有与特征a相似的特征。其中,满足区域生长条件则表示满足区域生长条件的音频帧与区域生长的起点(即第一种子元素)对应的音频帧具有相同或相似的特征。可知,满足区域生长条件的元素为属于第一种子元素的邻域内且小于目标阈值的元素。
具体地,确定距离矩阵中的第一种子元素以及第一类别的方法可以如图4所示,图4是本申请实施例提供的第一种子元素以及第一类别的确定方法的流程示意图,包括如下步骤:
S1021,将距离矩阵中的N*N个元素映射到二维坐标系上,以得到距离矩阵中N*N个元素对应的N*N个坐标点。
这里,一个元素对应一个坐标点,距离矩阵中第一个元素映射为二维坐标系的坐标原点,距离矩阵中每两个相邻元素映射到二维坐标系上的两个相邻坐标点之间的距离相等。将距离矩阵中的N*N个元素映射到二维坐标系上,以得到距离矩阵中N*N个元素对应的N*N个坐标点可以如图5所示,图5是本申请实施例提供的距离矩阵与二维坐标系的映射关系的示意图。
如图5所示,距离矩阵中的元素a11映射为二维坐标系上的坐标原点b11(0,0),距离矩阵中的元素a12映射为二维坐标系上的坐标点b12(0,1),距离矩阵中的元素a13映射为二维坐标系上的坐标点b13(0,2),距离矩阵中的元素a14映射为二维坐标系上的坐标点b14(0,3),等等。由此可得到距离矩阵中的每个元素映射在二维坐标系上的坐标点。二维坐标系上的bij为坐标点,bij与b(i+1)j之间的距离等于bij与bi(j+1)之间的距离,bij与b(i-1)j之间的距离等于bij与bi(j-1)之间的距离,bij与b(i+1)j之间的距离等于bij与b(i-1)j之间的距离,bij与bi(j-1)之间的距离等于bij与bi(j+1)之间的距离。例如,i=1,j=1,b11与相邻坐标点b12之间的距离等于b11与相邻坐标点b21之间的距离可以为1或2等数值。图5中相邻两个坐标点之间的距离为1。如图5所示,可知,距离矩阵中的元素a11映射在二维坐标系上的坐标点b11的坐标为(0,0);距离矩阵中的元素a12映射在二维坐标系上的坐标点b12的坐标为(0,1);距离矩阵中的元素a13映射在二维坐标系上的坐标点b13的坐标为(0,2),等等。由此可得到距离矩阵中每个元素映射在二维坐标系上的坐标点的坐标。
S1022,从N*N个坐标点中确定出横纵坐标之间的绝对差值等于1的种子坐标点,并将种子坐标点对应的元素确定为第一种子元素。
这里,由于距离矩阵为对称矩阵,其主对角线所在的上三角元素与其主对角线所在的下三角元素对应相等,距离矩阵的上三角元素为距离矩阵中主对角线上方的元素,距离矩阵的下三角元素为距离矩阵中主对角线下方的元素。为了避免重复运算以及减少计算量,可以只从距离矩阵的上三角中的元素对应的坐标点中确定横纵坐标之间的绝对差值等于1的种子坐标点,即从距离矩阵的上三角中的N*N/2个元素对应的N*N/2个坐标点中确定横纵坐标之间的绝对差值等于1的种子坐标点,并将该种子坐标点对应的元素确定为第一种子元素。
具体地,可以先确定出N*N/2个坐标点中横纵坐标之间的绝对差值等于1的多个坐标点,并确定出多个坐标点中每个坐标点对应的元素中的最小元素,并将该最小元素对应的坐标点确定为种子坐标点。例如图5中所示,b12的横纵坐标为(1,0),则b12对应的横纵坐标之间的绝对差值为|1-0|=1;b23的横纵坐标为(2,1),则b23对应的横纵坐标之间的绝对差值为|2-1|=1;b34的横纵坐标为(3,2),则b34对应的横纵坐标之间的绝对差值为|3-2|=1。b12对应的元素a12等于0.5、b23对应的元素a23等于0.8、b34对应的元素a34等于0.6,即种子坐标点为b12,则将种子坐标点b12对应的元素a12确定为第一种子元素。
其中,a12表示第一个音频帧对应的音频特征向量与第二个音频帧对应的音频特征向量之间的相似距离、a23表示第二个音频帧对应的音频特征向量与第三个音频帧对应的音频特征向量之间的相似距离、a34表示第三个音频帧对应的音频特征向量与第四个音频帧对应的音频特征向量之间的相似距离。
S1023,将距离矩阵中属于第一种子元素的邻域内且小于目标阈值的元素确定为第一元素,并将第一元素中的每个元素对应的两个音频帧的类别确定为第一类别,直到距离矩阵中不存在属于第一种子元素的邻域内且小于目标阈值的元素。
具体实现中,在确定出第一种子元素的邻域内的第一元素之后,将第一元素中的各个元素对应的音频帧的类别确定为第一类别,并将第一种子元素对应的两个音频帧的类别确定为第一类别,则第一类别中的音频帧包括第一种子元素对应的两个音频帧和第一元素中的各个元素对应的音频帧。这里,第一种子元素的邻域可以包括4-邻域或者8-邻域。其中,第一种子元素的4-邻域的元素可以包括第一种子元素所在位置的上、下、左、右四个位置的元素。如图6所示,图6是本申请实施例提供的第一种子元素的邻域示意图。如图6的6a所示,假设第一种子元素为a24,则在第一种子元素的4-邻域内的元素为图6的6a中的虚线框标出的四个位置的元素,即a23、a14、a25、a34。第一种子元素的8-邻域的元素可以包括第一种子元素所在位置的上、下、左、右、以及左上、右上、左下、右下八个位置的元素。如图6的6b所示,若第一种子元素为a24,则第一种子元素的8-邻域的元素为图6的6b中的虚线框标出的八个位置的元素,即a23、a14、a25、a34、a13、a15、0、a35
目标阈值可以为0.3、0.5、0.8等数值,本申请实施例中不对目标阈值的大小进行限定。
由于距离矩阵主对角线所在的上三角元素与其主对角线所在的下三角元素对应相等,为了避免重复运算以及减少计算量,可以只从距离矩阵的上三角中的N*N/2个元素中确定第一元素。从距离矩阵的上三角中的N*N/2个元素中查找属于第一种子元素的邻域内且小于目标阈值的所有元素,并将查找到的元素确定为第一元素,即第一元素的数量可能为多个。由于每个元素是通过计算两个音频帧对应的音频特征向量之间的距离得到的,因此每个元素对应两个音频帧。将多个第一元素中的每个第一元素对应的两个音频帧的类别确定为第一类别,直到距离矩阵的上三角中的N*N/2个元素中不存在属于第一种子元素的邻域内且小于目标阈值的元素。
例如第一种子元素的邻域为4-邻域,目标阈值为0.6,第一种子元素为a23,则a23的4-邻域内的元素包括a13、a24、a22、a33,其中,a13等于0.5、a24等于0.3,由于a22与a33为距离矩阵的主对角线上的元素,则第一元素为除距离矩阵的主对角线上的元素外的元素a13与a24
可以理解的是,第一元素不包括距离矩阵的主对角线上的元素,即使距离矩阵的主对角线上的元素属于第一种子元素的邻域内且小于目标阈值,该主对角线上的元素也不属于第一元素,即第一元素为距离矩阵的上三角中的N*N/2个元素中除主对角线上的元素外,属于第一种子元素的邻域内且小于目标阈值的元素。
S1024,将距离矩阵中属于第一元素中的每个元素的邻域内且小于目标阈值的元素确定为第三元素,并将第三元素中的每个元素对应的两个音频帧的类别确定为第一类别。
这里,第一元素的邻域可以包括4-邻域或者8-邻域。第一元素的4-邻域可以包括第一元素所在位置的上、下、左、右四个位置的元素。或者第一种子元素的8-邻域可以包括第一元素所在位置的上、下、左、右、左上、右上、左下、右下八个位置的元素。同样的,为了避免重复运算以及减少计算量,可以只从距离矩阵的上三角中的N*N/2个元素中确定第三元素,从距离矩阵的上三角中的N*N/2个元素中查找属于第一元素的邻域内且小于目标阈值的所有元素,并将查找到的元素确定为第三元素,由于可能存在多个属于第一元素的邻域内且小于目标阈值的第三元素,则将每个第三元素对应的两个音频帧的类别确定为第一类别。可以理解的是,第三元素也不包括距离矩阵的主对角线上的元素。
举例来对确定距离矩阵中的第一元素以及第三元素的过程进行说明:如图7所示,图7是本申请实施例提供的距离矩阵的上三角元素的示意图。图7的7a为距离矩阵包括的元素,图7中7b的区域C中的元素为距离矩阵的上三角元素,若确定出第一种子元素为a23,且邻域为第一种子元素的4-邻域,则第一种子元素a23的4-邻域内的元素为a13、a24、a22、a33。若目标阈值为0.8,a13等于0.6、a24等于0.7,由于a22与a33为距离矩阵的主对角线上的元素,因此第一元素为除距离矩阵的主对角线上的元素外的元素,即第一元素包括a13与a24,将a13对应的两个音频帧的类别以及a24对应的两个音频帧的类别确定为第一类别。可知,除了元素a13与a24以外,距离矩阵中不存在属于第一种子元素的邻域内且小于目标阈值的元素。
第一元素a13的4-邻域内的元素包括a12与a14,第一元素a24的4-邻域内的元素包括a14、a25与a34。若a12、a14、a25与a34分别等于0.4、0.7、0.6、0.5,则第三元素包括a12、a14、a25与a34,则将a12对应的两个音频帧的类别、a14对应的两个音频帧的类别、a25对应的两个音频帧的类别以及a34对应的两个音频帧的类别确定为第一类别。即第一类别中的音频帧包括音频帧1、音频帧2、音频帧3、音频帧4、音频帧5。若第三元素a12、a14、a25与a34的邻域内的元素均大于目标阈值,则至此确定出所有属于第一类别的音频帧。若存在第三元素a12、a14、a25与a34的邻域内的元素小于目标阈值,则将在第三元素邻域内且小于目标阈值的元素对应的两个音频帧的类别确定为第一类别,直到不存在属于第三元素邻域内且小于目标阈值的元素。由此,可确定出第一种子元素以及第一类别,并确定出属于第一类别的各个音频帧。
S103,获取距离矩阵包括的元素集合与第一集合之间的差集,第一集合包括第一种子元素和第一元素。
这里,差集是指两个集合之差,距离矩阵包括的元素集合与第一集合之间的差集是指属于距离矩阵包括的元素集合且不属于第一集合的元素。例如距离矩阵中包含a11、a12、a13…a1n的n个元素,其中第一集合包括8个元素为a11~a18,则距离矩阵包括的元素集合与第一集合之间的差集为a19~a1n的n-8个元素,即差集表示距离矩阵包括的元素集合中除去第一集合包括的元素以外的元素。
S104,从差集中确定出第二种子元素,以第二种子元素为区域生长的起点,将距离矩阵中满足区域生长条件的各个元素确定为第二元素,将第二元素中的各个元素对应的音频帧的类别确定为第二类别,将第二种子元素对应的音频帧的类别确定为第二类别。
具体实现中,在确定出第二种子元素的邻域内的第二元素之后,将第二元素中的各个元素对应的音频帧的类别确定为第二类别,并将第二种子元素对应的两个音频帧的类别确定为第二类别,则第二类别中的音频帧包括第二种子元素对应的两个音频帧和第二元素中的各个元素对应的音频帧。这里,第二种子元素映射到二维坐标系上的横纵坐标之间的绝对差值等于1,第二种子元素小于第一种子元素,第二种子元素对应的音频帧的类别为第二类别。可以参考步骤S102中从距离矩阵中确定第一种子元素以及第一类别的方法,从差集中确定出第二种子元素以及第二类别的步骤如下:
a、将差集中的元素映射到二维坐标系上,以得到差集中的元素对应的坐标点,一个元素对应一个坐标点,距离矩阵中第一个元素映射为二维坐标系的坐标原点,距离矩阵中每两个相邻元素映射到二维坐标系上的两个相邻坐标点之间的距离相等。
b、从差集中的元素对应的坐标点中确定出横纵坐标之间的绝对差值等于1的种子坐标点,并将种子坐标点对应的元素确定为第二种子元素。
c、将差集中属于第二种子元素的邻域内且小于目标阈值的元素确定为第二元素,并将第二元素中的每个元素对应的两个音频帧的类别确定为第二类别,直到距离矩阵中不存在属于第二种子元素的邻域内且小于目标阈值的元素。
d、将距离矩阵中属于第二元素中的每个元素的邻域内且小于目标阈值的元素确定为第五元素,并将第五元素中的每个元素对应的两个音频帧的类别确定为第二类别。
由此,通过上述步骤S104中步骤a~步骤d的方法可确定出第二种子元素以及第二类别,并确定出属于第二类别的各个音频帧。通过循环执行步骤S102~步骤S104,直到确定出距离矩阵中的所有种子元素以及属于种子元素的邻域内的元素为止。
在一种可能的情况下,在确定出距离矩阵中的所有种子元素以及种子元素的邻域内的元素后,距离矩阵中还存在映射到二维坐标系上的横纵坐标之间的绝对差值大于1的K个第四元素,且K个第四元素属于第一种子元素和第二种子元素的邻域外,则确定K个第四元素中每个元素对应的音频帧的类别,得到K个第三类别。其中,一个第四元素对应的音频帧的类别为一个第三类别,K为大于或等于1的正整数。
例如,确定出距离矩阵中的第一种子元素和第二种子元素后,距离矩阵中还存在3个第四元素分别为第四元素y1、第四元素y2、第四元素y3,且3个第四元素属于第一种子元素和第二种子元素的邻域外,则确定3个第四元素中每个元素对应的音频帧的类别,得到3个第三类别,即第三类别1、第三类别2、第三类别3,将第四元素y1对应的两个音频帧的类别确定为第三类别1、将第四元素y2对应的两个音频帧的类别确定为第三类别2、将第四元素y3对应的两个音频帧的类别确定为第三类别3。
本申请实施例是对距离矩阵的上三角中的元素进行查找从而确定出第一种子元素、第一元素、第二元素、第三元素、第二种子元素以及第四元素,等等,也可以对距离矩阵的下三角中的元素进行查找确定出第一种子元素、第一元素、第二元素、第三元素、第二种子元素以及第四元素,等等,且第一种子元素、第一元素、第二元素、第三元素、第二种子元素以及第四元素均不包括距离矩阵中主对角线上的元素,具体查找方法可参考在距离矩阵的上三角中的元素进行查找,此处不做过多说明。
在一种可能的情况下,在确定出目标音频数据包含的N个音频帧中每个音频帧的类别后,还可以根据N个音频帧中属于第一类别的各个音频帧、N个音频帧中属于第二类别的各个音频帧以及N个音频帧中属于K个第三类别中每个第三类别的音频帧的时间先后顺序生成目标音频数据对应的音频帧序列。
例如,K=3时,第一类别为类别A,第二类别为类别B、第三类别为类别C1、类别C2、类别C3,其中,类别A的各个音频帧的播放时间小于类别B的各个音频帧的播放时间、类别B的各个音频帧的播放时间小于类别C1的各个音频帧的播放时间、类别C1的各个音频帧的播放时间小于类别C2的各个音频帧的播放时间、类别C2的各个音频帧的播放时间小于类别C3的各个音频帧的播放时间,即生成目标音频数据对应的音频帧序列为(A,B,C1,C2,C3)。
本申请实施例中,通过获取目标音频数据对应的距离矩阵;从距离矩阵中确定出第一种子元素,以第一种子元素为区域生长的起点,将距离矩阵中满足区域生长条件的各个元素确定为第一元素,将第一元素中的各个元素对应的音频帧的类别确定为第一类别;获取距离矩阵包括的元素集合与第一集合之间的差集;从差集中确定出第二种子元素,以第二种子元素为区域生长的起点,将距离矩阵中满足区域生长条件的各个元素确定为第二元素,将第二元素中的各个元素对应的音频帧的类别确定为第二类别。在保留目标音频数据的所有音频帧信息的同时,通过将音频特征向量相似的各个音频帧确定为相同类别,在查找音频帧时,可以提高查找效率,通过区域生长的方法确定种子元素对应的元素,由于只需要在种子元素的邻域内进行查找满足条件的元素,无需对目标音频数据包括的每个音频帧进行查找,并对查找到的相似音频帧进行聚类,可以提高对音频帧的查找以及聚类效率。
在一种可能的实现方式中,在确定出N个音频帧中属于第一类别的各个音频帧、N个音频帧中属于第二类别的各个音频帧以及N个音频帧中属于K个第三类别中每个类别的各个音频帧后,还可以生成第一类别的类别标识、第二类别的类别标识以及K个第三类别中每个第三类别的类别标识,可以通过查找类别标识快速查找到与类别标识对应的类别,从而查找到属于该类别的各个音频帧。参见图8,图8是本申请实施例提供的另一种音频帧聚类方法的流程示意图,如图8所示,该方法包括如下步骤:
S201,获取目标音频数据对应的距离矩阵。
S202,从距离矩阵中确定出第一种子元素,以第一种子元素为区域生长的起点,将距离矩阵中满足区域生长条件的各个元素确定为第一元素,将第一元素中的各个元素对应的音频帧的类别确定为第一类别,将第一种子元素对应的音频帧的类别确定为第一类别。
S203,获取距离矩阵包括的元素集合与第一集合之间的差集,第一集合包括第一种子元素和第一元素。
S204,从差集中确定出第二种子元素,以第二种子元素为区域生长的起点,将距离矩阵中满足区域生长条件的各个元素确定为第二元素,将第二元素中的各个元素对应的音频帧的类别确定为第二类别,将第二种子元素对应的音频帧的类别确定为第二类别。
这里,步骤S201~S204的具体实现方式可参考图1对应的实施例中步骤S101~S104的描述,此处不再赘述。
S205,获取N个音频帧中属于第一类别的各个音频帧中播放时间最小的音频帧的第一帧号。
这里,由于N个音频帧中每个音频帧有对应的播放时间,则获取属于第一类别的各个音频帧中播放时间最小的音频帧的帧号,并将该音频帧的帧号确定为第一帧号。第一类别中的各个音频帧的播放时间是连续的。例如,属于第一类别的各个音频帧中播放时间最小的音频帧为第一类别中的第一个音频帧,即音频帧1,则第一帧号为1。
S206,获取N个音频帧中属于第一类别的各个音频帧中播放时间最大的音频帧的第二帧号。
同理,获取属于第一类别的各个音频帧中播放时间最大的音频帧的帧号,并将该音频帧的帧号确定为第二帧号。例如,属于第一类别的各个音频帧中播放时间最大的音频帧为第一类别中的第六个音频帧,即音频帧6,则第二帧号为6。
S207,计算N个音频帧中属于第一类别的各个音频帧对应的音频特征向量之间的均值。
这里,通过公式(1-1)可以计算n个音频帧对应的音频特征向量之间的均值
Figure BDA0002458235290000161
Figure BDA0002458235290000162
其中,n为音频帧的数量,(x1,y1,z1)表示第一个音频帧对应的音频特征向量,(x2,y2,z2)表示第二个音频帧对应的音频特征向量,(xn,yn,zn)表示第n个音频帧对应的音频特征向量,等等。
可知,在第一帧号为1且第二帧号为6的情况下,由于第一类别中的各个音频帧的播放时间是连续的,则第一类别中的音频帧的数量为6个,例如6个音频帧对应的音频特征向量分别为(1,1,1)、(2,2,2)、(3,3,3)、(7,7,7)、(8,8,8)、(9,9,9),
则计算出的均值为:
Figure BDA0002458235290000171
S208,根据第一帧号、第二帧号以及N个音频帧中属于第一类别的各个音频帧对应的音频特征向量之间的均值,生成第一类别的类别标识。
这里,第一类别的类别标识包括第一帧号、第二帧号以及N个音频帧中属于第一类别的各个音频帧对应的音频特征向量之间的均值。第一类别的类别标识用于唯一地指示第一类别,即用于唯一地指示第一类别的各个音频帧的类别。例如第一类别的类别标识可以为第一类别的拼音、第一类别的缩写、第一类别的唯一编号、或者由第一类别的各个音频帧中播放时间最小的音频帧的帧号、播放时间最大的音频帧的帧号以及各个音频帧对应的音频特征向量之间的均值构成。例如,根据第一帧号、第二帧号以及N个音频帧中属于第一类别的各个音频帧对应的音频特征向量之间的均值生成的第一类别的类别标识为一个三元组[1,6,(5,5,5)]。
可选地,还可参考步骤S205~步骤S208的方法确定第二类别的类别标识以及K个第三类别中每个第三类别的类别标识。
例如,确定出第二类别的类别标识为[7,15,(6,6,6)]。假设K等于1,确定出第三类别的类别标识为[16,17,(7,7,7)],则目标音频数据对应的音频帧序列可以为{[1,6,(5,5,5)],[7,15,(6,6,6)],[16,17,(7,7,7)]}。
本申请实施例中,通过生成音频帧对应的类别的类别标识,在后续查找音频帧时,可以通过查找类别标识快速查找到与类别标识对应的类别,从而查找到属于该类别的各个音频帧;例如需要对目标音频数据中起始部分或者结束部分的音频帧进行特征分析时,可以通过查找类别标识中的音频帧号确定播放时间最小的音频帧或者播放时间最大的音频帧,等等,从而提高对音频帧的查找效率。
上面介绍了本申请实施例的方法,下面介绍本申请实施例的装置。
参见图9,图9是本申请实施例提供的一种音频帧聚类装置的组成结构示意图,该装置90包括:
矩阵获取模块901,用于获取目标音频数据对应的距离矩阵,该目标音频数据包括N个音频帧,该距离矩阵为对称矩阵,该距离矩阵中位于主对角线上的元素为0,该距离矩阵中除位于主对角线上的元素外的其他元素用于表示该N个音频帧中每两个音频帧对应的音频特征向量之间的距离,该N为大于或等于2的正整数;
第一确定模块902,用于从该距离矩阵中确定出第一种子元素,以该第一种子元素为区域生长的起点,将该距离矩阵中满足区域生长条件的各个元素确定为第一元素,将该第一元素中的各个元素对应的音频帧的类别确定为第一类别,将该第一种子元素对应的音频帧的类别确定为该第一类别,该第一种子元素映射到二维坐标系上的横纵坐标之间的绝对差值等于1;
差集获取模块903,用于获取该距离矩阵包括的元素集合与第一集合之间的差集,该第一集合包括该第一种子元素和该第一元素;
第二确定模块904,用于从该差集中确定出第二种子元素,以该第二种子元素为区域生长的起点,将该距离矩阵中满足该区域生长条件的各个元素确定为第二元素,将该第二元素中的各个元素对应的音频帧的类别确定为第二类别,将该第二种子元素对应的音频帧的类别确定为该第二类别,该第二种子元素映射到该二维坐标系上的横纵坐标之间的绝对差值等于1,该第二种子元素小于该第一种子元素。
在一种可能的设计中,该距离矩阵包括N*N个元素,该第一确定模块902,具体用于:
将该距离矩阵中的N*N个元素映射到该二维坐标系上,以得到该距离矩阵中N*N个元素对应的N*N个坐标点,一个元素对应一个坐标点,该距离矩阵中第一个元素映射为该二维坐标系的坐标原点,该距离矩阵中每两个相邻元素映射到该二维坐标系上的两个相邻坐标点之间的距离相等;
从该N*N个坐标点中确定出横纵坐标之间的绝对差值等于1的种子坐标点,并将该种子坐标点对应的元素确定为该第一种子元素;
将该距离矩阵中属于该第一种子元素的邻域内且小于目标阈值的元素确定为该第一元素,并将该第一元素中的每个元素对应的两个音频帧的类别确定为该第一类别,直到该距离矩阵中不存在属于该第一种子元素的邻域内且小于该目标阈值的元素;
将该距离矩阵中属于该第一元素中的每个元素的邻域内且小于该目标阈值的元素确定为第三元素,并将该第三元素中的每个元素对应的两个音频帧的类别确定为该第一类别。
在一种可能的设计中,该装置还包括:
第三确定模块905,用于若该距离矩阵中存在映射到该二维坐标系上的横纵坐标之间的绝对差值大于1的K个第四元素,且该K个第四元素属于该第一种子元素和该第二种子元素的邻域外,则确定该K个第四元素中每个第四元素对应的音频帧的类别,得到K个第三类别,一个第四元素对应的音频帧的类别为一个第三类别,该K为大于或等于1的正整数。
在一种可能的设计中,该装置还包括:
序列确定模块906,用于根据该N个音频帧中属于第一类别的各个音频帧、属于该第二类别的各个音频帧以及属于该K个第三类别中每个第三类别的音频帧的时间先后顺序生成该目标音频数据对应的音频帧序列。
在一种可能的设计中,该装置还包括:
标识确定模块907,用于获取该N个音频帧中属于该第一类别的各个音频帧中播放时间最小的音频帧的第一帧号;
获取该N个音频帧中属于该第一类别的各个音频帧中播放时间最大的音频帧的第二帧号;
计算该N个音频帧中属于该第一类别的各个音频帧对应的音频特征向量之间的均值;
根据该第一帧号、该第二帧号以及该均值,生成该第一类别的类别标识,该第一类别的类别标识包括该第一帧号、该第二帧号以及该均值。
在一种可能的设计中,该距离矩阵中的元素aij为该N个音频帧中第i个音频帧对应的音频特征向量与第j个音频帧的音频特征向量之间的相似距离,其中i和j为大于0且小于或等于N的正整数。
在一种可能的设计中,该装置还包括:
矩阵构建模块908,用于将该目标音频数据划分为该N个音频帧;
获取该N个音频帧中每个音频帧的音频特征向量,得到N个音频特征向量,该音频特征向量为梅尔频谱特征向量;
计算该N个音频特征向量中每两个音频特征向量之间的相似距离,得到N*(N-1)个距离值;
根据该N*(N-1)个距离值构建主对角线为0的对称矩阵,并将该对称矩阵确定为该距离矩阵。
需要说明的是,图9对应的实施例中未提及的内容可参见方法实施例的描述,这里不再赘述。
本申请实施例中,音频帧聚类装置在保留目标音频数据的所有音频帧信息的同时,通过将音频特征向量相似的各个音频帧确定为相同类别,在查找音频帧时,可以提高查找效率,通过区域生长的方法确定种子元素对应的元素,由于只需要在种子元素的邻域内进行查找满足条件的元素,无需对目标音频数据包括的每个音频帧进行查找,并对查找到的相似音频帧进行聚类,可以提高对音频帧的查找以及聚类效率。通过生成音频帧对应的类别的类别标识,在后续查找音频帧时,可以通过查找类别标识快速查找到与类别标识对应的类别,从而查找到属于该类别的各个音频帧;例如需要对目标音频数据中起始部分或者结束部分的音频帧进行特征分析时,可以通过查找类别标识中的音频帧号确定播放时间最小的音频帧或者播放时间音频帧,等等,从而提高对音频帧的查找效率。
参见图10,图10是本申请实施例提供的一种电子设备的组成结构示意图,该设备100包括处理器1001、存储器1002以及输入输出接口1003。处理器1001连接到存储器1002和输入输出接口1003,例如处理器1001可以通过总线连接到存储器1002和输入输出接口1003。
处理器1001被配置为支持该电子聚类设备执行图1、图3-图4或图8的音频帧聚类方法中相应的功能。该处理器1001可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP),硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
存储器1002用于存储程序代码等。存储器1002可以包括易失性存储器(volatilememory,VM),例如随机存取存储器(random access memory,RAM);存储器1002也可以包括非易失性存储器(non-volatile memory,NVM),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-statedrive,SSD);存储器1002还可以包括上述种类的存储器的组合。
该输入输出接口1003用于输入或输出数据。
处理器1001可以调用该程序代码以执行以下操作:
获取目标音频数据对应的距离矩阵,该目标音频数据包括N个音频帧,该距离矩阵为对称矩阵,该距离矩阵中位于主对角线上的元素为0,该距离矩阵中除位于主对角线上的元素外的其他元素用于表示该N个音频帧中每两个音频帧对应的音频特征向量之间的距离,该N为大于或等于2的正整数;
从该距离矩阵中确定出第一种子元素,以该第一种子元素为区域生长的起点,将该距离矩阵中满足区域生长条件的各个元素确定为第一元素,将该第一元素中的各个元素对应的音频帧的类别确定为第一类别,将所述第一种子元素对应的音频帧的类别确定为所述第一类别,该第一种子元素映射到二维坐标系上的横纵坐标之间的绝对差值等于1;
获取该距离矩阵包括的元素集合与第一集合之间的差集,该第一集合包括该第一种子元素和该第一元素;
从该差集中确定出第二种子元素,以该第二种子元素为区域生长的起点,将该距离矩阵中满足该区域生长条件的各个元素确定为第二元素,将该第二元素中的各个元素对应的音频帧的类别确定为第二类别,将该第二种子元素对应的音频帧的类别确定为该第二类别,该第二种子元素映射到该二维坐标系上的横纵坐标之间的绝对差值等于1,该第二种子元素小于该第一种子元素。
需要说明的是,各个操作的实现还可以对应参照上述方法实施例的相应描述;该处理器1001还可以与输入输出接口1003配合执行上述方法实施例中的其他操作。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被计算机执行时使该计算机执行如前述实施例该的方法,该计算机可以为上述提到的电子设备的一部分。例如为上述的处理器1001。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种音频帧聚类方法,其特征在于,包括:
获取目标音频数据对应的距离矩阵,所述目标音频数据包括N个音频帧,所述距离矩阵为对称矩阵,所述距离矩阵中位于主对角线上的元素为0,所述距离矩阵中除位于主对角线上的元素外的其他元素用于表示所述N个音频帧中每两个音频帧对应的音频特征向量之间的距离,所述N为大于或等于2的正整数;
从所述距离矩阵中确定出第一种子元素,以所述第一种子元素为区域生长的起点,将所述距离矩阵中满足区域生长条件的各个元素确定为第一元素,将所述第一元素中的各个元素对应的音频帧的类别确定为第一类别,以及将所述第一种子元素对应的音频帧的类别确定为所述第一类别,所述第一种子元素映射到二维坐标系上的横纵坐标之间的绝对差值等于1;
获取所述距离矩阵包括的元素集合与第一集合之间的差集,所述第一集合包括所述第一种子元素和所述第一元素;
从所述差集中确定出第二种子元素,以所述第二种子元素为区域生长的起点,将所述距离矩阵中满足所述区域生长条件的各个元素确定为第二元素,将所述第二元素中的各个元素对应的音频帧的类别确定为第二类别,以及将所述第二种子元素对应的音频帧的类别确定为所述第二类别,所述第二种子元素映射到所述二维坐标系上的横纵坐标之间的绝对差值等于1,所述第二种子元素小于所述第一种子元素。
2.根据权利要求1所述的方法,其特征在于,所述距离矩阵包括N*N个元素,所述从所述距离矩阵中确定出第一种子元素,以所述第一种子元素为区域生长的起点,将所述距离矩阵中满足区域生长条件的各个元素确定为第一元素,将所述第一元素中的各个元素对应的音频帧的类别确定为第一类别,包括:
将所述距离矩阵中的N*N个元素映射到所述二维坐标系上,以得到所述距离矩阵中N*N个元素对应的N*N个坐标点,一个元素对应一个坐标点,所述距离矩阵中第一个元素映射为所述二维坐标系的坐标原点,所述距离矩阵中每两个相邻元素映射到所述二维坐标系上的两个相邻坐标点之间的距离相等;
从所述N*N个坐标点中确定出横纵坐标之间的绝对差值等于1的种子坐标点,并将所述种子坐标点对应的元素确定为所述第一种子元素;
将所述距离矩阵中属于所述第一种子元素的邻域内且小于目标阈值的元素确定为所述第一元素,并将所述第一元素中的每个元素对应的两个音频帧的类别确定为所述第一类别,直到所述距离矩阵中不存在属于所述第一种子元素的邻域内且小于所述目标阈值的元素;
将所述距离矩阵中属于所述第一元素中的每个元素的邻域内且小于所述目标阈值的元素确定为第三元素,并将所述第三元素中的每个元素对应的两个音频帧的类别确定为所述第一类别。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述距离矩阵中存在映射到所述二维坐标系上的横纵坐标之间的绝对差值大于1的K个第四元素,且所述K个第四元素属于所述第一种子元素和所述第二种子元素的邻域外,则确定所述K个第四元素中每个第四元素对应的音频帧的类别,得到K个第三类别,一个第四元素对应的音频帧的类别为一个第三类别,所述K为大于或等于1的正整数。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述N个音频帧中属于第一类别的各个音频帧、属于所述第二类别的各个音频帧以及属于所述K个第三类别中每个第三类别的音频帧的时间先后顺序生成所述目标音频数据对应的音频帧序列。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述N个音频帧中属于所述第一类别的各个音频帧中播放时间最小的音频帧的第一帧号;
获取所述N个音频帧中属于所述第一类别的各个音频帧中播放时间最大的音频帧的第二帧号;
计算所述N个音频帧中属于所述第一类别的各个音频帧对应的音频特征向量之间的均值;
根据所述第一帧号、所述第二帧号以及所述均值,生成所述第一类别的类别标识,所述第一类别的类别标识包括所述第一帧号、所述第二帧号以及所述均值。
6.根据权利要求1所述的方法,其特征在于,所述距离矩阵中的元素aij为所述N个音频帧中第i个音频帧对应的音频特征向量与第j个音频帧的音频特征向量之间的相似距离,其中i和j为大于0且小于或等于N的正整数。
7.根据权利要求1所述的方法,其特征在于,所述获取目标音频数据对应的距离矩阵之前,还包括:
将所述目标音频数据划分为所述N个音频帧;
获取所述N个音频帧中每个音频帧的音频特征向量,得到N个音频特征向量,所述音频特征向量为梅尔频谱特征向量;
计算所述N个音频特征向量中每两个音频特征向量之间的相似距离,得到N*(N-1)个距离值;
根据所述N*(N-1)个距离值构建主对角线为0的对称矩阵,并将所述对称矩阵确定为所述距离矩阵。
8.一种音频帧聚类装置,其特征在于,包括:
矩阵获取模块,用于获取目标音频数据对应的距离矩阵,所述目标音频数据包括N个音频帧,所述距离矩阵为对称矩阵,所述距离矩阵中位于主对角线上的元素为0,所述距离矩阵中除位于主对角线上的元素外的其他元素用于表示所述N个音频帧中每两个音频帧对应的音频特征向量之间的距离,所述N为大于或等于2的正整数;
第一确定模块,用于从所述距离矩阵中确定出第一种子元素,以所述第一种子元素为区域生长的起点,将所述距离矩阵中满足区域生长条件的各个元素确定为第一元素,将所述第一元素中的各个元素对应的音频帧的类别确定为第一类别,以及将所述第一种子元素对应的音频帧的类别确定为所述第一类别,所述第一种子元素映射到二维坐标系上的横纵坐标之间的绝对差值等于1;
差集获取模块,用于获取所述距离矩阵包括的元素集合与第一集合之间的差集,所述第一集合包括所述第一种子元素和所述第一元素;
第二确定模块,用于从所述差集中确定出第二种子元素,以所述第二种子元素为区域生长的起点,将所述距离矩阵中满足所述区域生长条件的各个元素确定为第二元素,将所述第二元素中的各个元素对应的音频帧的类别确定为第二类别,以及将所述第二种子元素对应的音频帧的类别确定为所述第二类别,所述第二种子元素映射到所述二维坐标系上的横纵坐标之间的绝对差值等于1,所述第二种子元素小于所述第一种子元素。
9.一种电子设备,其特征在于,包括处理器、存储器以及输入输出接口,所述处理器、存储器和输入输出接口相互连接,其中,所述输入输出接口用于输入或输出数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202010314785.5A 2020-04-20 2020-04-20 音频帧聚类方法、装置及设备 Active CN111506766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010314785.5A CN111506766B (zh) 2020-04-20 2020-04-20 音频帧聚类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010314785.5A CN111506766B (zh) 2020-04-20 2020-04-20 音频帧聚类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111506766A true CN111506766A (zh) 2020-08-07
CN111506766B CN111506766B (zh) 2023-03-10

Family

ID=71864141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010314785.5A Active CN111506766B (zh) 2020-04-20 2020-04-20 音频帧聚类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111506766B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103259979A (zh) * 2012-02-17 2013-08-21 株式会社东芝 用于校正语音的设备和方法
CN105161116A (zh) * 2015-09-25 2015-12-16 广州酷狗计算机科技有限公司 多媒体文件高潮片段的确定方法及装置
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN107293308A (zh) * 2016-04-01 2017-10-24 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN107680584A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN110288025A (zh) * 2019-06-25 2019-09-27 广东工业大学 基于信息几何与谱聚类的频谱感知方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103259979A (zh) * 2012-02-17 2013-08-21 株式会社东芝 用于校正语音的设备和方法
CN105161116A (zh) * 2015-09-25 2015-12-16 广州酷狗计算机科技有限公司 多媒体文件高潮片段的确定方法及装置
CN107293308A (zh) * 2016-04-01 2017-10-24 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN107680584A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN110288025A (zh) * 2019-06-25 2019-09-27 广东工业大学 基于信息几何与谱聚类的频谱感知方法、装置及设备

Also Published As

Publication number Publication date
CN111506766B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN111444363B (zh) 一种图片检索方法、装置、终端设备及存储介质
JP5861539B2 (ja) 複数の画像の記述的情報を取得する方法及び装置、並びに画像マッチング方法
WO2018121531A1 (zh) 一种生成测试用例脚本的方法和装置
CN106156755A (zh) 一种人脸识别中的相似度计算方法及系统
CN110895533B (zh) 一种表单映射方法、装置、计算机设备和存储介质
CN105447190A (zh) 基于卷积神经网络的图片检索方法、装置和服务器
CN109978006B (zh) 人脸图像的聚类方法和装置
CN112825199B (zh) 碰撞检测方法、装置、设备及存储介质
CN111081276A (zh) 音频段的匹配方法、装置、设备及可读存储介质
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
WO2022007596A1 (zh) 图像检索系统、方法和装置
CN111506766B (zh) 音频帧聚类方法、装置及设备
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
CN114463551A (zh) 图像处理方法、装置、存储介质及电子设备
US11322156B2 (en) Features search and selection techniques for speaker and speech recognition
CN110209895B (zh) 向量检索方法、装置和设备
CN111459937A (zh) 数据表关联方法、装置、服务器及存储介质
CN115409070A (zh) 离散数据序列临界点的确定方法、装置以及设备
CN115292303A (zh) 数据处理方法及装置
US20160275169A1 (en) System and method of generating initial cluster centroids
CN110807115B (zh) 人脸检索方法、装置、及存储装置
CN115512143A (zh) 图像聚类方法、图像增量聚类方法、计算机设备及介质
CN111460325B (zh) Poi搜索方法、装置与设备
CN116681767B (zh) 一种点云搜索方法、装置及终端设备
US20240330260A1 (en) Retrieval apparatus, methods, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant