[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2023246496A1 - 音频节奏检测方法、智能灯具、装置、电子设备及介质 - Google Patents

音频节奏检测方法、智能灯具、装置、电子设备及介质 Download PDF

Info

Publication number
WO2023246496A1
WO2023246496A1 PCT/CN2023/098467 CN2023098467W WO2023246496A1 WO 2023246496 A1 WO2023246496 A1 WO 2023246496A1 CN 2023098467 W CN2023098467 W CN 2023098467W WO 2023246496 A1 WO2023246496 A1 WO 2023246496A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature point
point
feature
audio
current
Prior art date
Application number
PCT/CN2023/098467
Other languages
English (en)
French (fr)
Inventor
宋祥宗
吴文龙
Original Assignee
深圳市智岩科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市智岩科技有限公司 filed Critical 深圳市智岩科技有限公司
Publication of WO2023246496A1 publication Critical patent/WO2023246496A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Definitions

  • the audio signal is usually analyzed in the frequency domain and a differential rhythm algorithm is used at the same time.
  • This approach has several defects: the first is to process in the frequency domain, which requires additional consumption. memory and running time; the second is that in the case of dense rhythm and continuous triggering, the differential operation will lose part of the rhythm; the third is continuous differential operation, so that multiple detections will be made during one rise of the audio signal. Rhythm.
  • this application provides an audio rhythm detection method, smart lamps, devices, electronic equipment and media, which can improve detection efficiency, reduce memory usage, and reduce misjudgments and missed determinations.
  • the first aspect of the embodiments of the present application provides an audio rhythm detection method.
  • the method includes: determining multiple feature points of the audio signal to be detected in the time domain, wherein the feature points carry time points and feature values, so The characteristic value represents the intensity of the audio signal to be detected at the time point; if the current characteristic point among the plurality of characteristic points is a peak point, then the search distance is The current feature point is the nearest historical feature point and is the trough point; according to the first feature value of the current feature point and the second feature value of the historical feature point, the evaluation value corresponding to the current feature point is determined, where, The evaluation value corresponding to the current feature point represents the degree of jump of the current feature point relative to the historical feature point; according to the evaluation value corresponding to the current feature point, it is determined whether the current feature point is the The rhythm point of the audio signal to be detected.
  • a second aspect of the embodiment of the present application provides an intelligent lamp.
  • the intelligent lamp includes a lamp effect control module and a plurality of lamp modules.
  • the lamp effect control module is connected to a plurality of the lamp modules.
  • the lamp effect control module is To implement the above audio rhythm detection method.
  • the third aspect of the embodiment of the present application provides an audio rhythm detection device.
  • the audio rhythm detection device includes: a feature point determination module, used to determine multiple feature points of the audio signal to be detected in the time domain, wherein the feature Points carry time points and feature values, and the feature values represent the intensity of the audio signal to be detected at the time point; a search module, connected to the feature point determination module, is used to determine the feature points at multiple feature points.
  • the current feature point in is a peak point, search for the historical feature point that is closest to the current feature point and is a trough point;
  • the evaluation value determination module is connected to the search module and is used to determine the first value of the current feature point based on the current feature point.
  • the characteristic value and the second characteristic value of the historical feature point determine the evaluation value corresponding to the current feature point, wherein the evaluation value corresponding to the current feature point represents the relative relationship between the current feature point and the historical feature point. degree of jump; a rhythm point determination module, connected to the evaluation value determination module, used to determine whether the current feature point is the rhythm of the audio signal to be detected based on the evaluation value corresponding to the current feature point point.
  • a fourth aspect of the embodiment of the present application provides an electronic device.
  • the electronic device includes a processor and a memory.
  • the processor is coupled to the memory.
  • Program data is stored in the memory.
  • the processor executes the The program data in the memory is used to implement the steps in the above method.
  • the fifth aspect of the embodiment of the present application provides a computer-readable storage medium, the computer-readable storage medium stores a computer program, and the computer program can be executed by a processor to implement the steps in the above method.
  • the audio rhythm detection method of the present application uses the relative jump degree of the current feature point to the historical feature point that is closest to it and is a trough point. To determine whether the current feature point is the rhythm point of the audio signal to be detected, on the one hand, only one judgment will be made during a rising jump, which is consistent with the actual situation. On the other hand, missed detection can be avoided, thereby improving the accuracy of detection.
  • the audio rhythm detection method of this application is mainly based on the time domain processing of the audio signal to be detected, which can reduce memory usage and running time and improve detection efficiency.
  • Figure 1 is a schematic flow chart of an embodiment of the audio rhythm detection method of the present application.
  • FIG. 2 is a schematic flow chart of step S110 in Figure 1;
  • FIG. 4 is a schematic flow chart of step S113 in Figure 2;
  • Figure 5 is a schematic diagram of multiple feature points of the audio signal to be detected
  • Figure 7 is a schematic structural diagram of an embodiment of the audio rhythm detection device of the present application.
  • Figure 8 is a schematic structural diagram of an embodiment of the electronic device of the present application.
  • Figure 9 is a schematic structural diagram of an embodiment of a computer-readable storage medium of the present application.
  • the audio rhythm detection method in this application can be applied to lighting effect control, speech recognition front-end processing and other fields.
  • the application scenarios include families, concerts, KTV and other scenarios that require audio interaction. For example, after determining the rhythm point of the audio signal to be detected, the lighting effect is controlled based on the information of the rhythm point.
  • FIG. 1 is a schematic flow chart of an embodiment of the audio rhythm detection method of the present application.
  • the audio rhythm detection method includes:
  • the time domain of the audio signal to be detected shows the change of the audio intensity of the audio signal to be detected with time.
  • the multiple feature points in the time domain determined in step S110 each carry a time point and a feature value.
  • the feature value carried by the feature point represents the audio signal to be detected at the time point carried by the feature point.
  • step S110 specifically includes:
  • the overlapping segmentation method can be used for frame processing.
  • the length of each audio frame is N
  • the overlapping part of two adjacent audio frames (for example, the k-th frame and the k+1-th frame in Figure 3) is called the frame shift, and its length is M
  • the frame shift is M/N
  • M/N the overlapping part of two adjacent audio frames
  • the process of frame processing the audio signal to be detected in the time domain or frequency domain belongs to the existing technology and will not be described in detail here.
  • each audio frame corresponds to a time period, and this time period is the time period in which the audio frame is located in the audio signal to be detected.
  • each feature point After determining the time point of the feature point corresponding to each audio frame, each feature point will be determined later.
  • the feature values carried by the feature points are still taking the above five audio frames as an example. If it is subsequently determined that the feature values carried by the feature points corresponding to these five audio frames are A, B, C, D and E, then in the X direction In the coordinate system that represents time and the Y direction represents audio intensity, these five can be determined according to the coordinates (0, A), (16, B), (32, C), (48, D) and (64, E). The position of the corresponding feature point of each audio frame.
  • a characteristic value corresponding to each audio frame is determined based on the overall intensity of each audio frame.
  • the characteristic value of each audio frame represents the overall intensity of the audio frame.
  • step S1132 specifically includes: determining the sum of the absolute values of the sampling values of multiple sampling points; determining the ratio of the sum of the absolute values to the number of multiple sampling points to obtain the features carried by the feature points corresponding to the audio frame. value. That is, first determine the absolute values of the sample values corresponding to all sampling points, and then determine the average of the absolute values, thereby obtaining the feature values carried by the feature points corresponding to the audio frame.
  • the historical feature point is a trough point.
  • feature point 2 is all peak points
  • feature point 7 and feature point 8 are all trough points.
  • the current feature point in step S120 refers to the feature point that currently needs to be detected. If the current feature point is detected and determined to be a peak point, then the latest feature point that is a trough point before the current feature point is searched, that is, The historical feature point that is closest to the current feature point and is a trough point; and if the current feature point is detected and determined to be not a peak point, it cannot be a rhythm point, and there is no need to perform subsequent steps.
  • S130 Determine the evaluation value corresponding to the current feature point based on the first feature value of the current feature point and the second feature value of the historical feature point, where the evaluation value corresponding to the current feature point represents the jump of the current feature point relative to the historical feature point. degree.
  • the jump of the current feature point relative to the historical feature point can be determined based on the first feature value of the current feature point and the second feature value of the historical feature point. Degree, that is, determining the evaluation value corresponding to the current feature point.
  • the difference between the first feature value and the second feature value is determined, that is, the difference between the peak value corresponding to the current feature point and the trough value corresponding to the historical feature point, and then the difference is used to represent the current feature point relative to the historical feature point. degree of jump.
  • the difference between the first characteristic value and the second characteristic value is defined as the peak-to-peak value.
  • the evaluation value corresponding to the current feature point meets the preset requirements, it is determined that the degree of jump of the current feature point relative to the historical feature point meets the jump requirement, and then the current feature is determined
  • the point is the rhythm point of the audio signal to be detected, otherwise it is definitely not a rhythm point.
  • step S140 specifically includes: in response to the evaluation value corresponding to the current feature point being greater than the threshold corresponding to the current feature point, determining that the current feature point is a rhythm point, otherwise determining that the current feature point is not a rhythm point.
  • the evaluation value corresponding to the current feature point is greater than the threshold corresponding to the current feature point, it means that there is an obvious jump at the current feature point, which further indicates that the current feature point is a rhythm point, otherwise it means that the current feature point is not a rhythm point.
  • the threshold corresponding to the current feature point is a fixed threshold, designed by the designer. At this time, the current feature points are different, but the corresponding thresholds are the same.
  • the threshold value corresponding to the current feature point is related to the second feature value of the historical feature point, that is, the threshold value of the current feature point is determined based on the second feature value of the historical feature point, for example, the second feature value of the historical feature point is determined to be consistent with the predicted Set the product of the proportions to obtain the threshold corresponding to the current feature point.
  • the preset proportion can be set by the designer according to actual needs, for example, it can be 20%, 40% or 60%. It can be understood that when the threshold of the current feature point is determined based on the second feature value of the historical feature point, the threshold is a dynamically changing value, and the corresponding threshold may be different depending on the current feature point.
  • this application does not limit the specific process of determining the threshold corresponding to the current feature point.
  • the condition for judging rhythm points by the differential rhythm algorithm in the related art is that if the characteristic value of a feature point A is greater than the characteristic values of three consecutive historical feature points before it, then the feature point A is determined to be a rhythm point.
  • both feature points 1 and 2 may be judged as rhythm points. At this time, two rhythm points are obtained during a rising jump, which is obviously unreasonable.
  • feature point 5 and feature point 6 in Figure 5 they are ignored because they do not meet the judgment conditions.
  • multiple lamp modules 220 are connected in series, and the lighting effect control module 210 can also be connected in series with multiple lamp modules 220 .
  • the feature point determination module 310, the search module 320, the evaluation value determination module 330 and the rhythm point determination module 340 cooperate with each other to implement the steps in the audio rhythm detection method in any of the above embodiments, where the detailed method steps Reference may be made to the above embodiments, which will not be described again here.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

一种音频节奏检测方法包括:确定待检测音频信号在时域上的多个特征点;若多个特征点中的当前特征点是波峰点,则查找距离当前特征点最近且为波谷点的历史特征点;确定当前特征点对应的评估值,其中,当前特征点对应的评估值表征当前特征点相对历史特征点的跳变程度;确定当前特征点是否是待检测音频信号的节奏点。

Description

音频节奏检测方法、智能灯具、装置、电子设备及介质
相关申请的交叉引用
本申请要求于2022年6月23日提交中国专利局的申请号为CN202210733654.X、名称为“音频节奏检测方法、智能灯具、装置、电子设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及音频数据处理技术领域,特别是涉及一种音频节奏检测方法、智能灯具、装置、电子设备及介质。
背景技术
相关技术中,为了检测音频信号的节奏点,通常对音频信号作频域分析,同时利用差分节奏算法,这种做法存在几下几种缺陷:第一种是在频域进行处理,需要消耗额外的内存和运行时间;第二种是在节奏密集且连续触发的情况下,差分运算会丢失部分节奏;第三种是连续的差分运算,使得在音频信号的一次上升过程中会多个检测到节奏。
因此为了避免上述缺陷,亟需一种新的节奏检测算法。
发明内容
鉴于上述问题,本申请提供一种音频节奏检测方法、智能灯具、装置、电子设备及介质,能够提高检测效率,减少内存占用,降低误判以及漏判。
本申请实施例第一方面提供一种音频节奏检测方法,所述方法包括:确定待检测音频信号在时域上的多个特征点,其中,所述特征点携带有时间点和特征值,所述特征值表征所述待检测音频信号在所述时间点处的强度;若多个所述特征点中的当前特征点是波峰点,则查找距离所述 当前特征点最近且为波谷点的历史特征点;根据所述当前特征点的第一特征值与所述历史特征点的第二特征值,确定所述当前特征点对应的评估值,其中,所述当前特征点对应的所述评估值表征所述当前特征点相对所述历史特征点的跳变程度;根据所述当前特征点对应的所述评估值,确定所述当前特征点是否是所述待检测音频信号的节奏点。
本申请实施例第二方面提供一种智能灯具,所述智能灯具包括灯效控制模块和多个灯模块,所述灯效控制模块与多个所述灯模块连接,所述灯效控制模块用于执行上述音频节奏检测方法。
本申请实施例第三方面提供一种音频节奏检测装置,所述音频节奏检测装置包括:特征点确定模块,用于确定待检测音频信号在时域上的多个特征点,其中,所述特征点携带有时间点和特征值,所述特征值表征所述待检测音频信号在所述时间点处的强度;查找模块,与所述特征点确定模块连接,用于在多个所述特征点中的当前特征点是波峰点时,查找距离所述当前特征点最近且为波谷点的历史特征点;评估值确定模块,与所述查找模块连接,用于根据所述当前特征点的第一特征值与所述历史特征点的第二特征值,确定所述当前特征点对应的评估值,其中,所述当前特征点对应的所述评估值表征所述当前特征点相对所述历史特征点的跳变程度;节奏点确定模块,与所述评估值确定模块连接,用于根据所述当前特征点对应的所述评估值,确定所述当前特征点是否是所述待检测音频信号的节奏点。
本申请实施例第四方面提供一种电子设备,所述电子设备包括处理器以及存储器,所述处理器耦接所述存储器,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现上述方法中的步骤。
本申请实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被处理器执行以实现上述方法中的步骤。
有益效果是:本申请的音频节奏检测方法在当前特征点是波峰点时,根据当前特征点相对距离其最近且为波谷点的历史特征点的跳变程度, 确定当前特征点是否是待检测音频信号的节奏点,一方面在一次上升跳变过程中只会进行一次判断,符合实际情况,另一方面可以避免漏检,从而可以提高检测的准确率,另外本申请的音频节奏检测方法主要基于待检测音频信号的时域进行处理,可以减少内存占用以及运行时间,提高检测效率。
附图说明
图1是本申请音频节奏检测方法一实施方式的流程示意图;
图2是图1中步骤S110的流程示意图;
图3是待检测音频信号在时域上的示意图;
图4是图2中步骤S113的流程示意图;
图5是待检测音频信号的多个特征点的示意图;
图6是本申请智能灯具一实施方式的结构示意图;
图7是本申请音频节奏检测装置一实施方式的结构示意图;
图8是本申请电子设备一实施方式的结构示意图;
图9是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
其中本申请中的音频节奏检测方法可以应用于灯光效果控制、语音识别前端处理等领域,运用场景包括家庭、演唱会、KTV等需要音频互动的场景。例如,在确定待检测音频信号的节奏点后,根据节奏点的信息进行灯效的控制。
参阅图1,图1是本申请音频节奏检测方法一实施方式的流程示意图,该音频节奏检测方法包括:
S110:确定待检测音频信号在时域上的多个特征点。
待检测音频信号的时域展现的是待检测音频信号的音频强度随时间的变化。而步骤S110确定的时域上的多个特征点均各自携带有一个时间点和一个特征值,具体地,特征点携带的特征值表征的是待检测音频信号在该特征点携带的时间点处的强度。可以理解的是,因为特征值表征的是强度,所以特征值均为非负数。
参阅图2,在本实施方式中,步骤S110具体包括:
S111:获取待检测音频信号在时域上的多个音频帧。
在一应用场景中,当获取到的待检测音频信号处于时域时,对待音频信号直接进行分帧处理,得到多个处于时域上的音频帧。
在该应用场景中,为了保证相邻两个音频帧之间平滑过渡,保持音频帧的连续性,可以采用交叠分段的方法进行分帧处理,结合图3,此时在经过分帧处理后,每一个音频帧的长度均为N,相邻两个音频帧(例如图3中第k帧和第k+1帧)的交叠部分称为帧移,其长度为M,则帧移与帧长的比值为M/N,通常M/N取值范围为0~1/2。
在另一应用场景中,当获取到的待检测音频信号处于频域时,先对待检测音频信号先进行分帧处理,得到多个处于频域上的音频帧,然后再将多个处于频域上的音频帧从频域转换到时域,得到多个处于时域上的音频帧。
其中,对处于时域或者频域的待检测音频信号进行分帧处理的过程,均属于现有技术,在此不再详述。
S112:分别根据多个音频帧在待检测音频信号中所处的时间段,确定多个音频帧各自对应的特征点携带的时间点。
具体地,结合图3可知,在得到多个音频帧后,每个音频帧均对应一个时间段,该时间段为音频帧在待检测音频信号中所处的时间段。
然后分别根据每个音频帧所处的时间段,可以确定每个音频帧各自对应的一个时间点,例如,将音频帧所处的时间段的起点、终点或者处于起点、终点之间的任意一个时间点,确定为音频帧对应的一个时间点,该时间点即为音频帧对应的特征点携带的时间点。
例如,假设有5个音频帧,这5个音频帧所处的时间段分别为:0-32ms、16-48ms、32-64ms、48-80ms、64-96ms,若分别将这5个音频帧所处时间段的起点作为每个音频帧各自对应的特征点的时间点,则这5个音频帧所对应的特征点所携带的时间点分别为:0ms、16ms、32ms、48ms以及64ms。
在确定每个音频帧对应的特征点的时间点后,后续还会确定每个特 征点携带的特征值,依旧以上述5个音频帧为例,若后续确定这5个音频帧所对应的特征点所携带的特征值为A、B、C、D以及E,则在X方向代表时间,Y方向代表音频强度的坐标系中,分别根据坐标(0,A)、(16,B)、(32,C)、(48,D)以及(64,E)可以确定这5个音频帧各自对应的特征点的位置。
按照上述方案以此类推,可以确定待检测音频信号在时域上的多个特征点。
通常而言,若将一个音频帧所处时间段的起点作为该音频帧对应的特征点所携带的时间点,对于其他音频帧而言,也是将各个音频帧所处时间段的起点作为每个音频帧各自对应的特征点所携带的时间点,但是本申请并不限制于此,例如,若将一个音频帧所处时间段的起点作为该音频帧对应的特征点所携带的时间点,对于其他音频帧而言,可以是将音频帧所处时间段的终点作为音频帧各自对应的特征点所携带的时间点,也可以是将处于起点、终点之间的任意一个时间点作为音频帧对应的特征点所携带的时间点。只要保证,所处时间段早的音频帧对应的特征点所携带的时间点早于,所处时间段晚的音频帧对应的特征点所携带的时间点。
S113:分别根据多个音频帧的强度,确定多个音频帧各自对应的特征点携带的特征值。
具体地,在得到多个音频帧后,根据每个音频帧的整体强度,确定每个音频帧各自对应的一个特征值,每个音频帧各自的特征值表征音频帧的整体强度。
参阅图4,在本实施方式中,确定每个音频帧各自对应的特征点的特征值的步骤,包括:
S1131:在音频帧上,确定多个采样点。
具体地,按照预设的采样间隔对音频帧进行采样,得到多个采样点。例如,按照预设的采样间隔对音频帧进行采样,能够得到256个采样点。
S1132:根据多个采样点的采样值,确定音频帧对应的特征点携带的特征值。
可以理解的是,在得到多个采样点后,每个采样点的采样值的绝对值表征待检测音频信号在该采样点对应的采样时刻处的强度,因此根据音频帧对应的所有采样点的采样值,可以确定音频帧的整体强度,从而可以确定音频帧对应的特征点所携带的特征值。
在一应用场景中,步骤S1132具体包括:确定多个采样点的采样值的绝对值之和;确定绝对值之和与多个采样点数量的比值,得到音频帧对应的特征点所携带的特征值。即,先确定所有采样点对应的采样值的绝对值,然后再确定绝对值的平均值,从而得到音频帧对应的特征点所携带的特征值。
可以理解的是,对于多个音频帧分别执行步骤S1131-步骤S1132,可以确定每个音频帧对应的特征点携带的特征值。
需要说明的是,本申请对确定每个音频帧对应的特征点携带的特征值的过程不做具体限制,例如在一应用场景中,该过程还可以是:在确定音频帧对应的特征点所携带的时间点后,查找待检测音频信号在时域上对应该时间点的采样值,然后将该采样值的绝对值,确定为特征点所携带的特征值。总而言之,只要特征点所携带的特征值能够保证该特征点所对应的音频帧的整体强度即可。
S120:若多个特征点中的当前特征点是波峰点,则查找距离当前特征点最近且为波谷点的历史特征点。
其中在得到多个特征点后,对于每个特征点而言,可以确定其是波峰点,还是波谷点,该过程如下:
如果一个特征点,其对应的特征值大于相邻的前一个特征点的特征值和相邻的后一个特征点的特征值,则该特征点是波峰点;
而如果一个特征点,其对应的特征值小于相邻的前一个特征点的特征值和相邻的后一个特征点的特征值,则该特征点是波谷点。
也就是说,如果当前特征点的第一特征值同时大于当前特征点相邻的前一个特征点的特征值以及当前特征点相邻的后一个特征点的特征值,则确定当前特征点是波峰点。
以及,如果历史特征点的第二特征值同时小于历史特征点相邻的前 一个特征点的特征值以及历史特征点相邻的后一个特征点的特征值,则确定历史特征点是波谷点。
例如在图5中,特征点2、特征点4、特征点5、特征点6均是波峰点,特征点7和特征点8均是波谷点。
其中,步骤S120中的当前特征点指的是当前需要检测的特征点,而如果当前特征点经过检测后,确定其是波峰点,则查找在当前特征点之前最新为波谷点的特征点,即距离当前特征点最近且为波谷点的历史特征点;而如果当前特征点经过检测后,确定其不是波峰点,则其也不可能是节奏点,则无需执行后续步骤。
S130:根据当前特征点的第一特征值与历史特征点的第二特征值,确定当前特征点对应的评估值,其中,当前特征点对应的评估值表征当前特征点相对历史特征点的跳变程度。
在查找到距离当前特征点最近且为波谷点的历史特征点后,根据当前特征点的第一特征值和该历史特征点的第二特征值,可以确定当前特征点相对历史特征点的跳变程度,即确定当前特征点对应的评估值。
在一应用场景中,步骤S140具体包括:确定第一特征值与第二特征值的差值,得到当前特征点对应的评估值。
具体地,确定第一特征值与第二特征值的差值,即当前特征点对应的波峰值与历史特征点对应的波谷值的差值,然后用该差值表征当前特征点相对历史特征点的跳变程度。其中为了便于说明,将第一特征值与第二特征值的差值,定义为峰峰值。
需要说明的是,本申请对评估值的确定过程不做具体限制,例如在其他应用场景中,还可以是确定第一特征值与第二特征值的比值,得到当前特征点对应的评估值。总而言之,只要评估值能够表征当前特征点相对历史特征点的跳变程度即可。
S140:根据当前特征点对应的评估值,确定当前特征点是否是待检测音频信号的节奏点。
具体地,如果当前特征点对应的评估值满足预设要求,则确定当前特征点相对历史特征点的跳变程度满足跳变要求,进而确定该当前特征 点是待检测音频信号的节奏点,否则确定不是节奏点。
在本实施方式中,步骤S140具体包括:响应于当前特征点对应的评估值大于当前特征点对应的阈值,确定当前特征点是节奏点,否则确定当前特征点不是节奏点。
具体地,若当前特征点对应的评估值大于当前特征点对应的阈值,则说明当前特征点处产生明显的跳变,进而说明当前特征点是节奏点,否则说明当前特征点不是节奏点。
在一应用场景中,当前特征点对应的阈值是一个固定阈值,由设计人员设计,此时当前特征点不同,但是对应的阈值相同,在另一应用场景中,考虑到待检测音频信号的变化趋势,当前特征点对应的阈值与历史特征点的第二特征值相关,即根据历史特征点的第二特征值,确定当前特征点的阈值,例如,确定历史特征点的第二特征值与预设比例的乘积,得到当前特征点对应的阈值,其中预设比例可以由设计人员根据实际需求进行设定,例如可以是20%、40%或者60%等。可以理解的是,当根据历史特征点的第二特征值,确定当前特征点的阈值时,阈值是一个动态变化的值,当前特征点不同,对应的阈值可能不同。
在其他应用场景中,当前特征点对应的阈值还可以是其他能够反应待检测音频信号变化趋势的值,例如,确定当前特征点的第一特征值与另一预设比例的乘积,得到当前特征点对应的阈值,或者,确定历史特征点的第二特征值与预设数值的差值,得到当前特征点对应的阈值。
总而言之,本申请对于确定当前特征点对应的阈值的具体过程不做限制。
相关技术中差分节奏算法对于节奏点的判断条件是,如果一个特征点A的特征值大于其前面连续三个历史特征点的特征值,则确定特征点A是节奏点,按照该方法,在图5中,特征点1和2都可能会判定为节奏点,此时在一次上升跳变过程中却获取到两个节奏点,显然是不合理的。同时,类似图5中的特征点4、特征点5和特征点6,因为不满足判断条件都被忽略掉。
但是在本实施方式中,图5中的特征点1和2只有特征点2属于波 峰点,因此只会判断特征点2是否是节奏点,即在一次上升跳变过程中只会进行一次判断,可以避免差分节奏算法中的缺陷,同时在本实施方式中,对于特征点4、特征点5和特征点6,均会进行节奏点的检测,不会进行漏判,因此本实施方式中的音频节奏检测方法可以提高检测的准确率,避免误判以及漏判。
同时本实施方式中的音频节奏检测方法主要基于待检测音频信号的时域进行处理,可以提高检测速度,节省内存占用。
参阅图6,图6是本申请智能灯具一实施方式的结构示意图。该智能灯具200包括灯效控制模块210和多个灯模块220。灯效控制模块210与多个灯模块220连接,灯效控制模块210用于执行上述任一项实施方式中的音频节奏检测方法,其中具体的音频节奏检测方法可以参见上述实施方式,在此不再赘述。
具体地,灯效控制模块210根据待检测音频信号中节奏点所在的预设频率区域控制在相应预设频率区域的多个灯模块220进行相应的灯效展示。多个灯模块220用来响应灯效控制模块210发出的控制指令。
其中根据需要可以设置多个灯模块220,灯效控制模块210可以控制多个灯模块220的灯效情况,从而可以根据不同的节奏情况调节灯模块220的灯效情况。
在一应用场景中,多个灯模块220之间串联连接,灯效控制模块210也可以与多个灯模块220串联连接。
参阅图7,图7是本申请音频节奏检测装置一实施方式的结构示意图。该音频节奏检测装置300包括特征点确定模块310、查找模块320、评估值确定模块330以及节奏点确定模块340。
特征点确定模块310用于确定待检测音频信号在时域上的多个特征点,其中,特征点携带有时间点和特征值,特征值表征待检测音频信号在时间点处的强度。
查找模块320与特征点确定模块310连接,用于在多个特征点中的当前特征点是波峰点时,查找距离当前特征点最近且为波谷点的历史特征点。
评估值确定模块330与查找模块320连接,用于根据当前特征点的第一特征值与历史特征点的第二特征值,确定当前特征点对应的评估值,其中,当前特征点对应的评估值表征当前特征点相对历史特征点的跳变程度。
节奏点确定模块340与评估值确定模块330连接,用于根据当前特征点对应的评估值,确定当前特征点是否是待检测音频信号的节奏点。
其中,特征点确定模块310、查找模块320、评估值确定模块330以及节奏点确定模块340之间相互配合,以实现上述任一项实施方式中音频节奏检测方法中的步骤,其中详细的方法步骤可参见上述实施方式,在此不再赘述。
其中,音频节奏检测装置300可以是手机、电脑等任何一种具有算法处理能力的装置,在此不再赘述。
参阅图8,图8是本申请电子设备一实施方式的结构示意图。该电子设备400包括处理器410以及存储器420,处理器410耦接存储器420,存储器420中存储有程序数据,处理器410通过执行存储器420内的程序数据以实现上述任一项实施方式中音频节奏检测方法中的步骤,其中详细的方法步骤可参见上述实施方式,在此不在赘述。
参阅图9,图9是本申请计算机存储介质一实施方式的结构示意图。该计算机存储介质500存储有计算机程序510,计算机程序510能够被处理器执行以实现上述任一项方法中的步骤。
其中,计算机存储介质500具体可以为U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储计算机程序510的装置,或者也可以为存储有该计算机程序510的服务器,该服务器可将存储的计算机程序510发送给其他设备运行,或者也可以自运行该存储的计算机程序510。

Claims (15)

  1. 一种音频节奏检测方法,其中,所述方法包括:
    确定待检测音频信号在时域上的多个特征点,其中,所述特征点携带有时间点和特征值,所述特征值表征所述待检测音频信号在所述时间点处的强度;
    若多个所述特征点中的当前特征点是波峰点,则查找距离所述当前特征点最近且为波谷点的历史特征点;
    根据所述当前特征点的第一特征值与所述历史特征点的第二特征值,确定所述当前特征点对应的评估值,其中,所述当前特征点对应的所述评估值表征所述当前特征点相对所述历史特征点的跳变程度;
    根据所述当前特征点对应的所述评估值,确定所述当前特征点是否是所述待检测音频信号的节奏点。
  2. 根据权利要求1所述的方法,其中,所述根据所述当前特征点的第一特征值与所述历史特征点的第二特征值,确定所述当前特征点对应的评估值的步骤,包括:
    确定所述第一特征值与所述第二特征值的差值,得到所述当前特征点对应的所述评估值。
  3. 根据权利要求1所述的方法,其中,所述根据所述当前特征点对应的所述评估值,确定所述当前特征点是否是所述待检测音频信号的节奏点的步骤,包括:
    若所述当前特征点对应的所述评估值大于所述当前特征点对应的阈值,则确定所述当前特征点是所述节奏点,否则确定所述当前特征点不是所述节奏点。
  4. 根据权利要求3所述的方法,其中,在所述根据所述当前特征点对应的所述评估值,确定所述当前特征点是否是所述待检测音频信号的节奏点之前,还包括:
    根据所述历史特征点的所述第二特征值,确定所述当前特征点对应的所述阈值。
  5. 根据权利要求4所述的方法,其中,所述根据所述历史特征点的所述第二特征值,确定所述当前特征点对应的所述阈值的步骤,包括:
    确定所述历史特征点的所述第二特征值与预设比例的乘积,得到所述当前特征点对应的所述阈值。
  6. 根据权利要求1所述的方法,其中,所述确定待检测音频信号在时域上的多个特征点的步骤,包括:
    获取所述待检测音频信号在时域上的多个音频帧;
    分别根据多个所述音频帧在所述待检测音频信号中所处的时间段,确定多个所述音频帧各自对应的所述特征点携带的所述时间点;
    分别根据多个所述音频帧的强度,确定多个所述音频帧各自对应的所述特征点携带的所述特征值。
  7. 根据权利要求6所述的方法,其中,所述分别根据多个所述音频帧的强度,确定多个所述音频帧各自对应的所述特征点携带的所述特征值的步骤,包括:
    分别在每个所述音频帧上,确定多个采样点;
    分别根据每个所述音频帧对应的多个所述采样点的采样值,确定每个所述音频帧对应的所述特征点携带的所述特征值。
  8. 根据权利要求7所述的方法,其中,所述分别根据每个所述音频帧对应的多个所述采样点的采样值,确定每个所述音频帧对应的所述特征点携带的所述特征值的步骤,包括:
    分别确定每个所述音频帧各自对应的多个所述采样点的采样值的绝对值之和;
    分别确定每个所述音频帧对应的所述绝对值之和与每个所述音频帧各自对应的多个所述采样点数量的比值,得到每个所述音频帧对应的所述特征点携带的所述特征值。
  9. 根据权利要求6所述的方法,其中,所述获取所述待检测音频信号在时域上的多个音频帧的步骤,包括:
    若获取到的所述待检测音频信号处于时域,则对所述待检测音频信号进行分帧处理,得到多个处于时域上的所述音频帧;或者,
    若获取到的所述待检测音频信号处于频域,则对所述待检测音频信号进行分帧处理,得到多个处于频域上的所述音频帧,并将多个处于频域上的所述音频帧从频域转换到时域,得到多个处于时域上的所述音频帧。
  10. 根据权利要求1所述的方法,其中,在若多个所述特征点中的当前特征点是波峰点,则查找距离所述当前特征点最近且为波谷点的历史特征点之前,还包括:
    若所述当前特征点的所述第一特征值同时大于所述当前特征点相邻的前一个特征点的特征值以及所述当前特征点相邻的后一个特征点的特征值,则确定所述当前特征点是波峰点。
  11. 根据权利要求1所述的方法,其中,判断所述历史特征点是否是波谷点的步骤,包括:
    若所述历史特征点的所述第二特征值同时小于所述历史特征点相邻的前一个特征点的特征值以及所述历史特征点相邻的后一个特征点的特征值,则确定所述历史特征点是波谷点。
  12. 一种智能灯具,其中,所述智能灯具包括灯效控制模块和多个灯模块,所述灯效控制模块与多个所述灯模块连接,所述灯效控制模块用于执行如权利要求1至11任一项所述的音频节奏检测方法。
  13. 一种音频节奏检测装置,其中,所述音频节奏检测装置包括:
    特征点确定模块,用于确定待检测音频信号在时域上的多个特征点,其中,所述特征点携带有时间点和特征值,所述特征值表征所述待检测音频信号在所述时间点处的强度;
    查找模块,与所述特征点确定模块连接,用于在多个所述特征点中的当前特征点是波峰点时,查找距离所述当前特征点最近且为波谷点的历史特征点;
    评估值确定模块,与所述查找模块连接,用于根据所述当前特征点的第一特征值与所述历史特征点的第二特征值,确定所述当前特征点对应的评估值,其中,所述当前特征点对应的所述评估值表征所述当前特征点相对所述历史特征点的跳变程度;
    节奏点确定模块,与所述评估值确定模块连接,用于根据所述当前特征点对应的所述评估值,确定所述当前特征点是否是所述待检测音频信号的节奏点。
  14. [根据细则26改正 03.08.2023]
    一种电子设备,其中,所述电子设备包括处理器以及存储器,所述处理器耦接所述存储器,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现如权利要求1-11任一项所述方法中的步骤。
  15. [根据细则26改正 03.08.2023]
    一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被处理器执行以实现如权利要求1-11任一项所述方法中的步骤。
PCT/CN2023/098467 2022-06-23 2023-06-06 音频节奏检测方法、智能灯具、装置、电子设备及介质 WO2023246496A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210733654.XA CN115240619B (zh) 2022-06-23 2022-06-23 音频节奏检测方法、智能灯具、装置、电子设备及介质
CN202210733654.X 2022-06-23

Publications (1)

Publication Number Publication Date
WO2023246496A1 true WO2023246496A1 (zh) 2023-12-28

Family

ID=83669515

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/098467 WO2023246496A1 (zh) 2022-06-23 2023-06-06 音频节奏检测方法、智能灯具、装置、电子设备及介质

Country Status (2)

Country Link
CN (1) CN115240619B (zh)
WO (1) WO2023246496A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240619B (zh) * 2022-06-23 2024-07-12 深圳市智岩科技有限公司 音频节奏检测方法、智能灯具、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081271A (zh) * 2019-11-29 2020-04-28 福建星网视易信息系统有限公司 基于频域和时域的音乐节奏检测方法及存储介质
WO2020119150A1 (zh) * 2018-12-12 2020-06-18 北京字节跳动网络技术有限公司 节奏点识别方法、装置、电子设备及存储介质
CN113948106A (zh) * 2021-08-31 2022-01-18 深圳市智岩科技有限公司 音频节奏检测方法、灯效控制系统、装置、设备及介质
CN115240619A (zh) * 2022-06-23 2022-10-25 深圳市智岩科技有限公司 音频节奏检测方法、智能灯具、装置、电子设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132166A (ja) * 1998-10-28 2000-05-12 Casio Comput Co Ltd 自動演奏装置
CN105845146B (zh) * 2016-05-23 2019-09-06 珠海市杰理科技股份有限公司 语音信号处理的方法及装置
CN108320730B (zh) * 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119150A1 (zh) * 2018-12-12 2020-06-18 北京字节跳动网络技术有限公司 节奏点识别方法、装置、电子设备及存储介质
CN111081271A (zh) * 2019-11-29 2020-04-28 福建星网视易信息系统有限公司 基于频域和时域的音乐节奏检测方法及存储介质
CN113948106A (zh) * 2021-08-31 2022-01-18 深圳市智岩科技有限公司 音频节奏检测方法、灯效控制系统、装置、设备及介质
CN115240619A (zh) * 2022-06-23 2022-10-25 深圳市智岩科技有限公司 音频节奏检测方法、智能灯具、装置、电子设备及介质

Also Published As

Publication number Publication date
CN115240619A (zh) 2022-10-25
CN115240619B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
US20230222838A1 (en) Method and system for detecting and recognizing target in real-time video, storage medium, and device
WO2023246496A1 (zh) 音频节奏检测方法、智能灯具、装置、电子设备及介质
US8150169B2 (en) System and method for object clustering and identification in video
US8934714B2 (en) Foreground analysis based on tracking information
US20060123251A1 (en) Performance state-based thread management
US20160110590A1 (en) Facial identification method, facial identification apparatus and computer program for executing the method
Bateni et al. Predjoule: A timing-predictable energy optimization framework for deep neural networks
CN111192590B (zh) 语音唤醒方法、装置、设备及存储介质
US11393490B2 (en) Method, apparatus, device and computer-readable storage medium for voice interaction
CN110853644B (zh) 语音唤醒方法、装置、设备及存储介质
CN102708367A (zh) 基于目标轮廓特征的图像识别方法
WO2023179133A1 (zh) 一种目标算法的选取方法、装置、电子设备及存储介质
US20230091286A1 (en) Device waking-up method and apparatus, and electronic device
CN116299291A (zh) 一种雷达目标的识别方法、装置、设备及存储介质
CN113933312B (zh) 表面缺陷的周期性规律实时判定方法
JP7262520B2 (ja) 命令を実行するための方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
KR101509938B1 (ko) 태스크 스케줄링 방법 및 장치
Jiang et al. Non-Maximum Suppression Guided Label Assignment for Object Detection in Crowd Scenes
CN113409786A (zh) 语音控制方法、装置、电子设备及计算机可读存储介质
CN116166814A (zh) 事件检测方法、装置、设备以及存储介质
CN112784755A (zh) 一种轻型的人脸跟踪方法和存储设备
CN112532953A (zh) 一种智慧城市道路照明控制的数据处理方法及系统
Boltov et al. A Comparative Analysis of Deep Learning-Based Object Detectors for Embedded Systems
CN118506041A (zh) 毫米波雷达自适应聚类方法、数据处理设备及存储介质
CN114356418B (zh) 一种智能表项控制器及控制方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23826145

Country of ref document: EP

Kind code of ref document: A1