CN114467139A - 信号处理装置、信号处理方法和程序 - Google Patents
信号处理装置、信号处理方法和程序 Download PDFInfo
- Publication number
- CN114467139A CN114467139A CN202080065332.1A CN202080065332A CN114467139A CN 114467139 A CN114467139 A CN 114467139A CN 202080065332 A CN202080065332 A CN 202080065332A CN 114467139 A CN114467139 A CN 114467139A
- Authority
- CN
- China
- Prior art keywords
- sound source
- signal
- band
- section
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000000926 separation method Methods 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 62
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 238000007493 shaping process Methods 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/06—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
- G10H1/12—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
- G10H1/125—Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms using a digital filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/46—Volume control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/056—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
提供了一种信号处理设备,包括:声源分离单元,其对混合了来自多个声源的信号的混合声音信号应用声源分离处理;以及频带扩展单元,其对由声源分离单元分离的每个声源分离信号应用频带扩展处理。
Description
技术领域
本公开涉及信号处理装置、信号处理方法和程序。
背景技术
已知声源分离技术,其中从包括来自多个声源的声音的混合声音信号中提取用于目标声源的声音的信号(例如,见专利文献1)。另外,已经提出了频带扩展(扩展)技术,其中从具有低频分量的信号生成高频分量,并且其中将所得高频分量添加到具有低频分量的信号以生成具有更宽频带的信号(例如参见专利文献2)。
[引用列表]
[专利文献]
[专利文献1]
PCT专利公开号WO2018/047643
[专利文献2]
PCT专利公开号WO2015/079946
发明内容
[技术问题]
在该领域中,希望执行适当的频带扩展处理等。
本公开的目的是提供执行适当频带扩展处理等的信号处理装置、信号处理方法和程序。
[问题的解决方案]
例如,本公开提供了一种信号处理装置,包括:声源分离部分,其被配置为对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及频带扩展部分,其被配置为对通过由声源分离部分分离获取的相应声源分离信号应用频带扩展处理。
例如,本公开提供了一种信号处理方法,包括:通过声源分离部分,对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及通过频带扩展部分,对通过由声源分离部分分离获取的相应声源分离信号应用频带扩展处理。
例如,本公开提供了一种使计算机执行信号处理方法的程序,该包括:通过声源分离部分,对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及通过频带扩展部分,对通过由声源分离部分分离获取的相应声源分离信号应用频带扩展处理。
附图说明
图1是描绘根据第一实施例的信号处理装置的配置示例的框图。
图2是当描述根据第一实施例的频带扩展部分的操作时参考的示图。
图3是当描述根据第二实施例的信号处理装置的配置示例时参考的示图。
图4是当描述在根据第二实施例的信号处理装置中执行的处理时参考的示图。
图5是当描述根据第二实施例的信号处理装置的修改示例时参考的示图。
图6是当描述根据第三实施例的信号处理装置的配置示例时参考的示图。
图7是当描述根据第三实施例的信号处理装置的修改示例时参考的示图。
图8是当描述根据第三实施例的信号处理装置的修改示例时参考的示图。
具体实施方式
下面,将参考附图描述本公开的实施例等。注意,按以下顺序进行描述。
<实施例中要考虑的问题>
<第一实施例>
<第二实施例>
<第三实施例>
<修改示例>
下面描述的实施例等是本公开的合适的特定示例,并且本公开的内容不限于实施例等。
<实施例中要考虑的问题>
首先,为了便于理解本公开,将描述在实施例中要考虑的问题。如上所述,已知执行频带扩展处理(以下简称频带扩展处理)的装置。当要扩展声源的有限频带时,由于频率包络(频谱包络)取决于诸如乐器的声源的类型而变化,因此难以正确执行频带扩展处理。例如,钹和其他打击乐器,以及传统的日本乐器,如尺八、三味琴和古筝,发出的声音最高包含极高频率分量,而乐器,如钢琴和小提琴,具有衰减随频率一致增加的特性。在声源不在时间上彼此重叠的情况下,可以在每个时间点估计声源的类型,并且频带扩展处理的行为(处理的内容)可以根据类型而改变。然而,对于音乐等,通常,多种类型的声源同时发出声音,因此难以根据声源的类型执行适当的频带扩展处理。
另外,近年来,具有超过48kHz的采样率的高分辨率音频(以下酌情称为高分辨率声源)已经普及。当要产生高分辨率声源时,一些声音(如人声)被记录为高分辨率声源,但许多乐器的声音可以被记录为采样率为48kHz或更小的标准分辨率音频(以下酌情称为标准分辨率声源)。因此,在这种情况下,要求在重复母版制作步骤(重复母版制作)期间使所有乐器的声音具有高分辨率。此时,优选地,频带扩展处理仅应用于未以高分辨率记录的声源,而不编辑以高分辨率记录的声源。然而,在混合步骤期间,所有声源的声音都被混合,这带来了一个问题,即在重复母版制作步骤中,无法为每个声源选择是否执行频带扩展处理。鉴于这些情况开发了本公开。下面将详细描述本公开。
<第一实施例>
[根据第一实施例的信号处理装置]
(配置示例)
图1是示出根据第一实施例的信号处理装置的配置示例的框图(信号处理装置1)。例如,信号处理装置1包括声源分离部分11、频带扩展部分12和加法部分13。在本实施例中,将混合声音信号x输入到声源分离部分11,混合声音信号x包括多个(例如,N(N是自然数))声源的声音(信号)的混合。信号处理装置1包括与声源数量相对应的N个频带扩展部分(频带扩展部分121、频带扩展部分122、…、频带扩展部分12N)。注意,在不需要彼此区分各个频带扩展部分的情况下,酌情将频带扩展部分统称为频带扩展部分12。
声源分离部分11对混合声音信号x应用声源分离处理,以生成与相应声源的类型相对应的声源分离信号s1、s2、…、sN。声源分离信号s1被提供给频带扩展部分121。声源分离信号s2被提供给频带扩展部分122。声源分离信号sN被提供给频带扩展部分12N。
由声源分离部分11执行的声源分离处理不限于特定处理。例如,除了使用DNN(深度自然网络)的基于MWF(多通道维纳滤波器)的声源分离处理之外,还可以应用上面列出的专利文献1中描述的声源分离处理。在专利文献1中描述的声源分离处理大致上是这样的处理,其中使用具有时间上不同属性的输出的不同声源分离方案(具体地,DNN和LSTM(长短时记忆))来估计振幅频谱,并且其中使用预定的级联参数将估计结果级联以生成声源分离信号。不用说,声源分离部分11可以执行与上述声源分离处理不同的声源分离处理。
频带扩展部分12对通过由声源分离部分11分离获取的声源分离信号s中的每一个应用频带扩展处理。例如,频带扩展部分12使用与低频信号分量对应的声源分离信号s作为输入信号,对声源分离信号s应用频带扩展处理,并将结果输出信号作为包含低频分量和还包含具有扩展频带的高频分量的输出信号j(输出信号j1、输出信号j2、…、和输出信号jN)输出。频带扩展部分12对声源分离信号s应用公知的频带扩展处理,例如,在上面列出的专利文献2中描述的频带扩展处理。注意,各个频带扩展部分12与要输入到相应频带扩展部分12的声源分离信号s的相应类型相关联。
注意,下文中的扩展开始频带是指要通过频带扩展处理扩展的频率分量的最低频率侧端,高频分量是指具有高于扩展开始频带的频带的信号,而低频分量是指具有低于扩展开始频带的频带的信号。
加法部分13将从频带扩展部分12输出的输出信号j(具体地,输出信号j1、输出信号j2、…、和输出信号jN)相加,以生成合成输出信号S,并输出合成输出信号S。在本实施例中,假设与信号处理装置1的输出相对应的频带扩展声源信号是合成输出信号S。
(通用操作示例)
现在,将描述由信号处理装置1执行的操作的示例。混合声音信号x被输入到声源分离部分11。声源分离部分11对混合声音信号x应用声源分离处理,以生成声源分离信号s,并输出声源分离信号s。频带扩展部分12对声源分离信号s应用频带扩展处理,以生成输出信号j,并输出输出信号j。加法部分13将输出信号j相加在一起以生成合成输出信号S,并输出合成输出信号S。
(频带扩展部分的操作示例)
顺便提及,上面列出的专利文献2中描述的频带扩展处理基于混合声音,并且不考虑取决于声源的属性,特别是声源的类型执行最佳频带扩展处理。例如,作为打击乐器的钹等涉及无衰减地延伸至高频的包络。因此,在本实施例中,为了对每种类型的声源执行最佳频带扩展处理,针对每种类型的声源设置待估计的高频分量(高频带)的频率包络。具体地,设置与声源的类型相对应的频带扩展处理的参数,并使用该参数执行频带扩展处理。可以应用估计高频带的设备作为频带扩展部分,使该设备仅学习声源(例如,钹声)的类型作为训练数据。
图2描绘了对应于声源类型的频率包络的示例。在图2中,横轴表示频率(Hz),并且纵轴表示声压(dB)。另外,在图2中,f1表示扩展开始频带。此外,在图2中,在扩展开始频带f1之后的频率包络FE1示意性地表示例如人声的声源的频率包络,并且在扩展开始频带f1之后的频率包络FE2示意性地表示例如钹的声源的频率包络。对于与人声相对应的频带扩展部分12,设置用于生成频率包络FE1的参数。此外,对于与钹相对应的频带扩展部分12,设置用于生成频率包络FE2的参数。这允许每个频带扩展部分12执行与输入到频带扩展部分12的声源的属性相对应的适当的频带扩展处理。注意,参数是根据频带扩展处理的内容适当设置的。
<第二实施例>
现在,将描述本公开的第二实施例。注意,除非另有说明,否则在第一实施例中描述的事项也可以应用于第二实施例。另外,与第一实施例中的相对应部件相同或等效的部件由相同的附图标记表示,并且适当地省略重复的描述。
[第二实施例的概述]
在对每个声源分离信号独立地执行频带扩展处理的情况下,根据频带扩展处理的算法,合成输出信号S的高频分量可能被不自然地强调。例如,在用于频带扩展处理的算法仅估计振幅频谱或振幅频谱的包络,并以特定方式复制相位的情况下(例如,使用与低频分量(低频带)相同的相位),以及在声源分离算法还涉及对于每个分离声源的相位变化不显著的情况下,具有扩展频带的声源分离信号的高频信号都具有相似的相位。因此,即使正确地估计了每个声源分离信号的振幅频谱或振幅频谱的包络,合成输出信号S的高频分量也可能被不自然地强调,因为所有高频信号具有相似的相位。本实施例是具有解决上述问题的配置的信号处理装置。
[根据第二实施例的信号处理装置]
(配置示例)
图3是描绘根据第二实施例的信号处理装置的配置示例的框图(信号处理装置2)。信号处理装置2与信号处理装置1的不同之处在于,信号处理装置2包括继加法部分13之后的频率包络整形部分21。在本实施例中,假设频率包络整形部分21的输出是频带扩展声源信号。
频率包络整形部分21对从加法部13输出的合成输出信号S的频率包络进行整形。例如,在检测到在扩展开始频带之前的频率包络的部分(通过频带扩展处理扩展的频率的下限)f1和在扩展开始频带f1之后的频率包络的部分之间的预定不连续性的情况下,对合成输出信号S的频率包络进行整形。在本实施例中,由频率包络整形部分21检测预定的不连续性。然而,该检测可以由另一功能块执行。当频率包络整形部分21对频率包络进行整形时,抑制扩展的高频分量的振幅,允许防止高频分量被不自然地强调。
(操作示例)
在本实施例中,在扩展开始频带f1之前的信号能量与扩展开始频带f1之后的信号能量之间的差等于或大于预定值的情况下检测不连续性。将参考图4描述具体示例。
在图4中,横轴表示频率(Hz),并且纵轴表示声压(dB)。此外,在图4中,f1表示扩展开始频带。此外,在图4中,继扩展起始频带f1之后的频率包络(频率包络FE3至FE6)示出合成输出信号S的高频分量的频率包络的示例。
例如,如图4所描绘的,分别为扩展起始频带f1之前和之后的频率包络的部分设置预定频带(f1-Δf)和(f1+Δf),并且为每个频率包络确定每个频带的能量e(图4中的阴影部分)。在满足以下公式1的情况下,确定扩展开始频带f1之前和之后的频率包络的部分之间存在不连续性,其中eL表示低频带中的能量,eH表示高频带中的能量,并且Th表示用于检测不连续性的阈值。
(eH/eL)>Th...(1)
在图4所示的示例中,在合成输出信号S的高频分量形成频率包络FE3的情况下,满足公式1,导致检测不连续性的存在。频率包络FE3使高频分量被不自然地强调,因此频率包络整形部分21执行用于整形频率包络的处理,具体地,用于抑制高频分量的振幅的处理。在用于抑制振幅的处理中,可以均匀地抑制高频分量的振幅,或者可以专用地抑制大于预定阈值的振幅。
另一方面,在图4所示的示例中,在合成输出信号S的高频分量形成频率包络FE4至FE6中的一个的情况下,不满足公式1,导致确定不存在不连续性。在这种情况下,高频分量不太可能被不自然地强调,因此频率包络整形部分21不执行处理,其中从频率包络整形部分21输出合成输出信号S。
根据上述第二实施例,在执行频带扩展处理的情况下,可以防止扩展开始频带之后的高频分量被不自然地强调。
(修改示例)
现在,将描述根据第二实施例的信号处理装置的修改示例。图5是描绘根据修改示例的信号处理装置的配置示例的框图(信号处理装置2A)。
信号处理装置2A不包括频率包络整形部分21,而是包括相位旋转部分22。相位旋转部分22设置在频带扩展部分12和加法部分13之间。具体地,信号处理装置2A包括相位旋转部分22(相位旋转部分221、222、…、22N),其数量对应于频带扩展部分12的数量。来自相位旋转部分22的输出信号由加法部分13相加在一起。
相位旋转部分22利用由频带扩展部分12扩展的频带旋转(改变)输出信号j的高频分量的相位,使得输出信号j的高频分量根据声源具有不同的相位。例如,相位旋转部分22中的每一个包括能够在不影响振幅的情况下移动相位的滤波器,具体地,包括全通滤波器。
例如,相位旋转部分22随机旋转相位,从而允许防止频带扩展声源信号的高频分量被不自然地强调。另外,人的听觉特征对高频的相位变化不敏感,因此可以防止频带扩展声源信号的高频分量被不自然地强调,而不会给用户带来听觉上不舒服的感觉。
<第三实施例>
现在,将描述本公开的第三实施例。注意,除非另有说明,否则在第一和第二实施例中描述的事项也可以应用于第三实施例。另外,与第一和第二实施例中的相对应部件相同或等效的部件由相同的附图标记表示,并且适当地省略重复的描述。
[第三实施例的概述]
如上所述,在包括高分辨率声源(例如,包含继扩展开始频带f1之后的高频分量的声源)和标准分辨率声源(例如,不包含继扩展开始频带f1之后的高频分量的声源)的声源(以下酌情称为混合声源)中,要求仅对标准分辨率声源应用频带扩展处理。本实施例解决了这样的需求。注意,混合声源的频带包括继扩展起始频带f1之后的高频。
[根据第三实施例的信号处理装置]
(配置示例)
图6是示出根据第三实施例的信号处理装置的配置示例的框图(信号处理装置3)。与信号处理装置1类似,信号处理装置3包括声源分离部分11、频带扩展部分12(例如,频带扩展部分121和122)、以及加法部分13。将混合声源的信号(以下酌情称为混合声源信号x1)输入到声源分离部分11。信号处理装置3与信号处理装置1的不同之处在于,信号处理装置3包括将混合声源信号x1输入到加法部分13以及声源分离部分11的系统。
(操作示例)
现在,将描述信号处理装置3的操作示例。通过声源分离部分11,将混合声源信号x1分离为相应声源类型的信号,从而生成声源分离信号s。在相应声源类型的声源分离信号s中,仅将未以高分辨率记录的声源分离信号(本示例中的声源分离信号s1和s2)分别提供给相对应的频带扩展部分121和122。频带扩展部分121执行频带扩展处理以扩展声源分离信号s1的频带。此外,频带扩展部分122执行频带扩展处理以扩展声源分离信号s2的频带。
对于通过应用频带扩展处理获取的输出信号,频带扩展部分121向加法部分13输出包括在输出信号中并且仅包含扩展开始频带f1之后的高频分量的扩展频带信号p1。此外,对于通过应用频带扩展处理获取的输出信号,频带扩展部分122向加法部分13输出包括在输出信号中并且仅包含扩展开始频带f1之后的高频分量的扩展频带信号p2。就这一点而言,频带扩展部分121和122只向加法部分13输出扩展频带信号,因为声源分离信号s1和s2的低频分量包括在输入到加法部分13的混合声源信号x1中。
加法部分13将扩展频带信号p1和p2以及混合声源信号x1相加在一起,以生成频带扩展声源信号,并输出频带扩展声源信号。
根据上述第三实施例,在以高分辨率记录的声源信号的高频分量没有变化的情况下,可以专门地对未以高分辨率记录的声源信号进行频带扩展。注意,在上述描述中,声源分离信号s1和s2被示为未以高分辨率记录的声源分离信号,但混合声源信号x1可以包括更多未以高分辨率记录的声源分离信号。
(修改示例1)
图7是示出根据第三实施例的信号处理装置的修改示例的框图。上述示例假设信号处理装置3的声源分离部分11具有分离包括高分辨率声源的声源的能力。然而,也假定声源分离部分11缺乏分离包括高分辨率声源在内的声源的能力。
在这种情况下,如图7所示,根据本修改示例的信号处理装置(信号处理装置3A)的声源分离部分11包括对混合声源信号x1应用下采样处理的下转换器11A。在下转换器11A上执行下采样使得声源分离部分11能够对混合声源信号x1执行声源分离部分11。在这种配置中,例如,频带扩展部分121包括上转换器12A1,并且在执行上采样之后执行频带扩展处理。类似地,频带扩展部分122包括上转换器12A2,并且在执行上采样之后执行频带扩展处理。上转换器12A1和12A2的处理可以在频带扩展部分121和122的相应前级中执行。
(修改示例2)
图8是示出根据第三实施例的信号处理装置的另一修改示例的框图。根据本修改示例的信号处理装置(信号处理装置3B)的声源分离部分11包括确定部分11B。注意,该示例假设信号处理装置3B的声源分离部分11具有分离包括高分辨率声源的声源的能力。
在信号处理装置3B中,混合声源信号x1仅被提供给声源分离部分11,而不被提供给加法部分13。声源分离部分11对混合声源信号x1执行声源分离处理,以生成与以高分辨率记录的声源信号相对应的声源分离信号s1、s2和声源分离信号hm。确定部分11B确定是否在后续阶段对每个声源分离信号应用频带扩展处理。在声源分离信号包含高频分量的情况下,确定部分11B确定不需要对声源分离信号应用频带扩展处理,并将声源分离信号输出到加法部分13。在本修改示例中,确定部分11B确定不需要对声源分离信号hm应用频带扩展处理,并且声源分离部分11将声源分离信号hm提供给加法部分13。
此外,在声源分离信号不包含高频分量的情况下,确定部分11B确定需要对声源分离信号应用频带扩展处理,并将声源分离信号输出到频带扩展部分12。在本修改示例中,确定部分11B确定需要对声源分离信号s1和s2应用频带扩展处理,并且声源分离信号s1和s2分别被提供给频带扩展部分121和122。
频带扩展部分121对声源分离信号s1应用频带扩展处理以生成输出信号j1。在根据信号处理装置3B的配置中,混合声源信号x1不被提供给加法部分13,因此频带扩展部分121向加法部分13输出包含低频分量的输出信号j1,而不是扩展频带信号。此外,频带扩展部分122对声源分离信号s2应用频带扩展处理以生成输出信号j2。在根据信号处理装置3B的配置中,混合声源信号x1不被提供给加法部分13,因此频带扩展部分122向加法部分13输出包含低频分量的输出信号j2,而不是扩展频带信号。加法部分13将声源分离信号hm、输出信号j1和输出信号j2相加在一起。
根据本修改示例的信号处理装置3B,可以产生与基于上述信号处理装置3的配置获取的效果相似的效果。另外,根据根据本修改示例的信号处理装置3B,自动确定是否应用频带扩展处理,因此,例如,消除了用户在重制母版制作步骤期间预先了解将应用频带扩展处理的声源分离信号中的哪一个并选择是否应用频带扩展处理的需要。
<修改示例>
已经描述了本公开的多个实施例。然而,本公开不限于上述实施例,并且在不脱离本公开的范围的情况下可以对实施例进行各种修改。
在上述实施例中,声源的类型被用作声源的属性。然而,可以使用诸如声源的信令特性的另一属性。
在应用DNN或LSTM作为声源分离部分的情况下,典型地,网络的输入被认为是混合声音信号的振幅频谱,训练数据被认为是目标声源的声音的振幅频谱。然而,通过声源分离获取的声源分离信号可以作为学习中的训练数据。
本公开还可以采用云计算的配置,其中多个装置经由网络以共享和协作的方式执行一个功能的处理。
本公开还可以任何形式来实施,例如装置、方法、程序或系统。例如,通过提供执行上述实施例中描述的功能的可下载程序,并将该程序下载并安装到不具有上述实施例中描述的功能的装置,可以在该装置中执行实施例中描述的控制。本公开还可以由分布这种程序的服务器来实施。此外,可以适当地组合实施例和修改示例中描述的事项。此外,本文所示的效果并不以限制的方式解释本公开的内容。
本公开可以采用以下配置。
(1)
一种信号处理装置,包括:
声源分离部分,被配置为对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及
频带扩展部分,被配置为对通过由声源分离部分分离获取的相应声源分离信号应用频带扩展处理。
(2)
根据(1)所述的信号处理装置,其中,
频带扩展部分各自应用与声源分离信号的属性相对应的频带扩展处理。
(3)
根据(1)或(2)所述的信号处理装置,包括:
加法部分,被配置为将针对每一个声源分离信号提供的频带扩展部分的相应的输出相加在一起;以及
频率包络整形部分,被配置为对要从加法部分输出的合成输出信号的频率包络进行整形。
(4)
根据(3)所述的信号处理装置,其中,
当将通过频带扩展处理扩展的频率的下限设置为f1时,所述频率包络整形部分在f1前后检测到预定不连续性的情况下,对所述合成输出信号的所述频率包络进行整形。
(5)
根据(4)所述的信号处理装置,其中,
在f1前后的信号能量差等于或大于预定值的情况下,检测为存在不连续性。
(6)
根据(1)或(2)所述的信号处理装置,包括:
相位旋转部分,被配置为应用用于旋转来自频带扩展部分的输出信号的相位的处理。
(7)
根据(6)所述的信号处理装置,其中,
相位旋转部分包括全通滤波器。
(8)
根据(1)所述的信号处理装置,其中,
频带扩展部分仅输出扩展频带信号,扩展频带信号是具有通过频带扩展处理扩展的频带的信号。
(9)
根据(8)所述的信号处理装置,包括:
下转换器,被配置为对混合声音信号应用下采样处理,混合声音信号包括包含高于预定频率的高频分量的声源的信号;以及
加法部分,被配置为将混合声音信号和扩展频带信号相加在一起,其中,
声源分离部分对已经应用了下采样处理的信号应用声源分离处理。
(10)
根据(1)所述的信号处理装置,包括:
加法部分,被配置为将已经应用了频带扩展处理的声源分离信号和未应用频带扩展处理的声源分离信号相加在一起。
(11)
根据(10)所述的信号处理装置,包括:
确定部分,被配置为确定是否对声源分离信号应用频带扩展处理。
(12)
根据(11)所述的信号处理装置,其中,
确定部分在声源分离信号包含等于或大于预定频率的高频分量的情况下确定不对声源分离信号应用频带扩展处理,并且在声源分离信号不包含等于或大于预定频率的高频分量的情况下确定对声源分离信号应用频带扩展处理。
(13)
一种信号处理方法,包括:
通过声源分离部分,对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及
通过频带扩展部分,对通过由声源分离部分分离获取的相应声源分离信号应用频带扩展处理。
(14)
一种使计算机执行信号处理方法的程序,包括:
通过声源分离部分,对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及
通过频带扩展部分,对通过由声源分离部分分离获取的相应声源分离信号应用频带扩展处理。
参考符号列表
1,2,2A,3,3A,3B:信号处理装置
11:声源分离部分
11A:下转换器
12:频带扩展部分
13:加法部分
21:频率包络整形部分
22:相位旋转部分
Claims (14)
1.一种信号处理装置,包括:
声源分离部分,被配置为对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及
频带扩展部分,被配置为对通过由所述声源分离部分进行分离获取的相应声源分离信号应用频带扩展处理。
2.根据权利要求1所述的信号处理装置,其中,
所述频带扩展部分应用与所述声源分离信号的属性相对应的频带扩展处理。
3.根据权利要求1所述的信号处理装置,包括:
加法部分,被配置为将针对每一个声源分离信号提供的所述频带扩展部分的相应的输出相加在一起;以及
频率包络整形部分,被配置为对要从所述加法部分输出的合成输出信号的频率包络进行整形。
4.根据权利要求3所述的信号处理装置,其中,
当将通过频带扩展处理扩展的频率的下限设置为f1时,所述频率包络整形部分在f1前后检测到预定不连续性的情况下,对所述合成输出信号的所述频率包络进行整形。
5.根据权利要求4所述的信号处理装置,其中,
在f1前后的信号能量差等于或大于预定值的情况下,检测为存在不连续性。
6.根据权利要求1所述的信号处理装置,包括:
相位旋转部分,被配置为应用用于旋转来自所述频带扩展部分的输出信号的相位的处理。
7.根据权利要求6所述的信号处理装置,其中,
所述相位旋转部分包括全通滤波器。
8.根据权利要求1所述的信号处理装置,其中,
所述频带扩展部分仅输出扩展频带信号,所述扩展频带信号是具有通过所述频带扩展处理扩展的频带的信号。
9.根据权利要求8所述的信号处理装置,包括:
下转换器,被配置为对混合声音信号应用下采样处理,所述混合声音信号包括包含高于预定频率的高频分量的声源的信号;以及
加法部分,被配置为将所述混合声音信号和所述扩展频带信号相加在一起,其中,
声源分离部分对已经应用了所述下采样处理的信号应用所述声源分离处理。
10.根据权利要求1所述的信号处理装置,包括:
加法部分,被配置为将已经应用了所述频带扩展处理的声源分离信号和未应用所述频带扩展处理的声源分离信号相加在一起。
11.根据权利要求10所述的信号处理装置,包括:
确定部分,被配置为确定是否对所述声源分离信号应用所述频带扩展处理。
12.根据权利要求11所述的信号处理装置,其中,
所述确定部分在所述声源分离信号包含等于或大于预定频率的高频分量的情况下确定不对所述声源分离信号应用所述频带扩展处理,并且在所述声源分离信号不包含等于或大于预定频率的高频分量的情况下确定对所述声源分离信号应用所述频带扩展处理。
13.一种信号处理方法,包括:
通过声源分离部分,对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及
通过频带扩展部分,对通过由所述声源分离部分进行分离获取的相应声源分离信号应用频带扩展处理。
14.一种使计算机执行信号处理方法的程序,包括:
通过声源分离部分,对包括多个声源的信号的混合的混合声音信号应用声源分离处理;以及
通过频带扩展部分,对通过由所述声源分离部分进行分离获取的相应声源分离信号应用频带扩展处理。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-172688 | 2019-09-24 | ||
JP2019172688 | 2019-09-24 | ||
PCT/JP2020/028423 WO2021059718A1 (ja) | 2019-09-24 | 2020-07-22 | 信号処理装置、信号処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114467139A true CN114467139A (zh) | 2022-05-10 |
Family
ID=75166566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080065332.1A Pending CN114467139A (zh) | 2019-09-24 | 2020-07-22 | 信号处理装置、信号处理方法和程序 |
Country Status (6)
Country | Link |
---|---|
US (1) | US12051436B2 (zh) |
JP (1) | JPWO2021059718A1 (zh) |
KR (1) | KR20220066886A (zh) |
CN (1) | CN114467139A (zh) |
DE (1) | DE112020004506T5 (zh) |
WO (1) | WO2021059718A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024161995A1 (ja) * | 2023-02-02 | 2024-08-08 | パナソニックIpマネジメント株式会社 | 信号処理装置、信号処理方法、及び信号処理プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5493655B2 (ja) | 2009-09-29 | 2014-05-14 | 沖電気工業株式会社 | 音声帯域拡張装置および音声帯域拡張プログラム |
JP5488389B2 (ja) * | 2010-10-20 | 2014-05-14 | ヤマハ株式会社 | 音響信号処理装置 |
WO2014125640A1 (ja) | 2013-02-18 | 2014-08-21 | 株式会社小松製作所 | 油圧ショベル |
WO2015079946A1 (ja) | 2013-11-29 | 2015-06-04 | ソニー株式会社 | 周波数帯域拡大装置および方法、並びにプログラム |
US10390147B2 (en) * | 2015-02-24 | 2019-08-20 | Gn Hearing A/S | Frequency mapping for hearing devices |
JP6356360B2 (ja) * | 2015-11-13 | 2018-07-11 | 株式会社日立国際電気 | 音声通信システム |
CN107547983B (zh) * | 2016-06-27 | 2021-04-27 | 奥迪康有限公司 | 用于提高目标声音的可分离性的方法和听力装置 |
US10924849B2 (en) | 2016-09-09 | 2021-02-16 | Sony Corporation | Sound source separation device and method |
KR101885759B1 (ko) | 2016-11-01 | 2018-08-06 | 한국생산기술연구원 | 보일러 튜브의 회분점착저감 및 부식저감 방법 |
EP3382703A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and methods for processing an audio signal |
EP3471440B1 (en) * | 2017-10-10 | 2024-08-14 | Oticon A/s | A hearing device comprising a speech intelligibilty estimator for influencing a processing algorithm |
-
2020
- 2020-07-22 JP JP2021548384A patent/JPWO2021059718A1/ja active Pending
- 2020-07-22 KR KR1020227007951A patent/KR20220066886A/ko unknown
- 2020-07-22 DE DE112020004506.4T patent/DE112020004506T5/de active Pending
- 2020-07-22 CN CN202080065332.1A patent/CN114467139A/zh active Pending
- 2020-07-22 WO PCT/JP2020/028423 patent/WO2021059718A1/ja active Application Filing
- 2020-07-22 US US17/761,572 patent/US12051436B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2021059718A1 (ja) | 2021-04-01 |
US12051436B2 (en) | 2024-07-30 |
US20220375485A1 (en) | 2022-11-24 |
KR20220066886A (ko) | 2022-05-24 |
JPWO2021059718A1 (zh) | 2021-04-01 |
DE112020004506T5 (de) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7243052B2 (ja) | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム | |
Manilow et al. | Cutting music source separation some Slakh: A dataset to study the impact of training data quality and quantity | |
US8219223B1 (en) | Editing audio assets | |
RU2487426C2 (ru) | Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала | |
US9239700B2 (en) | System and method for automatically producing haptic events from a digital audio signal | |
KR101550925B1 (ko) | 디지털 오디오 파일로부터 햅틱 이벤트들을 자동으로 생성하는 시스템 및 방법 | |
WO2010024371A1 (ja) | 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム | |
Fitzgerald | Upmixing from mono-a source separation approach | |
JP2018510374A (ja) | 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法 | |
JP2011514987A (ja) | 瞬間的事象を有する音声信号の操作装置および操作方法 | |
JP2005157363A (ja) | フォルマント帯域を利用したダイアログエンハンシング方法及び装置 | |
WO2016021412A1 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
Gonzalez et al. | Automatic mixing: live downmixing stereo panner | |
CN114467139A (zh) | 信号处理装置、信号处理方法和程序 | |
CN115910009A (zh) | 电子设备、方法和计算机程序 | |
JP4513556B2 (ja) | 音声分析合成装置、及びプログラム | |
JP6834370B2 (ja) | 音声合成方法 | |
WO2022097414A1 (ja) | 信号処理装置、信号処理方法およびプログラム | |
US20240371390A1 (en) | Information processing device, information processing method, and program | |
JP2000003200A (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP6337698B2 (ja) | 音響処理装置 | |
Roebel | Between physics and perception: Signal models for high level audio processing | |
JP2001236084A (ja) | 音響信号処理装置及びそれに用いられる信号分離装置 | |
JP2001027895A (ja) | 信号分離方法及び装置 | |
JP6822075B2 (ja) | 音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |