[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2021059718A1 - 信号処理装置、信号処理方法及びプログラム - Google Patents

信号処理装置、信号処理方法及びプログラム Download PDF

Info

Publication number
WO2021059718A1
WO2021059718A1 PCT/JP2020/028423 JP2020028423W WO2021059718A1 WO 2021059718 A1 WO2021059718 A1 WO 2021059718A1 JP 2020028423 W JP2020028423 W JP 2020028423W WO 2021059718 A1 WO2021059718 A1 WO 2021059718A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
sound source
source separation
unit
band expansion
Prior art date
Application number
PCT/JP2020/028423
Other languages
English (en)
French (fr)
Inventor
高橋 直也
福井 隆郎
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to KR1020227007951A priority Critical patent/KR20220066886A/ko
Priority to JP2021548384A priority patent/JPWO2021059718A1/ja
Priority to US17/761,572 priority patent/US12051436B2/en
Priority to CN202080065332.1A priority patent/CN114467139A/zh
Priority to DE112020004506.4T priority patent/DE112020004506T5/de
Publication of WO2021059718A1 publication Critical patent/WO2021059718A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • G10H1/125Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms using a digital filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Definitions

  • the present disclosure relates to signal processing devices, signal processing methods and programs.
  • a sound source separation technique for extracting a sound signal of a target sound source from a mixed sound signal containing sounds from a plurality of sound sources is known (see, for example, Patent Document 1).
  • a frequency band expansion (expansion) technology that generates a wider frequency band signal by generating a high frequency component from a low frequency component signal and adding the obtained high frequency component to a low frequency component signal is available. It has been proposed (see, for example, Patent Document 2).
  • One of the purposes of the present disclosure is to provide a signal processing device, a signal processing method, and a program in which appropriate frequency band expansion processing and the like are performed.
  • the present disclosure is, for example, A sound source separation unit that applies sound source separation processing to a mixed sound signal in which signals from multiple sound sources are mixed, It is a signal processing device having a band expansion unit that applies frequency band expansion processing to each sound source separation signal separated by the sound source separation unit.
  • the present disclosure is, for example,
  • the sound source separation unit applies sound source separation processing to the mixed sound signal in which the signals of multiple sound sources are mixed.
  • This is a signal processing method in which the band expansion unit applies frequency band expansion processing to each sound source separation signal separated by the sound source separation unit.
  • the present disclosure is, for example,
  • the sound source separation unit applies sound source separation processing to the mixed sound signal in which the signals of multiple sound sources are mixed.
  • the band expansion unit is a program that causes a computer to execute a signal processing method that applies frequency band expansion processing to each sound source separation signal separated by the sound source separation unit.
  • FIG. 1 is a block diagram showing a configuration example of the signal processing device according to the first embodiment.
  • FIG. 2 is a diagram referred to when explaining an operation example of the band expansion unit according to the first embodiment.
  • FIG. 3 is a diagram referred to when explaining a configuration example of the signal processing device according to the second embodiment.
  • FIG. 4 is a diagram referred to when explaining the processing performed in the signal processing apparatus according to the second embodiment.
  • FIG. 5 is a diagram referred to when explaining a modified example of the signal processing device according to the second embodiment.
  • FIG. 6 is a diagram referred to when explaining a configuration example of the signal processing device according to the third embodiment.
  • FIG. 7 is a diagram referred to when explaining a modification of the signal processing device according to the third embodiment.
  • FIG. 8 is a diagram referred to when explaining a modified example of the signal processing device according to the third embodiment.
  • band expansion processing there are known devices that perform frequency band expansion processing (hereinafter, appropriately abbreviated as band expansion processing).
  • band expansion processing When expanding the band of a band-limited sound source, it is difficult to perform band expansion processing correctly because the frequency envelope (spectral envelope) differs depending on the type of sound source such as an instrument.
  • percussion instruments such as cymbals and percussion and Japanese instruments such as shakuhachi, shamisen, and koto contain components up to very high frequencies
  • musical instruments such as piano and violin have the characteristic that the attenuation increases as the frequency goes up. ..
  • the sound sources do not overlap in time, it is possible to estimate the type of sound source at each time and change the behavior (processing content) of the band expansion processing as appropriate according to the type, but music, etc. In this case, since a plurality of types of sound sources are generally used at the same time, it is difficult to perform appropriate band expansion processing according to the type of sound source.
  • high-resolution audio (hereinafter, appropriately referred to as a high-resolution sound source) having a sampling rate higher than 48 kHz has become widespread.
  • high-resolution sound sources some sounds such as vocals are recorded with high-resolution sound sources, but many instruments have standard resolution audio (hereinafter, standard resolution) with a sampling rate of 48 kHz or less. It may be recorded as a sound source (appropriately referred to as a sound source), and there is a demand for high resolution of the sounds of all instruments in the remastering process (remastering).
  • FIG. 1 is a block diagram showing a configuration example of a signal processing device (signal processing device 1) according to the first embodiment.
  • the signal processing device 1 includes, for example, a sound source separation unit 11, a band expansion unit 12, and an addition unit 13.
  • a mixed sound signal x in which sounds (signals) of a plurality of (for example, N (N is a natural number)) sound sources is mixed is input to the sound source separation unit 11.
  • the signal processing apparatus 1 has N-number of band spreading unit corresponding to the number of sound sources (band expansion unit 12 1, band expander 12 2 ... band expander 12 N).
  • the band expansion units are appropriately collectively referred to as band expansion units 12.
  • the sound source separation unit 11 generates sound source separation signals s 1 , s 2, ... S N , which are signals corresponding to each type of sound source, by applying the sound source separation process to the mixed sound signal x.
  • Source separation signal s 1 is supplied to the band spreading unit 12 1.
  • the sound source separation signal s 2 is supplied to the band expansion unit 12 2.
  • the sound source separation signal s N is supplied to the band expansion unit 12 N.
  • the sound source separation process performed by the sound source separation unit 11 is not limited to a specific process, but for example, a sound source based on a multi-channel Wiener filter (MWF (MultiChannel Wiener Filter)) using DNN (Deep Neural Networks).
  • MMF MultiChannel Wiener Filter
  • DNN Deep Neural Networks
  • the sound source separation process described in Patent Document 1 described above can be applied.
  • the sound source separation process described in Patent Document 1 generally has an amplitude using different sound source separation methods (specifically, DNN and RSTM (Long Short Term Memory)) having outputs having different properties in time. This is a process of estimating a spectrum and combining the estimation results using predetermined coupling parameters to generate a sound source separation signal.
  • the sound source separation unit 11 may perform a sound source separation process different from the sound source separation process described above.
  • the band expansion unit 12 applies the band expansion processing to each sound source separation signal s separated by the sound source separation unit 11.
  • the band expansion unit 12 uses, for example, a sound source separation signal s which is a low-frequency signal component as an input signal, performs band expansion processing on the sound source separation signal s, and obtains an output signal obtained as a result as a low-frequency component. Is output as an output signal j (output signal j 1 , output signal j 2 ..., output signal j N ) including high frequency components having an extended band.
  • the band expansion unit 12 applies a known band expansion process to the sound source separation signal s, for example, the band expansion process described in Patent Document 2 described above. It should be noted that each band expansion unit 12 is associated with which type of sound source separation signal s is input.
  • the expansion start band the signal in the band having a frequency higher than the expansion start band
  • the expansion start A signal in a band having a frequency lower than that in the band is appropriately referred to as a low frequency component.
  • the addition unit 13 adds the output signals j (specifically, the output signal j 1 , the output signal j 2 ..., the output signal j N ) output from the band expansion unit 12 to generate the combined output signal S. And output.
  • the band-extended sound source signal that is the output of the signal processing device 1 is the combined output signal S.
  • the mixed sound signal x is input to the sound source separation unit 11.
  • the sound source separation unit 11 generates and outputs the sound source separation signal s by applying the sound source separation process to the mixed sound signal x.
  • the band expansion unit 12 generates and outputs an output signal j by applying a band expansion process to the sound source separation signal s.
  • the addition unit 13 generates and outputs a combined output signal S by adding each output signal j.
  • FIG. 2 shows an example of frequency envelope according to the type of sound source.
  • the horizontal axis of FIG. 2 indicates the frequency (Hz), and the vertical axis indicates the sound pressure (dB).
  • f1 in FIG. 2 indicates an expansion start band.
  • the frequency envelope FE1 after the extended start band f1 in FIG. 2 schematically shows the frequency envelope of the vocal sound source, for example, and the frequency envelope FE2 after the extended start band f1 schematically shows the frequency envelope of the cymbal sound source. It is shown in.
  • a parameter for generating the frequency envelope FE1 is set in the band expansion unit 12 corresponding to the vocal.
  • a parameter for generating the frequency envelope FE2 is set in the band expansion unit 12 corresponding to the cymbal.
  • each band expansion unit 12 can perform appropriate band expansion processing according to the attributes of the sound source input to itself. The parameters are appropriately set according to the content of the band expansion process.
  • the band expansion processing is performed independently for each sound source separation signal
  • the high frequency component of the composite output signal S may be unnaturally emphasized depending on the band expansion processing algorithm.
  • the band expansion processing algorithm is an algorithm that estimates only the amplitude spectrum or its entourage and replicates the phase in a certain way (for example, using the same low frequency component (low frequency range)), and the sound source separation algorithm.
  • the phase does not change significantly for each separated sound source, the high frequency signals of each band-extended sound source separated signal all have a similar phase.
  • the present embodiment is a signal processing device having a configuration corresponding to such a matter.
  • FIG. 3 is a block diagram showing a configuration example of the signal processing device (signal processing device 2) according to the second embodiment.
  • the signal processing device 2 is different from the signal processing device 1 in that the frequency envelopment shaping unit 21 is provided after the addition unit 13.
  • the output of the frequency envelope shaping unit 21 is used as a band-extended sound source signal.
  • the frequency envelope shaping unit 21 shapes the frequency envelope of the composite output signal S output from the addition unit 13. For example, when a predetermined discontinuity is detected before and after the extended start band (lower limit of the frequency extended by the band expansion process) f1, the frequency envelope of the combined output signal S is shaped.
  • the detection of the predetermined discontinuity is performed by the frequency envelope shaping unit 21 in this embodiment, but may be performed by another functional block.
  • the horizontal axis of FIG. 4 indicates the frequency (Hz), and the vertical axis indicates the sound pressure (dB). Further, f1 in FIG. 4 indicates an expansion start band. Further, the frequency envelopes (frequency envelopes FE3 to FE6) after the extended start band f1 in FIG. 4 show an example of the frequency envelope of the high frequency component of the combined output signal S.
  • predetermined frequency bands (f1- ⁇ f) and (f1 + ⁇ f) are set before and after the expansion start band f1, and the energy e of each frequency band (the shaded area in FIG. 4). ) Is calculated for each frequency involvement.
  • the energy in the low frequency band is e L
  • the energy in the high frequency band is e H
  • the threshold for detecting the discontinuity is Th
  • the following equation 1 is satisfied. It is determined that there is a discontinuity before and after the expansion start band f1.
  • the frequency envelope shaping unit 21 performs a process of shaping the frequency envelope, specifically, a process of suppressing the amplitude of the high frequency component.
  • the process of suppressing the amplitude may uniformly suppress the amplitude of the high frequency component, or may suppress only the amplitude larger than a predetermined threshold value.
  • the frequency envelope of the high frequency component of the combined output signal S is the frequency envelope FE4 to FE6, the above equation 1 is not satisfied, so that it is determined that there is no discontinuity. .. In this case, since there is no possibility that the high frequency component is unnaturally emphasized, the combined output signal S is output from the frequency envelope shaping unit 21 without being processed by the frequency envelope shaping unit 21.
  • FIG. 5 is a block diagram showing a configuration example of the signal processing device (signal processing device 2A) according to the modified example.
  • the signal processing device 2A does not have the frequency envelope shaping unit 21, but instead has the phase rotating unit 22.
  • the phase rotation unit 22 is provided between the band expansion unit 12 and the addition unit 13.
  • the signal processing unit 2A includes a phase rotation section 22 of the number corresponding to the band spreading unit 12 (phase rotating unit 22 1, 22 2, ⁇ ⁇ ⁇ 22 N) has a.
  • the output signals from each phase rotating unit 22 are added by the adding unit 13.
  • the phase rotation unit 22 rotates (changes) the phase of the high frequency component of the output signal j whose band has been expanded by the band expansion unit 12 so as to have a different phase depending on the sound source.
  • the phase rotating unit 22 is composed of, for example, a filter capable of shifting the phase without affecting the amplitude, specifically, an all-pass filter.
  • phase rotating unit 22 Since the phase is rotated at random by the phase rotating unit 22, for example, it is possible to prevent the high frequency component of the band-extended sound source signal from being unnaturally emphasized. In addition, since human auditory characteristics are insensitive to changes in phase in the high frequency range, the high frequency component of the band-extended sound source signal is unnaturally emphasized without giving the user a sense of discomfort. Can be prevented.
  • a high resolution sound source for example, a sound source containing high frequency components after the extended start band f1
  • a standard resolution sound source for example, a sound source not including high frequency components after the extended start band f1
  • the band of the mixed sound source includes the high range after the expansion start band f1.
  • FIG. 6 is a block diagram showing a configuration example of the signal processing device (signal processing device 3) according to the third embodiment.
  • the signal processing unit 3 like the signal processing device 1, the sound source separation unit 11, a band spreading unit 12 (e.g., band extension unit 12 1, 12 2), and an addition unit 13.
  • a mixed sound source signal (hereinafter, appropriately referred to as a mixed sound source signal x 1 ) is input to the sound source separation unit 11.
  • the signal processing device 3 is different from the signal processing device 1 in that the mixed sound source signal x 1 has a system in which the mixed sound source signal x 1 is input not only to the sound source separating unit 11 but also to the adding unit 13.
  • the sound source separation signal s is generated by separating the mixed sound source signal x 1 for each sound source type by the sound source separation unit 11.
  • the sound source separation signals s for each sound source type only the sound source separation signals (in this example, sound source separation signals s 1 and s 2 ) that have not been recorded in high resolution are the corresponding band expansion units 12 1 and 12 2 , respectively.
  • Bandwidth extending unit 121 extends the bandwidth of the sound source separation signal s 1 by performing band spreading process.
  • the band expansion unit 12 2 expands the band of the sound source separation signal s 2 by performing the band expansion process.
  • the band expansion unit 12 1 outputs the expansion band signal p 1 which is a signal of only the high frequency component after the expansion start band f1 among the output signals obtained by applying the band expansion processing to the addition unit 13. Further, the band expansion unit 12 2 outputs the expansion band signal p 2 which is a signal of only the high frequency component after the expansion start band f1 among the output signals obtained by applying the band expansion processing to the addition unit 13.
  • the band expansion units 12 1 and 12 2 output only the expansion band signal to the addition unit 13, and the low frequency components of the sound source separation signals s 1 and s 2 are the mixed sound source signals input to the addition unit 13. This is because it is included in x 1.
  • the addition unit 13 generates and outputs a band-extended sound source signal by adding the extended band signals p 1 , p 2 and the mixed sound source signal x 1.
  • the sound source separation signals s 1 and s 2 are exemplified as the sound source separation signals that are not recorded in high resolution, but the sound source separation signals that are not recorded in high resolution are more than the mixed sound source signal x 1. May be included.
  • FIG. 7 is a block diagram showing a modified example of the signal processing device according to the third embodiment.
  • the sound source separation unit 11 of the signal processing device 3 has the ability to separate the sound source including the high resolution sound source, but the performance of the sound source separation unit 11 is high resolution. It is also assumed that the sound source including the signal sound source cannot be separated.
  • the sound source separation unit 11 of the signal processing device applies the downsampling process to the mixed sound source signal x 1 down converter 11A.
  • the sound source separation unit 11 by the sound source separation unit 11 for the mixed sound source signal x 1 becomes possible.
  • band expansion unit 12 1 has an up-converter 12 A1
  • the band spreading process based band spreading unit 12 1 after the up-sampling has been issued.
  • the band expansion unit 12 2 has an upconverter 12 A2 , and after the upsampling is performed, the band expansion process is performed by the band expansion unit 12 2.
  • the processing by the upconverters 12 A1 and 12 A2 may be performed in the preceding stages of the band expansion units 12 1 and 12 2, respectively.
  • FIG. 8 is a block diagram showing another modification of the signal processing device according to the third embodiment.
  • the sound source separation unit 11 of the signal processing device (signal processing device 3B) according to this modification has a determination unit 11B. It should be noted that the sound source separation unit 11 of the signal processing device 3B assumes an example in which the sound source including the high resolution sound source can be separated into sound sources.
  • the mixed sound source signal x 1 is not supplied to the adding unit 13 but is supplied only to the sound source separating unit 11.
  • the sound source separation unit 11 generates a sound source separation signal hm corresponding to the sound source separation signals s 1 , s 2 and the high resolution recorded sound source signal by performing the sound source separation processing on the mixed sound source signal x 1.
  • the determination unit 11B determines whether or not to apply the band expansion process to each sound source separation signal in the subsequent stage. When the sound source separation signal contains a high frequency component, the determination unit 11B determines that it is not necessary to apply the band expansion process to the sound source separation signal, and outputs the sound source separation signal to the addition unit 13. In this modification, the sound source separation signal hm is determined by the determination unit 11B that it is not necessary to apply the band expansion process, and is supplied from the sound source separation unit 11 to the addition unit 13.
  • the determination unit 11B determines that it is necessary to apply the band expansion process to the sound source separation signal when the sound source separation signal does not contain a high frequency component, and outputs the sound source separation signal to the band expansion unit 12. To do.
  • the source separation signals s 1, s 2 is judged by the judging unit 11B must be applied to a band spreading process, are fed to respective band expander 12 1, 12 2.
  • Bandwidth extending unit 121 generates an output signal j 1 by applying bandwidth extension processing for the sound source separation signal s 1.
  • the bandwidth extension unit 12 1 In the configuration according to the signal processor 3B, outputted from the mixing sound signals x1 it is not supplied to the adder 13, the bandwidth extension unit 12 1, the output signal j 1 including low-frequency component to the adder unit 13 instead of the extended band signal To do.
  • the band expansion unit 12 2 generates the output signal j 2 by applying the band expansion processing to the sound source separation signal s 2.
  • the band expansion unit 12 2 sends the output signal j 2 including the low frequency component to the addition unit 13 instead of the expansion band signal.
  • the addition unit 13 adds the sound source separation signal hm, the output signal j 1 and the output signal j 2 .
  • the signal processing device 3B according to the present modification it is possible to obtain the same effect as the effect obtained based on the configuration of the signal processing device 3 described above. Further, according to the signal processing device 3B according to the present modification, it is automatically determined whether or not the band expansion processing should be applied. Therefore, for example, in the remastering process, the user can expand the band for which sound source separation signal. It is not necessary to know in advance whether or not to apply the processing and select whether or not to apply the bandwidth expansion processing.
  • the type of sound source may be mentioned as the attribute of the sound source, or other attributes such as the signal property of the sound source may be used.
  • the network input is generally the amplitude spectrum of the mixed sound signal
  • the teacher data is the amplitude spectrum of the sound of the target sound source.
  • the sound source separation signal after the sound source separation may be used as.
  • This disclosure can also adopt a cloud computing configuration in which one function is shared and jointly processed by a plurality of devices via a network.
  • the present disclosure can be realized by any form such as an apparatus, a method, a program, and a system. For example, by making it possible to download a program that performs the functions described in the above-described embodiment and downloading and installing the program by a device that does not have the functions described in the above-described embodiment, the control described in the embodiment can be performed in the device. It becomes possible to do.
  • the present disclosure can also be realized by a server that distributes such a program.
  • the items described in each embodiment and modification can be combined as appropriate.
  • the contents of the present disclosure are not construed as being limited by the effects exemplified in the present specification.
  • the present disclosure may also adopt the following configuration.
  • a sound source separation unit that applies sound source separation processing to a mixed sound signal in which signals from multiple sound sources are mixed, A signal processing device having a band expansion unit that applies frequency band expansion processing to each sound source separation signal separated by the sound source separation unit.
  • the signal processing device according to (1) wherein the band expansion unit applies frequency band expansion processing according to the attributes of the sound source separation signal.
  • An addition unit that adds the outputs of the band expansion units provided for each sound source separation signal, and an addition unit.
  • the signal processing apparatus according to (1) or (2) which has a frequency envelope shaping unit that shapes the frequency envelope of the combined output signal output from the adder.
  • the frequency wrapping shaping unit shapes the frequency wrapping of the combined output signal when a predetermined discontinuity is detected before and after f1 when the lower limit of the frequency expanded by the frequency band expansion processing is set to f1.
  • the signal processing device wherein the band expansion unit outputs only an extended band signal which is a signal of a band expanded by the frequency band expansion process.
  • a down converter that applies downsampling processing to the mixed sound signal including a sound source signal containing a high frequency component higher than a predetermined frequency. It has an adder that adds the mixed sound signal and the extended band signal.
  • the signal processing device wherein the sound source separation unit applies sound source separation processing to a signal to which the downsampling processing is applied.
  • the signal processing device which has an adder that adds the sound source separation signal to which the frequency band expansion processing is applied and the sound source separation signal to which the band expansion processing is not applied.
  • the signal processing device which has a determination unit for determining whether or not to apply the frequency band expansion processing to the sound source separation signal.
  • the determination unit determines that the frequency band expansion processing is not applied to the sound source separation signal, and determines that the sound source separation signal has a frequency of a predetermined frequency or higher.
  • the signal processing apparatus according to (11), wherein it is determined that the frequency band expansion processing is applied to the sound source separation signal when the high frequency component of the above is not included.
  • the sound source separation unit applies sound source separation processing to the mixed sound signal in which the signals of multiple sound sources are mixed.
  • the sound source separation unit applies sound source separation processing to the mixed sound signal in which the signals of multiple sound sources are mixed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部とを有する信号処理装置である。 図1

Description

信号処理装置、信号処理方法及びプログラム
 本開示は、信号処理装置、信号処理方法及びプログラムに関する。
 複数の音源からの音が含まれる混合音信号から、目的とする音源の音の信号を抽出する音源分離技術が知られている(例えば、特許文献1を参照のこと)。また、低域成分の信号から高域成分を生成し、得られた高域成分を低域成分の信号に加算することで、より広い周波数帯域の信号を生成する周波数帯域拡張(拡大)技術が提案されている(例えば、特許文献2を参照のこと)。
国際公開2018/047643号
国際公開2015/079946号
 この分野では、適切な周波数帯域拡張処理等が行われることが望まれる。
 本開示は、適切な周波数帯域拡張処理等が行われる信号処理装置、信号処理方法及びプログラムを提供することを目的の一つとする。
 本開示は、例えば、
 複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
 音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
 を有する信号処理装置である。
 本開示は、例えば、
 音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
 帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
 信号処理方法である。
 本開示は、例えば、
 音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
 帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
 信号処理方法をコンピュータに実行させるプログラムである。
図1は、第1の実施形態に係る信号処理装置の構成例を示すブロック図である。 図2は、第1の実施形態に係る帯域拡張部の動作例を説明する際に参照される図である。 図3は、第2の実施形態に係る信号処理装置の構成例を説明する際に参照される図である。 図4は、第2の実施形態に係る信号処理装置において行われる処理を説明する際に参照される図である。 図5は、第2の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。 図6は、第3の実施形態に係る信号処理装置の構成例を説明する際に参照される図である。 図7は、第3の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。 図8は、第3の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。
 以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<実施形態において考慮すべき問題>
<第1の実施形態>
<第2の実施形態>
<第3の実施形態>
<変形例>
 以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。
<実施形態において考慮すべき問題>
 始めに、本開示の理解を容易とするために、実施形態において考慮すべき問題についての説明がなされる。上述したように、周波数帯域拡張処理(以下、帯域拡張処理と適宜、略称される)が行われる装置が知られている。帯域制限された音源の帯域を拡張する際、楽器など音源の種類によって周波数包絡(スペクトル包絡)が異なるため、正しく帯域拡張処理を行うことが困難であった。例えば、シンバル、パーカッションなどの打楽器や尺八、三味線、琴といった和楽器は非常に高い周波数まで成分を含むのに対し、ピアノやバイオリンなどの楽器は高周波に行くにつれての減衰が大きくなる特性がある。各音源が時間的にオーバラップしていない場合は、各時刻において音源の種類を推定し、種類に応じて帯域拡張処理の振る舞い(処理内容)を適宜、変えることは可能であるが、音楽などの場合、一般的に複数の種類の音源が同時になるため、音源の種類に応じて適切な帯域拡張処理を行うことが困難であった。
 また、近年48kHzより大きいサンプリングレートをもつハイレゾリューションオーディオ(以下、ハイレゾリューション音源と適宜、称する)が普及している。ハイレゾリューション音源の制作の際、ボーカルなどいくつかの音声はハイレゾリューション音源で収録されているが、多くの楽器は48kHz以下のサンプリングレートであるスタンダードレゾリューションオーディオ(以下、スタンダードレゾリューション音源と適宜、称する)で収録されていることがあり、再度のマスタリング工程(リマスタリング)ですべての楽器の音をハイレゾリューション化したいという要求がある。この際、ハイレゾリューション収録された音源は手を加えずに、ハイレゾリューション収録されていない音源のみに帯域拡張処理を適用することが好ましいが、ミキシング工程ですべての音源の音が混ざってしまうため、再度のマスタリング工程で音源ごとに帯域拡張処理を行うか否かを選択できない問題があった。本開示は、これらの点に鑑みてなされたものである。以下、本開示の詳細についての説明がなされる。
<第1の実施形態>
[第1の実施形態に係る信号処理装置]
(構成例)
 図1は、第1の実施形態に係る信号処理装置(信号処理装置1)の構成例を示すブロック図である。信号処理装置1は、例えば、音源分離部11と、帯域拡張部12と、加算部13とを有している。本実施形態では、音源分離部11に複数(例えば、N(Nは自然数)個)の音源の音(信号)が混合された混合音信号xが入力される。信号処理装置1は、音源の数に対応するN個の帯域拡張部(帯域拡張部121、帯域拡張部122・・・帯域拡張部12N)を有している。なお、個々の帯域拡張部を区別する必要がない場合には、帯域拡張部は、帯域拡張部12と適宜、総称される。
 音源分離部11は、混合音信号xに対して音源分離処理を適用することにより、各音源の種類に対応する信号である音源分離信号s1、s2・・sNを生成する。音源分離信号s1が帯域拡張部121に供給される。音源分離信号s2が帯域拡張部122に供給される。音源分離信号sNが帯域拡張部12Nに供給される。
 音源分離部11により行われる音源分離処理としては特定の処理に限定されるものでないが、例えば、DNN(Deep Neural Networks)を用いたマルチチャネルウィナーフィルタ(MWF(Multi Channel Wiener Filter))ベースの音源分離処理を適用することができる他、上述した特許文献1に記載された音源分離処理を適用することができる。特許文献1に記載された音源分離処理は、概略的には、時間的に異なる性質の出力をもつ異なる音源分離方式(具体的には、DNNとLSTM(Long Short Term Memory))を用いて振幅スペクトルを推定し、推定結果を所定の結合パラメータを用いて結合することにより音源分離信号を生成する処理である。勿論、音源分離部11により上述した音源分離処理とは異なる音源分離処理が行われても良い。
 帯域拡張部12は、音源分離部11により分離されたそれぞれの音源分離信号sに対して帯域拡張処理を適用する。帯域拡張部12は、例えば、低域の信号成分である音源分離信号sを入力信号とし、当該音源分離信号sに対して帯域拡張処理を施して、その結果得られる出力信号を、低域成分を含み、且つ、帯域が拡張された高域成分を含む出力信号j(出力信号j1、出力信号j2・・出力信号jN)として出力する。帯域拡張部12は、音源分離信号sに対して公知の帯域拡張処理、例えば、上述した特許文献2に記載された帯域拡張処理を適用する。なお、個々の帯域拡張部12には、どの種類の音源分離信号sが入力されるかが対応づけられている。
 なお、以下では、帯域拡張処理により拡張しようとする周波数成分の最も周波数が低い側の端を拡張開始帯域とし、拡張開始帯域よりも周波数が高い帯域の信号を高域成分と称するとともに、拡張開始帯域よりも周波数が低い帯域の信号を低域成分と適宜、称することとする。
 加算部13は、帯域拡張部12から出力される出力信号j(具体的には、出力信号j1、出力信号j2・・出力信号jN)を加算して、合成出力信号Sを生成して出力する。本実施形態では、信号処理装置1の出力である帯域拡張音源信号が合成出力信号Sとされている。
(全体の動作例)
 次に、信号処理装置1で行われる動作例についての説明がなされる。混合音信号xが音源分離部11に入力される。音源分離部11は、混合音信号xに対して音源分離処理を適用することにより音源分離信号sを生成して出力する。帯域拡張部12は、音源分離信号sに対して帯域拡張処理を適用することにより出力信号jを生成して出力する。加算部13は、各出力信号jを加算することにより合成出力信号Sを生成して出力する。
(帯域拡張部の動作例)
 ところで、上述した特許文献2に記載の帯域拡張処理は、混合音を前提にしているため、音源の属性、具体的には、音源の種類に応じた最適な帯域拡張処理を行うことについては考慮されていない。例えば、ドラムのシンバルなどは高い周波数まで包絡が減衰せずに伸びる。そこで、本実施形態では、音源の種類毎に最適な帯域拡張処理を行うために、音源の種類毎に、推定する高域成分(高周波帯域)の周波数包絡を設定する。具体的には、音源の種類に対応した帯域拡張処理のパラメータが設定され、当該パラメータを用いた帯域拡張処理が行われる。音源の種類(例えば、シンバル音)のみを教師データとして学習させられた高周波帯域を推定する機器が帯域拡張部として適用されても良い。
 図2は、音源の種類に応じた周波数包絡の一例を示す。図2の横軸は周波数(Hz)を示し、縦軸は音圧(dB)を示す。また、図2のf1は拡張開始帯域を示す。また、図2における拡張開始帯域f1以降の周波数包絡FE1は例えば音源がボーカルの周波数包絡を模式的に示しており、拡張開始帯域f1以降の周波数包絡FE2は例えば音源がシンバルの周波数包絡を模式的に示している。ボーカルに対応する帯域拡張部12には、周波数包絡FE1を生成するためのパラメータが設定されている。また、シンバルに対応する帯域拡張部12には、周波数包絡FE2を生成するためのパラメータが設定されている。これにより、各帯域拡張部12が自身に入力される音源の属性に応じた適切な帯域拡張処理を行うことができる。なお、パラメータは、帯域拡張処理の内容に応じて適切に設定される。
<第2の実施形態>
 次に、本開示の第2の実施形態についての説明がなされる。なお、第1の実施形態で説明された事項は、特に断らない限り第2の実施形態に対しても適用することができる。また、第1の実施形態と同一または同質の構成については同一の参照符号が付され、重複した説明が適宜、省略される。
[第2の実施形態の概要]
 各音源分離信号に対して独立に帯域拡張処理が行われる場合、帯域拡張処理のアルゴリズムによっては、合成出力信号Sの高域成分が不自然に強調されてしまうことがある。例えば、帯域拡張処理のアルゴリズムが、振幅スペクトルまたはその包絡のみを推定し、位相は一定の方法で複製する(例えば低域成分(低周波数域)と同じものを使う)アルゴリズムで、かつ音源分離アルゴリズムも分離音源ごとに位相が大きく変わらない場合、帯域拡張された各音源分離信号の高域信号は全て似た位相を持つ。したがって、例え各音源分離信号の振幅スペクトルまたはその包絡が正しく推定されていても、高域信号は全て似た位相を持つことから、合成出力信号Sの高域成分が本来よりも不自然に強調される虞がある。本実施形態は、係る事項に対応した構成を有する信号処理装置である。
[第2の実施形態に係る信号処理装置]
(構成例)
 図3は、第2の実施形態に係る信号処理装置(信号処理装置2)の構成例を示すブロック図である。信号処理装置2は、加算部13の後段に周波数包絡整形部21を有する点が信号処理装置1と異なっている。本実施形態では、周波数包絡整形部21の出力が帯域拡張音源信号とされる。
 周波数包絡整形部21は、加算部13から出力される合成出力信号Sの周波数包絡を整形する。例えば、拡張開始帯域(帯域拡張処理により拡張された周波数の下限)f1前後に所定の不連続性が検出された場合に、合成出力信号Sの周波数包絡を整形する。所定の不連続性の検出は、本実施形態では周波数包絡整形部21により行われるが、他の機能ブロックによって行われても良い。周波数包絡整形部21により周波数包絡が整形されることにより、拡張された高域成分の振幅が抑制され、高域成分が不自然に強調されてしまうことを防止することができる。
(動作例)
 本実施形態では、拡張開始帯域f1前後の信号エネルギーの差分が所定以上である場合に不連続性があるものと検出される。図4が参照されつつ、具体例についての説明がなされる。
 図4の横軸は周波数(Hz)を示し、縦軸は音圧(dB)を示す。また、図4のf1は拡張開始帯域を示す。また、図4における拡張開始帯域f1以降の周波数包絡(周波数包絡FE3~FE6)は、合成出力信号Sの高域成分の周波数包絡の例を示している。
 例えば、図4に示すように、拡張開始帯域f1の前後に所定の周波数帯域(f1-Δf)、(f1+Δf)が設定されて、各周波数帯域のエネルギーe(図4で斜線が付された箇所)が周波数包絡毎に求められる。低域側の周波数帯域におけるエネルギーをeL、高域側の周波数帯域におけるエネルギーをeHとし、不連続性を検出するための閾値をThとした場合に、下記の式1を満たす場合には拡張開始帯域f1の前後に不連続性が存在すると判断される。
(eH/eL)>Th ・・・(1)
 図4に示す例では、合成出力信号Sの高域成分の周波数包絡が周波数包絡FE3である場合に上述した式1を満たすことから、不連続性が存在すると検出される。周波数包絡FE3だと高域成分が不自然に強調されることから、周波数包絡整形部21により周波数包絡を整形する処理、具体的には、高域成分の振幅を抑制する処理が行われる。振幅を抑制する処理は、高域成分の振幅を一律に抑制しても良いし、所定の閾値より大きい振幅のみを抑制するようにしても良い。
 一方、図4に示す例では、合成出力信号Sの高域成分の周波数包絡が周波数包絡FE4~FE6である場合に上述した式1を満たさないことから、不連続性が存在しないと判断される。この場合には、高域成分が不自然に強調される虞がないことから、周波数包絡整形部21による処理は行われずに、合成出力信号Sが周波数包絡整形部21から出力される。
 以上説明した第2の実施形態によれば、帯域拡張処理が行われた場合に、拡張開始帯域以降の高域成分が不自然に強調されてしまうことを防止することができる。
(変形例)
 続いて、第2の実施形態に係る信号処理装置の変形例についての説明がなされる。図5は、変形例に係る信号処理装置(信号処理装置2A)の構成例を示すブロック図である。
 信号処理装置2Aは、周波数包絡整形部21を有しておらず、その代わりに、位相回転部22を有している。位相回転部22は、帯域拡張部12と加算部13との間に設けられている。具体的には、信号処理装置2Aは、帯域拡張部12に対応した数の位相回転部22(位相回転部221、222、・・・22N)を有している。各位相回転部22からの出力信号が加算部13により加算される。
 位相回転部22は、帯域拡張部12により帯域拡張された出力信号jの高域成分を、音源に応じて異なる位相をもつように位相を回転(変更)する。位相回転部22は、例えば、振幅に影響を与えることなく位相をシフトできるフィルタ、具体的には、オールパスフィルタにより構成される。
 位相回転部22により、例えば位相がランダムに回転させられるので、帯域拡張音源信号の高域成分が不自然に強調されてしまうことを防止することができる。また、人間の聴覚特性は高域での位相の変化に鈍感であるため、ユーザに聴感上の違和感を与えてしまうことなく、帯域拡張音源信号の高域成分が不自然に強調されてしまうことを防止することができる。
<第3の実施形態>
 次に、本開示の第3の実施形態についての説明がなされる。なお、第1、第2の実施形態で説明された事項は、特に断らない限り第3の実施形態に対しても適用することができる。また、第1、第2の実施形態と同一または同質の構成については同一の参照符号が付され、重複した説明が適宜、省略される。
[第3の実施形態の概要]
 上述したように、ハイレゾリューション音源(例えば、拡張開始帯域f1以降の高域成分を含む音源)とスタンダードレゾリューション音源(例えば、拡張開始帯域f1以降の高域成分を含まない音源)が含まれる音源(以下、混合音源と適宜、称する)のうち、スタンダードレゾリューション音源のみに対して帯域拡張処理を適用したい要求が存在する。本実施形態は、係る要求に対応する実施形態である。なお、混合音源の帯域は拡張開始帯域f1以降の高域を含む。
[第3の実施形態に係る信号処理装置]
(構成例)
 図6は、第3の実施形態に係る信号処理装置(信号処理装置3)の構成例を示すブロック図である。信号処理装置3は、信号処理装置1と同様に、音源分離部11と、帯域拡張部12(例えば、帯域拡張部121、122)と、加算部13とを有している。音源分離部11には混合音源の信号(以下、混合音源信号x1と適宜、称する)が入力される。信号処理装置3は、混合音源信号x1が音源分離部11だけでなく加算部13に入力される系を有している点が、信号処理装置1と異なっている。
(動作例)
 続いて、信号処理装置3の動作例についての説明がなされる。混合音源信号x1が音源分離部11により音源種類毎に分離されることにより、音源分離信号sが生成される。音源種類毎の音源分離信号sのうち、ハイレゾリューション録音されていない音源分離信号(本例では、音源分離信号s1、s2)のみが、対応する帯域拡張部121、122のそれぞれに供給される。帯域拡張部121は、帯域拡張処理を行うことにより音源分離信号s1の帯域を拡張する。また、帯域拡張部122は、帯域拡張処理を行うことにより音源分離信号s2の帯域を拡張する。
 帯域拡張部121は、帯域拡張処理を適用して得られる出力信号のうち、拡張開始帯域f1以降の高域成分のみの信号である拡張帯域信号p1を加算部13に出力する。また、帯域拡張部122は、帯域拡張処理を適用して得られる出力信号のうち、拡張開始帯域f1以降の高域成分のみの信号である拡張帯域信号p2を加算部13に出力する。ここで、帯域拡張部121、122が拡張帯域信号のみを加算部13に出力するのは、音源分離信号s1、s2の低域成分は、加算部13に入力される混合音源信号x1に含まれているからである。
 加算部13は、拡張帯域信号p1、p2および混合音源信号x1を加算することにより帯域拡張音源信号を生成して出力する。
 以上説明した第3の実施形態によれば、ハイレゾリューション録音された音源信号の高域成分は変えることなく、ハイレゾリューション録音されていない音源信号のみを帯域拡張することが可能となる。なお、上述した説明では、ハイレゾリューション録音されていない音源分離信号として音源分離信号s1、s2が例示されたが、混合音源信号x1により多くのハイレゾリューション録音されていない音源分離信号が含まれていても良い。
(変形例1)
 図7は、第3の実施形態に係る信号処理装置の変形例を示すブロック図である。上述した例では、信号処理装置3の音源分離部11が、ハイレゾリューション音源を含む音源を音源分離できる性能を有している例を想定しているが、音源分離部11の性能がハイレゾリューション音源を含む音源を音源分離できない場合も想定される。
 この場合には、図7に示すように、本変形例に係る信号処理装置(信号処理装置3A)の音源分離部11は、混合音源信号x1に対してダウンサンプリング処理を適用するダウンコンバータ11Aを有している。ダウンコンバータ11Aにダウンサンプリングを行うことにより、混合音源信号x1に対する音源分離部11による音源分離部11が可能となる。係る構成の場合は、例えば、帯域拡張部121がアップコンバータ12A1を有し、アップサンプリングが行われた後に帯域拡張部121による帯域拡張処理が行われる。同様に、帯域拡張部122がアップコンバータ12A2を有し、アップサンプリングが行われた後に帯域拡張部122による帯域拡張処理が行われる。アップコンバータ12A1、12A2による処理は、帯域拡張部121、122のそれぞれの前段で行われても良い。
(変形例2)
 図8は、第3の実施形態に係る信号処理装置の他の変形例を示すブロック図である。本変形例に係る信号処理装置(信号処理装置3B)の音源分離部11は、判定部11Bを有している。なお、信号処理装置3Bの音源分離部11は、ハイレゾリューション音源を含む音源を音源分離できる性能を有している例を想定している。
 信号処理装置3Bでは、混合音源信号x1が、加算部13に供給されずに音源分離部11に対してのみ供給される。音源分離部11は、混合音源信号x1に対して音源分離処理を行うことにより、音源分離信号s1、s2およびハイレゾリューション録音された音源信号に対応する音源分離信号hmを生成する。判定部11Bは、各音源分離信号に対して、後段で帯域拡張処理を適用するか否かを判定する。判定部11Bは、音源分離信号に高域成分が含まれる場合には当該音源分離信号に帯域拡張処理を適用する必要がないと判定し、当該音源分離信号を加算部13に出力する。本変形例では、音源分離信号hmが、帯域拡張処理を適用する必要がないと判定部11Bにより判定され、音源分離部11から加算部13に供給される。
 また、判定部11Bは、音源分離信号に高域成分が含まれない場合には当該音源分離信号に帯域拡張処理を適用する必要があると判定し、当該音源分離信号を帯域拡張部12に出力する。本変形例では、音源分離信号s1、s2が、帯域拡張処理を適用する必要があると判定部11Bにより判定され、帯域拡張部121、122のそれぞれに供給される。
 帯域拡張部121は、音源分離信号s1に対する帯域拡張処理を適用することにより出力信号j1を生成する。信号処理装置3Bに係る構成では、混合音源信号x1が加算部13に供給されないことから、帯域拡張部121は、拡張帯域信号ではなく低域成分を含む出力信号j1を加算部13に出力する。また、帯域拡張部122は、音源分離信号s2に対する帯域拡張処理を適用することにより出力信号j2を生成する。信号処理装置3Bに係る構成では、混合音源信号x1が加算部13に供給されないことから、帯域拡張部122は、拡張帯域信号ではなく低域成分を含む出力信号j2を加算部13に出力する。加算部13は、音源分離信号hm、出力信号j1および出力信号j2を加算する。
 本変形例に係る信号処理装置3Bによれば、上述した信号処理装置3の構成に基づいて得られる効果と同様の効果を得ることができる。また、本変形例に係る信号処理装置3Bによれば、帯域拡張処理を適用すべきか否かが自動で判定されるので、例えば、リマスタリング工程で、ユーザがどの音源分離信号に対して帯域拡張処理を適用すべきかを事前に把握して帯域拡張処理を適用するか否かを選択する必要がなくなる。
<変形例>
 以上、本開示の複数の実施形態について説明したが、本開示は、上述した実施形態に限定されることはなく、本開示の趣旨を逸脱しない範囲で種々の変形が可能である。
 上述した実施形態では、音源の属性として音源の種類を挙げたか、音源の信号的な性質等、他の属性であっても良い。
 音源分離部としてDNNやLSTMが適用される場合に、一般にネットワークの入力は混合音信号の振幅スペクトルとされ、教師データは、目的とする音源の音の振幅スペクトルとされるが、学習における教師データとして音源分離後の音源分離信号が用いられても良い。
 本開示は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成を採用することもできる。
 また、本開示は、装置、方法、プログラム、システム等、任意の形態により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。また、本明細書で例示された効果により本開示の内容が限定して解釈されるものではない。
 本開示は、以下の構成も採ることができる。
(1)
 複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
 前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
 を有する信号処理装置。
(2)
 前記帯域拡張部は、前記音源分離信号の属性に応じた周波数帯域拡張処理を適用する
 (1)に記載の信号処理装置。
(3)
 音源分離信号毎に設けられた前記帯域拡張部のそれぞれの出力を加算する加算部と、
 前記加算部から出力される合成出力信号の周波数包絡を整形する周波数包絡整形部と
 を有する
 (1)又は(2)に記載の信号処理装置。
(4)
 前記周波数包絡整形部は、前記周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、前記合成出力信号の周波数包絡を整形する
 (3)に記載の信号処理装置。
(5)
 f1前後の信号エネルギーの差分が所定以上である場合に前記不連続性があるものと検出される
 (4)に記載の信号処理装置。
(6)
 前記帯域拡張部の出力信号に対して位相を回転させる処理を適用する位相回転部を有する
 (1)又は(2)に記載の信号処理装置。
(7)
 前記位相回転部は、オールパスフィルタによって構成されている
 (6)に記載の信号処理装置。
(8)
 前記帯域拡張部は、前記周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力する
 (1)に記載の信号処理装置。
(9)
 所定の周波数より高い高域成分を含む音源の信号を含む前記混合音信号に対して、ダウンサンプリング処理を適用するダウンコンバータと、
 前記混合音信号と前記拡張帯域信号とを加算する加算部とを有し、
 前記音源分離部は、前記ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
 (8)に記載の信号処理装置。
(10)
 前記周波数帯域拡張処理が適用された前記音源分離信号と前記帯域拡張処理が適用されていない前記音源分離信号とを加算する加算部を有する
 (1)に記載の信号処理装置。
(11)
 前記音源分離信号に対して前記周波数帯域拡張処理を適用するか否かを判定する判定部を有する
 (10)に記載の信号処理装置。
(12)
 前記判定部は、前記音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に前記周波数帯域拡張処理を適用しないと判定し、前記音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に前記周波数帯域拡張処理を適用すると判定する
 (11)に記載の信号処理装置。
(13)
 音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
 帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
 信号処理方法。
(14)
 音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
 帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
 信号処理方法をコンピュータに実行させるプログラム。
1,2,2A,3,3A,3B・・・信号処理装置
11・・・音源分離部
11A・・・ダウンコンバータ
12・・・帯域拡張部
13・・・加算部
21・・・周波数包絡整形部
22・・・位相回転部

Claims (14)

  1.  複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
     前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
     を有する信号処理装置。
  2.  前記帯域拡張部は、前記音源分離信号の属性に応じた周波数帯域拡張処理を適用する
     請求項1に記載の信号処理装置。
  3.  音源分離信号毎に設けられた前記帯域拡張部のそれぞれの出力を加算する加算部と、
     前記加算部から出力される合成出力信号の周波数包絡を整形する周波数包絡整形部と
     を有する
     請求項1に記載の信号処理装置。
  4.  前記周波数包絡整形部は、前記周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、前記合成出力信号の周波数包絡を整形する
     請求項3に記載の信号処理装置。
  5.  f1前後の信号エネルギーの差分が所定以上である場合に前記不連続性があるものと検出される
     請求項4に記載の信号処理装置。
  6.  前記帯域拡張部の出力信号に対して位相を回転させる処理を適用する位相回転部を有する
     請求項1に記載の信号処理装置。
  7.  前記位相回転部は、オールパスフィルタによって構成されている
     請求項6に記載の信号処理装置。
  8.  前記帯域拡張部は、前記周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力する
     請求項1に記載の信号処理装置。
  9.  所定の周波数より高い高域成分を含む音源の信号を含む前記混合音信号に対して、ダウンサンプリング処理を適用するダウンコンバータと、
     前記混合音信号と前記拡張帯域信号とを加算する加算部とを有し、
     前記音源分離部は、前記ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
     請求項8に記載の信号処理装置。
  10.  前記周波数帯域拡張処理が適用された前記音源分離信号と前記周波数帯域拡張処理が適用されていない前記音源分離信号とを加算する加算部を有する
     請求項1に記載の信号処理装置。
  11.  前記音源分離信号に対して前記周波数帯域拡張処理を適用するか否かを判定する判定部を有する
     請求項10に記載の信号処理装置。
  12.  前記判定部は、前記音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に前記周波数帯域拡張処理を適用しないと判定し、前記音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に前記周波数帯域拡張処理を適用すると判定する
     請求項11に記載の信号処理装置。
  13.  音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
     帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
     信号処理方法。
  14.  音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
     帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
     信号処理方法をコンピュータに実行させるプログラム。
PCT/JP2020/028423 2019-09-24 2020-07-22 信号処理装置、信号処理方法及びプログラム WO2021059718A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020227007951A KR20220066886A (ko) 2019-09-24 2020-07-22 신호 처리 장치, 신호 처리 방법 및 프로그램
JP2021548384A JPWO2021059718A1 (ja) 2019-09-24 2020-07-22
US17/761,572 US12051436B2 (en) 2019-09-24 2020-07-22 Signal processing apparatus, signal processing method, and program
CN202080065332.1A CN114467139A (zh) 2019-09-24 2020-07-22 信号处理装置、信号处理方法和程序
DE112020004506.4T DE112020004506T5 (de) 2019-09-24 2020-07-22 Signalverarbeitungseinrichtung, signalverarbeitungsverfahren und programm

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-172688 2019-09-24
JP2019172688 2019-09-24

Publications (1)

Publication Number Publication Date
WO2021059718A1 true WO2021059718A1 (ja) 2021-04-01

Family

ID=75166566

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/028423 WO2021059718A1 (ja) 2019-09-24 2020-07-22 信号処理装置、信号処理方法及びプログラム

Country Status (6)

Country Link
US (1) US12051436B2 (ja)
JP (1) JPWO2021059718A1 (ja)
KR (1) KR20220066886A (ja)
CN (1) CN114467139A (ja)
DE (1) DE112020004506T5 (ja)
WO (1) WO2021059718A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024161995A1 (ja) * 2023-02-02 2024-08-08 パナソニックIpマネジメント株式会社 信号処理装置、信号処理方法、及び信号処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
WO2018177611A1 (en) * 2017-03-31 2018-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5488389B2 (ja) * 2010-10-20 2014-05-14 ヤマハ株式会社 音響信号処理装置
WO2014125640A1 (ja) 2013-02-18 2014-08-21 株式会社小松製作所 油圧ショベル
WO2015079946A1 (ja) 2013-11-29 2015-06-04 ソニー株式会社 周波数帯域拡大装置および方法、並びにプログラム
US10390147B2 (en) * 2015-02-24 2019-08-20 Gn Hearing A/S Frequency mapping for hearing devices
JP6356360B2 (ja) * 2015-11-13 2018-07-11 株式会社日立国際電気 音声通信システム
CN107547983B (zh) * 2016-06-27 2021-04-27 奥迪康有限公司 用于提高目标声音的可分离性的方法和听力装置
US10924849B2 (en) 2016-09-09 2021-02-16 Sony Corporation Sound source separation device and method
KR101885759B1 (ko) 2016-11-01 2018-08-06 한국생산기술연구원 보일러 튜브의 회분점착저감 및 부식저감 방법
EP3471440B1 (en) * 2017-10-10 2024-08-14 Oticon A/s A hearing device comprising a speech intelligibilty estimator for influencing a processing algorithm

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
WO2018177611A1 (en) * 2017-03-31 2018-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024161995A1 (ja) * 2023-02-02 2024-08-08 パナソニックIpマネジメント株式会社 信号処理装置、信号処理方法、及び信号処理プログラム

Also Published As

Publication number Publication date
CN114467139A (zh) 2022-05-10
US12051436B2 (en) 2024-07-30
US20220375485A1 (en) 2022-11-24
KR20220066886A (ko) 2022-05-24
JPWO2021059718A1 (ja) 2021-04-01
DE112020004506T5 (de) 2022-08-11

Similar Documents

Publication Publication Date Title
US8219223B1 (en) Editing audio assets
US9530396B2 (en) Visually-assisted mixing of audio using a spectral analyzer
JP5957446B2 (ja) 音響処理システム及び方法
WO2010024371A1 (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
EP1635611B1 (en) Audio signal processing apparatus and method
US8295508B2 (en) Processing an audio signal
EP3179476B1 (en) Coding device and method, and program
EP2946382A1 (en) Vehicle engine sound extraction and reproduction
WO2005101898A2 (en) A method and system for sound source separation
WO2021059718A1 (ja) 信号処理装置、信号処理方法及びプログラム
US20120020483A1 (en) System and method for robust audio spatialization using frequency separation
JP2004021224A (ja) デジタル音声処理方法及び装置、並びにコンピュータプログラム
CN113348508B (zh) 电子设备、方法和计算机程序
WO2021252795A2 (en) Perceptual optimization of magnitude and phase for time-frequency and softmask source separation systems
WO2022097414A1 (ja) 信号処理装置、信号処理方法およびプログラム
JP4840423B2 (ja) 音声信号処理装置および音声信号処理方法
JP5051051B2 (ja) 電子透かし情報の埋め込みおよび抽出を行う装置、方法およびプログラム
US8767969B1 (en) Process for removing voice from stereo recordings
WO2023047620A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11750975B2 (en) Signal processing device, signal processing method, and recording medium
JP2007033804A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
Disch et al. Audio watermarking using subband modulation spectra
WO2016148298A1 (ja) 信号処理装置及び信号処理方法
JP2007264431A (ja) 音源分離システム、エンコーダおよびデコーダ
JP2005346114A (ja) 波形信号生成方法、波形信号生成装置および記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20869975

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2021548384

Country of ref document: JP

122 Ep: pct application non-entry in european phase

Ref document number: 20869975

Country of ref document: EP

Kind code of ref document: A1