WO2024070127A1 - 音場再現装置、音場再現方法及び音場再現システム - Google Patents
音場再現装置、音場再現方法及び音場再現システム Download PDFInfo
- Publication number
- WO2024070127A1 WO2024070127A1 PCT/JP2023/025364 JP2023025364W WO2024070127A1 WO 2024070127 A1 WO2024070127 A1 WO 2024070127A1 JP 2023025364 W JP2023025364 W JP 2023025364W WO 2024070127 A1 WO2024070127 A1 WO 2024070127A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound field
- sound
- signal
- unit
- field reproduction
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000008569 process Effects 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 34
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 27
- 230000005236 sound signal Effects 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 description 27
- 102100029136 Collagen alpha-1(II) chain Human genes 0.000 description 20
- 101000771163 Homo sapiens Collagen alpha-1(II) chain Proteins 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 101150087667 spk1 gene Proteins 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 5
- 101000984710 Homo sapiens Lymphocyte-specific protein 1 Proteins 0.000 description 3
- 102100027105 Lymphocyte-specific protein 1 Human genes 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
Definitions
- This disclosure relates to a sound field reproduction device, a sound field reproduction method, and a sound field reproduction system.
- Scene-based 3D sound reproduction technology is a method of reproducing a 3D sound field in real time using speakers arranged to surround the viewing environment (space) by performing signal processing on multi-channel signals recorded (sound pickup) using an Ambisonics microphone, which has multiple directional microphone elements arranged on a solid sphere or a hollow sphere, to reproduce a 3D sound field in real time as if the listener were present at the location where the Ambisonics microphone was installed (within the recording space).
- Patent Document 1 for example, is known as a prior art related to sound field reproduction.
- Patent Document 1 discloses a signal processing device that acquires a plurality of pickup signals based on sound collected by a plurality of pickup units that are installed together in a target sound collection space and are installed in a plurality of different orientations according to the position of a sound source and the position of an object that reflects the sound emitted from the sound source, and generates an acoustic signal corresponding to a specified listening point in the target sound collection space based on the acquired plurality of pickup signals.
- Patent Document 1 The configuration of Patent Document 1 is premised on the existence of a listening point within a target sound collection space in which multiple sound collection units are arranged. For this reason, even if one tries to build a scene-based 3D sound system using Patent Document 1, the listener must be present within the target sound collection space in which the sound collection units are arranged. In other words, if the listener is in a space different from the target sound collection space, there is a problem in that it is difficult to reproduce the sound field so that the acoustic signal picked up within the target sound collection space can be heard within that target sound collection space.
- noise or unwanted sounds from within the sound field recording space can be mixed into the recorded audio signal, making it difficult to output clear, realistic, and immersive sound to the listener.
- Unwanted sounds are, for example, announcements and other sounds played within the sound field recording space, and are a type of sound source that is not necessarily required for the listener to experience a realistic and immersive experience.
- the present disclosure has been devised in light of the above-mentioned conventional situation, and aims to provide a sound field reproduction device, a sound field reproduction method, and a sound field reproduction system that suppress sounds from a specific direction as seen by a listener from sound field components recorded using an Ambisonics microphone, and realizes reproduction of a clear, realistic, and immersive sound field within the sound field recording space within the sound field reproduction space.
- the present disclosure provides a sound field reproduction device including a sound source extraction direction control unit that receives a designation of a sound source extraction direction in a sound field recording space in which a recording device is arranged, a delay unit that applies a predetermined amount of delay processing to low-order basis acoustic signals based on encoding processing using a recording signal by the recording device, a subtraction unit that performs subtraction processing of a reference signal in the sound source extraction direction from the low-order basis acoustic signals after the delay processing, a speaker drive signal generation unit that generates a speaker drive signal for each speaker based on the low-order basis acoustic signals after the subtraction processing and arrangement information of a plurality of speakers provided in a sound field reproduction space different from the sound field recording space, and a sound field reproduction unit that outputs a speaker drive signal for each speaker from each of the plurality of speakers.
- the present disclosure also provides a sound field reproduction method including the steps of receiving a designation of a sound source extraction direction in a sound field recording space in which a recording device is placed, applying a predetermined amount of delay processing to low-order basis acoustic signals based on an encoding process using a signal recorded by the recording device, subtracting a reference signal in the sound source extraction direction from the low-order basis acoustic signals after the delay processing, generating a speaker drive signal for each speaker based on the low-order basis acoustic signals after the subtraction processing and arrangement information of a plurality of speakers provided in a sound field reproduction space different from the sound field recording space, and outputting the speaker drive signal for each speaker from each of the plurality of speakers.
- the present disclosure also provides a sound field reproduction system comprising: a sound field recording apparatus having a recording device capable of recording a sound source in a sound field recording space; and a sound field reproduction apparatus that reproduces the sound signal recorded by the recording device in a sound field reproduction space different from the sound field recording space, the sound field reproduction apparatus comprising: a sound source extraction direction control unit that receives a designation of a sound source extraction direction in the sound field recording space in which the recording device is arranged; a delay unit that applies a predetermined amount of delay processing to low-order basis sound signals based on an encoding process using a recording signal by the recording device; a subtraction unit that performs subtraction processing of a reference signal in the sound source extraction direction from the low-order basis sound signals after the delay processing; a speaker drive signal generation unit that generates a speaker drive signal for each speaker based on the low-order basis sound signals after the subtraction processing and arrangement information of a plurality of speakers provided in a sound field reproduction space different from the sound field recording space; and a sound
- the present disclosure it is possible to suppress sounds from a specific direction as seen by the listener from the sound field components recorded using an Ambisonics microphone, and to reproduce in the sound field reproduction space a clear, realistic and immersive sound field that is in the sound field recording space.
- FIG. 1 shows an example of a basis of Ambisonics components based on a spherical harmonic expansion for order n and degree m.
- FIG. 1 is a block diagram showing an example of a system configuration of a sound field reproduction system according to a first embodiment.
- FIG. 1 is a diagram showing an example of an outline of operations from sound field recording to sound field reproduction according to the first embodiment; 1 is a flowchart showing an example of an operation procedure for sound field reproduction by the sound field reproduction device according to the first embodiment in a chronological order.
- FIG. 13 is a diagram showing an example of an outline of operations from sound field recording to sound field reproduction in the second embodiment; 11 is a flowchart showing an example of a procedure for reproducing a sound field by the sound field reproduction device according to the second embodiment in a chronological order.
- FIG. 13 is a diagram showing an example of an outline of operations from sound field recording to sound field reproduction according to the third embodiment;
- 11 is a flowchart showing an example of a procedure for reproducing a sound field by the sound field reproduction device according to the third embodiment in a chronological order.
- FIG. 13 is a diagram showing an example of an outline of operations from sound field recording to sound field reproduction according to the fourth embodiment; 11 is a flowchart showing an example of a procedure for sound field reproduction performed by the sound field reproduction device according to the fourth embodiment in a chronological
- a scene-based stereophonic reproduction technology using an Ambisonics microphone as a recording device for recording sound source signals such as sound, music, and human voices in a sound field recording space (e.g., a live venue)
- sound source signals such as sound, music, and human voices in a sound field recording space
- the signals (recorded signals) recorded by the multiple microphone elements that make up the Ambisonics microphone or point sound sources are represented (encoded) as an intermediate representation ITMR1 (see FIG. 1) using spherical harmonic functions or a B-format signal, thereby handling the sound field coming from all directions in a unified manner in the Ambisonics signal domain (see below).
- this intermediate representation is decoded to generate speaker drive signals, thereby realizing the desired sound field reproduction in the sound field reproduction space (e.g., a satellite venue).
- Fig. 1 is a diagram showing a schematic diagram of the concept from sound field recording to sound field reproduction in the scene-based stereophonic reproduction technology using an Ambisonics microphone 11.
- the Ambisonics microphone 11 is placed in a sound field recording space such as a live venue LV1.
- a performance or the like is performed by multiple sound sources (for example, in the case of a band performance by multiple people, various sound sources such as vocals, bass, guitar, drums, etc.), and the sounds of the performance or the like are recorded by the Ambisonics microphone 11.
- the Ambisonics microphone 11 has four microphone elements Mc1, Mc2, Mc3, and Mc4. Each of the microphone elements Mc1 to Mc4 is arranged in midair so that it faces one of the four vertices from the center of the cube CB1 in FIG. 1 when the direction Dr1 is the front direction, and has unidirectionality with respect to each vertex direction.
- the microphone element Mc1 faces the front left upper left (FLU: Front Left Up) of the Ambisonics microphone 11 and records sound in the front left upper (FLU) direction.
- the microphone element Mc2 faces the front right lower (FRD: Front Right Down) of the Ambisonics microphone 11 and records sound in the front right lower (FRD) direction.
- Microphone element Mc3 faces the back left down (BLD: Back Left Down) of the Ambisonics microphone 11 and records sound from the back left down direction.
- Microphone element Mc4 faces the back right up (BRU: Back Right Up) of the Ambisonics microphone 11 and records sound from the back right up direction.
- A-format signals The recorded signals of sounds from these four directions (i.e., FLU, FRD, BLD, BRU) are called A-format signals.
- A-format signals cannot be used as is and are converted into B-format signals as intermediate representations ITMR1 that have directional characteristics (directivity).
- B-format signals include, for example, a B-format signal W for sounds from all directions (omnidirectional), a B-format signal X for sounds in the front-back direction, a B-format signal Y for sounds in the left-right direction, and a B-format signal Z for sounds in the up-down direction.
- A-format signals are converted into B-format signals using the following conversion formula:
- a total of eight speakers SPk1, SPk2, SPk3, SPk4, SPk5, SPk6, SPk7, and SPk8 are placed at each vertex of a sound field reproduction space (for example, satellite venue STL1) modeled as a cube, and a three-dimensional coordinate system similar to that of the sound field recording space (for example, live venue LV1) (i.e., the front/back, left/right, up/down directions are parallel or the same direction) is considered.
- a sound field reproduction space for example, satellite venue STL1
- live venue LV1 for example, the front/back, left/right, up/down directions are parallel or the same direction
- the position of each of the speakers SPk1 to SPk8 can be specified by a predetermined distance and angle (azimuth angle ⁇ i and elevation angle ⁇ i ) from a reference position (e.g., central position LSP1) of the sound field reproduction space (e.g., satellite venue STL1).
- i is a variable indicating the speaker placed in the sound field reproduction space (e.g., satellite venue STL1), and takes an integer from 1 to 8 in the example of FIG.
- the sound field in the sound field recording space (for example, live venue LV1) can be freely reproduced in the sound field reproduction space (for example, satellite venue STL1).
- the front direction of the listener is set as the reference direction, and it is possible to reproduce and output the sound of any three-dimensional direction (for example, the sound source presentation direction ⁇ target described later) from the reference direction.
- Figure 2 shows an example of the basis of Ambisonics components based on a spherical harmonic expansion for order n and degree m.
- the horizontal axis (m) in FIG. 2 indicates the degree, and the vertical axis (n) in FIG. 2 indicates the order.
- the degree m has values from -n to +n.
- Fig. 3 is a block diagram showing an example of the system configuration of the sound field reproduction system 100 according to the first embodiment.
- Fig. 4 is a diagram showing an example of the operation overview from sound field recording to sound field reproduction according to the first embodiment.
- the sound field reproduction system 100 includes a sound field recording device 1 and a sound field reproduction device 2.
- the sound field recording device 1 and the sound field reproduction device 2 are connected to each other via a network NW1 so that data communication is possible between them.
- the network NW1 may be a wired network or a wireless network.
- the wired network corresponds to at least one of a wired LAN (Local Area Network), a wired WAN (Wide Area Network), and a power line communication (PLC), and may be other network configurations capable of wired communication.
- the wireless network corresponds to at least one of a wireless LAN such as Wi-Fi (registered trademark), a wireless WAN, a short-range wireless communication such as Bluetooth (registered trademark), and a mobile communication network such as 4G or 5G, and may be other network configurations capable of wireless communication.
- a wireless LAN such as Wi-Fi (registered trademark)
- a wireless WAN such as Wi-Fi (registered trademark)
- a short-range wireless communication such as Bluetooth (registered trademark)
- a mobile communication network such as 4G or 5G
- the sound field recording device 1 is placed, for example, in a sound field recording space (for example, a live venue LV1) and includes an Ambisonics microphone 11, an A/D conversion unit 12, an encoding unit 13, and a microphone element direction designation unit 14. Note that it is sufficient for the sound field recording device 1 to have at least the Ambisonics microphone 11, and the A/D conversion unit 12, the encoding unit 13, and the microphone element direction designation unit 14 may be provided in the sound field reproduction device 2. In other words, the Ambisonics microphone 11 may be provided outside the sound field reproduction device 2.
- the Ambisonics microphone 11 has four microphone elements Mc1, Mc2, Mc3, and Mc4.
- the microphone element Mc1 records the sound in the upper left direction in front (see FIG. 1)
- the microphone element Mc2 records the sound in the lower right direction in front (see FIG. 1)
- the microphone element Mc3 records the sound in the lower left direction in the rear (see FIG. 1), and the sound in the upper right direction in the rear (see FIG. 1).
- the Ambisonics microphone 11 may have more unidirectional microphone elements than the four microphone elements Mc1, Mc2, Mc3, and Mc4 arranged in the air, or may have omnidirectional microphone elements arranged on a hard sphere.
- the A/D conversion unit 12, the encoding unit 13, and the microphone element direction designation unit 14 are configured by a semiconductor chip or dedicated hardware that implements at least one of electronic devices such as a CPU (Central Processing Unit), a DSP (Digital Signal Processor), a GPU (Graphical Processing Unit), and an FPGA (Field Programmable Gate Array).
- a CPU Central Processing Unit
- DSP Digital Signal Processor
- GPU Graphics Processing Unit
- FPGA Field Programmable Gate Array
- the A/D conversion unit 12 converts the analog recording signals from each microphone element that makes up the Ambisonics microphone 11 into digital recording signals and sends them to the encoding unit 13.
- Equation (4) A m n is an expansion coefficient, and R n (kr) is a radial function term.
- N an infinite sum with respect to the order n is approximated by truncating it at a finite order N, and the accuracy of sound field reproduction changes depending on this truncation order N.
- the truncation order is expressed as N.
- i is the imaginary unit
- j n (kr) is the n-th order spherical Bessel function
- j ' n (kr) is its derivative.
- the expansion coefficient vector ⁇ m n for this plane wave is treated as a B-format signal (intermediate representation) that is the output of the encoding process by the encoding unit 13.
- this expansion coefficient vector may be referred to as an Ambisonics domain signal or simply an Ambisonics signal.
- the recorded signal which is a time domain signal after conversion by the A/D conversion unit 12, is converted into an Ambisonics signal (e.g., a first-order Ambisonics signal), and this Ambisonics signal (e.g., a first-order Ambisonics signal) is decoded by each of the first decoding unit 25 and the second decoding unit 26 of the sound field reproduction device 2 and converted into a speaker drive signal.
- an Ambisonics signal e.g., a first-order Ambisonics signal
- this Ambisonics signal e.g., a first-order Ambisonics signal
- the sound field reproduction device 2 is placed, for example, in a sound field reproduction space (for example, satellite venue STL1), and includes a sound source extraction direction control unit 21, a sound source presentation direction control unit 22, a re-encoding unit 23, a speaker direction designation unit 24, a first decoding unit 25, a second decoding unit 26, a signal mixing unit 27, a sound field reproduction unit 28, and speakers SPk1, SPk2, ..., SPk8.
- a sound field reproduction space for example, satellite venue STL1
- the number of speakers arranged is 8 as an example, but it goes without saying that it is not limited to 8 as long as it is an integer equal to or greater than 2.
- the sound source extraction direction control unit 21, sound source presentation direction control unit 22, re-encoding unit 23, speaker direction designation unit 24, first decoding unit 25, second decoding unit 26, signal mixing unit 27 and sound field reproduction unit 28 are configured by a semiconductor chip equipped with at least one of electronic devices such as a CPU, DSP, GPU, FPGA, etc., or dedicated hardware.
- the signal mixing unit 27 mixes the speaker drive signals corresponding to the high-order base acoustic signals from the first decoding unit 25 and the speaker drive signals corresponding to the low-order base acoustic signals from the second decoding unit 26 so as to correspond to each speaker, and sends the mixed signals to the sound field reproduction unit 28.
- the configuration of the signal mixing unit 27 may be omitted from the sound field reproduction device 2, in which case only the high-order base acoustic signals from the first decoding unit 25 are output from each of the speakers SPk1 to SPk8 via the sound field reproduction unit 28.
- the sound field reproduction unit 28 converts the digital speaker drive signals for each speaker after mixing by the signal mixing unit 27 into analog speaker drive signals, amplifies the signals, and outputs (plays) them from the corresponding speakers.
- Each of the speakers SPk1, SPk2, ..., SPk8 is arranged at each vertex of the sound field reproduction space (for example, satellite venue STL1) modeled as a cube, and reproduces (reproduces) the sound field based on the speaker drive signal from the sound field reproduction unit 28.
- the number of speakers installed may be changed depending on the sound field to be reproduced, and sound field reproduction may be performed using fewer than eight speakers by combining a commonly known virtual sound image generation method such as a transaural system or a VBAP (Vector Based Amplitude Panning) method, or in cases where reproduction is not performed in a specific direction. Conversely, sound field reproduction may be performed using more than eight speakers.
- the speaker installation positions may be other than the vertices of the sound field reproduction space (for example, satellite venue STL1) as long as they are installed to surround the reference position (for example, center position LSP1) of the satellite venue STL1.
- the sound field reproduction unit 28 may output a signal to a binaural reproduction device such as headphones or earphones worn by the listener (user) instead of a speaker.
- the sound field reproduction unit 28 may generate a reproduction signal corresponding to an azimuth angle of +-90° by a decoding process described later, or may generate a virtual sound image for a plurality of directions surrounding the head, and generate a reproduction signal by multiplying in the frequency domain or convolving in the time domain a transfer characteristic for allowing the user to perceive a three-dimensional sound image such as HRTF (Head Related Transfer Function) corresponding to the plurality of angles with the virtual sound image for the corresponding direction.
- HRTF Head Related Transfer Function
- FIG. 5 is a flowchart showing an example of the operational procedure of sound field reproduction by the sound field reproduction device 2 according to embodiment 1 in chronological order. Note that in the following explanation, the processes of steps St1 and St2 are explained as being executed within the sound field recording device 1, but the process of step St2 may be executed by the sound field reproduction device 2 when components other than the Ambisonics microphone 11 of the sound field recording device 1 are provided within the sound field reproduction device 2.
- step St2 the sound field reproduction device 2 executes a series of processing of steps St3 to St6 (i.e., the re-encoding processing for generating a higher-order basis acoustic signal) and the processing of step St7 (i.e., the decoding processing for generating a lower-order basis acoustic signal) in parallel.
- steps St3 to St6 i.e., the re-encoding processing for generating a higher-order basis acoustic signal
- step St7 i.e., the decoding processing for generating a lower-order basis acoustic signal
- the signal mixing unit 27 of the sound field reproduction device 2 mixes the speaker drive signals (an example of the output of the first decoding process) corresponding to the high-order basis acoustic signals from the first decoding unit 25 in step St6 and the speaker drive signals (an example of the output of the second decoding process) corresponding to the low-order basis acoustic signals from the second decoding unit 26 in step St7 so as to correspond to each speaker (step St8).
- the sound field reproduction unit 28 of the sound field reproduction device 2 converts the digital speaker drive signals for each speaker after mixing by the signal mixing unit 27 in step St8 into analog speaker drive signals, amplifies the signals, and outputs (plays) them from each of the corresponding speakers SPk1 to SPk8 (step St9).
- the recording device is also composed of an Ambisonics microphone 11, in which multiple microphone elements Mc1 to Mc4 are arranged three-dimensionally so that each of them faces in a different direction. This allows the sound field recording device 1 to three-dimensionally record the atmospheric sounds of a performance or the like produced by multiple sound sources in the sound field recording space (live music venue LV1).
- Fig. 6 is a block diagram showing an example of the system configuration of the sound field reproduction system 100A according to the second embodiment.
- Fig. 7 is a diagram showing an example of the operation overview from sound field recording to sound field reproduction according to the second embodiment.
- the same reference numerals will be used to simplify or omit the description of the configurations and operations that overlap with those of the corresponding Figs. 3 and 4, and only the different contents will be described.
- the sound field reproduction system 100A includes a sound field recording device 1 and a sound field reproduction device 2A.
- the configuration of the sound field recording device 1 is the same as in embodiment 1, so a description thereof will be omitted.
- the sound field reproduction device 2A is placed, for example, in a sound field reproduction space (for example, satellite venue STL1) and includes a sound source extraction direction control unit 21, a sound source presentation direction control unit 22, a re-encoding unit 23, a speaker direction designation unit 24, a first decoding unit 25, a sound source acquisition unit 29, a second encoding unit 30, a second signal mixing unit 31, a second decoding unit 32, a signal mixing unit 27, a sound field reproduction unit 28, and speakers SPk1, SPk2, ..., SPk8.
- a sound field reproduction space for example, satellite venue STL1
- the sound source extraction direction control unit 21, the sound source presentation direction control unit 22, the re-encoding unit 23, the speaker direction designation unit 24, the first decoding unit 25, the sound source acquisition unit 29, the second encoding unit 30, the second signal mixing unit 31, the second decoding unit 32, the signal mixing unit 27 and the sound field reproduction unit 28 are configured by a semiconductor chip or dedicated hardware that implements at least one of electronic devices such as a CPU, DSP, GPU, FPGA, etc.
- the sound source acquisition unit 29 acquires the sound signals s1[n], ..., sb[n] of multiple sound sources (e.g., various sound sources such as vocals, bass, guitar, drums, etc.) to be presented in the sound field reproduction space (e.g., satellite venue STL1) and sends them to the second encoding unit 30.
- Each sound signal s1[n], ..., sb[n] can be expressed as a point sound source.
- n indicates a discrete time
- b indicates the number of sound sources.
- These sound sources may be recorded individually in the sound field recording space (live venue Lv1), or may be sound sources unrelated to the sound field recording space.
- the second signal mixing unit 31 mixes the higher-order basis acoustic signals (e.g., Nth-order Ambisonics signals) for each sound source obtained by the encoding process by the second encoding unit 30, and sends the mixed signals to the second decoding unit 32.
- higher-order basis acoustic signals e.g., Nth-order Ambisonics signals
- FIG. 8 is a flowchart showing an example of the operational procedure of sound field reproduction by the sound field reproduction device 2A according to embodiment 2 in chronological order.
- the same step numbers are given to processes that overlap with the description of FIG. 5, and the description is simplified or omitted, and the different contents will be described.
- the sound field reproduction device 2A further includes a second encoding unit 30 that encodes each of a plurality of sound source signals (e.g., sound signals from various sound sources such as vocals, bass, guitar, drums, etc.) to be presented in the sound field reproduction space (satellite venue STL1) to generate a second higher-order basis sound signal (Nth order Ambisonics signal), and a second signal mixing unit 31 that mixes the second higher-order basis sound signals for each sound source signal.
- a second encoding unit 30 that encodes each of a plurality of sound source signals (e.g., sound signals from various sound sources such as vocals, bass, guitar, drums, etc.) to be presented in the sound field reproduction space (satellite venue STL1) to generate a second higher-order basis sound signal (Nth order Ambisonics signal)
- second signal mixing unit 31 that mixes the second higher-order basis sound signals for each sound source signal.
- the sound field reproduction device 2A can output the atmospheric sound of the sound source to be uniquely presented in the sound field reproduction space (satellite venue STL1) with high directional resolution by using a high-order basis, unlike the sound field recording space (live venue LV1).
- Fig. 9 is a block diagram showing an example of the system configuration of the sound field reproduction system 100B according to the third embodiment.
- Fig. 10 is a diagram showing an example of the operation overview from sound field recording to sound field reproduction according to the third embodiment.
- the same reference numerals will be used to simplify or omit the description of the configuration and operation that overlap with those of Figs. 3 and 4, and different contents will be described.
- Sound field reproduction system 100B includes sound field recording device 1 and sound field reproduction device 2B.
- the configuration of sound field recording device 1 is the same as in embodiment 1, so a description thereof will be omitted.
- the sound field reproduction device 2B is placed, for example, in a sound field reproduction space (for example, satellite venue STL1) and includes a sound source extraction direction control unit 21B, a reference signal generation unit 41, a delay amount designation unit 42, a delay unit 43, an adaptive speed control unit 44, an adaptive subtraction unit 45, a speaker direction designation unit 24B, a speaker drive signal generation unit 46, a sound field reproduction unit 28B, and speakers SPk1, SPk2, ..., SPk8.
- a sound field reproduction space for example, satellite venue STL1
- a sound field reproduction space for example, satellite venue STL1
- the sound source extraction direction control unit 21B, the reference signal generation unit 41, the delay amount designation unit 42, the delay unit 43, the adaptive speed control unit 44, the adaptive subtraction unit 45, the speaker direction designation unit 24B, the speaker drive signal generation unit 46, and the sound field reproduction unit 28B are configured by a semiconductor chip or dedicated hardware that implements at least one of the electronic devices such as a CPU, DSP, GPU, FPGA, etc.
- the adaptive speed control unit 44 determines the update speed characteristics according to the tap index (l) of multiple taps that constitute the adaptive filter (e.g., an FIR (Finite Impulse Response) filter) of the adaptive subtraction unit 45 according to a predetermined method.
- the adaptive speed control unit 44 sets the determined update speed characteristics in the adaptive filter of the adaptive subtraction unit 45.
- the update speed characteristics here are called step gain or step parameter, and are hyperparameters that do not change dynamically but are fixed in advance.
- the adaptive filter is used for convolution calculation with the reference signal according to an update speed that has the characteristic of lowering the weight of the reference signal input as the time progresses from the current time to the past.
- the update speed characteristic is such that it gradually decays in a step-like manner as the tap index (l) increases, for example, when the tap index (l) is between 0 and 32, it has a value of 1.0, when the tap index (l) is between 33 and 64, it has a value of 0.5, when the tap index (l) is between 65 and 96, it has a value of 0.2, when the tap index (l) is between 97 and 128, it has a value of 0.1, etc.
- the above-mentioned predetermined method of determination is a heuristic that exponentially decays as the tap index (l) increases (i.e., from the current time to the past time).
- the adaptive subtraction unit 45 has at least an adaptive filter (see above, not shown) and an adder circuit (not shown), and performs subtraction processing to subtract the output from the reference signal generation unit 41 from the output from the delay unit 43, and adaptively performs subtraction processing between the output from the delay unit 43 and the output from the reference signal generation unit 41 based on feedback control using the result of this subtraction processing.
- the adaptive subtraction unit 45 sends the output of the adaptive subtraction processing to the speaker drive signal generation unit 46. Details of the adaptive subtraction processing by the adaptive subtraction unit 45 will be described later.
- the sound field reproduction unit 28B converts the digital speaker drive signals for each speaker generated by the speaker drive signal generation unit 46 into analog speaker drive signals, amplifies the signals, and outputs (plays) them from the corresponding speakers.
- Speakers SPk1, SPk2, ..., SPk8 are each placed at a vertex of a sound field reproduction space (for example, satellite venue STL1) modeled as a cube, and reproduce (reproduce) the sound field based on the speaker drive signal from the sound field reproduction unit 28.
- a sound field reproduction space for example, satellite venue STL1 modeled as a cube
- the update component ⁇ w[l] shown in the second pattern formula (22) is used in a general NLMS (Normalized Least Mean Square) algorithm.
- y (n,m) [i] indicates the error signal shown in formula (19)
- ⁇ [l] indicates the adaptation speed corresponding to the tap index
- T indicates the time width (section) to be subjected to the convolution operation, that is, the tap length.
- the adaptive subtraction unit 45 performs feedback control using the error signal y (n,m) [i] obtained by the calculation of equation (19) (i.e., recursive calculation using the error signal y[i] as input until the update of the filter coefficient converges), and sends the adaptive subtraction result as an output signal ( ⁇ ambient (n,m) [i]) to the speaker driving signal generation unit 46.
- FIG. 11 is a flowchart showing an example of the operational procedure of sound field reproduction by the sound field reproduction device 2B according to embodiment 3 in chronological order.
- the same step numbers are given to processes that overlap with the description of FIG. 5 or FIG. 8, and the description is simplified or omitted, and the different contents will be described.
- the sound field reproduction device 2B performs the process of step St2, and then executes a series of processes from step St21 to step St22 (i.e., the process for generating a reference signal) and the process of step St23 (i.e., the delay process for the first-order Ambisonics signal) in parallel.
- the recording device is also composed of an Ambisonics microphone 11, in which multiple microphone elements Mc1 to Mc4 are arranged three-dimensionally so that each of them faces in a different direction. This allows the sound field recording device 1 to three-dimensionally record the atmospheric sounds of a performance or the like produced by multiple sound sources in the sound field recording space (live music venue LV1).
- Fig. 12 is a block diagram showing an example of the system configuration of the sound field reproduction system 100C according to embodiment 4.
- Fig. 13 is a diagram showing an example of the operation overview from sound field recording to sound field reproduction in embodiment 4.
- the same reference numerals will be used to simplify or omit the description of the configuration and operation that overlap with those in Figs. 3, 4, 9, and 10, and different contents will be described.
- Sound field reproduction system 100C includes sound field recording device 1 and sound field reproduction device 2C.
- the configuration of sound field recording device 1 is the same as in embodiment 1, so a description thereof will be omitted.
- the sound field reproduction device 2C is placed, for example, in a sound field reproduction space (for example, satellite venue STL1) and includes a sound source extraction direction control unit 21B, a sound source presentation direction control unit 22C, a reference signal generation unit 41, a delay amount designation unit 42, a delay unit 43, an adaptive speed control unit 44, an adaptive subtraction unit 45, a second delay unit 47, a third encoding unit 48, a speaker direction designation unit 24B, a speaker drive signal generation unit 46, a speaker drive signal generation unit 49, a signal mixing unit 50, a sound field reproduction unit 28C, and speakers SPk1, SPk2, ..., SPk8.
- a sound field reproduction space for example, satellite venue STL1
- a sound field reproduction space for example, satellite venue STL1
- the sound source extraction direction control unit 21B, the sound source presentation direction control unit 22C, the reference signal generation unit 41, the delay amount designation unit 42, the delay unit 43, the adaptive speed control unit 44, the adaptive subtraction unit 45, the second delay unit 47, the third encoding unit 48, the speaker direction designation unit 24B, the speaker drive signal generation unit 46, the speaker drive signal generation unit 49, the signal mixing unit 50 and the sound field reproduction unit 28C are configured by a semiconductor chip on which at least one of electronic devices such as a CPU, DSP, GPU, FPGA, etc. is implemented, or by dedicated hardware.
- the second delay unit 47 inputs the reference signal from the reference signal generation unit 41 and applies a delay process to the input reference signal, which applies a delay amount equal to the delay amount specified by the delay amount specification unit 42.
- the second delay unit 47 sends the reference signal after the delay process as an output to the third encoding unit 48.
- the signal mixer 50 mixes the speaker drive signal corresponding to the high-order base acoustic signal from the speaker drive signal generator 49 with the speaker drive signal from the speaker drive signal generator 46 so as to correspond to each speaker, and sends the mixed signal to the sound field reproduction unit 28C.
- the sound field reproduction unit 28C converts the digital speaker drive signals for each speaker after mixing by the signal mixing unit 50 into analog speaker drive signals, amplifies the signals, and outputs (plays) them from the corresponding speakers.
- FIG. 14 is a flowchart showing an example of the operational procedure of sound field reproduction by the sound field reproduction device 2C according to embodiment 4 in chronological order.
- the same step numbers are given to processes that overlap with the description of FIG. 5, FIG. 8, or FIG. 11, and the description is simplified or omitted, and the different contents will be described.
- the present disclosure is useful as a sound field reproduction device, a sound field reproduction method, and a sound field reproduction system that suppress sounds from a specific direction as seen by a listener from sound field components recorded using an Ambisonics microphone, and reproduces in a sound field reproduction space a clear, realistic, and immersive sound field that is in the sound field recording space.
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
音場再現装置は、収録空間内の音源抽出方向の指定を受ける制御部と、収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に遅延処理を施す遅延部と、遅延処理後の低次基底音響信号から音源抽出方向の参照信号の減算処理を行う減算部と、減算処理後の低次基底音響信号と収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置とに基づいて、スピーカごとの駆動信号を生成する生成部と、複数のスピーカのそれぞれから、スピーカごとの駆動信号を出力する再生部と、を備える。
Description
本開示は、音場再現装置、音場再現方法及び音場再現システムに関する。
昨今、リアルタイムに音場再現を行うためにシーンベース立体音響再生技術が注目されている。シーンベース立体音響再生技術とは、複数の指向性マイク素子を剛球上又は中空球面上に配置されているアンビソニックスマイクを用いて収録(収音)した多チャンネル信号に対して信号処理を施すことにより、視聴環境(空間)を取り囲むように配置されたスピーカを用いてあたかもリスナー(聴取者)がアンビソニックスマイクの設置箇所(収録空間内)に存在しているかのような立体的な音場をリアルタイムに再現する方式である。
音場再現に関する先行技術として、例えば特許文献1が知られている。特許文献1は、収音対象空間において一体となって設置された複数の収音部であって、音源の位置と当該音源から発せられる音を反射する物体の位置とに応じた複数の異なる向きで設置された複数の収音部による収音に基づく複数の収音信号を取得し、この取得された複数の収音信号に基づいて、収音対象空間内の指定された聴取点に対応する音響信号を生成する、信号処理装置を開示している。
特許文献1の構成では、複数の収音部が配置されている収音対象空間内に聴取点が存在していることが前提となっている。このため、特許文献1を用いてシーンベース立体音響のシステムを構築しようとしても、収音部が配置されている収音対象空間内にリスナーが存在しなければならない。つまり、リスナーが収音対象空間とは異なる空間に存在する場合には、収音対象空間内で収音された音響信号をその収音対象空間内で聴取可能となるように音場再現することは困難であるという課題がある。
また、パブリックビューイング等のイベントでのリアルタイムによる音源(例えばライブ演奏)を収録する際、収録した音響信号の中に音場収録空間内のノイズ或いは不要な音が混入することによりリスナー(聴取者)にクリアで臨場感かつ没入感のある音を出力することが困難である。ここでいう不要な音とは、例えば音場収録空間内で流れているアナウンス等の音声であって、リスナー(聴取者)が臨場感かつ没入感を得るためには必ずしも必要とされない種別の音源である。
本開示は、上述した従来の状況に鑑みて案出され、アンビソニックスマイクを用いて収録した音場成分から聴取者から見た特定方向の音を抑圧し、音場収録空間内のクリアで臨場感かつ没入感のある音場の音場再現空間内での再現を実現する音場再現装置、音場再現方法及び音場再現システムを提供することを目的とする。
本開示は、収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受ける音源抽出方向制御部と、前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施す遅延部と、前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行う減算部と、前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するスピーカ駆動信号生成部と、前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力する音場再生部と、を備える、音場再現装置を提供する。
また、本開示は、収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受けるステップと、前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施すステップと、前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行うステップと、前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するステップと、前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力するステップと、を有する、音場再現方法を提供する。
また、本開示は、音場収録空間内の音源を収録可能な収録デバイスを有する音場収録装置と、前記収録デバイスにより収録された音響信号を、前記音場収録空間とは異なる音場再現空間内で再現する音場再現装置と、を備え、前記音場再現装置は、前記収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受ける音源抽出方向制御部と、前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施す遅延部と、前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行う減算部と、前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するスピーカ駆動信号生成部と、前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力する音場再生部と、を備える、音場再現システムを提供する。
なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示によれば、アンビソニックスマイクを用いて収録した音場成分から聴取者から見た特定方向の音を抑圧でき、音場収録空間内のクリアで臨場感かつ没入感のある音場の音場再現空間内での再現を実現できる。
以下、図面を適宜参照して、本開示に係る音場再現装置、音場再現方法及び音場再現システムを具体的に開示した実施の形態について、詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。
以下の各実施の形態では、音場収録空間(例えばライブ会場)内の音、音楽、人の声等の音源信号を収録する収録デバイスとしてアンビソニックスマイクを用いたシーンベース立体音響再生技術を例示して説明する。アンビソニックスマイクを用いたシーンベース立体音響再生技術では、アンビソニックスマイクを構成する複数のマイク素子で収録した信号(収録信号)或いは点音源を、球面調和関数を用いた中間表現ITMR1(図1参照)或いはBフォーマット信号として表現する(エンコードする)ことにより、全方位から到来する音場をアンビソニックス信号領域(後述参照)において統一的に取り扱う。更に、この中間表現をデコード(復号化)することによりスピーカ駆動信号を生成し、音場再現空間(例えばサテライト会場)内での所望の音場再現を実現する。
(実施の形態1)
まず、図1を参照して、シーンベース立体音響再生技術の概念について説明する。図1は、アンビソニックスマイク11を用いたシーンベース立体音響再生技術における音場収録から音場再現までの概念を模式的に示す図である。アンビソニックスマイク11は、ライブ会場LV1等の音場収録空間内に配置される。ライブ会場LV1では、複数の音源(例えば複数人によるバンド演奏であればボーカル、ベース、ギター、ドラム等の各種の音源)による演奏等が行われ、その演奏等の音がアンビソニックスマイク11により収録される。
まず、図1を参照して、シーンベース立体音響再生技術の概念について説明する。図1は、アンビソニックスマイク11を用いたシーンベース立体音響再生技術における音場収録から音場再現までの概念を模式的に示す図である。アンビソニックスマイク11は、ライブ会場LV1等の音場収録空間内に配置される。ライブ会場LV1では、複数の音源(例えば複数人によるバンド演奏であればボーカル、ベース、ギター、ドラム等の各種の音源)による演奏等が行われ、その演奏等の音がアンビソニックスマイク11により収録される。
収録デバイスの一例としてのアンビソニックスマイク11は、4つのマイク素子Mc1、Mc2、Mc3、Mc4を備える。マイク素子Mc1~Mc4のそれぞれは、方向Dr1を正面方向とした場合に、図1中の立方体CB1の中心から4つの頂点を向くように中空配置され、各頂点方向に対する単一指向性を有している。マイク素子Mc1は、アンビソニックスマイク11の前方左上(FLU:Front Left Up)を向き、その前方左上(FLU)の方向の音を収録する。マイク素子Mc2は、アンビソニックスマイク11の前方右下(FRD:Front Right Down)を向き、その前方右下(FRD)の方向の音を収録する。マイク素子Mc3は、アンビソニックスマイク11の後方左下(BLD:Back Left Down)を向き、その後方左下の方向の音を収録する。マイク素子Mc4は、アンビソニックスマイク11の後方右上(BRU:Back Right Up)を向き、その後方右上の方向の音を収録する。
これらの4方向(つまり、FLU、FRD、BLD、BRU)の音の収録信号は、Aフォーマット信号と呼ばれる。Aフォーマット信号は、そのままでは使用できず、指向特性(指向性)を有する中間表現ITMR1としてのBフォーマット信号に変換される。Bフォーマット信号は、例えば、全方向(全方位)の音のBフォーマット信号W、前後方向の音のBフォーマット信号X、左右方向の音のBフォーマット信号Y、上下方向の音のBフォーマット信号Zを有する。Aフォーマット信号は、次に示す変換式により、Bフォーマット信号に変換される。
W=FLU+FRD+BLD+BRU
X=FLU+FRD-BLD-BRU
Y=FLU-FRD+BLD-BRU
Z=FLU-FRD-BLD+BRU
X=FLU+FRD-BLD-BRU
Y=FLU-FRD+BLD-BRU
Z=FLU-FRD-BLD+BRU
Bフォーマット信号W、X、Y、Zを合成することにより、前後、左右、上下の全方位の音の信号が得られる。そして、Bフォーマット信号W、X、Y、Zのそれぞれの信号レベルを変更させて合成することにより、前後、左右、上下の全方位のうち任意の指向特性を有する音の信号を生成することができる。例えば図1に示すように、立方体でモデル化される音場再現空間(例えばサテライト会場STL1)内の各頂点部分に、合計8つのスピーカSPk1、SPk2、SPk3、SPk4、SPk5、SPk6、SPk7、SPk8が配置され、音場収録空間(例えばライブ会場LV1)と同様(つまり、前後、左右、上下の方向が平行或いは同方向)の3次元座標系を考える。
なお、スピーカSPk1~SPk8のそれぞれの位置は、音場再現空間(例えばサテライト会場STL1)の基準位置(例えば中心位置LSP1)からの既定距離と角度(方位角θi及び仰角φi)とにより特定可能である。iは音場再現空間(例えばサテライト会場STL1)内に配置されているスピーカを示す変数であり、図1の例では1から8までのいずれかの整数をとる。
音場再現空間(例えばサテライト会場STL1)の中心位置LSP1にユーザであるリスナー(聴取者)が存在し、正面方向(Front)を向いているとする。このような状況下において、音場収録空間(例えばライブ会場LV1)内で収録されたAフォーマット信号に基づく符号化処理により得られたBフォーマット信号W、X、Y、Zのデータと音場再現空間(例えばサテライト会場STL1)内のスピーカSPk1~SPk8のそれぞれの方向とに基づいて、音場収録空間(例えばライブ会場LV1)内の音場を音場再現空間(例えばサテライト会場STL1)内で自由に再現することができる。つまり、音場再現空間(例えばサテライト会場STL1)にユーザであるリスナー(聴取者)が存在する場合に、リスナーの正面方向を基準方向とし、その基準方向から任意の3次元方向(例えば後述する音源提示方向θtarget)の音を再現出力することが可能となる。
次に、図2を参照して、次数n及び度数mに対する球面調和関数展開に基づくアンビソニックス成分の基底について説明する。図2は、次数n及び度数mに対する球面調和関数展開に基づくアンビソニックス成分の基底の一例を示す図である。
図2の横軸(m)は度数(degree)を示し、図2の縦軸(n)は次数(order)を示す。度数mは、-nから+nまでの値をとる。n=N次までの球面調和関数は合計(N+1)2個の基底を含む。例えば、n=N=0である場合、1個の基底(つまり、全方位のBフォーマット信号W)が得られる。また例えば、n=N=1である場合、4個の基底(つまり、(n、m)=(0、0)に対応する全方位のBフォーマット信号W、(n、m)=(1、-1)に対応する前後方向のBフォーマット信号X、(n、m)=(1、0)に対応する上下方向のBフォーマット信号Z、(n、m)=(1、1)に対応する左右方向のBフォーマット信号Y)が得られる。なお、n=N=2以降も同様であるため、説明を省略する。
球面調和関数はnとmの増加に対して空間的な周期性が増す性質を有することが知られている。このため、nとmの組み合わせによって異なる方向パターン(指向特性)のBフォーマット信号を表現することが可能となる。次数n及び度数mに対する次元をアンビソニックスチャネルナンバリング(ACN:Ambisonics Channel Numbering)に基づいてK=n(n+1)+mと定義すると、球面調和関数を式(1)のようにベクトル形式で表現可能である。式(1)において、上添字のTは転置を示す。
次に、図3及び図4を参照して、実施の形態1に係る音場再現システム100のシステム構成並びに動作概要について説明する。図3は、実施の形態1に係る音場再現システム100のシステム構成例を示すブロック図である。図4は、実施の形態1の音場収録から音場再現までの動作概要例を示す図である。
音場再現システム100は、音場収録装置1と、音場再現装置2とを含む。音場収録装置1と音場再現装置2とはネットワークNW1を介して互いにデータ通信が可能に接続されている。ネットワークNW1は、有線ネットワークでもよいし、無線ネットワークでもよい。有線ネットワークは、例えば有線LAN(Local Area Network)、有線WAN(Wide Area Network)、電力線通信(PLC:Power Line Communication)のうち少なくとも1つが該当し、他の有線通信可能なネットワーク構成でもよい。一方、無線ネットワークは、Wi-Fi(登録商標)等の無線LAN、無線WAN、Bluetooth(登録商標)等の近距離無線通信、4G或いは5G等の移動体携帯通信網のうち少なくとも1つが該当し、他の無線通信可能なネットワーク構成でもよい。
音場収録装置1は、例えば音場収録空間(例えばライブ会場LV1)に配置され、アンビソニックスマイク11と、A/D変換部12と、符号化部13と、マイク素子方向指定部14とを含む。なお、音場収録装置1は、少なくともアンビソニックスマイク11を有していればよく、A/D変換部12、符号化部13及びマイク素子方向指定部14は音場再現装置2に設けられてもよい。言い換えると、アンビソニックスマイク11は、音場再現装置2の外部に設けられても構わない。
アンビソニックスマイク11は、4つのマイク素子Mc1、Mc2、Mc3、Mc4を備え、マイク素子Mc1において前方左上方向(図1参照)の音を収録し、マイク素子Mc2において前方右下方向(図1参照)の音を収録し、マイク素子Mc3において後方左下方向(図1参照)の音を収録し、後方右上方向(図1参照)の音を収録する。なお、アンビソニックスマイク11は、中空配置された4つのマイク素子Mc1、Mc2、Mc3、Mc4よりも多くの単一指向性を有するマイク素子を備えていてもよく、また、剛球上に配置された無指向性を有するマイク素子を備えていても良い。多数のマイク素子を備えたアンビソニックスマイクを用いることにより、符号化部13において、2次以上オーダーのアンビソニックス信号を合成することが可能となる。アンビソニックスマイク11を構成する各マイク素子により収録された信号(収録信号)は、A/D変換部12に入力される。
A/D変換部12、符号化部13及びマイク素子方向指定部14は、例えばCPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphical Processing Unit)、FPGA(Field Programmable Gate Array)等の電子デバイスのうち少なくとも1つが実装された半導体チップ若しくは専用のハードウェアにより構成される。
A/D変換部12は、アンビソニックスマイク11を構成する各マイク素子からのアナログ形式の収録信号をディジタル形式の収録信号に変換して符号化部13に送る。
ここで、符号化部13による符号化処理の詳細について説明する。
一般的に、球面上の任意の角度(θ、φ)に対し半径rの位置で観測(収録)される音圧pは波動方程式の球面調和関数領域における内部問題の解として、波数kに対し式(2)の球面調和関数を基底として式(4)と展開されることが知られている。式(4)において、Am
nは展開係数であり、Rn(kr)は動径関数項である。また、次数nに関する無限和は有限次数Nで打ち切ることで近似され、この打ち切り次数Nに応じて音場再現の精度が変化する。以下、打ち切り次数をNとして表現する。
式(6)において、iは虚数単位であり、jn(kr)はn次の球ベッセル関数、j’
n(kr)はその導関数である。本開示においては、この平面波に対する展開係数ベクトルγm
nを、符号化部13による符号化処理の出力であるBフォーマット信号(中間表現)として取り扱う。以下、この展開係数ベクトルをアンビソニックス領域信号又は単にアンビソニックス信号と称する場合がある。
より具体的には、符号化部13による符号化処理では、A/D変換部12による変換後の時間領域信号である収録信号をアンビソニックス信号(例えば1次オーダーアンビソニックス信号)へと変換し、このアンビソニックス信号(例えば1次オーダーアンビソニックス信号)は音場再現装置2の第1復号化部25及び第2復号化部26のそれぞれによりデコード処理されてスピーカ駆動信号に変換される。
音場再現装置2は、例えば音場再現空間(例えばサテライト会場STL1)に配置され、音源抽出方向制御部21と、音源提示方向制御部22と、再符号化部23と、スピーカ方向指定部24と、第1復号化部25と、第2復号化部26と、信号混合部27と、音場再生部28と、スピーカSPk1、SPk2、…、SPk8とを含む。なお、以下の説明において、スピーカの配置数は一例として8としているが、2以上の整数であれば8に限定されないことは言うまでもない。
音源抽出方向制御部21、音源提示方向制御部22、再符号化部23、スピーカ方向指定部24、第1復号化部25、第2復号化部26、信号混合部27及び音場再生部28は、例えばCPU、DSP、GPU、FPGA等の電子デバイスのうち少なくとも1つが実装された半導体チップ若しくは専用のハードウェアにより構成される。
信号混合部27は、第1復号化部25からの高次基底音響信号に対応するスピーカ駆動信号と、第2復号化部26からの低次基底音響信号に対応するスピーカ駆動信号とを、スピーカごとに対応するように混合して音場再生部28に送る。なお、信号混合部27の構成は音場再現装置2から省略されてもよく、この場合には第1復号化部25による高次基底音響信号のみが音場再生部28を介して各スピーカSPk1~SPk8のそれぞれから出力される。
音場再生部28は、信号混合部27による混合後のスピーカごとのディジタル形式のスピーカ駆動信号をアナログ形式のスピーカ駆動信号に変換して信号増幅し、対応するスピーカから出力(再生)する。
スピーカSPk1、SPk2、…、SPk8のそれぞれは、立方体でモデル化される音場再現空間(例えばサテライト会場STL1)の各頂点部分に配置され、音場再生部28からのスピーカ駆動信号に基づいて音場を再生(再現)する。なお、スピーカ設置数は再現したい音場によって変化させてよく、特定の方位に対する再現を行わない場合や、トランスオーラルシステムやVBAP(Vector Based Amplitude Panning)法など一般的に知られた仮想音像生成方式を組み合わせることにより8個よりも少ないスピーカを用いて音場再現を行っても良い。逆に、8個よりも多くのスピーカを用いた音場再現を行っても良い。また、スピーカ設置位置はサテライト会場STL1の基準位置(例えば中心位置LSP1)を取り囲むように設置されていれば音場再現空間(例えばサテライト会場STL1)の各頂点部分以外であっても良い。音場再生部28はスピーカの代わりに聴取者(ユーザ)が装着しているヘッドホンやイヤホンなどの両耳への再生装置に信号を出力しても良い。また、音場再生部28は、聴取者(ユーザ)の両耳への再生装置(例えば、上述したヘッドホンやイヤホン)に信号を供給する際は後述するデコード処理によって方位角+-90°に対応した再生信号を生成しても良いし、頭部を包囲する複数の方向に対して仮想音像を生成し、それら複数の角度に対応したHRTF(Head Related Transfer Function)などの立体音像をユーザに知覚させるための伝達特性を対応した方向の仮想音像に対して周波数領域で乗算又は時間領域で畳み込むことで再生信号を生成しても良い。これにより、サテライト会場STL1に配置されたスピーカSPk1、SPk2、…、SPk8のそれぞれからに限った音場再現となるのではなく、サテライト会場STL1に配置された聴取者(ユーザ)が装着している再生装置(例えば、上述したヘッドホンやイヤホン)への音場再現も可能となる。
ここで、再符号化部23による再符号化処理、第1復号化部25及び第2復号化部26による処理の詳細について説明する。
次に、図5を参照して、音場再現装置2による音場再現の動作手順について説明する。図5は、実施の形態1に係る音場再現装置2による音場再現の動作手順例を時系列に示すフローチャートである。なお、以下の説明ではステップSt1及びステップSt2の各処理は音場収録装置1内で実行されるとして説明するが、ステップSt2の処理は音場収録装置1のアンビソニックスマイク11以外の構成が音場再現装置2内に設けられる場合には音場再現装置2により実行されてよい。
音場再現装置2は、ステップSt2の処理を受けて、ステップSt3~ステップSt6の一連の処理(つまり、高次基底音響信号を生成するための再符号化処理)とステップSt7の処理(つまり、低次基底音響信号を生成するための復号化処理)とを並行して実行する。
音場再現装置2の信号混合部27は、ステップSt6での第1復号化部25からの高次基底音響信号に対応するスピーカ駆動信号(第1復号化処理の出力の一例)と、ステップSt7での第2復号化部26からの低次基底音響信号に対応するスピーカ駆動信号(第2復号化処理の出力の一例)とを、スピーカごとに対応するように混合する(ステップSt8)。音場再現装置2の音場再生部28は、ステップSt8での信号混合部27による混合後のスピーカごとのディジタル形式のスピーカ駆動信号をアナログ形式のスピーカ駆動信号に変換して信号増幅し、対応するスピーカSPk1~SPk8のそれぞれから出力(再生)する(ステップSt9)。
また、収録デバイスは、複数のマイク素子Mc1~Mc4のそれぞれが異なる方向を向くように立体的に配置されたアンビソニックスマイク11により構成される。これにより、音場収録装置1は、音場収録空間(ライブ会場LV1)内の複数の音源による演奏等の雰囲気の音を立体的に収録することができる。
まず、図6及び図7を参照して、実施の形態2に係る音場再現システム100Aのシステム構成並びに動作概要について説明する。図6は、実施の形態2に係る音場再現システム100Aのシステム構成例を示すブロック図である。図7は、実施の形態2の音場収録から音場再現までの動作概要例を示す図である。図6及び図7の説明において、対応する図3及び図4の構成及び動作と重複する内容については同一の符号を参照して説明を簡略化或いは省略し、異なる内容について説明する。
音場再現システム100Aは、音場収録装置1と、音場再現装置2Aとを含む。音場収録装置1の構成は実施の形態1と同一であるため、説明を省略する。
音場再現装置2Aは、例えば音場再現空間(例えばサテライト会場STL1)に配置され、音源抽出方向制御部21と、音源提示方向制御部22と、再符号化部23と、スピーカ方向指定部24と、第1復号化部25と、音源取得部29と、第2符号化部30と、第2信号混合部31と、第2復号化部32と、信号混合部27と、音場再生部28と、スピーカSPk1、SPk2、…、SPk8とを含む。
音源抽出方向制御部21、音源提示方向制御部22、再符号化部23、スピーカ方向指定部24、第1復号化部25、音源取得部29、第2符号化部30、第2信号混合部31、第2復号化部32、信号混合部27及び音場再生部28は、例えばCPU、DSP、GPU、FPGA等の電子デバイスのうち少なくとも1つが実装された半導体チップ若しくは専用のハードウェアにより構成される。
音源取得部29は、音場再現空間(例えばサテライト会場STL1)に提示したい複数の音源(例えばボーカル、ベース、ギター、ドラム等の各種の音源)の音響信号s1[n]、…、sb[n]を取得して第2符号化部30に送る。それぞれの音響信号s1[n]、…、sb[n]は点音源として表現可能である。nは離散時刻を示し、bは音源の個数を示す。これらの音源は音場収録空間(ライブ会場Lv1)で個別に収録されたものであっても良いし、音場収録空間とは関係のない音源であっても良い。
第2信号混合部31は、第2符号化部30による符号化処理により得られた音源ごとの高次基底音響信号(例えばN次オーダーアンビソニックス信号)を混合して第2復号化部32に送る。
次に、図8を参照して、音場再現装置2Aによる音場再現の動作手順について説明する。図8は、実施の形態2に係る音場再現装置2Aによる音場再現の動作手順例を時系列に示すフローチャートである。図8の説明において、図5の説明と重複する処理については同一のステップ番号を付与して説明を簡略化或いは省略し、異なる内容について説明する。
以上により、実施の形態2に係る音場再現装置2Aは、音場再現空間(サテライト会場STL1)内に提示したい複数の音源信号(例えばボーカル、ベース、ギター、ドラム等の各種の音源からの音信号)のそれぞれを符号化処理して第2高次基底音響信号(N次オーダーアンビソニックス信号)を生成する第2符号化部30と、音源信号ごとの第2高次基底音響信号を混合する第2信号混合部31と、を更に備える。これにより、実施の形態2に係る音場再現装置2Aは、音場収録空間(ライブ会場LV1)とは異なり音場再現空間(サテライト会場STL1)において独自に提示したい音源による雰囲気の音を高次基底によって高い方向解像度を有しながら出力することができる。
まず、図9及び図10を参照して、実施の形態3に係る音場再現システム100Bのシステム構成並びに動作概要について説明する。図9は、実施の形態3に係る音場再現システム100Bのシステム構成例を示すブロック図である。図10は、実施の形態3の音場収録から音場再現までの動作概要例を示す図である。図6及び図7の説明において、図3及び図4の構成及び動作と重複する内容については同一の符号を参照して説明を簡略化或いは省略し、異なる内容について説明する。
音場再現システム100Bは、音場収録装置1と、音場再現装置2Bとを含む。音場収録装置1の構成は実施の形態1と同一であるため、説明を省略する。
音場再現装置2Bは、例えば音場再現空間(例えばサテライト会場STL1)に配置され、音源抽出方向制御部21Bと、参照信号生成部41と、遅延量指定部42と、遅延部43と、適応速度制御部44と、適応的減算部45と、スピーカ方向指定部24Bと、スピーカ駆動信号生成部46と、音場再生部28Bと、スピーカSPk1、SPk2、…、SPk8とを含む。
音源抽出方向制御部21B、参照信号生成部41、遅延量指定部42、遅延部43、適応速度制御部44、適応的減算部45、スピーカ方向指定部24B、スピーカ駆動信号生成部46及び音場再生部28Bは、例えばCPU、DSP、GPU、FPGA等の電子デバイスのうち少なくとも1つが実装された半導体チップ若しくは専用のハードウェアにより構成される。
適応速度制御部44は、適応的減算部45が有する適応的フィルタ(例えばFIR(Finite Impulse Response)フィルタ)を構成する複数個のタップのタップインデックス(l)に応じた更新速度の特性を、所定の決め方に従って決定する。適応速度制御部44は、その決定された更新速度の特性を適応的減算部45の適応的フィルタに設定する。ここでいう更新速度の特性とは、ステップゲイン或いはステップパラメータと呼ばれるものであり、ハイパーパラメータであって動的に変わるものではなく事前に固定しておくものである。適応的フィルタは、現在時刻から過去時刻になるほど入力される参照信号の重みを低くする特性を有する更新速度に従って、参照信号との畳み込み演算に供される。更新速度の特性とは、例えばタップインデックス(l)が0から32だと1.0の値を有し、タップインデックス(l)が33から64だと0.5の値を有し、タップインデックス(l)が65から96だと0.2の値を有し、タップインデックス(l)が97から128だと0.1の値を有する等、タップインデックス(l)の増加に伴って階段状に徐々に減衰する特性を有する。つまり、上述した所定の決め方は、このようにタップインデックス(l)の増加(つまり現在時刻から過去時刻に向かう)に従って指数減衰するというヒューリスティックに定めるものである。
適応的減算部45は、適応的フィルタ(上述参照、図示略)及び加算回路(図示略)を少なくとも有し、遅延部43からの出力から参照信号生成部41からの出力を減算するための減算処理を行うとともに、この減算処理結果を用いたフィードバック制御に基づいて遅延部43からの出力と参照信号生成部41からの出力との減算処理を適応的に行う。適応的減算部45は、適応的な減算処理の出力をスピーカ駆動信号生成部46に送る。適応的減算部45による適応的な減算処理の詳細については後述する。
音場再生部28Bは、スピーカ駆動信号生成部46によるスピーカごとのディジタル形式のスピーカ駆動信号をアナログ形式のスピーカ駆動信号に変換して信号増幅し、対応するスピーカから出力(再生)する。
スピーカSPk1、SPk2、…、SPk8のそれぞれは、立方体でモデル化される音場再現空間(例えばサテライト会場STL1)の各頂点部分に配置され、音場再生部28からのスピーカ駆動信号に基づいて音場を再生(再現)する。
ここで、参照信号生成部41による参照信号の生成処理、適応的減算部45による適応的な減算処理、スピーカ駆動信号生成部46によるスピーカ駆動信号の生成処理の詳細について説明する。
第2パターンの式(22)で示される更新成分Δw[l]は、一般的なNLMS(Normalized Least Mean Squrae)アルゴリズムで使用される。第2パターンの式(21)において、y(n、m)[i]は式(19)に示される誤差信号を示し、μ[l]はタップインデックスに対応する適応速度を示し、Tは畳み込み演算の対象となる時間幅(区間)、つまりタップ長を示す。
適応的減算部45は、式(19)の演算によって得られた誤差信号y(n、m)[i]を用いたフィードバック制御(つまり、誤差信号y[i]を入力に用いたフィルタ係数の更新が収束するまでの回帰的演算)により、適応的な減算結果の出力信号(γambient
(n、m)[i])としてスピーカ駆動信号生成部46に送る。
次に、図11を参照して、音場再現装置2Bによる音場再現の動作手順について説明する。図11は、実施の形態3に係る音場再現装置2Bによる音場再現の動作手順例を時系列に示すフローチャートである。図11の説明において、図5或いは図8の説明と重複する処理については同一のステップ番号を付与して説明を簡略化或いは省略し、異なる内容について説明する。
図11において、音場再現装置2Bは、ステップSt2の処理を受けて、ステップSt21~ステップSt22の一連の処理(つまり、参照信号を生成するための処理)とステップSt23の処理(つまり、1次オーダーアンビソニックス信号への遅延処理)とを並行して実行する。
また、収録デバイスは、複数のマイク素子Mc1~Mc4のそれぞれが異なる方向を向くように立体的に配置されたアンビソニックスマイク11により構成される。これにより、音場収録装置1は、音場収録空間(ライブ会場LV1)内の複数の音源による演奏等の雰囲気の音を立体的に収録することができる。
まず、図12及び図13を参照して、実施の形態4に係る音場再現システム100Cのシステム構成並びに動作概要について説明する。図12は、実施の形態4に係る音場再現システム100Cのシステム構成例を示すブロック図である。図13は、実施の形態4の音場収録から音場再現までの動作概要例を示す図である。図12及び図13の説明において、図3、図4、図9及び図10の構成及び動作と重複する内容については同一の符号を参照して説明を簡略化或いは省略し、異なる内容について説明する。
音場再現システム100Cは、音場収録装置1と、音場再現装置2Cとを含む。音場収録装置1の構成は実施の形態1と同一であるため、説明を省略する。
音場再現装置2Cは、例えば音場再現空間(例えばサテライト会場STL1)に配置され、音源抽出方向制御部21Bと、音源提示方向制御部22Cと、参照信号生成部41と、遅延量指定部42と、遅延部43と、適応速度制御部44と、適応的減算部45と、第2遅延部47と、第3符号化部48と、スピーカ方向指定部24Bと、スピーカ駆動信号生成部46と、スピーカ駆動信号生成部49と、信号混合部50と、音場再生部28Cと、スピーカSPk1、SPk2、…、SPk8とを含む。
音源抽出方向制御部21B、音源提示方向制御部22C、参照信号生成部41、遅延量指定部42、遅延部43、適応速度制御部44、適応的減算部45、第2遅延部47、第3符号化部48、スピーカ方向指定部24B、スピーカ駆動信号生成部46、スピーカ駆動信号生成部49、信号混合部50及び音場再生部28Cは、例えばCPU、DSP、GPU、FPGA等の電子デバイスのうち少なくとも1つが実装された半導体チップ若しくは専用のハードウェアにより構成される。
第2遅延部47は、参照信号生成部41からの参照信号を入力するとともに、その入力された参照信号に、遅延量指定部42により指定される遅延量と同一の遅延量を付与する遅延処理を施す。第2遅延部47は、その遅延処理後の参照信号を出力として第3符号化部48に送る。
信号混合部50は、スピーカ駆動信号生成部49からの高次基底音響信号に対応するスピーカ駆動信号と、スピーカ駆動信号生成部46からのスピーカ駆動信号とを、スピーカごとに対応するように混合して音場再生部28Cに送る。
音場再生部28Cは、信号混合部50による混合後のスピーカごとのディジタル形式のスピーカ駆動信号をアナログ形式のスピーカ駆動信号に変換して信号増幅し、対応するスピーカから出力(再生)する。
ここで、第3符号化部48による符号化処理、スピーカ駆動信号生成部49によるスピーカ駆動信号の生成処理の詳細について説明する。
次に、図14を参照して、音場再現装置2Cによる音場再現の動作手順について説明する。図14は、実施の形態4に係る音場再現装置2Cによる音場再現の動作手順例を時系列に示すフローチャートである。図14の説明において、図5、図8或いは図11の説明と重複する処理については同一のステップ番号を付与して説明を簡略化或いは省略し、異なる内容について説明する。
以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。
なお、本出願は、2022年9月28日出願の日本特許出願(特願2022-155167)に基づくものであり、その内容は本出願の中に参照として援用される。
本開示は、アンビソニックスマイクを用いて収録した音場成分から聴取者から見た特定方向の音を抑圧し、音場収録空間内のクリアで臨場感かつ没入感のある音場の音場再現空間内での再現を実現する音場再現装置、音場再現方法及び音場再現システムとして有用である。
1 音場収録装置
2、2A、2B、2C 音場再現装置
11 アンビソニックスマイク
12 A/D変換部
13 符号化部
14 マイク素子方向指定部
21、21B 音源抽出方向制御部
22 音源提示方向制御部
23 再符号化部
24、24B スピーカ方向指定部
25 第1復号化部
26 第2復号化部
27 信号混合部
28、28B 音場再生部
29 音源取得部
30 第2符号化部
31 第2信号混合部
41 参照信号生成部
42 遅延量指定部
43 遅延部
44 適応速度制御部
45 適応的減算部
46 スピーカ駆動信号生成部
47 第2遅延部
48 第3符号化部
100、100A、100B、100C 音場再現システム
SPk1、SPk2、SPk3、SPk4、SPk5、SPk6、SPk7、SPk8
スピーカ
2、2A、2B、2C 音場再現装置
11 アンビソニックスマイク
12 A/D変換部
13 符号化部
14 マイク素子方向指定部
21、21B 音源抽出方向制御部
22 音源提示方向制御部
23 再符号化部
24、24B スピーカ方向指定部
25 第1復号化部
26 第2復号化部
27 信号混合部
28、28B 音場再生部
29 音源取得部
30 第2符号化部
31 第2信号混合部
41 参照信号生成部
42 遅延量指定部
43 遅延部
44 適応速度制御部
45 適応的減算部
46 スピーカ駆動信号生成部
47 第2遅延部
48 第3符号化部
100、100A、100B、100C 音場再現システム
SPk1、SPk2、SPk3、SPk4、SPk5、SPk6、SPk7、SPk8
スピーカ
Claims (11)
- 収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受ける音源抽出方向制御部と、
前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施す遅延部と、
前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行う減算部と、
前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するスピーカ駆動信号生成部と、
前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力する音場再生部と、を備える、
音場再現装置。 - 前記音源抽出方向を用いて前記低次基底音響信号を符号化処理することにより、前記音源抽出方向の前記参照信号を生成する参照信号生成部、を更に備える、
請求項1に記載の音場再現装置。 - 前記減算部は、前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算結果を用いたフィードバック制御に基づいて前記減算処理を適応的に行う、
請求項1に記載の音場再現装置。 - 前記音源抽出方向は、前記音場収録空間内の基準位置からの3次元方向として指定される、
請求項1に記載の音場再現装置。 - 前記参照信号に前記所定量の遅延処理を施す第2遅延部と、
前記音源抽出方向と同一又は異なる方向であって、前記音場再現空間内での音場再現の強調方向である音源提示方向の指定を受ける音源提示方向制御部と、
前記音源提示方向を用いて前記所定量の遅延処理が施された参照信号を符号化することにより、前記音源提示方向に対応する高次基底音響信号を生成する符号化部と、を更に備える、
請求項1に記載の音場再現装置。 - 前記高次基底音響信号と前記複数のスピーカのそれぞれの配置情報とを用いて、前記スピーカごとの高次基底成分を有する第2スピーカ駆動信号を生成する第2スピーカ駆動信号生成部、を更に備える、
請求項5に記載の音場再現装置。 - 前記スピーカ駆動信号と前記第2スピーカ駆動信号とを前記スピーカごとに混合する信号混合部、を更に備え、
前記音場再生部は、前記信号混合部による混合後の信号を前記スピーカごとに出力する、
請求項6に記載の音場再現装置。 - 前記音源提示方向は、前記音場収録空間内の基準位置からの3次元方向として指定される、
請求項5に記載の音場再現装置。 - 収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受けるステップと、
前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施すステップと、
前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行うステップと、
前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するステップと、
前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力するステップと、を有する、
音場再現方法。 - 音場収録空間内の音源を収録可能な収録デバイスを有する音場収録装置と、
前記収録デバイスにより収録された音響信号を、前記音場収録空間とは異なる音場再現空間内で再現する音場再現装置と、を備え、
前記音場再現装置は、
前記収録デバイスが配置される音場収録空間内の音源抽出方向の指定を受ける音源抽出方向制御部と、
前記収録デバイスによる収録信号を用いた符号化処理に基づく低次基底音響信号に所定量の遅延処理を施す遅延部と、
前記遅延処理後の低次基底音響信号から前記音源抽出方向の参照信号の減算処理を行う減算部と、
前記減算処理後の低次基底音響信号と前記音場収録空間とは異なる音場再現空間内に設けられた複数のスピーカの配置情報とに基づいて、前記スピーカごとのスピーカ駆動信号を生成するスピーカ駆動信号生成部と、
前記複数のスピーカのそれぞれから、前記スピーカごとのスピーカ駆動信号を出力する音場再生部と、を備える、
音場再現システム。 - 前記収録デバイスは、複数のマイク素子のそれぞれが異なる方向を向くように立体的に配置されたアンビソニックスマイクにより構成される、
請求項10に記載の音場再現システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022155167A JP2024048967A (ja) | 2022-09-28 | 2022-09-28 | 音場再現装置、音場再現方法及び音場再現システム |
JP2022-155167 | 2022-09-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024070127A1 true WO2024070127A1 (ja) | 2024-04-04 |
Family
ID=90476965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2023/025364 WO2024070127A1 (ja) | 2022-09-28 | 2023-07-07 | 音場再現装置、音場再現方法及び音場再現システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2024048967A (ja) |
WO (1) | WO2024070127A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004526355A (ja) * | 2001-02-07 | 2004-08-26 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | オーディオチャンネル変換方法 |
US20160035356A1 (en) * | 2014-08-01 | 2016-02-04 | Qualcomm Incorporated | Editing of higher-order ambisonic audio data |
JP2016517033A (ja) * | 2013-03-22 | 2016-06-09 | トムソン ライセンシングThomson Licensing | 1次アンビソニックス信号の指向性を高める方法及び装置 |
JP2019192975A (ja) * | 2018-04-19 | 2019-10-31 | キヤノン株式会社 | 信号処理装置、信号処理方法、及びプログラム |
JP2021520760A (ja) * | 2018-02-22 | 2021-08-19 | ノモノ エーエスNomono As | 音源の位置特定 |
JP2022517506A (ja) * | 2018-12-07 | 2022-03-09 | フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム |
-
2022
- 2022-09-28 JP JP2022155167A patent/JP2024048967A/ja active Pending
-
2023
- 2023-07-07 WO PCT/JP2023/025364 patent/WO2024070127A1/ja unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004526355A (ja) * | 2001-02-07 | 2004-08-26 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | オーディオチャンネル変換方法 |
JP2016517033A (ja) * | 2013-03-22 | 2016-06-09 | トムソン ライセンシングThomson Licensing | 1次アンビソニックス信号の指向性を高める方法及び装置 |
US20160035356A1 (en) * | 2014-08-01 | 2016-02-04 | Qualcomm Incorporated | Editing of higher-order ambisonic audio data |
JP2021520760A (ja) * | 2018-02-22 | 2021-08-19 | ノモノ エーエスNomono As | 音源の位置特定 |
JP2019192975A (ja) * | 2018-04-19 | 2019-10-31 | キヤノン株式会社 | 信号処理装置、信号処理方法、及びプログラム |
JP2022517506A (ja) * | 2018-12-07 | 2022-03-09 | フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム |
Non-Patent Citations (2)
Title |
---|
MASATAKA NAKAHARA: "Production strategies for creating high-reality audio content by using sound field reproduction techniques", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 78, no. 3, 1 March 2022 (2022-03-01), pages 135 - 142, XP093155308, DOI: 10.20697/jasj.78.3 * |
西村竜一. 特集:立体音響技術. 5章 アンビソニックス. 映像情報メディア学会誌. August 2014, vol. 68, no. 8, (NISHIMURA, Ryouichi. 5. Ambisonics. The Journal of The Institute of Image Information and Television Engineers), non-official translation (Special Feature: Stereoscopic Sound Technology.) * |
Also Published As
Publication number | Publication date |
---|---|
JP2024048967A (ja) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7010334B2 (ja) | 音声処理装置および方法、並びにプログラム | |
US10477311B2 (en) | Merging audio signals with spatial metadata | |
US7706543B2 (en) | Method for processing audio data and sound acquisition device implementing this method | |
JP6820613B2 (ja) | 没入型オーディオ再生のための信号合成 | |
EP1025743A1 (en) | Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener | |
CN109891503A (zh) | 声学场景回放方法和装置 | |
JP6865440B2 (ja) | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム | |
JP7413267B2 (ja) | 低音マネジメントのための方法及び装置 | |
Braasch et al. | A loudspeaker-based projection technique for spatial music applications using virtual microphone control | |
JP2005157278A (ja) | 全周囲音場創生装置、全周囲音場創生方法、及び全周囲音場創生プログラム | |
WO2024070127A1 (ja) | 音場再現装置、音場再現方法及び音場再現システム | |
US20190313174A1 (en) | Distributed Audio Capture and Mixing | |
JP6955186B2 (ja) | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム | |
Wakefield | Third-order Ambisonic extensions for Max/MSP with musical applications | |
Ackermann et al. | Recordings of a loudspeaker orchestra with multichannel microphone arrays for the evaluation of spatial audio methods | |
US20240163624A1 (en) | Information processing device, information processing method, and program | |
CN113314129B (zh) | 一种适应环境的声场重放空间解码方法 | |
WO2024038702A1 (ja) | 音場再現装置、音場再現方法及び音場再現システム | |
JP2016092562A (ja) | 音声処理装置および方法、並びにプログラム | |
Tsutsumi et al. | Directivity synthesis with multipoles comprising a cluster of focused sources using a linear loudspeaker array | |
Omoto et al. | Hypotheses for constructing a precise, straightforward, robust and versatile sound field reproduction system | |
JP2024043430A (ja) | 音場臨場感再現装置及び音場臨場感再現方法 | |
WO2022034805A1 (ja) | 信号処理装置および方法、並びにオーディオ再生システム | |
Arend et al. | Efficient binaural rendering of spherical microphone array data by linear filtering | |
JP7260821B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23871371 Country of ref document: EP Kind code of ref document: A1 |