WO2012086834A1 - 音声強調方法、装置、プログラム、記録媒体 - Google Patents
音声強調方法、装置、プログラム、記録媒体 Download PDFInfo
- Publication number
- WO2012086834A1 WO2012086834A1 PCT/JP2011/079978 JP2011079978W WO2012086834A1 WO 2012086834 A1 WO2012086834 A1 WO 2012086834A1 JP 2011079978 W JP2011079978 W JP 2011079978W WO 2012086834 A1 WO2012086834 A1 WO 2012086834A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound
- filter
- speech enhancement
- speech
- frequency
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 261
- 238000012546 transfer Methods 0.000 claims abstract description 133
- 239000011159 matrix material Substances 0.000 claims description 121
- 238000013461 design Methods 0.000 claims description 113
- 239000013598 vector Substances 0.000 claims description 79
- 238000012545 processing Methods 0.000 claims description 48
- 230000001629 suppression Effects 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims description 13
- 230000015556 catabolic process Effects 0.000 claims description 12
- 238000006731 degradation reaction Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 60
- 230000014509 gene expression Effects 0.000 description 117
- 230000004044 response Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 17
- 230000007613 environmental effect Effects 0.000 description 11
- 238000005070 sampling Methods 0.000 description 9
- 230000006866 deterioration Effects 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000003491 array Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000005284 basis set Methods 0.000 description 6
- 238000012938 design process Methods 0.000 description 6
- 239000004576 sand Substances 0.000 description 6
- 230000017105 transposition Effects 0.000 description 6
- 239000006185 dispersion Substances 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
Definitions
- the present invention relates to a technology (speech enhancement technology) capable of enhancing a desired narrow range of speech.
- speech is not limited to a voice uttered by a person, but refers to a general “sound” such as a musical sound or an environmental noise as well as a voice of a person or an animal.
- Narrowly oriented speech enhancement technology using physical characteristics Typical examples of this category include acoustic tube microphones and parabolic microphones.
- the acoustic tube microphone 900 is a microphone that emphasizes sound coming from a target direction using sound interference.
- FIG. 1A is a diagram for explaining that sound arriving from a target direction is emphasized by the acoustic tube microphone 900.
- the opening of the acoustic tube 901 constituting the acoustic tube microphone 900 is directed in the target direction. And since the sound which arrived from the front (target direction) of the opening part of the acoustic tube 901 goes straight through the inside of the acoustic tube 901 as it is, the said sound reaches the microphone 902 constituting the acoustic tube microphone 900 with low energy loss. .
- FIG. 1B sound coming from other than the target direction enters the acoustic tube 901 through a large number of slits 903 carved on the side surface of the acoustic tube 901, but the sounds that have entered through these slits 903 interfere with each other. To do.
- the parabola microphone 910 is a microphone that emphasizes the voice arriving from the target direction by using reflection of sound.
- FIG. 2A is a diagram for explaining that the voice arriving from the target direction is emphasized by the parabolic microphone 910.
- the parabolic plate 911 is oriented in the target direction such that a straight line connecting the apex of the parabolic plate (parabolic surface) 911 constituting the parabolic microphone 910 and the focal point of the parabolic plate 911 overlaps the target direction.
- phased microphone array including a plurality of microphones.
- the phased microphone array emphasizes the sound in the target direction by performing signal processing that superimposes the signals collected by each microphone by applying a filter including information on time difference and sound pressure level difference.
- the phased microphone array performs sound enhancement by signal processing, and therefore can enhance sound in an arbitrary direction.
- Narrow-directed speech enhancement technology by selectively collecting reflected sounds
- the multi-beam forming method is a narrow-directional speech enhancement technology that can collect speech in a target direction with a high S / N ratio by collecting individual sounds such as direct sound and reflected sound.
- processing contents of the multi-beam forming method in the frequency domain will be described. Prior to explanation, symbols are defined.
- the frequency index be ⁇ and the frame number index be k.
- the direction of arrival of the direct sound from the desired sound source is ⁇ s1
- the direction of arrival of the reflected sound is ⁇ s2 ,..., ⁇ sR .
- T represents transposition and R-1 is the total number of reflected sounds.
- a filter that enhances the voice in the direction ⁇ sr is defined as W ⁇ ( ⁇ , ⁇ sr ).
- r is each integer satisfying 1 ⁇ r ⁇ R.
- the arrival direction and arrival time of the direct sound and the reflected sound are known. That is, the number of objects such as walls, floors, and reflectors that can clearly predict sound reflection is equal to R-1.
- the reflected sound number R-1 is often set to a relatively small value of 3 or 4. This is based on the fact that a high correlation is recognized between the direct sound and the low-order reflected sound. Since the multi-beam forming method is a method in which each voice is individually emphasized and synchronously added, the output signal Y ( ⁇ , k, ⁇ s ) is given by Expression (1). H represents Hermitian transposition. A delay synthesis method will be described as a design method of the filter W ⁇ ( ⁇ , ⁇ sr ). Assuming that direct sound or reflected sound arrives as a plane wave, the filter W ⁇ ( ⁇ , ⁇ sr ) is given by the equation (2).
- m is an integer satisfying 1 ⁇ m ⁇ M.
- c represents the speed of sound
- u represents the distance between adjacent microphones.
- j is an imaginary unit.
- FIG. 4 shows a functional configuration of the narrow directivity speech enhancement technique based on the multi-beam forming method.
- Step 2 The frequency domain transform unit 120 transforms the digital signal of each channel into a frequency domain signal by a technique such as fast discrete Fourier transform.
- a technique such as fast discrete Fourier transform.
- N is about 512 in the case of 16 KHz sampling.
- the frequency domain signal X ⁇ ( ⁇ , k) [X 1 ( ⁇ , k),..., X M ( ⁇ , k)] by subjecting the M-channel analog signal stored in the buffer to high-speed discrete Fourier transform processing.
- the adder 140 receives the signals Z 1 ( ⁇ , k),..., Z R ( ⁇ , k) and outputs an addition signal Y ( ⁇ , k).
- the addition process is expressed by equation (5).
- Step 5 The time domain conversion unit 150 converts the addition signal Y ( ⁇ , k) into the time domain and outputs a time domain signal y (t) in which the voice in the direction ⁇ s is emphasized.
- a narrow-directed speech enhancement technique for example, when there are a plurality of sound sources having different distances from the microphone in substantially the same direction, it may be desired to distinguish and emphasize the speech emitted from each sound source.
- the directivity of the microphone is behind the focused subject (referred to as “focus sound source”).
- Non-Patent Document 3 discloses an optimal design method of a delay sum array in a near sound field in which a sound wave is a spherical wave. The signal-to-noise ratio between the signal and unnecessary sound (background noise, reverberation, etc.) is maximized.
- Non-Patent Document 4 uses two small microphone arrays as essential components, and enables spot sound collection according to distance without using a large microphone array. .
- the technology disclosed in Non-Patent Document 5 identifies the distance to a sound source and emphasizes or suppresses only the sound from the sound source within a specific distance range even with a single microphone array. Remove noise. This method makes it possible to enhance the sound according to the distance of the sound source by utilizing the property that the power of the sound that directly arrives from the sound source and the power of the sound that arrives after being reflected vary depending on the distance.
- Yusuke Hioka Kazunori Kobayashi, Kenichi Furuya and Akitoshi Kataoka, "Enhancement of Sound Sources Located within a Particular Area Using a Pair of Small Microphone Arrays," IEICE Transactions on Fundamentals, Vol. E91-A, no. 2, pp. 561-574, August 2004. Yusuke Hioka, Kenta Niwa, Sumio Hannai, Yoichi Haneda, “Examination of sound collection by distance based on direct ratio of received signals”, Acoustical Society of Japan Autumn Meeting, pp. 633-634, 2009.
- the microphone itself is not directed to the target direction
- the voice arriving from the target direction is emphasized.
- the parabola microphone can be said to be excellent from the viewpoint of high S / N ratio collection because the energy of the sound reflected by the parabola plate can be concentrated on the focal point.
- the narrow-directional speech enhancement technique described in category [2] in order to realize narrow directivity, it is necessary to increase the number of microphones and increase the array size (total length of the array). It is not realistic to increase the array size indefinitely from the viewpoints of space restrictions for installing the phased microphone array, cost, and the number of microphones that can execute real-time processing.
- the maximum value of a signal that can be processed in real time with a commercially available microphone is about 100
- the directivity that can be realized with a phased microphone array using about 100 microphones is ⁇ 30 with respect to the target direction.
- the voice spot enhancement technique described in (1) is a delay-and-sum array method, so no countermeasure is taken against interference sources.
- the voice spot enhancement technique described in (2) since a plurality of microphone arrays are required, it can be disadvantageous due to an increase in device scale and cost. Increasing the size of the microphone array is a restriction on its installation and transportation.
- the voice spot enhancement technology described in (3) since reverberation information changes due to environmental changes, it is difficult to respond robustly to environmental changes.
- the present invention collects sound with a sufficient signal-to-noise ratio and can follow the sound in any direction without requiring a physical movement of the microphone, but in a desired direction.
- an object of the present invention is to provide a speech enhancement technique (speech spot enhancement technique) that has sharper directivity than before and can enhance speech according to the distance from a microphone array.
- the present invention picks up sound with a sufficient signal-to-noise ratio and can follow the sound in any direction without requiring a physical movement of the microphone, but has a sharper pointing in a desired direction than before. It is an object of the present invention to provide a speech enhancement technology (narrow-directed speech enhancement technology) that has the characteristics.
- Each microphone of sound from each position (where i is a direction for identifying each position and g is a distance) included in one or a plurality of positions assumed as sound source positions (the total number of microphones is M; M Using the transfer characteristics a i, g to ⁇ 2), a filter is obtained for the position to be subjected to speech enhancement [filter design processing].
- Each transfer characteristic a i, g is a direct sound transfer characteristic in which sound from a position determined by a direction i and a distance g directly reaches M microphones, and the sound is reflected by a reflector and reaches M microphones. It is represented by the sum of the transfer characteristics of two or more reflected sounds.
- the filter is applied for each frequency with respect to the frequency domain signal obtained by converting the M sound collection signals obtained by collecting the sound with M microphones into the frequency domain.
- the filter obtained by the filter design process is applied to the frequency domain signal for each frequency to obtain an output signal [filter application process].
- This output signal is a frequency domain signal in which the voice at the position to be voice-enhanced is emphasized.
- Each transfer characteristic a i, g is, as a specific example, a sum of a direct sound steering vector and one or more reflected sound steering vectors in which the attenuation of the sound due to reflection and the arrival time difference with respect to the direct sound are corrected, or It may be obtained by actual measurement in an actual environment.
- a filter may be obtained for each frequency so that the power of the sound from a position other than the position that is the target of speech enhancement is minimized.
- the filter is performed for each frequency so that the power of sound other than one or a plurality of positions assumed as the sound source position is minimized in a state where the filter coefficient for one microphone among the M microphones is fixed to a constant value. You may ask for.
- the speech enhancement target is subject to the following conditions: (1) the entire bandwidth of the speech at the position to be speech enhanced, and (2) the suppression of the entire bandwidth of the speech at one or more suppression points.
- a filter may be obtained for each frequency so that the power of the sound other than the position and each suppression point is minimized.
- a filter is obtained for each frequency so that the power of the sound other than the position to be emphasized is minimized under the condition that the deterioration amount of the sound at the position to be emphasized is not more than a predetermined amount. Also good. Or you may obtain
- Each transfer characteristic a ⁇ is a direct sound transfer characteristic in which sound in the direction ⁇ directly reaches the M microphones, and each transfer characteristic of one or more reflected sounds in which the sound is reflected by the reflector and reaches the M microphones. It is expressed as the sum of The filter is applied for each frequency with respect to the frequency domain signal obtained by converting the M sound collection signals obtained by collecting the sound with M microphones into the frequency domain.
- the filter obtained by the filter design process is applied to the frequency domain signal for each frequency to obtain an output signal [filter application process].
- This output signal is a frequency domain signal in which the voice in the direction to be emphasized is emphasized.
- Each transfer characteristic a ⁇ is, as a specific example, a sum of a steering vector of a direct sound and each steering vector of one or more reflected sounds in which the attenuation of the sound due to reflection and the arrival time difference with respect to the direct sound are corrected, It may be obtained by actual measurement under the environment.
- a filter may be obtained for each frequency so that the power of speech in a direction other than the direction that is the target of speech enhancement is minimized.
- the filter coefficient for one of the M microphones is fixed to a constant value.
- a filter may be obtained.
- the speech enhancement target is selected under the conditions of (1) passing the entire band of the voice in the direction of the speech enhancement, and (2) suppressing the entire band of the voice of one or more blind spots.
- a filter may be obtained for each frequency so that the sound power in the direction excluding the direction and each blind spot becomes the minimum.
- a filter may be applied for each frequency so that the power of speech in directions other than the direction of speech enhancement is minimized under the condition that the degradation amount of the speech in the direction of speech enhancement is not more than a predetermined amount. You may ask for it. Or you may obtain
- each transfer characteristic a i, g is directly transmitted from the position determined by the direction i and the distance g directly to the M microphones.
- a filter is designed in accordance with general filter design criteria by expressing the sum of the transmission characteristics of sound and the transmission characteristics of one or more reflected sounds that are reflected by a reflector and reach the M microphones.
- it is possible to design a filter that increases the degree of suppression of coherence that determines the degree of directivity in a desired direction. In other words, it has a sharper directivity than in the past in the desired direction.
- Primarynciple of Audio Spot Enhancement Technology which will be described later, by using reflected sound, audio from a position that is almost in the same direction but at a different distance when viewed from the microphone array is placed at a different position. A significant difference will occur between the corresponding transfer characteristics.
- the narrow-directional speech enhancement technology of the present invention By extracting the difference between the transfer characteristics by the beam forming method, it is possible to emphasize a narrow range of sound including a desired direction according to the distance from the microphone array.
- the narrow-directional speech enhancement technology of the present invention not only a direct sound in a desired direction but also a reflected sound is used, so that sound can be collected with a sufficiently large S / N ratio in the direction, and sound can be obtained by signal processing. Since the emphasis is performed, it is possible to follow a voice in an arbitrary direction without requiring a physical movement of the microphone.
- each transfer characteristic a ⁇ is defined as the direct sound transfer characteristic in which the sound in the direction ⁇ reaches the M microphones and
- a filter is designed in accordance with a general filter design standard, it is indicated in a desired direction by expressing it as a sum of the transfer characteristics of one or more reflected sounds that are reflected by a reflector and reach M microphones. It is possible to design a filter that increases the degree of suppression of coherence that determines the breadth of sex. In other words, it has a sharper directivity than in the past in the desired direction.
- FIG. 1A is a diagram for explaining that sound arriving from a target direction is emphasized by an acoustic tube microphone.
- FIG. 1B is a diagram for explaining that sound arriving from a direction other than the target direction is suppressed by the acoustic tube microphone.
- FIG. 2A is a diagram for explaining that the voice arriving from the target direction is emphasized by the parabolic microphone.
- FIG. 2B is a diagram for explaining that the parabolic microphone suppresses voices coming from directions other than the target direction.
- FIG. 3 is a diagram for explaining that a voice in a target direction is emphasized and a voice in a direction other than the target direction is suppressed using a phased microphone array including a plurality of microphones.
- FIG. 4 is a diagram illustrating a functional configuration of a narrow-directional speech enhancement technique based on a multi-beam forming method as an example of the prior art.
- FIG. 5A is a diagram schematically showing that narrow directivity cannot be sufficiently realized when only direct sound is considered.
- FIG. 5B is a diagram schematically showing that narrow directivity can be sufficiently realized when direct sound and reflected sound are taken into consideration.
- FIG. 6 is a diagram showing the direction dependency of coherence between the case of the prior art and the case of the principle of the present invention.
- FIG. 7 is a diagram illustrating a functional configuration of the narrow-directional speech enhancement device (Embodiment 1).
- FIG. 8 is a diagram illustrating a processing procedure of the narrow-directional speech enhancement method (Embodiment 1).
- FIG. 9 is a diagram showing the configuration of the first embodiment.
- FIG. 10 is a diagram illustrating a functional configuration of the narrow-directional speech enhancement device (Embodiment 2).
- FIG. 11 is a diagram illustrating a processing procedure of the narrow-directional speech enhancement method (second embodiment).
- FIG. 12 is a diagram showing experimental results based on the first embodiment.
- FIG. 13 is a diagram showing experimental results based on the first embodiment.
- FIG. 14 is a diagram showing the directivity by the filter W ⁇ ( ⁇ , ⁇ ) in the first embodiment.
- FIG. 15 is a diagram showing the configuration of the second embodiment.
- FIG. 16 is a diagram illustrating experimental results based on experimental examples.
- FIG. 17 is a diagram illustrating experimental results based on experimental examples.
- FIG. 16 is a diagram illustrating experimental results based on experimental examples.
- FIG. 18A is a diagram showing a state in which sound directly reaches the microphone array from the two sound sources A and B.
- FIG. 18B is a diagram showing a state in which sound directly reaches the microphone array from two sound sources A and B and a state in which reflected sound reaches the microphone array from two virtual sound sources A ( ⁇ ) and B ( ⁇ ) by a reflector. is there.
- FIG. 19 is a diagram illustrating a functional configuration of the audio spot enhancement device (Embodiment 1).
- FIG. 20 is a diagram illustrating a processing procedure of the voice spot enhancement method (first embodiment).
- FIG. 21 is a diagram illustrating a functional configuration of the audio spot enhancement device (Embodiment 2).
- FIG. 1 is a diagram showing a state in which sound directly reaches the microphone array from the two sound sources A and B.
- FIG. 18B is a diagram showing a state in which sound directly reaches the microphone array from two sound sources A and B and a state in which reflected sound reaches the microphone
- FIG. 22 is a diagram illustrating a processing procedure of the voice spot enhancement method (second embodiment).
- FIG. 23A shows the directivity (two-dimensional region) of the minimum dispersion beamformer when no reflector is installed.
- FIG. 23B shows the directivity (two-dimensional region) of the minimum dispersion beamformer when a reflector is installed.
- FIG. 24A is a plan view showing an example of an embodiment of the present invention.
- FIG. 24B is a front view showing an exemplary configuration of the present invention.
- FIG. 24C is a side view showing an exemplary implementation of the present invention.
- FIG. 25A is a side view showing another exemplary configuration of the present invention.
- FIG. 25B is a side view showing another exemplary configuration of the present invention.
- FIG. 25A is a side view showing another exemplary configuration of the present invention.
- FIG. 26 is a diagram illustrating a usage pattern in the exemplary configuration illustrated in FIG. 25B.
- FIG. 27A is a plan view illustrating an exemplary configuration of the present invention.
- FIG. 27B is a front view showing an exemplary configuration of the present invention.
- FIG. 27C is a side view showing an exemplary implementation of the present invention.
- FIG. 28 is a side view showing an exemplary configuration of the present invention.
- the narrow-directional speech enhancement technology of the present invention is based on the essence of microphone array technology that can follow speech in an arbitrary direction based on signal processing, and that sound is collected at a high S / N ratio by actively using reflected sound.
- One of the features is that it combines signal processing technology that enables sharp directivity while being based on the above.
- the target direction ⁇ as seen from the center of the microphone array s Frequency domain signal X ⁇ A filter that emphasizes ( ⁇ , k) at frequency ⁇ is W ⁇ ( ⁇ , ⁇ s ).
- M is an integer of 2 or more.
- T represents transposition.
- H represents Hermitian transposition.
- the “center of the microphone array” can be arbitrarily determined, but generally, the geometric center of the arrangement of the M microphones is the “center of the microphone array”.
- Filter W ⁇ ( ⁇ , ⁇ s ) There are various design methods of (), but here, a description will be given of a case based on the minimum variance distortion-free response method (MVDR method; minimum variation distortion response method).
- MVDR method minimum variation distortion response method
- the filter W ⁇ ( ⁇ , ⁇ s ) Is the target direction ⁇ using the spatial correlation matrix Q ( ⁇ ) under the constraint of equation (8).
- target direction ⁇ s Is designed so that the power of “speech in a direction other than that” is also referred to as “noise” is minimized at the frequency ⁇ (see Expression (7)).
- a ⁇ ( ⁇ , ⁇ s ) [A 1 ( ⁇ , ⁇ s ), ..., a M ( ⁇ , ⁇ s ]] T
- the direction ⁇ s Is a transfer characteristic at a frequency ⁇ between the sound source and the M microphones when it is assumed that there is a sound source.
- a ⁇ ( ⁇ , ⁇ s ) [A 1 ( ⁇ , ⁇ s ), ..., a M ( ⁇ , ⁇ s ]] T Is the direction ⁇ to each microphone in the microphone array s Is a transfer characteristic at a frequency ⁇ .
- the spatial correlation matrix Q ( ⁇ ) is the frequency domain signal X ⁇ Component X of ( ⁇ , k) 1 ( ⁇ , k), ..., X M
- E [X i ( ⁇ , k) X j * ( ⁇ , k)] (1 ⁇ i ⁇ M, 1 ⁇ j ⁇ M) is included in the (i, j) component.
- the operator E [•] is an operator representing a statistical average operation, and the symbol * represents a complex conjugate.
- the spatial correlation matrix Q ( ⁇ ) is obtained based on observation X 1 ( ⁇ , k), ..., X M Although it can be expressed using the statistic of ( ⁇ , k), it can also be expressed using transfer characteristics.
- Filter W which is the optimal solution of Equation (7) ⁇ ( ⁇ , ⁇ s ) Is known to be given by equation (9) (reference document 1 below).
- the noise power depends on the structure of the spatial correlation matrix Q ( ⁇ ).
- the set to which the noise arrival direction index p belongs is ⁇ 1, 2,..., P ⁇ 1 ⁇ .
- Target direction ⁇ s , S is not belonging to the set ⁇ 1, 2,..., P-1 ⁇ .
- the spatial correlation matrix Q ( ⁇ ) is given by equation (10a).
- P is preferably a somewhat large value, and is assumed to be an integer of about M.
- the target direction ⁇ s Although it is described as if it were a specific direction (hence the target direction ⁇ s The direction other than is the direction of “noise”), as will be apparent from the embodiments described later, in practice, the target direction ⁇ s Is an arbitrary direction that can be the target of speech enhancement, and the target direction ⁇ s A plurality of directions are generally assumed as possible directions. From this point of view, the target direction ⁇ s The distinction between the direction of noise and the direction of noise is almost subjective, and P different directions are determined in advance as a plurality of directions that are assumed as directions of arrival of speech without distinction between the target sound and noise.
- the spatial correlation matrix Q ( ⁇ ) is included in a plurality of directions assumed as voice arrival directions.
- P.
- represents the number of elements of the set ⁇ .
- a ⁇ ⁇ B The vector A ⁇ And vector B ⁇
- the inner product value of is zero.
- P ⁇ M is satisfied.
- Equation (12) [a composed of P transfer characteristics satisfying orthogonality. ⁇ ( ⁇ , ⁇ s ), A ⁇ ( ⁇ , ⁇ 1 ), ..., a ⁇ ( ⁇ , ⁇ P-1 ]] T
- the unit matrix ⁇ ( ⁇ ) means that the spatial correlation matrix Q ( ⁇ ) can be decomposed.
- Equation (11) is a transfer characteristic a that satisfies Equation (11) according to the spatial correlation matrix Q ( ⁇ ) ⁇ ( ⁇ , ⁇ ⁇ ) Eigenvalue and real number.
- Equation (12) the inverse matrix of the spatial correlation matrix Q ( ⁇ ) is given by Equation (13).
- equation (13) into equation (7) shows that the noise power is minimized. If the noise power is minimized, the target direction ⁇ s Directivity for is realized. Therefore, the orthogonality is established between the transfer characteristics in different directions. s It is an important condition for realizing the directivity for.
- the target direction ⁇ in the prior art s The reason why it is difficult to realize a sharp directivity with respect to is considered.
- the filter was designed on the assumption that the transfer characteristic is composed only of direct sound. In reality, there is a reflected sound that is reflected from the sound source from the same sound source and reaches the microphone, but the reflected sound is considered to be a factor that deteriorates directivity and ignores the presence of the reflected sound. It was.
- the transfer characteristic a ⁇ conv ( ⁇ , ⁇ ) [a 1 ( ⁇ , ⁇ ), ..., a M ( ⁇ , ⁇ )] T
- a ⁇ conv ( ⁇ , ⁇ ) h ⁇ d ( ⁇ , ⁇ ).
- the steering vector is a complex vector in which the phase response characteristics at the frequency ⁇ of each microphone with respect to the reference point are arranged for sound waves in the direction ⁇ as viewed from the center of the microphone array.
- the direct sound steering vector h ⁇ d M-th element h constituting ( ⁇ , ⁇ ) dm ( ⁇ , ⁇ ) is given by, for example, equation (14a).
- m is an integer satisfying 1 ⁇ m ⁇ M.
- c represents the speed of sound, and u represents the distance between adjacent microphones.
- j is an imaginary unit.
- the reference point is half the total length of the linear microphone array (the center of the linear microphone array).
- the direction ⁇ was defined as an angle formed by the direct sound arrival direction and the arrangement direction of the microphones included in the linear microphone array as seen from the center of the linear microphone array (see FIG. 9). There are various ways of expressing the steering vector.
- the direct steering vector h ⁇ d M-th element h constituting ( ⁇ , ⁇ ) dm ( ⁇ , ⁇ ) is given by, for example, equation (14b).
- the direct sound steering vector h ⁇ d M-th element h constituting ( ⁇ , ⁇ ) dm is given by equation (14a).
- ( ⁇ , ⁇ ) is given by equation (14a).
- Inner product value ⁇ with transfer characteristics of conv ( ⁇ , ⁇ ) is expressed by equation (15). Note that ⁇ ⁇ ⁇ s And Hereafter, ⁇ conv ( ⁇ , ⁇ ) is called coherence.
- the target direction ⁇ s In contrast, the directivity has a wide beam width.
- the narrow-directional speech enhancement technology of the present invention is based on such considerations, and the target direction ⁇ s
- ⁇ s Unlike the prior art, based on the knowledge that it is important to make the coherence sufficiently small even when
- two types of plane waves that is, direct sound from the sound source and reflected sound obtained by reflecting the sound from the sound source by the reflector 300 are mixed. Let the number of reflected sounds be ⁇ . ⁇ is a predetermined integer of 1 or more.
- transfer characteristic a ⁇ ( ⁇ , ⁇ ) [a 1 ( ⁇ , ⁇ ), ..., a M ( ⁇ , ⁇ )] T
- ⁇ ⁇ (1 ⁇ ⁇ ⁇ ⁇ ) represents the reflectance of the sound of the object reflected by the ⁇ -th reflected sound. Since it is desired to provide one or more reflected sounds to a microphone array composed of M microphones, it is preferable that one or more reflectors exist. From this point of view, assuming that there is a sound source in the target direction, the positional relationship between the sound source, the microphone array, and one or more reflectors is such that the sound from the sound source is reflected by at least one reflector. Each reflector is preferably arranged to reach the array.
- Each reflector has a two-dimensional shape (for example, a flat plate) or a three-dimensional shape (for example, a parabolic shape). Further, it is preferable that the size of each reflector is equal to or larger than the microphone array (about 1 to 2 times).
- the reflectance ⁇ of each reflector ⁇ (1 ⁇ ⁇ ⁇ ⁇ ) is at least larger than 0, and more specifically, it is desirable that the amplitude of the reflected sound reaching the microphone array is, for example, 0.2 times or more of the direct sound amplitude. It is a solid having rigidity.
- the reflecting object may be a movable object (for example, a reflector) or an immovable object (a floor, a wall, or a ceiling).
- each reflector is a subordinate of the microphone array (in this case, it is assumed that the estimated number of reflected sounds is due to each reflector. become).
- the “subordinate of the microphone array” refers to “a tangible object that can follow changes in the position and orientation of the microphone array while maintaining the positional relationship (geometric relationship) with respect to the microphone array”.
- a simple example is a configuration in which each reflector is fixed to a microphone array.
- the reflector is a thick rigid body.
- the ⁇ -th (1 ⁇ ⁇ ⁇ ⁇ ⁇ ) steering vector h ⁇ r ⁇ ( ⁇ , ⁇ ) [h r1 ⁇ ( ⁇ , ⁇ ), ..., h rM ⁇ ( ⁇ , ⁇ )] T
- the m-th element of is represented by Expression (18c) or Expression (18d).
- Function ⁇ ⁇ ( ⁇ ) outputs the arrival direction of the ⁇ -th (1 ⁇ ⁇ ⁇ ⁇ ) reflected sound. Since the position of the reflector can be set appropriately, the direction of arrival of the reflected sound can be treated as a variable parameter.
- FIG. 5A and 5B schematically show the difference in directivity between the case of the narrow-directional speech enhancement technique of the present invention and the case of the conventional technique.
- FIG. 6 shows the direction dependency of the normalized coherence for comparison between the two.
- the direction indicated by the symbol ⁇ is ⁇ given by the equation (16), and the direction indicated by the symbol + is It is (theta) given by Formula (24).
- the key point of the narrow directivity speech enhancement technology of the present invention is the transfer characteristic a.
- ⁇ ( ⁇ , ⁇ ) [a 1 ( ⁇ , ⁇ ), ..., a M ( ⁇ , ⁇ )] T
- ⁇ ( ⁇ , ⁇ s ) Can be designed.
- ⁇ 5> A filter design method based on the likelihood method and a filter design method based on the ⁇ 6> AMNOR (Adaptive Microphone-array for noise reduction) method will be described.
- AMNOR Adaptive Microphone-array for noise reduction
- the target direction ⁇ s Spatial correlation matrix R for speech in directions other than nn Contains the inverse of ( ⁇ ), but R nn
- the inverse matrix of ( ⁇ ) s Voice and target direction ⁇ s Spatial correlation matrix R of the entire input including speech in directions other than xx It is known that the inverse matrix of ( ⁇ ) may be substituted.
- ⁇ ( ⁇ , ⁇ s ) May be obtained by equation (30).
- the filter W is based on the standard that minimizes the average output power of the beamformer with the filter coefficient for one microphone fixed at a constant value.
- ⁇ ( ⁇ , ⁇ s ) the filter coefficient for the first microphone among the M microphones is fixed.
- the filter W ⁇ ( ⁇ , ⁇ s ) Is the spatial correlation matrix R under the constraint of equation (32).
- xx ( ⁇ ) is used to minimize the power of the voice in all directions (all directions assumed as the voice arrival direction) (see Expression (31)).
- a ⁇ ( ⁇ , ⁇ s ) [A ⁇ ( ⁇ , ⁇ s ), A ⁇ ( ⁇ , ⁇ N1 ), ..., a ⁇ ( ⁇ , ⁇ NB ]].
- Target direction ⁇ s (2) B blind spots ⁇ known in advance N1 , ⁇ N2 , ..., ⁇ NB
- f s ( ⁇ ) 1.0
- f i ( ⁇ ) 0.0 (i ⁇ ⁇ N1, N2,..., NB ⁇ ).
- the filter W which is the optimum solution of the equation (7) under the equation (35) representing the constraint condition ⁇ ( ⁇ , ⁇ s ) Is given by equation (36) (see reference 3 below).
- Equation (2) assuming that direct sound or reflected sound arrives as a plane wave, filter W ⁇ ( ⁇ , ⁇ s ) Is given by equation (37). That is, the filter W ⁇ ( ⁇ , ⁇ s ) Is the transfer characteristic a ⁇ ( ⁇ , ⁇ s ) Is obtained by normalization.
- the spatial correlation matrix Q ( ⁇ ) is expressed by the second term on the right side of the equation (10a), that is, the equation (10c).
- Filter W ⁇ ( ⁇ , ⁇ s ) Is given by equation (9) or equation (36).
- a signal obtained by applying a transfer characteristic between a sound source and a microphone to a virtual signal in a target direction (hereinafter referred to as a virtual target signal)
- a virtual target signal a signal obtained by applying a transfer characteristic between a sound source and a microphone to a virtual signal in a target direction
- the filter output signal when the mixed signal with noise is input is the virtual target signal most in terms of the least square error.
- This is a method for obtaining a filter that reproduces well (that is, the noise power included in the filter output signal is minimized).
- the filter W ⁇ ( ⁇ , ⁇ s ) Is given by equation (38) (see reference 4 below).
- R ss ( ⁇ ) is the equation (26), R nn ( ⁇ ) is expressed by Expression (27).
- Transfer characteristic a ⁇ ( ⁇ , ⁇ s ) [A 1 ( ⁇ , ⁇ s ), ..., a M ( ⁇ , ⁇ s ]] T Is represented by the equation (17a) (exactly, ⁇ in the equation (17a) s ).
- Virtual target signal level P s May be determined based on empirical rules, or may be determined so that the difference between the speech degradation amount D in the target direction and the threshold value D falls within an arbitrarily determined error range.
- D (P s ) Due to the monotonicity of P s Deterioration amount D (P s ) By repeatedly obtaining the deterioration amount D (P s ) And the threshold value D ⁇ are within a predetermined error range, the virtual target signal level P s Can be requested.
- the spatial correlation matrix Q ( ⁇ ), R ss ( ⁇ ), R nn ( ⁇ ) was expressed using transfer characteristics. However, the frequency domain signal X described above ⁇ Spatial correlation matrix Q ( ⁇ ), R using ( ⁇ , k) ss ( ⁇ ), R nn ( ⁇ ) can also be expressed.
- the spatial correlation matrix Q ( ⁇ ) will be described.
- the spatial correlation matrix R ss ( ⁇ ) is obtained by frequency domain representation of an analog signal obtained by observation with a microphone array (including M microphones) in an environment where only sound in the target direction exists
- a spatial correlation matrix R nn ( ⁇ ) is obtained by frequency domain representation of an analog signal obtained by observation with a microphone array (including M microphones) in an environment where there is no sound in the target direction (that is, a noise environment).
- Frequency domain signal X ⁇ ( ⁇ , k) [X 1 ( ⁇ , k), ..., X M ( ⁇ , k)] T
- the spatial correlation matrix Q ( ⁇ ) using is expressed by Expression (41).
- the operator E [•] is an operator representing a statistical average operation. When a discrete time series of analog signals received by a microphone array (including M microphones) is regarded as a stochastic process, the operator E [•] is arithmetic when it is a so-called wide or stationary stationary. Average value (expected value) is calculated.
- the spatial correlation matrix Q ( ⁇ ) is, for example, the frequency domain signal X of a total of ⁇ frames currently and past stored in a memory or the like.
- i 0, that is, the k-th frame is the current frame.
- the spatial correlation matrix Q ( ⁇ ) according to the equations (41) to (42) may be recalculated for each frame, may be recalculated at regular or irregular intervals, or It may be calculated before implementation of the embodiment described later (in particular, R in the filter design). ss ( ⁇ ) or R nn When ( ⁇ ) is used, it is preferable to calculate the spatial correlation matrix Q ( ⁇ ) in advance using the frequency domain signal acquired before the implementation of the embodiment.
- the spatial correlation matrix Q ( ⁇ ) is explicitly expressed as in equations (41a) and (42a).
- the correlation matrix be represented as Q ( ⁇ , k). If the spatial correlation matrix Q ( ⁇ , k) represented by the equations (41a) and (42a) is used, the filter W ⁇ ( ⁇ , ⁇ s ) Also depends on the current and past frames, so explicitly set this to W ⁇ ( ⁇ , ⁇ s , K).
- the filter represented by any one of Expression (9), Expression (29), Expression (30), Expression (33), Expression (36), and Expression (38) described in the various filter design methods described above.
- FIG. 7 and FIG. 8 show the functional configuration and processing flow of the first embodiment of the narrow directivity speech enhancement technology of the present invention.
- the speech enhancement apparatus (hereinafter referred to as a narrow-directional speech enhancement apparatus) 1 includes an AD conversion unit 210, a frame generation unit 220, a frequency domain conversion unit 230, a filter application unit 240, a time domain conversion unit 250, and a filter design.
- Unit 260 and storage unit 290 includes an AD conversion unit 210, a frame generation unit 220, a frequency domain conversion unit 230, a filter application unit 240, a time domain conversion unit 250, and a filter design.
- Unit 260 and storage unit 290 includes an AD conversion unit 210, a frame generation unit 220, a frequency domain conversion unit 230, a filter application unit 240, a time domain conversion unit 250, and a filter design.
- Unit 260 and storage unit 290 includes an AD conversion unit 210, a frame generation unit 220, a frequency domain conversion unit 230, a filter
- Step S1 Pre-filter W for each frequency for each discrete direction that the filter design unit 260 can be subject to speech enhancement.
- transfer characteristics a ⁇ ( ⁇ , ⁇ i ) [A 1 ( ⁇ , ⁇ i ), ..., a M ( ⁇ , ⁇ i ]] T It is necessary to obtain (1 ⁇ i ⁇ I, ⁇ ), which is the arrangement of microphones in the microphone array, the positional relationship of reflectors such as reflectors, floors, walls, and ceilings with respect to the microphone array, and direct sound.
- the transfer characteristic a ⁇ ( ⁇ , ⁇ i ) (1 ⁇ i ⁇ I, ⁇ ), the index i in the direction is preferably at least the indexes N1, N2,..., NB in the direction of B blind spots.
- the indexes N1, N2,..., NB in the direction of B blind spots are set as any different integers between 1 and I.
- the number of reflected sounds is set to an integer satisfying 1 ⁇ ⁇ , but the value of ⁇ is not particularly limited and may be set appropriately according to the calculation ability.
- the transfer characteristic a ⁇ ( ⁇ , ⁇ i ) Can be specifically calculated by the equation (17b) (exactly, ⁇ in the equation (17b) is ⁇ i ).
- Expression (14a), Expression (14b), Expression (18a), Expression (18b), Expression (18c), Expression (18d) can be used.
- transfer characteristics a ⁇ ( ⁇ , ⁇ i ) For example, according to any one of Equation (9), Equation (29), Equation (30), Equation (33), Equation (36), Equation (37), and Equation (38). ⁇ ( ⁇ , ⁇ i ) (1 ⁇ i ⁇ I).
- Step S2 Sound is collected using M microphones 200-1,..., 200-M constituting the microphone array.
- M is an integer of 2 or more.
- M microphones there is no limit to how M microphones are arranged.
- M microphones two-dimensionally or three-dimensionally, there is an advantage that the uncertainty of the voice emphasis direction is eliminated.
- the M microphones are arranged in a straight line in the horizontal direction, for example, the problem that it becomes impossible to distinguish between voices coming from the front direction and voices coming from directly above is arranged in a plane or three-dimensionally. Can be prevented.
- the directivity of each microphone is the target direction ⁇ that is the sound collection direction. s It is better to have directivity that can pick up sound with a certain sound pressure in the direction that can be. Therefore, a microphone with relatively gentle directivity, such as an omnidirectional microphone or a unidirectional microphone, is preferable.
- the AD converter 210 converts an analog signal (sound collection signal) collected by the M microphones 200-1,..., 200-M into a digital signal x.
- ⁇ (T) [x 1 (T), ..., x M (T)] T Convert to t represents a discrete time index.
- the frame generator 220 is a digital signal x output from the AD converter 210.
- ⁇ (T) [x 1 (T), ..., x M (T)] T
- N samples are stored in a buffer for each channel, and a digital signal x in units of frames
- ⁇ (K) [x ⁇ 1 (K), ..., x ⁇ M (K)] T
- k is an index of a frame number.
- x ⁇ m (K) [x m ((K-1) N + 1), ..., x m (KN)] (1 ⁇ m ⁇ M).
- N depends on the sampling frequency, but in the case of 16 kHz sampling, around 512 points is appropriate.
- the frequency domain converter 230 is a digital signal x for each frame.
- ⁇ is an index of discrete frequency.
- One method for converting a time domain signal to a frequency domain signal is a fast discrete Fourier transform, but the present invention is not limited to this, and other methods for converting to a frequency domain signal may be used.
- Frequency domain signal X ⁇ ( ⁇ , k) is output for each frequency ⁇ and frame k.
- the filter application unit 240 performs frequency domain signal X for each frequency ⁇ for each frame k.
- ⁇ ( ⁇ , k) [X 1 ( ⁇ , k), ..., X M ( ⁇ , k)] T
- the desired direction ⁇ s Filter W corresponding to ⁇ ( ⁇ , ⁇ s ) To apply the output signal Y ( ⁇ , k, ⁇ s ) Is output (see equation (43)).
- Target direction ⁇ s Index s is s ⁇ ⁇ 1,..., I ⁇ and the filter W ⁇ ( ⁇ , ⁇ s ) Is stored in the storage unit 290, for example, each time the process of step S6, the filter application unit 240 selects the target direction ⁇ to be emphasized.
- s Filter W corresponding to ⁇ ( ⁇ , ⁇ s ) From the storage unit 290.
- Target direction ⁇ s Index s does not belong to the set ⁇ 1,..., I ⁇ , that is, the target direction ⁇ s Filter W corresponding to ⁇ ( ⁇ , ⁇ s ) Is not calculated in the process of step S1, the temporary direction ⁇ s Filter W corresponding to ⁇ ( ⁇ , ⁇ s ) May be calculated by the filter design unit 260 or the target direction ⁇ s Direction ⁇ near s' Filter W corresponding to ⁇ ( ⁇ , ⁇ s' ) May be used.
- the time domain conversion unit 250 outputs the output signal Y ( ⁇ , k, ⁇ of each frequency ⁇ of the kth frame.
- the time domain signal y (t) in which the voice is enhanced is output.
- the method for converting the frequency domain signal into the time domain signal is an inverse transform corresponding to the transform method used in the process of step S5, for example, a fast discrete inverse Fourier transform.
- FIG. 10 and FIG. 11 show the functional configuration and processing flow of the second embodiment of the narrow-directional speech enhancement technology of the present invention.
- the narrow-directional speech enhancement apparatus 2 according to the second embodiment includes an AD conversion unit 210, a frame generation unit 220, a frequency domain conversion unit 230, a filter application unit 240, a time domain conversion unit 250, a filter calculation unit 261, and a storage unit 290.
- [Step S11] Sound is collected using M microphones 200-1,..., 200-M constituting the microphone array. M is an integer of 2 or more.
- the arrangement of the M microphones and the like are as described in the first embodiment.
- the AD converter 210 converts an analog signal (sound collection signal) collected by the M microphones 200-1,..., 200-M into a digital signal x.
- ⁇ (T) [x 1 (T), ..., x M (T)] T
- Convert to t represents a discrete time index.
- the frame generator 220 is a digital signal x output from the AD converter 210.
- ⁇ (T) [x 1 (T), ..., x M (T)] T
- k is an index of a frame number.
- x ⁇ m (K) [x m ((K-1) N + 1), ..., x m (KN)] (1 ⁇ m ⁇ M).
- N depends on the sampling frequency, but in the case of 16 kHz sampling, around 512 points is appropriate.
- the frequency domain converter 230 is a digital signal x for each frame.
- ⁇ is an index of discrete frequency.
- One method for converting a time domain signal to a frequency domain signal is a fast discrete Fourier transform, but the present invention is not limited to this, and other methods for converting to a frequency domain signal may be used.
- Frequency domain signal X ⁇ ( ⁇ , k) is output for each frequency ⁇ and frame k.
- Step S15 The target direction ⁇ used by the filter calculation unit 261 in the current k-th frame s Filter W for each frequency corresponding to ⁇ ( ⁇ , ⁇ s , K) ( ⁇ ; ⁇ is a set of frequencies ⁇ ).
- the transfer characteristic a ⁇ ( ⁇ , ⁇ Nj ) (1 ⁇ j ⁇ B, ⁇ ) also needs to be obtained.
- These are the arrangement of microphones in the microphone array, the positional relationship of reflectors such as reflectors, floors, walls, and ceilings to the microphone array, and direct sound.
- (17a) can be specifically calculated on the basis of environmental information such as the arrival time difference between the reflected sound and the ⁇ th (1 ⁇ ⁇ ⁇ ⁇ ) reflected sound, and the reflectance of the sound of the reflector (more precisely, the equation (17a ) For ⁇ Nj ).
- the number of reflected sounds is set to an integer satisfying 1 ⁇ ⁇ , but the value of ⁇ is not particularly limited and may be set appropriately according to the calculation ability.
- the transfer characteristic a ⁇ ( ⁇ , ⁇ s ) Can be specifically calculated by the equation (17b) (exactly, ⁇ in the equation (17b) is ⁇ s ).
- the transfer characteristic a ⁇ ( ⁇ , ⁇ Nj ) (1 ⁇ j ⁇ B, ⁇ ) can be specifically calculated by the equation (17b) (more precisely, ⁇ in the equation (17b) is ⁇ Nj ).
- Expression (14a), Expression (14b), Expression (18a), Expression (18b), Expression (18c), Expression (18d) can be used.
- a transfer characteristic used for filter design you may use the transfer characteristic obtained by actual measurement in a real environment, for example, without depending on Formula (17a) and Formula (17b).
- the filter calculation unit 261 has a transfer characteristic a ⁇ ( ⁇ , ⁇ s ) ( ⁇ ) and transfer characteristics a as required ⁇ ( ⁇ , ⁇ Nj ) (1 ⁇ j ⁇ B, ⁇ ) ⁇ ( ⁇ , ⁇ s , K) ( ⁇ ) is determined according to any one of Expression (9m), Expression (29m), Expression (30m), Expression (33m), Expression (36m), and Expression (38m).
- the spatial correlation matrix Q ( ⁇ ) (or R xx ( ⁇ )) can be calculated by, for example, Expression (41a) or Expression (42a).
- the frequency domain signal X of a total of ⁇ frames of the current and past frames accumulated in the storage unit 290 is used.
- the filter application unit 240 performs frequency domain signal X for each frequency ⁇ for each frame k.
- ⁇ ( ⁇ , k) [X 1 ( ⁇ , k), ..., X M ( ⁇ , k)] T
- the time domain conversion unit 250 outputs the output signal Y ( ⁇ , k, ⁇ of each frequency ⁇ of the kth frame. s ) To the time domain to obtain the frame unit time domain signal y (k) of the kth frame, and further, the obtained frame unit time domain signal y (k) is concatenated in the order of the frame number index. Target direction ⁇ s The time domain signal y (t) in which the voice is enhanced is output.
- the method of converting the frequency domain signal into the time domain signal is an inverse transform corresponding to the transform method used in the process of step S14, and is, for example, a fast discrete inverse Fourier transform.
- Embodiment 1 of the narrow-directional speech enhancement technique of the present invention (minimum variance and distortion-free response method under a single constraint) will be described.
- 24 microphones are linearly arranged, and the reflector 300 is arranged so that the arrangement direction of the microphones included in the linear microphone array is a normal line of the reflector 300.
- the reflecting surface is a flat surface, The flat reflecting plate with a size of 1.0m x 1.0m, moderate thickness, and rigidity was used.
- the interval between adjacent microphones was 4 cm, and the reflectance ⁇ of the reflector 300 was 0.8.
- Target direction ⁇ s was set to 45 degrees. Assuming that the voice arrives at the linear microphone array as a plane wave, the transfer characteristic is calculated by equation (17b) (see equations (14a) and (18a)), and the directivity of the generated filter is verified. For comparison, two conventional methods (minimum dispersion no distortion response method without a reflector and delayed synthesis method with a reflector) were used. The experimental results are shown in FIGS. Compared to the two conventional methods, it can be seen that the first embodiment of the narrow directivity speech enhancement technique of the present invention can realize sharp directivity with respect to the target direction in any frequency band. In particular, the usefulness of the narrow-directional speech enhancement technique of the present invention is understood as the frequency band is lower. FIG.
- FIG. 14 shows a filter W generated according to the first embodiment of the narrow-directional speech enhancement technique of the present invention.
- ⁇ The directivity by ( ⁇ , ⁇ ) is shown.
- FIG. 14 shows that not only the direct sound but also the reflected sound is emphasized.
- FIG. 15 the case where the reflector 300 is arranged so that the angle formed by the arrangement direction of the microphones included in the linear microphone array and the plane of the reflector 300 is 45 degrees is the same as the above-described experiment. The experiment was conducted.
- Target direction ⁇ s Is set to 22.5 degrees, and the other experimental conditions are the same as those in the case where the reflector 300 is arranged so that the arrangement direction of the microphones included in the linear microphone array is normal to the reflector 300.
- the experimental results are shown in FIGS.
- the first embodiment of the narrow directivity speech enhancement technique of the present invention can realize sharp directivity with respect to the target direction in any frequency band.
- the usefulness of the narrow-directional speech enhancement technique of the present invention is understood as the frequency band is lower.
- ⁇ Application example> ⁇ Narrowly oriented speech enhancement technology is useful for obtaining sound field information in more detail, corresponding to generating a clear image from an unclear image when expressed in an image. Examples of services in which the narrow-directional speech enhancement technology of the present invention is useful will be described below.
- the first example is content production combined with video.
- the narrow-directional speech enhancement technique of the present invention it is possible to clearly emphasize a target sound in a distant place even in a noisy environment where there is a lot of noise (such as non-target speech). Can add audio corresponding to the zoomed-in video.
- a TV conference system which may be an audio conference system
- a large conference room for example, at a position 5 m or more away from the microphone.
- the voice spot emphasis technology of the present invention is based on the essence of the microphone array technology that can follow voice in any direction based on signal processing, and to collect sound with a high S / N ratio by actively using reflected sound.
- One of the features is that it combines signal processing technology that enables sharp directivity while being basic.
- h Frequency domain signal X of sound from a sound source that is assumed to be located at a distance of ⁇
- a filter that emphasizes ( ⁇ , k) at frequency ⁇ is W ⁇ ( ⁇ , ⁇ s , D h ).
- M is an integer of 2 or more.
- T represents transposition. Below, distance D for a while h Think of it as fixed.
- the “center of the microphone array” can be arbitrarily determined, but generally, the geometric center of the arrangement of the M microphones is the “center of the microphone array”.
- the speech spot enhancement technique of the present invention incorporates signal processing of applying a filter to a signal of frequency expression, and the discrete distance D h Since an embodiment in which a filter is created in advance for each time is possible, it is not required that the sound source actually exists at the position even at the stage where the voice spot enhancement process is actually performed. For example, in the stage where the voice spot enhancement process is actually performed, the direction ⁇ viewed from the microphone array s , Distance D h If the sound source actually exists at the position, the sound from the sound source can be emphasized by selecting an appropriate filter according to the position, and if there is no sound source at the position, there will be no noise.
- position ( ⁇ s , D h ) Frequency domain signal X of the sound from the sound source assumed to be in ⁇ Frequency domain signal (hereinafter referred to as an output signal) Y ( ⁇ , k, ⁇ ) in which ( ⁇ , k) is emphasized by frequency ⁇ s , D h ) Is given by equation (106).
- H represents Hermitian transposition.
- Filter W ⁇ ( ⁇ , ⁇ s , D h ) There are various design methods of (), but here, a description will be given of a case based on the minimum variance distortion-free response method (MVDR method; minimum variation distortion response method).
- MVDR method minimum variance distortion-free response method
- the filter W ⁇ ( ⁇ , ⁇ s , D h ) Is the direction ⁇ using the spatial correlation matrix Q ( ⁇ ) under the constraint of equation (108).
- the spatial correlation matrix Q ( ⁇ ) is the frequency domain signal X ⁇ Component X of ( ⁇ , k) 1 ( ⁇ , k), ..., X M
- E [X i ( ⁇ , k) X j * ( ⁇ , k)] (1 ⁇ i ⁇ M, 1 ⁇ j ⁇ M) is included in the (i, j) component.
- the operator E [•] is an operator representing a statistical average operation, and the symbol * represents a complex conjugate.
- the spatial correlation matrix Q ( ⁇ ) is obtained based on observation X 1 ( ⁇ , k), ..., X M Although it can be expressed using the statistic of ( ⁇ , k), it can also be expressed using transfer characteristics.
- Filter W which is the optimal solution of Equation (107) ⁇ ( ⁇ , ⁇ s , D h ) Is known to be given by formula (109) (reference document 1 below).
- Spatial correlation matrix Q ( ⁇ , D h ) Is included in the equation (109), the spatial correlation matrix Q ( ⁇ , D h It can be seen that the structure of) is important for realizing sharp directivity.
- the noise power is represented by the spatial correlation matrix Q ( ⁇ , D h ) It also shows that it depends on the structure of Suppose that the set to which the noise arrival direction index p belongs is ⁇ 1, 2,..., P ⁇ 1 ⁇ . Direction ⁇ s , S is not belonging to the set ⁇ 1, 2,..., P-1 ⁇ . Assuming that P ⁇ 1 noises come from any direction, the spatial correlation matrix Q ( ⁇ , D h ) Is given by equation (110a). From the viewpoint of making a filter that functions sufficiently even in the presence of a lot of noise, P is preferably a somewhat large value, and is assumed to be an integer of about M.
- the direction ⁇ s It is described as if it were a specific direction (hence the direction ⁇ s The direction other than is the direction of “noise”), as will be apparent from the embodiments described later, in practice, the direction ⁇ s Is the direction corresponding to any position that can be the target of speech enhancement, and thus the direction ⁇ s A plurality of directions are generally assumed as possible directions. From this point of view, the direction ⁇ s The distinction between the direction of noise and the direction of noise is almost subjective, and P different directions are determined in advance as a plurality of directions that are assumed as directions of arrival of speech without distinction between the target sound and noise.
- one selected direction is the direction corresponding to the position of the target of speech enhancement, and the other direction is the direction of noise. Therefore, if the union of the set ⁇ 1, 2,..., P ⁇ 1 ⁇ and the set ⁇ s ⁇ is ⁇ , the spatial correlation matrix Q ( ⁇ , D h ) Is the distance from the center of the microphone array is D h And each direction ⁇ included in a plurality of directions assumed as voice arrival directions.
- Equation ( ⁇ , D h ) [A ⁇ ( ⁇ , ⁇ s , D h ), A ⁇ ( ⁇ , ⁇ 1 , D h ), ..., a ⁇ ( ⁇ , ⁇ P-1 , D h ]] T
- unit matrix ⁇ ( ⁇ , D h ) To obtain a spatial correlation matrix Q ( ⁇ , D h ) Can be disassembled.
- ⁇ is a spatial correlation matrix Q ( ⁇ , D h ) Satisfying equation (111) ⁇ ( ⁇ , ⁇ ⁇ , D h ) Eigenvalue and real number.
- the spatial correlation matrix Q ( ⁇ , D h ) Is given by equation (113). Substituting equation (113) into equation (107) shows that the noise power is minimized.
- ⁇ d ( ⁇ , ⁇ ) [h d1 ( ⁇ , ⁇ ), ..., h dM ( ⁇ , ⁇ )] T
- a ⁇ conv ( ⁇ , ⁇ ) [a 1 ( ⁇ , ⁇ ), ..., a M ( ⁇ , ⁇ )] T
- a ⁇ conv ( ⁇ , ⁇ ) h ⁇ d ( ⁇ , ⁇ ) (the steering vector does not depend on the distance D because the sound wave is considered as a plane wave).
- the steering vector is a complex vector in which the phase response characteristics at the frequency ⁇ of each microphone with respect to the reference point are arranged for sound waves in the direction ⁇ as viewed from the center of the microphone array.
- the voice arrives at the linear microphone array as a plane wave for a while.
- u represents the distance between adjacent microphones.
- j is an imaginary unit.
- the reference point is a position half the total length of the linear microphone array (the center of the linear microphone array).
- the direction ⁇ was defined as an angle formed by the direct sound arrival direction and the arrangement direction of the microphones included in the linear microphone array as seen from the center of the linear microphone array (see FIG. 9).
- the steering vector There are various ways of expressing the steering vector. For example, if the reference point is the position of the microphone at one end of the linear microphone array, the direct steering vector h ⁇ d M-th element h constituting ( ⁇ , ⁇ ) dm ( ⁇ , ⁇ ) is given by, for example, equation (114d).
- the direct sound steering vector h ⁇ d M-th element h constituting ( ⁇ , ⁇ ) dm In the following description, ( ⁇ , ⁇ ) is given by the equation (114c).
- the only parameters that can be changed are the parameters (M and u) related to the size of the microphone array, so the direction difference (angle difference)
- the voice spot enhancement technology of the present invention is based on such a consideration, the direction ⁇ s
- ⁇ s Unlike the prior art, based on the knowledge that it is important to make the coherence sufficiently small even when
- two types of plane waves that is, direct sound from the sound source and reflected sound obtained by reflecting the sound from the sound source by the reflector 300 are mixed. Let the number of reflected sounds be ⁇ . ⁇ is a predetermined integer of 1 or more.
- transfer characteristic a ⁇ ( ⁇ , ⁇ ) [a 1 ( ⁇ , ⁇ ), ..., a M ( ⁇ , ⁇ )] T
- Equation (117a) (1 ⁇ ⁇ ⁇ ⁇ ⁇ ) is a coefficient for considering the sound attenuation due to reflection, the direct sound steering vector, the sound attenuation due to reflection, and the arrival time difference with respect to the direct sound are corrected as shown in equation (117a). It can be expressed as the sum of the steering vectors of the reflected sound.
- h ⁇ r ⁇ ( ⁇ , ⁇ ) [h r1 ⁇ ( ⁇ , ⁇ ), ..., h rM ⁇ ( ⁇ , ⁇ )] T
- ⁇ ⁇ (1 ⁇ ⁇ ⁇ ⁇ ) is usually ⁇ ⁇ ⁇ 1 (1 ⁇ ⁇ ⁇ ⁇ ).
- ⁇ ⁇ the reflectance of the sound of the object reflected by the ⁇ -th reflected sound. Since it is desired to provide one or more reflected sounds to a microphone array composed of M microphones, it is preferable that one or more reflectors exist.
- each reflector is arranged so as to reach the microphone array.
- Each reflector has a two-dimensional shape (for example, a flat plate) or a three-dimensional shape (for example, a parabolic shape). Further, it is preferable that the size of each reflector is equal to or larger than the microphone array (about 1 to 2 times).
- the reflectance ⁇ of each reflector ⁇ (1 ⁇ ⁇ ⁇ ⁇ ) is at least larger than 0, and more specifically, it is desirable that the amplitude of the reflected sound reaching the microphone array is, for example, 0.2 times or more of the direct sound amplitude. It is a solid having rigidity.
- the reflecting object may be a movable object (for example, a reflector) or an immovable object (a floor, a wall, or a ceiling). If an immovable object is set as a reflecting object, the steering vector of the reflected sound needs to be changed along with a change in the installation position of the microphone array (functions ⁇ ( ⁇ ) and ⁇ described later).
- each reflector is a subordinate of the microphone array (in this case, it is assumed that the estimated number of reflected sounds is due to each reflector. become).
- the “subordinate of the microphone array” refers to “a tangible object that can follow changes in the position and orientation of the microphone array while maintaining the positional relationship (geometric relationship) with respect to the microphone array”.
- a simple example is a configuration in which each reflector is fixed to a microphone array.
- ⁇ 1
- the number of reflections of the reflected sound is one, and one point is located at a distance of L meters from the center of the microphone array.
- the reflector is a thick rigid body.
- FIG. 5A and 5B schematically show the directivity difference between the case of using the principle of the narrow-directional speech enhancement technique of the present invention and the case of using the conventional technique.
- FIG. 5A and 5B schematically show the directivity difference between the case of using the principle of the narrow-directional speech enhancement technique of the present invention and the case of using the conventional technique.
- transfer characteristic a ⁇ ( ⁇ , ⁇ , D) [a 1 ( ⁇ , ⁇ , D), ..., a M ( ⁇ , ⁇ , D)] T
- a ⁇ ( ⁇ , ⁇ , D) [a 1 ( ⁇ , ⁇ , D), ..., a M ( ⁇ , ⁇ , D)] T
- Is the position ( ⁇ s , D) is the sum of the direct sound transmission characteristics in which the sound from the microphone array directly reaches the microphone array and the transmission characteristics of one or more reflected sounds in which the sound is reflected by the reflector and reaches the microphone array.
- Equation (125) The arrival time difference between the direct sound and the ⁇ th (1 ⁇ ⁇ ⁇ ⁇ ) reflected sound is expressed as ⁇ ⁇ ( ⁇ , D) and ⁇ ⁇
- (1 ⁇ ⁇ ) is a coefficient for considering sound attenuation due to reflection
- the direct sound steering vector, the sound attenuation due to reflection, and the arrival time difference with respect to the direct sound are corrected as shown in Equation (125). It can be expressed as the sum of the steering vectors of the reflected sound.
- h ⁇ d ( ⁇ , ⁇ , D h ) [H d1 ( ⁇ , ⁇ , D h ), ..., h dM ( ⁇ , ⁇ , D h ]] T
- h ⁇ r ⁇ ( ⁇ , ⁇ , D) [h r1 ⁇ ( ⁇ , ⁇ , D), ..., h rM ⁇ ( ⁇ , ⁇ , D)] T
- the position ( ⁇ s , D) represents the steering vector of the reflected sound corresponding to the direct sound of the sound from.
- steering vector represents a complex vector that depends on “direction”, also called “direction vector”, and from this point of view, position ( ⁇ s , D) is more accurate as the name of a complex vector that depends on, for example, “extended steering vector”.
- the position ( ⁇ s , D) the “steering vector” is simply used as the name of the complex vector.
- ⁇ ⁇ (1 ⁇ ⁇ ⁇ ⁇ ) is usually ⁇ ⁇ ⁇ 1 (1 ⁇ ⁇ ⁇ ⁇ ).
- v ⁇ ⁇ , D (D) Is the position vector of position ( ⁇ , D), u ⁇ m Represents the position vector of the m-th microphone.
- the symbols ⁇ and ⁇ represent the norm.
- the expression (125a) is expressed by the expression (125b).
- the steering vector h of the reflected sound ⁇ r ⁇ ( ⁇ , ⁇ , D) [h r1 ⁇ ( ⁇ , ⁇ , D), ..., h rM ⁇ ( ⁇ , ⁇ , D)] T
- the m th element of h rm ⁇ ( ⁇ , ⁇ , D) is expressed by equation (126a) in the same manner as the direct sound steering vector (see equation (125a)).
- m is an integer satisfying 1 ⁇ m ⁇ M.
- c represents the speed of sound.
- j is an imaginary unit.
- v ⁇ ⁇ , D ( ⁇ ) Is the position vector where the position ( ⁇ , D) is moved to the mirror image object by the reflecting surface of the ⁇ -th reflector, u ⁇ m Represents the position vector of the m-th microphone.
- the symbols ⁇ and ⁇ represent the norm.
- equation (126a) is represented by equation (126b).
- the ⁇ th arrival time difference ⁇ ⁇ ( ⁇ , D) and position vector v ⁇ ⁇ , D ( ⁇ ) can be theoretically calculated based on the positional relationship when the positional relationship between the position ( ⁇ , D), the microphone array, and the ⁇ -th reflector is determined.
- the voice spot enhancement technique of the present invention unlike the prior art, actively considers reflected sound, so that it is possible to perform voice spot enhancement with narrow directivity.
- this will be described by taking two sound sources as an example. As shown in FIG. 18A, with respect to sounds emitted from two sound sources A and B that are at different distances as viewed from the microphone array but are substantially in the same direction, spot enhancement of both sounds is performed only from both direct sounds. Is difficult.
- the positions of the sound sources A and B exist at the positions where the positions of the ⁇ -th reflector 300 are moved to the mirror image object. This is equivalent to the fact that the sounds emitted from the sound sources A and B are reflected from the ⁇ -th reflector 300 and arrive from the virtual sound sources A ( ⁇ ) and B ( ⁇ ), respectively.
- the spatial correlation matrix Q ( ⁇ ) is expressed by Expression (110a) or Expression (110b).
- This spatial correlation matrix Q ( ⁇ ) is expressed by Expression (110c).
- P)
- the distance D ⁇ The set to which the index ⁇ belongs is assumed to be ⁇ (
- G).
- the main point of the voice spot enhancement technology of the present invention is the transfer characteristic a.
- ⁇ ( ⁇ , ⁇ , D) [a 1 ( ⁇ , ⁇ , D), ..., a M ( ⁇ , ⁇ , D)] T Is expressed by the sum of the steering vector of the direct sound and the steering vector of a number of reflected sounds. Therefore, since the filter design concept itself is not affected, the filter W can be obtained by a method other than the minimum variance distortion-free response method.
- ⁇ ( ⁇ , ⁇ s , D h ) Can be designed.
- ⁇ 1> filter design method based on S / N ratio maximization criteria ⁇ 2> filter design method based on Power Inversion
- ⁇ 5> A filter design method based on the maximum likelihood method and a filter design method based on the ⁇ 6> AMNOR (Adaptive Microphone-array for noise reduction) method will be described.
- AMNOR Adaptive Microphone-array for noise reduction
- Transfer characteristic a ⁇ ( ⁇ , ⁇ s , D h ) [A 1 ( ⁇ , ⁇ s , D h ), ..., a M ( ⁇ , ⁇ s , D h ]] T
- ⁇ in the equation (125) is ⁇ s , D to D h ).
- P)
- the distance D ⁇ The set to which the index ⁇ belongs is assumed to be ⁇ (
- G).
- Formula (132) has a position ( ⁇ s , D h ) Spatial correlation matrix R for speech at positions other than nn Contains the inverse of ( ⁇ ), but R nn
- the inverse matrix of ( ⁇ ) is expressed as (1) position ( ⁇ s , D h ) And (2) position ( ⁇ s , D h )
- the spatial correlation matrix R of the entire input including the speech at positions other than xx It is known that the inverse matrix of ( ⁇ ) may be substituted.
- R xx ( ⁇ ) R ss ( ⁇ ) + R nn ( ⁇ ). That is, the filter W that maximizes the SNR in the equation (128).
- ⁇ ( ⁇ , ⁇ s , D h ) May be obtained by equation (133).
- the filter W is based on the standard that minimizes the average output power of the beamformer with the filter coefficient for one microphone fixed at a constant value.
- ⁇ ( ⁇ , ⁇ s , D h ) the filter coefficient for the first microphone among the M microphones is fixed.
- the filter W ⁇ ( ⁇ , ⁇ s , D h ) Is the spatial correlation matrix R under the constraint of equation (135). xx Using ( ⁇ ), the sound power of all positions (all positions assumed as sound source positions) is designed to be minimized (see Expression (134)).
- this method it is possible to suppress the noise power as a whole, but it is not always suitable when it is known in advance that there is a noise source having a strong power at one or more specific positions. It's not a good way. In such a case, a filter that strongly suppresses one or more known specific positions (that is, suppression points) where the noise source exists is required.
- B ⁇ B ⁇ P ⁇ 1. If the set to which the index ⁇ of the distance to the sound source belongs is ⁇ 1, 2,..., G ⁇ , Gj ⁇ ⁇ 1, 2,... G ⁇ (where j ⁇ ⁇ 1, 2,..., B ⁇ ). ), B ⁇ G ⁇ 1.
- a ⁇ ( ⁇ , ⁇ i , D g ) [A 1 ( ⁇ , ⁇ i , D g ), ..., a M ( ⁇ , ⁇ i , D g ]] T To position ( ⁇ i , D g ),
- the constraint condition is expressed by the equation (137).
- a ⁇ ( ⁇ , ⁇ s , D h ) [A ⁇ ( ⁇ , ⁇ s , D h ), A ⁇ ( ⁇ , ⁇ N1 , D G1 ), ..., a ⁇ ( ⁇ , ⁇ NB , D GB ]].
- f i, g_i ( ⁇ ) and f i, g_j ( ⁇ ) (i ⁇ j, i, j ⁇ ⁇ N1, N2,..., NB ⁇ ) may be equal or different.
- the filter W that is the optimal solution of the equation (107) under the equation (138) representing the constraint condition ⁇ ( ⁇ , ⁇ s , D h ) Is given by equation (139) (see reference 3 below).
- the spatial correlation matrix Q ( ⁇ ) represented by the equation (110c) is used, a spatial correlation matrix represented by the equations (110a) to (110b) may be used.
- filter W ⁇ ( ⁇ , ⁇ s , D h ) Is given by equation (140). That is, the filter W ⁇ ( ⁇ , ⁇ s , D h ) Is the transfer characteristic a ⁇ ( ⁇ , ⁇ s , D h ) Is obtained by normalization.
- Transfer characteristic a ⁇ ( ⁇ , ⁇ s , D h ) [A 1 ( ⁇ , ⁇ s , D h ), ..., a M ( ⁇ , ⁇ s , D h ]] T Is represented by the equation (125). s , D to D h ).
- the filter accuracy may not always be good, but the calculation amount is small.
- Filter design method by maximum likelihood method the spatial correlation matrix Q ( ⁇ , D h By not including the spatial information of the voice in the target direction in), the degree of freedom for suppressing noise is improved, and the power of noise can be further suppressed.
- the spatial correlation matrix Q ( ⁇ , D h ) Is expressed by the second term on the right side of the expression (110a), that is, the expression (110d).
- Filter W ⁇ ( ⁇ , ⁇ s , D h ) Is given by equations (109) and (139).
- the spatial correlation matrix included in Expression (109) or Expression (139) is a spatial correlation matrix expressed by Expression (110d).
- the position ( ⁇ in the spatial correlation matrix Q ( ⁇ ) s , D h ) Audio spatial information may not be included.
- the spatial correlation matrix Q ( ⁇ ) is expressed by Expression (110e).
- Filter W ⁇ ( ⁇ , ⁇ s , D h ) Is given by equations (109) and (139).
- the spatial correlation matrix included in Expression (109) or Expression (139) is a spatial correlation matrix expressed by Expression (110e).
- the AMNOR method allows a certain amount of speech degradation amount D in the target direction based on a trade-off relationship between the speech degradation amount D in the target direction and the power of noise remaining in the filter output signal (for example, the degradation amount D).
- [B] [a] a signal obtained by applying a transfer characteristic between a sound source and a microphone to a virtual signal in a target direction (hereinafter referred to as a virtual signal), and [b] The filter output signal when the mixed signal with noise (for example, obtained by observation with M microphones in a noise environment with no voice in the target direction) is input is the best reproduction of the virtual signal from the viewpoint of the least square error.
- the filter design method described here can be considered in the same way as the ANNOR method as a filter design method in which the concept of distance is introduced into the AMNOR method.
- a virtual target signal a signal obtained by applying a transfer characteristic between the sound source and the microphone and [b]
- the filter output signal when the mixed signal with noise is used as the input reproduces the virtual target signal best in terms of least square error ( In other words, a filter that minimizes the power of noise included in the filter output signal is obtained.
- the filter W is similar to the AMNOR method.
- R ss ( ⁇ ) is the formula (126), R nn ( ⁇ ) is expressed by Expression (127).
- Transfer characteristic a ⁇ ( ⁇ , ⁇ s , D h ) [A 1 ( ⁇ , ⁇ s , D h ), ..., a M ( ⁇ , ⁇ s , D h ]] T Is represented by the equation (125).
- P s Is a coefficient for weighting the level of the virtual target signal, and is called a virtual target signal level.
- Virtual target signal level P s Is a frequency independent constant.
- Virtual target signal level P s May be determined on the basis of empirical rules, or the position ( ⁇ s , D h ) May be determined such that the difference between the speech degradation amount D and the threshold value D is within an arbitrarily determined error range. The latter example will be described.
- the filter W ⁇ ( ⁇ , ⁇ s , D h ) Position ( ⁇ s , D h ) Audio frequency response F ( ⁇ ) is expressed by equation (142).
- Filter W given by equation (141) ⁇ ( ⁇ , ⁇ s , D h ) Is used as D (P s ), The amount of deterioration D (P s ) Is defined by equation (143).
- ⁇ 0 Represents the upper limit of the target frequency ⁇ (usually a high-frequency side adjacent to the discrete frequency ⁇ ).
- the spatial correlation matrix Q ( ⁇ ), R ss ( ⁇ ), R nn ( ⁇ ) was expressed using transfer characteristics.
- Spatial correlation matrix Q ( ⁇ ), R using ( ⁇ , k) ss ( ⁇ ), R nn ( ⁇ ) can also be expressed.
- the spatial correlation matrix Q ( ⁇ ) will be described.
- ss ( ⁇ ), R nn The same applies to ( ⁇ ) (Q ( ⁇ ) is R ss ( ⁇ ) or R nn ( ⁇ ) should be read).
- the spatial correlation matrix R ss ( ⁇ ) is the position ( ⁇ s , D h ) Obtained in the frequency domain representation of the analog signal obtained by observation with a microphone array (including M microphones) in an environment where only the voice of) exists
- the spatial correlation matrix R nn ( ⁇ ) is the position ( ⁇ s , D h )
- Frequency domain signal X ⁇ ( ⁇ , k) [X 1 [( ⁇ , k), ..., X M ( ⁇ , k)] T
- the spatial correlation matrix Q ( ⁇ ) using is expressed by Expression (144).
- the operator E [•] is an operator representing a statistical average operation.
- the operator E [•] is arithmetic when it is a so-called wide or stationary stationary. Average value (expected value) is calculated.
- the spatial correlation matrix Q ( ⁇ ) is, for example, the frequency domain signal X of a total of ⁇ frames currently and past stored in a memory or the like.
- the spatial correlation matrix Q ( ⁇ ) may be recalculated for each frame, may be recalculated at regular or irregular intervals, or It may be calculated before implementation of the embodiment described later (in particular, R in the filter design). ss ( ⁇ ) or R nn When ( ⁇ ) is used, it is preferable to calculate the spatial correlation matrix Q ( ⁇ ) in advance using the frequency domain signal acquired before the implementation of the embodiment.
- the spatial correlation matrix Q ( ⁇ ) is explicitly expressed as in the equations (144a) and (145a). Let the correlation matrix be represented as Q ( ⁇ , k).
- the filter W ⁇ ( ⁇ , ⁇ s , D h ) also depends on the current and past frames, so explicitly set this to W ⁇ ( ⁇ , ⁇ s , D h , K).
- the filter represented by any one of Expression (109), Expression (132), Expression (133), Expression (136), Expression (139), and Expression (141) described in the various filter design methods described above.
- W ⁇ ( ⁇ , ⁇ s , D h ) Is corrected to the expression (109m), the expression (132m), the expression (133m), the expression (136m), the expression (139m), and the expression (141m).
- FIG. 19 and FIG. 20 show the functional configuration and processing flow of the first embodiment of the voice spot enhancement technology of the present invention.
- the audio spot enhancement device 3 includes an AD conversion unit 610, a frame generation unit 620, a frequency domain conversion unit 630, a filter application unit 640, a time domain conversion unit 650, a filter design unit 660, and a storage unit 690.
- Step S21 In advance, discrete positions ( ⁇ i , D g ), Filter W for each frequency ⁇ ( ⁇ , ⁇ i , D g ) Is calculated.
- the total number of discrete directions that can be the target of speech enhancement is I (I is a predetermined integer of 1 or more and satisfies I ⁇ P), and the total number of discrete distances is G (G is 1 or more in advance).
- Is a predetermined integer) W ⁇ ( ⁇ , ⁇ 1 , D 1 ), ..., W ⁇ ( ⁇ , ⁇ i , D 1 ), ..., W ⁇ ( ⁇ , ⁇ I , D 1 ), W ⁇ ( ⁇ , ⁇ 1 , D 2 ), ..., W ⁇ ( ⁇ , ⁇ i , D 2 ), ..., W ⁇ ( ⁇ , ⁇ I , D 2 ), ..., W ⁇ ( ⁇ , ⁇ 1 , D g ), ..., W ⁇ ( ⁇ , ⁇ i , D g ), ..., W ⁇ ( ⁇ I , D g ), ..., W ⁇ ( ⁇ I , D G ), ..., W ⁇ (
- transfer characteristics a ⁇ ( ⁇ , ⁇ i , D g ) [A 1 ( ⁇ , ⁇ i , D g ), ..., a M ( ⁇ , ⁇ i , D g ]] T (1 ⁇ i ⁇ I, 1 ⁇ g ⁇ G, ⁇ ) needs to be obtained.
- the microphone arrangement in the microphone array, and the microphone array of reflectors such as a reflector, a floor, a wall, and a ceiling are used.
- the position index (i, g) is an index (N1, G1), (N2) in the direction of at least B suppression points. , G2),..., (NB, GB).
- the B indexes N1, N2,..., NB are set as any different integer from 1 to I
- the B indexes G1, G2,. Are set as different integers.
- the number of reflected sounds is set to an integer satisfying 1 ⁇ ⁇ , but the value of ⁇ is not particularly limited and may be set appropriately according to the calculation ability.
- Formula (125a), Formula (125b), Formula (126a), and Formula (126b) can be used.
- a transfer characteristic used for the filter design for example, a transfer characteristic obtained by actual measurement in an actual environment may be used instead of the formula (125).
- transfer characteristics a ⁇ ( ⁇ , ⁇ i , D g ) For example, according to any one of formula (109), formula (109a), formula (132), formula (133), formula (136), formula (139), formula (140), and formula (141).
- the spatial correlation matrix R nn ( ⁇ ) can be calculated by equation (130).
- number of filters W ⁇ ( ⁇ , ⁇ i , D g ) (1 ⁇ i ⁇ I, 1 ⁇ g ⁇ G, ⁇ ) is stored in the storage unit 690.
- Sound is collected using M microphones 200-1,..., 200-M constituting the microphone array.
- M is an integer of 2 or more. There is no limit to how M microphones are arranged. However, by arranging M microphones two-dimensionally or three-dimensionally, there is an advantage that the uncertainty of the voice emphasis direction is eliminated.
- the M microphones are arranged in a straight line in the horizontal direction, for example, the problem that it becomes impossible to distinguish between voices coming from the front direction and voices coming from directly above is arranged in a plane or three-dimensionally. Can be prevented.
- the directivity of each microphone is the target direction ⁇ that is the sound collection direction. s It is better to have directivity that can pick up sound with a certain sound pressure in the direction that can be. Therefore, a microphone with relatively gentle directivity, such as an omnidirectional microphone or a unidirectional microphone, is preferable.
- the AD converter 610 converts an analog signal (sound collected signal) collected by M microphones 200-1,..., 200-M into a digital signal x.
- ⁇ (T) [x 1 (T), ..., x M (T)] T
- Convert to t represents a discrete time index.
- the frame generation unit 620 is a digital signal x output from the AD conversion unit 610.
- ⁇ (T) [x 1 (T), ..., x M (T)] T
- N samples are stored in a buffer for each channel, and a digital signal x in units of frames
- ⁇ (K) [x ⁇ 1 (K), ..., x ⁇ M (K)] T Is output.
- k is an index of a frame number.
- x ⁇ m (K) [x m (K-1) N + 1), ..., x m (KN)] (1 ⁇ m ⁇ M).
- N depends on the sampling frequency, but in the case of 16 kHz sampling, around 512 points is appropriate.
- the frequency domain transform unit 630 is a digital signal x for each frame.
- ⁇ is an index of discrete frequency.
- Frequency domain signal X ⁇ ( ⁇ , k) is output for each frequency ⁇ and frame k.
- the filter application unit 640 performs the frequency domain signal X for each frequency ⁇ for each frame k.
- the filter application unit 640 determines the position ( ⁇ s , D h ) Filter W ⁇ ( ⁇ , ⁇ s , D h ) From the storage unit 690.
- Direction ⁇ s Index s does not belong to the set ⁇ 1,..., I ⁇ or the distance D h Index h does not belong to the set ⁇ 1,..., G ⁇ , that is, the position ( ⁇ s , D h ) Filter W ⁇ ( ⁇ , ⁇ s , D h ) Is not calculated in the process of step S21, the temporary position ( ⁇ s , D h ) Filter W ⁇ ( ⁇ , ⁇ s , D h ) May be calculated by the filter design unit 660 or the direction ⁇ s Direction ⁇ near s' Or distance D h Distance D close to h ' Filter W corresponding to ⁇ ( ⁇ , ⁇ s' , D h ) Or W ⁇ ( ⁇ , ⁇ s , D h ' ) Or W ⁇ ( ⁇ , ⁇ s' , D h ' ) May be used.
- the time domain transform unit 650 outputs the output signal Y ( ⁇ , k, ⁇ of each frequency ⁇ of the kth frame s , D h ) To the time domain to obtain the frame unit time domain signal y (k) of the k-th frame, and further, the obtained frame unit time domain signal y (k) is concatenated in the order of the frame number index. Position ( ⁇ s , D h ) From which the time domain signal y (t) is output.
- the method for converting the frequency domain signal into the time domain signal is an inverse transformation corresponding to the transformation method used in the process of step S25, for example, a fast discrete inverse Fourier transform.
- the filter W in advance in the process of step S21 ⁇ ( ⁇ , ⁇ i , D g
- the position ( ⁇ ) is calculated according to the calculation processing capability of the voice spot enhancement device 3.
- the filter design unit 660 performs the filter W for each frequency.
- ⁇ ( ⁇ , ⁇ s , D h ) Can also be employed.
- FIG. 21 and FIG. 22 show the functional configuration and processing flow of Embodiment 2 of the voice spot enhancement technology of the present invention.
- the audio spot enhancement device 4 includes an AD conversion unit 610, a frame generation unit 620, a frequency domain conversion unit 630, a filter application unit 640, a time domain conversion unit 650, a filter calculation unit 661, and a storage unit 690.
- Sound is collected using M microphones 200-1,..., 200-M constituting the microphone array.
- M is an integer of 2 or more.
- the arrangement of the M microphones and the like are as described in the first embodiment.
- the AD converter 610 converts an analog signal (sound collected signal) collected by M microphones 200-1,..., 200-M into a digital signal x.
- ⁇ (T) [x 1 (T), ..., x M (T)] T
- Convert to t represents a discrete time index.
- the frame generation unit 620 is a digital signal x output from the AD conversion unit 610.
- ⁇ (T) [x 1 (T), ..., x M (T)] T
- N samples are stored in a buffer for each channel, and a digital signal x in units of frames
- ⁇ (K) [x ⁇ 1 (K), ..., x ⁇ M (K)] T Is output.
- k is an index of a frame number.
- the frequency domain transform unit 630 is a digital signal x for each frame.
- ⁇ is an index of discrete frequency.
- Frequency domain signal X ⁇ ( ⁇ , k) is output for each frequency ⁇ and frame k.
- the filter calculation unit 661 uses the position ( ⁇ s , D h ) Filter W for each frequency corresponding to ⁇ ( ⁇ , ⁇ s , D h , K) ( ⁇ ; ⁇ is a set of frequencies ⁇ ).
- transfer characteristics a ⁇ ( ⁇ , ⁇ s , D h ) [A 1 ( ⁇ , ⁇ s , D h ), ..., a M ( ⁇ , ⁇ s , D h ]] T
- ⁇ the arrangement of microphones in the microphone array
- reflectors such as reflectors, floors, walls, and ceilings with respect to the microphone array
- direct sound and ⁇ -th (1 ⁇ ⁇ ⁇ ⁇ ) can be concretely calculated by the formula (125) based on the environmental information such as the arrival time difference from the reflected sound and the reflectance of the sound of the reflector (more precisely, ⁇ in the formula (125) is ⁇ s , D to D h ).
- the transfer characteristic a ⁇ ( ⁇ , ⁇ Nj , D Gj ) (1 ⁇ j ⁇ B, ⁇ ) must also be obtained, which are the microphone arrangement in the microphone array, the positional relationship of the reflectors such as reflectors, floors, walls, and ceiling with respect to the microphone array, and direct sound.
- the filter calculation unit 661 has a transfer characteristic a ⁇ ( ⁇ , ⁇ s , D h ) ( ⁇ ) and transfer characteristics a as required ⁇ ( ⁇ , ⁇ Nj , D Gj ) (1 ⁇ j ⁇ B, ⁇ ) ⁇ ( ⁇ , ⁇ s , D h , K) ( ⁇ ) is determined according to any one of formula (109m), formula (132m), formula (133m), formula (136m), formula (139m), and formula (141m).
- the spatial correlation matrix Q ( ⁇ ) (or R xx ( ⁇ )) can be calculated by, for example, Expression (144a) or Expression (145a).
- the filter application unit 640 performs the frequency domain signal X for each frequency ⁇ for each frame k.
- ⁇ ( ⁇ , k) [X 1 ( ⁇ , k), ..., X M ( ⁇ , k)] T
- ⁇ s Filter W corresponding to ⁇ ( ⁇ , ⁇ s , D h , K) to apply the output signal Y ( ⁇ , k, ⁇ s , D h ) Is output (see equation (147)).
- the time domain transform unit 650 outputs the output signal Y ( ⁇ , k, ⁇ of each frequency ⁇ of the kth frame s , D h ) To the time domain to obtain the frame unit time domain signal y (k) of the k-th frame, and further, the obtained frame unit time domain signal y (k) is concatenated in the order of the frame number index. Position ( ⁇ s , D h ) From which the time domain signal y (t) is output.
- the method of converting the frequency domain signal to the time domain signal is an inverse transform corresponding to the transform method used in the process of step S34, for example, a fast discrete inverse Fourier transform.
- ⁇ i Filter W corresponding to ⁇ ( ⁇ , ⁇ i ) ⁇ g 1 G ⁇ g W ⁇ ( ⁇ , ⁇ i , D g ).
- Filter W ⁇ ( ⁇ , ⁇ i , D g ) May be a filter expressed using transfer characteristics obtained by actual measurement in an actual environment.
- Example of voice spot enhancement technology ⁇ Explanation will be made on the experimental results of the spot emphasis on the voice according to the first embodiment of the voice spot emphasis technique of the present invention (minimum variance and distortion-free response method under a single constraint condition).
- the experimental environment was the same as that shown in FIG.
- 24 microphones are linearly arranged, and the reflector 300 is arranged so that the arrangement direction of the microphones included in the linear microphone array is a normal line of the reflector 300.
- the reflecting surface is a flat surface, The flat reflecting plate with a size of 1.0m x 1.0m, moderate thickness, and rigidity was used.
- the first example is content production combined with video.
- the voice spot enhancement technology of the present invention it is possible to clearly emphasize a target voice in a distant place even in a noisy environment where there is a lot of noise (non-target voice, etc.). It is possible to add audio in a specific area corresponding to the dribbling zoom-in video.
- a TV conference system which may be an audio conference system
- a large conference room for example, at a position 5 m or more away from the microphone. In a wide space where a speaker is present), it is difficult to clearly emphasize the voice of a distant speaker.
- M microphones 200-1,..., 200-M constituting the linear microphone array are fixed to a rectangular flat plate-like support member 400, and this state is shown.
- the reflection plate 300 is fixed to the end of the support member 400 so that the arrangement direction of the microphones 200-1,..., 200-M is the normal line of the rectangular flat reflection plate 300.
- the opening surface of the support member 400 is a surface that forms 90 degrees with the reflector 300.
- the preferred properties of the reflector 300 are the same as the properties of the reflector described above, and the properties of the support member 400 are not particularly limited, and each microphone. It is sufficient to have a rigidity capable of firmly fixing 200-1, ..., 200-M. 25A, the shaft portion 410 is fixed to the end portion of the support member 400, and the reflection plate 300 is rotatably attached to the shaft portion 410. According to this embodiment, it is possible to change the geometric arrangement of the reflector 300 with respect to the microphone array. In the example of the configuration shown in FIG. 25B, two additional reflectors 310 and 320 are added to the example of the configuration shown in FIGS. 24A, 24B, and 24C.
- the properties of the two added reflectors 310 and 320 may be the same as or different from those of the reflector 300.
- the properties of the reflector 310 may be the same as or different from those of the reflector 320.
- the reflection plate 300 is referred to as a fixed reflection plate 300.
- the shaft 510 is fixed to the end of the fixed reflector 300 (the end opposite to the end of the fixed reflector 300 fixed to the support member 400), and the reflector 310 is rotated around the shaft 510. It is attached movably.
- the shaft portion 520 is fixed to the end portion of the support member 400 (the end portion opposite to the end portion of the support member 400 to which the fixed reflection plate 300 is fixed), and the reflection plate 320 is attached to the shaft portion 520.
- the reflectors 310 and 320 are referred to as the movable reflectors 310 and 320.
- the fixed reflecting plate 300 and the movable reflecting plate 310 are set.
- the support member 400, the fixed reflector 300, and the movable reflectors 310 and 320 are provided. Since the sound can be reflected many times in the space surrounded by, the number of reflected sounds can be controlled.
- the support member 400 serves as a reflector, and therefore preferably has the same properties as those of the reflector described above.
- 27A, 27B, and 27C the embodiment shown in FIGS. 24A, 24B, and 24C shows that the reflector 300 is also provided with a microphone array (a linear microphone array in the illustrated example). Different from the example.
- the arrangement direction of the M microphones fixed to the support member 400 and the arrangement direction of the M ′ microphones fixed to the reflector 300 are on the same plane.
- M ′ microphones may be fixed to the reflecting plate 300 so as to have an arrangement direction orthogonal to the arrangement direction of M microphones fixed to the support member 400.
- the microphone array provided on the support member 400 and the reflector 300 (the microphone array provided on the reflector 300 is not used and the reflector 300 is used as a reflector).
- the support member 400 (the support member 400 is used as a reflector without using the microphone array provided on the support member 400) and the reflector.
- the speech enhancement technique of the present invention can be implemented in combination with the microphone array provided at 300. 27A, 27B, and 27C, as the extended implementation configuration example of the implementation configuration example shown in FIGS. 27A, 27B, and 27C, the implementation configuration example shown in FIGS. It is good also as a structure which added the reflecting plates 310 and 320 (refer FIG. 28).
- a microphone array may be provided on at least one of the movable reflectors 310 and 320.
- the sound collecting holes of the microphones constituting the microphone array provided in the movable reflecting plate 310 are arranged, for example, on the plane (opening surface) of the movable reflecting plate 310 that can face the opening surface of the support member 400.
- the sound collecting holes of the microphones constituting the microphone array provided in the movable reflecting plate 320 are arranged, for example, on the plane (opening surface) of the movable reflecting plate 320 that can form the same plane as the opening surface of the support member 400. Even in this embodiment configuration example, a usage pattern similar to that in the embodiment configuration example shown in FIG. 25B is possible.
- the combination of the support member 400 and the movable reflector 320 is changed.
- the microphone array can be made to function larger than the microphone array provided on the support member 400.
- the same usage pattern as that in the embodiment configuration example shown in FIG. 26 is possible. Also in the example of the configuration shown in FIG.
- the movable reflectors 310 and 320 are used as normal reflectors.
- a use form in which the microphone array provided on the support member 400 and the microphone array provided on the fixed reflecting plate 300 are used as an integrated microphone array is also possible. In this case, this is equivalent to an implementation configuration example in which a microphone array including (M + M ′) microphones and two reflectors are used.
- the sound collection holes of the microphones constituting the microphone array provided in the movable reflector 310 are opposite to the plane of the movable reflector 310 that can face the opening surface of the support member 400.
- a microphone array may be provided on the movable reflecting plate 310 so as to be arranged on the flat surface (opening surface).
- the movable reflector 320 that can form the same plane as the opening surface of the support member 400 with the sound collection holes of the microphones constituting the microphone array provided on the movable reflector 320.
- a microphone array may be provided on the movable reflector 320 so as to be arranged on a plane (opening surface) opposite to the plane.
- a microphone array may be provided on the movable reflecting plate so that at least one of the movable reflecting plates 310 and 320 has an opening surface on both sides thereof.
- the movable reflector 310 and / or the movable plate can be moved with respect to the line-of-sight direction in the usage modes shown in FIGS. 24A, 24B, and 24C.
- the apparent array size in the line-of-sight direction is reduced by arranging the movable reflector 310 and / or the movable reflector 320 so that the opening surface of the reflector 320 is not visible, the movable reflector 310 and / or the movable reflector
- the microphone array provided on the plate 320 the same effect as when the array size is increased can be obtained.
- the opening surface of the movable reflector 310 is a plane opposite to the plane that can face the opening surface of the support member 400.
- the opening surface of the movable reflector 320 is a plane opposite to the plane that can form the same plane as the opening surface of the support member 400, in the usage mode shown in FIGS. 24A, 24B, and 24C, On the other hand, the same effect as when the array size is increased can be obtained while maintaining the apparent array size.
- the speech enhancement device may include an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, a CPU (Central Processing Unit) [cache memory, or the like.
- a keyboard or the like can be connected
- an output unit to which a liquid crystal display or the like can be connected
- a CPU Central Processing Unit
- the voice enhancement device may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM.
- a physical entity having such hardware resources includes a general-purpose computer.
- the external storage device of the speech enhancement device stores a program for enhancing speech in a narrow range and data necessary for processing of this program [not limited to the external storage device, for example, a program is read-only stored. You may memorize
- Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
- a storage device that stores data, addresses of storage areas, and the like is simply referred to as a “storage unit”.
- a program for obtaining a filter for each frequency using a spatial correlation matrix a program for performing AD conversion on an analog signal, a program for performing frame generation processing, a frame
- a program for converting a digital signal for each frequency into a frequency domain signal in the frequency domain a program for obtaining an output signal by applying a filter corresponding to the direction or position for speech enhancement to the frequency domain signal for each frequency, and
- a program for converting the output signal into a time domain signal is stored.
- each program stored in the storage unit and data necessary for processing each program are read into the RAM as necessary, and are interpreted and executed by the CPU.
- the speech enhancement is realized by the CPU realizing predetermined functions (filter design unit, AD conversion unit, frame generation unit, frequency domain conversion unit, filter application unit, time domain conversion unit).
- predetermined functions filter design unit, AD conversion unit, frame generation unit, frequency domain conversion unit, filter application unit, time domain conversion unit.
- the processing functions in the hardware entity (speech enhancement device) described in the above embodiment are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
- the program describing the processing contents can be recorded on a computer-readable recording medium.
- the computer-readable recording medium may be any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory.
- a magnetic recording device a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-ReadyMoldable, etc.) Can be used. Further, this program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded.
- the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
- a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
- the computer reads the program stored in its own recording medium and executes the process according to the read program.
- the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer.
- the processing according to the received program may be executed sequentially.
- the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. It is good.
- the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
- the hardware entity is configured by executing a predetermined program on the computer. However, at least a part of these processing contents may be realized in hardware.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
[1]物理特性を用いた狭指向音声強調技術
このカテゴリの代表的な例として、音響管マイクとパラボラマイクが挙げられる。まず、図1を参照して、音響管マイク900の原理について述べる。音響管マイク900は音の干渉を利用して、目的方向から到来した音声を強調するマイクロホンである。図1Aは、音響管マイク900によって、目的方向から到来した音声が強調されることを説明するための図である。音響管マイク900を構成する音響管901の開口部は目的方向に向けられる。そして、音響管901の開口部の正面(目的方向)から到来した音声は、そのまま音響管901の内部を直進するので、当該音声は低エネルギー損失で音響管マイク900を構成するマイクロホン902に到達する。他方、図1Bに示すように、目的方向以外から到来した音声は、音響管901の側面に刻まれた多数のスリット903を通じて音響管901に進入するが、これらスリット903を通じて進入した音声は互いに干渉する。このため、目的方向以外から到来した音声がマイクロホン902に到達するときの音圧レベルは弱まる。
次に、図2を参照して、パラボラマイク910の原理について述べる。パラボラマイク910は音の反射を利用して、目的方向から到来した音声を強調するマイクロホンである。図2Aは、パラボラマイク910によって、目的方向から到来した音声が強調されることを説明するための図である。パラボラマイク910を構成するパラボラ板(放物面)911の頂点と当該パラボラ板911の焦点とを結ぶ直線が目的方向と重なるように、パラボラ板911は目的方向に向けられる。そして、目的方向から到来した音声は、パラボラ板911で反射し焦点に集中する。従って、焦点に設置されたマイクロホン912は、たとえエネルギーが低い音声信号であってもこれを強調して収音することができる。他方、図2Bに示すように、目的方向以外から到来した音声のパラボラ板911での反射音は焦点に集中しない。従って、目的方向以外から到来した音声がマイクロホン912に到達するときの音圧レベルは弱まる。
[2]信号処理を用いた狭指向音声強調技術
このカテゴリの代表的な例として、フェーズドマイクロホンアレーが挙げられる(非特許文献1参照)。図3は、複数のマイクロホンで構成されたフェーズドマイクロホンアレーを用いて、目的方向の音声を強調し、目的方向以外の方向の音声を抑圧していることを説明するための図である。フェーズドマイクロホンアレーは、各マイクロホンで収音された信号に時間差や音圧レベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで、目的方向の音声を強調している。カテゴリ[1]で説明した音響管マイクやパラボラマイクとは異なり、フェーズドマイクロホンアレーは、信号処理によって音声強調を行うため、任意の方向の音声を強調することができる。
[3]反射音を選択収音することによる狭指向音声強調技術
このカテゴリの代表的な例として、マルチビームフォーミング法がある(非特許文献2参照)。マルチビームフォーミング法は、直接音や反射音という個々の音を寄せ集めることで、高SN比で目的方向の音声を収音することができる狭指向音声強調技術であり、音声分野よりも無線分野でよく研究されている。
以下、周波数領域でのマルチビームフォーミング法の処理内容を説明する。説明に先立ち、記号を定義する。周波数のインデックスをω、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、方向θsにある強調したい音源からの直接音の到来方向をθs1、反射音の到来方向をθs2,…,θsRとする。Tは転置を表し、R−1は反射音の総数である。方向θsrの音声を強調するフィルタをW→(ω,θsr)とする。ここで、rは1≦r≦Rを満たす各整数である。
マルチビームフォーミング法では、直接音および反射音の到来方向や到来時間が既知であることが前提である。つまり、音の反射が明らかに予想できる壁、床、反射板といった物体の数がR−1に等しい。また、反射音数R−1は3あるいは4という比較的小さな値に設定されることが多い。これは、直接音と低次の反射音との間に高い相関性が認められることに基づく。マルチビームフォーミング法は、各々の音声を個別に強調して同期加算する方式なので、出力信号Y(ω,k,θs)は式(1)で与えられる。Hはエルミート転置を表す。
フィルタW→(ω,θsr)の設計法として遅延合成法を説明する。直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θsr)は式(2)で与えられる。h→(ω,θsr)=[h1(ω,θsr),…,hM(ω,θsr)]Tは、方向θsrから到来する音声の伝搬ベクトルである。
線形マイクロホンアレー(M個のマイクロホンが直線状に並べられたマイクロホンアレー)に平面波が到来することを仮定すると、h→(ω,θsr)を構成する要素hm(ω,θsr)は式(3)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。τ(θsr)は、方向θsrから到来する反射音の直接音に対する時間遅延を表す。
最後に、出力信号Y(ω,k,θs)を時間領域に変換することによって、目的方向θsにある音源の音声を強調した信号が得られる。
マルチビームフォーミング法による狭指向音声強調技術の機能構成を図4に示す。
ステップ1
AD変換部110は、M個のマイクロホン100−1,…,100−Mの出力であるアナログ信号をディジタル信号x→(t)=[x1(t),…,xM(t)]Tに変換する。ここでtは離散時間のインデックスを表す。
ステップ2
周波数領域変換部120は、各チャネルのディジタル信号を高速離散フーリエ変換などの手法で周波数領域信号に変換する。例えば、m番目(1≦m≦M)のマイクロホンについて、N点の信号xm((k−1)N+1),…,xm(kN)をバッファに貯める。Nは16KHzサンプリングの場合で512程度である。バッファに貯められたMチャネルのアナログ信号を高速離散フーリエ変換処理することによって、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを得る。
ステップ3
各強調フィルタリング部130−r(1≦r≦R)は、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに対して方向θsrのフィルタW→H(ω,θsr)を適用し、方向θsrの音声が強調された信号Zr(ω,k)を出力する。つまり、各強調フィルタリング部130−r(1≦r≦R)は、式(4)で表される処理を行う。
ステップ4
加算部140は、信号Z1(ω,k),…,ZR(ω,k)を入力として、加算信号Y(ω,k)を出力する。加算処理は式(5)で表わされる。
ステップ5
時間領域変換部150は、加算信号Y(ω,k)を時間領域に変換して方向θsの音声が強調された時間領域信号y(t)を出力する。
このような狭指向音声強調技術において、例えば、ほぼ同じ方向にマイクロホンからの距離が異なる複数の音源がある場合に、各音源から発せられた音声を区別して強調することが望まれる場合がある。先の例を引用してマイクロホンを備えた動画撮影装置で或る被写体をズームイン撮影する場合を考えると、例えば、フォーカスされた当該被写体(「フォーカス音源」という)の後方であってマイクロホンの指向性の範囲内に別の音源(「後方音源」という)が存在すると、フォーカス音源からの音声と後方音源からの音声が混在したまま強調され、視聴者に違和感を与えてしまう。このように、所望の方向を含む狭い範囲の音声をマイクロホンからの距離に応じて強調可能な技術(音声スポット強調技術)が望まれる。ここでは、音声スポット強調技術に関する3つの従来技術を例示する。
(1)非特許文献3に開示される技術は、音波が球面波となる近接音場での遅延和アレーの最適設計法を開示しており、このアレーの設計の際に、音源位置における目的信号と不要音(暗騒音や残響など)とのSN比が最大となるようにしている。
(2)非特許文献4に開示される技術は、小規模の2個のマイクロホンアレーを必須の構成要素とし、大型のマイクロホンアレーを使用しなくても距離に応じたスポット収音を可能としている。
(3)非特許文献5に開示される技術は、1個のマイクロホンアレーであっても、音源との距離を識別し、特定の距離範囲にある音源からの音だけを強調若しくは抑圧することで雑音を除去する。この方式は、音源から直接到来する音のパワーと反射して到来する音のパワーが距離によって変化する性質を利用して、音源の距離に応じて音声の強調を可能としている。
カテゴリ[2]で説明した狭指向音声強調技術によると、狭指向性を実現するためには、マイクロホン数を増やし、アレーサイズ(アレーの全長)を大きくすることが必要となる。フェーズドマイクロホンアレーを設置する空間の制約、コスト、リアルタイム処理を実行可能なマイクロホン数などの観点から、無制限にアレーサイズを大きくすることは現実的ではない。例えば、市場で入手可能なマイクロホンでリアルタイム処理が可能な信号の最大値は100程度であるところ、100本程度のマイクロホンを用いたフェーズドマイクロホンアレーで実現可能な指向性は目的方向に対して±30°程度であり、例えば±5°~±10°程度の鋭い指向性で目的方向の音声を強調することは困難である。また、カテゴリ[2]の従来技術では、目的方向以外の方向の音声に埋もれないように目的方向の音声を高SN比で収音することが難しい。
カテゴリ[3]で説明した狭指向音声強調技術によると、目的方向以外の方向の音声に埋もれないように目的方向の音声を高SN比で収音することや上述の駆動制御手段を要することなく任意の方向の音声を強調することは可能であるが、狭指向性を実現することが難しい。特に、人の声は100Hz程度から2kHz程度の周波数成分を多く含んでいるが、カテゴリ[3]の従来技術によって、このような低周波帯域で目的方向に対して±5°~±10°程度の鋭い指向性を実現することは困難である。
(1)で説明した音声スポット強調技術は、遅延和アレー方式であるため干渉源への対策が図られていない。(2)で説明した音声スポット強調技術によると、複数のマイクロホンアレーが必要なため装置規模の増大やコストの増大で不利益となりえる。マイクロホンアレーの大型化はその設置や運搬の制約となる。(3)で説明した音声スポット強調技術によると、環境変化によって残響の情報が変化するため、環境変化に頑健に対応し難い。
このような現状に鑑みて、第一に、本発明は、十分なSN比で収音し、マイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有し、マイクロホンアレーからの距離に応じて音声を強調可能な音声強調技術(音声スポット強調技術)を提供することを目的とする。第二に、本発明は、十分なSN比で収音し、マイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有する音声強調技術(狭指向音声強調技術)を提供することを目的とする。
音源位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)からの音声の各マイクロホン(マイクロホン総数はM;M≧2)への伝達特性ai,gを用いて、音声強調の対象となる位置について、フィルタを求める[フィルタ設計処理]。各伝達特性ai,gは、方向iと距離gで定まる位置からの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表される。フィルタは、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に対して周波数ごとに適用されるものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得る[フィルタ適用処理]。この出力信号が、音声強調の対象となる位置の音声が強調された周波数領域信号である。
各伝達特性ai,gは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正された一つ以上の反射音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声強調の対象となる位置以外の位置からの音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置からの音声のSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のマイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音源位置として想定される一つまたは複数の位置以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、(1)音声強調の対象となる位置の音声の全帯域通過、および(2)一つ以上の抑圧点の音声の全帯域抑制、の条件の下、音声強調の対象となる位置と各抑圧点以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置i=s,g=hの伝達特性as,hを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置以外の各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる位置の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる位置以外の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音源位置として想定される一つまたは複数の位置に含まれる各位置に対応する伝達特性ai,gによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
(狭指向音声強調技術)
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホン(マイクロホン総数はM;M≧2)への伝達特性aφを用いて、音声強調の対象となる方向についてフィルタを求める[フィルタ設計処理]。各伝達特性aφは、方向φの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表される。フィルタは、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に対して周波数ごとに適用されるものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号に適用して出力信号を得る[フィルタ適用処理]。この出力信号が、音声強調の対象となる方向の音声が強調された周波数領域信号である。
各伝達特性aφは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正された一つ以上の反射音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声強調の対象となる方向以外の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向でのSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のマイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音声の到来方向として想定される一つまたは複数の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、(1)音声強調の対象となる方向の音声の全帯域通過、および(2)一つ以上の死角の音声の全帯域抑制、の条件の下、音声強調の対象となる方向と各死角とを除く方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向φ=sの伝達特性asを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向以外の各方向に対応する伝達特性aφによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声強調の対象となる方向の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる方向以外の方向の音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
本発明の音声スポット強調技術に拠ると、所望の方向の直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で収音可能であるとともに、信号処理によって音声強調を行うことからマイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもある。さらに、詳しくは後述の《音声スポット強調技術の原理》の項目で説明するが、各伝達特性ai,gを、方向iと距離gで定まる位置からの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、所望の方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、所望の方向に対して従来よりも鋭い指向性を有することになる。さらに、詳しくは後述の《音声スポット強調技術の原理》の項目で説明するが、反射音を利用することによって、マイクロホンアレーから見てほぼ同じ方向だが距離が異なる位置からの音声について、異なる位置に対応する伝達特性間に有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で抽出することによって所望の方向を含む狭い範囲の音声をマイクロホンアレーからの距離に応じて強調できる。
(狭指向音声強調技術)
本発明の狭指向音声強調技術に拠ると、所望の方向の直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で収音可能であるとともに、信号処理によって音声強調を行うことからマイクロホンの物理的な移動を要することなく任意の方向の音声に追従可能でもある。さらに、詳しくは後述の《狭指向音声強調技術の原理》の項目で説明するが、各伝達特性aφを、方向φの音声がM個のマイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個のマイクロホンに届く一つ以上の反射音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、所望の方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、所望の方向に対して従来よりも鋭い指向性を有することになる。
図1Bは、音響管マイクによって、目的方向以外の方向から到来した音声が抑圧されることを説明するための図である。
図2Aは、パラボラマイクによって、目的方向から到来した音声が強調されることを説明するための図である。
図2Bは、パラボラマイクによって、目的方向以外の方向から到来した音声が抑圧されることを説明するための図である。
図3は、複数のマイクロホンで構成されたフェーズドマイクロホンアレーを用いて、目的方向の音声を強調し、目的方向以外の方向の音声を抑圧していることを説明するための図である。
図4は、従来技術の一例としてマルチビームフォーミング法による狭指向音声強調技術の機能構成を示す図である。
図5Aは、直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図である。
図5Bは、直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図である。
図6は、従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図である。
図7は、狭指向音声強調装置(実施形態1)の機能構成を示す図である。
図8は、狭指向音声強調方法(実施形態1)の処理手順を示す図である。
図9は、第1の実施例の構成を示す図である。
図10は、狭指向音声強調装置(実施形態2)の機能構成を示す図である。
図11は、狭指向音声強調方法(実施形態2)の処理手順を示す図である。
図12は、第1の実施例に基づく実験結果を示す図である。
図13は、第1の実施例に基づく実験結果を示す図である。
図14は、第1の実施例にてフィルタW→(ω,θ)による指向性を示す図である。
図15は、第2の実施例の構成を示す図である。
図16は、実験例に基づく実験結果を示す図である。
図17は、実験例に基づく実験結果を示す図である。
図18Aは、二つの音源A,Bからマイクロホンアレーに直接音が届く様子を示す図である。
図18Bは、二つの音源A,Bからマイクロホンアレーに直接音が届く様子と、反射板によって二つの仮想音源A(ξ),B(ξ)からマイクロホンアレーに反射音が届く様子を示す図である。
図19は、音声スポット強調装置(実施形態1)の機能構成を示す図である。
図20は、音声スポット強調方法(実施形態1)の処理手順を示す図である。
図21は、音声スポット強調装置(実施形態2)の機能構成を示す図である。
図22は、音声スポット強調方法(実施形態2)の処理手順を示す図である。
図23Aは、反射板を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)。
図23Bは、反射板を設置した場合の最小分散ビームフォーマの指向性(2次元領域)。
図24Aは、本発明の実施構成例を示す平面図である。
図24Bは、本発明の実施構成例を示す正面図である。
図24Cは、本発明の実施構成例を示す側面図である。
図25Aは、本発明の別の実施構成例を示す側面図である。
図25Bは、本発明の別の実施構成例を示す側面図である。
図26は、図25Bに示す実施構成例における使用形態を示す図である。
図27Aは、本発明の実施構成例を示す平面図である。
図27Bは、本発明の実施構成例を示す正面図である。
図27Cは、本発明の実施構成例を示す側面図である。
図28は、本発明の実施構成例を示す側面図である。
《狭指向音声強調技術の原理》
本発明の狭指向音声強調技術の原理について説明する。本発明の狭指向音声強調技術は、信号処理に基づいて任意の方向の音声に追従できるというマイクロホンアレー技術の本質と、反射音を積極的に利用することによって高SN比で収音することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の第kフレームの周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、マイクロホンアレーの中心から見て目的方向θsの音声の周波数領域信号X→(ω,k)を周波数ωで強調するフィルタをW→(ω,θs)とする。Mは2以上の整数とする。Tは転置を表す。このとき、目的方向θsの音声の周波数領域信号X→(ω,k)が周波数ωで強調された周波数領域信号(以下、出力信号と呼ぶ)Y(ω,k,θs)は式(6)で与えられる。Hはエルミート転置を表す。
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはM個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
フィルタW→(ω,θs)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs)は、式(8)の拘束条件の下、空間相関行列Q(ω)を用いて目的方向θs以外の方向の音声(以下、「目的方向θs以外の方向の音声」を「雑音」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(7)参照)。a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、方向θsに音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、マイクロホンアレーに含まれる各マイクロホンへの方向θsの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、周波数領域信号X→(ω,k)の成分X1(ω,k),…,XM(ω,k)について周波数ωにおける相互相関関係を表す行列であり、E[Xi(ω,k)Xj *(ω,k)](1≦i≦M,1≦j≦M)を(i,j)成分に持つ。演算子E[・]は、統計的平均操作を表す演算子であり、記号*は複素共役を表す。空間相関行列Q(ω)は、観測に基づいて得られるX1(ω,k),…,XM(ω,k)の統計量を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
式(7)の最適解であるフィルタW→(ω,θs)は式(9)で与えられることが知られている(下記参考文献1)。
空間相関行列Q(ω)の逆行列が式(9)に含まれることから察せられるように、空間相関行列Q(ω)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(7)から、雑音のパワーは空間相関行列Q(ω)の構造に依存することもわかる。
雑音の到来方向のインデックスpが属する集合を{1,2,…,P−1}とする。目的方向θsのインデックスsは集合{1,2,…,P−1}に属さないとする。P−1個の雑音が任意の方向から到来すると仮定すると、空間相関行列Q(ω)は式(10a)で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Pはある程度大きい値であることが好ましく、M程度の整数であるとする。なお、ここでは本発明の狭指向音声強調技術の原理を分かり易く説明する観点から目的方向θsがあたかも特定の方向の如く説明しているが(それ故、目的方向θs以外の方向を「雑音」の方向としている)、後述の実施形態で明らかになるように、実際には、目的方向θsは音声強調の対象となりえる任意の方向であり、目的方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θsと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合{1,2,…,P−1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω)は、音声の到来方向として想定される複数の方向に含まれる各方向θφの音声の各マイクロホンへの伝達特性a→(ω,θφ)=[a1(ω,θφ),…,aM(ω,θφ)]T(φ∈Φ)によって表される空間相関行列であり、式(10b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
ここで、目的方向θsの音声の伝達特性a→(ω,θs)と、方向p∈{1,2,…,P−1}の音声の伝達特性a→(ω,θp)=[a1(ω,θp),…,aM(ω,θp)]Tがお互いに直交すると仮定する。つまり、式(11)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式(11)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Q(ω)は式(12)のように展開できる。式(12)は、直交性を満たすP個の伝達特性で構成された行列V(ω)=[a→(ω,θs),a→(ω,θ1),…,a→(ω,θP−1)]Tと単位行列Λ(ω)によって空間相関行列Q(ω)を分解できることを意味している。ρは空間相関行列Q(ω)による式(11)を満たす伝達特性a→(ω,θφ)の固有値であり実数である。
このとき、空間相関行列Q(ω)の逆行列は式(13)で与えられる。
式(13)を式(7)に代入すると、雑音のパワーが最小となることがわかる。雑音のパワーが最小となれば目的方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、目的方向θsに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において目的方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実には同じ音源から発せられた音声が壁や天井等で反射してマイクロホンに到達する反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。方向θから到来する直接音のみのステアリングベクトルをh→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→ conv(ω,θ)=h→ d(ω,θ)としていた。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。
線形マイクロホンアレーに音声が平面波として到来すると仮定すると、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(14a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。基準点は線形マイクロホンアレーの全長の半分の位置(線形マイクロホンアレーの中心)である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した(図9参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(14b)で与えられる。以下、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(14a)で与えられるとして説明する。
方向θの伝達特性と目的方向θsの伝達特性との内積値γconv(ω,θ)は式(15)で表される。なお、θ≠θsとする。
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(16)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
式(16)にて、変更可能なパラメータはマイクロホンアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ−θs|が小さい場合には、マイクロホンアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、雑音のパワーは十分に小さくならず、図5Aに模式的に示すように、目的方向θsに対して広いビーム幅を持った指向性となってしまう。
他方、本発明の狭指向音声強調技術は、このような考察に基づき、目的方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ−θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の平面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ)とし、αξ(1<ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(17a)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θの直接音に対応する反射音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上(1~2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとマイクロホンアレーの設置位置の変更などに伴って、反射音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はマイクロホンアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「マイクロホンアレーの従物」とは、「マイクロホンアレーに対する配置関係(幾何学的関係)を維持したままマイクロホンアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、マイクロホンアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の狭指向音声強調技術の利点を具体的に説明する観点から、Ξ=1とし、反射音の反射回数は1回であって、マイクロホンアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(17a)は式(17b)のように表すことができる。
反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(14a)参照)、式(18a)で表される。関数Ψ(θ)は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式(14b)で表す場合には、反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(18b)で表される。一般的に、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(18c)や式(18d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の反射音の到来方向を出力する。
反射物の位置は適宜に設定可能であるから、反射音の到来方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がマイクロホンアレーの近傍にある(距離Lがマイクロホンアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(19)で表される。なお、θ≠θsとする。
式(19)から、式(15)の従来のコヒーレンスγconv(ω,θ)よりも式(19)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(19)の第2~4項目の中に存在するので第1項目のh→ d H(ω,θ)h→ d(ω,θ)を除去できる可能性がある。
例えば、線形マイクロホンアレーに対して、マイクロホンの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π−θが成立し、直接音と反射音との到来時間差τ(θ)について式(20)が成立するので、式(19)を構成する要素に式(21)(22)の各条件が生成される。記号*は複素共役を表す演算子である。
h→ d H(ω,θ)h→ r(ω,θ)の絶対値はh→ d H(ω,θ)h→ d(ω,θ)よりも十分に小さいので、式(19)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(23)のように近似できる。
仮にh→ d H(ω,θ)h→ d(ω,θ)≠0であるとしても、近似コヒーレンスγ~(ω,θ)は式(24)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
つまり、式(16)で与えられる方向だけではなく、式(24)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、雑音のパワーをより小さくできるので、図5Bに模式的に示すように、鋭い指向性の実現が可能になる。
なお、図5Aと図5Bでは本発明の狭指向音声強調技術の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図6に、式(16)で与えられるθと式(24)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図6では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(16)で与えられるθであり、記号+で示された方向が式(24)で与えられるθである。図6から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の狭指向音声強調技術の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
上述の説明から明らかなように、本発明の狭指向音声強調技術の要点は、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tを、例えば式(17a)のように、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現していることにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs)を設計することができる。
上述の最小分散無歪応答法以外の手法として、〈1〉SN比最大化規準によるフィルタ設計法、〈2〉パワーインバージョン(Power Inversion)に基づくフィルタ設計法、〈3〉一つ以上の死角(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、〈4〉遅延合成(Delay−and−Sum Beam Forming)法によるフィルタ設計法、〈5〉最尤法によるフィルタ設計法、〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法を説明する。〈1〉SN比最大化規準によるフィルタ設計法と〈2〉パワーインバージョンに基づくフィルタ設計法については下記参考文献2を参照のこと。〈3〉一つ以上の死角(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については下記参考文献3を参照のこと。〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法については下記参考文献4を参照のこと。
〈1〉SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、目的方向θsでのSN比(SNR)を最大化する規準でフィルタW→(ω,θs)を決定する。目的方向θsの音声の空間相関行列をRss(ω)、目的方向θs以外の方向の音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(25)で表される。なお、Rss(ω)は式(26)、Rnn(ω)は式(27)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。
式(25)のSNRを最大にするフィルタW→(ω,θs)は、フィルタW→(ω,θs)に関する勾配をゼロとすること、つまり式(28)によって求めることができる。
但し、
これにより、式(25)のSNRを最大にするフィルタW→(ω,θs)は式(29)で与えられる。
式(29)には目的方向θs以外の方向の音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、目的方向θsの音声と目的方向θs以外の方向の音声を含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)=Q(ω)である(式(10a)、式(26)、式(27)参照)。つまり、式(25)のSNRを最大にするフィルタW→(ω,θs)を式(30)で求めてもよい。
〈2〉パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs)を決定する。ここでは、一例として、M個のマイクロホンのうち1番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs)は、式(32)の拘束条件の下、空間相関行列Rxx(ω)を用いて全方向(音声の到来方向として想定される全ての方向)の音声のパワーが最小となるように設計される(式(31)参照)。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。なお、Rxx(ω)=Q(ω)である(式(10a)、式(26)、式(27)参照)。
但し、
式(31)の最適解であるフィルタW→(ω,θs)は式(33)で与えられることが知られている(下記参考文献2参照)。
〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(8)で表されるように目的方向θsの音声の全帯域通過を拘束条件とし、式(7)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向以外の方向の音声である雑音のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs)を設計した。この方法によると、全体的に雑音のパワーを抑圧することはできるが、特定の一つまたは複数の方向に強いパワーを持ったノイズ源が存在することが予め判明している場合には必ずしも好適な方法とは言えない。このような場合、ノイズ源が存在する既知の一つまたは複数の特定方向(つまり、死角)を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)目的方向θsの音声の全帯域通過、および(2)予め判明しているB個(Bは1以上の予め定められた整数)の死角θN1,θN2,…,θNBの音声の全帯域抑制、を拘束条件として、式(7)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向と各死角とを除く方向の音声のパワーが最小となる)フィルタを求める。既述のように、音声の到来方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P−1である。
このとき、a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tを、方向θiに音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは、マイクロホンアレーに含まれる各マイクロホンへの方向θiの音声の周波数ωでの伝達特性とすると、拘束条件は式(34)で表される。ただし、インデックスiについて、i∈{s,N1,N2,…,NB}であり、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは式(17a)で表される(正確には、式(17a)のθをθiとしたものである)。fi(ω)は、方向θiに関する周波数ωでの通過特性を表す。
式(34)を行列形式で表現すると、例えば式(35)のように表すことができる。ただし、A→(ω,θs)=[a→(ω,θs),a→(ω,θN1),…,a→(ω,θNB)]である。
但し、
(1)目的方向θsの音声の全帯域通過、および(2)予め判明しているB個の死角θN1,θN2,…,θNBの音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs(ω)=1.0、fi(ω)=0.0(i∈{N1,N2,…,NB})とされるべきである。これは、目的方向θsの音声の全帯域完全通過と、予め判明しているB個の死角θN1,θN2,…,θNBの音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs(ω)の絶対値を1.0に近い値、fi(ω)(i∈{N1,N2,…,NB})の絶対値を0.0に近い値に設定すればよい。もちろん、fi(ω)とfj(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式(35)の下での式(7)の最適解であるフィルタW→(ω,θs)は式(36)で与えられる(下記参考文献3参照)。
〈4〉遅延合成法によるフィルタ設計法
式(2)から明らかなように、直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θs)は式(37)で与えられる。つまり、フィルタW→(ω,θs)は伝達特性a→(ω,θs)を正規化して得られる。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
〈5〉最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω)内に目的方向の音声の空間情報を含めないことによって、雑音を抑圧する自由度が向上し、雑音のパワーをよりいっそう抑圧できる。このため、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(10a)の右辺第二項、つまり、式(10c)で表す。フィルタW→(ω,θs)は式(9)や式(36)で与えられる。このとき、式(9)や式(36)に含まれるQ(ω)あるいは式(30)や式(33)に含まれるRxx(ω)=Q(ω)は、式(10c)で表される空間相関行列である。
〈6〉AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。AMNOR法によると、フィルタW→(ω,θs)は式(38)で与えられる(下記参考文献4参照)。なお、Rss(ω)は式(26)、Rnn(ω)は式(27)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(17a)で表される(正確には、式(17a)のθをθsとしたものである)。
Psは、仮想目的信号のレベルを重み付けする係数であり、仮想目的信号レベルと呼称される。仮想目的信号レベルPsは、周波数に依存しない定数である。仮想目的信号レベルPsは、経験則に基づいて決められてもよく、あるいは、目的方向の音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、AMNOR法によるフィルタW→(ω,θs)の目的方向θsの音声の周波数応答F(ω)は、式(39)で表される。式(38)で与えられるフィルタW→(ω,θs)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(40)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる仮想目的信号レベルPsを求めることができる。
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述の周波数領域信号X→(ω,k)を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は目的方向の音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は目的方向の音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tを用いた空間相関行列Q(ω)は式(41)で表される。演算子E[・]は、統計的平均操作を表す演算子である。マイクロホンアレー(M個のマイクロホンを含む)で受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)を用いて式(42)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(41)ないし式(42)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(41a)や式(42a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
式(41a)や式(42a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(9)、式(29)、式(30)、式(33)、式(36)、式(38)のいずれかで表されるフィルタW→(ω,θs)は、表記上、式(9m)、式(29m)、式(30m)、式(33m)、式(36m)、式(38m)に修正される。
《狭指向音声強調技術の実施形態1》
本発明の狭指向音声強調技術の実施形態1の機能構成および処理フローを図7と図8に示す。この実施形態1の音声強調装置(以下、狭指向音声強調装置という)1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
[ステップS1]
予め、フィルタ設計部260が音声強調の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW→(ω,θi)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W→(ω,θ1),…,W→(ω,θi),…,W→(ω,θI)(1≦i≦I,ω∈Ω;iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I,ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθiとしたものである)。なお、上述の〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi)(1≦i≦I,ω∈Ω)を求める際の方向のインデックスiは、少なくともB個の死角の方向のインデックスN1,N2,…,NBの全てを亘ることが望ましい。換言すれば、B個の死角の方向のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定される。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をマイクロホンアレーの近傍に設置する場合には、伝達特性a→(ω,θi)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθiとしたものである)。
ステアリングベクトルの計算には、例えば式(14a)、式(14b)、式(18a)、式(18b)、式(18c)、式(18d)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(17a)や式(17b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi)を用いて、例えば式(9)、式(29)、式(30)、式(33)、式(36)、式(37)、式(38)のいずれかによってW→(ω,θi)(1≦i≦I)を求める。なお、上述の〈5〉最尤法によるフィルタ設計法で説明した場合を除き、式(9)または式(30)または式(33)または式(36)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(10b)で計算できる。上述の〈5〉最尤法によるフィルタ設計法に拠って、式(9)または式(30)または式(33)または式(36)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(10c)で計算できる。式(29)を用いる場合には空間相関行列Rnn(ω)は式(27)で計算できる。I×|Ω|個のフィルタW→(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
[ステップS2]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
[ステップS3]
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS4]
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS5]
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS6]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs)を適用して、出力信号Y(ω,k,θs)を出力する(式(43)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW→(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、強調したい目的方向θsに対応するフィルタW→(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW→(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW→(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs′に対応するフィルタW→(ω,θs′)を用いてよい。
[ステップS7]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して目的方向θsの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ここでは、ステップS1の処理で予めフィルタW→(ω,θi)を計算しておく実施形態1を説明したが、狭指向音声強調装置1の計算処理能力などに応じて、目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs)を計算する実施形態を採用することもできる。
《狭指向音声強調技術の実施形態2》
本発明の狭指向音声強調技術の実施形態2の機能構成および処理フローを図10と図11に示す。この実施形態2の狭指向音声強調装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ計算部261、記憶部290を含む。
[ステップS11]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。M個のマイクロホンの並べ方等については実施形態1で説明したとおりである。
[ステップS12]
AD変換部210が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS13]
フレーム生成部220は、AD変換部210が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS14]
周波数領域変換部230は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS15]
フィルタ計算部261が、現在の第kフレームで用いられる、目的方向θsに対応する周波数毎のフィルタW→(ω,θs,k)(ω∈Ω;Ωは周波数ωの集合)を計算する。
このためには、伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T(ω∈Ω)を用意する必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθsとしたものである)。なお、上述の〈3〉一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)も求める必要があるが、これらはマイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(17a)によって具体的に計算できる(正確には、式(17a)のθをθNjとしたものである)。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をマイクロホンアレーの近傍に設置する場合には、伝達特性a→(ω,θs)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθsとしたものである)。この場合、同様に、伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)は式(17b)によって具体的に計算できる(正確には、式(17b)のθをθNjとしたものである)。
ステアリングベクトルの計算には、例えば式(14a)、式(14b)、式(18a)、式(18b)、式(18c)、式(18d)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(17a)や式(17b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部261は、伝達特性a→(ω,θs)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj)(1≦j≦B,ω∈Ω)を用いて、フィルタW→(ω,θs,k)(ω∈Ω)を、式(9m)、式(29m)、式(30m)、式(33m)、式(36m)、式(38m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(41a)や式(42a)で計算できる。空間相関行列Q(ω)の計算には、記憶部290に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)が用いられる。
[ステップS16]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs,k)を適用して、出力信号Y(ω,k,θs)を出力する(式(44)参照)。
[ステップS17]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して目的方向θsの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS14の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
[狭指向音声強調技術の実験例]
本発明の狭指向音声強調技術の実施形態1(単一拘束条件の最小分散無歪応答法)による実験結果を説明する。図9に示すように、24本のマイクロホンを直線的に配置し、この線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うマイクロホンの間隔を4cm、反射板300の反射率αを0.8とした。目的方向θsを45度に設定した。線形マイクロホンアレーに音声が平面波として到来すると仮定し、伝達特性を式(17b)(式(14a)、式(18a)を参照)で算出して、生成されるフィルタの指向性を検証した。比較対象として、2つの従来法(反射板無しの最小分散無歪応答法と反射板有りの遅延合成法)を用いた。
実験結果を図12、図13に示す。2つの従来法と比較して、どの周波数帯域でも本発明の狭指向音声強調技術の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の狭指向音声強調技術の有用性が理解される。また、図14には、本発明の狭指向音声強調技術の実施形態1に従って生成したフィルタW→(ω,θ)による指向性を示した。図14から、直接音だけでなく、反射音も強調していることが分かる。
また、図15に示すように、線形マイクロホンアレーに含まれるマイクロホンの配列方向と反射板300の平面とのなす角が45度になるように反射板300を配置した場合についても上述の実験と同様の実験を行った。目的方向θsを22.5度に設定し、その他の実験条件は線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した場合と同じとした。
実験結果を図16、図17に示す。2つの従来法と比較して、どの周波数帯域でも本発明の狭指向音声強調技術の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の狭指向音声強調技術の有用性が理解される。
<応用例>
狭指向音声強調技術は、画像に譬えて表現すれば、不鮮明な惚けた画像から鮮明な画像を生成することに対応し、音場の情報をより詳細に得ることに役立つ。以下、本発明の狭指向音声強調技術が有用なサービス例について述べる。
第1の例として、映像と組み合わせたコンテンツ制作が挙げられる。本発明の狭指向音声強調技術の実施形態を利用すると、雑音(目的外音声等)が多い雑音環境でも遠方の目的音声をクリアに強調することができるので、例えば、フィールド外から撮影したサッカー選手がドリブルするズームイン映像に対応した音声付けを行うことができる。
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。狭い部屋で会議する場合には、従来技術でも、数本のマイクロホンを用いて発言者の音声を強調することがそれなりに可能であったが、広い会議室(例えばマイクロホンから5m以上離れた位置に話者が存在するような広い空間)では、クリアに遠方話者の音声を強調することが困難であり、このため、各発言者の前にマイクロホンを設置する必要があった。しかし、本発明の狭指向音声強調技術の実施形態を利用すると、遠方の音をクリアに強調することが可能であるため、各発言者の前にマイクロホンを設置することなく、広い会議室に対応したTV会議システムを構築することが可能となる。
《音声スポット強調技術の原理》
次に、本発明の音声スポット強調技術の原理について説明する。本発明の音声スポット強調技術は、信号処理に基づいて任意の方向の音声に追従できるというマイクロホンアレー技術の本質と、反射音を積極的に利用することによって高SN比で収音することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。特に、マイクロホンアレーから見た方向がほぼ同じで距離だけが異なる音源とマイクロホンアレーとの間の伝達特性はかなり類似していることに鑑みて、反射物を利用することによって、異なる音源とマイクロホンアレーとの間の伝達特性の差分を大きくすることが本発明の音声スポット強調技術の顕著な特徴の一つと言える。伝達特性の差分を信号処理によって抽出することによって、マイクロホンアレーからの距離に応じて音声を強調可能な音声スポット強調技術が実現する。
説明に先立ち、改めて記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。M個のマイクロホンで受音したアナログ信号の第kフレームの周波数領域表現をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]T、マイクロホンアレーの中心から見て方向θs且つマイクロホンアレーの中心から見て距離Dhだけ離れた位置に在ると想定される音源からの音声の周波数領域信号X→(ω,k)を周波数ωで強調するフィルタをW→(ω,θs,Dh)とする。Mは2以上の整数とする。Tは転置を表す。以下、しばらくの間、距離Dhを固定して考える。
「マイクロホンアレーの中心」は任意に定めることができるが、一般的にはM個のマイクロホンの配置の幾何学的中心が「マイクロホンアレーの中心」とされ、例えば線形マイクロホンアレーであれば両端のマイクロホンの中間点が「マイクロホンアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面マイクロホンアレーであれば、四隅のマイクロホンの対角線が交わる位置が「マイクロホンアレーの中心」とされる。
また、「~の位置に在ると想定される音源」と説明している理由は、実際に当該位置に音源が存在することが本発明の音声スポット強調技術では必須でないからである。つまり、詳しくは後の説明で明らかになるが、本発明の音声スポット強調技術は周波数表現の信号に対するフィルタ適用という信号処理を内実としており、離散的な距離Dhごとにフィルタを予め作成しておく実施形態が可能であるから、実際に音声スポット強調処理を行う段階でも当該位置に音源が実在することは要求されないのである。例えば、実際に音声スポット強調処理を行う段階で、マイクロホンアレーから見て方向θs、距離Dhの位置に実際に音源が実在する場合、当該位置に応じた適切なフィルタを選択することによって当該音源からの音声を強調できることになり、当該位置に音源が実在しない場合、仮に雑音すら存在しない完全無音を想定すると当該フィルタによって強調された音声は理想的に完全無音であることになるが、“当該位置からの音声”を強調したことに変わりはないのである。
このような下では、マイクロホンアレーの中心から見て(方向θs,距離Dh)の位置(以下、特に断りの無い限り「位置(θs,Dh)」と呼称する)に在ると想定される音源からの音声の周波数領域信号X→(ω,k)が周波数ωで強調された周波数領域信号(以下、出力信号と呼ぶ)Y(ω,k,θs,Dh)は式(106)で与えられる。Hはエルミート転置を表す。
フィルタW→(ω,θs,Dh)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs,Dh)は、式(108)の拘束条件の下、空間相関行列Q(ω)を用いて方向θs以外の方向の音声(以下、「方向θs以外の方向の音声」を「雑音」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(107)参照。ここでは距離Dhを固定して考えているので、空間相関行列Q(ω)をQ(ω,Dh)と明記していることに留意すること)。a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、位置(θs,Dh)に音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性である。換言すれば、a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは、マイクロホンアレーに含まれる各マイクロホンへの位置(θs,Dh)からの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、周波数領域信号X→(ω,k)の成分X1(ω,k),…,XM(ω,k)について周波数ωにおける相互相関関係を表す行列であり、E[Xi(ω,k)Xj *(ω,k)](1≦i≦M,1≦j≦M)を(i,j)成分に持つ。演算子E[・]は、統計的平均操作を表す演算子であり、記号*は複素共役を表す。空間相関行列Q(ω)は、観測に基づいて得られるX1(ω,k),…,XM(ω,k)の統計量を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
式(107)の最適解であるフィルタW→(ω,θs,Dh)は式(109)で与えられることが知られている(下記参考文献1)。
空間相関行列Q(ω,Dh)の逆行列が式(109)に含まれることから察せられるように、空間相関行列Q(ω,Dh)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(107)から、雑音のパワーは空間相関行列Q(ω,Dh)の構造に依存することもわかる。
雑音の到来方向のインデックスpが属する集合を{1,2,…,P−1}とする。方向θsのインデックスsは集合{1,2,…,P−1}に属さないとする。P−1個の雑音が任意の方向から到来すると仮定すると、空間相関行列Q(ω,Dh)は式(110a)で与えられる。多くの雑音が存在する中でも十分に機能するフィルタを作る観点から、Pはある程度大きい値であることが好ましく、M程度の整数であるとする。なお、ここでは本発明の音声スポット強調技術の原理を分かり易く説明する観点から方向θsがあたかも特定の方向の如く説明しているが(それ故、方向θs以外の方向を「雑音」の方向としている)、後述の実施形態で明らかになるように、実際には、方向θsは音声強調の対象となりえる任意の位置に対応する方向であり、このため方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、方向θsと雑音の方向との区別は凡そ主観的なものであり、目的音か雑音かの区別なく音声の到来方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が音声強調の対象の位置に対応する方向であり、それ以外の方向が雑音の方向であると理解することがより正確である。そこで、集合{1,2,…,P−1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω,Dh)は、マイクロホンアレーの中心からの距離がDhであって音声の到来方向として想定される複数の方向に含まれる各方向θφに対応する各位置からの音声の各マイクロホンへの伝達特性a→(ω,θφ,Dh)=[a1(ω,θφ,Dh),…,aM(ω,θφ,Dh)]T(φ∈Φ)によって表される空間相関行列であり、式(110b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
ここで、方向θsの音声の伝達特性a→(ω,θs,Dh)と、方向p∈{1,2,…,P−1}の音声の伝達特性a→(ω,θp,Dh)=[a1(ω,θp,Dh),…,aM(ω,θp,Dh)]Tがお互いに直交すると仮定する。つまり、式(111)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここではP≦Mを満たすとする。なお、式(111)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Q(ω,Dh)は式(112)のように展開できる。式(112)は、直交性を満たすP個の伝達特性で構成された行列V(ω,Dh)=[a→(ω,θs,Dh),a→(ω,θ1,Dh),…,a→(ω,θP−1,Dh)]Tと単位行列Λ(ω,Dh)によって空間相関行列Q(ω,Dh)を分解できることを意味している。ρは空間相関行列Q(ω,Dh)による式(111)を満たす伝達特性a→(ω,θφ,Dh)の固有値であり実数である。
このとき、空間相関行列Q(ω,Dh)の逆行列は式(113)で与えられる。
式(113)を式(107)に代入すると、雑音のパワーが最小となることがわかる。雑音のパワーが最小となれば方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、方向θsに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実には同じ音源から発せられた音声が壁や天井等で反射してマイクロホンに到達する反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。線形マイクロホンアレーに音声が平面波として到来すると仮定し、方向θから到来する直接音のみのステアリングベクトルをh→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→ conv(ω,θ)=h→ d(ω,θ)としていた(音波を平面波と考えるのでステアリングベクトルは距離Dに依存しない)。なお、ステアリングベクトルは、マイクロホンアレーの中心から見て方向θの音波について、基準点に対する各マイクロホンの周波数ωでの位相応答特性を並べた複素ベクトルである。
以下、しばらくの間、線形マイクロホンアレーに音声が平面波として到来すると仮定する。直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)が例えば式(114c)で与えられるとする。uは隣り合うマイクロホン間の距離を表す。jは虚数単位である。この場合、基準点は線形マイクロホンアレーの全長の半分の位置(線形マイクロホンアレーの中心)である。方向θは線形マイクロホンアレーの中心から見て直接音の到来方向と線形マイクロホンアレーに含まれるマイクロホンの配列方向とがなす角度として定義した(図9参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形マイクロホンアレーの一端にあるマイクロホンの位置とすれば、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(114d)で与えられる。以下、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(114c)で与えられるとして説明する。
方向θの伝達特性と方向θsの伝達特性との内積値γconv(ω,θ)は式(115)で表される。なお、θ≠θsとする。
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(116)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
式(116)にて、変更可能なパラメータはマイクロホンアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ−θs|が小さい場合には、マイクロホンアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、雑音のパワーは十分に小さくならず、図5Aに模式的に示すように、方向θsに対して広いビーム幅を持った指向性となってしまう。
他方、本発明の音声スポット強調技術は、このような考察に基づき、方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ−θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の平面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、音声強調の対象となりえる方向の音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(117a)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θの直接音に対応する反射音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
M個のマイクロホンで構成されるマイクロホンアレーに対して一つ以上の反射音を与えることが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、音声強調の対象位置に音源が在るとして、当該音源とマイクロホンアレーと一つ以上の反射物との位置関係は、当該音源からの音が少なくとも一つの反射物で反射してマイクロホンアレーに届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはマイクロホンアレーと同等かそれ以上(1~2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、マイクロホンアレーに届いた反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとマイクロホンアレーの設置位置の変更などに伴って、反射音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はマイクロホンアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「マイクロホンアレーの従物」とは、「マイクロホンアレーに対する配置関係(幾何学的関係)を維持したままマイクロホンアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、マイクロホンアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の音声スポット強調技術の利点を具体的に説明する観点から、Ξ=1とし、反射音の反射回数は1回であって、マイクロホンアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(117a)は式(117b)のように表すことができる。
反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(114c)参照)、式(118a)で表される。関数Ψ(θ)は反射音の到来方向を出力する。なお、直接音のステアリングベクトルを式(114d)で表す場合には、反射音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(118b)で表される。また、Ξ≧2ならば、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(118c)や式(118d)で表される。関数Ψξ(θ)はξ番目(1≦ξ≦Ξ)の反射音の到来方向を出力する。
反射物の位置は適宜に設定可能であるから、反射音の到来方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がマイクロホンアレーの近傍にある(距離Lがマイクロホンアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(119)で表される。なお、θ≠θsとする。
式(119)から、式(115)の従来のコヒーレンスγconv(ω,θ)よりも式(119)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(119)の第2~4項目の中に存在するので第1項目のh→ d H(ω,θ)h→ d(ω,θ)を除去できる可能性がある。
例えば、線形マイクロホンアレーに対して、マイクロホンの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π−θが成立し、直接音と反射音との到来時間差τ(θ)について式(120)が成立するので、式(119)を構成する要素に式(121)(122)の各条件が生成される。記号*は複素共役を表す演算子である。
h→ d H(ω,θ)h→ r(ω,θ)の絶対値はh→ d H(ω,θ)h→ d(ω,θ)よりも十分に小さいので、式(119)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(123)のように近似できる。
仮にh→ d H(ω,θ)h→ d(ω,θ)≠0であるとしても、近似コヒーレンスγ~(ω,θ)は式(124)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
つまり、式(116)で与えられる方向だけではなく、式(124)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、雑音のパワーをより小さくできるので、図5Bに模式的に示すように、鋭い指向性の実現が可能になる。
なお、図5Aと図5Bでは本発明の狭指向音声強調技術の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図6に、式(116)で与えられるθと式(124)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図6では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(116)で与えられるθであり、記号+で示された方向が式(124)で与えられるθである。図6から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の狭指向音声強調技術の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
これまで本発明の音声スポット強調技術の原理を分かりやすく説明する観点から音波が平面波として到来すると仮定してきたが、上述の説明から明らかなように、本発明の音声スポット強調技術の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、例えば式(117a)のように、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現することにある。従って、音波が平面波として到来する場合に限定されず球面波として到来する場合にも従来よりも狭指向性の音声強調が可能であることが理解される。
音波が球面波として到来する場合についての伝達特性a→(ω,θ,D)を説明する。マイクロホンアレーの各マイクロホンには、音源からの直接音と、当該音源からの音が反射物300で反射した反射音との二種類の球面波が混入することになる。反射音の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tは、音声強調の対象となりえる位置(θs,D)からの音声がマイクロホンアレーに直接届く直接音の伝達特性と当該音声が反射物で反射してマイクロホンアレーに届く一つ以上の反射音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差をτξ(θ,D)とし、αξ(1<ξ<Ξ)を反射による音の減衰を考慮するための係数とすると、式(125)のように、直接音のステアリングベクトルと、反射による音の減衰および直接音に対する到来時間差が補正されたΞ個の反射音のステアリングベクトルの和で表現できる。h→ d(ω,θ,Dh)=[hd1(ω,θ,Dh),…,hdM(ω,θ,Dh)]Tは位置(θs,D)からの音声の直接音のステアリングベクトルを表す。h→ rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]Tは位置(θs,D)からの音声の直接音に対応する反射音のステアリングベクトルを表す。ここで「ステアリングベクトル」という呼称について注意を加えておく。一般的に、「ステアリングベクトル」は「方向ベクトル」とも呼ばれるように「方向」に依存する複素ベクトルを表し、この観点から、位置(θs,D)に依存する複素ベクトルの呼称としては例えば「拡張されたステアリングベクトル」と呼ぶほうがより正確である。しかし、本明細書では、表現の簡略化のため、位置(θs,D)に依存する複素ベクトルの呼称としても単に「ステアリングベクトル」を用いることにする。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、音源からマイクロホンに到達するまでの反射回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の反射音が反射した物体の音の反射率を表していると考えて差し支えない。
式(125)において、直接音のステアリングベクトルh→ d(ω,θ,Dh)を構成するm番目の要素hdm(ω,θ,Dh)は例えば式(125a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。適宜に設定した空間座標系において、v→ θ,D (d)は位置(θ,D)の位置ベクトルを、u→ mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→ θ,D (d)−u→ m‖)は音波の距離減衰を表す関数である。例えばf(‖v→ θ,D (d)−u→ m‖)=1/‖v→ θ,D (d)−u→ m‖であり、この場合、式(125a)は式(125b)で表される。
式(125)において、反射音のステアリングベクトルh→ rξ(ω,θ,D)=[hr1ξ(ω,θ,D),…,hrMξ(ω,θ,D)]Tのm番目の要素hrmξ(ω,θ,D)は、直接音のステアリングベクトルの表し方と同様に(式(125a)参照)、式(126a)で表される。mは1≦m≦Mを満たす各整数である。cは音速を表す。jは虚数単位である。上記空間座標系において、v→ θ,D (ξ)は位置(θ,D)がξ番目の反射物の反射面で鏡像対象に移された位置の位置ベクトルを、u→ mはm番目のマイクロホンの位置ベクトルを表す。記号‖・‖はノルムを表す。f(‖v→ θ,D (ξ)−u→ m‖)は音波の距離減衰を表す関数である。例えばf(‖v→ θ,D (ξ)−u→ m‖)=1/‖v→ θ,D (ξ)−u→ m‖であり、この場合、式(126a)は式(126b)で表される。
なお、ξ番目の到来時間差τξ(θ,D)と位置ベクトルv→ θ,D (ξ)は、位置(θ,D)とマイクロホンアレーとξ番目の反射物との位置関係が決まると、その位置関係に基づいて理論的に計算可能である。
本発明の音声スポット強調技術は従来技術と異なり反射音を積極的に考慮することから、狭指向性の音声スポット強調が可能でもある。以下、このことを二つの音源を例に挙げて説明する。図18Aに示すように、マイクロホンアレーから見て距離が異なるがほぼ同じ方向に在る二つの音源AとBそれぞれから発せられた音声について、両者の直接音のみから両者の音声をスポット強調することは難しい。この理由は、音源Aの位置(θ[A],D[A])に対応する直接音のステアリングベクトルh→ d(ω,θ[A],D[A])に現れる減衰関数の値f(‖v→ θ[A],D[A] (d)−u→ m‖)と音源Bの位置(θ[B],D[B])に対応する直接音のステアリングベクトルh→ d(ω,θ[B],D[B])に現れる減衰関数の値f(‖v→ θ[B],D[B] (d)−u→ m‖)との間には、θ[A]≒θ[B]、D[A]≠D[B]に注意すると、距離に応じた差異が認められるが、現実には、マイクロホンアレーが収音した音声の大きさ(音量)から音源信号の大きさ(音量)と減衰関数の値とを区別できないためである。つまり、従来技術の如くa→ conv(ω,θ,D)=h→ d(ω,θ,D)とするならば、直接音の伝達特性はほぼ同じ方向に在る音源の距離に関する識別力として十分でなく、式(109)、式(110a)、式(110b)を参照して分かるようにスポット強調可能なフィルタの設計が困難になるのである。
他方、本発明の音声スポット強調技術では積極的に反射音を考慮するところ、図18Bに示すように、ξ番目の反射音の仮想音源A(ξ),B(ξ)は、マイクロホンアレーの立場から恰も、音源A,Bの位置がξ番目の反射物300の反射面で鏡像対象に移された位置に存在することになる。これは、音源A,Bから発せられた音声がξ番目の反射物300で反射した反射音はそれぞれ、仮想音源A(ξ),B(ξ)から到来することと等価である。仮想音源A(ξ)からのξ番目の反射音と仮想音源B(ξ)からのξ番目の反射音との間では、各仮想音源A(ξ),B(ξ)の位置ベクトルv→ θ[A(ξ)],D[A(ξ)]とv→ θ[B(ξ)],D[B(ξ)] (ξ)、各到来時間差τξ(θ[A],D[A])とτξ(θ[B],D[B])について、大きな差異がある。従って、位置(θ[A],D[A])と位置(θ[B],D[B])に対応する伝達特性a→(ω,θ[A],D[A])とa→(ω,θ[B],D[B])は式(127a)と式(127b)で表され、式(127a)と式(127b)のそれぞれの第2項の存在によって、θ[A]≒θ[B]であっても、異なる位置に対応する伝達特性間には有意な差分が生じることになる。この伝達特性間の差分をビームフォーミング法で抽出することによって、想定される音源の位置に応じた音声のスポット強調が可能となるのである。
これまでは、狭指向性の実現を説明するために、距離Dhを固定して考えてきた。このため、空間相関行列Q(ω)を式(110a)や式(110b)で表した。しかし、距離Dδ(δ=1,2,…,G)ごとのMチャネルの伝達特性の相互相関も考慮することによって音場の情報量が増え、より精度の良いフィルタを与える空間相関行列を構成できる。この空間相関行列Q(ω)は式(110c)で表される。方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
このとき、式(110c)で表される空間相関行列Q(ω)を用いると、最小分散無歪応答法によるフィルタW→(ω,θs,Dh)は式(109)に替えて式(109a)で表される。
ところで、既述のとおり、本発明の音声スポット強調技術の要点は、伝達特性a→(ω,θ,D)=[a1(ω,θ,D),…,aM(ω,θ,D)]Tを、直接音のステアリングベクトルとΞ個の反射音のステアリングベクトルの和で表現することにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs,Dh)を設計することができる。
上述の最小分散無歪応答法以外の手法として、〈1〉SN比最大化規準によるフィルタ設計法、〈2〉パワーインバージョン(Power Inversion)に基づくフィルタ設計法、〈3〉一つ以上の抑圧点(雑音のゲインが抑圧される位置)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、〈4〉遅延合成(Delay−and−Sum Beam Forming)法によるフィルタ設計法、〈5〉最尤法によるフィルタ設計法、〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法を説明する。〈1〉SN比最大化規準によるフィルタ設計法と〈2〉パワーインバージョンに基づくフィルタ設計法については下記参考文献2を参照のこと。〈3〉一つ以上の抑圧点(雑音のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については下記参考文献3を参照のこと。〈6〉AMNOR(Adaptive Microphone−array for noise reduction)法によるフィルタ設計法については下記参考文献4を参照のこと。
〈1〉SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、位置(θs,Dh)でのSN比(SNR)を最大化する規準でフィルタW→(ω,θs,Dh)を決定する。位置(θs,Dh)の音声の空間相関行列をRss(ω)、位置(θs,Dh)以外の位置の音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(128)で表される。なお、Rss(ω)は式(129)、Rnn(ω)は式(130)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。式(130)で、方向θφのインデックスφが属する集合をΦ(|Φ|=P)、距離Dδのインデックスδが属する集合をΔ(|Δ|=G)とする。
式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)は、フィルタW→(ω,θs,Dh)に関する勾配をゼロとすること、つまり式(131)によって求めることができる。
但し、
これにより、式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)は式(132)で与えられる。
式(132)には位置(θs,Dh)以外の位置の音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、(1)位置(θs,Dh)の音声と(2)位置(θs,Dh)以外の位置の音声とを含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)である。つまり、式(128)のSNRを最大にするフィルタW→(ω,θs,Dh)を式(133)で求めてもよい。
〈2〉パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのマイクロホンに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs,Dh)を決定する。ここでは、一例として、M個のマイクロホンのうち1番目のマイクロホンに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs,Dh)は、式(135)の拘束条件の下、空間相関行列Rxx(ω)を用いて全位置(音源位置として想定される全ての位置)の音声のパワーが最小となるように設計される(式(134)参照)。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは例えば式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。
但し、
式(134)の最適解であるフィルタW→(ω,θs,Dh)は式(136)で与えられることが知られている(下記参考文献2参照)。
〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(108)で表されるように位置(θs,Dh)の音声の全帯域通過を拘束条件とし、式(107)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)以外の位置の音声である雑音のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs,Dh)を設計した。この方法によると、全体的に雑音のパワーを抑圧することはできるが、特定の一つまたは複数の位置に強いパワーを持ったノイズ源が存在することが予め判明している場合には必ずしも好適な方法とは言えない。このような場合、ノイズ源が存在する既知の一つまたは複数の特定位置(つまり、抑圧点)を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)位置(θs,Dh)の音声の全帯域通過、および(2)予め判明しているB個(Bは1以上の予め定められた整数)の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域抑制、を拘束条件として、式(107)で表されるビームフォーマの平均出力パワーが最小となる(つまり、位置(θs,Dh)と各抑圧点とを除く位置の音声のパワーが最小となる)フィルタを求める。既述のように、音声の到来方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P−1である。また、音源までの距離のインデックスδが属する集合を{1,2,…,G}とすると、Gj∈{1,2,…,G}(ただし、j∈{1,2,…,B}),B≦G−1である。
このとき、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tを、位置(θi,Dg)に音源が在ると仮定した場合の、当該音源とM本のマイクロホンとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは、マイクロホンアレーに含まれる各マイクロホンへの位置(θi,Dg)の音声の周波数ωでの伝達特性とすると、拘束条件は式(137)で表される。ただし、インデックスi,gについて、(i,g)∈{(s,h),(N1,G1),{N2,G2),…,(NB,GB)}であり、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]Tは式(125)で表される(正確には、式(125)のθをθi、DをDgとしたものである)。fi,g(ω)は、位置(θi,Dg)に関する周波数ωでの通過特性を表す。
式(137)を行列形式で表現すると、例えば式(138)のように表すことができる。ただし、A→(ω,θs,Dh)=[a→(ω,θs,Dh),a→(ω,θN1,DG1),…,a→(ω,θNB,DGB)]である。
但し、
(1)位置(θs,Dh)の音声の全帯域通過、および(2)予め判明しているB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs,h(ω)=1.0、fi,g(ω)=0.0((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})とされるべきである。これは、位置(θs,Dh)の音声の全帯域完全通過と、予め判明しているB個の抑圧点(θN1,DG1),(θN2,DG2),…,(θNB,DGB)の音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs,h(ω)の絶対値を1.0に近い値、fi,g(ω)((i,g)∈{(N1,G1),(N2,G2),…,(NB,GB)})の絶対値を0.0に近い値に設定すればよい。もちろん、fi,g_i(ω)とfi,g_j(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式(138)の下での式(107)の最適解であるフィルタW→(ω,θs,Dh)は式(139)で与えられる(下記参考文献3参照)。ただし、空間相関行列Q(ω)として式(110c)で表されるものを用いたが、式(110a)ないし式(110b)で表される空間相関行列を用いてもよい。
〈4〉遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波到来すると仮定すると、フィルタW→(ω,θs,Dh)は式(140)で与えられる。つまり、フィルタW→(ω,θs,Dh)は伝達特性a→(ω,θs,Dh)を正規化して得られる。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
〈5〉最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω,Dh)内に目的方向の音声の空間情報を含めないことによって、雑音を抑圧する自由度が向上し、雑音のパワーをよりいっそう抑圧できる。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω,Dh)を、式(110a)の右辺第二項、つまり、式(110d)で表す。フィルタW→(ω,θs,Dh)は式(109)や式(139)で与えられる。このとき、式(109)や式(139)に含まれる空間相関行列は、式(110d)で表される空間相関行列である。
あるいは、空間相関行列Q(ω)内に位置(θs,Dh)の音声の空間情報を含めないようにしてもよい。この場合、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(110e)で表す。フィルタW→(ω,θs,Dh)は式(109)や式(139)で与えられる。このとき、式(109)や式(139)に含まれる空間相関行列は、式(110e)で表される空間相関行列である。
〈6〉AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。
ここで説明するフィルタ設計法は、AMNOR法に距離の概念を導入したフィルタ設計法としてAMNOR法と同様に考えることができる。すなわち、位置(θs,Dh)の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、位置(θs,Dh)の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]位置(θs,Dh)の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば位置(θs,Dh)の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める。
ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW→(ω,θs,Dh)は式(141)で与えられる(下記参考文献4参照)。なお、Rss(ω)は式(126)、Rnn(ω)は式(127)で表される。伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]Tは式(125)で表される(正確には、式(125)のθをθs、DをDhとしたものである)。
Psは、仮想目的信号のレベルを重み付けする係数であり、仮想目的信号レベルと呼称される。仮想目的信号レベルPsは、周波数に依存しない定数である。仮想目的信号レベルPsは、経験則に基づいて決められてもよく、あるいは、位置(θs,Dh)の音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW→(ω,θs,Dh)の位置(θs,Dh)の音声の周波数応答F(ω)は、式(142)で表される。式(141)で与えられるフィルタW→(ω,θs,Dh)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(143)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる仮想目的信号レベルPsを求めることができる。
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述の周波数領域信号X→(ω,k)を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は位置(θs,Dh)の音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は位置(θs,Dh)の音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号X→(ω,k)=[X1[(ω,k),…,XM(ω,k)]Tを用いた空間相関行列Q(ω)は式(144)で表される。演算子E[・]は、統計的平均操作を表す演算子である。マイクロホンアレー(M個のマイクロホンを含む)で受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)を用いて式(145)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(144)ないし式(145)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(144a)や式(145a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
式(144a)や式(145a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs,Dh)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,Dh,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(109)、式(132)、式(133)、式(136)、式(139)、式(141)のいずれかで表されるフィルタW→(ω,θs,Dh)は、表記上、式(109m)、式(132m)、式(133m)、式(136m)、式(139m)、式(141m)に修正される。
《音声スポット強調技術の実施形態1》
本発明の音声スポット強調技術の実施形態1の機能構成および処理フローを図19と図20に示す。この実施形態1の音声スポット強調装置3は、AD変換部610、フレーム生成部620、周波数領域変換部630、フィルタ適用部640、時間領域変換部650、フィルタ設計部660、記憶部690を含む。
[ステップS21]
予め、フィルタ設計部660が音声強調の対象となりえる離散的な位置(θi,Dg)ごとに、周波数ごとのフィルタW→(ω,θi,Dg)を計算しておく。音声強調の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)、離散的な距離の総数をG(Gは1以上の予め定められた整数である)とすると、W→(ω,θ1,D1),…,W→(ω,θi,D1),…,W→(ω,θI,D1),W→(ω,θ1,D2),…,W→(ω,θi,D2),…,W→(ω,θI,D2),…,W→(ω,θ1,Dg),…,W→(ω,θi,Dg),…,W→(ω,θI,Dg),…,W→(ω,θ1,DG),…,W→(ω,θi,DG),…,W→(ω,θI,DG)(1≦i≦I,1≦g≦G,ω∈Ω;iとgは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)=[a1(ω,θi,Dg),…,aM(ω,θi,Dg)]T(1≦i≦I,1≦g≦G,ω∈Ω)を求める必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθi、DをDgとしたものである)。なお、上述の〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi,Dg)(1≦i≦I,1≦g≦G,ω∈Ω)を求める際の位置のインデックス(i,g)は、少なくともB個の抑圧点の方向のインデックス(N1,G1),(N2,G2),…,(NB,GB)の全てを亘ることが望ましい。換言すれば、B個のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定され、B個のインデックスG1,G2,…,GBは、1以上G以下のいずれかの異なる整数として設定される。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
ステアリングベクトルの計算には、例えば式(125a)、式(125b)、式(126a)、式(126b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(125)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi,Dg)を用いて、例えば式(109)、式(109a)、式(132)、式(133)、式(136)、式(139)、式(140)、式(141)のいずれかによってW→(ω,θi,Dg)(1≦i≦I,1≦g≦G)を求める。なお、上述の〈5〉最尤法によるフィルタ設計法で説明した場合を除き、式(109)または式(109a)または式(133)または式(136)または式(139)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(110b)で計算できる。上述の〈5〉最尤法によるフィルタ設計法に拠って、式(109)または式(109a)または式(133)または式(136)または式(139)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(110c)あるいは式(110d)で計算できる。式(132)を用いる場合には空間相関行列Rnn(ω)は式(130)で計算できる。I×G×|Ω|個のフィルタW→(ω,θi,Dg)(1≦i≦I,1≦g≦G,ω∈Ω)は記憶部690に記憶される。|Ω|は集合Ωの要素数を表す。
[ステップS22]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。
M個のマイクロホンの並べ方に制限は無い。ただし、2次元または3次元的にM個のマイクロホンを配置することによって、音声強調する方向の不確定性がなくなるという利点がある。つまり、M個のマイクロホンを水平方向に直線状に並べたときに例えば正面方向から到来する音声と真上から到来する音声との区別ができなくなるという問題を、マイクロホンを平面的ないし立体的に並べることで防ぐことができる。また、収音方向として設定できる方向を広くとるためには、各マイクロホンの指向性は、収音方向である目的方向θsになり得る方向にある程度の音圧で音声を収音可能な指向性を持っていたほうがよい。したがって、無指向性マイクロホンや単一指向性マイクロホンといった指向性が比較的緩やかなマイクロホンが好適である。
[ステップS23]
AD変換部610が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS24]
フレーム生成部620は、AD変換部610が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm(k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS25]
周波数領域変換部630は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS26]
フィルタ適用部640は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を適用して、出力信号Y(ω,k,θs,Dh)を出力する(式(146)参照)。位置(θs,Dh)のインデックスs,hは、s∈{1,…,I},h∈{1,…,G}であり、フィルタW→(ω,θs,Dh)は記憶部690に記憶されているので、例えば、ステップS26の処理の都度、フィルタ適用部640は、強調したい位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)を記憶部690から取得すればよい。方向θsのインデックスsが集合{1,…,I}に属さない場合あるいは距離Dhのインデックスhが集合{1,…,G}に属さない場合、つまり、位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)がステップS21の処理で計算されていない場合、臨時に位置(θs,Dh)に対応するフィルタW→(ω,θs,Dh)をフィルタ設計部660に計算させてもよいし、あるいは方向θsに近い方向θs′や距離Dhに近い距離Dh′に対応するフィルタW→(ω,θs′,Dh)やW→(ω,θs,Dh′)やW→(ω,θs′,Dh′)を用いてよい。
[ステップS27]
時間領域変換部650は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs,Dh)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して位置(θs,Dh)からの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS25の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
ここでは、ステップS21の処理で予めフィルタW→(ω,θi,Dg)を計算しておく実施形態1を説明したが、音声スポット強調装置3の計算処理能力などに応じて、位置(θs,Dh)が定まってからフィルタ設計部660が周波数ごとのフィルタW→(ω,θs,Dh)を計算する実施形態を採用することもできる。
《音声スポット強調技術の実施形態2》
本発明の音声スポット強調技術の実施形態2の機能構成および処理フローを図21と図22に示す。この実施形態2の音声スポット強調装置4は、AD変換部610、フレーム生成部620、周波数領域変換部630、フィルタ適用部640、時間領域変換部650、フィルタ計算部661、記憶部690を含む。
[ステップS31]
マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mを用いて収音する。Mは2以上の整数である。M個のマイクロホンの並べ方等については実施形態1で説明したとおりである。
[ステップS32]
AD変換部610が、M個のマイクロホン200−1,…,200−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]Tへ変換する。tは離散時間のインデックスを表す。
[ステップS33]
フレーム生成部620は、AD変換部610が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]Tを入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]Tを出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k−1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS34]
周波数領域変換部630は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS35]
フィルタ計算部661が、現在の第kフレームで用いられる、位置(θs,Dh)に対応する周波数毎のフィルタW→(ω,θs,Dh,k)(ω∈Ω;Ωは周波数ωの集合)を計算する。
このためには、伝達特性a→(ω,θs,Dh)=[a1(ω,θs,Dh),…,aM(ω,θs,Dh)]T(ω∈Ω)を用意する必要があるが、これは、マイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθs、DをDhとしたものである)。なお、上述の〈3〉一つ以上の抑圧点を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj,DGj)(1≦j≦B,ω∈Ω)も求める必要があるが、これらはマイクロホンアレーにおけるマイクロホンの配置、反射物である例えば反射板、床、壁、天井のマイクロホンアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との到来時間差、反射物の音の反射率などの環境情報を基に式(125)によって具体的に計算できる(正確には、式(125)のθをθNj、DをDGjとしたものである)。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。
ステアリングベクトルの計算には、例えば式(125a)、式(125b)、式(126a)、式(126b)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(125)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部661は、伝達特性a→(ω,θs,Dh)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj,DGj)(1≦j≦B,ω∈Ω)を用いて、フィルタW→(ω,θs,Dh,k)(ω∈Ω)を、式(109m)、式(132m)、式(133m)、式(136m)、式(139m)、式(141m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(144a)や式(145a)で計算できる。空間相関行列Q(ω)の計算には、記憶部690に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k−i)(i=0,1,…,ζ−1)が用いられる。
[ステップS36]
フィルタ適用部640は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに、強調したい目的方向θsに対応するフィルタW→(ω,θs,Dh,k)を適用して、出力信号Y(ω,k,θs,Dh)を出力する(式(147)参照)。
[ステップS37]
時間領域変換部650は、第kフレームの各周波数ω∈Ωの出力信号Y(ω,k,θs,Dh)を時間領域に変換して第kフレームのフレーム単位時間領域信号y(k)を得て、さらに、得られたフレーム単位時間領域信号y(k)をフレーム番号のインデックスの順番に連結して位置(θs,Dh)からの音声が強調された時間領域信号y(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS34の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
なお、音声スポット強調技術に拠っても、方向θiに対応するフィルタW→(ω,θi)をΣg=1 GβgW→(ω,θi,Dg)によって求めることができる。βg[1≦g≦G]は重み係数であり、Σg=1 Gβg=1を満たすことが好ましく、さらに、0≦βg[1≦g≦G]であることが好ましい。なお、フィルタW→(ω,θi,Dg)は実環境下における実測で得られた伝達特性を用いて表されたフィルタであってもよい。
[音声スポット強調技術の実験例]
本発明の音声スポット強調技術の実施形態1(単一拘束条件の最小分散無歪応答法)による音声のスポット強調についての実験結果を説明する。実験環境は図9に示す環境と同じとした。図9に示すように、24本のマイクロホンを直線的に配置し、この線形マイクロホンアレーに含まれるマイクロホンの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うマイクロホンの間隔を4cm、反射板300の反射率αを0.8とした。音源位置は方向θsを45度、距離Dhを1.13mに設定した。実験結果として、図23Aに反射板300を設置しなかった場合の最小分散ビームフォーマの指向性(2次元領域)、図23Bに反射板300を設置した場合の最小分散ビームフォーマの指向性(2次元領域)を示す。音圧[単位:dB]は濃淡表示されており、白い領域ほど高い音圧で収音できていることを表している。従って、理想的には、方向45度、距離1.13mの位置のみ白くなっており、他の領域が黒に近くなるほど、所望の音声のスポット強調が実現できているといえる。図23Aと図23Bに示す実験結果の比較から、反射板300を設置しなかった場合は所望の音声のスポット強調が十分にできておらず、反射板300を設置した場合は所望の音声のスポット強調ができていることがわかる。
<応用例>
音声スポット強調技術は、画像に譬えて表現すれば、不鮮明な惚けた画像から鮮明な画像を生成することに対応し、音場の情報をより詳細に得ることに役立つ。以下、本発明の音声スポット強調技術が有用なサービス例について述べる。
第1の例として、映像と組み合わせたコンテンツ制作が挙げられる。本発明の音声スポット強調技術の実施形態を利用すると、雑音(目的外音声等)が多い雑音環境でも遠方の目的音声をクリアに強調することができるので、例えば、フィールド外から撮影したサッカー選手がドリブルするズームイン映像に対応した特定エリアの音声付けを行うことができる。
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。狭い部屋で会議する場合には、従来技術でも、数本のマイクロホンを用いて発言者の音声を強調することがそれなりに可能であったが、広い会議室(例えばマイクロホンから5m以上離れた位置に話者が存在するような広い空間)では、クリアに遠方話者の音声を強調することが困難であり、このため、各発言者の前にマイクロホンを設置する必要があった。しかし、本発明の音声スポット強調技術の実施形態を利用すると、特定エリアの遠方の特定エリアの音をクリアに強調することが可能であるため、各発言者の前にマイクロホンを設置することなく、広い会議室に対応したTV会議システムを構築することが可能となる。また、特定エリアの音声を強調可能であるから、マイクロホンの設置位置に対する会議参加者の位置についての制限が緩和されることにもなる。
<音声強調技術の実施構成>
次に、本発明の音声強調技術の実施構成の例を図24~図28を参照して説明する。これらの例ではマイクロホンアレーの構成は線形マイクロホンアレーとして図示されているが、線形マイクロホンアレーの構成に限定されない。
図24A,図24B,図24Cに示す実施構成例では、線形マイクロホンアレーを構成するM個のマイクロホン200−1,…,200−Mは矩形平板状の支持部材400に固定されており、この状態で各マイクロホンの収音孔は支持部材400の或る一つの平面(以下、開口面と呼ぶ)に配置されている(図示の例ではM=13)。なお、各マイクロホン200−1,…,200−Mに接続される配線は図示していない。そして、各マイクロホン200−1,…,200−Mの配列方向が矩形平板状の反射板300の法線となるように反射板300が支持部材400の端部に固定されている。支持部材400の開口面は、反射板300と90度をなす面である。図24A,図24B,図24Cに示す実施構成例では、反射板300の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材400の性状については特に限定はなく各マイクロホン200−1,…,200−Mをしっかりと固定できる剛性を持っていれば十分である。
図25Aに示す実施構成例では、支持部材400の端部に軸部410が固定されており、反射板300は軸部410に回動自在に取り付けられている。この実施構成例によると、マイクロホンアレーに対する反射板300の幾何学的配置を変更することが可能である。
図25Bに示す実施構成例では、図24A,図24B,図24Cに示す実施構成例において、さらに二つの反射板310,320が追加されている。追加された二つの反射板310,320の性状は反射板300の性状と同じでも異なってもよい。また、反射板310の性状は反射板320の性状と同じでも異なってもよい。以下、反射板300を固定反射板300と呼称する。固定反射板300の端部(支持部材400に固定されている固定反射板300の端部とは反対側の端部)に軸部510が固定されており、反射板310は軸部510に回動自在に取り付けられている。また、支持部材400の端部(固定反射板300が固定されている支持部材400の端部とは反対側の端部)に軸部520が固定されており、反射板320は軸部520に回動自在に取り付けられている。以下、反射板310,320を可動反射板310,320と呼称する。図25Bに示す実施構成例によると、例えば固定反射板300の反射面と可動反射板310の反射面が一致するように可動反射板310の位置を設定すると、固定反射板300と可動反射板310の組み合わせを、固定反射板300よりも大きい反射面を持つ反射板として機能させることができる。また、図25Bに示す実施構成例によると、可動反射板310,320を適切な位置に設定することによって、例えば図26に示すように支持部材400、固定反射板300、可動反射板310,320で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図25Bに示す実施構成例の場合、支持部材400は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。
図27A,図27B,図27Cに示す実施構成例は、反射板300にもマイクロホンアレー(図示の例では線形マイクロホンアレー)が設けられていることが図24A,図24B,図24Cに示す実施構成例と異なる。図27A,図27B,図27Cに示す実施構成例では、支持部材400に固定されたM個のマイクロホンの配列方向と反射板300に固定されたM’個のマイクロホンの配列方向が同一平面上にあるが、このような配置構成に限定されない(図示の例ではM’=13)。例えば、支持部材400に固定されたM個のマイクロホンの配列方向と直交するような配列方向を持つように反射板300にM’個のマイクロホンが固定されていてもよい。図27A,図27B,図27Cに示す実施構成例によると、支持部材400に設けられたマイクロホンアレーと反射板300(反射板300に設けられたマイクロホンアレーを使用せず、反射板300を反射物として使用する)との組み合わせで本発明の音声強調技術を実施したり、支持部材400(支持部材400に設けられたマイクロホンアレーを使用せず、支持部材400を反射物として使用する)と反射板300に設けられたマイクロホンアレーとの組み合わせで本発明の音声強調技術を実施したりすることができる。
また、図27A,図27B,図27Cに示す実施構成例の拡張実施構成例として、図25Bに示す実施構成例と同様に、図27A,図27B,図27Cに示す実施構成例においてさらに二つの反射板310,320を追加した構成としてもよい(図28参照)。また、図示していないが、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けてもよい。可動反射板310に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔は、例えば、支持部材400の開口面と対向可能な可動反射板310の平面(開口面)に配置される。可動反射板320に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔は、例えば、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面(開口面)に配置される。このような実施構成例であっても図25Bに示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材400の開口面と可動反射板320の開口面が一致するように可動反射板320の位置を設定すると、支持部材400と可動反射板320の組み合わせを、支持部材400に設けられたマイクロホンアレーよりも大きいマイクロホンアレーとして機能させることができる。図28に示す実施構成例においても、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けた実施構成例においても、図26に示す実施構成例と同様の使用形態が可能である。また、図28に示す実施構成例においても、可動反射板310,320の少なくとも一つにマイクロホンアレーを設けた実施構成例においても、例えば、可動反射板310,320を通常の反射物として用い、支持部材400に設けられたマイクロホンアレーと固定反射板300に設けられたマイクロホンアレーとを一体のマイクロホンアレーとして用いる使用形態も可能である。この場合、(M+M’)個のマイクロホンで構成されたマイクロホンアレーと二つの反射物を使用する実施構成例と等価となる。
可動反射板310にマイクロホンアレーを設ける場合、可動反射板310に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔が、支持部材400の開口面と対向可能な可動反射板310の平面の反対側の平面(開口面)に配置されるように、可動反射板310にマイクロホンアレーを設けてもよい。また、可動反射板320にマイクロホンアレーを設ける場合、可動反射板320に設けられるマイクロホンアレーを構成する各マイクロホンの収音孔が、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面の反対側の平面(開口面)に配置されるように、可動反射板320にマイクロホンアレーを設けてもよい。もちろん、可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にマイクロホンアレーを設けてもよい。
[A]マイクロホンアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面とした場合、図24A,図24B,図24Cに示す使用形態では、視線方向に対して可動反射板310および/または可動反射板320の開口面が見えないように可動反射板310および/または可動反射板320が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板310および/または可動反射板320に設けられたマイクロホンアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。
[B]マイクロホンアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図24A,図24B,図24Cに示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。
可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にマイクロホンアレーを設けた場合には、[A]と[B]の双方の効果を得ることも可能である。
<参考文献>
(参考文献1)Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001.pp.66−73,248−255
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35−90
(参考文献3)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理−音源の定位・追跡と分離−」、初版、株式会社コロナ社、pp.88−89,259−261
(参考文献4)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23−30
<音声強調装置のハードウェア構成例>
上述の実施形態に関わる音声強調装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声強調装置に、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
音声強調装置の外部記憶装置には、狭い範囲の音声を強調するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
音声強調装置の記憶部には、空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、音声強調の対象となる方向または位置に対応するフィルタを周波数ごとに周波数領域信号に適用して出力信号を得るためのプログラムと、出力信号を時間領域信号に変換するためのプログラムが記憶されている。
音声強調装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで音声強調が実現される。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ(音声強調装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (29)
- Mを2以上の整数として、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、方向と距離で定まる所望の位置の音声を強調するフィルタを周波数ごとに適用して、当該位置の音声が強調された周波数領域の出力信号を得る音声強調方法であって、
音源位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)からの音声の各マイクロホンへの伝達特性ai,gを用いて、音声強調の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用ステップと
を有し、
各上記伝達特性ai,gは、上記方向iと上記距離gで定まる位置からの音声がM個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調方法。 - 請求項1に記載の音声強調方法において、
各上記伝達特性ai,gは、上記直接音のステアリングベクトルと、反射による音の減衰および上記直接音に対する到来時間差が補正された一つ以上の上記反射音の各ステアリングベクトルとの和である
ことを特徴とする音声強調方法。 - 請求項1に記載の音声強調方法において、
各上記伝達特性ai,gは、実環境下において実測で得られたものである
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、M個の上記マイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音源位置として想定される上記一つまたは複数の位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、(1)音声強調の対象となる上記位置の音声の全帯域通過、および(2)一つ以上の抑圧点の音声の全帯域抑制、の条件の下、音声強調の対象となる上記位置と各上記抑圧点以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置i=s,g=hの伝達特性as,hを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置以外の各位置に対応する上記伝達特性ai,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記位置の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる上記位置以外の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項1から請求項3のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音源位置として想定される一つまたは複数の位置に含まれる各位置に対応する上記伝達特性ai,gによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - Mを2以上の整数として、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、方向と距離で定まる所望の位置の音声を強調するフィルタを周波数ごとに適用して、当該位置の音声が強調された周波数領域の出力信号を得る音声強調装置であって、
音源位置として想定される一つまたは複数の位置に含まれる各位置(ただし、各位置を識別するための方向をi、距離をgとする)からの音声の各マイクロホンへの伝達特性ai,gを用いて、音声強調の対象となる位置について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用部と
を含み、
各上記伝達特性ai,gは、上記方向iと上記距離gで定まる位置からの音声がM個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調装置。 - 請求項13に記載の音声強調装置において、
M個の上記マイクロホンに対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声強調装置。 - Mを2以上の整数として、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、所望の方向の音声を強調するフィルタを周波数ごとに適用して、当該方向の音声が強調された周波数領域の出力信号を得る音声強調方法であって、
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホンへの伝達特性aφを用いて、音声強調の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用ステップと
を有し、
各上記伝達特性aφは、上記方向φの音声がM個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調方法。 - 請求項15に記載の音声強調方法において、
各上記伝達特性aφは、上記直接音のステアリングベクトルと、反射による音の減衰および上記直接音に対する到来時間差が補正された一つ以上の上記反射音の各ステアリングベクトルとの和である
ことを特徴とする音声強調方法。 - 請求項15に記載の音声強調方法において、
各上記伝達特性aφは、実環境下において実測で得られたものである
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向以外の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、M個の上記マイクロホンのうち一つのマイクロホンに対するフィルタ係数を一定値に固定した状態で音声の到来方向として想定される上記一つまたは複数の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、(1)音声強調の対象となる上記方向の音声の全帯域通過、および(2)一つ以上の死角の音声の全帯域抑制、の条件の下、音声強調の対象となる上記方向と各上記死角とを除く方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向φ=sの伝達特性asを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向以外の各方向に対応する上記伝達特性aφによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、音声強調の対象となる上記方向の音声の劣化量を所定量以下とする条件の下、音声強調の対象となる上記方向以外の方向の音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - 請求項15から請求項17のいずれかに記載の音声強調方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする音声強調方法。 - Mを2以上の整数として、M個のマイクロホンで音声を収音して得られるM個の収音信号がそれぞれ周波数領域に変換された周波数領域信号に、所望の方向の音声を強調するフィルタを周波数ごとに適用して、当該方向の音声が強調された周波数領域の出力信号を得る音声強調装置であって、
音声の到来方向として想定される一つまたは複数の方向に含まれる各方向φの音声の各マイクロホンへの伝達特性aφを用いて、音声強調の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して上記出力信号を得るフィルタ適用部と
を含み、
各上記伝達特性aφは、上記方向φの音声がM個の上記マイクロホンに直接届く直接音の伝達特性と当該音声が反射物で反射してM個の上記マイクロホンに届く一つ以上の反射音の各伝達特性との和で表される
ことを特徴とする音声強調装置。 - 請求項26に記載の音声強調装置において、
M個の上記マイクロホンに対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする音声強調装置。 - コンピュータに、請求項1または請求項15に記載の音声強調方法の処理を実行させるためのプログラム。
- 請求項1または請求項15に記載の音声強調方法の各ステップをコンピュータに実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/996,302 US9191738B2 (en) | 2010-12-21 | 2011-12-19 | Sound enhancement method, device, program and recording medium |
ES11852100.4T ES2670870T3 (es) | 2010-12-21 | 2011-12-19 | Método de realce de sonido, dispositivo, programa y medio de grabación |
EP11852100.4A EP2642768B1 (en) | 2010-12-21 | 2011-12-19 | Sound enhancement method, device, program, and recording medium |
CN201180061060.9A CN103282961B (zh) | 2010-12-21 | 2011-12-19 | 语音增强方法以及语音增强装置 |
JP2012549909A JP5486694B2 (ja) | 2010-12-21 | 2011-12-19 | 音声強調方法、装置、プログラム、記録媒体 |
Applications Claiming Priority (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010285175 | 2010-12-21 | ||
JP2010-285175 | 2010-12-21 | ||
JP2010-285181 | 2010-12-21 | ||
JP2010285181 | 2010-12-21 | ||
JP2011-025784 | 2011-02-09 | ||
JP2011025784 | 2011-02-09 | ||
JP2011190807 | 2011-09-01 | ||
JP2011190768 | 2011-09-01 | ||
JP2011-190768 | 2011-09-01 | ||
JP2011-190807 | 2011-09-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2012086834A1 true WO2012086834A1 (ja) | 2012-06-28 |
Family
ID=46314097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2011/079978 WO2012086834A1 (ja) | 2010-12-21 | 2011-12-19 | 音声強調方法、装置、プログラム、記録媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9191738B2 (ja) |
EP (1) | EP2642768B1 (ja) |
JP (1) | JP5486694B2 (ja) |
CN (1) | CN103282961B (ja) |
ES (1) | ES2670870T3 (ja) |
WO (1) | WO2012086834A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014090353A (ja) * | 2012-10-31 | 2014-05-15 | Nippon Telegr & Teleph Corp <Ntt> | 音源位置推定装置 |
JP2015198413A (ja) * | 2014-04-03 | 2015-11-09 | 日本電信電話株式会社 | 収音システム及び放音システム |
JP2016082414A (ja) * | 2014-10-17 | 2016-05-16 | 日本電信電話株式会社 | 収音装置 |
JP2017505461A (ja) * | 2014-04-30 | 2017-02-16 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム |
KR20190094857A (ko) * | 2018-02-06 | 2019-08-14 | 주식회사 위스타 | 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 |
US10708702B2 (en) | 2018-08-29 | 2020-07-07 | Panasonic Intellectual Property Corporation Of America | Signal processing method and signal processing device |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9955277B1 (en) | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
US10175335B1 (en) | 2012-09-26 | 2019-01-08 | Foundation For Research And Technology-Hellas (Forth) | Direction of arrival (DOA) estimation apparatuses, methods, and systems |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US10149048B1 (en) | 2012-09-26 | 2018-12-04 | Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) | Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems |
US20160210957A1 (en) | 2015-01-16 | 2016-07-21 | Foundation For Research And Technology - Hellas (Forth) | Foreground Signal Suppression Apparatuses, Methods, and Systems |
US10136239B1 (en) | 2012-09-26 | 2018-11-20 | Foundation For Research And Technology—Hellas (F.O.R.T.H.) | Capturing and reproducing spatial sound apparatuses, methods, and systems |
US9554203B1 (en) | 2012-09-26 | 2017-01-24 | Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source characterization apparatuses, methods and systems |
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
JP6411780B2 (ja) * | 2014-06-09 | 2018-10-24 | ローム株式会社 | オーディオ信号処理回路、その方法、それを用いた電子機器 |
US10127901B2 (en) * | 2014-06-13 | 2018-11-13 | Microsoft Technology Licensing, Llc | Hyper-structure recurrent neural networks for text-to-speech |
TWI584657B (zh) * | 2014-08-20 | 2017-05-21 | 國立清華大學 | 一種立體聲場錄音以及重建的方法 |
US20170287499A1 (en) * | 2014-09-05 | 2017-10-05 | Thomson Licensing | Method and apparatus for enhancing sound sources |
EP3220659B1 (en) * | 2014-11-11 | 2021-06-23 | Sony Corporation | Sound processing device, sound processing method, and program |
WO2016091994A1 (en) * | 2014-12-11 | 2016-06-16 | Ubercord Gmbh | Method and installation for processing a sequence of signals for polyphonic note recognition |
US9525934B2 (en) * | 2014-12-31 | 2016-12-20 | Stmicroelectronics Asia Pacific Pte Ltd. | Steering vector estimation for minimum variance distortionless response (MVDR) beamforming circuits, systems, and methods |
TWI576834B (zh) * | 2015-03-02 | 2017-04-01 | 聯詠科技股份有限公司 | 聲頻訊號的雜訊偵測方法與裝置 |
WO2016178231A1 (en) * | 2015-05-06 | 2016-11-10 | Bakish Idan | Method and system for acoustic source enhancement using acoustic sensor array |
US9407989B1 (en) | 2015-06-30 | 2016-08-02 | Arthur Woodrow | Closed audio circuit |
JP6131989B2 (ja) * | 2015-07-07 | 2017-05-24 | 沖電気工業株式会社 | 収音装置、プログラム及び方法 |
JP2017102085A (ja) * | 2015-12-04 | 2017-06-08 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
TWI596950B (zh) * | 2016-02-03 | 2017-08-21 | 美律實業股份有限公司 | 指向性錄音模組 |
US9881619B2 (en) * | 2016-03-25 | 2018-01-30 | Qualcomm Incorporated | Audio processing for an acoustical environment |
JP6187626B1 (ja) * | 2016-03-29 | 2017-08-30 | 沖電気工業株式会社 | 収音装置及びプログラム |
US10074012B2 (en) | 2016-06-17 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Sound and video object tracking |
US10097920B2 (en) * | 2017-01-13 | 2018-10-09 | Bose Corporation | Capturing wide-band audio using microphone arrays and passive directional acoustic elements |
CN107017003B (zh) * | 2017-06-02 | 2020-07-10 | 厦门大学 | 一种麦克风阵列远场语音增强装置 |
GB2565097B (en) | 2017-08-01 | 2022-02-23 | Xmos Ltd | Processing echoes received at a directional microphone unit |
WO2020031594A1 (ja) * | 2018-08-06 | 2020-02-13 | 国立大学法人山梨大学 | 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム |
WO2020064089A1 (en) * | 2018-09-25 | 2020-04-02 | Huawei Technologies Co., Ltd. | Determining a room response of a desired source in a reverberant environment |
CN110503970B (zh) | 2018-11-23 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN110211601B (zh) * | 2019-05-21 | 2020-05-08 | 出门问问信息科技有限公司 | 一种空域滤波器参数矩阵的获取方法、装置及系统 |
CN110689900B (zh) * | 2019-09-29 | 2022-05-13 | 北京地平线机器人技术研发有限公司 | 信号增强方法和装置、计算机可读存储介质、电子设备 |
US11082763B2 (en) * | 2019-12-18 | 2021-08-03 | The United States Of America, As Represented By The Secretary Of The Navy | Handheld acoustic hailing and disruption systems and methods |
DE102020120426B3 (de) | 2020-08-03 | 2021-09-30 | Wincor Nixdorf International Gmbh | Selbstbedienung-Terminal und Verfahren |
CN112599126B (zh) * | 2020-12-03 | 2022-05-27 | 海信视像科技股份有限公司 | 一种智能设备的唤醒方法、智能设备及计算设备 |
EP4292086A1 (en) * | 2021-02-11 | 2023-12-20 | Nuance Communications, Inc. | Multi-channel speech compression system and method |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
CN113709653B (zh) * | 2021-08-25 | 2022-10-18 | 歌尔科技有限公司 | 定向定位听音方法、听力装置及介质 |
CN115081241A (zh) * | 2022-07-18 | 2022-09-20 | 安徽理工大学 | 一种基于可靠度下多测点实测值的噪声源声功率反推方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5972295A (ja) * | 1982-10-18 | 1984-04-24 | Nippon Telegr & Teleph Corp <Ntt> | 多点受音装置 |
JPH0327698A (ja) * | 1989-03-10 | 1991-02-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号検出方法 |
JP2004279845A (ja) * | 2003-03-17 | 2004-10-07 | Univ Waseda | 信号分離方法およびその装置 |
JP2009036810A (ja) * | 2007-07-31 | 2009-02-19 | National Institute Of Information & Communication Technology | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4536887A (en) * | 1982-10-18 | 1985-08-20 | Nippon Telegraph & Telephone Public Corporation | Microphone-array apparatus and method for extracting desired signal |
US5208864A (en) * | 1989-03-10 | 1993-05-04 | Nippon Telegraph & Telephone Corporation | Method of detecting acoustic signal |
US6473733B1 (en) * | 1999-12-01 | 2002-10-29 | Research In Motion Limited | Signal enhancement for voice coding |
US6577966B2 (en) * | 2000-06-21 | 2003-06-10 | Siemens Corporate Research, Inc. | Optimal ratio estimator for multisensor systems |
JP4815661B2 (ja) * | 2000-08-24 | 2011-11-16 | ソニー株式会社 | 信号処理装置及び信号処理方法 |
US6738481B2 (en) * | 2001-01-10 | 2004-05-18 | Ericsson Inc. | Noise reduction apparatus and method |
AU4628801A (en) * | 2001-04-18 | 2001-07-24 | Phonak Ag | A method for analyzing an acoustical environment and a system to do so |
US7502479B2 (en) * | 2001-04-18 | 2009-03-10 | Phonak Ag | Method for analyzing an acoustical environment and a system to do so |
CA2354808A1 (en) * | 2001-08-07 | 2003-02-07 | King Tam | Sub-band adaptive signal processing in an oversampled filterbank |
CA2354858A1 (en) * | 2001-08-08 | 2003-02-08 | Dspfactory Ltd. | Subband directional audio signal processing using an oversampled filterbank |
KR100959983B1 (ko) * | 2005-08-11 | 2010-05-27 | 아사히 가세이 가부시키가이샤 | 음원 분리 장치, 음성 인식 장치, 휴대 전화기, 음원 분리방법, 및, 프로그램 |
CN1809105B (zh) * | 2006-01-13 | 2010-05-12 | 北京中星微电子有限公司 | 适用于小型移动通信设备的双麦克语音增强方法及系统 |
US8363846B1 (en) * | 2007-03-09 | 2013-01-29 | National Semiconductor Corporation | Frequency domain signal processor for close talking differential microphone array |
JP4455614B2 (ja) * | 2007-06-13 | 2010-04-21 | 株式会社東芝 | 音響信号処理方法及び装置 |
CN101192411B (zh) * | 2007-12-27 | 2010-06-02 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
KR101475864B1 (ko) * | 2008-11-13 | 2014-12-23 | 삼성전자 주식회사 | 잡음 제거 장치 및 잡음 제거 방법 |
-
2011
- 2011-12-19 EP EP11852100.4A patent/EP2642768B1/en active Active
- 2011-12-19 CN CN201180061060.9A patent/CN103282961B/zh active Active
- 2011-12-19 ES ES11852100.4T patent/ES2670870T3/es active Active
- 2011-12-19 WO PCT/JP2011/079978 patent/WO2012086834A1/ja active Application Filing
- 2011-12-19 JP JP2012549909A patent/JP5486694B2/ja active Active
- 2011-12-19 US US13/996,302 patent/US9191738B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5972295A (ja) * | 1982-10-18 | 1984-04-24 | Nippon Telegr & Teleph Corp <Ntt> | 多点受音装置 |
JPH0327698A (ja) * | 1989-03-10 | 1991-02-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号検出方法 |
JP2004279845A (ja) * | 2003-03-17 | 2004-10-07 | Univ Waseda | 信号分離方法およびその装置 |
JP2009036810A (ja) * | 2007-07-31 | 2009-02-19 | National Institute Of Information & Communication Technology | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 |
Non-Patent Citations (10)
Title |
---|
FUTOSHI ASANO: "Array signal processing - sound source localization/tracking and separation", CORONA PUBLISHING, pages: 88 - 89,259-2 |
HIROAKI NOMURA; YUTAKA KANEDA; JUNJI KOJIMA: "Microphone array for near sound field", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 53, no. 2, 1997, pages 110 - 116 |
J. L. FLANAGAN; A. C. SURENDRAN; E. E. JAN: "Spatially selective sound capture for speech and audio processing", SPEECH COMMUNICATION, vol. 13, no. 1-2, October 1993 (1993-10-01), pages 207 - 222, XP026743357, DOI: doi:10.1016/0167-6393(93)90072-S |
NOBUYOSHI KIKUMA: "Adaptive Antenna Technology", 2003, OHMSHA, pages: 35 - 90 |
O. L. FROST: "An algorithm for linearly constrained adaptive array processing", PROC. IEEE, vol. 60, 1972, pages 926 - 935 |
See also references of EP2642768A4 |
SIMON HAYKIN: "Adaptive Filter Theory", 2001, KAGAKU GIJUTSU SHUPPANN, pages: 66 - 73,248-2 |
YUSUKE HIOKA; KAZUNORI KOBAYASHI; KENICHI FURUYA; AKITOSHI KATAOKA: "Enhancement of Sound Sources Located within a Particular Area Using a Pair of Small Microphone arrays", IEICE TRANSACTIONS ON FUNDAMENTALS, vol. E91-A, no. 2, August 2004 (2004-08-01), pages 561 - 574 |
YUSUKE HIOKA; KENTA NIWA; SUMITAKA SAKAUCHI; KEN'ICHI FURUTA; YOICHI HANEDA: "A method of separating sound sources located at different distances based on direct-to-reverberation ratio", PROCEEDINGS OF AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN, September 2009 (2009-09-01), pages 633 - 634, XP008170441 |
YUTAKA KANEDA: "Directivity characteristics of adaptive microphone-array for noise reduction (AMNOR", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 44, no. 1, 1988, pages 23 - 30 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014090353A (ja) * | 2012-10-31 | 2014-05-15 | Nippon Telegr & Teleph Corp <Ntt> | 音源位置推定装置 |
JP2015198413A (ja) * | 2014-04-03 | 2015-11-09 | 日本電信電話株式会社 | 収音システム及び放音システム |
JP2017505461A (ja) * | 2014-04-30 | 2017-02-16 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム |
US9830926B2 (en) | 2014-04-30 | 2017-11-28 | Huawei Technologies Co., Ltd. | Signal processing apparatus, method and computer program for dereverberating a number of input audio signals |
JP2016082414A (ja) * | 2014-10-17 | 2016-05-16 | 日本電信電話株式会社 | 収音装置 |
KR20190094857A (ko) * | 2018-02-06 | 2019-08-14 | 주식회사 위스타 | 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 |
KR102053109B1 (ko) * | 2018-02-06 | 2019-12-06 | 주식회사 위스타 | 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 |
US10708702B2 (en) | 2018-08-29 | 2020-07-07 | Panasonic Intellectual Property Corporation Of America | Signal processing method and signal processing device |
Also Published As
Publication number | Publication date |
---|---|
JPWO2012086834A1 (ja) | 2015-02-23 |
US20130287225A1 (en) | 2013-10-31 |
EP2642768A1 (en) | 2013-09-25 |
ES2670870T3 (es) | 2018-06-01 |
CN103282961A (zh) | 2013-09-04 |
EP2642768B1 (en) | 2018-03-14 |
US9191738B2 (en) | 2015-11-17 |
CN103282961B (zh) | 2015-07-15 |
JP5486694B2 (ja) | 2014-05-07 |
EP2642768A4 (en) | 2014-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5486694B2 (ja) | 音声強調方法、装置、プログラム、記録媒体 | |
Teutsch et al. | Acoustic source detection and localization based on wavefield decomposition using circular microphone arrays | |
US9641929B2 (en) | Audio signal processing method and apparatus and differential beamforming method and apparatus | |
CN105981404B (zh) | 使用麦克风阵列的混响声的提取 | |
KR101555416B1 (ko) | 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 | |
JP5395822B2 (ja) | ズームマイク装置 | |
Poletti et al. | Sound reproduction systems using variable-directivity loudspeakers | |
JP5738218B2 (ja) | 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム | |
JP6117142B2 (ja) | 変換装置 | |
JP6182169B2 (ja) | 収音装置、その方法及びプログラム | |
Niwa et al. | Optimal microphone array observation for clear recording of distant sound sources | |
JP5486567B2 (ja) | 狭指向音声再生処理方法、装置、プログラム | |
JP5815489B2 (ja) | 音源別音声強調装置、方法、プログラム | |
Bountourakis et al. | Parametric spatial post-filtering utilising high-order circular harmonics with applications to underwater sound-field visualisation | |
JP5337189B2 (ja) | フィルタ設計における反射物の配置決定方法、装置、プログラム | |
Peled et al. | Objective performance analysis of spherical microphone arrays for speech enhancement in rooms | |
JP2013135373A (ja) | ズームマイク装置 | |
JP5486568B2 (ja) | 音声スポット再生処理方法、装置、プログラム | |
JP6063890B2 (ja) | 変換装置 | |
JP2020058085A (ja) | 収音装置 | |
CN115665606B (zh) | 基于四麦克风的收音方法和收音装置 | |
Papez et al. | Model of Surveillance System Based on Sound Tracking | |
JP2016100735A (ja) | フィルタ生成装置、収音装置、フィルタ生成方法及びプログラム | |
Yan et al. | Time-Domain Modal Beamforming for Spherical Arrays | |
Sanchez-Bote et al. | Audible noise suppression with a real-time broad-band superdirective microphone array |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 11852100 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2012549909 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2011852100 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13996302 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |