KR101451844B1 - Method for voice activity detection and communication device implementing the same - Google Patents
Method for voice activity detection and communication device implementing the same Download PDFInfo
- Publication number
- KR101451844B1 KR101451844B1 KR1020130032765A KR20130032765A KR101451844B1 KR 101451844 B1 KR101451844 B1 KR 101451844B1 KR 1020130032765 A KR1020130032765 A KR 1020130032765A KR 20130032765 A KR20130032765 A KR 20130032765A KR 101451844 B1 KR101451844 B1 KR 101451844B1
- Authority
- KR
- South Korea
- Prior art keywords
- microphone
- change amount
- voice activity
- communication device
- power input
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims abstract description 70
- 238000004891 communication Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 title description 7
- 230000008859 change Effects 0.000 claims abstract description 78
- 206010002953 Aphonia Diseases 0.000 claims abstract description 5
- 230000009467 reduction Effects 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
두 개의 마이크로폰을 사용하는 통신장치에서 소음제거를 위하여 음성활동을 감지하는 방법 및 그 방법을 채택한 통신장치가 제공된다. 제1 마이크로폰과, 상기 제1 마이크로폰에 비해서 화자의 입에서 상대적으로 멀리 떨어져 있는 제2 마이크로폰을 포함하는 통신장치에서 소음제거를 위하여 음성활동을 감지하는 방법으로서, 상기 방법은 제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하는 단계와, 상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 단계를 포함한다. 본 발명에 따르면, 두 개의 마이크로폰으로부터의 신호전력의 변화량의 차이를 이용하여 음성활동 유무를 판단하므로, 두 개의 마이크로폰에 들어오는 신호의 크기에 영향을 덜 받는다. A communication device employing a method and a method for detecting voice activity for noise reduction in a communication device using two microphones is provided. A method for detecting voice activity for noise reduction in a communication device comprising a first microphone and a second microphone relatively far from the mouth of the speaker as compared to the first microphone, Calculating a change amount of a signal power (hereinafter referred to as a "first change amount") and a change amount of a signal power input to a second microphone (hereinafter referred to as a "second change amount"); And determining whether there is a voice activity based on the difference value of the two change amounts. According to the present invention, since the presence or absence of voice activity is determined using the difference in the amount of change in the signal power from the two microphones, it is less affected by the magnitude of the signal coming in the two microphones.
Description
본 발명은 음성활동감지(Voice Activity Detection) 방법 및 그 방법을 채택한 통신장치에 관한 것으로서, 더욱 상세하게는 두 개의 마이크로폰을 사용하는 통신장치에서 소음제거를 위하여 음성활동을 감지하는 방법 및 그 방법을 채택한 통신장치에 관한 것이다.BACKGROUND OF THE
휴대폰 등의 통신장치에서 배경 잡음을 감소시키기 위하여, 그리고 채널용량을 늘리거나 배터리 소모를 감소시키기 위하여 하나의 마이크를 사용한 음성활동감지(Voice Activity Detection, 이하, "VAD"라 함) 방법이 널리 사용되고 있다. 예를 들면, 일부 코드분할 다중액세스(CDMA) 시스템에서는 사용되는 유효 라디오 스펙트럼을 최소화하기 위해 VAD를 이용하고 있으며, 이에 의해 더 많은 시스템 용량을 얻을 수 있다. 또한, GSM 통신 시스템은 공통-채널 간섭을 줄이고 가입자 장치에서 배터리 소모를 감소하기 위해 VAD를 사용하고 있다.A Voice Activity Detection (VAD) method using a single microphone is widely used to reduce background noise in a communication device such as a mobile phone and to increase the channel capacity or reduce battery consumption have. For example, in some code division multiple access (CDMA) systems, VAD is used to minimize the effective radio spectrum used, thereby providing more system capacity. In addition, GSM communication systems are using VADs to reduce common-channel interference and reduce battery consumption in subscriber units.
그런데, 이러한 전형적인 단일-마이크로폰 VAD 시스템들은 단일 마이크로폰에 의해 수신되는 음향 정보를 분석하므로 그 용량이 크게 제한된다. 특히, 신호들이 낮은 신호-대-잡음 비율(SNR)을 지닐 때, 그리고 배경 잡음이 빠르게 변하는 곳에서는 단일-마이크로폰 VAD 시스템들의 성능 한계가 드러난다. However, these typical single-microphone VAD systems analyze acoustic information received by a single microphone, which limits its capacity greatly. Specifically, where the signals have a low signal-to-noise ratio (SNR), and where background noise changes rapidly, performance limits of single-microphone VAD systems are revealed.
이러한 점을 해결하기 위하여 두 개의 마이크로폰을 사용하여 잡음을 제거하는 장치들이 제안되고 있다. 예를 들면, 대한민국 특허공개 제10-2004-0101373호에서는 소정 거리만큼 이격된 한 개의 전방향 마이크로폰과 한 개의 일방향 마이크로폰, 그리고 사용자 피부와 접촉하는 한 개 이상의 피부 표면 마이크로폰 센서를 포함하는 통신장치에서 피부 표면 마이크로폰 센서 음성 활동 신호를 처리하여 제어 신호를 출력하는 음성활동감지기를 제안하고 있다.In order to solve this problem, there have been proposed devices for removing noise using two microphones. For example, Korean Patent Publication No. 10-2004-0101373 discloses a communication device comprising one omni-directional microphone, a one-way microphone, and one or more skin surface microphone sensors in contact with the user's skin, And a voice activity sensor for outputting a control signal by processing a voice sensor activity signal of a skin surface microphone.
그러나, 이러한 구성은 하드웨어의 구성이 복잡하고 알고리즘도 이러한 하드웨어 구성에 종속되어 있어서, 일반적으로 적용하기에는 어려움이 있다.However, such a configuration is difficult to apply generally because the hardware configuration is complicated and the algorithm is also dependent on such hardware configuration.
본 발명은 이러한 점을 감안하여 이루어진 것으로서, 두 개의 마이크로폰을 사용하는 통신장치에 일반적으로 적용될 수 있으면서도 효율 좋은 음성활동 감지 방법 및 그 방법을 채택한 통신장치를 제공하는 것을 목적으로 한다.SUMMARY OF THE INVENTION It is an object of the present invention to provide a voice activity sensing method which is generally applicable to a communication device using two microphones, and a communication device employing the method.
본 발명의 바람직한 실시예에 따른 본 발명은, 제1 마이크로폰과, 상기 제1 마이크로폰에 비해서 화자의 입에서 상대적으로 멀리 떨어져 있는 제2 마이크로폰을 포함하는 통신장치에서 음성활동을 감지하는 방법에 관한 것이다. 통상적으로, 제1 마이크로폰은 통신장치의 하단부에 위치하며, 상기 제2 마이크로폰은 통신장치의 상단부에 위치한다. 상기 방법은 제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하는 단계와, 상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 단계를 포함한다. The present invention in accordance with a preferred embodiment of the present invention relates to a method of sensing voice activity in a communication device comprising a first microphone and a second microphone relatively far from the mouth of the speaker as compared to the first microphone . Typically, the first microphone is located at the lower end of the communication device, and the second microphone is located at the upper end of the communication device. The method includes calculating a change amount of a signal power input to a first microphone (hereinafter referred to as a "first change amount") and a change amount of signal power input to a second microphone (hereinafter referred to as a "second change amount") And determining whether there is a voice activity based on a difference value between the first change amount and the second change amount.
본 발명의 음성활동감지기는 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력한다. The voice activity detector of the present invention determines that voice activity exists and outputs a signal indicating that voice activity exists if the difference value between the first change amount and the second change amount is larger than the reference value.
일 실시예에서, 제1 변화량은 현 시점으로부터 이전의 제1 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제1 기간보다 긴 제2 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과의 차이값이며, 제2 변화량은 현 시점으로부터 이전의 상기 제1 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제2 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과의 차이값이다. In one embodiment, the first change amount is calculated by multiplying the average signal power input to the first microphone during the first first period from the current point by the average signal power input from the first microphone during the second period longer than the previous first period, And a second change amount is a difference value between the average signal power input to the second microphone during the first period from the present time and the average signal power input from the second microphone during the second period, And the difference between the average signal power and the average signal power.
다른 실시예에서, 제1 변화량은 현 시점에 제1 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제1 마이크로폰으로 입력된 평균전력과의 차이값이며, 제2 변화량은 현 시점에 제2 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제2 마이크로폰으로 입력된 평균전력과의 차이값이다. In another embodiment, the first change amount is a difference value between a power of a signal input to the first microphone at the present time and an average power input to the first microphone during a predetermined period from the current time, The difference between the power of the signal input to the second microphone at the time point and the average power input to the second microphone for the predetermined period from the present time.
본 발명의 음성활동감지기는 음성활동이 있다고 판단된 이후에 제1 변화량과 제2 변화량의 차이값이 기준치보다 작아진 경우에도 소정 시간 동안에는 음성활동이 있음을 나타내는 신호를 계속 출력하는 것이 바람직하다. It is preferable that the voice activity detector continuously outputs a signal indicating that there is voice activity for a predetermined time even if the difference value between the first change amount and the second change amount becomes smaller than the reference value after it is determined that there is voice activity.
본 발명에 따르면, 두 개의 마이크로폰으로부터의 신호전력의 변화량의 차이값을 이용하여 음성활동 유무를 판단하므로, 두 개의 마이크로폰에 들어오는 신호의 크기에 관계 없이 보다 정확한 음성활동감지가 가능하다. 즉, 먼거리의 잡음 신호는 잡음신호의 크기에 상관없이 두 마이크로폰에서 거의 비슷한 변화량을 가지게 되지만, 가까운 목적 신호(화자의 목소리)는 화자의 입에 더 가까운 제1 마이크로폰에 상대적으로 매우 크게 입력되므로 특히 중저주파 대역에서 제1 마이크로폰의 신호 변화량이 제2 마이크로폰의 신호 변화량보다 크게 되며, 따라서, 근거리의 목적신호가 있을 때에는 양 마이크로폰에서의 신호 변화량의 차가 크고, 원거리의 잡음 신호만 있을 때에는 이 차가 상대적으로 작게 된다.According to the present invention, since the presence or absence of the voice activity is determined by using the difference value of the amount of change of the signal power from the two microphones, more accurate voice activity can be detected regardless of the size of the signal entering the two microphones. That is, although the long distance noise signal has almost the same amount of change in both microphones regardless of the size of the noise signal, since the near object signal (the voice of the speaker) is inputted to the first microphone relatively close to the mouth of the speaker The signal change amount of the first microphone in the middle low frequency band is larger than that of the second microphone. Therefore, when there is a target signal in the vicinity, the difference in the signal change amount between the two microphones is large. When there is only the long distance noise signal, .
또한, 본 발명에 따르면 두 개의 마이크로폰만을 사용하여 음성활동을 감지하므로, 두 개의 마이크로폰을 사용하는 통신장치에 일반적으로 적용될 수 있으면서도 효율 좋은 음성활동 감지 방법을 구현할 수 있다.In addition, according to the present invention, voice activity is detected using only two microphones, so that it is possible to implement a voice activity sensing method which is generally applicable to a communication device using two microphones and is efficient.
도 1은 본 발명의 음성활동감지방법이 적용되는 통신장치의 내부 구성을 보여주는 블록도이다.
도 2는 두 개의 마이크로폰을 갖는 통신장치에서 마이크로폰과 스피커의 배치예를 보여주는 도면이다.
도 3은 본 발명의 바람직한 실시예에 따른 음성활동감지방법의 동작을 보여주는 흐름도이다.1 is a block diagram illustrating an internal configuration of a communication device to which the voice activity detection method of the present invention is applied.
2 is a view showing an example of arrangement of a microphone and a speaker in a communication device having two microphones.
3 is a flowchart illustrating an operation of a voice activity sensing method according to a preferred embodiment of the present invention.
이하, 도면을 참고하여 본 발명의 바람직한 실시예에 대해서 상세히 설명한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.
도 1에 본 발명의 음성활동감지방법이 적용되는 통신장치의 내부 구성을 보여주는 블록도가 도시되어 있다.FIG. 1 is a block diagram illustrating an internal configuration of a communication device to which the voice activity detection method of the present invention is applied.
본 발명의 음성활동감지방법은 적어도 두 개의 마이크로폰(11, 12)이 구비되는 통신장치에 적용된다. 제1 마이크로폰(11)은 화자(話者)의 입 근처에 위치하고, 제2 마이크로폰(12)은 제1 마이크로폰(11)에 비해서 화자(話者)의 입으로부터 더 멀리 떨어져 있다. 바람직하게는, 제1 마이크로폰(11)은 통신장치의 하단에 위치하고 제2 마이크로폰(12)은 통신장치의 상단에 위치한다.The voice activity sensing method of the present invention is applied to a communication device having at least two microphones (11, 12). The
각 마이크로폰(11,12)으로 입력되는 아날로그 신호는 적절한 크기로 증폭되어 아날로그-디지털 변환기(13, 14)에서 디지털 신호로 변환된 다음, 본 발명의 음성활동감지방법을 채택한 음성활동감지기(15)로 입력된다. The analog signals input to the
음성활동감지기(15)는 제1 마이크로폰(11)으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰(12)으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하고, 계산된 제1 변화량과 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단한다.The
잡음제거부(16)는 음성활동감지기(15)로부터의 음성활동 유무를 나타내는 신호와 각 마이크로폰(11,12)으로부터 입력되어 디지털로 변환된 신호를 이용하여 주변 잡음을 제거한 후에, 보코더(31)로 출력한다.The
보코더(31)는 잡음제거부(16)에서 잡음이 제거된 신호를 인코딩하여 통신망 인터페이스(41)를 통해 통화상대방에게 전송하고, 통신망 인터페이스(41)를 통해 전송되어 오는 통화상대방의 음성을 디코딩한다. 디코딩된 음성신호는 디지털-아날로그 변환기(22)를 거쳐서 아날로그 신호로 변환된 다음에 적절한 레벨로 증폭되어 스피커를 통해 출력된다.
The
도 2는 두 개의 마이크로폰을 갖는 통신장치에서 마이크로폰과 스피커의 배치예를 보여주는 도면이다. 도 2에 도시된 것처럼, 제1 마이크로폰(11)은 화자의 입에 가까운 곳인 통신장치의 하단에 위치하고, 제2 마이크로폰(12)은 통신장치의 상단에 위치한다. 스피커(21)는 화자의 귀에 가까운 위치인 통신장치의 상부에 위치하고 있다.
2 is a view showing an example of arrangement of a microphone and a speaker in a communication device having two microphones. As shown in Fig. 2, the
다음으로, 도 3을 참조하여 본 발명의 본 발명의 바람직한 실시예에 따른 음성활동감지방법의 동작을 설명한다. 도 3의 동작은 프레임마다 수행하는 것이 바람직하지만, 본 발명은 이에 한정되는 것은 아니다.Next, the operation of the voice activity detection method according to the preferred embodiment of the present invention will be described with reference to FIG. The operation of FIG. 3 is preferably performed for each frame, but the present invention is not limited thereto.
먼저, 음성활동감지기(15)는 양 마이크로폰(11,12)으로부터 입력되는 신호전력의 변화량을 계산한다(단계 310).First, the
신호전력의 변화량은 현 시점에 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 동일 마이크로폰으로 입력된 평균전력과의 차이값의 절대값으로 정의된다.The amount of change in the signal power is defined as the absolute value of the difference between the power of the signal input to the microphone at the current time and the average power input to the same microphone during the predetermined period from the present time.
이를 수식으로 표현하면 수학식 1과 같다.This can be expressed by Equation (1).
여기에서, M은 현재 샘플을 포함한 이전 소정 기간 동안의 샘플 수이다. 계산량을 줄이기 위해서 모든 오디오 데이터를 사용하지 않고 일정 시간마다 샘플링을 하여 사용할 수도 있다. 예를 들어, 신호전력의 평균치 계산을 위한 샘플링을 프레임마다 수행하도록 할 수도 있으며 이 경우에는 M은 현재 프레임을 포함한 이전 소정 기간 동안의 프레임 수이다. Here, M is the number of samples during a predetermined period including the current sample. In order to reduce the amount of calculation, it is also possible to use sampling at a predetermined time without using all the audio data. For example, sampling for calculating the average of the signal power may be performed for each frame, where M is the number of frames for the previous predetermined period including the current frame.
한편, 다른 방법으로는, 신호전력의 변화량을, 현 시점으로부터 이전의 제1 기간 동안 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제1 기간보다 긴 제2 기간 동안 마이크로폰으로 입력된 평균신호전력과의 차이값을 사용할 수도 있다.On the other hand, as another method, the amount of change in the signal power is calculated by multiplying the average signal power input to the microphone during the first first period from the present time and the average signal power input from the microphone during the second period longer than the previous first period A difference value from the average signal power may be used.
이를 수식으로 표현하면 수학식 2와 같다.This can be expressed by the following equation (2).
여기에서, N은 현 시점으로부터 이전의 제1 기간 동안의 현재 샘플을 포함한 샘플 수이며, M은 현 시점으로부터 이전의 제2 기간 동안의 현재 샘플을 포함한 샘플 수이고, N < M이다. 예를 들어, N을 1 프레임 동안의 샘플수로 잡고, M을 10 프레임 동안의 샘플수로 잡으면, 신호전력의 변화량은 1 프레임 동안의 평균전력과 10 프레임 동안의 평균전력의 차이가 된다. N과 M은 통신기기의 구조와 마이크로폰의 특성 등에 따라서 달라지며, 실험에 의해 적절한 값을 구하면 된다.
Where N is the number of samples including the current sample for the previous first period from the current point of time, M is the number of samples including the current sample for the previous second period from the current point of time, and N < For example, if N is taken as the number of samples for one frame and M is taken as the number of samples for 10 frames, the amount of change in the signal power is the difference between the average power for one frame and the average power for ten frames. N and M vary depending on the structure of the communication device and the characteristics of the microphone, and an appropriate value can be obtained by experiment.
다음으로, 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면(단계 320의 'Yes') 음성활동감지기(15)는 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력한다(단계 340). 본 예에서는 음성활동이 있는 경우에 논리값 1을 출력하도록 하고 있다. 제1 변화량과 제2 변화량의 차이값은 제1 변화량에서 제2 변화량을 뺀 값으로 할 수 있다. Next, if the difference between the first change amount and the second change amount is greater than the reference value (Yes in step 320), the
한편, 음성활동이 있다고 판단된 이후에 제1 변화량과 제2 변화량의 차이값이 기준치보다 작아진 경우에도 이후의 소정 시간 동안에는 음성활동이 있음을 나타내는 신호를 계속 출력하는 것이 바람직하다. 이를 위하여 음성활동감지기(15)는 유지시간(Hold time)을 나타내는 HT 값을 초기화시키고(도 3의 예에서는 HT=15)(단계 330), HT 값을 하나 감소시킨다(350). 예를 들어, 도 3의 동작이 매 프레임마다 수행되는 경우에는 유지시간은 1 프레임 시간 x 15가 되며, 1 프레임 시간이 20msec인 경우에는 도 3의 예에서 유지시간은 0.3초가 된다.If the difference between the first change amount and the second change amount is smaller than the reference value after the determination that the voice activity is present, it is preferable that a signal indicating that there is voice activity continues to be output for a predetermined period of time. To this end, the
단계 320에서의 판단 결과, 제1 변화량과 제2 변화량의 차이값이 기준치보다 작으면(단계 320의 'No'), 단계 360에서 유지시간이 지났는지를 확인한다. 유지시간이 지나지 않은 경우에는, 즉 HT 값이 0보다 큰 경우에는 단계 340으로 가서 음성활동 유무를 나타내는 출력을 그대로 유지하고(즉, VAD=1로 계속 유지하고) HT 값을 하나 감소시킨다(350). 단계 360에서의 판단 결과, 유지시간이 지난 경우에는, 즉 HT 값이 0인 경우에는 음성활동이 없음을 나타내는 신호를 출력한다(단계 370). 본 예에서는 음성활동이 있는 경우에 논리값 0을 출력하도록 하고 있다.
If it is determined in
이상, 본 발명을 몇가지 예를 들어 설명하였으나, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. While the present invention has been described with reference to exemplary embodiments, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. That is, within the scope of the present invention, all of the components may be selectively coupled to one or more of them. In addition, although all of the components may be implemented as one independent hardware, some or all of the components may be selectively combined to perform a part or all of the functions in one or a plurality of hardware. As shown in FIG. The codes and code segments constituting the computer program may be easily deduced by those skilled in the art. Such a computer program can be stored in a computer-readable storage medium, readable and executed by a computer, thereby realizing an embodiment of the present invention.
이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. It is to be understood that the terms "comprises", "comprising", or "having" as used in the foregoing description mean that a component can be implanted unless specifically stated to the contrary, But should be construed as further including other elements.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The foregoing description is merely illustrative of the technical idea of the present invention, and various changes and modifications may be made by those skilled in the art without departing from the essential characteristics of the present invention. Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas falling within the scope of the same shall be construed as falling within the scope of the present invention.
11 제1 마이크로폰,
12 제2 마이크로폰,
15 음성활동감지기,
16 잡음제거부.11 first microphone,
12 second microphone,
15 voice activity detector,
16 Noise Canceling.
Claims (12)
제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하는 단계와,
상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 단계
를 포함하며,
상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력하며,
상기 제1 변화량은 현 시점으로부터 이전의 제1 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제1 기간보다 긴 제2 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과의 차이값이며,
상기 제2 변화량은 현 시점으로부터 이전의 상기 제1 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제2 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과의 차이값인 것을 특징으로 하는 음성활동감지방법.A method for detecting a voice activity in a communication device comprising a first microphone and a second microphone relatively far from the mouth of the speaker as compared to the first microphone,
(Hereinafter referred to as " first change amount ") input to the first microphone and a change amount (hereinafter referred to as" second change amount "
Determining whether there is a voice activity based on a difference value between the first change amount and the second change amount
/ RTI >
If the difference between the first change amount and the second change amount is greater than the reference value, it is determined that there is a voice activity and a signal indicating that voice activity exists is outputted,
Wherein the first variation amount is a difference between an average signal power input to the first microphone during the first period from the current point of time and an average signal power input from the first microphone during the second period longer than the first period, Lt; / RTI >
The second change amount is a difference value between an average signal power input to the second microphone during the first period from the current time and an average signal power input from the current time to the second microphone during the second period And detecting the voice activity.
제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하는 단계와,
상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 단계
를 포함하며,
상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력하며,
상기 제1 변화량은 현 시점에 제1 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제1 마이크로폰으로 입력된 평균전력과의 차이값이며,
상기 제2 변화량은 현 시점에 제2 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제2 마이크로폰으로 입력된 평균전력과의 차이값인 것을 특징으로 하는 음성활동감지방법.A method for detecting a voice activity in a communication device comprising a first microphone and a second microphone relatively far from the mouth of the speaker as compared to the first microphone,
(Hereinafter referred to as " first change amount ") input to the first microphone and a change amount (hereinafter referred to as" second change amount "
Determining whether there is a voice activity based on a difference value between the first change amount and the second change amount
/ RTI >
If the difference between the first change amount and the second change amount is greater than the reference value, it is determined that there is a voice activity and a signal indicating that voice activity exists is outputted,
The first change amount is a difference value between a power of a signal input to the first microphone at the current time and an average power input to the first microphone during a predetermined period from the current time,
Wherein the second change amount is a difference between a power of a signal input to the second microphone at the current time and an average power input to the second microphone during a predetermined period from the current time.
음성활동이 있다고 판단된 이후에 상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 작아진 경우에도 소정 시간 동안에는 음성활동이 있음을 나타내는 신호를 계속 출력하는 것을 특징으로 하는 음성활동감지방법.The method according to claim 3 or 4,
Wherein a signal indicating that there is voice activity continues to be output even if the difference value between the first change amount and the second change amount becomes smaller than the reference value after the voice activity is determined to be present for a predetermined time.
상기 제1 마이크로폰은 통신장치의 하단부에 위치하며, 상기 제2 마이크로폰은 통신장치의 상단부에 위치하는 것을 특징으로 하는 음성활동감지방법.The method according to claim 3 or 4,
Wherein the first microphone is located at a lower end of the communication device and the second microphone is located at an upper end of the communication device.
상기 제1 마이크로폰에 비해서 화자의 입에서 상대적으로 멀리 떨어져 있는 제2 마이크로폰과,
제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 측정하고, 상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 음성활동감지기
를 구비하며,
상기 음성활동감지기는 상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력하며,
상기 제1 변화량은 현 시점으로부터 이전의 제1 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제1 기간보다 긴 제2 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과의 차이값이며,
상기 제2 변화량은 현 시점으로부터 이전의 상기 제1 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제2 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과의 차이값인 것을 특징으로 하는 통신장치.A first microphone,
A second microphone relatively far from the mouth of the speaker as compared to the first microphone,
(Hereinafter referred to as " first change amount ") of a signal power input to the first microphone and a change amount (hereinafter referred to as" second change amount & A voice activity detector for determining presence or absence of voice activity based on a difference between the change amount and the second change amount;
And,
Wherein the voice activity detector determines that there is a voice activity if the difference value between the first change amount and the second change amount is larger than the reference value and outputs a signal indicating that there is voice activity,
Wherein the first variation amount is a difference between an average signal power input to the first microphone during the first period from the current point of time and an average signal power input from the first microphone during the second period longer than the first period, Lt; / RTI >
The second change amount is a difference value between an average signal power input to the second microphone during the first period from the current time and an average signal power input from the current time to the second microphone during the second period Wherein the communication device is a communication device.
상기 제1 마이크로폰에 비해서 화자의 입에서 상대적으로 멀리 떨어져 있는 제2 마이크로폰과,
제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 측정하고, 상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 음성활동감지기
를 구비하며,
상기 음성활동감지기는 상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력하며,
상기 제1 변화량은 현 시점에 제1 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제1 마이크로폰으로 입력된 평균전력과의 차이값이며,
상기 제2 변화량은 현 시점에 제2 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제2 마이크로폰으로 입력된 평균전력과의 차이값인 것을 특징으로 하는 통신장치.A first microphone,
A second microphone relatively far from the mouth of the speaker as compared to the first microphone,
(Hereinafter referred to as " first change amount ") of a signal power input to the first microphone and a change amount (hereinafter referred to as" second change amount & A voice activity detector for determining presence or absence of voice activity based on a difference between the change amount and the second change amount;
And,
Wherein the voice activity detector determines that there is a voice activity if the difference value between the first change amount and the second change amount is larger than the reference value and outputs a signal indicating that there is voice activity,
The first change amount is a difference value between a power of a signal input to the first microphone at the current time and an average power input to the first microphone during a predetermined period from the current time,
Wherein the second change amount is a difference between a power of a signal input to the second microphone at the current time and an average power input to the second microphone during a predetermined period from the current time.
상기 음성활동감지기는 음성활동이 있다고 판단된 이후에 상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 작아진 경우에도 이후의 소정 시간 동안에는 음성활동이 있음을 나타내는 신호를 계속 출력하는 것을 특징으로 하는 통신장치.11. The method according to claim 9 or 10,
Wherein the voice activity detector continuously outputs a signal indicating that there is voice activity for a predetermined time even after the difference value between the first change amount and the second change amount becomes smaller than the reference value after it is determined that voice activity is present Lt; / RTI >
상기 제1 마이크로폰은 통신장치의 하단부에 위치하며, 상기 제2 마이크로폰은 통신장치의 상단부에 위치하는 통신장치.
11. The method according to claim 9 or 10,
Wherein the first microphone is located at a lower end of the communication device and the second microphone is located at an upper end of the communication device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130032765A KR101451844B1 (en) | 2013-03-27 | 2013-03-27 | Method for voice activity detection and communication device implementing the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130032765A KR101451844B1 (en) | 2013-03-27 | 2013-03-27 | Method for voice activity detection and communication device implementing the same |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140117885A KR20140117885A (en) | 2014-10-08 |
KR101451844B1 true KR101451844B1 (en) | 2014-10-16 |
Family
ID=51990853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130032765A KR101451844B1 (en) | 2013-03-27 | 2013-03-27 | Method for voice activity detection and communication device implementing the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101451844B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393558B (en) * | 2017-07-14 | 2020-09-11 | 深圳永顺智信息科技有限公司 | Voice activity detection method and device |
US11465663B2 (en) | 2019-05-20 | 2022-10-11 | Lg Electronics Inc. | Cart robot having charge function |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265390A (en) | 2000-03-16 | 2001-09-28 | Nec Corp | Voice coding and decoding device and method including silent voice coding operating with plural rates |
JP2005503579A (en) * | 2001-05-30 | 2005-02-03 | アリフコム | Voiced and unvoiced voice detection using both acoustic and non-acoustic sensors |
JP2011099967A (en) * | 2009-11-05 | 2011-05-19 | Fujitsu Ltd | Sound signal processing method and sound signal processing device |
WO2011146903A1 (en) * | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Methods, apparatus, and computer - readable media for processing of speech signals using head -mounted microphone pair |
-
2013
- 2013-03-27 KR KR1020130032765A patent/KR101451844B1/en not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265390A (en) | 2000-03-16 | 2001-09-28 | Nec Corp | Voice coding and decoding device and method including silent voice coding operating with plural rates |
JP2005503579A (en) * | 2001-05-30 | 2005-02-03 | アリフコム | Voiced and unvoiced voice detection using both acoustic and non-acoustic sensors |
JP2011099967A (en) * | 2009-11-05 | 2011-05-19 | Fujitsu Ltd | Sound signal processing method and sound signal processing device |
WO2011146903A1 (en) * | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Methods, apparatus, and computer - readable media for processing of speech signals using head -mounted microphone pair |
Also Published As
Publication number | Publication date |
---|---|
KR20140117885A (en) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676581B2 (en) | Method and apparatus for evaluating trigger phrase enrollment | |
US9418651B2 (en) | Method and apparatus for mitigating false accepts of trigger phrases | |
KR101852892B1 (en) | Voice recognition method, voice recognition device, and electronic device | |
US10848887B2 (en) | Blocked microphone detection | |
US7968786B2 (en) | Volume adjusting apparatus and volume adjusting method | |
US11557308B2 (en) | Method and apparatus for estimating variability of background noise for noise suppression | |
KR20140061255A (en) | Adaptive system for managing a plurality of microphones and speakers | |
JP6156012B2 (en) | Voice processing apparatus and computer program for voice processing | |
US8750526B1 (en) | Dynamic bandwidth change detection for configuring audio processor | |
US20110010172A1 (en) | Noise reduction system using a sensor based speech detector | |
US20130329895A1 (en) | Microphone occlusion detector | |
US8924199B2 (en) | Voice correction device, voice correction method, and recording medium storing voice correction program | |
JP5834948B2 (en) | Reverberation suppression apparatus, reverberation suppression method, and computer program for reverberation suppression | |
US9641660B2 (en) | Modifying sound output in personal communication device | |
KR101961998B1 (en) | Reducing instantaneous wind noise | |
KR101396873B1 (en) | Method and apparatus for noise reduction in a communication device having two microphones | |
KR101451844B1 (en) | Method for voice activity detection and communication device implementing the same | |
JP6878776B2 (en) | Noise suppression device, noise suppression method and computer program for noise suppression | |
CN107566950B (en) | Audio signal processing method and device | |
CN109655269B (en) | Motor vibration detection method and device | |
KR20150048471A (en) | Method for voice activity detection and communication device implementing the same | |
JP5857216B2 (en) | Automatic gain controller | |
JP2015004915A (en) | Noise suppression method and sound processing device | |
KR100939684B1 (en) | Voice recorder with 3 microphone | |
JP2019090962A (en) | Voice detection system and voice detection method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |