WO2010122843A1 - 音声記録装置、音声再生装置及び音声記録再生装置 - Google Patents
音声記録装置、音声再生装置及び音声記録再生装置 Download PDFInfo
- Publication number
- WO2010122843A1 WO2010122843A1 PCT/JP2010/053514 JP2010053514W WO2010122843A1 WO 2010122843 A1 WO2010122843 A1 WO 2010122843A1 JP 2010053514 W JP2010053514 W JP 2010053514W WO 2010122843 A1 WO2010122843 A1 WO 2010122843A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- audio
- recording
- voice
- change point
- change
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/22—Means responsive to presence or absence of recorded information signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Definitions
- the present invention relates to an audio recording apparatus that records audio information on a recording medium.
- the present invention also relates to an audio recording / reproducing apparatus for recording and reproducing audio on a recording medium.
- the present invention also relates to an audio reproducing apparatus for reproducing audio recorded on a recording medium.
- a conventional voice recording / reproducing apparatus such as a voice recorder records the voice of a person who performs a conversation or the like on a recording medium when recording is started. Also, the audio data stored in the recording medium is taken out by a predetermined operation and reproduced.
- JP 2008-170789 A page 4 to page 10, FIG. 3
- JP 2008-281850 A page 3 to page 6, FIG. 2
- JP 2006-50045 page 4 to page 12, FIG. 4
- Patent Document 1 discloses an audio recording apparatus that cuts a silent portion when recording audio.
- this voice recording apparatus instructs the start of recording
- the voice data captured from the microphone is analyzed, and recording starts when the average energy of the voice exceeds a predetermined threshold.
- a predetermined threshold As a result, it is possible to cut and record a silent part such as the start of a conference, thereby eliminating unnecessary recording.
- Patent Document 2 discloses a voice recording apparatus that determines whether or not a voice is a human and starts recording.
- this audio recording apparatus an average value of a power spectrum is derived for each predetermined section from audio data input from a microphone. Since the power spectrum is small in the silent section, the average value is small, and since the noise is short, the average value of the power spectrum is small. As a result, it is possible to distinguish a silent portion or noise from a human voice. Therefore, recording can be started when a human voice is captured, and memory consumption can be suppressed.
- the audio data captured by the microphone is subjected to frequency decomposition, the power spectrum is acquired, and an average value is derived. For this reason, the process for identifying a person's voice is heavy, and it takes time for discrimination. Therefore, there is a problem that the start of recording is delayed and the convenience of the voice recording apparatus is lowered.
- voice data for a period for discriminating a human voice is recorded in a memory and recording is performed retroactively after the discrimination, a large memory capacity is required and there is a problem that costs increase.
- the present invention provides an audio recording / reproducing apparatus for recording audio data captured by a microphone on a recording medium, recording the audio data, and extracting and reproducing the audio data from the recording medium.
- the discriminating unit discriminates between the human voice region and the non-human voice region of the voice data, and the start position and the end position for each region of the human voice are recorded on the recording medium together with the voice data.
- audio data is extracted from the recording medium and reproduced. At this time, the interval between the start position and the end position of the first region of the human voice is extracted and output, and then the interval between the start position and the end position of each of the second and subsequent regions is sequentially extracted. Output.
- the present invention also provides a voice recording / playback apparatus for recording voice data captured by a microphone on a recording medium, recording the voice data from the recording medium, and playing the voice data.
- a discriminating unit for discriminating is provided, and the start position of the human voice discriminated by the discriminating unit is recorded at the time of recording, and skipped to the next start position by a predetermined operation during reproduction.
- the discriminating means discriminates between the human voice region and the non-human voice region of the voice data, and the start position for each human voice region is recorded on the recording medium together with the voice data.
- audio data is extracted from the recording medium and reproduced. If a predetermined operation is performed during reproduction, the next position is skipped to the start position of the voice area of the next person, and reproduction of the area is performed.
- the determination unit includes a change amount detection unit that detects a change amount of audio power based on audio data captured by the microphone within a unit time, and the change amount is A change point detection unit that detects a change point larger than a predetermined value, and when the number of change points exceeds a predetermined number within a predetermined determination period, it is determined that the voice is a human voice.
- the amount of change in unit time is detected by the change amount detection unit for the sound power based on the sound data captured by the microphone.
- the change point detection unit determines whether or not the change amount is larger than a predetermined value, and stores the change amount as a change point when the change amount is larger than the predetermined value. Then, the number of change points within a predetermined determination period is detected. When the number of change points is larger than a predetermined number set in advance, it is determined as a human voice, and when it is less, it is determined as noise or silence. Thereby, the start position and end position of each area
- the determination unit includes a change amount detection unit that detects a change amount of audio power based on audio data captured by the microphone within a unit time, and the change amount is And a change point detection unit that detects a change point larger than a predetermined value, and when the change point is detected within a predetermined determination period, it is determined as a human voice.
- the amount of change in unit time is detected by the change amount detection unit for the sound power based on the sound data captured by the microphone.
- the change point detection unit determines whether or not the change amount is larger than a predetermined value, and stores the change amount as a change point when the change amount is larger than the predetermined value. Then, it is monitored whether or not a change point appears within a predetermined determination period, and when it appears, it is determined as a human voice and when it does not appear, it is determined as noise or silence. Thereby, the start position and end position of each area
- the present invention is characterized in that in the audio recording / reproducing apparatus configured as described above, the change point detection unit does not detect the change point when the audio power is smaller than a predetermined value. According to this configuration, it is determined whether or not the sound power of the sound data captured by the microphone is smaller than a predetermined value. When the sound power is smaller than a predetermined value, even if the change amount of the sound power is large, it is ignored for the detection of the change point.
- the present invention provides an audio reproducing apparatus that extracts audio data recorded on a recording medium and reproduces audio, and further includes a determining unit that discriminates between human voice and non-human voice, and the determining unit includes audio data
- a change amount detection unit that detects a change amount of audio power within a unit time based on the above and a change point detection unit that detects a change point where the change amount is greater than a predetermined value, and within a predetermined determination period
- the number of change points is greater than a predetermined number, it is determined as a human voice, and a portion between the start position of the human voice determined by the determination means and the subsequent end position is extracted and output.
- the amount of change in unit time is detected by the change amount detection unit for the sound power based on the sound data captured by the microphone.
- the change point detection unit determines whether or not the change amount is larger than a predetermined value, and stores the change amount as a change point when the change amount is larger than the predetermined value. Then, the number of change points within a predetermined determination period is detected. When the number of change points is larger than a predetermined number set in advance, it is determined as a human voice, and when it is less, it is determined as noise or silence. Thereby, the start position and end position of each area
- the present invention provides an audio reproducing apparatus that extracts audio data recorded on a recording medium and reproduces audio, and further includes a determining unit that discriminates between human voice and non-human voice, and the determining unit includes audio data
- a change amount detection unit that detects a change amount of audio power within a unit time based on the above and a change point detection unit that detects a change point where the change amount is greater than a predetermined value, and within a predetermined determination period
- the number of change points is greater than a predetermined number, it is determined that the voice is a human voice, and a skip operation is skipped to the next start position of the human voice determined by the determination means by a predetermined operation during reproduction.
- the change amount within the unit time is detected by the change amount detection unit in the sound power based on the sound data captured by the microphone.
- the change point detection unit determines whether or not the change amount is larger than a predetermined value, and stores the change amount as a change point when the change amount is larger than the predetermined value. Then, the number of change points within a predetermined determination period is detected. When the number of change points is larger than a predetermined number set in advance, it is determined as a human voice, and when it is less, it is determined as noise or silence. Thereby, the start position of each area of the person's voice is detected, and the area is reproduced by skipping to the start position of the area of the next person's voice by a predetermined operation.
- the audio recording apparatus of the present invention includes a change amount detection unit that detects a change amount of audio power within a unit time based on audio data captured by a microphone, and a change that detects a change point where the change amount is greater than a predetermined value.
- a point detector, and recording is started when the number of change points is greater than a predetermined number within a predetermined determination period.
- audio data is captured by the microphone.
- the amount of change in the unit time is detected by the change amount detection unit for the sound power based on the sound data captured by the microphone.
- the change point detection unit determines whether or not the change amount is larger than a predetermined value, and stores the change amount as a change point when the change amount is larger than the predetermined value. Then, the number of change points within a predetermined determination period is detected, and when it exceeds the predetermined number set in advance, it is determined that a human voice has been captured and recording is started.
- the present invention is characterized in that the change point detection unit does not detect the change point when the sound power is smaller than a predetermined value in the sound recording apparatus having the above configuration. According to this configuration, it is determined whether or not the sound power of the sound data captured by the microphone is smaller than a predetermined value. When the sound power is smaller than a predetermined value, even if the change amount of the sound power is large, it is ignored for the detection of the change point.
- a FIFO memory for accumulating the audio data of the determination period is provided, and at the start of recording, the audio data in the FIFO memory is extracted and recording is performed retroactively by the determination period. It is a feature.
- audio data captured by the microphone is stored in the FIFO memory. If it is determined that the human voice is captured by the change amount detection unit and the change point detection unit during the determination period, the voice data is extracted from the FIFO memory and recorded. As a result, recording is performed from the start of the human voice retroactively by the determination period.
- the audio recording / reproducing apparatus of the present invention it is possible to improve the convenience of the audio recording / reproducing apparatus without requiring a complicated operation for cutting a silent part or noise.
- a human voice is discriminated at the time of recording, no discrimination time is required at the time of reproduction, and a reproduction delay can be prevented.
- the audio reproducing apparatus of the present invention it is possible to quickly extract and reproduce human voice. Therefore, it is possible to improve the convenience of the audio reproducing apparatus without requiring a complicated operation for cutting out a silent part or noise.
- the audio recording apparatus of the present invention it is determined that a person's voice has been captured when the amount of change in the unit time of the audio power is greater than a predetermined number within the determination period. Therefore, it is possible to quickly determine the voice of a person and improve the convenience of the voice recording apparatus.
- FIG. 3 is a data flow diagram of the audio recording / reproducing apparatus according to the first embodiment of the present invention.
- voice recording / reproducing apparatus of 1st Embodiment of this invention The flowchart which shows the operation
- the block diagram which shows the structure of the audio
- Data flow diagram of audio recording / reproducing apparatus of fifth embodiment of the present invention The figure which shows an example of the analog audio
- the flowchart which shows the operation
- FIG. 1 is a block diagram showing the configuration of the audio recording / reproducing apparatus of the first embodiment.
- the audio recording / reproducing apparatus 1 includes a microphone 6 that captures sound and a speaker 10 that outputs sound.
- An A / D converter 7 connected to the microphone 6 converts an analog audio signal captured by the microphone 6 into a digital audio signal.
- the A / D converter 7 is connected to a DSP (Digital Signal Processor) 8 for performing various processes on the audio data composed of the digital audio signal output from the A / D converter 7.
- DSP Digital Signal Processor
- the power conversion unit 21, the change amount detection unit 22, the change point detection unit 23, and the conversation detection unit 24 (all of which are shown in FIG. 2) provided in the DSP 8 Processing to determine is performed.
- the encoder 25 and the decoder 26 (both see FIG. 2) provided in the DSP 8 perform audio data compression and decoding processing by the audio codec.
- the DSP 8 is connected to the CPU 2, the memory 3, the recording medium 5, and the operation unit 12 via the bus line 11.
- the CPU 2 controls each part such as the DSP 8 and performs arithmetic processing.
- the memory 3 temporarily stores arithmetic processing of the CPU 2.
- the recording medium 5 is composed of a flash memory, a magnetic recording medium, or the like, and records audio data of a digital audio signal compressed by the DSP 8.
- the operation unit 12 instructs the start and stop of voice recording and playback by a user operation. In addition, the operation unit 12 instructs the start of the short-time reproduction by the short-time reproduction unit 12a.
- the D / A converter 9 converts an uncompressed digital audio signal obtained by combining the audio data of the recording medium 5 into an analog audio signal by the DSP 8.
- FIG. 2 shows a data flow diagram of the audio recording / reproducing apparatus 1.
- the sound is captured by the microphone 6 in response to an instruction to start recording by the operation unit 12.
- FIG. 3 shows an example of audio data composed of analog audio signals captured by the microphone 6.
- the audio data captured by the microphone 6 includes a non-audio area A and an audio area B.
- the non-speech area A indicates an area other than noise such as a sound of hitting a desk or a sound of pulling a chair, or a voice of a silent person.
- a voice area B indicates a human voice area.
- the audio data of the analog audio signal is converted by the A / D converter 7 and the audio data of the digital audio signal is output.
- the audio data output from the A / D converter 7 is sent to the power converter 21 and the encoder 25 of the DSP 8.
- the power conversion unit 21 converts digital audio data into audio power and outputs the audio power to the change amount detection unit 22.
- the change amount detector 22 derives the change amount of the audio power within a unit time, and the change amount data is output to the change point detector 23.
- FIG. 4 is a diagram illustrating an example of the amount of change in audio power derived by the change amount detection unit 22.
- the vertical axis indicates the amount of change in audio power
- the horizontal axis indicates time.
- the change point detection unit 23 detects a point where the amount of change in the sound power becomes a maximum value larger than the predetermined value P0 as the change point C. Information on the time at which the change point C occurs is output to the conversation detection unit 24.
- the conversation detection unit 24 determines whether or not the number of change points C is greater than a predetermined number within a predetermined determination period T0 (see FIG. 3) based on the time information of the change points C. If the number of change points C is greater than the predetermined number within the determination period T0, it is determined that a human voice has been emitted. Further, when the change point C is equal to or less than a predetermined number within the determination period T0, it is determined that the region is other than a human voice. Thereby, the start position and the end position of each audio area B are detected. Therefore, the power conversion unit 21, the change amount detection unit 22, the change point detection unit 23, and the conversation detection unit 24 constitute discrimination means for discriminating between human voice and non-human voice with respect to voice data.
- the audio data sent to the encoder 25 is converted from an uncompressed digital audio signal into a compressed digital audio signal such as MP3 by the encoder 25.
- the compressed digital audio signal is recorded on the recording medium 5 together with the start position and end position data of each audio area B detected by the conversation detection unit 24.
- the audio data of the digital audio signal is taken out from the recording medium 5 and sent to the decoder 26 of the DSP 8.
- the compressed digital audio signal is converted into an uncompressed digital audio signal by the decoder 26.
- the uncompressed digital audio signal is converted into an analog audio signal by the D / A converter 9 and output from the speaker 10.
- FIG. 5 is a flowchart showing in more detail the operation of the audio recording / reproducing apparatus 1 during recording.
- the audio data is converted into audio power by the power conversion unit 21 in step # 11.
- the change amount detection unit 22 derives a change amount within a unit time (for example, 260 msec) of the audio power as shown in FIG.
- Steps # 13, # 21, # 22, and # 35 show the operation by the change point detector 23.
- Steps # 13, # 14, # 23 to # 34, and # 41 to # 44 show the operation of the conversation detecting unit 24.
- step # 13 the counter i (change point detector 23) and the counter k (conversation detector 24) are initialized and 0 is substituted.
- step # 14 the flag F indicating the voice area B is initialized and 0 is substituted.
- step # 21 the change point detector 23 monitors the amount of change in the audio power and waits until the change point C is detected. When the change point C is detected, the process proceeds to step # 22, and the current time at which the change point C is detected is substituted into the variable t (i). Since steps # 21 to # 44 are repeatedly performed as will be described later, each time the change point C is detected, the time of the change point C in the order of the variables t (0), t (1), t (2),. Is stored (indicated by an arrow in FIG. 3).
- step # 23 the value of the counter i is substituted into the counter j, the variable N for counting the change point C is initialized, and 0 is substituted.
- step # 24 it is determined whether or not the time difference between the current time and the variable t (j) is shorter than the determination period T0.
- step # 27 If the time difference between the current time and the variable t (j) is not shorter than the determination period T0, the process proceeds to step # 27.
- the time difference between the current time and the variable t (j) is shorter than the determination period T0, that is, when the time of the variable t (j) is within the determination period T0 retroactively from the current time, the process proceeds to step # 25.
- step # 25 the counter j is decremented and the variable N is incremented.
- step # 26 it is determined whether or not the counter j is smaller than zero. If the counter j is 0 or more, the process returns to step # 24. Thus, steps # 24 to # 26 are repeated for the number of variables t (j) in the determination period T0 retroactively from the current time, and the variable N becomes the number of change points C. If the counter j becomes smaller than 0 before the determination period T0 that has been traced back from the current time at the beginning of the process starts, the process proceeds to step # 27 because there is no data in the variable t (j).
- step # 27 it is determined whether or not the variable N is larger than the predetermined number N0.
- the variable N is equal to or less than the predetermined number N0, the change point C is small within the determination period T0, and it is determined as the non-voice area A, and the process proceeds to step # 31.
- the variable N is larger than the predetermined number N0, that is, when it is detected that the change point C is larger than the predetermined number N0 within the determination period T0, it is determined as the voice region B and the process proceeds to step # 41.
- step # 41 it is determined whether or not the flag F is 0.
- the flag F is 0, the state immediately before is the non-voice area A, and since the voice area B is entered, 1 is assigned to the flag F in step # 42.
- step # 43 the value of the variable t (j + 1) indicating the time of the leading change point C in the determination period T0 is substituted for the variable S (k) indicating the time of the start position of the audio area B.
- step # 44 the value of the variable t (i) indicating the time of the last change point C within the determination period T0 is substituted for the variable E (k) indicating the time of the end position of the audio area B.
- step # 41 When the flag F is 1 in the judgment of step # 41, since the voice area B is continued, the process proceeds to step # 44 and the variable E (k) indicating the time of the end position of the voice area B is updated. In step # 35, the counter i is incremented and the process returns to step # 21.
- step # 27 If it is determined that the non-voice area A is determined in step # 27, it is determined whether or not the flag F is 0 in step # 31. When the flag F is 0, the non-voice area A is continued, so the counter i is incremented at step # 35 and the process returns to step # 21. Thus, steps # 21 to # 31 are repeatedly performed, and whenever the change point C is detected, the data of the variable t (i) is accumulated and the number of change points C in the determination period T0 is detected.
- step # 31 If the flag F is 1 in step # 31, it is determined that the voice area B has been switched to the non-voice area A, and the process proceeds to step # 32.
- step # 32 0 is assigned to the flag F.
- step # 33 variables S (k) and E (k), which are the times of the start position and end position of the audio area B, are sent to the recording medium 5 and recorded together with the audio data.
- step # 34 the counter k is incremented, and the process returns to step # 21 via step # 35. As a result, the start position and end position of the next audio area B are detected.
- the operation unit 12 is operated to stop recording, the recording is stopped.
- audio data is taken out from the recording medium 5 and reproduced.
- the short-time playback unit 12a When the short-time playback unit 12a is operated, audio data and time data of the start position and end position of the audio area B are extracted from the recording medium 5. Then, the reproduction is started by detecting the start position (S (0)) of the first audio area B, and the reproduction is interrupted when the subsequent end position (E (0)) is detected. Similarly, the interval between the start position and the end position of the second and subsequent audio areas B is extracted and output in order.
- the discriminating means (the power conversion unit 21, the change amount detection unit 22, the change point detection unit 23, and the conversation detection unit) that discriminates between the voice region B of human speech and the non-speech region A other than human speech.
- the start position S (k) and the end position E (k) of the audio area B are recorded at the time of recording, and the playback is performed by extracting between the start position and the end position at the time of short playback. Therefore, it is possible to improve the convenience of the audio recording / reproducing apparatus 1 without requiring a complicated operation for cutting a silent part or noise.
- the detection of the change point C may be omitted when the audio power is smaller than the predetermined value in step # 21. As a result, even when the amount of change in the sound power is large, it is determined that the sound volume is low, and the non-voice area A is determined, and wasteful consumption of the memory 3 storing the variable t (i) can be suppressed.
- FIG. 6 is a flowchart showing an operation during recording of the audio recording / reproducing apparatus 1 of the second embodiment.
- the present embodiment is different from the first embodiment in the method of discriminating the non-voice area A and the voice area B.
- steps # 11 to # 14 and steps # 31 to # 44 are the same as those in FIG.
- step # 28 the change point detector 23 monitors the amount of change in the audio power and determines whether or not the change point C has been detected. When the change point C is not detected, the process proceeds to step # 29 to determine whether or not the determination period T0 has elapsed. If the determination period T0 has not elapsed, the process returns to step # 28, and steps # 28 and # 29 are repeated.
- Step # 41 If the change point C is detected within the determination period T0, it is determined that the voice region B has been entered, and the process proceeds to step # 41.
- Steps # 41 to # 44 are the same as in the first embodiment. However, in steps # 43 and # 44, the current time is substituted into variables S (k) and E (k) indicating the times of the start position and the end position of the audio area B.
- Step # 31 If no change point C is detected within the determination period T0, it is determined that the non-voice area A has been entered, and the process proceeds to step # 31. Steps # 31 to # 34 are the same as in the first embodiment.
- the start position S (k) and the end position E (k) of the audio area B are recorded during recording, and the interval between the start position and the end position is extracted. And play it. Therefore, it is possible to improve the convenience of the audio recording / reproducing apparatus 1 without requiring a complicated operation for cutting a silent part or noise.
- FIG. 7 is a block diagram showing the configuration of the audio recording / reproducing apparatus of the third embodiment.
- a skip button 12b is provided in the operation unit 12 in place of the short-time playback unit 12a (see FIG. 1).
- the skip button 12b skips to the beginning of the next audio area B during reproduction.
- Other configurations are the same as those of the first embodiment.
- FIG. 8 is a flowchart showing the operation of the audio recording / reproducing apparatus 1 during recording.
- the operation of step # 33 is different from that of the first embodiment shown in FIG. 5, and step # 44 is omitted. Since other parts are the same as those of the first embodiment, description thereof is omitted.
- step # 32 When 0 is substituted for the flag F in step # 32, the variable S (k), which is the time of the start position of the audio area B, is sent to the recording medium 5 and recorded together with the audio data in step # 33.
- step # 34 the counter k is incremented, and the process returns to step # 21 via step # 35.
- Step # 41 it is determined whether or not the flag F is 0.
- the flag F is 0, the state immediately before is the non-voice area A, and since the voice area B is entered, 1 is assigned to the flag F in step # 42.
- step # 43 the value of the variable t (j + 1) indicating the time of the leading change point C in the determination period T0 is substituted for the variable S (k) indicating the time of the start position of the audio area B.
- step # 35 the counter i is incremented and the process returns to step # 21. If the flag F is 1 in step # 41, the audio area B is continued, so steps # 42 and # 43 are omitted and the process proceeds to step # 35.
- audio data is taken out from the recording medium 5 and reproduced.
- the skip button 12b is operated during reproduction, audio data and time data at the start position of the audio area B are extracted from the recording medium 5. Then, the audio region B is reproduced while skipping to the start position (S (k)) of the next audio region B.
- the discriminating means (the power conversion unit 21, the change amount detection unit 22, the change point detection unit 23, and the conversation detection unit) that discriminates between the voice region B of human speech and the non-speech region A other than human speech. 24), the start position S (k) of the voice area B is recorded at the time of recording, and the playback is skipped to the start position of the next voice area B when the skip button 12b is operated. Therefore, it is possible to improve the convenience of the audio recording / reproducing apparatus 1 without requiring a complicated operation to cut the silent part and noise.
- the change point C in which the amount of change in voice power within a unit time is larger than a predetermined value P0 is greater than a predetermined number N0 within the determination period T0, it is determined as a human voice. For this reason, it is possible to discriminate human voice more easily and quickly than discriminating human voice by performing frequency decomposition of voice data within the determination period T0.
- the detection of the change point C may be omitted when the audio power is smaller than the predetermined value in step # 21. As a result, even when the amount of change in the sound power is large, it is determined that the sound volume is low, and the non-voice area A is determined, and wasteful consumption of the memory 3 storing the variable t (i) can be suppressed.
- FIG. 9 is a flowchart showing an operation during recording of the audio recording / reproducing apparatus 1 of the fourth embodiment.
- the present embodiment is different from the third embodiment in the method of discriminating the non-voice area A and the voice area B.
- steps # 11 to # 14 and steps # 31 to # 44 are the same as those in FIG.
- step # 28 the change point detector 23 monitors the amount of change in the audio power and determines whether or not the change point C has been detected. When the change point C is not detected, the process proceeds to step # 29 to determine whether or not the determination period T0 has elapsed. If the determination period T0 has not elapsed, the process returns to step # 28, and steps # 28 and # 29 are repeated.
- Step # 41 If the change point C is detected within the determination period T0, it is determined that the voice region B has been entered, and the process proceeds to step # 41.
- Steps # 41 to # 43 are the same as in the third embodiment. However, in step # 43, the current time is substituted into the variable S (k) indicating the time of the start position of the audio area B.
- Step # 31 If no change point C is detected within the determination period T0, it is determined that the non-voice area A has been entered, and the process proceeds to step # 31. Steps # 31 to # 34 are the same as in the third embodiment.
- the start position S (k) of the voice area B is recorded at the time of recording, and playback is performed by skipping to the next voice area B by operating the skip button 12b. Therefore, it is possible to improve the convenience of the audio recording / reproducing apparatus 1 without requiring a complicated operation for cutting a silent part or noise.
- the operation of discriminating between the non-voice area A and the voice area B shown in FIGS. 5, 6, 8, and 9 may be performed during reproduction.
- the change point C in which the amount of change in the unit time of the voice power is larger than the predetermined value P0 is greater than the predetermined number N0 within the determination period T0, it is determined as a human voice.
- the audio recording / reproducing apparatus 1 records and reproduces the sound
- the recording function may be omitted and only the reproduction may be performed.
- the operation of discriminating between the non-voice area A and the voice area B can be performed at the time of playback, and the convenience of the voice playback device can be improved.
- FIGS. 10 and 11 are a block diagram and a data flow diagram showing the configuration of the audio recording / reproducing apparatus of the fifth embodiment.
- a FIFO (First-In / First-Out) memory 4 is formed in the memory 3.
- the FIFO memory 4 sequentially stores audio data composed of digital audio signals output from the A / D converter 7, and stores a certain amount of audio data.
- the short-time playback unit 12a (see FIG. 1) of the operation unit 12 is omitted, and a recording start determination unit 27 is provided instead of the conversation detection unit 24 (see FIG. 2).
- Other parts are the same as those in the first embodiment.
- FIG. 12 shows an example of audio data composed of analog audio signals captured by the microphone 6.
- the voice data captured by the microphone 6 includes a non-voice area A due to noise such as a sound of hitting a desk or a sound of pulling a chair, and a voice area B of a human voice.
- the audio data of the analog audio signal is converted by the A / D converter 7 and the audio data of the digital audio signal is output.
- the audio data output from the A / D converter 7 is stored in the FIFO memory 4 and sent to the power converter 21 of the DSP 8.
- the power conversion unit 21 converts digital audio data into audio power and outputs the audio power to the change amount detection unit 22.
- the change amount detector 22 derives the change amount of the audio power within a unit time, and the change amount data is output to the change point detector 23.
- the change point detection unit 23 detects a point where the change amount of the voice power becomes a maximum value larger than the predetermined value P0 as the change point C. Information on the time at which the change point C occurs is output to the recording start determination unit 27.
- the recording start determination unit 27 determines whether or not the number of change points C is greater than a predetermined number within a predetermined determination period T0 (see FIG. 12) based on the time information of the change points C. If there are many change points C within the determination period T0, it is determined that a human voice has been emitted, and the start of recording is commanded. Therefore, the power conversion unit 21, the change amount detection unit 22, the change point detection unit 23, and the recording start determination unit 27 can determine a human voice with respect to the audio data.
- the audio data stored in the FIFO memory 4 is sent to the encoder 25 of the DSP 8 in response to a recording start command from the recording start determination unit 27.
- the encoder 25 converts the uncompressed digital audio signal into a compressed digital audio signal such as MP3.
- the compressed digital audio signal is recorded on the recording medium 5.
- the audio data of the digital audio signal is taken out from the recording medium 5 and sent to the decoder 26 of the DSP 8.
- the compressed digital audio signal is converted into an uncompressed digital audio signal by the decoder 26.
- the uncompressed digital audio signal is converted into an analog audio signal by the D / A converter 9 and output from the speaker 10.
- FIG. 13 is a flowchart showing in more detail the operation of the audio recording / reproducing apparatus 1 at the start of recording. Steps # 11 to # 13 and steps # 21 to # 35 are the same as those in the first embodiment shown in FIG.
- audio data is stored in the FIFO memory 4 in step # 10.
- the audio data is converted into audio power by the power converter 21.
- the change amount detection unit 22 derives a change amount within a unit time (for example, 260 msec) of the audio power as shown in FIG.
- Steps # 13, # 21, # 22, and # 35 show the operation by the change point detector 23.
- the counter i is initialized and 0 is substituted.
- the change point detector 23 monitors the amount of change in the audio power and waits until the change point C is detected.
- the process proceeds to step # 22, and the current time at which the change point C is detected is substituted into the variable t (i). Since steps # 21 to # 35 are repeatedly performed, each time the change point C is detected, the time of the change point C is stored in the order of the variables t (0), t (1), t (2),. (Indicated by arrows in FIG. 12).
- Steps # 23 to # 27 show the operation of the recording start determination unit 27.
- the value of the counter i is substituted for the counter j
- the variable N for counting the change point C is initialized, and 0 is substituted.
- step # 27 If the time difference between the current time and the variable t (j) is not shorter than the determination period T0, the process proceeds to step # 27.
- the time difference between the current time and the variable t (j) is shorter than the determination period T0, that is, when the time of the variable t (j) is within the determination period T0 retroactively from the current time, the process proceeds to step # 25.
- step # 25 the counter j is decremented and the variable N is incremented.
- step # 26 it is determined whether or not the counter j is smaller than zero. If the counter j is 0 or more, the process returns to step # 24. Thus, steps # 24 to # 26 are repeated for the number of variables t (j) in the determination period T0 retroactively from the current time, and the variable N becomes the number of change points C. If the counter j becomes smaller than 0 before the determination period T0 that has been traced back from the current time at the beginning of the process starts, the process proceeds to step # 27 because there is no data in the variable t (j).
- step # 27 it is determined whether or not the variable N is larger than the predetermined number N0.
- the variable N is equal to or less than the predetermined number N0, the change point C is small within the determination period T0, and it is determined as the non-voice area A.
- step # 35 the counter i is incremented and the process returns to step # 21. Thus, steps # 21 to # 35 are repeated, and whenever the change point C is detected, the data of the variable t (i) is accumulated to detect the number of change points C within the determination period T0.
- step # 36 the audio data is taken out from the FIFO memory 4 by the DSP 8, and the audio data is compressed by the encoder 25 to start recording. Thereby, recording is performed retroactively by the determination period T0. In addition, when the operation unit 12 is operated to stop recording, the recording is stopped.
- recording is performed by determining that the voice region B is captured when the change point C in which the amount of change in the unit time of the voice power is greater than the predetermined value P0 is greater than the predetermined number N0 within the determination period T0. Since it starts, the voice region B can be quickly determined. Accordingly, since the capacity of the FIFO memory 4 can be reduced, the cost of the audio recording / reproducing apparatus 1 (audio recording apparatus) can be reduced.
- the voice data in the FIFO memory 4 is taken out at the start of recording and recording is performed retroactively by the determination period T0, human voice can be recorded from the beginning. Therefore, the convenience of the audio recording / reproducing apparatus 1 can be improved.
- recording may be performed without providing the FIFO memory 4. At this time, recording cannot be performed only during the determination period T0 after capturing the human voice, but the determination period T0 can be shortened (for example, 1 second) because the voice region B can be quickly determined. Therefore, recording can be started quickly, and the convenience of the audio recording / reproducing apparatus 1 can be improved.
- the detection of the change point C may be omitted when the audio power is smaller than the predetermined value in step # 21.
- the detection of the change point C may be omitted when the audio power is smaller than the predetermined value in step # 21.
- the sound recording / reproducing apparatus 1 records and reproduces the sound, but the sound recording function may be omitted and only the recording may be performed.
- the present invention can be used for a voice recording / reproducing apparatus such as a voice recorder that records and reproduces voice on a recording medium. Further, according to the present invention, the present invention can be used for an audio reproducing apparatus that reproduces audio recorded on a recording medium. Furthermore, according to the present invention, the present invention can be used for a voice recording apparatus such as a voice recorder that records voice on a recording medium.
- Voice recording and playback device 2 CPU 3 Memory 4 FIFO Memory 5 Recording Medium 6
- Microphone 7 A / D Converter 8
- DSP 9 D / A conversion unit 10
- Speaker 11 Bus line 12 Operation unit 12a Time playback unit 12b Skip button 21
- Power conversion unit 22 Change amount detection unit 23 Change point detection unit 24
- Conversation detection unit 25 Encoder 26 Decoder 27 Recording start determination unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
マイク6により捉えた音声データを記録媒体5に記録して録音を行い、記録媒体5から音声データを取り出して再生を行う音声記録再生装置1において、人の音声と人の音声以外とを判別する判別手段21、22、23、24を備え、録音時に判別手段21、22、23、24によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力する。
Description
本発明は、音声情報を記録媒体に記録する音声記録装置に関する。また本発明は、音声を記録媒体に記録して再生する音声記録再生装置に関する。また本発明は、記録媒体に記録された音声を再生する音声再生装置に関する。
従来のボイスレコーダ等の音声記録再生装置は録音を開始すると会話等を行う人の音声を記録媒体に記録する。また、所定の操作によって記録媒体に格納された音声データが取り出され、再生が行われる。
しかしながら、上記従来の音声記録再生装置によると、録音時には人の音声に加えて、無音状態やノイズ(会議が始まる前の机を叩く音や椅子を引くような音等)等の人の音声以外の不要な音声データも記録媒体に記録される。このため、再生時に使用者は不要な部分をカットするため早送りや巻き戻し等の繁雑な作業を必要とし、音声記録再生装置の利便性が悪い問題があった。また、記録媒体に記録された音声データを取り出して再生を行う音声再生装置についても同様の問題がある。
一方、特許文献1には音声の記録時に無音部分をカットする音声記録装置が開示される。この音声記録装置は記録の開始を指示すると、マイクから捉えられた音声データを解析して音声の平均エネルギーが所定の閾値を超えた場合に録音が開始される。これにより、会議の始まり等の無音部分をカットして録音し、無駄な録音を省くことができる。
しかしながら、上記特許文献1に開示された音声記録装置によると、机を叩く音や椅子を引くような音等のノイズによって録音が開始され、メモリを無駄に消費する問題がある。
この問題を解決するため、特許文献2には人の音声か否かを判別して録音を開始する音声記録装置が開示される。この音声記録装置はマイクから入力される音声データから所定区間毎にパワースペクトルの平均値が導出される。無音の区間ではパワースペクトルが小さいためその平均値も小さく、上記のノイズは短時間であるためパワースペクトルの平均値が小さくなる。これにより、無音部分やノイズと人の音声とを区別することができる。従って、人の音声を捉えた時に録音を開始することができ、メモリの消費を抑制することができる。
しかしながら、上記特許文献2に開示された音声記録再生装置によると、マイクにより捉えた音声データを周波数分解し、パワースペクトルを取得して平均値が導出される。このため、人の音声を識別するための処理が重く、判別に時間がかかる。従って、録音の開始が遅れて音声記録装置の利便性が低下する問題があった。また、人の音声を判別する期間の音声データをメモリに記録しておいて判別後に遡って録音を行う場合には、大きなメモリ容量を必要としてコストがかかる問題もある。
本発明は、再生時の利便性を向上できる音声記録再生装置及び音声再生装置を提供することを目的とする。また本発明は、音声の記録時に人の音声を迅速に判別して利便性の向上やコストの削減を図ることのできる音声記録装置を提供することを目的とする。
上記目的を達成するために本発明は、マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力することを特徴としている。
この構成によると、録音の操作が行われると、マイクにより捉えた音声データが記録媒体に記録される。この時、判別手段によって音声データの人の音声の領域と人の音声以外の領域とを判別し、人の音声の各領域に対する開始位置及び終了位置が音声データとともに記録媒体に記録される。再生の操作が行われると、記録媒体から音声データが取り出されて再生が行われる。この時、人の音声の第1番目の領域の開始位置と終了位置との間を抽出して出力し、続いて第2番目以降の各領域の開始位置と終了位置との間を順に抽出して出力する。
また本発明は、マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置を記録するとともに、再生中に所定の操作によって次の前記開始位置にスキップさせることを特徴としている。
この構成によると、録音の操作が行われると、マイクにより捉えた音声データが記録媒体に記録される。この時、判別手段によって音声データの人の音声の領域と人の音声以外の領域とを判別し、人の音声の各領域に対する開始位置が音声データとともに記録媒体に記録される。再生の操作が行われると、記録媒体から音声データが取り出されて再生が行われる。再生中に所定の操作を行うと次の人の音声の領域の開始位置までスキップし、該領域の再生が行われる。
また本発明は、上記構成の音声記録再生装置において、前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断することを特徴としている。
この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として記憶する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声と判断して少ないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。
また本発明は、上記構成の音声記録再生装置において、前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点を検出したときに人の音声と判断することを特徴としている。
この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として記憶する。そして、所定の判定期間内に変化点が現われるか否かが監視され、現われたときに人の音声と判断して現われないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。
また本発明は、上記構成の音声記録再生装置において、前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴としている。この構成によると、マイクにより捉えられた音声データの音声パワーが所定値よりも小さいか否かが判別される。音声パワーが所定値よりも小さい場合は音声パワーの変化量が大きくても変化点の検出に対して無視される。
また本発明は、記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、前記判別手段によって判別した人の音声の開始位置とこれに続く終了位置との間を抽出して出力することを特徴としている。
この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として格納する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声と判断して少ないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。
また本発明は、記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、再生中に所定の操作によって前記判別手段によって判別した人の音声の次の開始位置にスキップさせることを特徴としている。
この構成によると、この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として格納する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声と判断して少ないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置が検出され、所定の操作によって次の人の音声の領域の開始位置にスキップして該領域の再生が行われる。
また本発明の音声記録装置は、マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに録音を開始することを特徴としている。
この構成によると、録音の開始の指示があると、マイクにより音声データが捉えられる。マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として格納する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声を捉えたと判断して録音が開始される。
また本発明は、上記構成の音声記録装置において、前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴としている。この構成によると、マイクにより捉えられた音声データの音声パワーが所定値よりも小さいか否かが判別される。音声パワーが所定値よりも小さい場合は音声パワーの変化量が大きくても変化点の検出に対して無視される。
また本発明は、上記構成の音声記録装置において、前記判定期間の音声データを蓄積するFIFOメモリを備え、録音開始時に前記FIFOメモリの音声データを取り出して前記判定期間だけ遡って録音を行うことを特徴としている。
この構成によると、録音の開始の指示があると、マイクにより捉えた音声データがFIFOメモリに格納される。判定期間で変化量検出部及び変化点検出部によって人の音声を捉えたと判断されると、FIFOメモリから音声データを取り出して録音される。これにより、判定期間だけ遡って人の音声の開始時から録音が行われる。
本発明の音声記録再生装置によると、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置の利便性を向上することができる。また、人の音声を録音時に判別するため再生時に判別時間を必要とせず、再生の遅延を防止することができる。
また、本発明の音声再生装置によると、人の音声を迅速に抽出して再生することができる。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声再生装置の利便性を向上することができる。
また、本発明の音声記録装置によると、音声パワーの単位時間内の変化量が所定値よりも大きい変化点が判定期間内に所定数よりも多いときに人の音声を捉えたと判断して録音を開始するので、人の音声を迅速に判別して音声記録装置の利便性を向上することができる。
以下に本発明の実施形態を図面を参照して説明する。図1は第1実施形態の音声記録再生装置の構成を示すブロック図である。音声記録再生装置1は音声を捉えるマイク6と音声を出力するスピーカ10とを備えている。マイク6に接続されるA/D変換部7はマイク6で捉えたアナログ音声信号をデジタル音声信号に変換する。
A/D変換部7にはA/D変換部7から出力されたデジタル音声信号から成る音声データに対する種々の処理を行うDSP(Digital Signal Processor)8が接続される。詳細を後述するように、DSP8に設けられるパワー変換部21、変化量検出部22、変化点検出部23及び会話検出部24(いずれも図2参照)によって人の音声と人の音声以外とを判別する処理を行う。また、DSP8に設けられるエンコーダ25及びデコーダ26(いずれも図2参照)によって音声コーデックによる音声データの圧縮や復号の処理を行う。
DSP8はバスライン11を介してCPU2、メモリ3、記録媒体5、操作部12が接続される。CPU2はDSP8等の各部を制御するとともに演算処理を行う。メモリ3はCPU2の演算処理の一時記憶を行う。記録媒体5はフラッシュメモリや磁気記録媒体等から成り、DSP8により圧縮されたデジタル音声信号の音声データを記録する。操作部12は使用者の操作によって音声の録音や再生の開始及び停止を指示する。また、操作部12は時短再生部12aによって時短再生の開始の指示を行う。
また、DSP8の出力側はD/A変換部9を介してスピーカ10に接続される。D/A変換部9はDSP8により記録媒体5の音声データを複合した非圧縮のデジタル音声信号をアナログ音声信号に変換する。
図2は音声記録再生装置1のデータフロー図を示している。操作部12による録音開始の指示によって音声がマイク6で捉えられる。図3はマイク6で捉えたアナログ音声信号から成る音声データの一例を示している。マイク6で捉えた音声データには、非音声領域Aと音声領域Bとが含まれる。非音声領域Aは机を叩く音や椅子を引くような音等のノイズや無音状態の人の音声以外の領域を示している。音声領域Bは人の音声の領域を示している。
アナログ音声信号の音声データはA/D変換部7で変換され、デジタル音声信号の音声データが出力される。A/D変換部7から出力された音声データはDSP8のパワー変換部21及びエンコーダ25に送られる。パワー変換部21はデジタルの音声データを音声パワーに変換して変化量検出部22に出力する。変化量検出部22は音声パワーの単位時間内の変化量を導出し、該変化量のデータが変化点検出部23に出力される。
図4は変化量検出部22により導出した音声パワーの変化量の一例を示す図である。同図において縦軸は音声パワーの変化量を示し、横軸は時間を示している。変化点検出部23は音声パワーの変化量が所定値P0よりも大きい極大値となる点を変化点Cとして検出する。そして、変化点Cが発生した時刻の情報が会話検出部24に出力される。
会話検出部24は変化点Cの時刻情報に基づいて所定の判定期間T0(図3参照)内で変化点Cが所定数よりも多いか否かを判断する。判定期間T0内で変化点Cが所定数よりも多い場合には人の音声が発せられたと判定する。また、判定期間T0内で変化点Cが所定数以下の場合には人の音声以外の領域であると判定する。これにより、各音声領域Bの開始位置と終了位置を検出する。従って、パワー変換部21、変化量検出部22、変化点検出部23及び会話検出部24により、音声データに対して人の音声と人の音声以外とを判別する判別手段を構成する。
一方、エンコーダ25に送られた音声データはエンコーダ25によって非圧縮のデジタル音声信号がMP3等の圧縮したデジタル音声信号に変換される。圧縮されたデジタル音声信号は会話検出部24で検出した各音声領域Bの開始位置と終了位置のデータとともに記録媒体5に記録される。
操作部12により再生の指示があると記録媒体5からデジタル音声信号の音声データが取り出され、DSP8のデコーダ26に送られる。圧縮されたデジタル音声信号はデコーダ26によって非圧縮のデジタル音声信号に変換される。非圧縮のデジタル音声信号はD/A変換部9でアナログ音声信号に変換され、スピーカ10から出力される。
図5は音声記録再生装置1の録音時の動作をより詳細に示すフローチャートである。操作部12による録音の指示があると、ステップ#11でパワー変換部21により音声データが音声パワーに変換される。ステップ#12では変化量検出部22により前述の図4に示すように音声パワーの単位時間(例えば、260msec)内の変化量が導出される。
ステップ#13、#21、#22、#35は変化点検出部23による動作を示している。また、ステップ#13、#14、#23~#34、#41~#44は会話検出部24の動作を示している。ステップ#13ではカウンタi(変化点検出部23)及びカウンタk(会話検出部24)を初期化して0が代入される。
ステップ#14では音声領域Bを示すフラグFを初期化して0が代入される。ステップ#21では変化点検出部23によって音声パワーの変化量を監視し、変化点Cを検出するまで待機する。変化点Cを検出するとステップ#22に移行し、変数t(i)に変化点Cを検出した現在時刻が代入される。後述するようにステップ#21~#44は繰り返し行われるため、変化点Cを検出する毎に変数t(0)、t(1)、t(2)、・・・の順に変化点Cの時刻が格納される(図3に矢印で示す)。
ステップ#23ではカウンタjにカウンタiの値が代入され、変化点Cを計数する変数Nを初期化して0が代入される。ステップ#24では現在時刻と変数t(j)との時間差が判定期間T0よりも短いか否かが判断される。
現在時刻と変数t(j)との時間差が判定期間T0よりも短くない場合はステップ#27に移行する。現在時刻と変数t(j)との時間差が判定期間T0よりも短い場合、即ち現在時刻から遡って変数t(j)の時刻が判定期間T0内である場合はステップ#25に移行する。
ステップ#25ではカウンタjがデクリメントされ、変数Nがインクリメントされる。ステップ#26ではカウンタjが0よりも小さいか否かが判断される。カウンタjが0以上の場合はステップ#24に戻る。これにより、現在時刻から遡って判定期間T0内の変数t(j)の個数だけステップ#24~#26が繰り返し行われ、変数Nが変化点Cの個数となる。また、処理の開始初期において現在時刻から遡った判定期間T0を経過する前にカウンタjが0よりも小さくなると、変数t(j)のデータがないためステップ#27に移行する。
ステップ#27では変数Nが所定数N0よりも大きいか否かが判断される。変数Nが所定数N0以下の場合は判定期間T0内に変化点Cが少なく、非音声領域Aと判断してステップ#31に移行する。変数Nが所定数N0よりも大きい場合、即ち判定期間T0内に変化点Cが所定数N0よりも多いことを検出すると、音声領域Bと判断してステップ#41に移行する。
ステップ#41ではフラグFが0か否かが判断される。フラグFが0の場合は直前が非音声領域Aの状態であり、音声領域Bに入ったためステップ#42でフラグFに1が代入される。ステップ#43では音声領域Bの開始位置の時刻を示す変数S(k)に判定期間T0内の先頭の変化点Cの時刻を示す変数t(j+1)の値が代入される。ステップ#44では音声領域Bの終了位置の時刻を示す変数E(k)に判定期間T0内の最後の変化点Cの時刻を示す変数t(i)の値が代入される。
ステップ#41の判断でフラグFが1の場合は音声領域Bが継続しているため、ステップ#44に移行して音声領域Bの終了位置の時刻を示す変数E(k)が更新される。そして、ステップ#35でカウンタiをインクリメントしてステップ#21に戻る。
ステップ#27で非音声領域Aと判断とした場合はステップ#31でフラグFが0か否かが判断される。フラグFが0の場合は非音声領域Aが継続しているため、ステップ#35でカウンタiをインクリメントしてステップ#21に戻る。これにより、ステップ#21~#31が繰り返し行われ、変化点Cを検出する毎に変数t(i)のデータを蓄積して判定期間T0内の変化点Cの個数が検出される。
ステップ#31でフラグFが1の場合は音声領域Bから非音声領域Aに切り替ったと判断し、ステップ#32に移行する。ステップ#32ではフラグFに0が代入される。ステップ#33では音声領域Bの開始位置及び終了位置の時刻である変数S(k)、E(k)が記録媒体5に送られ、音声データとともに記録される。ステップ#34ではカウンタkがインクリメントされ、ステップ#35を介してステップ#21に戻る。これにより、次の音声領域Bの開始位置及び終了位置が検出される。また、操作部12に録音停止の操作が行われると、録音が停止される。
また、通常の再生の操作が行われると、記録媒体5から音声データが取り出されて再生が行われる。時短再生部12aの操作が行われると、記録媒体5から音声データ及び音声領域Bの開始位置及び終了位置の時刻データが取り出される。そして、第1番目の音声領域Bの開始位置(S(0))を検出して再生が開始され、これに続く終了位置(E(0))を検出すると再生を中断する。同様に、第2番目以降の音声領域Bの開始位置と終了位置との間を順に抽出して出力する。
本実施形態によると、人の音声の音声領域Bと人の音声以外の非音声領域Aとを判別する判別手段(パワー変換部21、変化量検出部22、変化点検出部23及び会話検出部24)によって録音時に音声領域Bの開始位置S(k)と終了位置E(k)とを記録し、時短再生時に該開始位置と該終了位置との間を抽出して再生を行う。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置1の利便性を向上することができる。
また、音声パワーの単位時間内の変化量が所定値P0よりも大きい変化点Cが判定期間T0内に所定数N0よりも多いときに人の音声と判断する。このため、判定期間T0内の音声データの周波数分解等を行って人の音声を判別するよりも人の音声を容易且つ迅速に判別できる。
また、ステップ#21において音声パワーが所定値よりも小さい場合に変化点Cの検出を省いてもよい。これにより、音声パワーの変化量が大きくても音量が小さい場合に非音声領域Aと判断し、変数t(i)を格納するメモリ3の無駄な消費を抑制することができる。
次に、図6は第2実施形態の音声記録再生装置1の録音時の動作を示すフローチャートである。本実施形態は、非音声領域Aと音声領域Bとを判別する方法が第1実施形態と異なっている。同図において、ステップ#11~#14及びステップ#31~#44は前述の図5と同様であるので一部説明を省略する。
ステップ#28では変化点検出部23によって音声パワーの変化量を監視し、変化点Cを検出したか否かが判断される。変化点Cを検出しない場合はステップ#29に移行して判定期間T0が経過したか否かが判断される。判定期間T0が経過していない場合はステップ#28に戻り、ステップ#28、#29が繰り返し行われる。
判定期間T0内に変化点Cを検出すると音声領域Bに入ったと判断し、ステップ#41に移行する。ステップ#41~#44は第1実施形態と同様である。但し、ステップ#43、#44では音声領域Bの開始位置及び終了位置の時刻を示す変数S(k)、E(k)に現在時刻が代入される。
判定期間T0内に1つも変化点Cを検出しない場合は非音声領域Aに入ったと判断し、ステップ#31に移行する。ステップ#31~#34は第1実施形態と同様である。
本実施形態によると、第1実施形態と同様に、録音時に音声領域Bの開始位置S(k)と終了位置E(k)とを記録し、該開始位置と該終了位置との間を抽出して再生を行う。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置1の利便性を向上することができる。
また、判定期間T0内に1つでも変化点Cを検出したときに人の音声の音声領域Bと判断するので、変数t(i)(図5参照)を格納するメモリ3の容量を削減することができる。
次に、図7は第3実施形態の音声記録再生装置の構成を示すブロック図である。説明の便宜上、前述の図1~図2に示す第1実施形態と同様の部分には同一の符号を付している。本実施形態は、時短再生部12a(図1参照)に替えてスキップボタン12bが操作部12に設けられる。スキップボタン12bは再生中に次の音声領域Bの先頭にスキップさせる。その他の構成は第1実施形態と同様である。
図8は音声記録再生装置1の録音時の動作を示すフローチャートである。前述の図5に示す第1実施形態とステップ#33の動作が異なり、ステップ#44が省かれている。その他の部分は第1実施形態と同一であるので説明を省略する。
ステップ#32でフラグFに0が代入されると、ステップ#33では音声領域Bの開始位置の時刻である変数S(k)が記録媒体5に送られ、音声データとともに記録される。ステップ#34ではカウンタkがインクリメントされ、ステップ#35を介してステップ#21に戻る。
また、ステップ#41ではフラグFが0か否かが判断される。フラグFが0の場合は直前が非音声領域Aの状態であり、音声領域Bに入ったためステップ#42でフラグFに1が代入される。ステップ#43では音声領域Bの開始位置の時刻を示す変数S(k)に判定期間T0内の先頭の変化点Cの時刻を示す変数t(j+1)の値が代入される。そして、ステップ#35でカウンタiをインクリメントしてステップ#21に戻る。ステップ#41の判断でフラグFが1の場合は音声領域Bが継続しているため、ステップ#42、#43を省いてステップ#35に移行する。
通常の再生の操作が行われると、記録媒体5から音声データが取り出されて再生が行われる。再生中にスキップボタン12bの操作が行われると、記録媒体5から音声データ及び音声領域Bの開始位置の時刻データが取り出される。そして、次の音声領域Bの開始位置(S(k))までスキップして該音声領域Bの再生が行われる。
本実施形態によると、人の音声の音声領域Bと人の音声以外の非音声領域Aとを判別する判別手段(パワー変換部21、変化量検出部22、変化点検出部23及び会話検出部24)によって録音時に音声領域Bの開始位置S(k)を記録し、スキップボタン12bの操作時に次の音声領域Bの開始位置までスキップして再生を行う。従って、無音部分やノイズをカットするために煩雑な操作を必要とせず、音声記録再生装置1の利便性を向上することができる。
また、第1実施形態と同様に、音声パワーの単位時間内の変化量が所定値P0よりも大きい変化点Cが判定期間T0内に所定数N0よりも多いときに人の音声と判断する。このため、判定期間T0内の音声データの周波数分解等を行って人の音声を判別するよりも人の音声を容易且つ迅速に判別できる。
また、ステップ#21において音声パワーが所定値よりも小さい場合に変化点Cの検出を省いてもよい。これにより、音声パワーの変化量が大きくても音量が小さい場合に非音声領域Aと判断し、変数t(i)を格納するメモリ3の無駄な消費を抑制することができる。
次に、図9は第4実施形態の音声記録再生装置1の録音時の動作を示すフローチャートである。本実施形態は、非音声領域Aと音声領域Bとを判別する方法が第3実施形態と異なっている。同図において、ステップ#11~#14及びステップ#31~#44は前述の図8と同様であるので一部説明を省略する。
ステップ#28では変化点検出部23によって音声パワーの変化量を監視し、変化点Cを検出したか否かが判断される。変化点Cを検出しない場合はステップ#29に移行して判定期間T0が経過したか否かが判断される。判定期間T0が経過していない場合はステップ#28に戻り、ステップ#28、#29が繰り返し行われる。
判定期間T0内に変化点Cを検出すると音声領域Bに入ったと判断し、ステップ#41に移行する。ステップ#41~#43は第3実施形態と同様である。但し、ステップ#43では音声領域Bの開始位置の時刻を示す変数S(k)に現在時刻が代入される。
判定期間T0内に1つも変化点Cを検出しない場合は非音声領域Aに入ったと判断し、ステップ#31に移行する。ステップ#31~#34は第3実施形態と同様である。
本実施形態によると、第3実施形態と同様に、録音時に音声領域Bの開始位置S(k)を記録し、スキップボタン12bの操作によって次の音声領域Bにスキップして再生を行う。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置1の利便性を向上することができる。
また、判定期間T0内に1つでも変化点Cを検出したときに人の音声の音声領域Bと判断するので、変数t(i)(図8参照)を格納するメモリ3の容量を削減することができる。
第1~第4実施形態において、図5、図6、図8、図9に示す非音声領域Aと音声領域Bとを判別する動作を再生時に行ってもよい。この時、音声パワーの単位時間内の変化量が所定値P0よりも大きい変化点Cが判定期間T0内に所定数N0よりも多いときに人の音声と判断する。このため、判定期間T0内の音声データの周波数分解等を行って人の音声を判別するよりも人の音声を容易且つ迅速に判別でき、再生の遅延を防止することができる。
尚、第1~第4実施形態に示すように人の音声を録音時に判別すると、再生時に判別時間を必要とせず再生の遅延をより確実に防止することができる。
また、音声記録再生装置1により音声の録音及び再生を行っているが、録音機能を省いて再生のみを行ってもよい。この時、上記の非音声領域Aと音声領域Bとを判別する動作を再生時に行って音声再生装置の利便性を向上することができる。
次に、図10、図11は第5実施形態の音声記録再生装置の構成を示すブロック図及びデータフロー図を示している。説明の便宜上、前述の図1~図5に示す第1実施形態と同様の部分には同一の符号を付している。本実施形態の第1実施形態と異なる点は、メモリ3内にFIFO(First-In/First-Out)メモリ4が形成される。FIFOメモリ4はA/D変換部7から出力されるデジタル音声信号から成る音声データを順次記憶して一定量の音声データを格納する。
また、操作部12の時短再生部12a(図1参照)が省かれるとともに、会話検出部24(図2参照)に替えて録音開始判定部27が設けられる。その他の部分は第1実施形態と同様である。
操作部12による録音開始の指示によって音声がマイク6で捉えられる。図12はマイク6で捉えたアナログ音声信号から成る音声データの一例を示している。マイク6で捉えた音声データには、机を叩く音や椅子を引くような音等のノイズによる非音声領域Aと、人の音声の音声領域Bとが含まれる。アナログ音声信号の音声データはA/D変換部7で変換され、デジタル音声信号の音声データが出力される。A/D変換部7から出力された音声データはFIFOメモリ4に蓄積されるとともに、DSP8のパワー変換部21に送られる。
パワー変換部21はデジタルの音声データを音声パワーに変換して変化量検出部22に出力する。変化量検出部22は音声パワーの単位時間内の変化量を導出し、該変化量のデータが変化点検出部23に出力される。
前述の図4に示すように、変化点検出部23は音声パワーの変化量が所定値P0よりも大きい極大値となる点を変化点Cとして検出する。そして、変化点Cが発生した時刻の情報が録音開始判定部27に出力される。
録音開始判定部27は変化点Cの時刻情報に基づいて所定の判定期間T0(図12参照)内で変化点Cが所定数よりも多いか否かを判断する。判定期間T0内で変化点Cが多い場合には人の音声が発せられたと判定して録音の開始を命令する。従って、パワー変換部21、変化量検出部22、変化点検出部23及び録音開始判定部27により、音声データに対して人の音声を判別することができる。
一方、FIFOメモリ4に蓄積された音声データは録音開始判定部27による録音の開始命令により、DSP8のエンコーダ25に送られる。エンコーダ25によって非圧縮のデジタル音声信号がMP3等の圧縮したデジタル音声信号に変換される。圧縮されたデジタル音声信号は記録媒体5に記録される。
操作部12により再生の指示があると記録媒体5からデジタル音声信号の音声データが取り出され、DSP8のデコーダ26に送られる。圧縮されたデジタル音声信号はデコーダ26によって非圧縮のデジタル音声信号に変換される。非圧縮のデジタル音声信号はD/A変換部9でアナログ音声信号に変換され、スピーカ10から出力される。
図13は音声記録再生装置1の録音開始時の動作をより詳細に示すフローチャートである。尚、ステップ#11~#13及びステップ#21~#35は前述の図5に示す第1実施形態と同様である。操作部12による録音の指示があると、ステップ#10でFIFOメモリ4に音声データが蓄積される。ステップ#11ではパワー変換部21により音声データが音声パワーに変換される。ステップ#12では変化量検出部22により前述の図4に示すように音声パワーの単位時間(例えば、260msec)内の変化量が導出される。
ステップ#13、#21、#22、#35は変化点検出部23による動作を示している。ステップ#13ではカウンタiを初期化して0が代入される。ステップ#21では変化点検出部23によって音声パワーの変化量を監視し、変化点Cを検出するまで待機する。変化点Cを検出するとステップ#22に移行し、変数t(i)に変化点Cを検出した現在時刻が代入される。ステップ#21~#35は繰り返し行われるため、変化点Cを検出する毎に変数t(0)、t(1)、t(2)、・・・の順に変化点Cの時刻が格納される(図12に矢印で示す)。
ステップ#23~#27は録音開始判定部27の動作を示している。ステップ#23ではカウンタjにカウンタiの値が代入され、変化点Cを計数する変数Nを初期化して0が代入される。ステップ#24では現在時刻と変数t(j)との時間差が判定期間T0よりも短いか否かが判断される。
現在時刻と変数t(j)との時間差が判定期間T0よりも短くない場合はステップ#27に移行する。現在時刻と変数t(j)との時間差が判定期間T0よりも短い場合、即ち現在時刻から遡って変数t(j)の時刻が判定期間T0内である場合はステップ#25に移行する。
ステップ#25ではカウンタjがデクリメントされ、変数Nがインクリメントされる。ステップ#26ではカウンタjが0よりも小さいか否かが判断される。カウンタjが0以上の場合はステップ#24に戻る。これにより、現在時刻から遡って判定期間T0内の変数t(j)の個数だけステップ#24~#26が繰り返し行われ、変数Nが変化点Cの個数となる。また、処理の開始初期において現在時刻から遡った判定期間T0を経過する前にカウンタjが0よりも小さくなると、変数t(j)のデータがないためステップ#27に移行する。
ステップ#27では変数Nが所定数N0よりも大きいか否かが判断される。変数Nが所定数N0以下の場合は判定期間T0内に変化点Cが少なく、非音声領域Aと判断する。そして、ステップ#35でカウンタiをインクリメントしてステップ#21に戻る。これにより、ステップ#21~#35が繰り返し行われ、変化点Cを検出する毎に変数t(i)のデータを蓄積して判定期間T0内の変化点Cの個数が検出される。
変数Nが所定数N0よりも大きい場合、即ち判定期間T0内に変化点Cが所定数N0よりも多いことを検出すると、音声領域Bを捉えたと判断してステップ#36に移行する。ステップ#36ではDSP8によりFIFOメモリ4から音声データが取り出され、エンコーダ25により音声データを圧縮して録音を開始する。これにより、判定期間T0だけ遡って録音が行われる。また、操作部12に録音停止の操作が行われると、録音が停止される。
本実施形態によると、音声パワーの単位時間内の変化量が所定値P0よりも大きい変化点Cが判定期間T0内に所定数N0よりも多いときに音声領域Bを捉えたと判断して録音を開始するので、音声領域Bを迅速に判別できる。従って、FIFOメモリ4の容量を削減することができるため、音声記録再生装置1(音声記録装置)のコストを削減することができる。
また、録音開始時にFIFOメモリ4の音声データを取り出して判定期間T0だけ遡って録音を行うので、人の音声を最初から録音することができる。従って、音声記録再生装置1の利便性を向上することができる。
尚、FIFOメモリ4を設けずに録音を行ってもよい。この時、人の音声を捉えてから判定期間T0だけ録音ができないが、音声領域Bを迅速に判別できるため判定期間T0を短く(例えば、1秒)することができる。従って、録音を迅速に開始することができ、音声記録再生装置1の利便性を向上することができる。
また、ステップ#21において音声パワーが所定値よりも小さい場合に変化点Cの検出を省いてもよい。これにより、音声パワーの変化量が大きくても音量が小さい場合にノイズによる非音声領域Aと判断し、変数t(i)を格納するメモリ3の無駄な消費を抑制することができる。
本実施形態において、音声記録再生装置1により音声の録音及び再生を行っているが、再生機能を省いて録音のみを行ってもよい。
本発明によると、音声を記録媒体に記録して再生するボイスレコーダ等の音声記録再生装置に利用することができる。また本発明によると、記録媒体に記録された音声を再生する音声再生装置に利用することができる。また本発明によると、音声を記録媒体に記録するボイスレコーダ等の音声記録装置に利用することができる。
1 音声記録再生装置
2 CPU
3 メモリ
4 FIFOメモリ
5 記録媒体
6 マイク
7 A/D変換部
8 DSP
9 D/A変換部
10 スピーカ
11 バスライン
12 操作部
12a 時短再生部
12b スキップボタン
21 パワー変換部
22 変化量検出部
23 変化点検出部
24 会話検出部
25 エンコーダ
26 デコーダ
27 録音開始判定部
2 CPU
3 メモリ
4 FIFOメモリ
5 記録媒体
6 マイク
7 A/D変換部
8 DSP
9 D/A変換部
10 スピーカ
11 バスライン
12 操作部
12a 時短再生部
12b スキップボタン
21 パワー変換部
22 変化量検出部
23 変化点検出部
24 会話検出部
25 エンコーダ
26 デコーダ
27 録音開始判定部
Claims (11)
- マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力することを特徴とする音声記録再生装置。
- マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置を記録するとともに、再生中に所定の操作によって次の前記開始位置にスキップさせることを特徴とする音声記録再生装置。
- 前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断することを特徴とする請求項1または請求項2に記載の音声記録再生装置。
- 前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴とする請求項3に記載の音声記録再生装置。
- 前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点を検出したときに人の音声と判断することを特徴とする請求項1または請求項2に記載の音声記録再生装置。
- 前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴とする請求項5に記載の音声記録再生装置。
- 記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、前記判別手段によって判別した人の音声の開始位置とこれに続く終了位置との間を抽出して出力することを特徴とする音声再生装置。
- 記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、再生中に所定の操作によって前記判別手段によって判別した人の音声の次の開始位置にスキップさせることを特徴とする音声再生装置。
- マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに録音を開始することを特徴とする音声記録装置。
- 前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴とする請求項9に記載の音声記録装置。
- 前記判定期間の音声データを蓄積するFIFOメモリを備え、録音開始時に前記FIFOメモリの音声データを取り出して前記判定期間だけ遡って録音を行うことを特徴とする請求項9または請求項10に記載の音声記録装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/265,797 US20120051550A1 (en) | 2009-04-21 | 2010-03-04 | Sound recording device, sound playback device, and sound recording/playback device |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009102694A JP2010257500A (ja) | 2009-04-21 | 2009-04-21 | 音声記録再生装置及び音声再生装置 |
JP2009102693A JP2010256389A (ja) | 2009-04-21 | 2009-04-21 | 音声記録装置 |
JP2009-102693 | 2009-04-21 | ||
JP2009-102694 | 2009-04-21 | ||
JP2009-108268 | 2009-04-27 | ||
JP2009108268A JP2010256722A (ja) | 2009-04-27 | 2009-04-27 | 音声記録再生装置及び音声再生装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2010122843A1 true WO2010122843A1 (ja) | 2010-10-28 |
Family
ID=43010966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/053514 WO2010122843A1 (ja) | 2009-04-21 | 2010-03-04 | 音声記録装置、音声再生装置及び音声記録再生装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120051550A1 (ja) |
WO (1) | WO2010122843A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230230613A1 (en) * | 2022-01-18 | 2023-07-20 | Oracle International Corporation | Computerized distress call detection and authentication |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9852721B2 (en) | 2015-09-30 | 2017-12-26 | Apple Inc. | Musical analysis platform |
US9824719B2 (en) * | 2015-09-30 | 2017-11-21 | Apple Inc. | Automatic music recording and authoring tool |
US9804818B2 (en) | 2015-09-30 | 2017-10-31 | Apple Inc. | Musical analysis platform |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07271400A (ja) * | 1994-04-01 | 1995-10-20 | Olympus Optical Co Ltd | 音声データ記録装置 |
JPH11202896A (ja) * | 1998-01-14 | 1999-07-30 | Kokusai Electric Co Ltd | 音声高域強調方法及び音声高域強調装置 |
JP2002271752A (ja) * | 2001-03-13 | 2002-09-20 | Matsushita Electric Ind Co Ltd | 信号処理装置及び信号処理方法 |
JP2002287800A (ja) * | 2001-03-28 | 2002-10-04 | Toshiba Corp | 音声信号処理装置 |
JP2005221565A (ja) * | 2004-02-03 | 2005-08-18 | Nec Saitama Ltd | 音声データファイル格納方法および録音処理装置 |
JP2008015481A (ja) * | 2006-06-08 | 2008-01-24 | Audio Technica Corp | 音声会議装置 |
-
2010
- 2010-03-04 US US13/265,797 patent/US20120051550A1/en not_active Abandoned
- 2010-03-04 WO PCT/JP2010/053514 patent/WO2010122843A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07271400A (ja) * | 1994-04-01 | 1995-10-20 | Olympus Optical Co Ltd | 音声データ記録装置 |
JPH11202896A (ja) * | 1998-01-14 | 1999-07-30 | Kokusai Electric Co Ltd | 音声高域強調方法及び音声高域強調装置 |
JP2002271752A (ja) * | 2001-03-13 | 2002-09-20 | Matsushita Electric Ind Co Ltd | 信号処理装置及び信号処理方法 |
JP2002287800A (ja) * | 2001-03-28 | 2002-10-04 | Toshiba Corp | 音声信号処理装置 |
JP2005221565A (ja) * | 2004-02-03 | 2005-08-18 | Nec Saitama Ltd | 音声データファイル格納方法および録音処理装置 |
JP2008015481A (ja) * | 2006-06-08 | 2008-01-24 | Audio Technica Corp | 音声会議装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230230613A1 (en) * | 2022-01-18 | 2023-07-20 | Oracle International Corporation | Computerized distress call detection and authentication |
Also Published As
Publication number | Publication date |
---|---|
US20120051550A1 (en) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2010122843A1 (ja) | 音声記録装置、音声再生装置及び音声記録再生装置 | |
JP4630876B2 (ja) | 話速変換方法及び話速変換装置 | |
KR100943597B1 (ko) | 비디오 트릭 모드동안 게이티드 사일런스 제거 | |
US20050096764A1 (en) | Sound-activated recording, transmission, and playback | |
JP2008241850A (ja) | 録音または再生装置 | |
JP4212253B2 (ja) | 話速変換装置 | |
JP2009075280A (ja) | コンテンツ再生装置 | |
JP2010256722A (ja) | 音声記録再生装置及び音声再生装置 | |
JP2010257500A (ja) | 音声記録再生装置及び音声再生装置 | |
JP4134844B2 (ja) | 聴覚補助装置 | |
JP4127155B2 (ja) | 聴覚補助装置 | |
JP2007183410A (ja) | 情報再生装置および方法 | |
JP2001056700A (ja) | 音声記録再生装置 | |
JP2010256389A (ja) | 音声記録装置 | |
JP2002116784A (ja) | 情報信号処理装置、情報信号処理方法、情報信号記録再生装置及び情報信号記録媒体 | |
CN1954368A (zh) | 播放装置以及播放方法 | |
JPH0854895A (ja) | 再生装置 | |
JP2000020091A (ja) | 音声記録再生装置 | |
JP3373865B2 (ja) | 留守番電話機 | |
JP2007158526A (ja) | 発話抑制装置、発話抑制方法および発話抑制装置のプログラム | |
JP2002287800A (ja) | 音声信号処理装置 | |
JP4680122B2 (ja) | 話速変換装置及びテレビジョン受像機並びに話速変換方法 | |
JP2010008938A (ja) | ボイスレコーダー、及び音声録音方法 | |
JPH1152995A (ja) | 音声再生装置 | |
JP2006317768A (ja) | 話速変換装置、及びこの話速変換装置を制御する話速変換プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10766902 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13265797 Country of ref document: US |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 10766902 Country of ref document: EP Kind code of ref document: A1 |