JP4580297B2 - Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit - Google Patents
Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit Download PDFInfo
- Publication number
- JP4580297B2 JP4580297B2 JP2005204211A JP2005204211A JP4580297B2 JP 4580297 B2 JP4580297 B2 JP 4580297B2 JP 2005204211 A JP2005204211 A JP 2005204211A JP 2005204211 A JP2005204211 A JP 2005204211A JP 4580297 B2 JP4580297 B2 JP 4580297B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speed ratio
- audio
- speech
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
Description
本発明は、音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路に関し、より特定的には、再生速度を変換して再生する音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路に関する。 The present invention relates to an audio reproducing device, an audio recording / reproducing device, and a method thereof, a recording medium, and an integrated circuit. More specifically, the present invention relates to an audio reproducing device, an audio recording / reproducing device, and the like that convert and reproduce the reproducing speed. And a recording medium and an integrated circuit.
従来、予め記録された音声を再生する音声再生装置において、声の高さを変えることなく、より高速に再生する方法が知られている(例えば、特許文献1参照)。特許文献1に開示された音声再生装置では、音声信号全体を指定速度で再生するとき、音声区間については部分的に再生速度比を低速化している。これにより、特許文献1に開示された従来の音声再生装置は、情報の欠落が少なく、聴き取りやすい再生音声を提供することができる。
以下、図11を参照して、上記特許文献1に開示された従来の音声再生装置9について、具体的に説明する。図11は、従来の音声再生装置9の構成を示すブロック図である。図11において、従来の音声再生装置9は、音響分析部91、話速変換部92、非音声区間長制御部93、および合成部94を備える。
Hereinafter, with reference to FIG. 11, the conventional
音響分析部91は、入力される音声データに対して、予め設定されているパワー閾値に基づき音声区間および非音声区間を判別する。そして、音響分析部91は、音声区間および非音声区間の時間情報をそれぞれ求める。図11に示す従来の音声再生装置9では、音響分析部91において判別された音声区間および非音声区間に対して、異なる再生処理を適用する。音響分析部91で判別された音声区間の音声データおよび上記各時間情報は、話速変換部92に出力される。音響分析部91で判別された非音声区間の音声データは、非音声区間長制御部93に出力される。
The
話速変換部92は、まず音声区間の音声データと上記各時間情報とに基づいて、一定時間長以上の非音声区間に挟まれた音声区間を特定する。そして、話速変換部92は、当該音声区間の冒頭部分の速度比を所定速度比より遅く、末尾に向けて次第に所定速度比に戻すような速度比制御を行う。速度比が制御された音声区間の音声データは、合成部94に出力される。また、話速変換部92は、波形の伸長処理によって生じる音声区間の遅延時間情報を非音声区間長制御部93に出力する。
The speech
一方、非音声区間長制御部93では、話速変換部92から出力された上記遅延時間情報に基づいて、非音声区間の音声データに対して削除および圧縮する処理を適宜行う。つまり、非音声区間長制御部93では、目標の指定速度比に合うように、かつ、話速変換部92で生じた音声区間の遅延を解消するような処理が行われる。非音声区間長制御部93において処理された非音声区間の音声データは、合成部94に出力される。
On the other hand, the non-speech section
合成部94は、話速変換部92から出力された音声区間の音声データと、非音声区間長制御部93から出力された非音声区間の音声データとを合成する。そして、合成部94は、速度比が変換された音声区間と非音声区間とが合成された音声データを変換音声データとして、最終的な再生音声を出力する。
The
上記従来の音声再生装置9では、例えば指定速度としてm倍速(mは1以上の正数)が与えられたとき、音声区間の冒頭部分ではm倍速より遅い速度比で再生する。そして、従来の音声再生装置9は、音声区間の末尾に向かって次第に再生速度比を速くする。ここで、一般的に音声区間の冒頭部分には、重要な情報が含まれている場合が多い。したがって、従来の音声再生装置9によれば、音声区間の冒頭部分にある重要な情報を欠落させることなく、聴きとりやすい再生を実現することができる。このように従来の音声再生装置9では、音声区間については聴き取りやすい処理が、非音声区間については指定速度比に適応するような処理がそれぞれ行われている。
In the conventional
ここで、高速再生時には、音声の発話速度が速くなり、ユーザにとって内容を理解するための負荷が大きくなる。さらに、番組全体の中で音声区間が偏って集中すると(音声が連続的に発声されると)、ユーザにとってさらに理解が困難になる。しかしながら、上記従来の音声再生装置9では、一つの音声区間の中で再生速度比を変更することのみを想定している。つまり、上記従来の音声再生装置9では、例えばテレビ番組などの全体を通して、同一の速度比制御処理が適用される。したがって、従来の音声再生装置9においては、音声区間が偏って集中する部分で相対的に音声の内容の聴き取りが困難になるという本質的課題があった。
Here, at the time of high-speed playback, the speech utterance speed increases, and the load for the user to understand the content increases. Furthermore, if the voice sections are concentrated and concentrated in the entire program (if the voice is continuously uttered), it becomes more difficult for the user to understand. However, the conventional
それ故、本発明の目的は、テレビなどの番組全体を考慮した最適な速度比制御を行って、より聴き取りやすい再生を実現する音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、および集積回路を提供することを目的とする。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide an audio reproducing device, an audio recording / reproducing device, and a method and a recording medium for realizing an easy-to-listen reproduction by performing optimum speed ratio control in consideration of the entire program such as a television. And to provide an integrated circuit.
第1の発明は、入力される音声信号に音声速度変換処理を適用して通常より再生時間を短縮して当該音声信号を聴取するための音声再生装置であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に基づき、所定時間長に対して当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さな値に変更し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きな値に変更する速度比算出部とを備え、音声含有率の時間的な変動に対して適応的に音声区間の速度比を調整する速度制御を行うものである。 A first aspect of the present invention is an audio reproduction apparatus for listening to an audio signal by applying an audio speed conversion process to the input audio signal to shorten the reproduction time from the normal time and listening to the audio signal. at least calculating a discrimination unit for discriminating between non-speech section without the voice section and a voice, based on the speech segment and the non-speech interval, the speech content indicating a ratio that contains the audio section by pairs in a predetermined time length, including The speed ratio of the voice information calculation unit and the speed ratio of the voice speed conversion processing is set in advance as a reference value, and the speed of the voice section in the predetermined time length when the voice content rate of the predetermined time length is relatively high change the ratios to Do value smaller than the reference value, the speed ratio to change the speed ratio of the speech interval to larger than the reference value in the predetermined time length when the sound content of the predetermined time length is relatively low and a calculation unit, sound Ru der performs adaptive speed control for adjusting the speed ratio of the speech segment relative temporal variations of the content.
第2の発明は、上記第1の発明において、速度比算出部は、ユーザの操作に応じて短縮された再生時間を設定し、音声区間における変更した速度比に基づいて、音声信号の再生時間が設定された再生時間となるように非音声区間の速度比を算出することを特徴とする。 In a second aspect based on the first invention, the speed ratio calculating section sets the shortened playback time in accordance with the operation by the user, based on the speed ratio change in the speech interval, reproduction of the audio signal The speed ratio of the non-speech section is calculated so that the playback time is set as the time.
第3の発明は、上記第2の発明において、速度比算出部は、設定された再生時間内において非音声区間の速度比を一定に算出することを特徴とする。 According to a third aspect, in the second aspect, the speed ratio calculation unit calculates the speed ratio of the non-speech section to be constant within the set reproduction time.
第4の発明は、上記第1の発明において、速度比算出部は、所定時間長の設定値を選択することによって音声含有率の時間的な変動に対する音声区間の速度比の適応度合いを可変することを特徴とする。 A fourth aspect of the invention is variable in the first aspect, velocity ratio calculation unit, the adaptation degree of the speed ratio of the speech intervals for the temporal variation of the sound content by selecting a set value of the predetermined time length It is characterized by doing.
第5の発明は、上記第1の発明において、音声再生装置は、入力される音声信号のうち、少なくとも所定時間長分の音声信号を含むように当該音声信号を順次更新しながら記録するバッファと、バッファに記録された音声信号に対して音声速度変換処理を行って出力する速度変換部とを、さらに備え、判別部は、バッファに記録された所定時間長の音声信号に対して音声区間と非音声区間とを判別し、音声情報算出部は、さらに、所定時間長の音声含有率に関する統計値を算出して、これまでに算出した統計値を単位時間毎に順次更新し、速度比算出部は、単位時間ごとに更新される統計値および当該更新時の所定時間長に設定された音声含有率に応じて音声区間の速度比を算出し、速度変換部は、バッファで順次更新される音声信号に対して、単位時間ごとに算出された音声区間の速度比を用いて順次音声速度変換処理を行うことを特徴とする。 In a fifth aspect based on the first aspect, the audio reproduction device includes a buffer for recording the audio signal while sequentially updating the audio signal to include at least a predetermined time length of the audio signal. A speed conversion unit that performs an audio speed conversion process on the audio signal recorded in the buffer and outputs the audio signal, and a determination unit includes an audio section for the audio signal of a predetermined time length recorded in the buffer. The voice information calculation unit further determines a non-voice section, calculates a statistical value related to the voice content rate of a predetermined time length, and sequentially updates the statistical value calculated so far for each unit time, thereby calculating a speed ratio. The unit calculates the speed ratio of the voice section according to the statistical value updated every unit time and the voice content rate set to the predetermined time length at the time of the update, and the speed conversion unit is sequentially updated in the buffer For audio signals Characterized by sequentially performing the voice speed conversion processing by using the speed ratio of the speech interval calculated for each unit time.
第6の発明は、上記第1の発明において、音声情報算出部は、所定時間長の音声含有率に関する統計値をさらに算出し、速度比算出部は、統計値および所定時間長の音声含有率に応じて音声区間の速度比を算出することを特徴とする。 In a sixth aspect based on the first aspect, the voice information calculation unit further calculates a statistical value related to the voice content rate of a predetermined time length, and the speed ratio calculation unit calculates the statistical value and the voice content rate of a predetermined time length. The speed ratio of the voice section is calculated according to the above.
第7の発明は、上記第5または6の発明において、統計値は、所定時間長の音声含有率の平均値および標準偏差であることを特徴とする。 According to a seventh invention, in the fifth or sixth invention, the statistical value is an average value and a standard deviation of a voice content rate having a predetermined time length .
第8の発明は、上記第7の発明において、速度比算出部は、所定時間長における音声含有率の平均値に対する差分値および標準偏差によって得られる値を用いて算出される係数を速度比の基準値に乗じて、音声区間の速度比を算出することを特徴とする。 Eighth aspect of the present invention is described above in the seventh aspect, the speed ratio calculating unit, the difference value and the speed ratio coefficient calculated using the standard deviation therefore obtained value to the average value of the audio content in a predetermined time length The speed ratio of the voice section is calculated by multiplying by the reference value.
第9の発明は、上記第7の発明において、音声情報算出部は、それぞれ時間長が異なる所定時間長を複数設定してそれぞれ音声含有率および統計値を算出し、速度比算出部は、所定時間長における音声含有率の平均値に対する差分値および標準偏差によって所定時間長毎に得られる値を用いて算出される係数を速度比の基準値に乗じて算出することを特徴とする。 Ninth aspect of the invention related to the seventh invention, the audio information calculation unit for a predetermined length of time duration is different each respectively calculated sound content and statistics set up multiple speed ratio calculating unit, where and calculating by multiplying the reference value of the difference value and the speed ratio engagement number calculated using the values obtained for each predetermined time length by the standard deviation to the average value of the audio content in a constant time length.
第10の発明は、入力される音声信号に音声速度変換処理を適用して通常より再生時間を短縮して当該音声信号を聴取するための音声再生方法であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、音声区間および非音声区間に基づき、所定時間長に対して当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さな値に変更し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きな値に変更する速度比算出ステップとを含む。 A tenth aspect of the present invention is an audio reproduction method for listening to an audio signal by applying an audio speed conversion process to the input audio signal and reducing the reproduction time from the normal time. At least calculating a discrimination step of discriminating between non-speech section without the voice section and a voice, based on the speech segment and the non-speech interval, the speech content indicating a ratio that contains the audio section by pairs in a predetermined time length, including The speed ratio of the voice information calculation step to be performed and the speed ratio of the voice speed conversion process of 1 or more is set in advance as a reference value, and the speed of the voice section in the predetermined time length when the voice content rate of the predetermined time length is relatively high speed change ratio to small values than the reference value, to change the speed ratio of the speech interval in the predetermined time length when the sound content of the predetermined time length is relatively low larger than the reference value Ratio calculation And a step.
第11の発明は、入力される音声信号に音声速度変換処理を適用して通常より再生時間を短縮して当該音声信号を聴取するためのコンピュータで実行される音声再生プログラムを記録した当該コンピュータで読み取り可能な記録媒体であって、コンピュータに、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、音声区間および非音声区間に基づき、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さな値に変更し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きな値に変更する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体である。 An eleventh aspect of the present invention is a computer that records a sound reproduction program that is executed by a computer for applying a sound speed conversion process to an input sound signal to shorten the reproduction time and listening to the sound signal. A readable recording medium, wherein the computer has a discrimination step for discriminating a voice section including voice and a non-voice section containing no voice with respect to the voice signal, and a predetermined time length based on the voice section and the non-voice section. audio information calculation step for at least calculating a speech content indicating a ratio that contains the audio segment for the ratio of the speech speed conversion process is preset as a reference value to 1 or more speed ratios, the audio content of a predetermined time length the predetermined time speed ratio of the speech interval in the length change in Do value smaller than the reference value, a predetermined time length audio content is relative when but a relatively high The predetermined time speed ratio of the speech interval in the length recording a program for executing the speed ratio calculation step of changing the larger value than the reference value, which is a computer-readable recording medium when low.
第12の発明は、入力される音声信号に音声速度変換処理を適用して通常より再生時間を短縮して当該音声信号を聴取するための集積回路であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に基づき、所定時間長に対して当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、音声速度変換処理の比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さな値に変更し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きな値に変更する速度比算出部とを備える。 A twelfth aspect of the invention is an integrated circuit for listening to an audio signal by applying an audio speed conversion process to the input audio signal and reducing the playback time from the normal time, and includes the audio with respect to the audio signal. a determination unit that determines the non-speech section without the voice section and a voice, based on the speech segment and the non-speech section, at least calculated audio content indicating a ratio that contains the audio section by pairs in a predetermined time length When the ratio of the voice information calculation unit and the voice speed conversion process is 1 or more as a reference value, and the voice content rate of the predetermined time length is relatively high, the speed ratio of the voice section in the predetermined time length is the reference change in small than the value, the speed ratio calculating unit for changing the speed ratio of the speech interval to larger than the reference value in the predetermined time length when the sound content of the predetermined time length is relatively low Prepare.
第13の発明は、入力される音声信号に音声速度変換処理を適用して通常より再生時間を短縮して当該音声信号を聴取するための音声録音再生装置であって、入力される音声信号を記録する情報記録部と、情報記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に基づき、所定時間長に対して当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さな値に変更し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きな値に変更する速度比算出部とを備える。 A thirteenth aspect of the present invention is an audio recording and reproducing apparatus for listening to an audio signal by applying an audio speed conversion process to the input audio signal and reducing the reproduction time from the normal time. an information recording unit for recording, and a discrimination unit for discriminating between non-speech section without the voice section and audio including audio to the front of the audio signal to be recorded in the information recording unit, based on the speech segment and the non-speech section , and versus a predetermined time length set in advance as the reference value and the audio information calculation unit, one or more speed ratio ratio of the speech speed conversion processing for at least calculating a speech content indicating a ratio that contains the speech segment, the speed ratio of the speech interval in the predetermined time length when a predetermined time length audio content is relatively high change in Do value smaller than the reference value, when the speech content of the predetermined time length is relatively low In the predetermined time length The speed ratio of the voice interval and a speed ratio calculating unit for changing the larger value than the reference value.
第14の発明は、上記第13の発明において、情報記録部には、音声信号が記録される際に判別部が判別した結果が記録され、音声情報算出部は、情報記録部に記録された結果に基づいて、所定時間長の音声含有率を算出することを特徴とする。 In a fourteenth aspect based on the thirteenth aspect, the information recording unit records a result determined by the determining unit when the audio signal is recorded, and the audio information calculating unit is recorded in the information recording unit. Based on the result, a voice content rate of a predetermined time length is calculated.
第15の発明は、上記第13の発明において、情報記録部には、音声信号が記録される際に、判別部が判別した結果および所定時間長の音声含有率が記録され、速度比算出部は、情報記録部に記録された所定時間長の音声含有率を用いて、音声区間の速度比を算出することを特徴とする。 According to a fifteenth aspect, in the thirteenth aspect, the information recording unit records a result determined by the determination unit and an audio content rate of a predetermined time length when the audio signal is recorded, and a speed ratio calculation unit Is characterized in that the speed ratio of the voice section is calculated using the voice content rate of a predetermined time length recorded in the information recording unit.
第16の発明は、入力される音声信号に音声速度変換処理を適用して通常より再生時間を短縮して当該音声信号を聴取するための音声録音再生方法であって、入力される音声信号を記録する情報記録ステップと、情報記録ステップに記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、音声区間および非音声区間に基づき、所定時間長に対して当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さな値に変更し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きな値に変更する速度比算出ステップとを含む。 A sixteenth aspect of the present invention is an audio recording / reproducing method for listening to an audio signal by applying an audio speed conversion process to the input audio signal to shorten the reproduction time from the normal time. an information recording step of recording, a determination step of determining a non-speech section without the voice section and audio including audio to the front of the audio signal to be recorded on the information recording step, on the basis of the voice section and the non-speech section, audio information calculation step for at least calculating a speech content indicating a ratio that contains a predetermined length of time in pairs to the audio section, the ratio of the speech speed conversion process is preset as a reference value of 1 or more speed ratios, a predetermined to change the speed ratio of the speech interval to Do value smaller than the reference value in time length the predetermined length of time when the speech content is relatively high, when the speech content of the predetermined time length is relatively low The speed ratio of the speech section in said predetermined constant-time length and a speed ratio calculation step of changing the larger value than the reference value.
第17の発明は、入力される音声信号に音声速度変換処理を適用して通常より再生時間を短縮して当該音声信号を聴取するためのコンピュータで実行される音声録音再生プログラムを記録した記録媒体であって、コンピュータに、入力される音声信号を記録部に記録する情報記録ステップと、記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、音声区間および非音声区間に基づき、所定時間長に対して当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、音声速度変換処理の比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さな値に変更し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きな値に変更する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体である。 According to a seventeenth aspect of the present invention, there is provided a recording medium on which an audio recording / reproducing program executed by a computer for applying an audio speed conversion process to an input audio signal to shorten the reproduction time and listening to the audio signal. An information recording step for recording an audio signal input to the computer in the recording unit, an audio segment including audio and a non-audio segment not including audio with respect to the audio signal before being recorded in the recording unit, a discriminating step of discriminating that, based on the speech segment and the non-speech section, and the audio information calculation step of at least calculating a speech content indicating a ratio that contains the audio section by pairs in a predetermined time length, the ratio of the speech speed conversion process There one or more the speed ratio as a reference value, small than the reference value and a speed ratio of the speech interval in the predetermined time length when the sound content of the predetermined time length is relatively high Change, a program for executing the speed ratio calculation step of changing the speed ratio of the speech interval in the predetermined time length when the sound content of the predetermined time length is relatively low larger than the reference value A recorded recording medium that can be read by a computer.
第1の発明によれば、音声含有率の変動に応じた音声区間の速度比を算出することで、入力された音声信号の速度変換後の再生音質を音声含有率の変動に応じた了解性の優れたものにすることができる。 According to the first invention, by calculating the speed ratio of the voice section according to the fluctuation of the voice content rate, the reproduction sound quality after the speed conversion of the input voice signal is understood according to the fluctuation of the voice content rate. Can be excellent.
第2の発明によれば、設定された再生時間となるように、重要な音声情報が含まれていない非音声区間の速度比を音声区間の速度比とは別に算出することで、音声区間の速度比をユーザが聴取可能な範囲内の速度比に調整することができる According to the second invention, so that the reproduction time set does not contain important audio information and a speed ratio of the non-speech section by separately calculating the speed ratio of the speech interval, the speech section The speed ratio can be adjusted to a speed ratio within the range that the user can hear.
第3の発明によれば、重要な音声情報が含まれていない非音声区間の速度比を一定の速度比とすることで、能率のよい速度変換をした再生が可能となる。 According to the third aspect of the invention, it is possible to perform playback with efficient speed conversion by setting the speed ratio of the non-voice section in which no important voice information is included to a constant speed ratio.
第4の発明によれば、例えば所定時間長が長い場合には、調整される音声区間の速度比が音声含有率の変動に対して大局的でより正確性の高い値となる。また例えば、所定時間長が短い場合には、調整される音声区間の速度比が音声含有率の変動に対して敏感でより追従性のよい値となる。つまり、所定時間長の設定値を選択して音声含有率の変動に対する音声区間の速度比の適応度合いを可変することによって、正確性または追従性を自由に選択することができる。 According to a fourth aspect of the invention, when the location constant time length even is long, the speed ratio of the speech segment to be adjusted is a high value of global and more accurate with respect to variations in speech content. In addition, for example, when the predetermined time length is short , the speed ratio of the adjusted voice section is sensitive to the fluctuation of the voice content rate and becomes a value with better followability. That is, by selecting a set value of a predetermined time length and varying the adaptation degree of the speed ratio of the voice section with respect to the fluctuation of the voice content rate , the accuracy or followability can be freely selected.
第5の発明によれば、統計値を単位時間毎に更新することで、音声信号の入力に応じて即時に速度変換処理をして再生することができる。 According to the fifth aspect, by updating the statistical value every unit time, it is possible to immediately perform the speed conversion process according to the input of the audio signal and reproduce it.
第6の発明によれば、音声区間の速度比の算出に対して、統計値を用いることで、より実際の音声含有率の変動に即した音声区間の速度比を算出することができ、結果的に速度変換後の再生音質をより了解性のある自然なものにすることができる。 According to the sixth invention, by using the statistical value for calculating the speed ratio of the voice section, the speed ratio of the voice section can be calculated more in line with the actual fluctuation of the voice content rate. Thus, the reproduced sound quality after speed conversion can be made more natural and understandable.
第7の発明によれば、音声区間の存在の偏り度合いを考慮した音声区間の速度比を算出することができる。 According to the seventh aspect, it is possible to calculate the speed ratio of the voice section in consideration of the degree of bias of the existence of the voice section.
第8の発明によれば、音声区間の存在の偏り度合いに即した音声区間の速度比を算出することができる。 According to the eighth aspect of the invention, it is possible to calculate the speed ratio of the voice section in accordance with the degree of bias of the existence of the voice section.
第9の発明によれば、音声含有率の敏感な変動および大局的な変動の双方に対応した最適な音声区間の速度比を算出することができる。 According to the ninth aspect, it is possible to calculate the speed ratio of the optimum speech section corresponding to both the sensitive variation of voice content and global variations.
第13の発明によれば、音声含有率の変動に応じた音声区間の速度比を算出することで、記録した音声信号の速度変換後の再生音質を音声含有率の変動に応じた了解性の優れたものにすることができる。 According to the thirteenth aspect, by calculating the speed ratio of the voice section according to the fluctuation of the voice content rate, the reproduced sound quality after the speed conversion of the recorded voice signal is changed according to the fluctuation of the voice content rate. It can be excellent.
第14の発明によれば、音声信号を記録後、速度変換した再生が行われる前までの処理時間を判別部における処理時間分だけ短縮することができる。 According to the fourteenth aspect, it is possible to shorten the processing time from the recording of the audio signal to the time before the speed-converted reproduction is performed by the processing time in the determination unit.
第15の発明によれば、音声信号を記録後、速度変換した再生が行われる前までの処理時間を判別部および音声情報算出部における処理時間分だけ短縮することができ、音声信号を記録後、即時に速度変換をした再生を行うことができる。 According to the fifteenth aspect, it is possible to shorten the processing time after recording an audio signal and before performing speed-converted reproduction by the processing time in the determination unit and the audio information calculation unit. , Playback with speed conversion can be performed immediately.
(第1の実施形態)
図1を参照して、本発明における第1の実施形態に係る音声再生装置について説明する。図1は、本発明における第1の実施形態に係る音声再生装置1の構成を示すブロック図である。図1において、音声再生装置1は、音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15を有する。なお、本実施形態に係る音声再生装置1は、記録メディアなどに録音された音声信号を速度変換して再生する前に一旦、録音された音声信号全体について読み出し可能であることを想定した装置である。ここで、録音対象としては、例えばテレビやラジオ番組が挙げられる。また記録メディアは、例えば映画などが予め収録されたDVD等の記録メディアであってもよい。以下の説明では、一例として、第1の実施形態に係る音声再生装置1が、録音されたテレビ番組の音声信号に対して速度変換処理を行うとする。
(First embodiment)
With reference to FIG. 1, the audio | voice reproduction apparatus which concerns on the 1st Embodiment in this invention is demonstrated. FIG. 1 is a block diagram showing a configuration of an
記録メディアなどに録音された音声信号が読み出され、音声/非音声判別部11に入力される。音声/非音声判別部11は、入力された音声信号のパワーの包絡値や周期性などの分析を行う。そして、音声/非音声判別部11は入力された音声信号に対して音声区間および非音声区間を時間軸上で判別する。音声信号の時間軸上で判別された音声区間および非音声区間の情報(以下、判別情報という)は、速度変換した再生を行う前に音声情報算出部12に出力される。
An audio signal recorded on a recording medium or the like is read and input to the audio /
音声情報算出部12は、音声/非音声区間の判別情報に基づいて、音声区間および非音声区間の速度比を算出するために必要な音声情報を算出する。音声情報としては、音声含有率、音声含有率の平均値、および標準偏差などを算出する。具体的には、音声情報算出部12は、録音された番組全体を通して音声含有率を算出した後に、音声含有率の平均値と標準偏差とを算出する。音声情報算出部12で算出された音声含有率、音声含有率の平均値、および標準偏差は、音声情報記録部13にそれぞれ記録される。以下、音声含有率、音声含有率の平均値、および標準偏差について説明する。
The voice
音声含有率は、所定数(少なくとも1つ以上)のフレームに対して音声区間が含まれる時間比率を示すものである。音声含有率はフレーム毎に算出される。ここでフレームとは、入力される音声信号を分析するための処理単位であり、当該フレームの時間長をフレーム長とする。当該フレームには、音声区間および/または非音声区間が含まれる。また、音声含有率の算出に用いられる少なくとも1つ以上のフレームを算出用フレームとし、その時間長を算出用フレーム長とする。以下の説明では、一例として、1フレームの時間長(1フレーム長)を1分とする。また、音声含有率を算出するための算出用フレーム長をn(nは正数)分とする。つまり、1フレーム長を1分としたので、算出用フレームはn個のフレームから構成されることとなる。また、録音された番組全体のフレーム数がN(Nは正数)個あるとする。そして、フレームナンバーをk(k=1〜N)として、フレームナンバーがkのときのフレームを「第kフレーム」とする。このとき、第kフレームの音声含有率Ris_n(k)は、数式(1)で表現される。
ここで、図2〜図4を参照して、上記音声含有率Ris_n(k)の算出例を挙げる。図2〜図4では、一例として、テレビ放送のドキュメンタリ番組(30分間)の音声含有率を算出するとし、1分、5分、および10分の3種類の算出用フレーム長で算出している。図2は、算出用フレーム長が1分のときの音声含有率Ris_1(k)の算出例を示す図である。図3は、算出用フレーム長が5分のときの音声含有率Ris_5(k)の算出例を示す図である。図4は、算出用フレーム長が10分のときの音声含有率Ris_10(k)の算出例を示す図である。なお、図2〜図4において、横軸はフレームナンバー(k)を示し、縦軸は音声含有率(%)を示す。 Here, with reference to FIG. 2 to FIG. 4, a calculation example of the voice content rate Ris_n (k) will be given. In FIG. 2 to FIG. 4, as an example, when calculating the audio content rate of a TV broadcast documentary program (30 minutes), calculation is performed with three types of calculation frame lengths of 1 minute, 5 minutes, and 10 minutes. . FIG. 2 is a diagram illustrating a calculation example of the voice content rate Ris_1 (k) when the calculation frame length is 1 minute. FIG. 3 is a diagram illustrating a calculation example of the voice content rate Ris_5 (k) when the calculation frame length is 5 minutes. FIG. 4 is a diagram illustrating a calculation example of the voice content rate Ris_10 (k) when the calculation frame length is 10 minutes. 2 to 4, the horizontal axis represents the frame number (k), and the vertical axis represents the voice content rate (%) .
図2において、第1フレーム(k=1)の音声含有率Ris_1(1)は、算出用フレーム長を1分としたので、数式(1)より第1フレームの音声含有率そのものとなる。図3においては、数式(1)より算出される第1フレームの音声含有率Ris_5(1)は、図2の第1〜第5フレームの音声含有率を平均したものである。図4においては、数式(1)より算出される第1フレームの音声含有率Ris_10(1)は、図2の第1〜第10フレームの音声含有率を平均したものである。 In FIG. 2, the audio content rate Ris_1 (1) of the first frame (k = 1) is the audio content rate of the first frame from Equation (1) because the calculation frame length is 1 minute. In FIG. 3, the voice content rate Ris_5 (1) of the first frame calculated from the formula (1) is an average of the voice content rates of the first to fifth frames in FIG. In FIG. 4, the voice content rate Ris_10 (1) of the first frame calculated from the formula (1) is an average of the voice content rates of the first to tenth frames in FIG.
図2〜図4に示すように、各算出用フレーム長で音声含有率の変動の様子が異なることが分かる。具体的には、算出用フレーム長が短い場合(図2)には、音声含有率のフレーム間の変動が比較的大きくなる。つまり、算出用フレーム長が短い場合には、音声含有率の実際の変動が敏感に反映されたものとなる。これに対し、図3および図4に示すように、算出用フレーム長が長くなるにつれて、音声含有率のフレーム間の変動が比較的小さくなる。これは、上述したように、算出用フレーム長が長くなるにつれて各フレームの音声含有率が平均化されるためである。つまり、算出用フレーム長が長い場合には、平均化によって小さい変動が吸収され、音声含有率の変動が大局的に反映される。また、各算出用フレーム長の分散および標準偏差も、音声含有率の変動の違いにより、異なる値となる。 As shown in FIG. 2 to FIG. 4, it can be seen that the variation of the voice content rate is different for each calculation frame length. Specifically, when the calculated frame length is short (Fig. 2) is relatively large fluctuation between the frames of the speech content. That is, when the calculation frame length is short, the actual fluctuation of the voice content rate is sensitively reflected. In contrast, as shown in FIGS. 3 and 4, as calculated for the frame length is long, relatively small is fluctuation between the frames of the speech content. This is because, as described above, the audio content rate of each frame is averaged as the calculation frame length increases. That is, when the calculated frame length is long, a small fluctuation by averaging is absorbed, variations of the audio content is global reflected. Further, the dispersion and standard deviation for each calculation frame length also, due to differences in fluctuations of the audio content, a different value.
次に音声含有率の平均値および標準偏差について説明する。音声含有率の平均値は、音声含有率Ris_n(k)を番組全体において平均した値である。上述した図2でいえば、Ris_1(1)からRis_1(30)の音声含有率を平均した値である。つまり、算出用フレーム長n(nは正数)で表現すれば、音声含有率の平均値は、Ris_n(1)からRis_n(N)までの音声含有率の平均である。また、標準偏差は、音声含有率Ris_n(k)と音声含有率の平均値とを用いて算出される値である。ここで、上記図2〜図4に示した音声含有率Ris_n(k)の値をもとに、各算出用フレーム長について、それぞれ音声含有率の平均値と標準偏差とを求めると図5に示すような値となる。図5は、各算出用フレーム長の音声含有率の平均値および標準偏差の算出結果を示す図である。図5において、算出用フレーム長が1分である音声含有率の平均値A1は0.506と、算出用フレーム長が5分である音声含有率の平均値A5は0.498と、算出用フレーム長が10分である音声含有率の平均値A10は0.488となる。また、図5において、平均値A1に対する標準偏差S1は0.161と、平均値A5に対する標準偏差S5は0.073と、平均値A10に対する標準偏差S10は0.028となる。 Next, the average value and standard deviation of the voice content will be described. The average value of the audio content rate is a value obtained by averaging the audio content rate Ris_n (k) in the entire program. In FIG. 2 described above, it is a value obtained by averaging the voice content ratios of Ris_1 (1) to Ris_1 (30). In other words, when expressed by the calculation frame length n (n is a positive number), the average value of the voice content rate is the average of the voice content rates from Ris_n (1) to Ris_n (N). The standard deviation is a value calculated using the voice content rate Ris_n (k) and the average value of the voice content rate. Here, based on the value of the voice content ratio Ris_n (k) shown in FIG. 2 to FIG. 4, the average value and the standard deviation of the voice content ratio are obtained for each calculation frame length. It becomes a value as shown. FIG. 5 is a diagram showing the calculation results of the average value and standard deviation of the audio content rate of each calculation frame length. In FIG. 5, the average value A1 of the voice content rate when the calculation frame length is 1 minute is 0.506, and the average value A5 of the voice content rate when the calculation frame length is 5 minutes is 0.498. The average value A10 of the voice content rate when the frame length is 10 minutes is 0.488. In FIG. 5, the standard deviation S1 with respect to the average value A1 is 0.161, the standard deviation S5 with respect to the average value A5 is 0.073, and the standard deviation S10 with respect to the average value A10 is 0.028.
このように、図5に示すように、標準偏差においては、算出用フレーム長が短い場合には、変動が大きく(ばらつきが大きく)なるために標準偏差の値が大きくなる。算出用フレーム長が長い場合には、変動が小さく(ばらつきが小さく)なるために標準偏差の値が小さくなる。つまり、標準偏差は、算出用フレーム長の長さによって大きな影響を受ける値であり、一般的には番組全体における音声区間の存在の偏りを示す値と考えることができる。 Thus, as shown in FIG. 5, in the standard deviation, when the calculated frame length is short, the value of the standard deviation increases to fluctuations increases (increasing dispersion). If the calculated frame length is long, the value of the standard deviation is reduced to fluctuations decreases (variations is small). That is, the standard deviation is a value that is greatly affected by the length of the calculation frame length, and can generally be considered as a value that indicates a bias in the presence of an audio section in the entire program.
次に、入力される音声信号を速度変換して再生する段階において、速度比算出部14は、音声情報記録部13に記録された音声情報(音声含有率、音声含有率の平均値、および標準偏差)を用いて、音声区間の存在の偏りに応じた音声区間の速度比をフレーム毎に算出する。そして、速度比算出部14は、上記音声区間の速度比とユーザなどが入力する所望再生時間とに基づいて、非音声区間の速度比を算出する。そして、速度比算出部14は、音声/非音声判別部11において判別された判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。なお、ここでは算出された各フレームの音声区間の速度比は、当該フレーム内に存在する音声区間に一律に適用されるとする。また、非音声区間の速度比は、後述するように例えば一定の速度比でフレーム内の非音声区間に適用されるとする。
Next, in the stage of converting the speed of the input audio signal and reproducing it, the speed
ここで、速度比の算出方法を説明する前に、音声の再生速度と聴き取りやすさの関係について説明する。通常の再生時間より短い時間で音声信号を聴取するために、通常の再生時間に対する再生時間長の設定値である目標再生時間比Rt(0<Rt<1)が与えられたとする。例えばユーザが通常の再生時間に対して半分の再生時間で聴取しようとすると、目標再生時間比RtはRt=0.5となる。このような目標再生時間比Rtは、数式(2)で表現される。数式(2)において、音声含有率の平均値をA0と、音声含有率が一定であるときの音声区間の速度比をSRs0と、および音声含有率が一定であるときの非音声区間の速度比をSRns0とする。
数式(2)に示す音声区間の速度比SRs0は、一般的に通常速(等倍速)である1.0に近い値ほど聴き取りやすい。音声区間の速度比SRs0の値が大きくなるほど、単位時間当たりの情報量が増大するので、ユーザにとって聴取が難しくなる。また、音声区間の速度比SRs0の値が2.0程度になると、ユーザが聴き取りに集中しなければ内容を理解することが困難となる。このように、音声区間の速度比SRs0が大きい場合、長時間の聴取にかなりの困難さが生じてくる。したがって、音声区間の速度比SRs0は、目標再生時間比Rtにある程度左右されることなく、ユーザの聴取可能な範囲内で設定されるのが最適である。これに基づき、通常は音声区間の速度比SRs0が1〜1.8程度となる範囲を利用する。また、音声/非音声判別を利用しない一定速度比での再生であれば、実用上は速度比を1.3〜1.5とすることが多い。 The voice section speed ratio SRs0 shown in Equation (2) is generally easier to hear as the value is closer to 1.0, which is generally normal speed (same speed). As the value of the speed ratio SRs0 of the voice interval increases, the amount of information per unit time increases, so that it becomes difficult for the user to listen. Further, when the value of the speed ratio SRs0 of the voice section is about 2.0, it is difficult to understand the contents unless the user concentrates on listening. Thus, when the speed ratio SRs0 of the voice section is large, considerable difficulty occurs in listening for a long time. Therefore, the speed ratio SRs0 of the voice section is optimally set within a range in which the user can listen without depending on the target reproduction time ratio Rt to some extent. Based on this, a range in which the speed ratio SRs0 of the speech section is normally about 1 to 1.8 is used. Further, if the reproduction at a constant speed ratio without using speech / non-speech determination, practically often with 1.3 to 1.5 the velocity ratio.
本実施形態においては、上記音声区間の速度比SRs0の最適な設定範囲を考慮しつつ、上述したように標準偏差が番組全体における音声区間の存在の偏りの度合いを示すと考え、現在のフレームにおける音声含有率と音声含有率の平均値との差および標準偏差とを用いて音声区間の速度比SRs0を可変する。すなわち、速度比SRs0を基準値として、音声区間が集中して音声含有率が上記音声含有率の平均値より高い部分に関しては当該基準値より音声区間の速度比を小さな値に変更し、逆に音声含有率が上記音声含有率の平均値より低い部分に関しては当該基準値より音声区間の速度比を大きな値に変更する。 In the present embodiment, it is considered that the standard deviation indicates the degree of bias of the existence of the voice section in the entire program as described above while considering the optimum setting range of the speed ratio SRs0 of the voice section . The speed ratio SRs0 of the voice interval is varied using the difference between the voice content rate and the average value of the voice content rate and the standard deviation. That is, the speed ratio SRs0 as a reference value, the audio content is changed to Do value smaller speed ratio of the speech segment than the reference value with respect to higher portion than the average value of the audio content is concentrated is the speech section, reverse audio content is changed to a large value and a speed ratio of the speech segment than the reference value with respect to the lower part than the average value of the audio content to.
ここで、番組全体のフレーム数をNと、算出用フレーム長がn分のときの標準偏差をSnと、算出用フレーム長がn分のときの第kフレームにおける音声含有率をRis_n(k)と、第kフレームにおける音声区間の速度比をSRs(k)と、算出用フレーム長がn分のときの音声含有率の平均値をAnと、算出用フレーム長ごとに異なる重み係数をCnと、非音声区間の速度比をSRnsと、および音声含有率が一定と仮定したときの基準値の速度比をSRs0とする。なお、非音声区間の速度比SRnsは、ここではフレームの音声含有率に依存せず一定値とする。このとき、音声区間の存在の偏りに応じた音声区間の速度比SRs(k)は、例えば数式(3)と表現される。
さらに、音声区間の速度比SRs(k)を音声含有率の大局的な変動および短期的な変動の双方が反映した値として算出する場合には、それぞれ時間長が異なる複数種類の算出用フレーム長の音声情報を用いて算出する。つまり、複数種類の算出用フレーム長の音声情報を多重に用いて音声区間の速度比を算出する。ここで、M種類の算出用フレーム長の音声情報を用いるとすると、第kフレームの音声区間の速度比SRs(k)は、数式(4)となる。
ここで、多重の音声情報として、算出用フレーム長が1分、5分、10分のときの各音声情報を用いたとき、音声区間の速度比SRs(k)は、数式(5)となる。
図6において、菱形のプロットで描かれたグラフは、音声情報を多重に用いて算出された音声区間の速度比を示す。また、丸のプロットで描かれたグラフは、算出用フレーム長が1分のときの音声情報のみを用いて算出された音声区間の速度比を示す。四角のプロットで描かれたグラフは、算出用フレーム長が5分のときの音声情報のみを用いて算出された音声区間の速度比を示す。三角のプロットで描かれたグラフは、算出用フレーム長が10分のときの音声情報のみを用いて算出された音声区間の速度比を示す。 In FIG. 6, a graph drawn with rhombus plots indicates a speed ratio of a voice section calculated by using voice information in a multiplexed manner. Further, the graph drawn with a circle plot shows the speed ratio of the voice section calculated using only the voice information when the calculation frame length is 1 minute. The graph drawn by the square plot shows the speed ratio of the voice section calculated using only the voice information when the calculation frame length is 5 minutes. The graph drawn by the triangular plot shows the speed ratio of the voice section calculated using only the voice information when the calculation frame length is 10 minutes.
図6に示すように、音声情報を多重に用いて算出された音声区間の速度比は、それぞれ単独の算出用フレーム長の音声情報のみを用いて算出された速度比と比べて、音声含有率の短期的な変動および長期的な変動の双方が反映された値であることが分かる。つまり、多重の音声情報を用いて算出された音声区間の速度比は、番組全体を通して音声区間の存在の偏りに応じた速度比であり、聴き取りやすい速度となるよう考慮された速度比である。 As shown in FIG. 6, the speed ratio of the voice section calculated using the voice information in a multiplexed manner is higher than the speed ratio calculated using only the voice information of the single calculation frame length. It can be seen that this value reflects both short-term fluctuations and long-term fluctuations. That is, the speed ratio of the audio section calculated by using the multiplexed audio information is a speed ratio according to the bias of the existence of the audio section throughout the program, and is a speed ratio that is considered to be a speed that can be easily heard. .
速度比算出部14は、上述した方法で音声区間の速度比SRsを算出後、入力される再生時間から設定される目標再生時間比Rtを達成するように非音声区間の速度比SRnsを算出する。なお、非音声区間の速度比SRnsは、上述したように例えば可変とせず一定の速度比とする。これは、有益な情報の大部分が音声区間に含まれているため、音声区間の速度比の調整を重視したことに基づくものである。これにより、本実施形態に係る音声再生装置は、能率良い再生を実現できる。以下、非音声区間の速度比SRnsの算出方法について説明する。
The speed
目標再生時間比Rtは、数式(4)に基づいて算出されたフレーム毎の音声区間の速度比SRs(k)を用いて、数式(6)と表現される。なお、Ris(k)は、音声含有率を求める算出用フレーム長の最も短いものとする。上述の例で考えると、3種類の算出用フレーム長のうち最も短いのは、1分の算出用フレーム長である。
したがって、非音声区間の速度比SRnsは、数式(6)を整理して数式(7)となる。
音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、入力される記録メディアなどに録音された音声信号に対して、速度変換処理を行う。速度変換処理の方法としては、例えば入力される音声信号を時間軸上にて圧縮伸長して速度変換を行う方法などがある。しかし、この方法に限定されず、その他の公知方法を用いて速度変換処理が行われてもよい。このように、本実施形態の音声速度変換部15において速度変換された音声信号は、音声/非音声判別部11の判別結果と音声含有率に応じて動的に可変する速度比で変換された音声信号である。
The voice
次に、図7を参照して、本実施形態に係る音声再生装置1の処理の流れについて説明する。図7は、本実施形態に係る音声再生装置1の処理の流れを示すフローチャートである。図7において、まず、ユーザが例えば記録メディアに記録された番組全体の記録時間に対して目標とする再生時間を設定する(ステップS1)。これにより、目標再生時間比Rt(0<Rt<1)が設定される。次に、記録メディアなどに録音された番組全体が読み出され、音声/非音声判別部11において、再生前に番組全体を通して音声区間および非音声区間を判別する(ステップS2)。そして、音声情報算出部12において、ステップS2で判別された音声/非音声区間の情報に基づいて、複数種類の算出用フレーム長について音声含有率がそれぞれ算出される(ステップS3)。次に、音声情報算出部12において、ステップS3で算出された各算出用フレーム長の音声含有率を用いて、音声含有率の平均値および標準偏差がそれぞれ算出される(ステップS4)。そして、ステップS3およびS4で算出された音声情報(音声含有率、音声含有率の平均値および標準偏差)が音声情報記録部13に記録される(ステップS5)。ここまでが再生前に行われる処理である。番組全体を通して音声情報が算出された後、速度変換をする再生が開始される。再生される段階で、速度比算出部14は、音声情報記録部13に記録された音声情報に基づいて、音声区間の存在の偏りに応じた音声区間の速度比をフレーム毎に算出する(ステップS6)。次に、速度比算出部14において、ステップS6で算出された音声区間の速度比と、ステップS1で設定された目標再生時間比Rtとに基づいて、非音声区間の速度比が算出される(ステップS7)。そして、音声/非音声判別部11において判別された音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。ステップS7の次に、ステップS6およびS7で算出された音声区間および非音声区間の速度比の情報に基づいて、入力される記録メディアなどに録音された音声信号に対して、速度変換処理を行う(ステップS8)。以上で本実施形態に係る音声再生装置1の処理の流れについての説明を終了する。
Next, with reference to FIG. 7, the process flow of the
以上のように、本実施形態に係る音声再生装置によれば、音声含有率を音声信号全体に対して算出後、統計値として音声含有率の平均値と標準偏差とを算出して番組中の音声区間の存在の偏り度合いを予め求め、これらの音声情報を用いて音声区間の速度比を算出することで、音声含有率の変動に応じて動的に可変する音声区間の速度比を算出することができる。つまり、本実施形態に係る音声再生装置は、音声が集中する部分には速度比を低減し、音声が集中していない部分には速度比を増加させる処理を行う。これにより、本実施形態に係る音声再生装置によれば、テレビ番組や映画など全体を通して音声の了解性を保つことができる。また、非音声区間の速度比は、所定の再生時間となるように音声区間の速度比に基づいて一定速度比として算出される。これにより、能率のよい再生速度での再生が可能となる。また、各算出用フレーム長の音声情報を多重して平均値などの統計値を求めることで、音声含有率の長期的な変動や短期的な変動に対して、追従性の高い、より滑らかな速度比の制御を実現することが可能となる。 As described above, according to the audio reproduction device according to the present embodiment, after calculating the audio content rate for the entire audio signal, the average value and the standard deviation of the audio content rate are calculated as statistical values and By calculating in advance the degree of bias of the presence of the voice section and calculating the speed ratio of the voice section using these voice information, the speed ratio of the voice section that varies dynamically according to the fluctuation of the voice content rate is calculated. be able to. That is, the audio reproduction device according to the present embodiment performs a process of reducing the speed ratio in a portion where the sound is concentrated and increasing the speed ratio in a portion where the sound is not concentrated. Thereby, according to the audio reproducing device according to the present embodiment, it is possible to maintain the intelligibility of the audio throughout the television program and the movie. Further, the speed ratio of the non-voice section is calculated as a constant speed ratio based on the speed ratio of the voice section so that a predetermined reproduction time is obtained. As a result, reproduction at an efficient reproduction speed becomes possible. Also, by calculating the statistical value such as the average value by multiplexing the audio information of each calculation frame length, it is more smooth and smoother for long-term fluctuations and short-term fluctuations in the voice content rate. Control of the speed ratio can be realized.
なお、上述した速度比算出部14では、各算出用フレーム長の音声情報を多重して音声区間の速度比SRs(k)を算出したが、これに限定されない。例えば、音声区間の速度比SRs(k)が単独の算出用フレーム長のみ用いて算出されたものでもよい。時間長が長い算出用フレーム長を用いて算出した場合には、算出された音声区間の速度比は、変化する音声含有率に対して大局的な値であり、より正確性のある値となる。時間長が短い算出用フレーム長を用いて算出した場合には、算出された音声区間の速度比は、変動する音声含有率に対してより追従性のよい値となる。
Note that the speed
また、上述した速度比算出部14では、音声区間の速度比を算出するための音声情報として、音声含有率Ris_n(k)、音声含有率の平均値An、標準偏差Snを用いるとしたが、これに限定されない。例えば、上記標準偏差の代わりに、分散や偏差平均など、標準偏差と同等の統計値が用いられてもよい。つまり、音声区間の速度比を算出するための音声情報としては、音声含有率Ris_n(k)以外に、音声含有率の平均値Anおよび標準偏差と同等の統計値が含まれる。
In the speed
また、上述した速度比算出部14では、音声区間の速度比をフレーム毎に算出するとしたが、フレーム内の音声区間1つ1つに対して、さらに文頭、文中、文末などの区分に分け、各区分で速度比を可変してもよい。例えば、ある音声区間の文頭では、速度比算出部14で算出された音声区間の速度比に対してやや速度比を小さくする。そして、文末になるにつれて速度比が大きくなるように設定する。これにより、重要な情報を多く含む文頭部分がユーザにとってより聴き取りやすいものとなる。このように、速度比算出部14は、1つの音声区間中の各区分について速度比を可変するものであってもよい。
Further, in the speed
なお、上述した第1の実施形態で説明した音声/非音声判別部11、音声情報算出部12、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。この場合、上記情報処理装置に接続されたキーボードなどの入力部を用いて、ユーザが所望する再生時間を入力する。また、音声情報算出部12で算出される音声情報は、例えば情報処理装置内のハードディスクなどに記録される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、音声情報算出部12で算出される音声情報は情報処理装置内のハードディスクに記録されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体に記録されてもよい。
Note that the voice /
(第2の実施形態)
図8を参照して、本発明における第2の実施形態に係る音声再生装置について説明する。図8は、本発明における第2の実施形態に係る音声再生装置2の構成を示すブロック図である。図8において、音声再生装置2は、入力バッファ21、音声/非音声判別部11、音声情報逐次更新部22、速度比算出部14、および音声速度変換部15を有する。
(Second Embodiment)
With reference to FIG. 8, an audio reproducing apparatus according to the second embodiment of the present invention will be described. FIG. 8 is a block diagram showing the configuration of the
なお、本実施形態に係る音声再生装置2は、例えばテレビ番組や映画などの音声信号全体が既に記録メディアなどに録音済みであり、録音された音声信号全体のうち一部(所定時間分)の音声信号を一時的に保存しながら逐次的に音声情報を算出して、音声信号の入力に応じて即座に速度変換した再生を行うことを想定した装置である。そのため、本実施形態に係る音声再生装置2は、上述した第1の実施形態に係る音声再生装置1に対して、入力バッファ21を新たに有し、音声情報逐次更新部22において音声情報を逐次更新する点で大きく異なる。以下、異なる点を中心に説明する。また、音声/非音声判別部11、速度比算出部14、および音声速度変換部15は、上述した第1の実施形態と同様であるので、同一の符号を付して、詳細な説明を省略する。
Note that the
記録メディアなどに録音された音声信号が入力バッファ21に入力される。入力バッファ21は、入力された音声信号を適宜バッファする。つまり、入力バッファ21では、音声情報逐次更新部22で音声情報を逐次更新するために必要な所定時間分の音声信号のデータが一時的に記録される。一時的に保存された所定時間分の音声信号は、音声/非音声判別部11および音声速度変換部15にそれぞれ出力される。音声/非音声判別部11は、入力された所定時間分の音声信号に対して音声区間および非音声区間を判別する。音声/非音声判別部11において判別された音声/非音声区間の情報は、音声情報逐次更新部22および速度比算出部14にそれぞれ出力される。
An audio signal recorded on a recording medium or the like is input to the
音声情報逐次更新部22は、音声/非音声区間の判別情報に基づいて音声情報を逐次更新する。なお、第1の実施形態では数式(3)および数式(4)において、音声含有率Ris_n(k)を音声信号全体について一旦算出した後に、統計値である音声含有率の平均値Anおよび標準偏差Snを算出していた。これに対し、本実施形態では、音声信号の入力に応じて即座に速度変換した再生を行うために、統計値である上記音声含有率の平均値Anおよび標準偏差Snの初期値を予め記録部(図示しない)などにそれぞれ記録設定して、当該統計値を記録部などに逐次記録しながら更新していく。以下、音声情報である音声含有率の平均値および標準偏差の更新方法について説明する。
The voice information
音声含有率の平均値Anは、起動に際して初期値が設定される。そして、音声含有率の平均値Anは、音声信号が入力されるフレーム毎に逐次更新される。上記初期値は、例えば再生する番組のジャンルなどによって異なり、当該ジャンルに合わせて適宜設定される。例えば、頻繁にアナウンサが話す機会の多いテレビのニュース番組などの場合は、音声含有率の平均値が85%程度となる。また、話者の話す機会が少ない様々な映像シーンを多用するドキュメンタリ番組などの場合は、音声含有率の平均値が50%程度になる。 The average value An of the voice content rate is set to an initial value upon activation . Then, the average value An audio content is Exiled next updated for each frame to which the audio signal is inputted. The initial value varies depending on, for example, the genre of the program to be played back, and is appropriately set according to the genre. For example, in the case of a television news program where the announcer frequently speaks, the average value of the audio content is about 85%. In addition, in the case of a documentary program that frequently uses various video scenes where there are few opportunities for speakers to speak, the average value of the audio content rate is about 50%.
ここで、入力バッファ21に記録される音声信号の所定時間分を例えば上述した算出用フレーム長(n分)とする。そして、入力バッファ21は、算出用フレーム長(n分)分の音声信号を確保しながら、例えば1フレーム分の音声信号を順次記録更新していくとする。また、音声情報逐次更新部22は、例えば音声/非音声判別部11で1フレーム分の音声/非音声区間が判別される毎に、音声含有率の平均値Anの逐次更新を行うとする。この場合、音声含有率の平均値Anはフレーム毎に更新され、kフレーム目の逐次更新される音声含有率の平均値の更新値(以下、音声含有率の更新平均値とする)をAn(k)とする。このとき、音声含有率の更新平均値An(k)は、数式(8)で表現される。
また、標準偏差Snも上記音声含有率の平均値と同様に、起動に際して初期値が設定される。そして、標準偏差Snは、フレーム毎に逐次更新される。上記初期値は、音声含有率の平均値Anと同様に、例えば再生する番組のジャンルなどによって異なり、当該ジャンルに合わせて適宜設定される。具体的には標準偏差Snは、上記初期値と、更新平均値An(k)と、kフレームの音声含有率Ris_n(k)とを用いて更新される。ここで、kフレーム目の標準偏差の更新値をSn(k)とすると、標準偏差の更新値Sn(k)は、数式(9)で表現される。
次に、速度比算出部14は、音声含有率Ris_n(k)と、フレーム毎に更新された音声含有率の更新平均値An(k)および標準偏差の更新値Sn(k)とに基づいて、上述した第1の実施形態と同様に、数式(3)〜数式(5)に基づいて音声区間の速度比SRs(k)を算出する。また、速度比算出部14は、算出した音声区間の速度比SRs(k)と目標再生時間比Rtとに基づいて非音声区間の速度比SRnsを算出する。そして、速度比算出部14は、音声/非音声判別部11から入力される音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、入力バッファ21から入力される音声信号に対してフレーム毎に逐次速度変換処理を行う。
Next, the speed
以上のように、本実施形態に係る音声再生装置2は、統計値である音声含有率の平均値および標準偏差を逐次更新する。これにより、本実施形態に係る音声再生装置2は、音声情報を番組全体に対して事前に算出することなく、音声信号の入力に応じて即時に速度変換処理を行うことができる。
As described above, the
なお、上述した第2の実施形態で説明した音声再生装置2は、音声/非音声判別部11、音声情報逐次更新部22、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。また、上記情報処理装置に接続されるキーボードなどの入力部において、ユーザが所望する再生時間や上述した初期値を入力する。また、入力バッファ21は、例えば情報処理装置内のハードディスク内で構成される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、入力バッファ21を例えば情報処理装置内のハードディスク内で構成されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体で構成されてもよい。
Note that the
(第3の実施形態)
図9を参照して、本発明における第3の実施形態に係る音声録音再生装置について説明する。図9は、本発明における第3の実施形態に係る音声録音再生装置3の構成を示すブロック図である。図9において、音声録音再生装置3は、音声/非音声判別部11、情報記録部31、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15を有する。
(Third embodiment)
With reference to FIG. 9, a voice recording / reproducing apparatus according to a third embodiment of the present invention will be described. FIG. 9 is a block diagram showing a configuration of a voice recording / reproducing
なお、本実施形態に係る音声録音再生装置3は、情報記録部31に音声を記録して再生する音声録音再生装置であって、入力される音声信号を情報記録部31に記録すると同時に、音声/非音声判別部11で判別された音声区間や非音声区間の情報も情報記録部31に記録することを特徴とする装置である。以下、この特徴を中心に説明する。また、音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15は、上述した第1の実施形態と同様であるので、同一の符号を付して、詳細な説明を省略する。
The audio recording / reproducing
録音対象となる音声信号が音声/非音声判別部11および情報記録部31にそれぞれ入力される。音声/非音声判別部11は、入力された音声信号に対して音声区間および非音声区間を判別する。音声/非音声判別部11において判別された音声/非音声区間の判別情報は、情報記録部31に出力される。情報記録部31において、入力された録音対象である音声信号と音声/非音声区間の判別情報とがそれぞれ記録される。
An audio signal to be recorded is input to the audio /
音声情報算出部12は、情報記録部31に記録された音声信号全体についての音声/非音声区間の情報を読み出して、音声情報を算出する。具体的には、音声情報算出部12は、記録された音声信号全体を通して音声含有率を算出した後に、音声含有率の平均値および標準偏差を算出する。そして、音声情報算出部12で算出された音声含有率、音声含有率の平均値、および標準偏差は、音声情報記録部13にそれぞれ記録される。
The voice
そして、再生される段階において、速度比算出部14は、音声情報記録部13に記録された音声情報を用いて、音声含有率の変動に応じた音声区間の速度比をフレーム毎に算出する。また、速度比算出部14は、音声区間の速度比と目標再生時間比Rtとに基づいて非音声区間の速度比を算出する。そして、記録された音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、情報記録部31に記録された音声信号に対して速度変換処理を行う。
Then, at the stage of reproduction, the speed
以上のように、本実施形態に係る音声録音再生装置3は、入力される音声信号を情報記録部31に記録するとともに、音声/非音声判別部11で判別された音声区間や非音声区間の情報も情報記録部31に記録している。これにより、本実施形態に係る音声録音再生装置3によれば、音声信号全体を記録した段階で音声信号全体についての音声区間や非音声区間の判別が終了しているため、再生前に行われる音声情報の算出時間を短縮することができる。
As described above, the audio recording / reproducing
なお、上述した情報記録部31において、音声/非音声判別部11で判別された音声区間や非音声区間の判別情報に加え、さらに音声情報算出部12で算出された音声情報が記録されてもよい。この場合、図10に示すように、音声情報記録部13は省略される。図10は、情報記録部31に音声区間や非音声区間の情報と音声情報とを記録する音声録音再生装置4の構成を示すブロック図である。図10において、音声録音再生装置4は、音声/非音声判別部11、情報記録部31、音声情報算出部12、速度比算出部14、および音声速度変換部15を有する。
Incidentally, the
図10において、情報記録部31では、入力された録音対象である音声信号と、音声/非音声判別部11において判別された音声/非音声区間の情報と、音声情報算出部12で算出された音声情報とがそれぞれ記録される。つまり、音声録音再生装置4は、記録とともに音声/非音声区間の判別情報および音声情報が情報記録部31に記録される。これにより、音声録音再生装置4によれば、記録後において再生時間が入力されれば、即時に速度比を算出することができる。その結果、音声録音再生装置4は、速度変換した再生音声を短時間で出力することができる。
In FIG. 10, in the
なお、上述した第3の実施形態で説明した音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。また、上記情報処理装置に接続されるキーボードなどの入力部において、ユーザが所望する再生時間が入力される。また、情報記録部31および音声情報記録部13は、例えば情報処理装置内のハードディスク内で構成される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、情報記録部31および音声情報記録部13を例えば情報処理装置内のハードディスク内で構成されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体で構成されてもよい。
The voice /
また、上述した第1〜第3の実施形態で説明した音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、音声情報逐次更新部22および音声速度変換部15は、例えば音声信号、再生時間情報、および上述した初期値などを入力とし、音声速度変換部15で速度変換された音声信号を出力とする集積回路でも実現可能である。この場合、第1の実施形態における音声情報記録部13、第2の実施形態における入力バッファ21、第3の実施形態における音声情報記録部13および情報記録部31は、例えば集積回路内のメモリで構成される。そして、上述した機能を果たす電気回路を1つの小型パッケージに集積して、音声信号の処理等を行う音声信号処理回路DSP(Digital Signal Processor)等を構成することによって、本発明の実現が可能となる。なお、第1の実施形態における音声情報記録部13、第2の実施形態における入力バッファ21、第3の実施形態における音声情報記録部13および情報記録部31は、上記集積回路とは別の他の記録媒体で構成されてもよい。
Further, the voice /
本発明に係る音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、および集積回路は、音声含有率の変動に応じた最適な速度比制御を行って、より聴き取りやすい再生を実現するDVDプレーヤ、HDDプレーヤ、CDプレーヤ等にも有用である。 The audio reproducing device, audio recording / reproducing device, and method, recording medium, and integrated circuit according to the present invention perform optimum speed ratio control in accordance with fluctuations in the audio content, thereby realizing reproduction that is easier to listen to. It is also useful for DVD players, HDD players, CD players and the like.
1、2 音声再生装置
3、4 音声録音再生装置
11 音声/非音声判別部
12 音声情報算出部
13 音声情報記録部
14 速度比算出部
15 音声速度変換部
21 入力バッファ
22 音声情報逐次更新部
31 情報記録部
1, 2
Claims (8)
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に基づき、算出用フレーム長に対して当該音声区間が含まれる比率を示す音声含有率と、前記算出用フレーム長の音声含有率の平均値および標準偏差である統計値を少なくとも算出する音声情報算出部と、
前記音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、前記統計値および前記算出用フレーム長の音声含有率に応じて、前記基準値から前記音声区間の速度比を算出する速度比算出部とを備え、
前記音声情報算出部は、それぞれ時間長が異なる前記算出用フレーム長を複数設定してそれぞれ前記音声含有率および前記統計値を算出し、
前記速度比算出部は、前記算出用フレーム長における音声含有率の前記平均値に対する差分値および前記標準偏差によって前記算出用フレーム長毎に得られる値を用いて算出される係数を前記速度比の基準値に乗ずることで、前記算出用フレーム長の音声含有率が相対的に高いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より小さな値に変更し、前記算出用フレーム長の音声含有率が相対的に低いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より大きな値に変更し、音声含有率の時間的な変動に対して適応的に前記音声区間の速度比を調整する速度制御を行う音声再生装置。 An audio reproduction device for applying an audio speed conversion process to an input audio signal to shorten the reproduction time than usual and listening to the audio signal,
A discriminator for discriminating a voice section including voice and a non-voice section not containing voice with respect to the voice signal;
Based on the speech segment and the non-speech section, and the audio content indicating a ratio that contains the speech segment against calculated frame length, the mean value and standard deviation of the speech content of the calculation frame length statistics A voice information calculation unit for calculating at least a value ;
A speed ratio with a ratio of the voice speed conversion processing of 1 or more is preset as a reference value, and the speed ratio of the voice section is calculated from the reference value according to the statistical value and the voice content rate of the calculation frame length. A speed ratio calculation unit
The voice information calculation unit sets a plurality of calculation frame lengths each having a different time length, and calculates the voice content rate and the statistical value, respectively.
The speed ratio calculation unit calculates a coefficient calculated using a difference value with respect to the average value of the voice content rate in the calculation frame length and a value obtained for each calculation frame length by the standard deviation of the speed ratio. By multiplying a reference value, the speed ratio of the voice section in the calculation frame length is changed to a value smaller than the reference value when the voice content rate of the calculation frame length is relatively high, and the calculation frame When the speech content rate of the length is relatively low, the speed ratio of the speech section in the calculation frame length is changed to a value larger than the reference value, and adaptively with respect to the temporal variation of the speech content rate An audio reproducing apparatus that performs speed control for adjusting a speed ratio of an audio section.
前記バッファに記録された音声信号に対して音声速度変換処理を行って出力する速度変換部とを、さらに備え、
前記判別部は、前記バッファに記録された前記算出用フレーム長の音声信号に対して前記音声区間と前記非音声区間とを判別し、
前記音声情報算出部は、これまでに算出した統計値を単位時間毎に順次更新し、
前記速度比算出部は、前記単位時間ごとに更新される前記統計値および当該更新時の前記算出用フレーム長に設定された音声含有率に応じて前記音声区間の速度比を算出し、
前記速度変換部は、前記バッファで順次更新される音声信号に対して、前記単位時間ごとに算出された前記音声区間の速度比を用いて順次音声速度変換処理を行うことを特徴とする、請求項1に記載の音声再生装置。 Of the audio signals before Symbol input, a buffer for recording while sequentially updating the audio signals to include the speech signals of at least the calculated frame length fraction,
A speed conversion section for outputting performs voice speed conversion processing on the audio signals recorded before Symbol buffer, further comprising,
The determination unit determines the voice section and the non-voice section with respect to the calculation-frame-length voice signal recorded in the buffer,
The audio information calculation unit sequentially updates the statistics calculated for Until now every unit time,
The speed ratio calculation unit calculates the speed ratio of the voice section according to the statistical value updated every unit time and the voice content rate set in the calculation frame length at the time of the update,
The speed conversion unit sequentially performs a sound speed conversion process on a sound signal sequentially updated in the buffer using a speed ratio of the sound section calculated for each unit time. Item 2. The audio playback device according to Item 1.
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、
前記音声区間および前記非音声区間に基づき、算出用フレーム長に対して当該音声区間が含まれる比率を示す音声含有率と、前記算出用フレーム長の音声含有率の平均値および標準偏差である統計値を少なくとも算出する音声情報算出ステップと、
前記音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、前記統計値および前記算出用フレーム長の音声含有率に応じて、前記基準値から前記音声区間の速度比を算出する速度比算出ステップとを備え、
前記音声情報算出ステップは、それぞれ時間長が異なる前記算出用フレーム長を複数設定してそれぞれ前記音声含有率および前記統計値を算出し、
前記速度比算出ステップは、前記算出用フレーム長における音声含有率の前記平均値に対する差分値および前記標準偏差によって前記算出用フレーム長毎に得られる値を用いて算出される係数を前記速度比の基準値に乗ずることで、前記算出用フレーム長の音声含有率が相対的に高いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より小さな値に変更し、前記算出用フレーム長の音声含有率が相対的に低いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より大きな値に変更し、音声含有率の時間的な変動に対して適応的に前記音声区間の速度比を調整する速度制御を行う音声再生方法。 An audio reproduction method for listening to the audio signal by applying an audio speed conversion process to the input audio signal to shorten the reproduction time than usual,
A determination step of determining a speech section including speech and a non-speech section not including speech for the speech signal;
Based on the speech segment and the non-speech section, and the audio content indicating a ratio that contains the speech segment against calculated frame length, the mean value and standard deviation of the speech content of the calculation frame length statistics A voice information calculation step for calculating at least a value ;
A speed ratio with a ratio of the voice speed conversion processing of 1 or more is preset as a reference value, and the speed ratio of the voice section is calculated from the reference value according to the statistical value and the voice content rate of the calculation frame length. A speed ratio calculating step,
The voice information calculation step sets a plurality of calculation frame lengths each having a different time length, and calculates the voice content rate and the statistical value, respectively.
The speed ratio calculating step calculates a coefficient calculated using a difference value with respect to the average value of the audio content rate in the calculation frame length and a value obtained for each calculation frame length by the standard deviation. By multiplying a reference value, the speed ratio of the voice section in the calculation frame length is changed to a value smaller than the reference value when the voice content rate of the calculation frame length is relatively high, and the calculation frame When the speech content rate of the length is relatively low, the speed ratio of the speech section in the calculation frame length is changed to a value larger than the reference value , and adaptively with respect to the temporal variation of the speech content rate A sound reproduction method for performing speed control for adjusting a speed ratio of a voice section .
前記コンピュータに、
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、
前記音声区間および前記非音声区間に基づき、算出用フレーム長に対して当該音声区間が含まれる比率を示す音声含有率と、前記算出用フレーム長の音声含有率の平均値および標準偏差である統計値を少なくとも算出する音声情報算出ステップと、
前記音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、前記統計値および前記算出用フレーム長の音声含有率に応じて、前記基準値から前記音声区間の速度比を算出する速度比算出ステップとを含み、
前記音声情報算出ステップは、それぞれ時間長が異なる前記算出用フレーム長を複数設定してそれぞれ前記音声含有率および前記統計値を算出し、
前記速度比算出ステップは、前記算出用フレーム長における音声含有率の前記平均値に対する差分値および前記標準偏差によって前記算出用フレーム長毎に得られる値を用いて算出される係数を前記速度比の基準値に乗ずることで、前記算出用フレーム長の音声含有率が相対的に高いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より小さな値に変更し、前記算出用フレーム長の音声含有率が相対的に低いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より大きな値に変更し、音声含有率の時間的な変動に対して適応的に前記音声区間の速度比を調整する速度制御を行うプログラムを記録した、コンピュータに読み取り可能な記録媒体。 A computer-readable recording medium that records a sound reproduction program executed by a computer for applying a sound speed conversion process to an input sound signal to shorten the reproduction time and listening to the sound signal. There,
In the computer,
A determination step of determining a speech section including speech and a non-speech section not including speech for the speech signal;
Based on the speech segment and the non-speech section, and the audio content indicating a ratio that contains the speech segment against calculated frame length, the mean value and standard deviation of the speech content of the calculation frame length statistics A voice information calculation step for calculating at least a value ;
A speed ratio with a ratio of the voice speed conversion processing of 1 or more is preset as a reference value, and the speed ratio of the voice section is calculated from the reference value according to the statistical value and the voice content rate of the calculation frame length. A speed ratio calculating step to
The voice information calculation step sets a plurality of calculation frame lengths each having a different time length, and calculates the voice content rate and the statistical value, respectively.
The speed ratio calculating step calculates a coefficient calculated using a difference value with respect to the average value of the audio content rate in the calculation frame length and a value obtained for each calculation frame length by the standard deviation. By multiplying a reference value, the speed ratio of the voice section in the calculation frame length is changed to a value smaller than the reference value when the voice content rate of the calculation frame length is relatively high, and the calculation frame When the speech content rate of the length is relatively low, the speed ratio of the speech section in the calculation frame length is changed to a value larger than the reference value , and adaptively with respect to the temporal variation of the speech content rate A computer-readable recording medium on which a program for speed control for adjusting a speed ratio of a voice section is recorded.
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に基づき、算出用フレーム長に対して当該音声区間が含まれる比率を示す音声含有率と、前記算出用フレーム長の音声含有率の平均値および標準偏差である統計値を少なくとも算出する音声情報算出部と、
前記音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、前記統計値および前記算出用フレーム長の音声含有率に応じて、前記基準値から前記音声区間の速度比を算出する速度比算出部とを備え、
前記音声情報算出部は、それぞれ時間長が異なる前記算出用フレーム長を複数設定してそれぞれ前記音声含有率および前記統計値を算出し、
前記速度比算出部は、前記算出用フレーム長における音声含有率の前記平均値に対する差分値および前記標準偏差によって前記算出用フレーム長毎に得られる値を用いて算出される係数を前記速度比の基準値に乗ずることで、前記算出用フレーム長の音声含有率が相対的に高いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より小さな値に変更し、前記算出用フレーム長の音声含有率が相対的に低いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より大きな値に変更し、音声含有率の時間的な変動に対して適応的に前記音声区間の速度比を調整する速度制御を行う集積回路。 An integrated circuit for listening to the audio signal by applying an audio speed conversion process to the input audio signal and reducing the playback time from normal,
A discriminator for discriminating a voice section including voice and a non-voice section not containing voice with respect to the voice signal;
Based on the speech segment and the non-speech section, and the audio content indicating a ratio that contains the speech segment against calculated frame length, the mean value and standard deviation of the speech content of the calculation frame length statistics A voice information calculation unit for calculating at least a value ;
A speed ratio with a ratio of the voice speed conversion processing of 1 or more is preset as a reference value, and the speed ratio of the voice section is calculated from the reference value according to the statistical value and the voice content rate of the calculation frame length. A speed ratio calculation unit
The voice information calculation unit sets a plurality of calculation frame lengths each having a different time length, and calculates the voice content rate and the statistical value, respectively.
The speed ratio calculation unit calculates a coefficient calculated using a difference value with respect to the average value of the voice content rate in the calculation frame length and a value obtained for each calculation frame length by the standard deviation of the speed ratio. By multiplying a reference value, the speed ratio of the voice section in the calculation frame length is changed to a value smaller than the reference value when the voice content rate of the calculation frame length is relatively high, and the calculation frame When the speech content rate of the length is relatively low, the speed ratio of the speech section in the calculation frame length is changed to a value larger than the reference value , and adaptively with respect to the temporal variation of the speech content rate An integrated circuit that performs speed control to adjust the speed ratio of the voice interval .
前記入力される音声信号を記録する情報記録部と、
前記情報記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に基づき、算出用フレーム長に対して当該音声区間が含まれる比率を示す音声含有率と、前記算出用フレーム長の音声含有率の平均値および標準偏差である統計値を少なくとも算出する音声情報算出部と、
前記音声速度変換処理の比率が1以上の速度比を基準値として予め設定し、前記統計値および前記算出用フレーム長の音声含有率に応じて、前記基準値から前記音声区間の速度比を算出する速度比算出部とを備え、
前記音声情報算出部は、それぞれ時間長が異なる前記算出用フレーム長を複数設定してそれぞれ前記音声含有率および前記統計値を算出し、
前記速度比算出部は、前記算出用フレーム長における音声含有率の前記平均値に対する差分値および前記標準偏差によって前記算出用フレーム長毎に得られる値を用いて算出される係数を前記速度比の基準値に乗ずることで、前記算出用フレーム長の音声含有率が相対的に高いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より小さな値に変更し、前記算出用フレーム長の音声含有率が相対的に低いときに当該算出用フレーム長における前記音声区間の速度比を当該基準値より大きな値に変更し、音声含有率の時間的な変動に対して適応的に前記音声区間の速度比を調整する速度制御を行う音声録音再生装置。
A voice recording / playback apparatus for applying a voice speed conversion process to an input voice signal to shorten the playback time and listening to the voice signal.
An information recording unit for recording the input audio signal;
A discriminating unit for discriminating a voice section including voice and a non-voice section not containing voice with respect to the voice signal before being recorded in the information recording unit;
Based on the speech segment and the non-speech section, and the audio content indicating a ratio that contains the speech segment against calculated frame length, the mean value and standard deviation of the speech content of the calculation frame length statistics A voice information calculation unit for calculating at least a value ;
A speed ratio with a ratio of the voice speed conversion processing of 1 or more is preset as a reference value, and the speed ratio of the voice section is calculated from the reference value according to the statistical value and the voice content rate of the calculation frame length. A speed ratio calculation unit
The voice information calculation unit sets a plurality of calculation frame lengths each having a different time length, and calculates the voice content rate and the statistical value, respectively.
The speed ratio calculation unit calculates a coefficient calculated using a difference value with respect to the average value of the voice content rate in the calculation frame length and a value obtained for each calculation frame length by the standard deviation of the speed ratio. By multiplying a reference value, the speed ratio of the voice section in the calculation frame length is changed to a value smaller than the reference value when the voice content rate of the calculation frame length is relatively high, and the calculation frame When the speech content rate of the length is relatively low, the speed ratio of the speech section in the calculation frame length is changed to a value larger than the reference value , and adaptively with respect to the temporal variation of the speech content rate A voice recording / playback device that performs speed control to adjust the speed ratio of voice sections .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005204211A JP4580297B2 (en) | 2005-07-13 | 2005-07-13 | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005204211A JP4580297B2 (en) | 2005-07-13 | 2005-07-13 | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007025039A JP2007025039A (en) | 2007-02-01 |
JP2007025039A5 JP2007025039A5 (en) | 2008-08-07 |
JP4580297B2 true JP4580297B2 (en) | 2010-11-10 |
Family
ID=37785924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005204211A Expired - Fee Related JP4580297B2 (en) | 2005-07-13 | 2005-07-13 | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4580297B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5029167B2 (en) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | Apparatus, program and method for reading aloud |
JP4973337B2 (en) * | 2007-06-28 | 2012-07-11 | 富士通株式会社 | Apparatus, program and method for reading aloud |
KR20240129383A (en) * | 2023-02-20 | 2024-08-27 | 한양대학교 산학협력단 | Apparatus and method of controlling audio time stretching for determining adaptive compression rate based on cluster |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04367898A (en) * | 1991-06-17 | 1992-12-21 | Matsushita Electric Ind Co Ltd | Method and device for voice reproduction |
JP2001222300A (en) * | 2000-02-08 | 2001-08-17 | Nippon Hoso Kyokai <Nhk> | Voice reproducing device and recording medium |
-
2005
- 2005-07-13 JP JP2005204211A patent/JP4580297B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04367898A (en) * | 1991-06-17 | 1992-12-21 | Matsushita Electric Ind Co Ltd | Method and device for voice reproduction |
JP2001222300A (en) * | 2000-02-08 | 2001-08-17 | Nippon Hoso Kyokai <Nhk> | Voice reproducing device and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP2007025039A (en) | 2007-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2955247B2 (en) | Speech speed conversion method and apparatus | |
KR101334366B1 (en) | Method and apparatus for varying audio playback speed | |
US5611018A (en) | System for controlling voice speed of an input signal | |
KR100739355B1 (en) | Speech processing method and apparatus | |
US9336823B2 (en) | Playing audio in trick-modes | |
JP5367932B2 (en) | System and method enabling audio speed conversion | |
US6915261B2 (en) | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs | |
CN101909191B (en) | Video processing apparatus and video processing method | |
JP4965371B2 (en) | Audio playback device | |
US6085157A (en) | Reproducing velocity converting apparatus with different speech velocity between voiced sound and unvoiced sound | |
JP4580297B2 (en) | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit | |
JP3378672B2 (en) | Speech speed converter | |
JP2001255894A (en) | Device and method for converting reproducing speed | |
US20070192089A1 (en) | Apparatus and method for reproducing audio data | |
JP3162945B2 (en) | Video tape recorder | |
JP2009075280A (en) | Content playback device | |
JP3081469B2 (en) | Speech speed converter | |
JP2014186347A (en) | Speaker speed conversion system and method of the same, and speed conversion device | |
JP3357742B2 (en) | Speech speed converter | |
JP6409163B2 (en) | Audio processing apparatus, audio processing program, and audio processing method | |
JP6313619B2 (en) | Audio signal processing apparatus and program | |
JP2001222300A (en) | Voice reproducing device and recording medium | |
JP4313724B2 (en) | Audio reproduction speed adjustment method, audio reproduction speed adjustment program, and recording medium storing the same | |
WO1997009713A1 (en) | A method of processing audio signal for fidelity varying-speed replaying | |
US11348596B2 (en) | Voice processing method for processing voice signal representing voice, voice processing device for processing voice signal representing voice, and recording medium storing program for processing voice signal representing voice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100806 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100827 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |