JPH1173200A - Acoustic signal encoding method and record medium readable by computer - Google Patents
Acoustic signal encoding method and record medium readable by computerInfo
- Publication number
- JPH1173200A JPH1173200A JP9249636A JP24963697A JPH1173200A JP H1173200 A JPH1173200 A JP H1173200A JP 9249636 A JP9249636 A JP 9249636A JP 24963697 A JP24963697 A JP 24963697A JP H1173200 A JPH1173200 A JP H1173200A
- Authority
- JP
- Japan
- Prior art keywords
- section
- code data
- data
- unit
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は音響信号の符号化方
法に関し、時系列の強度信号として与えられる音響信号
を符号化し、これを復号化して再生する技術に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for encoding an audio signal, and more particularly to a technique for encoding an audio signal given as a time-series intensity signal, and decoding and reproducing the audio signal.
【0002】[0002]
【従来の技術】音響信号を符号化する技術として、PC
M(Pulse Code Modulation )の手法は最も普及してい
る手法であり、現在、オーディオCDやDATなどの記
録方式として広く利用されている。このPCMの手法の
基本原理は、アナログ音響信号を所定のサンプリング周
波数でサンプリングし、各サンプリング時の信号強度を
量子化してデジタルデータとして表現する点にあり、サ
ンプリング周波数や量子化ビット数を高くすればするほ
ど、原音を忠実に再生することが可能になる。ただ、サ
ンプリング周波数や量子化ビット数を高くすればするほ
ど、必要な情報量も増えることになる。そこで、できる
だけ情報量を低減するための手法として、信号の変化差
分のみを符号化するADPCM(Adaptive Differentia
l Pulse Code Modulation )の手法も用いられている。2. Description of the Related Art As a technique for encoding an audio signal, a PC is used.
The M (Pulse Code Modulation) method is the most widespread method, and is currently widely used as a recording method for audio CDs and DATs. The basic principle of this PCM method is that an analog audio signal is sampled at a predetermined sampling frequency, and the signal strength at each sampling is quantized and represented as digital data. The more it is, the more faithful it is possible to reproduce the original sound. However, the higher the sampling frequency and the number of quantization bits, the larger the required information amount. Therefore, as a technique for reducing the amount of information as much as possible, an ADPCM (Adaptive Differentia) that encodes only a signal change difference is used.
l Pulse Code Modulation) is also used.
【0003】一方、電子楽器による楽器音を符号化しよ
うという発想から生まれたMIDI(Musical Instrume
nt Digital Interface)規格も、パーソナルコンピュー
タの普及とともに盛んに利用されるようになってきてい
る。このMIDI規格による符号データ(以下、MID
Iデータという)は、基本的には、楽器のどの鍵盤キー
を、どの程度の強さで弾いたか、という楽器演奏の操作
を記述したデータであり、このMIDIデータ自身に
は、実際の音の波形は含まれていない。そのため、実際
の音を再生する場合には、楽器音の波形を記憶したMI
DI音源が別途必要になる。しかしながら、上述したP
CMの手法で音を記録する場合に比べて、情報量が極め
て少なくてすむという特徴を有し、その符号化効率の高
さが注目を集めている。このMIDI規格による符号化
および復号化の技術は、現在、パーソナルコンピュータ
を用いて楽器演奏、楽器練習、作曲などを行うソフトウ
エアに広く採り入れられており、カラオケ、ゲームの効
果音といった分野でも広く利用されている。[0003] On the other hand, MIDI (Musical Instrume) was born from the idea of encoding musical instrument sounds by electronic musical instruments.
The Digital Interface (nt Digital Interface) standard has also been actively used with the spread of personal computers. Code data according to the MIDI standard (hereinafter, MID)
I data) is basically data that describes the operation of playing a musical instrument, such as which keyboard key of the musical instrument was played and with what strength. The MIDI data itself contains the actual sound. No waveform is included. Therefore, when reproducing the actual sound, the MI which stores the waveform of the musical instrument sound is used.
A DI sound source is required separately. However, the P
Compared to the case where sound is recorded by the CM method, the amount of information is extremely small. This encoding and decoding technology based on the MIDI standard is now widely used in software for playing musical instruments, practicing musical instruments, composing music, etc. using a personal computer, and is also widely used in fields such as karaoke and game sound effects. Have been.
【0004】[0004]
【発明が解決しようとする課題】上述したように、PC
Mの手法により音響信号を符号化する場合、十分な音質
を確保しようとすれば情報量が膨大になり、データ処理
の負担が重くならざるを得ない。したがって、通常は、
ある程度の情報量に抑えるため、ある程度の音質に妥協
せざるを得ない。もちろん、MIDI規格による符号化
の手法を採れば、非常に少ない情報量で十分な音質をも
った音の再生が可能であるが、上述したように、MID
I規格そのものが、もともと楽器演奏の操作を符号化す
るためのものであるため、広く一般音響への適用を行う
ことはできない。別言すれば、MIDIデータを作成す
るためには、実際に楽器を演奏するか、あるいは、楽譜
の情報を用意する必要がある。As described above, the PC
In the case of encoding an audio signal by the method of M, the amount of information becomes enormous if sufficient sound quality is to be ensured, and the load of data processing must be increased. Therefore, usually
In order to keep the amount of information to a certain extent, we have to compromise on some sound quality. Of course, if the encoding method based on the MIDI standard is adopted, it is possible to reproduce a sound having a sufficient sound quality with a very small amount of information.
Since the I standard itself is originally for encoding the operation of musical instrument performance, it cannot be widely applied to general sound. In other words, in order to create MIDI data, it is necessary to actually play a musical instrument or prepare musical score information.
【0005】このように、従来用いられているPCMの
手法にしても、MIDIの手法にしても、それぞれ音響
信号の符号化方法としては一長一短があり、一般の音響
信号について、少ない情報量で十分な音質を確保するこ
とはできない。ところが、一般の音響信号についても効
率的な符号化を行いたいという要望は、益々強くなって
きている。[0005] As described above, there are advantages and disadvantages in the audio signal encoding method in both the conventional PCM method and the MIDI method, and a small amount of information is sufficient for general audio signals. Sound quality cannot be ensured. However, there is an increasing demand for efficient encoding of general audio signals.
【0006】そこで本発明は、音響信号に対して効率的
な符号化を行うことができる音響信号の符号化方法を提
供することを目的とする。Accordingly, an object of the present invention is to provide an audio signal encoding method capable of efficiently encoding an audio signal.
【0007】[0007]
(1) 本発明の第1の態様は、時系列の強度信号として
与えられる音響信号を符号化するための音響信号の符号
化方法において、符号化対象となる音響信号を、デジタ
ルの音響データとして取り込む入力段階と、この音響デ
ータの時間軸上に、複数の単位区間を設定する区間設定
段階と、個々の単位区間内の音響データに基づいて、個
々の単位区間を代表する所定の代表周波数および代表強
度を定義し、時間軸上での個々の単位区間の始端位置お
よび終端位置を示す情報と代表周波数および代表強度を
示す情報とを含む符号データを生成し、個々の単位区間
の音響データを個々の符号データによって表現する符号
化段階と、を行い、更に符号化段階において、単位区間
の長さを延長する区間延長処理を行うようにしたもので
ある。(1) A first aspect of the present invention provides an audio signal encoding method for encoding an audio signal given as a time-series intensity signal, wherein the audio signal to be encoded is digital audio data. An input stage to be captured, a section setting step of setting a plurality of unit sections on a time axis of the sound data, and a predetermined representative frequency and a representative frequency representing each unit section based on sound data in each unit section Define representative intensity, generate code data including information indicating the start position and end position of each unit section on the time axis and information indicating the representative frequency and the representative intensity, and generate the sound data of each unit section. A coding step of expressing each code data is performed, and further, in the coding step, a section extension process for extending the length of the unit section is performed.
【0008】(2) 本発明の第2の態様は、上述の第1
の態様に係る音響信号の符号化方法において、符号化段
階において、時間軸を共通とする複数のトラックを定義
し、区間設定段階で設定された個々の単位区間を複数の
トラックに分離して再配置するトラック分離処理を行
い、各トラックごとにそれぞれ区間延長処理を行うよう
にしたものである。(2) A second aspect of the present invention is the above-mentioned first aspect.
In the audio signal encoding method according to the aspect, in the encoding step, a plurality of tracks having a common time axis are defined, and each unit section set in the section setting step is separated into a plurality of tracks and re-divided. A track separation process to be arranged is performed, and a section extension process is performed for each track.
【0009】(3) 本発明の第3の態様は、上述の第2
の態様に係る音響信号の符号化方法において、あるトラ
ックに配置された単位区間が、別なトラックに配置され
た別な単位区間に対して、共通の時間軸上で少なくとも
一部分が重複するように、各トラックごとの区間延長処
理を行うようにしたものである。(3) The third aspect of the present invention is the above-mentioned second aspect.
In the audio signal encoding method according to the aspect, the unit section arranged on a certain track is at least partially overlapped with another unit section arranged on another track on a common time axis. The section extension processing is performed for each track.
【0010】(4) 本発明の第4の態様は、上述の第1
〜第3の態様に係る音響信号の符号化方法において、単
位区間延長処理を行った後、互いに類似した符号データ
をもつ単位区間が所定の基準間隔以下の間隔をおいて存
在していた場合に、これらの単位区間を1つの単位区間
に統合する区間統合処理を行い、統合前の個々の単位区
間の符号データに基いて、統合後の単位区間の符号デー
タを決定するようにしたものである。(4) The fourth aspect of the present invention is the above-mentioned first aspect.
In the audio signal encoding method according to the third aspect, after performing the unit interval extension process, when unit units having code data similar to each other exist at intervals equal to or less than a predetermined reference interval. In addition, a section integration process for integrating these unit sections into one unit section is performed, and code data of the unit section after integration is determined based on code data of each unit section before integration. .
【0011】(5) 本発明の第5の態様は、上述の第2
の態様に係る音響信号の符号化方法において、トラック
分離処理を行う際に、互いに類似した符号データをもつ
近接した単位区間を同一トラック上に再配置するように
したものである。(5) The fifth aspect of the present invention is the above-mentioned second aspect.
In the audio signal encoding method according to the aspect, when performing track separation processing, adjacent unit sections having code data similar to each other are rearranged on the same track.
【0012】(6) 本発明の第6の態様は、上述の第1
〜第5の態様に係る音響信号の符号化方法において、単
位区間延長処理を行う際に、最大区間長Lmax と最小区
間長Lmin とを設定し、各区間を、隣接する区間に接触
するまで、最大でLmax まで延長する処理を行うととも
に、区間長がLmin 未満の区間を削除する処理を行うよ
うにしたものである。(6) The sixth aspect of the present invention is the above-mentioned first aspect.
In the audio signal encoding method according to the fifth to fifth aspects, when performing the unit section extension processing, the maximum section length Lmax and the minimum section length Lmin are set, and each section is set until the adjacent section contacts the adjacent section. The processing is performed to extend up to Lmax at the maximum, and the processing to delete the section whose section length is less than Lmin is performed.
【0013】(7) 本発明の第7の態様は、上述の第1
〜第6の態様に係る音響信号の符号化方法において、符
号化段階で、代表周波数に基づいてノートナンバーを定
め、代表強度に基づいてベロシティーを定め、単位区間
の長さに基づいてデルタタイムを定め、1つの単位区間
の音響データを、ノートナンバー、ベロシティー、デル
タタイムで表現されるMIDI形式の符号データに変換
し、時間軸上で重複する単位区間に対しては異なるチャ
ンネルを割り当てるようにしたものである。(7) The seventh aspect of the present invention is the above-mentioned first aspect.
In the audio signal encoding method according to the sixth aspect, in the encoding step, the note number is determined based on the representative frequency, the velocity is determined based on the representative intensity, and the delta time is determined based on the length of the unit section. And converts the sound data of one unit section into MIDI-format coded data represented by note number, velocity, and delta time, and assigns different channels to the unit sections overlapping on the time axis. It was made.
【0014】(8) 本発明の第8の態様は、上述の第1
〜第7の態様に係る音響信号の符号化方法を実行する音
響信号の符号化のためのプログラムをコンピュータ読み
取り可能な記録媒体に記録するようにしたものである。(8) An eighth aspect of the present invention is the above-mentioned first aspect.
A program for encoding an audio signal for executing the audio signal encoding method according to the seventh to seventh aspects is recorded on a computer-readable recording medium.
【0015】(9) 本発明の第8の態様は、上述の第1
〜第7の態様に係る音響信号の符号化方法により符号化
された符号データをコンピュータ読み取り可能な記録媒
体に記録するようにしたものである。(9) An eighth aspect of the present invention is the above-mentioned first aspect.
Code data encoded by the audio signal encoding method according to the seventh to seventh aspects is recorded on a computer-readable recording medium.
【0016】[0016]
【発明の実施の形態】以下、本発明を図示する実施形態
に基づいて説明する。本願発明は、特願平9−6746
7号明細書に開示された発明(以下、先願発明という)
を基本発明とした改良発明に相当するものである。した
がって、以下の説明では、まず、§1〜§3において先
願発明に係る符号化方法を説明することにする。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below based on an embodiment shown in the drawings. The present invention is disclosed in Japanese Patent Application No. 9-6746.
Invention disclosed in the specification of No. 7 (hereinafter referred to as the prior invention)
Corresponds to an improved invention based on the basic invention. Therefore, in the following description, the encoding method according to the invention of the prior application will be described first in §1 to §3.
【0017】§1. 先願発明に係る音響信号の符号化
方法の基本原理 はじめに、先願発明に係る音響信号の符号化方法の基本
原理を図1を参照しながら説明する。いま、図1の上段
に示すように、時系列の強度信号としてアナログ音響信
号が与えられたものとしよう。図示の例では、横軸に時
間軸t、縦軸に信号強度Aをとってこの音響信号を示し
ている。先願発明では、まずこのアナログ音響信号を、
デジタルの音響データとして取り込む処理を行う。これ
は、従来の一般的なPCMの手法を用い、所定のサンプ
リング周波数でこのアナログ音響信号をサンプリング
し、信号強度Aを所定の量子化ビット数を用いてデジタ
ルデータに変換する処理を行えばよい。ここでは、説明
の便宜上、PCMの手法でデジタル化した音響データの
波形も、図1の上段のアナログ音響信号と同一の波形で
示すことにする。 §1. Audio signal encoding according to the prior application invention
Basic Principle of Method First, the basic principle of an audio signal encoding method according to the invention of the prior application will be described with reference to FIG. Now, suppose that an analog sound signal is given as a time-series intensity signal as shown in the upper part of FIG. In the illustrated example, the horizontal axis represents the time axis t, and the vertical axis represents the signal strength A, and the acoustic signal is shown. In the prior application, first, this analog sound signal is
A process for capturing digital audio data is performed. This can be done by using a conventional general PCM technique, sampling the analog audio signal at a predetermined sampling frequency, and converting the signal strength A into digital data using a predetermined quantization bit number. . Here, for convenience of explanation, the waveform of the audio data digitized by the PCM method is also shown by the same waveform as the analog audio signal in the upper part of FIG.
【0018】次に、このデジタル音響データの時間軸t
上に複数の単位区間を設定する。図示の例では、6つの
単位区間U1〜U6が設定されている。第i番目の単位
区間Uiは、時間軸t上の始端siおよび終端eiの座
標値によって、その時間軸t上での位置と長さとが示さ
れる。たとえば、単位区間U1は、始端s1〜終端e1
までの(e1−s1)なる長さをもつ区間である。Next, the time axis t of this digital acoustic data
Set multiple unit sections above. In the illustrated example, six unit sections U1 to U6 are set. The position and length of the i-th unit section Ui on the time axis t are indicated by the coordinate values of the start end si and the end ei on the time axis t. For example, the unit section U1 includes a start end s1 to an end e1.
Up to (e1-s1).
【0019】こうして、複数の単位区間が設定された
ら、個々の単位区間内の音響データに基づいて、個々の
単位区間を代表する所定の代表周波数および代表強度を
定義する。ここでは、第i番目の単位区間Uiについ
て、代表周波数Fiおよび代表強度Aiが定義された状
態が示されている。たとえば、第1番目の単位区間U1
については、代表周波数F1および代表強度A1が定義
されている。代表周波数F1は、始端s1〜終端e1ま
での区間に含まれている音響データの周波数成分の代表
値であり、代表強度Aiは、同じく始端s1〜終端e1
までの区間に含まれている音響データの信号強度の代表
値である。単位区間U1内の音響データに含まれる周波
数成分は、通常、単一ではなく、信号強度も変動するの
が一般的である。先願発明のポイントは、1つの単位区
間について、単一の代表周波数と単一の代表強度を定義
し、これら代表値を用いて符号化を行う点にある。When a plurality of unit sections are set in this way, predetermined representative frequencies and representative intensities representing the individual unit sections are defined based on the sound data in each unit section. Here, a state in which the representative frequency Fi and the representative intensity Ai are defined for the i-th unit section Ui is shown. For example, the first unit section U1
, A representative frequency F1 and a representative intensity A1 are defined. The representative frequency F1 is a representative value of the frequency component of the acoustic data included in the section from the start end s1 to the end e1, and the representative intensity Ai is also the start end s1 to the end e1.
Are representative values of the signal intensities of the sound data included in the section up to and including. Generally, the frequency component included in the sound data in the unit section U1 is not single, and the signal strength generally varies. The point of the invention of the prior application is that a single representative frequency and a single representative intensity are defined for one unit section, and encoding is performed using these representative values.
【0020】すなわち、個々の単位区間について、それ
ぞれ代表周波数および代表強度が定義されたら、時間軸
t上での個々の単位区間の始端位置および終端位置を示
す情報と、定義された代表周波数および代表強度を示す
情報と、により符号データを生成し、個々の単位区間の
音響データを個々の符号データによって表現するのであ
る。単一の周波数をもち、単一の信号強度をもった音響
信号が、所定の期間だけ持続する、という事象を符号化
する手法として、MIDI規格に基づく符号化を利用す
ることができる。MIDI規格による符号データ(MI
DIデータ)は、いわば音符によって音を表現したデー
タということができ、図1では、下段に示す音符によっ
て、最終的に得られる符号データの概念を示している。That is, once the representative frequency and the representative intensity are defined for each unit section, information indicating the starting position and the ending position of each unit section on the time axis t, the defined representative frequency and the representative The code data is generated based on the information indicating the intensity, and the sound data of each unit section is expressed by each code data. As a technique for encoding an event that an audio signal having a single frequency and a single signal strength lasts for a predetermined period, encoding based on the MIDI standard can be used. Code data according to the MIDI standard (MI
DI data) can be said to be data expressing sound by musical notes, and FIG. 1 shows the concept of code data finally obtained by musical notes shown in the lower part.
【0021】結局、各単位区間内の音響データは、代表
周波数F1に相当する音程情報(MIDI規格における
ノートナンバー)と、代表強度A1に相当する強度情報
(MIDI規格におけるベロシティー)と、単位区間の
長さ(e1−s1)に相当する長さ情報(MIDI規格
におけるデルタタイム)と、をもった符号データに変換
されることになる。このようにして得られる符号データ
の情報量は、もとの音響信号のもつ情報量に比べて、著
しく小さくなり、飛躍的な符号化効率が得られることに
なる。これまで、MIDIデータを生成する手法として
は、演奏者が実際に楽器を演奏するときの操作をそのま
ま取り込んで符号化するか、あるいは、楽譜上の音符を
データとして入力するしかなかったが、上述した手法を
用いれば、実際のアナログ音響信号からMIDIデータ
を直接生成することが可能になる。After all, the sound data in each unit section includes pitch information (note number in the MIDI standard) corresponding to the representative frequency F1, intensity information (velocity in the MIDI standard) corresponding to the representative intensity A1, and a unit section. Is converted to coded data having length information (delta time in the MIDI standard) corresponding to the length (e1-s1). The information amount of the code data obtained in this way is significantly smaller than the information amount of the original audio signal, and a remarkable coding efficiency can be obtained. Until now, the only way to generate MIDI data was to perform and encode the operation when the player actually played the instrument, or to input the notes on the musical score as data. By using the technique described above, MIDI data can be directly generated from an actual analog audio signal.
【0022】もっとも、上述した手法による符号化方法
を実用化するためには、いくつか留意すべき点がある。
第1の留意点は、再生時に音源を用意する必要があると
いう点である。上述の手法によって最終的に得られる符
号データには、もとの音響信号の波形データそのものは
含まれていないため、何らかの音響波形のデータをもっ
た音源が必要になる。たとえば、MIDIデータを再生
する場合には、MIDI音源が必要になる。もっとも、
MIDI規格が普及した現在では、種々のMIDI音源
が入手可能であり、実用上は大きな問題は生じない。た
だ、もとの音響信号に忠実な再生音を得るためには、も
との音響信号に含まれていた音響波形に近似した波形デ
ータをもったMIDI音源を用意する必要がある。適当
なMIDI音源を用いた再生を行うことができれば、む
しろもとの音響信号よりも高い音質で、臨場感あふれる
再生音を得ることも可能になる。However, there are some points to keep in mind in order to put the above-described coding method into practical use.
The first point is that it is necessary to prepare a sound source during reproduction. Since the code data finally obtained by the above-described method does not include the waveform data of the original sound signal itself, a sound source having some kind of sound waveform data is required. For example, when reproducing MIDI data, a MIDI sound source is required. However,
At present, when the MIDI standard has become widespread, various MIDI sound sources are available, and there is no serious problem in practical use. However, in order to obtain a reproduced sound that is faithful to the original sound signal, it is necessary to prepare a MIDI sound source having waveform data that approximates the sound waveform included in the original sound signal. If reproduction using an appropriate MIDI sound source can be performed, it is possible to obtain a reproduction sound full of a sense of reality with higher sound quality than the original sound signal.
【0023】第2の留意点は、1つの単位区間に含まれ
る音響データの周波数を、単一の代表周波数に置き換え
てしまうという基本原理に基づく符号化手法であるた
め、非常に幅の広い周波数成分を同時に含んでいるよう
な音響信号の符号化には不向きであるという点である。
もちろん、この符号化手法は、どのような音響信号に対
しても適用可能であるが、人間の声音のように、非常に
周波数レンジの広い音響信号に対して符号化を行って
も、再生時に十分な再現性は得られなくなる。このよう
な問題に対処するには、時間軸上で重複するように複数
の単位区間を定義するようにし、各単位区間ごとにそれ
ぞれ別個に符号化を行うようにすればよい。この手法に
ついては、§6において述べることにする。The second point to be noted is that the encoding method is based on the basic principle that the frequency of the sound data included in one unit section is replaced with a single representative frequency. This is unsuitable for encoding an audio signal that includes components at the same time.
Of course, this encoding method can be applied to any audio signal.However, even when encoding an audio signal with a very wide frequency range, such as human voice, Sufficient reproducibility cannot be obtained. To cope with such a problem, a plurality of unit sections may be defined so as to overlap on the time axis, and encoding may be performed separately for each unit section. This technique is described in §6.
【0024】第3の留意点は、効率的で再現性の高い符
号化を行うためには、単位区間の設定方法に工夫を凝ら
す必要があるという点である。先願発明の基本原理は、
上述したように、もとの音響データを複数の単位区間に
分割し、各単位区間ごとに、単一周波数および単一強度
を示す符号データに変換するという点にある。したがっ
て、最終的に得られる符号データは、単位区間の設定方
法に大きく依存することになる。最も単純な単位区間の
設定方法は、時間軸上で、たとえば10msごとという
ように、等間隔に単位区間を一義的に定義する方法であ
る。しかしながら、この方法では、符号化対象となるも
との音響データにかかわらず、常に一定の方法で単位区
間の定義が行われることになり、必ずしも効率的で再現
性の高い符号化は期待できない。したがって、実用上
は、もとの音響データの波形を解析し、個々の音響デー
タに適した単位区間の設定を行うようにするのが好まし
い。A third point to be noted is that in order to perform efficient and highly reproducible encoding, it is necessary to devise a method of setting a unit section. The basic principle of the prior invention is
As described above, the original sound data is divided into a plurality of unit sections, and each unit section is converted into code data indicating a single frequency and a single intensity. Therefore, the finally obtained code data greatly depends on the method of setting the unit section. The simplest method of setting a unit section is a method of uniquely defining unit sections at regular intervals on the time axis, for example, every 10 ms. However, in this method, the unit section is always defined by a constant method regardless of the original audio data to be encoded, and it is not always possible to expect efficient and highly reproducible encoding. Therefore, in practice, it is preferable to analyze the waveform of the original sound data and set a unit section suitable for each sound data.
【0025】効率的な単位区間の設定を行う1つのアプ
ローチは、音響データの中で周波数帯域が近似した区間
を1つのまとまった単位区間として抽出するという方法
である。単位区間内の周波数成分は1つの代表周波数に
よって置き換えられてしまうので、この代表周波数とあ
まりにかけ離れた周波数成分が含まれていると、再生時
の再現性が低減する。したがって、ある程度近似した周
波数が持続する区間を1つの単位区間として抽出するこ
とは、再現性のよい効率的な符号化を行う上で重要であ
る。このアプローチを採る場合、具体的には、もとの音
響データの周波数の変化点を認識し、この変化点を境界
とする単位区間の設定を行うようにすればよい。One approach for efficiently setting a unit section is to extract a section having a similar frequency band from the acoustic data as a single unit section. Since the frequency component in the unit section is replaced by one representative frequency, the reproducibility at the time of reproduction is reduced if a frequency component far away from this representative frequency is included. Therefore, it is important to extract a section in which a frequency approximated to some extent is maintained as one unit section in order to perform efficient coding with good reproducibility. When this approach is adopted, specifically, a change point of the frequency of the original sound data is recognized, and a unit section having the change point as a boundary may be set.
【0026】効率的な単位区間の設定を行うもう1つの
アプローチは、音響データの中で信号強度が近似した区
間を1つのまとまった単位区間として抽出するという方
法である。単位区間内の信号強度は1つの代表強度によ
って置き換えられてしまうので、この代表強度とあまり
にかけ離れた信号強度が含まれていると、再生時の再現
性が低減する。したがって、ある程度近似した信号強度
が持続する区間を1つの単位区間として抽出すること
は、再現性のよい効率的な符号化を行う上で重要であ
る。このアプローチを採る場合、具体的には、もとの音
響データの信号強度の変化点を認識し、この変化点を境
界とする単位区間の設定を行うようにすればよい。Another approach for efficiently setting a unit section is a method of extracting a section in which signal intensity is approximated from audio data as a single unit section. Since the signal strength in a unit section is replaced by one representative strength, if the signal strength is far from the representative strength, reproducibility at the time of reproduction is reduced. Therefore, extracting a section in which the signal strength approximated to some extent is maintained as one unit section is important for efficient coding with good reproducibility. When this approach is adopted, specifically, a change point of the signal intensity of the original sound data is recognized, and a unit section having the change point as a boundary may be set.
【0027】§2. 先願発明に係る音響信号の符号化
方法の実用的な手順 図2は、先願発明のより実用的な手順を示す流れ図であ
る。この手順は、入力段階S10、変極点定義段階S2
0、区間設定段階S30、符号化段階S40の4つの大
きな段階から構成されている。入力段階S10は、符号
化対象となる音響信号を、デジタルの音響データとして
取り込む段階である。変極点定義段階S20は、後の区
間設定段階S30の準備段階ともいうべき段階であり、
取り込んだ音響データの波形について変極点(ローカル
ピーク)を求める段階である。また、区間設定段階S3
0は、この変極点に基づいて、音響データの時間軸上に
複数の単位区間を設定する段階であり、符号化段階S4
0は、個々の単位区間の音響データを個々の符号データ
に変換する段階である。符号データへの変換原理は、既
に§1で述べたとおりである。すなわち、個々の単位区
間内の音響データに基づいて、個々の単位区間を代表す
る所定の代表周波数および代表強度を定義し、時間軸上
での個々の単位区間の始端位置および終端位置を示す情
報と、代表周波数および代表強度を示す情報と、によっ
て符号データが生成されることになる。以下、これらの
各段階において行われる処理を順に説明する。 §2. Audio signal encoding according to the prior application invention
Practical Procedure of Method FIG. 2 is a flowchart showing a more practical procedure of the prior application. This procedure includes an input step S10, an inflection point definition step S2
0, a section setting step S30, and an encoding step S40. The input step S10 is a step of taking in an audio signal to be encoded as digital audio data. The inflection point defining step S20 is a step that can be called a preparation step of a later section setting step S30,
In this stage, the inflection point (local peak) is obtained for the waveform of the acquired acoustic data. Also, the section setting step S3
0 is a step of setting a plurality of unit sections on the time axis of the sound data based on the inflection point,
0 is a stage of converting sound data of each unit section into individual code data. The principle of conversion to coded data is as described in §1. That is, based on sound data in each unit section, a predetermined representative frequency and a representative intensity representative of each unit section are defined, and information indicating the start position and the end position of each unit section on the time axis. And information indicating the representative frequency and the representative intensity, code data is generated. Hereinafter, the processing performed in each of these steps will be described in order.
【0028】<<< 2.1 入力段階 >>>入力段
階S10では、サンプリング処理S11と直流成分除去
処理S12とが実行される。サンプリング処理S11
は、符号化の対象となるアナログ音響信号を、デジタル
の音響データとして取り込む処理であり、従来の一般的
なPCMの手法を用いてサンプリングを行う処理であ
る。この実施形態では、サンプリング周波数:44.1
kHz、量子化ビット数:16ビットという条件でサン
プリングを行い、デジタルの音響データを用意してい
る。<<< 2.1 Input Stage >>> In the input stage S10, a sampling process S11 and a DC component removing process S12 are performed. Sampling processing S11
Is a process of capturing an analog audio signal to be encoded as digital audio data, and is a process of performing sampling using a conventional general PCM technique. In this embodiment, the sampling frequency is 44.1.
Sampling is performed under the conditions of kHz and the number of quantization bits: 16 bits to prepare digital acoustic data.
【0029】続く、直流成分除去処理S12は、入力し
た音響データに含まれている直流成分を除去するデジタ
ル処理である。たとえば、図3に示す音響データは、振
幅の中心レベルが、信号強度を示すデータレンジの中心
レベル(具体的なデジタル値としては、たとえば、16
ビットでサンプリングを行い、0〜65535のデータ
レンジが設定されている場合には32768なる値。以
下、説明の便宜上、図3のグラフに示すように、データ
レンジの中心レベルに0をとり、サンプリングされた個
々の信号強度の値を正または負で表現する)よりもDだ
け高い位置にきている。別言すれば、この音響データに
は、値Dに相当する直流成分が含まれていることにな
る。サンプリング処理の対象になったアナログ音響信号
に直流成分が含まれていると、デジタル音響データにも
この直流成分が残ることになる。そこで、直流成分除去
処理S12によって、この直流成分Dを除去する処理を
行い、振幅の中心レベルとデータレンジの中心レベルと
を一致させる。具体的には、サンプリングされた個々の
信号強度の平均が0になるように、直流成分Dを差し引
く演算を行えばよい。これにより、正および負の両極性
デジタル値を信号強度としてもった音響データが用意で
きる。Subsequently, the DC component removing process S12 is a digital process for removing a DC component included in the input acoustic data. For example, in the acoustic data shown in FIG. 3, the center level of the amplitude is the center level of the data range indicating the signal strength (specific digital values are, for example, 16
If the data is sampled in bits and a data range of 0 to 65535 is set, the value is 32768. Hereinafter, for convenience of explanation, as shown in the graph of FIG. 3, the center level of the data range is set to 0, and the value of each sampled signal strength is expressed by positive or negative. ing. In other words, this acoustic data includes a DC component corresponding to the value D. If a DC component is included in the analog audio signal subjected to the sampling process, the DC component remains in the digital audio data. Therefore, a process of removing the DC component D is performed by the DC component removal process S12 to make the center level of the amplitude coincide with the center level of the data range. More specifically, a calculation for subtracting the DC component D may be performed so that the average of the individual signal intensities sampled becomes zero. This makes it possible to prepare acoustic data having both positive and negative digital values as signal strength.
【0030】<<< 2.2 変極点定義段階 >>>
変極点定義段階S20では、変極点探索処理S21と同
極性変極点の間引処理S22とが実行される。変極点探
索処理S21は、取り込んだ音響データの波形について
変極点を求める処理である。図4は、図3に示す音響デ
ータの一部を時間軸に関して拡大して示したグラフであ
る。このグラフでは、矢印P1〜P6の先端位置の点が
変極点(極大もしくは極小の点)に相当し、各変極点は
いわゆるローカルピークに相当する点となる。このよう
な変極点を探索する方法としては、たとえば、サンプリ
ングされたデジタル値を時間軸に沿って順に注目してゆ
き、増加から減少に転じた位置、あるいは減少から増加
に転じた位置を認識すればよい。ここでは、この変極点
を図示のような矢印で示すことにする。<<< 2.2 Inflection Point Definition Stage >>>>
In the inflection point defining step S20, an inflection point search process S21 and a thinning process S22 of the same polarity inflection point are executed. The inflection point search process S21 is a process of finding an inflection point for the waveform of the acquired acoustic data. FIG. 4 is a graph showing a part of the acoustic data shown in FIG. 3 in an enlarged manner with respect to a time axis. In this graph, the points at the tip positions of the arrows P1 to P6 correspond to inflection points (maximum or minimum points), and each inflection point corresponds to a so-called local peak. As a method of searching for such an inflection point, for example, by sequentially paying attention to the sampled digital values along the time axis, it is possible to recognize a position where the value has changed from increasing to decreasing or a position where the value has changed from decreasing to increasing. I just need. Here, this inflection point is indicated by an arrow as shown.
【0031】各変極点は、サンプリングされた1つのデ
ジタルデータに対応する点であり、所定の信号強度の情
報(矢印の長さに相当)をもつとともに、時間軸t上で
の位置の情報をもつことになる。図5は、図4に矢印で
示す変極点P1〜P6のみを抜き出して示した図であ
る。以下の説明では、この図5に示すように、第i番目
の変極点Piのもつ信号強度(絶対値)を矢印の長さa
iとして示し、時間軸t上での変極点Piの位置をti
として示すことにする。結局、変極点探索処理S21
は、図3に示すような音響データに基づいて、図5に示
すような各変極点に関する情報を求める処理ということ
になる。Each inflection point is a point corresponding to one sampled digital data, and has information of a predetermined signal strength (corresponding to the length of an arrow) and information of a position on the time axis t. Will have. FIG. 5 is a diagram showing only the inflection points P1 to P6 indicated by arrows in FIG. In the following description, as shown in FIG. 5, the signal strength (absolute value) of the i-th inflection point Pi is represented by the arrow length a.
i, and the position of the inflection point Pi on the time axis t is ti
Will be shown as After all, the inflection point search processing S21
Is a process for obtaining information on each inflection point as shown in FIG. 5 based on acoustic data as shown in FIG.
【0032】ところで、図5に示す各変極点P1〜P6
は、交互に極性が反転する性質を有する。すなわち、図
5の例では、奇数番目の変極点P1,P3,P5は上向
きの矢印で示され、偶数番目の変極点P2,P4,P6
は下向きの矢印で示されている。これは、もとの音響デ
ータ波形の振幅が正負交互に現れる振動波形としての本
来の姿をしているためである。しかしながら、実際に
は、このような本来の振動波形が必ずしも得られるとは
限らず、たとえば、図6に示すように、多少乱れた波形
が得られる場合もある。この図6に示すような音響デー
タに対して変極点探索処理S21を実行すると、個々の
変極点P1〜P7のすべてが検出されてしまうため、図
7に示すように、変極点を示す矢印の向きは交互に反転
するものにはならない。しかしながら、単一の代表周波
数を定義する上では、向きが交互に反転した矢印列が得
られるのが好ましい。The inflection points P1 to P6 shown in FIG.
Has a property that the polarity is alternately inverted. That is, in the example of FIG. 5, the odd-numbered inflection points P1, P3, and P5 are indicated by upward arrows, and the even-numbered inflection points P2, P4, and P6 are displayed.
Is indicated by a downward arrow. This is because the original acoustic data waveform has an original shape as a vibration waveform in which the amplitude alternates between positive and negative. However, actually, such an original vibration waveform is not always obtained. For example, as shown in FIG. 6, a somewhat distorted waveform may be obtained. When the inflection point search processing S21 is performed on the acoustic data as shown in FIG. 6, all of the individual inflection points P1 to P7 are detected, and therefore, as shown in FIG. The orientation does not alternate. However, in defining a single representative frequency, it is preferable to obtain a row of arrows whose directions are alternately inverted.
【0033】同極性変極点の間引処理S22は、図7に
示すように、同極性のデジタル値をもった変極点(同じ
向きの矢印)が複数連続した場合に、絶対値が最大のデ
ジタル値をもった変極点(最も長い矢印)のみを残し、
残りを間引きしてしまう処理である。図7に示す例の場
合、上向きの3本の矢印P1〜P3のうち、最も長いP
2のみが残され、下向きの3本の矢印P4〜P6のう
ち、最も長いP4のみが残され、結局、間引処理S22
により、図8に示すように、3つの変極点P2,P4,
P7のみが残されることになる。この図8に示す変極点
は、図6に示す音響データの波形の本来の姿に対応した
ものになる。As shown in FIG. 7, in the thinning process S22 of the same polarity inflection point, when a plurality of inflection points (arrows in the same direction) having the same polarity digital value continue, the digital value having the largest absolute value is obtained. Leaving only the inflection point with the value (the longest arrow)
This is a process of thinning out the rest. In the case of the example shown in FIG. 7, among the three upward arrows P1 to P3, the longest P
2 is left, and only the longest P4 of the three downward arrows P4 to P6 is left.
As a result, as shown in FIG. 8, three inflection points P2, P4,
Only P7 will be left. The inflection point shown in FIG. 8 corresponds to the original shape of the waveform of the acoustic data shown in FIG.
【0034】<<< 2.3 区間設定段階 >>>既
に述べたように、先願発明に係る符号化方法において、
効率的で再現性の高い符号化を行うためには、単位区間
の設定方法に工夫を凝らす必要がある。その意味で、図
2に示す各段階のうち、区間設定段階S30は、実用上
非常に重要な段階である。上述した変極点定義段階S2
0は、この区間設定段階S30の準備段階になってお
り、単位区間の設定は、個々の変極点の情報を利用して
行われる。すなわち、この区間設定段階S30では、変
極点に基づいて音響データの周波数もしくは信号強度の
変化点を認識し、この変化点を境界とする単位区間を設
定する、という基本的な考え方に沿って処理が進められ
る。<< 2.3 Section Setting Stage >>>> As described above, in the encoding method according to the prior application,
In order to perform efficient and highly reproducible encoding, it is necessary to devise a method of setting a unit section. In that sense, of the steps shown in FIG. 2, the section setting step S30 is a very important step in practical use. Inflection point definition step S2 described above
0 is a preparation stage of the section setting step S30, and the setting of the unit section is performed using information of each inflection point. That is, in the section setting step S30, processing is performed in accordance with the basic idea of recognizing a change point of the frequency or signal strength of acoustic data based on the inflection point and setting a unit section having the change point as a boundary. Is advanced.
【0035】図5に示すように、矢印で示されている個
々の変極点P1〜P6には、それぞれ信号強度a1〜a
6が定義されている。しかしながら、個々の変極点P1
〜P6それ自身には、周波数に関する情報は定義されて
いない。区間設定段階S30において最初に行われる固
有周波数定義処理S31は、個々の変極点それぞれに、
所定の固有周波数を定義する処理である。本来、周波数
というものは、時間軸上の所定の区間内の波について定
義される物理量であり、時間軸上のある1点について定
義されるべきものではない。ただ、ここでは便宜上、個
々の変極点について、疑似的に固有周波数なるものを定
義することにする(一般に、物理学における「固有周波
数」という文言は、物体が音波などに共鳴して振動する
物体固有の周波数を意味するが、本願における「固有周
波数」とは、このような物体固有の周波数を意味するも
のではなく、個々の変極点それぞれに定義された疑似的
な周波数、別言すれば、信号のある瞬間における基本周
波数を意味するものである。)。As shown in FIG. 5, the individual inflection points P1 to P6 indicated by arrows have signal intensities a1 to a6, respectively.
6 are defined. However, individual inflection points P1
No information on frequency is defined in P6 itself. The eigenfrequency definition processing S31 performed first in the section setting step S30 includes:
This is a process for defining a predetermined natural frequency. Originally, the frequency is a physical quantity defined for a wave in a predetermined section on the time axis, and should not be defined for a certain point on the time axis. However, here, for the sake of convenience, a pseudo-eigenfrequency is defined for each inflection point (generally, the term “eigenfrequency” in physics refers to an object that vibrates in resonance with a sound wave or the like. Although it means a unique frequency, the “natural frequency” in the present application does not mean such a frequency unique to the object, but a pseudo frequency defined at each individual inflection point, in other words, It means the fundamental frequency at a certain moment of the signal.)
【0036】いま、図9に示すように、多数の変極点の
うち、第n番目〜第(n+2)番目の変極点P(n),
P(n+1),P(n+2)に着目する。これら各変極
点には、それぞれ信号値a(n),a(n+1),a
(n+2)が定義されており、また、時間軸上での位置
t(n),t(n+1),t(n+2)が定義されてい
る。ここで、これら各変極点が、音響データ波形のロー
カルピーク位置に相当する点であることを考慮すれば、
図示のように、変極点P(n)とP(n+2)との間の
時間軸上での距離φは、もとの波形の1周期に対応する
ことがわかる。そこで、たとえば、第n番目の変極点P
(n)の固有周波数f(n)なるものを、f(n)=1
/φと定義すれば、個々の変極点について、それぞれ固
有周波数を定義することができる。時間軸上での位置t
(n),t(n+1),t(n+2)が、「秒」の単位
で表現されていれば、 φ=(t(n+2)−t(n)) であるから、 f(n)=1/(t(n+2)−t(n)) として定義できる。Now, as shown in FIG. 9, among the many inflection points, the nth to (n + 2) th inflection points P (n),
Focus on P (n + 1) and P (n + 2). The signal values a (n), a (n + 1), a
(N + 2) are defined, and positions t (n), t (n + 1), and t (n + 2) on the time axis are defined. Here, considering that each of these inflection points is a point corresponding to the local peak position of the acoustic data waveform,
As shown in the figure, it can be seen that the distance φ on the time axis between the inflection points P (n) and P (n + 2) corresponds to one cycle of the original waveform. Therefore, for example, the n-th inflection point P
The characteristic frequency f (n) of (n) is defined as f (n) = 1.
By defining / φ, a natural frequency can be defined for each inflection point. Position t on the time axis
If (n), t (n + 1) and t (n + 2) are expressed in units of “seconds”, then φ = (t (n + 2) −t (n)), so that f (n) = 1 / (T (n + 2) -t (n)).
【0037】なお、実際のデジタルデータ処理の手順を
考慮すると、個々の変極点の位置は、「秒」の単位では
なく、サンプル番号x(サンプリング処理S11におけ
る何番目のサンプリング時に得られたデータであるかを
示す番号)によって表されることになるが、このサンプ
ル番号xと実時間「秒」とは、サンプリング周波数fs
によって一義的に対応づけられる。たとえば、第m番目
のサンプルx(m)と第(m+1)番目のサンプルx
(m+1)との間の実時間軸上での間隔は、1/fsに
なる。In consideration of the actual digital data processing procedure, the position of each inflection point is not represented by the unit of “second” but by the sample number x (the number of data obtained at the sampling time in the sampling processing S11). The sample number x and the actual time “second” are represented by a sampling frequency fs.
Is uniquely associated by For example, the m-th sample x (m) and the (m + 1) -th sample x
The interval on the real time axis between (m + 1) is 1 / fs.
【0038】さて、このようにして個々の変極点に定義
された固有周波数は、物理的には、その変極点付近のロ
ーカルな周波数を示す量ということになる。隣接する別
な変極点との距離が短ければ、その付近のローカルな周
波数は高く、隣接する別な変極点との距離が長ければ、
その付近のローカルな周波数は低いということになる。
もっとも、上述の例では、後続する2つ目の変極点との
間の距離に基づいて固有周波数を定義しているが、固有
周波数の定義方法としては、この他どのような方法を採
ってもかまわない。たとえば、第n番目の変極点の固有
周波数f(n)を、先行する第(n−2)番目の変極点
との間の距離を用いて、 f(n)=1/(t(n)−t(n−2)) と定義することもできる。また、前述したように、後続
する2つ目の変極点との間の距離に基づいて、固有周波
数f(n)を、 f(n)=1/(t(n+2)−t(n)) なる式で定義した場合であっても、最後の2つの変極点
については、後続する2つ目の変極点が存在しないの
で、先行する変極点を利用して、 f(n)=1/(t(n)−t(n−2)) なる式で定義すればよい。The natural frequency defined at each inflection point in this way is physically an amount indicating a local frequency near the inflection point. If the distance to another adjacent inflection point is short, the local frequency in the vicinity is high, and if the distance to another adjacent inflection point is long,
The local frequency in the vicinity is low.
However, in the above example, the natural frequency is defined based on the distance between the subsequent second inflection point, but any other method may be used to define the natural frequency. I don't care. For example, the natural frequency f (n) of the n-th inflection point is calculated by using the distance between the preceding (n-2) -th inflection point and f (n) = 1 / (t (n) −t (n−2)). Further, as described above, the natural frequency f (n) is calculated as f (n) = 1 / (t (n + 2) -t (n)) based on the distance from the subsequent second inflection point. Even if it is defined by the following formula, since the following two inflection points do not exist for the last two inflection points, f (n) = 1 / ( t (n) −t (n−2)).
【0039】あるいは、後続する次の変極点との間の距
離に基づいて、第n番目の変極点の固有周波数f(n)
を、 f(n)=(1/2)・1/(t(n+1)−t
(n)) なる式で定義することもできるし、後続する3つ目の変
極点との間の距離に基づいて、 f(n)=(3/2)・1/(t(n+3)−t
(n)) なる式で定義することもできる。結局、一般式を用いて
示せば、第n番目の変極点についての固有周波数f
(n)は、k個離れた変極点(kが正の場合は後続する
変極点、負の場合は先行する変極点)との間の時間軸上
での距離に基づいて、 f(n)=(k/2)・1/(t(n+k)−t
(n)) なる式で定義することができる。kの値は、予め適当な
値に設定しておけばよい。変極点の時間軸上での間隔が
比較的小さい場合には、kの値をある程度大きく設定し
た方が、誤差の少ない固有周波数を定義することができ
る。ただし、kの値をあまり大きく設定しすぎると、ロ
ーカルな周波数としての意味が失われてしまうことにな
り好ましくない。Alternatively, the natural frequency f (n) of the n-th inflection point is determined based on the distance from the next succeeding inflection point.
F (n) = (1 /) · 1 / (t (n + 1) −t
(N)) or f (n) = (3/2) .1 / (t (n + 3)-based on the distance between the following third inflection point. t
(N)) It can also be defined by the following formula. After all, using the general formula, the natural frequency f for the n-th inflection point
F (n) is based on the distance on the time axis between the inflection points separated by k distances (the succeeding inflection point when k is positive, and the preceding inflection point when k is negative). = (K / 2) · 1 / (t (n + k) -t
(N)). The value of k may be set to an appropriate value in advance. If the interval of the inflection point on the time axis is relatively small, setting the value of k to a certain value can define a natural frequency with less error. However, if the value of k is set too large, it is not preferable because the meaning as a local frequency is lost.
【0040】こうして、固有周波数定義処理S31が完
了すると、個々の変極点P(n)には、信号強度a
(n)と、固有周波数f(n)と、時間軸上での位置t
(n)とが定義されることになる。When the eigenfrequency definition processing S31 is completed in this manner, the signal intensities a
(N), natural frequency f (n), and position t on the time axis
(N) will be defined.
【0041】さて、§1では、効率的で再現性の高い符
号化を行うためには、1つの単位区間に含まれる変極点
の周波数が所定の近似範囲内になるように単位区間を設
定するという第1のアプローチと、1つの単位区間に含
まれる変極点の信号強度が所定の近似範囲内になるよう
に単位区間を設定するという第2のアプローチとがある
ことを述べた。ここでは、この2つのアプローチを用い
た単位区間の設定手法を、具体例に即して説明しよう。In §1, in order to perform efficient and highly reproducible encoding, a unit section is set such that the frequency of an inflection point included in one unit section falls within a predetermined approximate range. It has been described that there are a first approach and a second approach in which a unit section is set such that the signal strength of an inflection point included in one unit section falls within a predetermined approximate range. Here, a method of setting a unit section using these two approaches will be described with reference to specific examples.
【0042】いま、図10に示すように、9つの変極点
P1〜P9のそれぞれについて、信号強度a1〜a9と
固有周波数f1〜f9とが定義されている場合を考え
る。この場合、第1のアプローチに従えば、個々の固有
周波数f1〜f9に着目し、互いに近似した固有周波数
をもつ空間的に連続した変極点の一群を1つの単位区間
とする処理を行えばよい。たとえば、固有周波数f1〜
f5がほぼ同じ値(第1の基準値)をとり、固有周波数
f6〜f9がほぼ同じ値(第2の基準値)をとってお
り、第1の基準値と第2の基準値との差が所定の許容範
囲を越えていた場合、図10に示すように、第1の基準
値の近似範囲に含まれる固有周波数f1〜f5をもつ変
極点P1〜P5を含む区間を単位区間U1とし、第2の
基準値の近似範囲に含まれる固有周波数f6〜f9をも
つ変極点P6〜P9を含む区間を単位区間U2として設
定すればよい。先願発明による手法では、1つの単位区
間については、単一の代表周波数が与えられることにな
るが、このように、固有周波数が互いに近似範囲内にあ
る複数の変極点が存在する区間を1つの単位区間として
設定すれば、代表周波数と個々の固有周波数との差が所
定の許容範囲内に抑えられることになり、大きな問題は
生じない。Now, as shown in FIG. 10, consider the case where signal intensities a1 to a9 and natural frequencies f1 to f9 are defined for each of the nine inflection points P1 to P9. In this case, according to the first approach, it is sufficient to focus on the individual natural frequencies f1 to f9 and perform a process in which a group of spatially continuous inflection points having natural frequencies that are close to each other is set as one unit section. . For example, natural frequencies f1 to f1
f5 has substantially the same value (first reference value), natural frequencies f6 to f9 have substantially the same value (second reference value), and the difference between the first and second reference values. Is outside the predetermined allowable range, as shown in FIG. 10, a section including inflection points P1 to P5 having natural frequencies f1 to f5 included in the approximate range of the first reference value is defined as a unit section U1, The section including the inflection points P6 to P9 having the natural frequencies f6 to f9 included in the approximate range of the second reference value may be set as the unit section U2. In the method according to the invention of the prior application, a single representative frequency is given to one unit section. In this way, a section in which a plurality of inflection points whose natural frequencies are within the approximate range of each other is defined as 1 unit. If it is set as one unit section, the difference between the representative frequency and each natural frequency can be suppressed within a predetermined allowable range, and there is no major problem.
【0043】続いて、固有周波数が近似する変極点を1
グループにまとめて、1つの単位区間を定義するための
具体的な手法の一例を以下に示す。たとえば、図10に
示すように、9つの変極点P1〜P9が与えられた場
合、まず変極点P1とP2について、固有周波数を比較
し、両者の差が所定の許容範囲ff内にあるか否かを調
べる。もし、 |f1−f2|<ff であれば、変極点P1,P2を第1の単位区間U1に含
ませる。そして、今度は、変極点P3を、この第1の単
位区間U1に含ませてよいか否かを調べる。これは、こ
の第1の単位区間U1についての平均固有周波数(f1
+f2)/2と、f3との比較を行い、 |(f1+f2)/2−f3|<ff であれば、変極点P3を第1の単位区間U1に含ませれ
ばよい。更に、変極点P4に関しては、 |(f1+f2+f3)/3−f4|<ff であれば、これを第1の単位区間U1に含ませることが
でき、変極点P5に関しては、 |(f1+f2+f3+f4)/4−f5|<ff であれば、これを第1の単位区間U1に含ませることが
できる。ここで、もし、変極点P6について、 |(f1+f2+f3+f4+f5)/5−f6|>f
f なる結果が得られたしまった場合、すなわち、固有周波
数f6と、第1の単位区間U1の平均固有周波数との差
が、所定の許容範囲ffを越えてしまった場合、変極点
P5とP6との間に不連続位置が検出されたことにな
り、変極点P6を第1の単位区間U1に含ませることは
できない。そこで、変極点P5をもって第1の単位区間
U1の終端とし、変極点P6は別な第2の単位区間U2
の始端とする。そして、変極点P6とP7について、固
有周波数を比較し、両者の差が所定の許容範囲ff内に
あるか否かを調べ、もし、 |f6−f7|<ff であれば、変極点P6,P7を第2の単位区間U2に含
ませる。そして、今度は、変極点P8に関して、 |(f6+f7)/2−f8|<ff であれば、これを第2の単位区間U2に含ませ、変極点
P9に関して、 |(f6+f7+f8)/3−f9|<ff であれば、これを第2の単位区間U2に含ませる。Subsequently, the inflection point at which the natural frequency approximates is 1
An example of a specific method for defining one unit section in a group is shown below. For example, as shown in FIG. 10, when nine inflection points P1 to P9 are given, first, natural frequencies are compared with respect to inflection points P1 and P2, and whether or not the difference between them is within a predetermined allowable range ff Find out what. If | f1−f2 | <ff, the inflection points P1 and P2 are included in the first unit section U1. Then, it is checked whether or not the inflection point P3 may be included in the first unit section U1. This is because the average natural frequency (f1) for the first unit section U1 is
+ F2) / 2 is compared with f3. If | (f1 + f2) / 2−f3 | <ff, the inflection point P3 may be included in the first unit section U1. Further, as for the inflection point P4, if | (f1 + f2 + f3) / 3-f4 | <ff, this can be included in the first unit section U1, and for the inflection point P5, | (f1 + f2 + f3 + f4) / 4 If −f5 | <ff, this can be included in the first unit section U1. Here, if the inflection point P6 is: | (f1 + f2 + f3 + f4 + f5) / 5−f6 |> f
f is obtained, that is, when the difference between the natural frequency f6 and the average natural frequency of the first unit section U1 exceeds a predetermined allowable range ff, the inflection points P5 and P6 And a discontinuous position is detected between the first unit section U1 and the inflection point P6 cannot be included in the first unit section U1. Therefore, the inflection point P5 is the end of the first unit section U1, and the inflection point P6 is another second unit section U2.
And the beginning of Then, the natural frequencies of the inflection points P6 and P7 are compared to determine whether or not the difference between them is within a predetermined allowable range ff. If | f6-f7 | <ff, the inflection points P6 and P7 are P7 is included in the second unit section U2. Then, if | (f6 + f7) / 2−f8 | <ff for the inflection point P8, this is included in the second unit section U2, and | (f6 + f7 + f8) / 3-f9 for the inflection point P9. If | <ff, this is included in the second unit section U2.
【0044】このような手法で、不連続位置の検出を順
次行ってゆき、各単位区間を順次設定してゆけば、上述
した第1のアプローチに沿った区間設定が可能になる。
もちろん、上述した具体的な手法は、一例として示した
ものであり、この他にも種々の手法を採ることができ
る。たとえば、平均値と比較する代わりに、常に隣接す
る変極点の固有周波数を比較し、差が許容範囲ffを越
えた場合に不連続位置と認識する簡略化した手法を採っ
てもかまわない。すなわち、f1とf2との差、f2と
f3との差、f3とf4との差、…というように、個々
の差を検討してゆき、差が許容範囲ffを越えた場合に
は、そこを不連続位置として認識すればよい。By sequentially detecting the discontinuous position by such a method and sequentially setting each unit section, the section setting according to the above-described first approach can be performed.
Of course, the specific method described above is shown as an example, and various other methods can be adopted. For example, instead of comparing with the average value, a simplified method of always comparing the natural frequencies of adjacent inflection points and recognizing a discontinuous position when the difference exceeds the allowable range ff may be adopted. In other words, the individual differences are examined, such as the difference between f1 and f2, the difference between f2 and f3, the difference between f3 and f4, and so on. May be recognized as a discontinuous position.
【0045】以上、第1のアプローチについて述べた
が、第2のアプローチに基づく単位区間の設定も同様に
行うことができる。この場合は、個々の変極点の信号強
度a1〜a9に着目し、所定の許容範囲aaとの比較を
行うようにすればよい。もちろん、第1のアプローチと
第2のアプローチとの双方を組み合わせて、単位区間の
設定を行ってもよい。この場合は、個々の変極点の固有
周波数f1〜f9と信号強度a1〜a9との双方に着目
し、両者がともに所定の許容範囲ffおよびaa内に入
っていれば、同一の単位区間に含ませるというような厳
しい条件を課してもよいし、いずれか一方が許容範囲内
に入っていれば、同一の単位区間に含ませるというよう
な緩い条件を課してもよい。Although the first approach has been described above, the setting of the unit section based on the second approach can be similarly performed. In this case, the signal intensities a1 to a9 at the individual inflection points may be focused on and compared with the predetermined allowable range aa. Of course, the unit section may be set by combining both the first approach and the second approach. In this case, attention is paid to both the natural frequencies f1 to f9 and the signal intensities a1 to a9 of the individual inflection points. Strict conditions may be imposed, for example, or if one of them falls within the allowable range, a loose condition may be imposed, for example, to include them in the same unit section.
【0046】なお、この区間設定段階S30において
は、上述した各アプローチに基づいて単位区間の設定を
行う前に、絶対値が所定の許容レベル未満となる信号強
度をもつ変極点を除外する処理を行っておくのが好まし
い。たとえば、図11に示す例のように所定の許容レベ
ルLLを設定すると、変極点P4の信号強度a4と変極
点P9の信号強度a9は、その絶対値がこの許容レベル
LL未満になる。このような場合、変極点P4,P9を
除外する処理を行うのである。このような除外処理を行
う第1の意義は、もとの音響信号に含まれていたノイズ
成分を除去することにある。通常、音響信号を電気的に
取り込む過程では、種々のノイズ成分が混入することが
多く、このようなノイズ成分までも含めて符号化が行わ
れると好ましくない。In this section setting step S30, before setting a unit section based on each of the above-described approaches, a process of excluding inflection points having a signal strength whose absolute value is less than a predetermined allowable level is performed. It is preferable to carry out. For example, when a predetermined allowable level LL is set as in the example shown in FIG. 11, the absolute values of the signal intensity a4 at the inflection point P4 and the signal intensity a9 at the inflection point P9 are less than the allowable level LL. In such a case, processing for excluding the inflection points P4 and P9 is performed. The first significance of performing such exclusion processing is to remove noise components included in the original audio signal. Usually, various noise components are often mixed in the process of electrically capturing an audio signal, and it is not preferable to perform encoding including such noise components.
【0047】もっとも、許容レベルLLをある程度以上
に設定すると、ノイズ成分以外のものも除外されること
になるが、このようにノイズ成分以外の信号を除外する
ことも、場合によっては、十分に意味のある処理にな
る。すなわち、この除外処理を行う第2の意義は、もと
の音響信号に含まれていた情報のうち、興味の対象外と
なる情報を除外することにある。たとえば、図1の上段
に示す音響信号は、人間の心音を示す信号であるが、こ
の音響信号のうち、疾患の診断などに有効な情報は、振
幅の大きな部分(各単位区間U1〜U6の部分)に含ま
れており、それ以外の部分の情報はあまり役にたたな
い。そこで、所定の許容レベルLLを設定し、無用な情
報部分を除外する処理を行うと、より効率的な符号化が
可能になる。If the allowable level LL is set to a certain level or more, signals other than noise components are also excluded. However, it is sometimes sufficient to exclude signals other than noise components. It becomes processing with. That is, the second significance of performing the exclusion process is to exclude information that is not of interest from information included in the original audio signal. For example, the sound signal shown in the upper part of FIG. 1 is a signal indicating a human heart sound. Among the sound signals, information effective for diagnosing a disease or the like includes a portion having a large amplitude (for each unit section U1 to U6). Part), and the information in the other parts is not very useful. Therefore, when a predetermined allowable level LL is set and a process for excluding unnecessary information portions is performed, more efficient encoding becomes possible.
【0048】また、心音や肺音のように、生体が発生す
る生理的リズム音における比較的振幅の小さな成分は、
生体内で発生する反響音であることが多く、このような
反響音は、符号化の時点で一旦除外してしまっても、再
生時にエコーなどの音響効果を加えることにより容易に
付加することが可能である。このような点においても、
許容レベル未満の変極点を除外する処理は意味をもつ。A component having a relatively small amplitude in a physiological rhythm sound generated by a living body, such as a heart sound or a lung sound,
It is often a reverberation that occurs in the living body, and even if such a reverberation is once removed at the time of encoding, it can be easily added by adding an acoustic effect such as an echo at the time of reproduction. It is possible. In this regard,
The process of excluding inflection points below the acceptable level is significant.
【0049】なお、許容レベル未満の変極点を除外する
処理を行った場合は、除外された変極点の位置で分割さ
れるように単位区間定義を行うようにするのが好まし
い。たとえば、図11に示す例の場合、除外された変極
点P4,P9の位置(一点鎖線で示す)で分割された単
位区間U1,U2が定義されている。このような単位区
間定義を行えば、図1の上段に示す音響信号のように、
信号強度が許容レベル以上の区間(単位区間U1〜U6
の各区間)と、許容レベル未満の区間(単位区間U1〜
U6以外の区間)とが交互に出現するような音響信号の
場合、非常に的確な単位区間の定義が可能になる。When a process of excluding an inflection point below an allowable level is performed, it is preferable to define a unit section so that division is performed at the position of the excluded inflection point. For example, in the case of the example shown in FIG. 11, unit sections U1 and U2 divided by the positions of the excluded inflection points P4 and P9 (indicated by dashed lines) are defined. If such a unit section definition is made, like the acoustic signal shown in the upper part of FIG.
The section where the signal strength is higher than the allowable level (unit sections U1 to U6)
) And sections below the permissible level (unit sections U1 to U1).
(A section other than U6) alternately appears, so that a very accurate unit section can be defined.
【0050】これまで、区間設定段階S30で行われる
効果的な区間設定手法の要点を述べてきたが、ここで
は、より具体的な手順を述べることにする。図2の流れ
図に示されているように、この区間設定段階S30は、
4つの処理S31〜S34によって構成されている。固
有周波数定義処理S31は、既に述べたように、各変極
点について、それぞれ近傍の変極点との間の時間軸上で
の距離に基づいて所定の固有周波数を定義する処理であ
る。ここでは、図12に示すように、変極点P1〜P1
7のそれぞれについて、固有周波数f1〜f17が定義
された例を考える。The essential points of the effective section setting method performed in the section setting step S30 have been described above. Here, a more specific procedure will be described. As shown in the flow chart of FIG. 2, this section setting step S30 includes:
It comprises four processes S31 to S34. As described above, the eigenfrequency definition process S31 is a process of defining a predetermined eigenfrequency for each inflection point based on a distance on a time axis between each inflection point and a neighboring inflection point. Here, as shown in FIG. 12, inflection points P1 to P1
Consider an example in which natural frequencies f1 to f17 are defined for each of Nos. 7.
【0051】続く、レベルによるスライス処理S32
は、絶対値が所定の許容レベル未満となる信号強度をも
つ変極点を除外し、除外された変極点の位置で分割され
るような区間を定義する処理である。ここでは、図12
に示すような変極点P1〜P17に対して、図13に示
すような許容レベルLLを設定した場合を考える。この
場合、変極点P1,P2,P11,P16,P17が、
許容レベル未満の変極点として除外されることになる。
図14では、このようにして除外された変極点を破線の
矢印で示す。この「レベルによるスライス処理S32」
では、更に、除外された変極点の位置で分割されるよう
な区間K1,K2が定義される。ここでは、1つでも除
外された変極点が存在する場合には、その位置の左右に
異なる区間を設定するようにしており、結果的に、変極
点P3〜P10までの区間K1と、変極点P12〜P1
5までの区間K2とが設定されることになる。なお、こ
こで定義された区間K1,K2は、暫定的な区間であ
り、必ずしも最終的な単位区間になるとは限らない。Slicing processing S32 according to the level
Is a process of excluding an inflection point having a signal intensity whose absolute value is less than a predetermined allowable level, and defining a section that is divided at the position of the excluded inflection point. Here, FIG.
Consider the case where allowable levels LL as shown in FIG. 13 are set for the inflection points P1 to P17 as shown in FIG. In this case, the inflection points P1, P2, P11, P16, and P17 are
Inflection points below the acceptable level will be excluded.
In FIG. 14, the inflection points thus excluded are indicated by broken-line arrows. This “slicing process by level S32”
In addition, sections K1 and K2 that are divided at the position of the excluded inflection point are further defined. Here, when there is at least one inflection point excluded, different sections are set to the left and right of the position. As a result, the section K1 from the inflection points P3 to P10 and the inflection point are set. P12-P1
The section K2 up to 5 is set. The sections K1 and K2 defined here are provisional sections, and are not necessarily final unit sections.
【0052】次の不連続部分割処理S33は、時間軸上
において、変極点の固有周波数もしくは信号強度の値が
不連続となる不連続位置を探し、処理S32で定義され
た個々の区間を、更にこの不連続位置で分割することに
より、新たな区間を定義する処理である。たとえば、上
述の例の場合、図15に示すような暫定区間K1,K2
が定義されているが、ここで、もし暫定区間K1内の変
極点P6とP7との間に不連続が生じていた場合は、こ
の不連続位置で暫定区間K1を分割し、図16に示すよ
うに、新たに暫定区間K1−1とK1−2とが定義さ
れ、結局、3つの暫定区間K1−1,K1−2,K2が
形成されることになる。不連続位置の具体的な探索手法
は既に述べたとおりである。たとえば、図15の例の場
合、 |(f3+f4+f5+f6)/4−f7|>ff の場合に、変極点P6とP7との間に固有周波数の不連
続が生じていると認識されることになる。同様に、変極
点P6とP7との間の信号強度の不連続は、 |(a3+a4+a5+a6)/4−a7|>aa の場合に認識される。The next discontinuous part dividing process S33 searches for a discontinuous position where the value of the natural frequency or the signal strength of the inflection point is discontinuous on the time axis, and separates the individual sections defined in the process S32 into This is a process of defining a new section by further dividing at the discontinuous position. For example, in the case of the above example, provisional sections K1 and K2 as shown in FIG.
Here, if a discontinuity occurs between the inflection points P6 and P7 in the provisional section K1, the provisional section K1 is divided at the discontinuity position and shown in FIG. Thus, provisional sections K1-1 and K1-2 are newly defined, and three provisional sections K1-1, K1-2, and K2 are eventually formed. The specific search method for the discontinuous position is as described above. For example, in the example of FIG. 15, when | (f3 + f4 + f5 + f6) / 4−f7 |> ff, it is recognized that a discontinuity of the natural frequency occurs between the inflection points P6 and P7. Similarly, a discontinuity in the signal strength between the inflection points P6 and P7 is recognized when | (a3 + a4 + a5 + a6) / 4-a7 |> aa.
【0053】不連続部分割処理S33で、実際に区間分
割を行うための条件としては、 固有周波数の不連続が生じた場合にのみ区間の分割を
行う、 信号強度の不連続が生じた場合にのみ区間の分割を行
う、 固有周波数の不連続か信号強度の不連続かの少なくと
も一方が生じた場合に区間の分割を行う、 固有周波数の不連続と信号強度の不連続との両方が生
じた場合にのみ区間の分割を行う、 など、種々の条件を設定することが可能である。あるい
は、不連続の度合いを考慮して、上述の〜を組み合
わせるような複合条件を設定することもできる。In the discontinuous part dividing process S33, the conditions for actually performing the section division are as follows. The section is divided only when the natural frequency discontinuity occurs. Performs segmentation only when a natural frequency discontinuity and / or signal strength discontinuity occurs.Either a natural frequency discontinuity and a signal strength discontinuity occur. Various conditions can be set, such as dividing a section only in such a case. Alternatively, in consideration of the degree of discontinuity, it is possible to set a complex condition that combines the above-mentioned conditions.
【0054】こうして、不連続部分割処理S33によっ
て得られた区間(上述の例の場合、3つの暫定区間K1
−1,K1−2,K2)を、最終的な単位区間として設
定することもできるが、ここでは更に、区間統合処理S
34を行っている。この区間統合処理S34は、不連続
部分割処理S33によって得られた区間のうち、一方の
区間内の変極点の固有周波数もしくは信号強度の平均
と、他方の区間内の変極点の固有周波数もしくは信号強
度の平均との差が、所定の許容範囲内であるような2つ
の隣接区間が存在する場合に、この隣接区間を1つの区
間に統合する処理である。たとえば、上述の例の場合、
図17に示すように、区間K1−2と区間K2とを平均
固有周波数で比較した結果、 |(f7+f8+f9+f10)/4−(f12+f1
3+f14+f15)/4|<ff のように、平均の差が所定の許容範囲ff以内であった
場合には、区間K1−2と区間K2とは統合されること
になる。もちろん、平均信号強度の差が許容範囲aa以
内であった場合に統合を行うようにしてもよいし、平均
固有周波数の差が許容範囲ff内という条件と平均信号
強度の差が許容範囲aa以内という条件とのいずれか一
方が満足された場合に統合を行うようにしてもよいし、
両条件がともに満足された場合に統合を行うようにして
もよい。また、このような種々の条件が満足されていて
も、両区間の間の間隔が時間軸上で所定の距離以上離れ
ていた場合(たとえば、多数の変極点が除外されたため
に、かなりの空白区間が生じているような場合)は、統
合処理を行わないような加重条件を課すことも可能であ
る。Thus, in the section obtained by the discontinuous part dividing process S33 (in the above example, three provisional sections K1
-1, K1-2, K2) can be set as the final unit section, but here, the section integration processing S
34. This section integration processing S34 is performed by calculating the average of the natural frequency or signal strength of the inflection point in one section and the natural frequency or signal of the inflection point in the other section in the sections obtained by the discontinuous part division processing S33. When there are two adjacent sections whose difference from the average of the intensity is within a predetermined allowable range, this is a process of integrating the adjacent sections into one section. For example, in the above example,
As shown in FIG. 17, as a result of comparing the sections K1-2 and K2 with the average natural frequency, | (f7 + f8 + f9 + f10) / 4- (f12 + f1
If the difference between the averages is within the predetermined allowable range ff, as in the case of 3 + f14 + f15) / 4 | <ff, the sections K1-2 and K2 are integrated. Of course, the integration may be performed when the difference between the average signal intensities is within the allowable range aa, or when the difference between the average natural frequencies is within the allowable range ff and the difference between the average signal intensities is within the allowable range aa. The integration may be performed when either one of the conditions is satisfied,
Integration may be performed when both conditions are satisfied. Even if such various conditions are satisfied, if the interval between the two sections is more than a predetermined distance on the time axis (for example, a considerable amount of blank space is left because many inflection points are excluded). If there is a section), it is possible to impose a weighting condition not to perform the integration processing.
【0055】かくして、この区間統合処理S34を行っ
た後に得られた区間が、最終的な単位区間として設定さ
れることになる。上述の例では、最終的に、図18に示
すように、単位区間U1(図17の暫定区間K1−1)
と、単位区間U2(図17で統合された暫定区間K1−
2およびK2)とが設定される。Thus, the section obtained after performing the section integration processing S34 is set as the final unit section. In the above example, finally, as shown in FIG. 18, the unit section U1 (the provisional section K1-1 in FIG. 17)
And the unit section U2 (the provisional section K1-
2 and K2) are set.
【0056】なお、ここに示す実施態様では、こうして
得られた単位区間の始端と終端を、その区間に含まれる
最初の変極点の時間軸上の位置を始端とし、その区間に
含まれる最後の変極点の時間軸上の位置を終端とする、
という定義で定めることにする。したがって、図18に
示す例では、単位区間U1は時間軸上の位置t3〜t6
までの区間であり、単位区間U2は時間軸上の位置t7
〜t15までの区間となる。In the embodiment shown here, the starting point and the ending point of the unit section obtained in this way are defined as the starting point at the position on the time axis of the first inflection point included in the section and the last point included in the section. Terminate the position on the time axis of the inflection point,
It is determined by the definition. Therefore, in the example shown in FIG. 18, the unit section U1 is located at the positions t3 to t6 on the time axis.
And the unit section U2 is a position t7 on the time axis.
This is a section from to t15.
【0057】<<< 2.4 符号化段階 >>>次
に、図2の流れ図に示されている符号化段階S40につ
いて説明する。ここに示す実施形態では、この符号化段
階S40は、符号データ生成処理S41と、符号データ
修正処理S42とによって構成されている。符号データ
生成処理S41は、区間設定段階S30において設定さ
れた個々の単位区間内の音響データに基づいて、個々の
単位区間を代表する所定の代表周波数および代表強度を
定義し、時間軸上での個々の単位区間の始端位置および
終端位置を示す情報と、代表周波数および代表強度を示
す情報とを含む符号データを生成する処理であり、この
処理により、個々の単位区間の音響データは個々の符号
データによって表現されることになる。一方、符号デー
タ修正処理S42は、後述するように、生成された符号
データを、復号化に用いる再生音源装置の特性に適合さ
せるために修正する処理である。<< 2.4 Encoding Step >> Next, the encoding step S40 shown in the flowchart of FIG. 2 will be described. In the embodiment shown here, the encoding step S40 includes a code data generation process S41 and a code data correction process S42. The code data generation processing S41 defines a predetermined representative frequency and a representative intensity representative of each unit section based on the acoustic data in each unit section set in the section setting step S30, and This is a process of generating code data including information indicating a start position and an end position of each unit section, and information indicating a representative frequency and a representative intensity. By this process, audio data of each unit section is converted into an individual code. It will be represented by data. On the other hand, the code data correction process S42 is a process of correcting the generated code data to match the characteristics of the reproduced sound source device used for decoding, as described later.
【0058】符号データ生成処理S41における符号デ
ータ生成の具体的手法は、非常に単純である。すなわ
ち、個々の単位区間内に含まれる変極点の固有周波数に
基づいて代表周波数を定義し、個々の単位区間内に含ま
れる変極点のもつ信号強度に基づいて代表強度を定義れ
ばよい。これを図18の例で具体的に示そう。この図1
8に示す例では、変極点P3〜P6を含む単位区間U1
と、変極点P7〜P15(ただし、P11は除外されて
いる)を含む単位区間U2とが設定されている。ここに
示す実施形態では、単位区間U1(始端t3,終端t
6)については、図19上段に示すように、代表周波数
F1および代表強度A1が、 F1=(f3+f4+f5+f6)/4 A1=(a3+a4+a5+a6)/4 なる式で演算され、単位区間U2(始端t7,終端t1
5)については、図19下段に示すように、代表周波数
F2および代表強度A2が、 F2=(f7+f8+f9+f10+f12+f13+
f14+f15)/8 A2=(a7+a8+a9+a10+a12+a13+
a14+a15)/8 なる式で演算される。別言すれば、代表周波数および代
表強度は、単位区間内に含まれる変極点の固有周波数お
よび信号強度の単純平均値となっている。もっとも、代
表値としては、このような単純平均値だけでなく、重み
を考慮した加重平均値をとってもかまわない。たとえ
ば、信号強度に基づいて個々の変極点に重みづけをし、
この重みづけを考慮した固有周波数の加重平均値を代表
周波数としてもよい。あるいは、単位区間内に含まれる
変極点のもつ信号強度のうちの最大値を代表強度とする
こともできる。The specific method of generating the code data in the code data generation processing S41 is very simple. That is, the representative frequency may be defined based on the natural frequency of the inflection point included in each unit section, and the representative intensity may be defined based on the signal strength of the inflection point included in each unit section. This is specifically shown in the example of FIG. This figure 1
8, the unit section U1 including the inflection points P3 to P6
And a unit section U2 including inflection points P7 to P15 (however, P11 is excluded). In the embodiment shown here, the unit section U1 (start end t3, end t3
Regarding 6), as shown in the upper part of FIG. 19, the representative frequency F1 and the representative intensity A1 are calculated by the following formula: F1 = (f3 + f4 + f5 + f6) / 4 A1 = (a3 + a4 + a5 + a6) / 4 t1
Regarding 5), as shown in the lower part of FIG. 19, the representative frequency F2 and the representative intensity A2 are expressed as follows: F2 = (f7 + f8 + f9 + f10 + f12 + f13 +
f14 + f15) / 8 A2 = (a7 + a8 + a9 + a10 + a12 + a13 +
a14 + a15) / 8. In other words, the representative frequency and the representative intensity are simple average values of the natural frequency and the signal intensity of the inflection point included in the unit section. However, as the representative value, not only such a simple average value but also a weighted average value in consideration of the weight may be used. For example, weight individual inflection points based on signal strength,
A weighted average value of the natural frequencies in consideration of the weight may be used as the representative frequency. Alternatively, the maximum value of the signal intensities of the inflection points included in the unit section may be used as the representative intensity.
【0059】こうして個々の単位区間に、それぞれ代表
周波数および代表強度が定義されれば、時間軸上での個
々の単位区間の始端位置と終端位置は既に得られている
ので、個々の単位区間に対応する符号データの生成が可
能になる。たとえば、図18に示す例の場合、図20に
示すように、5つの区間E0,U1,E1,U2,E2
を定義するための符号データを生成することができる。
ここで、区間U1,U2は、前段階で設定された単位区
間であり、区間E0,E1,E2は、各単位区間の間に
相当する空白区間である。各単位区間U1,U2には、
それぞれ代表周波数F1,F2と代表強度A1,A2が
定義されているが、空白区間E0,E1,E2は、単に
始端および終端のみが定義されている区間である。If the representative frequency and the representative intensity are defined for each unit section in this way, the start position and the end position of each unit section on the time axis have already been obtained. The corresponding code data can be generated. For example, in the case of the example shown in FIG. 18, as shown in FIG. 20, five sections E0, U1, E1, U2, E2
Can be generated.
Here, the sections U1 and U2 are unit sections set in the previous stage, and the sections E0, E1 and E2 are blank sections corresponding to between the unit sections. In each unit section U1, U2,
Although the representative frequencies F1 and F2 and the representative intensities A1 and A2 are respectively defined, the blank sections E0, E1 and E2 are sections in which only the start and end are defined.
【0060】図21は、図20に示す個々の区間に対応
する符号データの構成例を示す図表である。この例で
は、1行に示された符号データは、区間名(実際には、
不要)と、区間の始端位置および終端位置と、代表周波
数および代表強度と、によって構成されている。一方、
図22は、図20に示す個々の区間に対応する符号デー
タの別な構成例を示す図表である。図21に示す例で
は、各単位区間の始端位置および終端位置を直接符号デ
ータとして表現していたが、図22に示す例では、各単
位区間の始端位置および終端位置を示す情報として、区
間長L1〜L4(図20参照)を用いている。なお、図
21に示す構成例のように、単位区間の始端位置および
終端位置を直接符号データとして用いる場合には、実際
には、空白区間E0,E1,…についての符号データは
不要である(図21に示す単位区間U1,U2の符号デ
ータのみから、図20の構成が再現できる)。FIG. 21 is a table showing an example of the structure of code data corresponding to each section shown in FIG. In this example, the code data shown in one line is a section name (actually,
Unnecessary), the start and end positions of the section, the representative frequency and the representative intensity. on the other hand,
FIG. 22 is a chart showing another example of the structure of the code data corresponding to each section shown in FIG. In the example illustrated in FIG. 21, the start position and the end position of each unit section are directly represented as coded data. However, in the example illustrated in FIG. 22, the information indicating the start position and the end position of each unit section includes the section length. L1 to L4 (see FIG. 20) are used. When the start position and end position of the unit section are directly used as the code data as in the configuration example shown in FIG. 21, the code data for the blank sections E0, E1,. The configuration of FIG. 20 can be reproduced only from the code data of the unit sections U1 and U2 shown in FIG. 21).
【0061】先願発明に係る音響信号の符号化方法によ
って、最終的に得られる符号データは、この図21ある
いは図22に示すような符号データである。もっとも、
符号データとしては、各単位区間の時間軸上での始端位
置および終端位置を示す情報と、代表周波数および代表
強度を示す情報とが含まれていれば、どのような構成の
データを用いてもかまわない。最終的に得られる符号デ
ータに、上述の情報さえ含まれていれば、所定の音源を
用いて音声の再生(復号化)が可能になる。たとえば、
図20に示す例の場合、時刻0〜t3の期間は沈黙を守
り、時刻t3〜t6の期間に周波数F1に相当する音を
強度A1で鳴らし、時刻t6〜t7の期間は沈黙を守
り、時刻t7〜t15の期間に周波数F2に相当する音
を強度A2で鳴らせば、もとの音響信号の再生が行われ
ることになる。The code data finally obtained by the audio signal coding method according to the invention of the prior application is the code data as shown in FIG. 21 or FIG. However,
As the code data, any configuration data may be used as long as it includes information indicating a start position and an end position on the time axis of each unit section and information indicating a representative frequency and a representative intensity. I don't care. As long as the above-mentioned information is included in the finally obtained code data, it is possible to reproduce (decode) a sound using a predetermined sound source. For example,
In the case of the example shown in FIG. 20, silence is maintained during the period from time 0 to t3, a sound corresponding to the frequency F1 is emitted at the intensity A1 during the period from time t3 to t6, and silence is maintained during the period from time t6 to t7. If the sound corresponding to the frequency F2 is played at the intensity A2 during the period from t7 to t15, the original acoustic signal is reproduced.
【0062】§3. MIDI形式の符号データを用い
る実施形態 <<< 3.1 MIDIデータへの変換原理 >>>
上述したように、先願発明に係る音響信号の符号化方法
では、最終的に、個々の単位区間についての始端位置お
よび終端位置を示す情報と、代表周波数および代表強度
を示す情報とが含まれた符号データであれば、どのよう
な形式の符号データを用いてもかまわない。しかしなが
ら、実用上は、そのような符号データとして、MIDI
形式の符号データを採用するのが最も好ましい。ここで
は、MIDI形式の符号データを採用した具体的な実施
形態を示す。 §3. Using MIDI format code data
That conversion principle to the embodiment <<< 3.1 MIDI data >>>
As described above, the audio signal encoding method according to the prior application invention finally includes information indicating the start position and the end position of each unit section and information indicating the representative frequency and the representative intensity. Any type of code data may be used as long as the code data is the same. However, in practice, such code data is MIDI
Most preferably, code data in a format is adopted. Here, a specific embodiment employing code data in the MIDI format will be described.
【0063】図23は、一般的なMIDI形式の符号デ
ータの構成を示す図である。図示のとおり、このMID
I形式では、「ノートオン」データもしくは「ノートオ
フ」データが、「デルタタイム」データを介在させなが
ら存在する。「デルタタイム」データは、1〜4バイト
のデータで構成され、所定の時間間隔を示すデータであ
る。一方、「ノートオン」データは、全部で3バイトか
ら構成されるデータであり、1バイト目は常にノートオ
ン符号「90 H」に固定されており( Hは16進数を示
す)、2バイト目にノートナンバーNを示すコードが、
3バイト目にベロシティーVを示すコードが、それぞれ
配置される。ノートナンバーNは、音階(一般の音楽で
いう全音7音階の音階ではなく、ここでは半音12音階
の音階をさす)の番号を示す数値であり、このノートナ
ンバーNが定まると、たとえば、ピアノの特定の鍵盤キ
ーが指定されることになる(C−2の音階がノートナン
バーN=0に対応づけられ、以下、N=127までの1
28通りの音階が対応づけられる。ピアノの鍵盤中央の
ラの音(A3音)は、ノートナンバーN=69にな
る)。ベロシティーVは、音の強さを示すパラメータで
あり(もともとは、ピアノの鍵盤などを弾く速度を意味
する)、V=0〜127までの128段階の強さが定義
される。FIG. 23 is a diagram showing a configuration of code data in a general MIDI format. As shown, this MID
In the I format, “note on” data or “note off” data exists with “delta time” data interposed. The "delta time" data is composed of data of 1 to 4 bytes and is data indicating a predetermined time interval. On the other hand, "note-on" data is data composed of a total of 3 bytes, the first byte is always fixed to the note-on code "90H" (H indicates a hexadecimal number), and the second byte The code indicating the note number N
A code indicating the velocity V is placed in the third byte. The note number N is a numerical value indicating the number of a musical scale (not a musical scale of seven whole notes in general music, but a musical scale of 12 semitones in this case). A specific keyboard key is designated (the scale of C-2 is associated with the note number N = 0, and 1 to N = 127).
28 scales are associated with each other. (The note A3 at the center of the piano keyboard has a note number N = 69.) The velocity V is a parameter indicating the intensity of the sound (originally, it means the speed of playing the piano keyboard or the like), and defines 128 levels of intensity from V = 0 to 127.
【0064】同様に、「ノートオフ」データも、全部で
3バイトから構成されるデータであり、1バイト目は常
にノートオフ符号「80 H」に固定されており、2バイ
ト目にノートナンバーNを示すコードが、3バイト目に
ベロシティーVを示すコードが、それぞれ配置される。
「ノートオン」データと「ノートオフ」データとは対に
なって用いられる。たとえば、「90 H,69,80」
なる3バイトの「ノートオン」データは、ノートナンバ
ーN=69に対応する鍵盤中央のラのキーを押し下げる
操作を意味し、以後、同じノートナンバーN=69を指
定した「ノートオフ」データが与えられるまで、そのキ
ーを押し下げた状態が維持される(実際には、ピアノな
どのMIDI音源の波形を用いた場合、有限の時間内
に、ラの音の波形は減衰してしまう)。ノートナンバー
N=69を指定した「ノートオフ」データは、たとえ
ば、「80 H,69,50」のような3バイトのデータ
として与えられる。「ノートオフ」データにおけるベロ
シティーVの値は、たとえばピアノの場合、鍵盤キーか
ら指を離す速度を示すパラメータになる。Similarly, the "note-off" data is data composed of a total of three bytes, the first byte is always fixed to the note-off code "80H", and the note number N is stored in the second byte. Is placed in the third byte, and a code representing velocity V is placed in the third byte.
“Note-on” data and “note-off” data are used in pairs. For example, "90 H, 69, 80"
The three-byte "note-on" data means an operation of depressing a key at the center of the keyboard corresponding to note number N = 69, and thereafter, "note-off" data specifying the same note number N = 69 is given. Until the key is depressed, the state in which the key is depressed is maintained (actually, when a waveform of a MIDI sound source such as a piano is used, the waveform of the sound of La is attenuated within a finite time). The “note-off” data specifying the note number N = 69 is given as 3-byte data such as “80H, 69, 50”. For example, in the case of a piano, the value of the velocity V in the “note-off” data is a parameter indicating the speed at which a finger is released from a keyboard key.
【0065】なお、上述の説明では、ノートオン符号
「90 H」およびノートオフ符号「80 H」は固定であ
ると述べたが、これらの符号の下位4ビットは必ずしも
0に固定されているわけではなく、チャネル番号0〜1
5のいずれかを特定するコードとして利用することがで
き、チャネルごとにそれぞれ別々の楽器の音色について
のオン・オフを指定することができる。In the above description, the note-on code "90H" and the note-off code "80H" are fixed, but the lower 4 bits of these codes are not necessarily fixed to 0. Not channel numbers 0-1
5 can be used as a code to specify any one of the above-mentioned items, and it is possible to specify on / off of the timbre of a different musical instrument for each channel.
【0066】このように、MIDIデータは、もともと
楽器演奏の操作に関する情報(別言すれば、楽譜の情
報)を記述する目的で利用されている符号データである
が、先願発明に係る音響信号の符号化方法への利用にも
適している。すなわち、各単位区間についての代表周波
数Fに基づいてノートナンバーNを定め、代表強度Aに
基づいてベロシティーVを定め、単位区間の長さLに基
づいてデルタタイムTを定めるようにすれば、1つの単
位区間の音声データを、ノートナンバー、ベロシティ
ー、デルタタイムで表現されるMIDI形式の符号デー
タに変換することが可能になる。このようなMIDIデ
ータへの具体的な変換方法を図24に示す。As described above, the MIDI data is coded data originally used for describing information related to the operation of the musical instrument performance (in other words, information of the musical score). It is also suitable for use in encoding methods. That is, if the note number N is determined based on the representative frequency F for each unit section, the velocity V is determined based on the representative intensity A, and the delta time T is determined based on the length L of the unit section, It becomes possible to convert the audio data of one unit section into MIDI-format coded data expressed by note number, velocity, and delta time. FIG. 24 shows a specific method of converting to MIDI data.
【0067】まず、MIDIデータのデルタタイムT
は、単位区間の区間長L(単位:秒)を用いて、 T=L・768 なる簡単な式で定義できる。ここで、数値「768」
は、四分音符を基準にして、その長さ分解能(たとえ
ば、長さ分解能を1/2に設定すれば八分音符まで、1
/8に設定すれば三十二分音符まで表現可能:一般の音
楽では1/16程度の設定が使われる)を、MIDI規
格での最小値である1/384に設定し、メトロノーム
指定を四分音符=120(毎分120音符)にした場合
のMIDIデータによる表現形式における時間分解能を
示す固有の数値である。First, the delta time T of MIDI data
Can be defined by a simple expression of T = L · 768 using the section length L (unit: second) of the unit section. Here, the numerical value “768”
Is based on a quarter note, its length resolution (for example, up to an eighth note if the length resolution is set to 1/2).
/ 8 can express up to thirty-second notes: in general music, the setting of about 1/16 is used), set to the minimum value of 1/384 in the MIDI standard, and set the metronome to four. This is a unique numerical value indicating the time resolution in the MIDI data representation format when the minute note is set to 120 (120 notes per minute).
【0068】また、MIDIデータのノートナンバーN
は、1オクターブ上がると、周波数が2倍になる対数尺
度の音階では、単位区間の代表周波数F(単位:Hz)
を用いて、 N=(12/log102)・(log10(F/44
0)+69 なる式で定義できる。ここで、右辺第2項の数値「6
9」は、ピアノ鍵盤中央のラの音(A3音)のノートナ
ンバー(基準となるノートナンバー)を示しており、右
辺第1項の数値「440」は、このラの音の周波数(4
40Hz)を示しており、右辺第1項の数値「12」
は、半音を1音階として数えた場合の1オクターブの音
階数を示している。The MIDI data note number N
In a logarithmic scale where the frequency doubles when the octave goes up, the representative frequency F of the unit section (unit: Hz)
N = (12 / log 10 2) · (log 10 (F / 44
0) +69. Here, the numerical value “6” of the second term on the right side
"9" indicates the note number (reference note number) of the la sound (A3 sound) at the center of the piano keyboard.
40 Hz), and the numerical value “12” of the first term on the right side
Indicates the scale of one octave when a semitone is counted as one scale.
【0069】更に、MIDIデータのベロシティーV
は、単位区間の代表強度Aと、その最大値Amax とを用
いて、 V=(A/Amax )・127 なる式で、V=0〜127の範囲の値を定義することが
できる。なお、通常の楽器の場合、「ノートオン」デー
タにおけるベロシティーVと、「ノートオフ」データに
おけるベロシティーVとは、上述したように、それぞれ
異なる意味をもつが、この実施形態では、「ノートオ
フ」データにおけるベロシティーVとして、「ノートオ
ン」データにおけるベロシティーVと同一の値をそのま
ま用いるようにしている。Further, the velocity V of MIDI data
Using the representative intensity A of the unit section and the maximum value Amax, a value in the range of V = 0 to 127 can be defined by the equation V = (A / Amax) .127. In the case of a normal musical instrument, the velocity V in the “note-on” data and the velocity V in the “note-off” data have different meanings as described above. As the velocity V in the “off” data, the same value as the velocity V in the “note-on” data is used as it is.
【0070】前章の§2では、図20に示すような2つ
の単位区間U1,U2内の音声データに対して、図21
あるいは図22に示すような符号データが生成される例
を示したが、MIDIデータを用いた場合、単位区間U
1,U2内の音声データは、図25の図表に示すような
各データ列で表現されることになる。ここで、ノートナ
ンバーN1,N2は、代表周波数F1,F2を用いて上
述の式により得られた値であり、ベロシティーV1,V
2は、代表強度A1,A2を用いて上述の式により得ら
れた値である。In §2 of the previous chapter, audio data in two unit sections U1 and U2 as shown in FIG.
Alternatively, an example in which code data as shown in FIG. 22 is generated has been described, but when MIDI data is used, the unit section U
The audio data in U1 and U2 is represented by data strings as shown in the table of FIG. Here, the note numbers N1 and N2 are values obtained by the above equation using the representative frequencies F1 and F2, and have the velocities V1 and V2.
2 is a value obtained by the above equation using the representative intensities A1 and A2.
【0071】<<< 3.2 MIDIデータの修正処
理 >>>図2に示す流れ図における符号化段階S40
では、符号データ生成処理S41の後に、符号データ修
正処理S42が行われる。符号データ生成処理S41
は、上述した具体的な手法により、たとえば、図25に
示すようなMIDIデータ列を生成する処理であり、符
号データ修正処理S42は、このようなMIDIデータ
列に対して、更に修正を加える処理である。後述するよ
うに、図25に示すようなMIDIデータ列に基づい
て、音声を再生(復号化)するには、実際の音声の波形
データをもった再生音源装置(MIDI音源)が必要に
なるが、このMIDI音源の特性は個々の音源ごとに様
々であり、必要に応じて、用いるMIDI音源の特性に
適合させるために、MIDIデータに修正処理を加えた
方が好ましい場合がある。以下に、このような修正処理
が必要な具体的な事例を述べる。<< 3.2 Modification Processing of MIDI Data >>>> Encoding Step S40 in Flowchart shown in FIG.
Then, the code data generation processing S41 is followed by the code data correction processing S42. Code data generation processing S41
Is a process for generating a MIDI data string as shown in FIG. 25, for example, by the above-described specific method. The code data correction processing S42 is a processing for further correcting such a MIDI data string. It is. As will be described later, in order to reproduce (decode) audio based on the MIDI data sequence shown in FIG. 25, a reproduction sound source device (MIDI sound source) having actual audio waveform data is required. The characteristics of the MIDI sound source vary from one sound source to another, and if necessary, it may be preferable to modify the MIDI data in order to match the characteristics of the MIDI sound source to be used. Hereinafter, a specific case in which such correction processing is required will be described.
【0072】いま、図26の上段に示すように、区間長
Liをもった単位区間Ui内の音声データが所定のMI
DIデータ(修正前のMIDIデータ)によって表現さ
れていた場合を考える。すなわち、この単位区間Uiに
は、代表周波数Fiおよび代表強度Aiが定義されてお
り、代表周波数Fi,代表強度Ai,区間長Liに基づ
いて、ノートナンバーNi,ベロシティーVi,デルタ
タイムTiが設定されていることになる。このとき、こ
のMIDIデータを再生するために用いる予定のMID
I音源のノートナンバーNiに対応する再生音の波形
が、図26の中段に示すようなものであったとしよう。
この場合、単位区間Uiの単位長Liよりも、MIDI
音源の再生音の持続時間LLiの方が短いことになる。
したがって、修正前のMIDIデータを、このMIDI
音源を用いてそのまま再生すると、本来の音が鳴り続け
なければならない時間Liよりも短い持続時間LLi
で、再生音は減衰してしまうことになる。このような事
態が生じると、もとの音響信号の再現性が低下してしま
う。Now, as shown in the upper part of FIG. 26, audio data in a unit section Ui having a section length Li
Consider a case where the data is represented by DI data (MIDI data before correction). That is, in this unit section Ui, a representative frequency Fi and a representative strength Ai are defined, and a note number Ni, a velocity Vi, and a delta time Ti are set based on the representative frequency Fi, the representative strength Ai, and the section length Li. It will be. At this time, the MID to be used for reproducing the MIDI data
It is assumed that the waveform of the reproduced sound corresponding to the note number Ni of the I sound source is as shown in the middle part of FIG.
In this case, the MIDI is longer than the unit length Li of the unit section Ui.
The duration LLi of the reproduced sound of the sound source is shorter.
Therefore, the MIDI data before correction is
When reproduced as it is using the sound source, the duration LLi is shorter than the duration Li in which the original sound must continue to sound.
Therefore, the reproduced sound is attenuated. When such a situation occurs, the reproducibility of the original sound signal is reduced.
【0073】そこで、このような場合、単位区間を複数
の小区間に分割し、各小区間ごとにそれぞれ別個の符号
データを生成する修正処理を行うとよい。この図26に
示す例の場合、図の下段に示すように、もとの単位区間
Uiを、2つの小区間Ui1,Ui2に分割し、それぞ
れについて別個のMIDIデータを生成するようにして
いる。個々の小区間Ui1,Ui2に定義される代表周
波数および代表強度は、いずれも分割前の単位区間Ui
の代表周波数Fiおよび代表強度Aiと同じであり、区
間長だけがLi/2になったわけであるから、修正後の
MIDIデータとしては、結局、ノートナンバーNi,
ベロシティーVi,デルタタイムTi/2を示すMID
Iデータが2組得られることになる。Therefore, in such a case, it is advisable to divide the unit section into a plurality of small sections and perform a correction process for generating separate code data for each small section. In the example shown in FIG. 26, as shown in the lower part of the figure, the original unit section Ui is divided into two small sections Ui1 and Ui2, and separate MIDI data is generated for each section. The representative frequency and the representative intensity defined in each of the small sections Ui1 and Ui2 are the unit sections Ui before the division.
Is the same as the representative frequency Fi and the representative intensity Ai, and only the section length is Li / 2.
MID indicating velocity Vi and delta time Ti / 2
Two sets of I data are obtained.
【0074】一般のMIDI音源では、通常、再生音の
持続時間はその再生音の周波数に応じて決まる。特に、
心音などの音色についての音源では、再生音の周波数を
f(Hz)とした場合、その持続時間は5/f(秒)程
度である。したがって、このような音源を用いたときに
は、特定の単位区間Uiについて、代表周波数Fiと区
間長Liとの関係が、Li>5/Fiとなるような場合
には、Li/m<5/Fiとなるような適当な分割数m
を求め、上述した修正処理により、単位区間Uiをm個
の小区間に分割するような処理を行うのが好ましい。In a general MIDI sound source, the duration of a reproduced sound is usually determined according to the frequency of the reproduced sound. Especially,
In a sound source for a timbre such as a heart sound, when the frequency of the reproduced sound is f (Hz), the duration is about 5 / f (second). Therefore, when such a sound source is used, for a specific unit section Ui, if the relation between the representative frequency Fi and the section length Li satisfies Li> 5 / Fi, Li / m <5 / Fi. An appropriate number of divisions m such that
It is preferable to perform a process of dividing the unit section Ui into m small sections by the above-described correction processing.
【0075】続いて、修正処理が必要な別な事例を示そ
う。いま、再生に用いる予定のMIDI音源の再生音
が、図27の左側に示すような周波数レンジを有してい
るのに対し、生成された一連のMIDIデータに基づく
再生音の周波数レンジが、図27の右側に示すように、
低音側にオフセット量dだけ偏りを生じていたとしよ
う。このような場合、再生音はMIDI音源の一部の周
波数帯域のみを使って提示されるようになるため、一般
的には好ましくない。そこで、MIDIデータの周波数
の平均が、MIDI音源の周波数レンジの中心(この例
では、440Hzの基準ラ音(ノートナンバーN=6
9))に近付くように、MIDIデータ側の周波数(ノ
ートナンバー)を全体的に引き上げる修正処理を行い、
図28に示すように、オフセット量dが0になるように
するとよい。Next, another case that requires a correction process will be described. Now, while the playback sound of the MIDI sound source to be used for playback has a frequency range as shown on the left side of FIG. 27, the frequency range of the playback sound based on the generated series of MIDI data is as shown in FIG. As shown on the right side of 27,
Suppose that a bias is generated by an offset amount d on the bass side. In such a case, the reproduced sound is presented using only a part of the frequency band of the MIDI sound source, which is generally not preferable. Therefore, the average of the frequency of the MIDI data is the center of the frequency range of the MIDI sound source (in this example, the reference tone of 440 Hz (note number N = 6).
9) Perform a correction process to raise the frequency (note number) on the MIDI data as a whole so as to approach
As shown in FIG. 28, the offset amount d is preferably set to zero.
【0076】もっとも、音響信号の性質によっては、む
しろ低音側にシフトした状態のままで再生した方が好ま
しいものもあり、上述のような修正処理によって必ずし
も良好な結果が得られるとは限らない。したがって、個
々の音響信号の性質を考慮した上で、このような修正処
理を行うか否かを適宜判断するのが好ましい。However, depending on the properties of the sound signal, it is preferable to reproduce the sound signal in a state shifted to the lower tone side, and a satisfactory result is not always obtained by the above-described correction processing. Therefore, it is preferable to appropriately determine whether or not to perform such a correction process in consideration of the properties of each acoustic signal.
【0077】この他にも、用いるMIDI音源によって
は、特性に適合させるために種々の修正処理が必要な場
合がある。たとえば、1オクターブの音階差が2倍の周
波数に対応していないような特殊な規格のMIDI音源
を用いた場合には、この規格に適合させるように、ノー
トナンバーの修正処理などが必要になる。In addition, depending on the MIDI sound source used, various correction processes may be required in order to match the characteristics. For example, if a MIDI sound source of a special standard that does not correspond to a double frequency of one octave is used, a note number correction process or the like is required to conform to this standard. .
【0078】上述した符号化のための種々の処理は、実
際には、コンピュータを用いた演算によって行われるこ
とになるが、その演算負担はFFTなどの演算に比べる
と軽く、市販の汎用パーソナルコンピュータを用いても
十分にリアルタイムでの処理が可能である。したがっ
て、上述した処理を汎用パーソナルコンピュータに実行
させるためのプログラムを記述し、このプログラムをフ
ロッピーディスクやCD−ROMなどの媒体に記録して
配布するようにすれば、汎用パーソナルコンピュータを
本発明に係る音響信号の符号化方法を実行するための装
置として利用することができる。また、本発明に係る符
号化方法で符号化したデータは、この汎用パーソナルコ
ンピュータによって、フロッピーディスクやCD−RO
Mなどの媒体に記録して配布したり、通信回線を介して
伝送したりすることもできる。The above-described various processes for encoding are actually performed by computation using a computer, but the computational burden is lighter than computations such as FFT, and a commercially available general-purpose personal computer is used. However, it is possible to sufficiently perform processing in real time. Therefore, if a program for causing a general-purpose personal computer to execute the above-described processing is described, and this program is recorded on a medium such as a floppy disk or a CD-ROM and distributed, the general-purpose personal computer according to the present invention is realized. The present invention can be used as an apparatus for executing an audio signal encoding method. The data encoded by the encoding method according to the present invention can be transferred to a floppy disk or CD-RO by this general-purpose personal computer.
It can also be recorded on a medium such as M and distributed, or transmitted via a communication line.
【0079】§4. 単位区間延長の基本概念 本発明は、これまで述べてきた先願発明を改良し、より
品質の高い再生が可能な符号化を実現したものである。
その基本概念は、上述した符号化方法に、更に個々の単
位区間を延長する処理を付加する点にある。本願発明者
は、上述した符号化方法で得られる個々の符号データに
ついて、その単位区間を時間軸上で引き延ばすことによ
り、再生時(復号時)の品質が向上することを見出だし
たのである。 §4. Basic Concept of Unit Section Extension The present invention is an improvement of the above-mentioned prior application invention, and realizes encoding capable of reproducing with higher quality.
The basic concept is that processing for extending individual unit sections is added to the above-described encoding method. The inventor of the present application has found that the quality at the time of reproduction (at the time of decoding) is improved by extending the unit section of the individual code data obtained by the above-described encoding method on the time axis.
【0080】たとえば、上述した符号化方法により、図
29に示すような符号データC1〜C7が得られた場合
を考える。各符号データC1〜C7は、それぞれ各単位
区間U1〜U7の始点位置から終点位置に至るまでの期
間、所定の代表周波数に対応する音を所定の代表強度に
対応する振幅強度で提示することを示している。本願発
明者が行った実験によると、図29に示すような符号デ
ータC1〜C7をこのまま復号化して再生するよりも、
各符号データC1〜C7で示される個々の単位区間U1
〜U7を延長した後に復号化して再生した場合の方が、
より品質の高い再生音が得られた。For example, consider a case where code data C1 to C7 as shown in FIG. 29 are obtained by the above-described coding method. Each of the code data C1 to C7 presents a sound corresponding to a predetermined representative frequency with an amplitude intensity corresponding to a predetermined representative intensity during a period from the start point position to the end point position of each unit section U1 to U7. Is shown. According to the experiment performed by the inventor of the present application, it is more difficult to decode and reproduce the code data C1 to C7 as shown in FIG.
Individual unit section U1 indicated by each code data C1 to C7
~ When U7 is extended and decrypted and played back,
Higher quality playback sound was obtained.
【0081】このような結果が得られたひとつの理由
は、上述した符号化方法を実施すると、最終的に得られ
る個々の符号データの単位区間が、本来の長さよりも短
くなる傾向にあるためであると、本願発明者は考えてい
る。たとえば、図29に示す符号データC1〜C7の間
隙には、空白区間が存在する。このような空白区間は、
元になった音響データにもともと含まれていた場合もあ
るが、図2のステップS32において行われるスライス
処理によって新たに生じた可能性もある。すなわち、ス
ライス処理によって、許容レベル未満の信号強度をもつ
変極点が除外されてしまった場合、その部分に新たな空
白区間が生じることになる。単位区間の延長処理を行う
と、スライス処理によって除外されてしまった情報が補
完されることになり、再生音の品質向上に寄与するもの
と考えられる。One reason for obtaining such a result is that, when the above-described encoding method is performed, the unit section of each piece of coded data finally obtained tends to be shorter than the original length. The inventor of the present application believes that For example, there is a blank section in the gap between the code data C1 to C7 shown in FIG. Such a blank section is
Although the original sound data may have originally been included in the original sound data, the sound data may have been newly generated by the slice processing performed in step S32 of FIG. That is, when the inflection point having the signal strength less than the allowable level is excluded by the slicing process, a new blank section is generated in that part. The extension of the unit section complements the information excluded by the slice processing, and is considered to contribute to the improvement of the quality of reproduced sound.
【0082】単位区間の延長処理を行うことにより、再
生音の品質向上がもたらされる別な理由は、人間の耳
が、ある程度以上の長さをもった音でなければ、音とし
て十分に認識することができないという特性を有するた
めと思われる。たとえば、図29に示す例における符号
データC6は、単位区間U6に相当する期間にわたって
所定の音を提示することを示しているが、この単位区間
U6の長さがあまり短いと、人間の耳には、符号データ
C6に基く再生音を十分に認識することができなくな
る。単位区間の延長処理により、単位区間U6の長さが
延長されると、このような問題が解消するため、再生音
の品質が向上するものと思われる。Another reason for improving the quality of the reproduced sound by performing the extension processing of the unit section is that the human ear recognizes the sound as a sound unless the sound has a certain length or more. It seems to have the property that it cannot do it. For example, the code data C6 in the example shown in FIG. 29 indicates that a predetermined sound is presented over a period corresponding to the unit section U6. Cannot sufficiently recognize the reproduced sound based on the code data C6. When the length of the unit section U6 is extended by the unit section extension processing, such a problem is solved, and it is considered that the quality of the reproduced sound is improved.
【0083】ただ、図29に示す状態のままでは、十分
な効果をもった延長処理を行うことはできない。なぜな
ら、各単位区間はたかだか隣接する単位区間との間に存
在する空白区間を限度として延長できるにすぎないから
である。そこで、本願発明者は、時間軸を共通とする複
数のトラックを定義し、区間設定段階で設定された個々
の単位区間を複数のトラックに分離して再配置するトラ
ック分離処理を行い、各トラックごとにそれぞれ区間延
長処理を行う方法を案出した。たとえば、図29に示す
ように、時間軸t上に単位区間U1〜U7が設定され、
符号データC1〜C7が生成されている場合、図30に
示すように、これらの符号データ(単位区間)を2つの
トラックA,Bに分離して再配置するのである。トラッ
クA,Bはいずれも共通の時間軸tを有しており、各符
号データはもとの時間軸に対応する位置に再配置される
ことになる。However, in the state shown in FIG. 29, extension processing having a sufficient effect cannot be performed. This is because each unit section can only be extended up to a blank section existing at most between adjacent unit sections. Accordingly, the inventor of the present application defines a plurality of tracks having a common time axis, performs a track separation process of separating and relocating individual unit sections set in the section setting stage into a plurality of tracks, and We devised a method to perform the section extension processing for each case. For example, as shown in FIG. 29, unit sections U1 to U7 are set on the time axis t,
When the code data C1 to C7 have been generated, as shown in FIG. 30, the code data (unit section) is separated into two tracks A and B and rearranged. Each of the tracks A and B has a common time axis t, and each code data is rearranged at a position corresponding to the original time axis.
【0084】図示の例では、奇数番目の符号データをト
ラックAに、偶数番目の符号データをトラックBに配置
するようにしている。このように、複数のトラックへ分
離して再配置すれば、各単位区間の間に確保される空白
区間が広がることになり、十分な区間延長処理が可能に
なる。図31は、図30に示す2つのトラックA,B上
に再配置された各単位区間U1〜U7を、それぞれ最大
区間長Lmax になるまで延長し、新たな単位区間UU1
〜UU7を形成した例を示している。この単位区間延長
処理により、符号データC1〜C7は、新たな符号デー
タCC1〜CC7に置換されることになるが、この置換
では各単位区間の区間長のみが変更され、音程および強
度には変化はない。たとえば、符号データがMIDI形
式のデータの場合、符号データCC1は、ノートナンバ
ーおよびベロシティーに関しては符号データC1と同一
であり、デルタタイムだけが変更されることになる。In the illustrated example, odd-numbered code data is arranged on track A, and even-numbered code data is arranged on track B. In this way, when the tracks are separated and rearranged into a plurality of tracks, the blank sections secured between the unit sections are widened, and sufficient section extension processing can be performed. FIG. 31 shows that each of the unit sections U1 to U7 rearranged on the two tracks A and B shown in FIG. 30 is extended until it reaches the maximum section length Lmax, and a new unit section UU1
7 shows an example in which .about.UU7 are formed. By this unit section extension processing, the code data C1 to C7 are replaced with new code data CC1 to CC7. In this replacement, only the section length of each unit section is changed, and the pitch and intensity are changed. There is no. For example, when the code data is MIDI format data, the code data CC1 is the same as the code data C1 in note number and velocity, and only the delta time is changed.
【0085】図31の例では、トラックAに配置された
単位区間とトラックBに配置された単位区間とが、共通
の時間軸t上で部分的に重複していることがわかる。た
とえば、符号データCC5の後半には、符号データCC
6の前半が重複しており、この重複期間では、符号デー
タCC5とCC6とが和音として再生されることにな
る。同様に、符号データCC7の前半には、符号データ
CC6の後半が重複しており、この重複期間では、符号
データCC7とCC6とが和音として再生されることに
なる。複数のトラックへの分離処理を行うことにより、
同一時間軸上に複数の符号データを重複配置することが
可能になり、和音としての再生が可能になる。このよう
な和音としての再生は、再生音の品質を向上させるにあ
たり極めて有効である。一般に、符号化の対象となった
音響信号には、もともと多数の周波数成分が含まれてい
る。和音としての再生を行うことにより、音質向上が図
れるのは、複数の周波数成分の同時再生により、もとの
音響信号により近い音を再現できるようになるためと思
われる。In the example of FIG. 31, it can be seen that the unit section arranged on the track A and the unit section arranged on the track B partially overlap on a common time axis t. For example, in the latter half of the code data CC5, the code data CC5
6 are overlapped, and in this overlap period, the code data CC5 and CC6 are reproduced as chords. Similarly, the second half of the code data CC6 overlaps the first half of the code data CC7, and during this overlap period, the code data CC7 and CC6 are reproduced as chords. By performing separation processing on multiple tracks,
A plurality of code data can be overlapped on the same time axis, and can be reproduced as a chord. Reproduction as such a chord is extremely effective in improving the quality of the reproduced sound. Generally, an audio signal to be encoded originally contains many frequency components. The reason why the sound quality can be improved by performing the reproduction as a chord seems to be that a sound closer to the original acoustic signal can be reproduced by simultaneously reproducing a plurality of frequency components.
【0086】なお、符号化効率をより向上させる上で
は、単位区間の延長処理を行った後、必要に応じて、区
間統合処理を行うようにするのが好ましい。たとえば、
図31に示す例において、同一のトラックA上に隣接配
置されている符号データCC5およびCC7が、互いに
類似した符号データ(たとえば、MIDIデータの場
合、ノートナンバーが類似もしくは同一のデータ)であ
り、かつ、両データの間隙dが所定の基準間隔以下であ
った場合、各符号データの単位区間UU5,UU7を1
つの単位区間に統合する処理を行うとよい。この単位区
間UU5,UU7の統合により、符号データCC5,C
C7も1つの符号データに統合されることになるが、統
合後の符号データの内容は、統合前の符号データの内容
に基いて適宜決定すればよい。たとえば、MIDIデー
タの場合、統合前の2つの符号データにおけるノートナ
ンバーの最小値およびベロシティーの最大値を、統合後
の符号データの値とすればよい。In order to further improve the coding efficiency, it is preferable to perform the unit integration process and then perform the unit integration process as necessary. For example,
In the example shown in FIG. 31, code data CC5 and CC7 arranged adjacently on the same track A are code data similar to each other (for example, in the case of MIDI data, note numbers are similar or the same). If the gap d between the two data is less than the predetermined reference interval, the unit sections UU5 and UU7 of each code data are set to 1
It is preferable to perform a process of integrating into one unit section. By integrating the unit sections UU5 and UU7, the code data CC5 and C
Although C7 is also integrated into one piece of code data, the content of the code data after integration may be appropriately determined based on the content of the code data before integration. For example, in the case of MIDI data, the minimum value of the note number and the maximum value of the velocity in the two code data before integration may be set as the value of the code data after integration.
【0087】図32は、上述した単位区間の延長処理を
採り入れた場合の符号化方法の全手順を示す流れ図であ
る。ここで、ステップS10の入力段階、ステップS2
0の変極点定義段階、ステップS30の区間設定段階
は、図2に示した流れ図の各段階と同じであるが、ステ
ップS40の符号化段階では、ステップS41の符号デ
ータ生成処理S41とステップS42の符号データ修正
処理との間に、新たに、ステップS50のトラック分離
処理、ステップS60の単位区間延長処理、ステップS
70の区間統合処理が付加されている。なお、ステップ
S50,S60,S70の各処理は、ステップS41の
符号データ生成処理の前段階に挿入するようにしてもか
まわない。FIG. 32 is a flowchart showing the entire procedure of the encoding method when the above-described unit section extension processing is adopted. Here, the input stage of step S10, step S2
The inflection point defining step of 0 and the section setting step of step S30 are the same as the respective steps of the flowchart shown in FIG. 2, but in the encoding step of step S40, the code data generation processing S41 of step S41 and the coding step S41 of step S42 are performed. A new track separation process in step S50, a unit section extension process in step S60, and a step S
70 section integration processing is added. The processes of steps S50, S60, and S70 may be inserted before the code data generation process of step S41.
【0088】ステップS50のトラック分離処理は、図
29に示すような符号データC1〜C7を、図30に示
すように、複数のトラックA,Bに分離して再配置する
処理である。次のステップS60の単位区間延長処理
は、図30に示すような各トラックごとの符号データC
1〜C7の単位区間を延長し、図31に示すような符号
データCC1〜CC7を得る処理である。続くステップ
S70の区間統合処理は、必要に応じて、互いに類似し
た符号データをもつ単位区間が同一トラック上で所定の
基準間隔以下の間隔をおいて隣接配置されていた場合
に、これらの単位区間を1つの単位区間に統合する処理
である。この場合、統合後の符号データは統合前の個々
の符号データに基いて作成される。The track separation process in step S50 is a process of separating the code data C1 to C7 as shown in FIG. 29 into a plurality of tracks A and B as shown in FIG. The unit section extension processing in the next step S60 is performed by using the code data C for each track as shown in FIG.
In this process, the unit sections 1 to C7 are extended to obtain code data CC1 to CC7 as shown in FIG. If necessary, the section integration processing of step S70 is performed when unit sections having code data similar to each other are arranged adjacently on the same track with an interval equal to or less than a predetermined reference interval. Is integrated into one unit section. In this case, the code data after integration is created based on the individual code data before integration.
【0089】§5. 単位区間延長の具体的処理手順 図33は、ステップS50のトラック分離処理の具体的
な手順の一例を示す流れ図である。図30に示す例で
は、奇数番目の単位区間U1,U3,U5,U7をトラ
ックAに配置し、偶数番目の単位区間U2,U4,U6
をトラックBに配置するという交互配置の手法を採って
いたが、ステップS70の区間統合処理を行う場合、で
きるだけ区間統合が行われやすい方法でトラック分離を
行うのが好ましい。図33に示す手順でトラック分離処
理を行えば、互いに類似した符号データをもつ近接した
単位区間が同一トラック上に再配置されるようなトラッ
ク分離が行われるため、ステップS70において区間統
合が行われやすくなる。この図33に示す手順では、複
数I個のトラックに分離する一般例が示されているが、
ここでは便宜上、図34に示すような12個の符号デー
タC1〜C12を、図35に示すような3つのトラック
A,B,Cに分離する場合(I=3の場合)を例にとっ
て説明する。なお、図34に示す符号データC1〜C1
2には、図示のとおり、N1,N2,N3のうちのいず
れかのノートナンバーが定義されているものとする。 §5. Specifically procedure diagram of the unit section extension 33 is a flowchart showing an example of a specific procedure of the track separation process of step S50. In the example shown in FIG. 30, odd-numbered unit sections U1, U3, U5, and U7 are arranged on track A, and even-numbered unit sections U2, U4, and U6 are arranged.
Are arranged on the track B, but when performing the section integration process in step S70, it is preferable to perform track separation by a method that facilitates section integration as much as possible. If track separation processing is performed according to the procedure shown in FIG. 33, track separation is performed such that adjacent unit sections having similar code data are rearranged on the same track, so that section integration is performed in step S70. It will be easier. In the procedure shown in FIG. 33, a general example of separation into a plurality of I tracks is shown.
Here, for the sake of convenience, a case where twelve code data C1 to C12 as shown in FIG. 34 are separated into three tracks A, B and C as shown in FIG. 35 (when I = 3) will be described as an example. . The code data C1 to C1 shown in FIG.
2, it is assumed that any one of N1, N2, and N3 is defined as shown.
【0090】まず、ステップS51において、パラメー
タiを初期値1に設定する。パラメータiは、何番目の
トラックについての配置処理を行っているかを示してお
り、i=1の場合、第1番目のトラックAについての配
置処理が行われることになる。続くステップS52で
は、先頭の符号データを抽出し、i番目のトラックに配
置する処理が行われる。すなわち、図34の例の場合、
先頭の符号データC1が第1番目のトラックAに配置さ
れることになる。次のステップS53では、直前に抽出
された符号データに対して、所定範囲内の後続する符号
データに類似する符号データがあるか否かが探索され
る。この実施例では、「所定範囲内の後続する符号デー
タ」として、「後続する3番目までの符号データ」とい
う条件を定めている。たとえば、図34の例の場合、符
号データC1に対する「後続する3番目までの符号デー
タ」は、符号データC2,C3,C4ということにな
る。ステップS53では、この3つの符号データC2,
C3,C4の中で、符号データC1に類似する符号デー
タがあるか否かが探索される。いかなる場合に、「類似
する」と判断するかは、適宜定めることができるが、こ
こでは、ノートナンバーが一致した場合に「類似する」
と判断することにする。上述の例の場合、符号データC
1のノートナンバーN1と同一のノートナンバーを有す
る符号データC3が、類似する符号データとして探索さ
れることになる。First, in step S51, the parameter i is set to an initial value 1. The parameter i indicates the number of the track for which the arrangement processing is being performed. If i = 1, the arrangement processing for the first track A is to be performed. In the following step S52, a process of extracting the leading code data and arranging it on the i-th track is performed. That is, in the case of the example of FIG.
The first code data C1 is arranged on the first track A. In the next step S53, the code data extracted immediately before is searched for code data similar to subsequent code data within a predetermined range. In this embodiment, a condition of “the following code data up to the third” is defined as “the following code data within the predetermined range”. For example, in the case of the example of FIG. 34, the “third succeeding code data” for the code data C1 is code data C2, C3, and C4. In step S53, the three code data C2,
It is searched in C3 and C4 whether there is code data similar to the code data C1. In any case, it can be determined as appropriate whether or not to judge “similar”, but here, when the note numbers match, “similar”
I will decide. In the case of the above example, the code data C
Code data C3 having the same note number as the note number N1 of 1 is searched for as similar code data.
【0091】こうして、類似する符号データが探索され
ると、ステップS54からステップS55へと分岐し、
この類似する符号データを抽出し、i番目のトラックに
配置する処理が行われる。上述の例の場合、類似する符
号データC3が抽出され、第1番目のトラックAに配置
される。そして、再びステップS53の処理が実行され
る。すなわち、今度は、直前に抽出された符号データC
3に対して、「後続する3番目までの符号データ」の中
で、類似する符号データの有無が探索され、符号データ
C4が類似データとして抽出されることになる。かくし
て、「後続する3番目までの符号データ」の中に、類似
する符号データ(この例の場合、同一のノートナンバー
を有する符号データ)がある限り、この類似する符号デ
ータが抽出され、同一のトラックに次々と配置されてゆ
く。図示の例では、トラックAに、符号データC1,C
3,C4が配置されることになる。When similar code data is searched, the process branches from step S54 to step S55.
A process of extracting the similar code data and arranging it on the i-th track is performed. In the case of the above example, similar code data C3 is extracted and arranged on the first track A. Then, the process of step S53 is performed again. That is, this time, the code data C extracted immediately before
With respect to No. 3, the presence or absence of similar code data is searched for in the “successive third code data”, and code data C4 is extracted as similar data. Thus, as long as there is similar code data (in this example, code data having the same note number) in the “successive third code data”, the similar code data is extracted and the same code data is extracted. It is arranged one after another on the truck. In the illustrated example, the track A includes code data C1, C
3, C4 are arranged.
【0092】ところが、符号データC4に後続する3番
目までの符号データC5,C6,C7の中には、符号デ
ータC4と同一のノートナンバーを有する符号データは
ないので、ステップS54からステップS56へと分岐
することになる。このステップS56では、所定の符号
データを抽出し、i番目のトラックに配置する処理が行
われる。「所定の符号データ」としては、この例では
「後続する3番目の符号データ」と定めている。したが
って、符号データC4に後続する3番目の符号データC
7が抽出され、トラックAに配置される。However, since there is no code data having the same note number as the code data C4 among the code data C5, C6, and C7 up to the third subsequent to the code data C4, the process proceeds from step S54 to step S56. It will branch. In step S56, a process of extracting predetermined code data and arranging it on the i-th track is performed. In this example, the "predetermined code data" is defined as "the following third code data". Therefore, the third code data C following the code data C4
7 is extracted and placed on track A.
【0093】今度は、この符号データC7に対して、ス
テップS53における探索が行われ、その結果、同一の
ノートナンバーをもった符号データC9が探索されるこ
とになる。そこで、ステップS54からステップS55
へと分岐し、符号データC9を抽出して、トラックAに
配置する処理が行われる。同様に、この符号データC9
に対して、ステップS53における探索が行われ、その
結果、同一のノートナンバーをもった符号データC10
が探索されることになる。そして、ステップS54から
ステップS55へと分岐し、符号データC10を抽出し
て、トラックAに配置する処理が行われる。This time, the search in step S53 is performed on the code data C7, and as a result, code data C9 having the same note number is searched. Therefore, steps S54 to S55
Then, a process of extracting the code data C9 and arranging it on the track A is performed. Similarly, the code data C9
Is searched in step S53, and as a result, code data C10 having the same note number
Will be searched. Then, the process branches from step S54 to step S55, and the process of extracting the code data C10 and arranging it on the track A is performed.
【0094】次に、この符号データC10に対して、ス
テップS53における探索処理が行われるが、図示の例
では、符号データC10については、2つの後続符号デ
ータC11,C12しか残っておらず、後続する3番目
の符号データを探索する前に、符号データ列は終了して
しまう。このように、符号データ列が終了した場合は、
ステップS54からステップS57へと分岐し、パラメ
ータiの値が1だけ更新される。この例の場合、i=2
となり、今度は第2番目のトラックBについての配置処
理が実行されることになる。すなわち、ステップS58
からステップS52へと戻り、残っている先頭の符号デ
ータC2が抽出され、第2番目のトラックBに配置され
ることになる。以下、同様にトラックBへの配置が実行
され、図35に示すように、符号データC5,C6,C
8,C11が配置されることになる。符号データC11
の配置が完了すると、符号データ列が終了するので、ス
テップS54からステップS57へと分岐し、パラメー
タiが3に更新される。Next, a search process in step S53 is performed on the code data C10. In the illustrated example, only two subsequent code data C11 and C12 remain in the code data C10. Before searching for the third code data to be executed, the code data sequence ends. Thus, when the code data sequence ends,
The process branches from step S54 to step S57, and the value of the parameter i is updated by 1. In this example, i = 2
Then, the arrangement processing for the second track B is executed. That is, step S58
Then, the process returns to step S52, and the remaining leading code data C2 is extracted and arranged on the second track B. Thereafter, the arrangement on the track B is performed in the same manner, and as shown in FIG. 35, the code data C5, C6, C
8, C11 will be arranged. Code data C11
Is completed, the code data sequence ends, so the process branches from step S54 to step S57, and the parameter i is updated to 3.
【0095】この時点で、i=Iとなるので、ステップ
S58からステップS59へと分岐し、残りの符号デー
タをすべてi番目のトラックに配置する処理が行われ
る。上述の例では、最後に残った符号データC12が第
3番目のトラックCに配置されることになる。At this point, since i = I, the process branches from step S58 to step S59, and processing for arranging all the remaining code data on the i-th track is performed. In the above example, the last remaining code data C12 is arranged on the third track C.
【0096】かくして、図34に示す符号データC1〜
C12が、図35に示すように3つのトラックA,B,
Cに再配置されたことになる。ここで留意すべき点は、
互いに類似した符号データ(この例の場合、同一のノー
トナンバーをもった符号データ)をもつ近接した単位区
間が同一トラック上に再配置されている点である。たと
えば、図35に示すトラックAでは、符号データC1,
C3,C4が近接して配置されており、符号データC
7,C9,C10も近接して配置されている。また、ト
ラックBでは、符号データC2,C5,C6およびC
8,C11が近接して配置されている。このように近接
配置された類似符号データの一部は、後の区間統合処理
で統合されることになる。Thus, the code data C1 to C1 shown in FIG.
C12 has three tracks A, B,
It has been rearranged to C. The point to keep in mind here is
The point is that adjacent unit sections having code data similar to each other (in this example, code data having the same note number) are rearranged on the same track. For example, in the track A shown in FIG.
C3 and C4 are arranged close to each other, and code data C
7, C9 and C10 are also arranged close to each other. In the track B, the code data C2, C5, C6 and C
8, C11 are arranged close to each other. A part of the similar code data arranged in this manner is integrated in the later section integration processing.
【0097】図36は、図35に示す3つのトラックに
分離された符号データに対して、それぞれ単位区間延長
処理を行った結果を示す図である。この例では、最大区
間長Lmax を図のように定義し、各区間を、隣接する区
間に接触するまで、最大でLmax まで延長する処理が行
われている。その結果、符号データC1〜C12は、そ
れぞれ符号データCC1〜CC12に置換されることに
なる。この例では、符号データCC3,CC5,CC9
は、いずれも後続する符号データに接触したため、最大
区間長Lmax まで延長することはできなかったが、他の
符号データはいずれも最大区間長Lmax まで延長されて
いる。FIG. 36 is a diagram showing the result of performing a unit section extension process on the code data separated into the three tracks shown in FIG. 35. In this example, a process is performed in which the maximum section length Lmax is defined as shown in the figure, and each section is extended up to Lmax at maximum until it touches an adjacent section. As a result, the code data C1 to C12 are replaced with the code data CC1 to CC12, respectively. In this example, the code data CC3, CC5, CC9
Cannot be extended to the maximum section length Lmax because all of them contact the following code data, but all other code data are extended to the maximum section length Lmax.
【0098】図37は、図36に示す単位区間延長処理
後の符号データに対して、区間統合処理を行った結果を
示す図である。すなわち、互いに類似した符号データを
もつ単位区間が同一トラック上で所定の基準間隔以下の
間隔をおいて隣接配置されていた場合に、これらの単位
区間を1つの単位区間に統合する処理が行われている。
具体的には、符号データCC3,CC4が符号データC
C34に統合され、符号データCC5,CC6が符号デ
ータCC56に統合され、符号データCC9,CC10
が符号データCC910に統合されている。このような
区間統合処理により、データ量を圧縮させることがで
き、符号化効率を更に向上させることができる。FIG. 37 is a diagram showing the result of performing section integration processing on the code data after the unit section extension processing shown in FIG. That is, when unit sections having similar code data are arranged adjacently on the same track with an interval equal to or less than a predetermined reference interval, a process of integrating these unit sections into one unit section is performed. ing.
Specifically, the code data CC3 and CC4 are the code data C
C34, the code data CC5 and CC6 are integrated into the code data CC56, and the code data CC9 and CC10
Are integrated into the code data CC910. By such section integration processing, the data amount can be compressed, and the coding efficiency can be further improved.
【0099】図38は、ステップS60の単位区間延長
処理の具体的な手順の一例を示す流れ図である。ここに
示す手順では、個々の単位区間を延長するだけでなく、
基準に満たない短い単位区間を削除する処理も併せて行
っている。すなわち、まずステップS61において、単
位区間延長処理を行う際の最大区間長Lmax と最小区間
長Lmin とを設定する。最大区間長Lmax は、隣接する
単位区間に接触しない限り延長が許される最大の区間長
を示しており、最小区間長Lmin は、区間長がLmin 未
満の区間を削除するという基準を示している。この図3
8に示す手順では、最大区間長Lmax および最小区間長
Lmin の意義に適した処理が行われるよう、パラメータ
Lthを用いたループ処理を行っている。パラメータLth
は、ステップS62において初期値0に設定されるが、
ステップS66において、ΔLずつ徐々に増加するパラ
メータになっており、最終的にステップS64において
Lmin に達したと判断されるまで、ステップS63〜S
66のループ処理が繰り返し行われることになる。FIG. 38 is a flowchart showing an example of a specific procedure of the unit section extension processing in step S60. The procedure shown here not only extends individual unit sections,
A process of deleting short unit sections that do not satisfy the standard is also performed. That is, first, in step S61, the maximum section length Lmax and the minimum section length Lmin for performing the unit section extension processing are set. The maximum section length Lmax indicates the maximum section length that is allowed to be extended unless it touches an adjacent unit section, and the minimum section length Lmin indicates a criterion for deleting a section whose section length is less than Lmin. This figure 3
In the procedure shown in FIG. 8, a loop process using the parameter Lth is performed so that a process suitable for the significance of the maximum section length Lmax and the minimum section length Lmin is performed. Parameter Lth
Is set to an initial value 0 in step S62,
In step S66, the parameter gradually increases by ΔL. Until it is finally determined in step S64 that Lmin has been reached, steps S63 to S63 are performed.
The loop processing of 66 will be repeated.
【0100】まず、ステップS63では、後続区間に接
触するまで、各区間を最大Lmax まで延長する処理が行
われる。そして、ステップS64において、パラメータ
Lth≧Lmin と判断されない限り、ステップS65へと
進み、区間長LがパラメータLth未満である区間が存在
した場合に、その区間が削除される。このような処理
が、ステップS66で、パラメータLthの値をΔLずつ
増加させながら繰り返し実行されることになる。First, in step S63, processing is performed to extend each section up to the maximum Lmax until a subsequent section is touched. Unless it is determined in step S64 that the parameter Lth ≧ Lmin, the process proceeds to step S65. If there is a section in which the section length L is less than the parameter Lth, the section is deleted. Such processing is repeatedly executed in step S66 while increasing the value of the parameter Lth by ΔL.
【0101】この図38の手順に示す単位区間延長処理
の理解を深めるために、図39に示すようなトラックA
を例にとって、具体的な処理内容を説明しよう。この例
では、4つの符号データC1〜C4がトラックAに配置
されており、最大区間長Lmax と最小区間長Lmin とが
図示されている長さに設定されていたものとする。In order to deepen the understanding of the unit section extension processing shown in the procedure of FIG. 38, the track A shown in FIG.
Let's take an example to explain the specific processing contents. In this example, it is assumed that four pieces of code data C1 to C4 are arranged on the track A, and the maximum section length Lmax and the minimum section length Lmin are set to the illustrated length.
【0102】まず、ステップS63において、各区間に
対する延長が行われる。その結果、トラックAの各符号
データは、図40(a) に示すようになる。すなわち、符
号データC3,C4は、最大区間長Lmax に至るまで延
長されて符号データCC3,CC4となり、符号データ
C1,C2は後続する符号データに接触するまで延長さ
れて符号データCC1,CC2となる。この状態では、
もはやこれ以上延長できる単位区間は存在しない。しか
しながら、ステップS63〜S66に至るループを繰り
返し実行するうちに、パラメータLthは0から徐々に増
加してゆくことになり、やがて、符号データCC2の区
間長がパラメータLth未満になる。すると、ステップS
65において、符号データCC2に対する削除処理が実
行され、図40(b) に示すように、トラックA上から符
号データCC2は削除されることになる。続いて、この
削除処理後のステップS63の実行によって、符号デー
タCC1は最大区間長Lmax に至るまで延長されて、図
40(c) に示すように、符号データCCC1となる。や
がて、パラメータLthが最小区間長Lmin に到達する
と、ステップS64からの分岐により、この処理手順は
終了する。かくして、最大区間長Lmax までの延長処理
とともに、最小区間長Lmin 未満の単位区間の削除処理
が行われたことになる。First, in step S63, each section is extended. As a result, each code data of the track A is as shown in FIG. That is, the code data C3 and C4 are extended to the maximum section length Lmax and become the code data CC3 and CC4, and the code data C1 and C2 are extended until they contact the following code data and become the code data CC1 and CC2. . In this state,
There is no longer any unit section that can be extended any longer. However, while repeatedly executing the loop from step S63 to step S66, the parameter Lth gradually increases from 0, and the section length of the code data CC2 eventually becomes smaller than the parameter Lth. Then, step S
At 65, the code data CC2 is deleted, and the code data CC2 is deleted from the track A as shown in FIG. Subsequently, by executing step S63 after the deletion processing, the code data CC1 is extended to the maximum section length Lmax, and becomes the code data CCC1 as shown in FIG. 40 (c). Eventually, when the parameter Lth reaches the minimum section length Lmin, the processing procedure ends by branching from step S64. Thus, the processing of deleting the unit section shorter than the minimum section length Lmin has been performed together with the extension processing up to the maximum section length Lmax.
【0103】この後、ステップS70の区間統合処理が
行われる。たとえば、同じノートナンバーを有し、基準
間隔d以下の間隔をおいて隣接配置されている符号デー
タを統合の対象とするような設定を行った場合、図40
(c) に示すように、間隔dをおいて隣接配置されている
符号データCCC1とCC3とは統合の対象となり、図
40(d) に示すように、新たな符号データCCC13に
よって置換されることになる。Thereafter, the section integration processing of step S70 is performed. For example, when setting is made such that code data having the same note number and adjacently arranged at intervals equal to or smaller than the reference interval d is to be integrated, FIG.
As shown in (c), code data CCC1 and CC3 which are arranged adjacently at an interval d are subject to integration, and are replaced by new code data CCC13 as shown in FIG. 40 (d). become.
【0104】§6. 代表周波数の異なる単位区間を重
複定義する手法 これまで述べてきた符号化方法は、生体の発生するリズ
ム音、波や風などの自然が発生するリズム音というよう
に、個々の単位区間内にある程度限定された周波数成分
のみを含む音響信号の符号化には、実用上十分な再現性
を確保することができる。しかしながら、いわゆるヴォ
ーカル音響と呼ばれている人間の声音のように、非常に
幅の広い周波数成分を同時に含んでいるような音響信号
を符号化した場合、必ずしも十分な再現性を確保するこ
とはできない。特に、人間の声音には、ホルマントと呼
ばれる特性(倍音以外の高調波成分が混在する特性)が
あることが知られており、上述した方法では十分な再現
性をもった符号化ができないことは、理論的にも裏付け
られる。一般的な楽器では、ある特定の音程を演奏する
と、演奏した音程に対応する周波数成分とともに、その
整数倍の周波数成分(倍音高調波成分)が得られる。し
たがって、このような楽器の演奏波形をMIDI音源と
して利用すれば、上述した符号化方法でも倍音高調波成
分を含んだ音を再現することができる。ところが、ホル
マントを有する人間の声音には、倍音以外の高調波成分
が含まれているため、十分な再現性を確保することがで
きなくなる。 §6. Duplicate unit sections with different representative frequencies
The coding method described so far uses only frequency components limited to some extent in each unit section, such as rhythm sounds generated by living bodies and rhythm sounds generated by nature such as waves and wind. Encoding of the included acoustic signal can ensure practically sufficient reproducibility. However, it is not always possible to ensure sufficient reproducibility when encoding an audio signal that includes very wide frequency components at the same time, such as a human voice called vocal sound. . In particular, it is known that human voice sound has a characteristic called formant (a characteristic in which harmonic components other than harmonics are mixed), and it is difficult to perform encoding with sufficient reproducibility by the above-described method. , Supported by theory. In a general musical instrument, when a certain pitch is played, a frequency component corresponding to the played pitch and a frequency component (an overtone harmonic component) that is an integral multiple of the frequency component are obtained. Therefore, if the performance waveform of such an instrument is used as a MIDI sound source, it is possible to reproduce a sound including harmonic components by the above-described encoding method. However, a human voice having a formant contains harmonic components other than harmonics, so that sufficient reproducibility cannot be ensured.
【0105】以下に述べる手法は、ホルマントを有する
人間の声音の符号化にも十分に対応できるような改良を
施したものである。図41に、この手法の基本概念を示
す。図41の中段には、時系列の強度信号としてのデジ
タル音響データの波形が示されており、この波形より下
側には、高域周波数に着目した処理が示され、この波形
より上側には、低域周波数に着目した処理が示されてい
る。すなわち、図の下半分に示された高域周波数に着目
した処理では、高域単位区間Uh(1)〜Uh(6)が
設定され、これら各単位区間について、それぞれ代表周
波数Fh(1)〜Fh(6)と代表強度Ah(1)〜A
h(6)が定義されており、最終的に図の最下段に示さ
れているような高域符号データが生成されることにな
る。一方、図の上半分に示された低域周波数に着目した
処理では、低域単位区間Ul(1)〜Ul(4)が設定
され、これら各単位区間について、それぞれ代表周波数
Fl(1)〜Fl(4)と代表強度Al(1)〜Al
(4)が定義されており、最終的に図の最上段に示され
ているような低域符号データが生成されることになる。The method described below has been improved so that it can sufficiently cope with the encoding of a human voice having a formant. FIG. 41 shows the basic concept of this method. In the middle part of FIG. 41, a waveform of digital acoustic data as a time-series intensity signal is shown. Below this waveform, processing focusing on a high frequency is shown, and above this waveform, , The processing focusing on the low frequency band is shown. That is, in the processing focusing on the high frequency shown in the lower half of the figure, the high frequency unit sections Uh (1) to Uh (6) are set, and the representative frequencies Fh (1) to Uh (1) are set for each of these unit sections. Fh (6) and representative strengths Ah (1) to A
h (6) is defined, and high-frequency code data as shown at the bottom of the figure is finally generated. On the other hand, in the processing focusing on the low-band frequencies shown in the upper half of the figure, low-band unit sections Ul (1) to Ul (4) are set, and the representative frequencies Fl (1) to Ul (1) are set for each of these unit sections. Fl (4) and representative strength Al (1) to Al
(4) is defined, and low band code data as shown in the uppermost part of the figure is finally generated.
【0106】ここで重要な点は、高域単位区間Uh
(1)〜Uh(6)と低域単位区間Ul(1)〜Ul
(4)とが、時間軸t上において、少なくともその一部
分が重複しているという点である。もちろん、時間軸t
を図の左から右へと辿っていった場合、高域単位区間の
みしか設定されていない部分や、低域単位区間のみしか
設定されていない部分が存在し、また、いずれの単位区
間も設定されていない部分も存在し得るが、少なくとも
時間軸t上の一部分には、高域単位区間と低域単位区間
とが重複して設定された区間が存在することになる。こ
うして重複設定された単位区間について、それぞれ独立
して代表周波数および代表強度を定めて符号化すれば、
時間軸上で重複した符号データが得られることになる。
たとえば、図41に示す例の場合、最下段に示された高
域符号データと、最上段に示された低域符号データと
は、時間軸t上において少なくとも部分的には重なって
おり、再生時には、和音として演奏されることになる。
なお、図示されている音符は概念を示すためのものであ
り、図の中段に示された波形や各単位区間とは直接関連
していない。このように、時間軸上で少なくとも部分的
に重複する単位区間を設定し、各単位区間ごとにそれぞ
れ別個に符号化を行うようにすれば、再生時には、種々
の周波数成分を含んだ和音としての形式で音の再現が可
能になる。The important point here is that the high frequency unit section Uh
(1) to Uh (6) and the low frequency unit section Ul (1) to Ul
(4) is that at least a part thereof overlaps on the time axis t. Of course, the time axis t
From the left to the right of the figure, there is a part where only the high-frequency unit section is set, a part where only the low-frequency unit section is set, and also sets any unit section Although there may be a part that is not performed, at least a part on the time axis t includes a section in which the high-frequency unit section and the low-frequency unit section are set to overlap. If the unit intervals set in this way are determined and encoded independently for each representative frequency and representative intensity,
Code data that is duplicated on the time axis is obtained.
For example, in the case of the example shown in FIG. 41, the high-frequency code data shown at the bottom and the low-frequency code data shown at the top overlap at least partially on the time axis t. Sometimes they will be played as chords.
Note that the musical notes shown are for the purpose of illustrating the concept, and are not directly related to the waveforms and the unit sections shown in the middle part of the figure. In this way, if at least partially overlapping unit sections are set on the time axis, and encoding is performed separately for each unit section, a chord including various frequency components can be obtained at the time of reproduction. The sound can be reproduced in the format.
【0107】この§6で述べる符号化手順は、§5まで
に述べた符号化手順とほぼ同様に行うことができる。す
なわち、図2あるいは図32の流れ図に示すように、入
力段階S10において、符号化対象となる音響信号を、
デジタルの音響データとして取り込む処理が行われ、続
いて、変極点定義段階S20において、取り込んだ音響
データの波形について変極点を求める処理が行われる。
ここまでの処理は、既に述べた手順と全く同じである。
次に、区間設定段階S30において、単位区間の設定が
行われるが、ここでは、前述したように、時間軸上で少
なくとも部分的に重複するような区間設定が行われるこ
とになる。また、符号化段階S40では、各単位区間ご
とに符号化する処理が行われるが、この処理も重複設定
された各単位区間ごとに行われることになる。The coding procedure described in §6 can be performed in substantially the same manner as the coding procedure described in §5. That is, as shown in the flowchart of FIG. 2 or FIG. 32, in the input step S10, the audio signal to be encoded is
A process of capturing as digital audio data is performed, and subsequently, in an inflection point defining step S20, a process of obtaining an inflection point for the waveform of the captured audio data is performed.
The processing so far is exactly the same as the procedure already described.
Next, in the section setting step S30, the unit section is set. Here, as described above, the section setting that at least partially overlaps on the time axis is performed. In the encoding step S40, the encoding process is performed for each unit section, and this processing is also performed for each of the unit sections that are set to be overlapped.
【0108】区間設定段階S30において最初に行われ
る処理は、既に述べたように、固有周波数定義処理S3
1である。この時点では、既に、変極点探索処理S21
によって、音響データ波形についての個々の変極点が探
索され、同極性変極点の間引処理S22によって、同極
性のデジタル値をもった変極点が複数連続する場合に、
絶対値が最大のデジタル値をもった変極点のみを残す間
引きが行われており、正の信号値をもつ変極点と負の信
号値をもつ変極点とが交互に現れる状態になっている。
固有周波数定義処理S31は、このような各変極点のそ
れぞれに対して、近傍の情報に基いて固有周波数を定義
する処理であるが、本手法では、1つの変極点に対して
固有周波数を定義する方法を複数通り設定するように
し、これら複数通りの方法を用いて、各変極点に複数通
りの固有周波数を定義するようにしている。The processing first performed in the section setting step S30 is, as described above, the natural frequency definition processing S3.
It is one. At this point, the inflection point search process S21 has already been performed.
In this way, the individual inflection points of the acoustic data waveform are searched, and when a plurality of inflection points having digital values of the same polarity continue by the thinning processing S22 of the same polarity inflection point,
Thinning-out is performed to leave only the inflection point having the largest digital value in absolute value, and the inflection point having a positive signal value and the inflection point having a negative signal value appear alternately.
The eigenfrequency definition process S31 is a process of defining an eigenfrequency for each of such inflection points based on information on the neighborhood. In this method, an eigenfrequency is defined for one inflection point. A plurality of methods are set, and a plurality of natural frequencies are defined at each inflection point by using the plurality of methods.
【0109】ここでは、ヴォーカル音響信号に対して用
いるのに適した2通りの具体的な固有周波数定義方法を
説明する。いま、変極点定義段階S20を経ることによ
り、図42にその一部が示されているような変極点群が
得られた場合を考える。図42には、この変極点群のう
ちの第n番目の変極点P(n)〜第(n+12)番目の
変極点P(n+12)が示されている。このような変極
点群には、2つの周波数成分が含まれていることがわか
る。すなわち、変極点P(n)とP(n+2)との距離
φhを一周期とする高域周波数成分と、変極点P(n)
とP(n+6)との距離φlを一周期とする低域周波数
成分とである。ヴォーカル音響信号に対して変極点の定
義を行うと、図42に示すような特徴が顕著に現れる。
これは、前述したように、人間の音声はホルマントとい
う特徴を有するためである。図42に示す例において、
正の信号強度をもつ変極点P(n),P(n+2),P
(n+4),P(n+6),P(n+8)…に注目すれ
ば、信号強度が大中小大中小…と変化していることがわ
かる。この大中小という変化の周期が周期φlに相当
し、低域周波数成分を示すことになる。これに対し、同
極性の変極点の出現周期が周期φhに相当し、高域周波
数成分を示すことになる。Here, two specific natural frequency defining methods suitable for use with vocal acoustic signals will be described. Now, let us consider a case where an inflection point group whose part is shown in FIG. 42 is obtained through the inflection point defining step S20. FIG. 42 shows the nth inflection point P (n) to the (n + 12) th inflection point P (n + 12) in this inflection point group. It can be seen that such an inflection point group includes two frequency components. That is, a high frequency component having one cycle of the distance φh between the inflection points P (n) and P (n + 2), and the inflection point P (n)
And a low-frequency component having a period of φ1 between P (n + 6) and P (n + 6) as one cycle. When the inflection point is defined for the vocal acoustic signal, the characteristic as shown in FIG.
This is because, as described above, human voice has the characteristic of formants. In the example shown in FIG.
Inflection points P (n), P (n + 2), P having positive signal strength
Paying attention to (n + 4), P (n + 6), P (n + 8)..., It can be seen that the signal intensity has changed from large, medium, small, large, medium, small,. The period of the change of large, medium and small corresponds to the period φl, and indicates a low frequency component. On the other hand, the appearance period of the inflection point of the same polarity corresponds to the period φh, and indicates a high frequency component.
【0110】結局、個々の変極点に対して固有周波数を
定義する第1の方法として、同極性の変極点が現れる周
期φhを探索し、この周期φhに基いて固有周波数を定
義する方法を採れば、高域固有周波数fhを定義するこ
とができる。また、個々の変極点に対して固有周波数を
定義する第2の方法として、近似した信号強度をもつ変
極点が現れる周期φlを探索し、この周期φlに基いて
固有周波数を定義する方法を採れば、低域固有周波数f
lを定義することができる。より具体的には、各変極点
について、それぞれ所定の条件を満たす特定の変極点を
探索し、探索された変極点との間の時間軸上での距離に
基いて固有周波数を定義すればよい。たとえば、図42
において、変極点P(n)についての高域固有周波数f
hを定義するには、「後続して最初に出現する同極性の
変極点」という条件を設定して探索を行えばよい。その
結果、この条件を満たす変極点P(n+2)が探索され
ることになるので、両変極点の時間軸上での距離φhを
周期とする周波数が定義される。同様に、変極点P
(n)についての低域固有周波数flを定義するには、
「変極点P(n)のもつ信号強度にほぼ等しい信号強度
をもち、後続して最初に出現する変極点(信号強度に符
号をもたせておけば、当然同極性の変極点になる)」と
いう条件を設定して探索を行えばよい。その結果、この
条件を満たす変極点P(n+6)が探索されることにな
るので、両変極点の時間軸上での距離φlを周期とする
周波数が定義される。このように、探索条件を変えるこ
とにより、同一の変極点に対して複数通りの固有周波数
を定義することが可能になる。After all, as a first method of defining a natural frequency for each inflection point, a method of searching for a period φh in which inversion points of the same polarity appear and defining a natural frequency based on this period φh can be adopted. For example, the high frequency eigenfrequency fh can be defined. As a second method of defining a natural frequency for each inflection point, a method of searching for a period φl at which an inflection point having an approximated signal strength appears and defining a natural frequency based on the period φl may be adopted. If the lower natural frequency f
1 can be defined. More specifically, for each inflection point, a specific inflection point that satisfies a predetermined condition is searched for, and a natural frequency may be defined based on a distance on the time axis between the inflection point and the searched inflection point. . For example, FIG.
At the inflection point P (n)
In order to define h, the search may be performed by setting a condition of “the inflection point of the same polarity that appears first thereafter”. As a result, an inflection point P (n + 2) that satisfies this condition is searched for, so that a frequency having a period of the distance φh on the time axis between both inflection points is defined. Similarly, the inflection point P
To define the lower natural frequency fl for (n):
"The inflection point which has a signal strength substantially equal to the signal strength of the inflection point P (n) and subsequently appears first (if the signal strength is given a sign, the inflection point will have the same polarity)." The search may be performed by setting conditions. As a result, an inflection point P (n + 6) that satisfies this condition is searched for, so that a frequency having a period of the distance φl on the time axis between the two inflection points is defined. Thus, by changing the search conditions, it is possible to define a plurality of natural frequencies for the same inflection point.
【0111】上述の手法によれば、第n番目の変極点P
(n)についての高域固有周波数fh(n)は、§2.
3で述べたように、任意の整数kを用いて、 fh(n)=(k/2)・1/(t(n+k)−t
(n)) なる式で得られることになる。すなわち、第n番目の変
極点P(n)に対してk個離れた変極点P(n+k)を
探索し(kが正の場合は後続する変極点、負の場合は先
行する変極点)、変極点P(n)の時間軸上での位置t
(n)と探索された変極点P(n+k)の時間軸上での
位置t(n+k)との差の逆数に基いて、高域固有周波
数fh(n)が得られることになる。既に述べたよう
に、kの値は、ある程度大きく設定した方が、誤差の少
ない固有周波数を定義することができるが、あまり大き
く設定しすぎると、ローカルな周波数としての意味が失
われてしまう。According to the above method, the n-th inflection point P
The high-band natural frequency fh (n) for (n) is defined in §2.
As described in 3, using an arbitrary integer k, fh (n) = (k / 2) · 1 / (t (n + k) −t
(N)). In other words, a search is made for an inflection point P (n + k) that is k points away from the nth inflection point P (n) (if k is positive, the following inflection point; if k is negative, the preceding inflection point) Position t of the inflection point P (n) on the time axis
Based on the reciprocal of the difference between (n) and the position t (n + k) on the time axis of the searched inflection point P (n + k), the high frequency natural frequency fh (n) is obtained. As described above, if the value of k is set to a relatively large value, a natural frequency with less error can be defined. However, if the value is too large, the meaning as a local frequency is lost.
【0112】図42に示す例の場合、変極点P(n)に
ついての高域固有周波数fh(n)は、図示の周期φh
の逆数として定義することができ、 fh(n)=1/φh =1/(t(n+2)−t(n)) なる式で与えられるが、これは上述の式における係数k
=2に設定した場合に他ならない。もちろん、係数k=
4に設定すれば、変極点P(n+4)を探索対象とし
て、 fh(n)=2・(1/(t(n+4)−t(n))) なる式により、高域固有周波数fh(n)の値を定義す
ることもできる。In the case of the example shown in FIG. 42, the high frequency natural frequency fh (n) for the inflection point P (n) is represented by a period φh
Fh (n) = 1 / φh = 1 / (t (n + 2) −t (n)), which is calculated by the coefficient k in the above equation.
= 2, nothing else. Of course, the coefficient k =
If it is set to 4, the inflection point P (n + 4) is to be searched, and the high-band natural frequency fh (n) is calculated by the following expression: ) Can also be defined.
【0113】一方、第n番目の変極点P(n)について
の低域固有周波数fl(n)は、 fl(n)=1/(t(n+k)−t(n)) なる式で得られることになる。ただし、右辺の分母に示
されている係数kは任意の整数ではなく、所定の条件を
満たす整数でなければならない。すなわち、整数kで特
定される変極点P(n+k)が、変極点P(n)のもつ
信号強度に対して所定の誤差範囲内にある信号強度をも
つ変極点のうち、変極点(n)に最も近い後続する変極
点となるようにしなければならない。あるいは、整数k
を負にとって、先行する変極点を探索対象とする場合に
は、整数kで特定される変極点P(n+k)が、変極点
P(n)のもつ信号強度に対して所定の誤差範囲内にあ
る信号強度をもつ変極点のうち、変極点(n)に最も近
い先行する変極点となるようにしてもかまわない。この
式の意味するところは、要するに、変極点P(n)のも
つ信号強度とほぼ同じ信号強度をもった最も近い変極点
P(n+k)を探索し、変極点P(n)の時間軸上での
位置t(n)と探索された変極点P(n+k)の時間軸
上での位置t(n+k)との差の逆数に基いて、低域固
有周波数fl(n)を決定するということである。On the other hand, the low-band natural frequency fl (n) for the n-th inflection point P (n) is obtained by the following equation: fl (n) = 1 / (t (n + k) -t (n)). Will be. However, the coefficient k shown in the denominator on the right side is not an arbitrary integer but an integer satisfying a predetermined condition. That is, the inflection point P (n + k) specified by the integer k is the inflection point (n) of the inflection points having a signal strength within a predetermined error range with respect to the signal strength of the inflection point P (n). Must be the closest inflection point to. Or the integer k
When the preceding inflection point is to be searched, the inflection point P (n + k) specified by the integer k is within a predetermined error range with respect to the signal strength of the inflection point P (n). Of the inflection points having a certain signal intensity, the preceding inflection point closest to the inflection point (n) may be used. The point of this equation is that, in short, the nearest inflection point P (n + k) having the same signal strength as the inflection point P (n) is searched for, and the time axis of the inflection point P (n) is found. Is determined on the basis of the reciprocal of the difference between the position t (n) at the time t and the position t (n + k) on the time axis of the searched inflection point P (n + k). It is.
【0114】図42に示す例の場合、変極点P(n)に
ついての低域固有周波数fl(n)は、図示の周期φl
の逆数として定義することができ、 fl(n)=1/φl =1/(t(n+6)−t(n)) なる式で与えられるが、これは上述の式における係数k
=6に設定した場合に他ならない。すなわち、図42の
例では、変極点P(n+6)が、変極点P(n)のもつ
信号強度に対して所定の誤差範囲内にある信号強度を有
し、変極点P(n)に最も近い後続する変極点として探
索されたことになる。なお、理論的には、必ずしも最も
近い後続する変極点(もしくは最も近い先行する変極
点)を探索対象とする必要はない。たとえば、2番目に
近い後続する変極点P(n+12)を探索対象とした場
合であっても、 fl(n)=2・(1/(t(n+12)−t
(n))) なる式で低域固有周波数fl(n)を定義することがで
き、一般に、z番目に近い後続もしくは先行する変極点
P(n+k)を探索対象とした場合、 fl(n)=z・(1/(t(n+k)−t(n))) なる式で低域固有周波数fl(n)を定義することがで
きる。In the case of the example shown in FIG. 42, the low-band natural frequency fl (n) for the inflection point P (n) is equal to the period φl shown in FIG.
Which is given by the following equation: fl (n) = 1 / φl = 1 / (t (n + 6) −t (n)), which is obtained by calculating the coefficient k in the above equation.
There is nothing other than setting = 6. That is, in the example of FIG. 42, the inflection point P (n + 6) has a signal strength within a predetermined error range with respect to the signal strength of the inflection point P (n), and This means that it has been searched as a near succeeding inflection point. Note that, theoretically, the nearest succeeding inflection point (or the nearest preceding inflection point) does not necessarily need to be a search target. For example, even if the search is made for the second and subsequent inflection point P (n + 12), fl (n) = 2 · (1 / (t (n + 12) −t)
(N))) The low frequency eigenfrequency fl (n) can be defined by the following expression. In general, when the z-th succeeding or preceding inflection point P (n + k) is a search target, fl (n) = Z · (1 / (t (n + k) −t (n))) The low-band natural frequency fl (n) can be defined by the following equation.
【0115】かくして、本発明の場合、図2の流れ図に
おけるステップS31の固有周波数定義処理は、個々の
変極点に対してそれぞれ複数通りの固有周波数が定義さ
れることになる。そして、ステップS32〜S34の個
々の処理は、複数通りの固有周波数についてそれぞれ別
個に行われ、ステップS41〜S42の個々の処理も、
複数通りの固有周波数についてそれぞれ別個に行われる
ことになる。結局、時間軸上で重複するような複数の符
号データが生成されることになり、これらの符号データ
を時間軸上で重複して再生することにより、ホルマント
特性を有する人間の声音についても実用的なレベルでの
再現性が確保できることになる。Thus, in the case of the present invention, in the natural frequency defining process of step S31 in the flowchart of FIG. 2, a plurality of natural frequencies are defined for each inflection point. The individual processes in steps S32 to S34 are separately performed for a plurality of types of natural frequencies, and the individual processes in steps S41 to S42 are also performed.
It is performed separately for each of a plurality of natural frequencies. As a result, a plurality of code data overlapping on the time axis are generated, and by reproducing these code data on the time axis in a redundant manner, it is also practical for a human voice having a formant characteristic. Reproducibility at various levels can be secured.
【0116】たとえば、図42に示す具体例において、
n=1として、各変極点をP1〜P13で表わした場
合、各変極点にそれぞれ高域固有周波数を定義すれば、
図43に示すような固有周波数fhxおよび信号強度a
xをもった変極点群が定義されることになり、各変極点
にそれぞれ低域固有周波数を定義すれば、図44に示す
ような固有周波数flxおよび信号強度axをもった変
極点群が定義されることになる(ただし、x=1〜1
3)。このような2通りの変極点群に対して、それぞれ
別個独立して、ステップS32におけるレベルによるス
ライス処理、ステップS33における不連続部分割処
理、ステップS34における区間統合処理を実行すれ
ば、2通りの単位区間が設定されることになる。ここ
で、図43に示すような高域固有周波数をもつ変極点群
に基いて設定された単位区間は、各変極点に与えられた
高域固有周波数が所定の近似範囲となるような一群の変
極点を含む区間として設定されることになり、図44に
示すような低域固有周波数をもつ変極点群に基いて設定
された単位区間は、各変極点に与えられた低域固有周波
数が所定の近似範囲となるような一群の変極点を含む区
間として設定されることになる。要するに、ステップS
30の区間設定段階では、同一の方法で定義された固有
周波数が所定の近似範囲内となるような一群の変極点を
含む区間を1つの単位区間と設定する処理が行われる。
固有周波数の定義は、複数通りの方法で行われるため、
時間軸上で重複する複数の単位区間が定義されることに
なる。For example, in the specific example shown in FIG.
When n = 1 and each inflection point is represented by P1 to P13, if a high-frequency natural frequency is defined for each inflection point,
The natural frequency fhx and the signal strength a as shown in FIG.
An inflection point group having x is defined. If a low-band natural frequency is defined for each inflection point, an inflection point group having a natural frequency flx and a signal strength ax as shown in FIG. 44 is defined. (Where x = 1 to 1)
3). If the two types of inflection point groups are independently and independently subjected to the level-based slicing process in step S32, the discontinuous portion division process in step S33, and the section integration process in step S34, two types of processes are performed. A unit section is set. Here, the unit section set based on the inflection point group having the high frequency eigenfrequency as shown in FIG. 43 is a group of groups in which the high frequency eigenfrequency given to each inflection point falls within a predetermined approximate range. The unit section set based on the inflection point group having the low-frequency natural frequency as shown in FIG. 44 is set as a section including the inflection point, and the low-frequency natural frequency given to each inflection point is The section is set as a section including a group of inflection points that falls within a predetermined approximate range. In short, step S
In the section setting stage of 30, a process of setting a section including a group of inflection points such that the natural frequency defined by the same method falls within a predetermined approximate range is set as one unit section.
The definition of the natural frequency is done in several ways,
A plurality of unit sections overlapping on the time axis are defined.
【0117】ステップS40の符号化段階では、各単位
区間について、それぞれ別個独立して代表周波数および
代表強度が定義される。すなわち、単位区間内に含まれ
る変極点について定義された複数通りの固有周波数のう
ち、当該単位区間の設定に関与した固有周波数に基い
て、当該単位区間の代表周波数が定義され、当該単位区
間に含まれる変極点のもつ信号強度に基いて当該単位区
間の代表強度が定義される。たとえば、図41に示す例
の場合、高域単位区間Uh(1)については、この区間
Uh(1)内に含まれる変極点について定義された複数
通りの固有周波数のうち、当該単位区間の設定に関与し
た高域固有周波数に基いて代表周波数Fh(1)が定義
されることになり、この区間Uh(1)内に含まれる変
極点のもつ信号強度に基いて代表強度Ah(1)が定義
されることになる。In the encoding stage of step S40, a representative frequency and a representative intensity are defined independently and independently for each unit section. That is, among the plurality of natural frequencies defined for the inflection point included in the unit section, the representative frequency of the unit section is defined based on the natural frequency involved in setting the unit section, and The representative intensity of the unit section is defined based on the signal intensity of the included inflection point. For example, in the case of the example shown in FIG. 41, for the high-frequency unit section Uh (1), the setting of the unit section of the plurality of natural frequencies defined for the inflection points included in this section Uh (1) The representative frequency Fh (1) is defined on the basis of the high-frequency natural frequency involved in, and the representative intensity Ah (1) is determined based on the signal intensity of the inflection point included in this section Uh (1). Will be defined.
【0118】なお、§3.1で説明したMIDIデータ
への変換原理によると、個々の単位区間に相当するMI
DIデータのベロシティーVを、単位区間の代表強度A
を最大値Amax で規格化して、127を乗じることによ
り、 V=(A/Amax )・127 なる式で定義し、V=0〜127の値をとるベロシティ
ーVを求めていたが、いわゆるヴォーカル音声信号を符
号化する場合には、規格化した値の平方根をとって、 V=(A/Amax )1/2・127 なる式でベロシティーVを定義するか、あるいは対数を
とって、 V=log(A/Amax )・127+127 (ただし、V<0の場合は、V=0とする) なる式でベロシティーVを定義した方が、より自然な再
生音が得られるようになり好ましい。According to the principle of conversion to MIDI data described in §3.1, the MIDI data corresponding to each unit section
The velocity V of the DI data is represented by the representative intensity A of the unit section.
Is normalized by the maximum value Amax and multiplied by 127 to define a formula V = (A / Amax) .127, and a velocity V taking a value of V = 0 to 127 is obtained. When encoding the audio signal, the velocity V is defined by taking the square root of the standardized value and defining the velocity V by an equation of V = (A / Amax) 1/2 · 127, or by taking the logarithm, = Log (A / Amax) ・ 127 + 127 (However, if V <0, V = 0) It is preferable to define the velocity V because a more natural reproduced sound can be obtained.
【0119】最後に、この§6で述べた手法と、§4,
§5で述べた区間延長を行う手法とを組み合わせた実施
形態を示しておく。いま、図45(a) に示すような音響
データが与えられた場合を考えよう。このような音響デ
ータに対して、変極点が探索され、各変極点について固
有周波数と信号強度とが求められるが、この§6で述べ
た手法によれば、図45(b) に示すような低域固有周波
数flの定義と、図45(c) に示すような高域固有周波
数fhの定義とが行われることになる。そして、低域固
有周波数に基いて設定された単位区間について、図45
(d) に示すような低域符号データC11,C12が定義
され、高域固有周波数に基いて設定された単位区間につ
いて、図45(e) に示すような高域符号データC21〜
C25が定義される。Finally, the method described in §6 and §4
An embodiment in which the technique of section extension described in §5 is combined will be described. Now, let us consider a case where acoustic data as shown in FIG. 45 (a) is given. An inflection point is searched for such acoustic data, and a natural frequency and a signal strength are obtained for each inflection point. According to the method described in §6, as shown in FIG. The definition of the low-band natural frequency fl and the definition of the high-band natural frequency fh as shown in FIG. 45 (c) are performed. Then, regarding the unit section set based on the low-band natural frequency, FIG.
The low-frequency code data C11 and C12 as shown in (d) are defined, and the high-frequency code data C21 to C21 as shown in FIG.
C25 is defined.
【0120】続いて、これらの各符号データに対して、
それぞれ単位区間延長処理を施す。ただし、ここで示す
実施形態では、図45(d) に示す低域符号データに対し
ては、トラック分離処理を行うことなしに区間延長処理
を行うこととし、図45(e)に示す高域符号データに対
しては、トラック分離処理によって2つのトラックに分
離した後、各トラックごとに区間延長処理を行うことに
する。すなわち、図45(e) に示す高域符号データのう
ちの符号データC21,C23,C24は、図46(a)
に示すようにトラックAに再配置され、符号データC2
2,C25は、図46(b) に示すようにトラックBに再
配置される。そして、トラックA上の符号データC2
1,C23,C24に対して単位区間延長処理を施すこ
とにより、図47に示すような符号データCC21,C
C23,CC24が得られ、トラックB上の符号データ
C22,C25に対して単位区間延長処理を施すことに
より、図47に示すような符号データCC22,CC2
5が得られる。一方、図45(d) に示す低域符号データ
C11,C12に対して単位区間延長処理を施し、これ
をトラックCに配置すれば、図47に示すような符号デ
ータCC11,CC12が得られる。Subsequently, for each of these code data,
Each unit is extended. However, in the embodiment shown here, the section extension processing is performed on the low-frequency code data shown in FIG. 45D without performing the track separation processing, and the high-frequency code shown in FIG. After the code data is separated into two tracks by the track separation processing, the section extension processing is performed for each track. That is, the code data C21, C23 and C24 of the high band code data shown in FIG.
The data is rearranged on track A as shown in FIG.
2 and C25 are relocated to track B as shown in FIG. Then, code data C2 on track A
1, C23, and C24 are subjected to unit section extension processing, so that code data CC21, C24 as shown in FIG.
C23 and CC24 are obtained, and the code data C22 and C25 on the track B are subjected to the unit section extension processing, whereby the code data CC22 and CC2 as shown in FIG.
5 is obtained. On the other hand, if the unit interval extension processing is performed on the low-frequency code data C11 and C12 shown in FIG.
【0121】結局、図47に示すように、時間軸tを共
通とする3つのトラックA,B,Cが設定され、各トラ
ックに分離した状態で、延長処理が施された符号データ
がそれぞれ配置されることになる。したがって、再生時
には、3つのトラックの和音として再生音が提示される
ことになる。ただ、符号化方法のプロセスを考慮する
と、3つのトラックの意味合いは若干異なっている。す
なわち、符号データをトラックAとトラックBに分離し
たのは、単位区間延長処理の便宜のためであるのに対
し、トラックA,BとトラックCとを設けたのは、高域
固有周波数に基いて定義された符号データを前者に配置
し、低域固有周波数に基いて定義された符号データを後
者に配置するためである。As a result, as shown in FIG. 47, three tracks A, B, and C having a common time axis t are set, and the code data subjected to the extension processing is arranged in each track separately. Will be done. Therefore, at the time of reproduction, a reproduced sound is presented as a chord of three tracks. However, considering the process of the encoding method, the meanings of the three tracks are slightly different. That is, the code data is separated into the track A and the track B for the convenience of the unit section extension processing, whereas the tracks A, B and the track C are provided based on the high-band natural frequency. This is for arranging the coded data defined in the former, and arranging the coded data defined based on the low-band natural frequency in the latter.
【0122】なお、上述の実施形態では、低域符号デー
タについては単位区間延長処理の便宜のためのトラック
分離処理を行っていないが、高域符号データと同様にト
ラック分離処理を行うようにしてもかまわない。もっと
も、実用上は、低域符号データに関しては、単位区間延
長処理のために十分な空白区間が確保できる場合が多い
ので、高域符号データに対してのみトラック分離処理を
行うようにしても十分である。In the above-described embodiment, the track separation processing is not performed on the low-frequency code data for convenience of the unit section extension processing. However, the track separation processing is performed similarly to the high-frequency code data. It doesn't matter. However, in practice, for the low band code data, a sufficient blank section can be secured for the unit section extension processing in many cases. It is.
【0123】[0123]
【発明の効果】以上のとおり本発明によれば、音響信号
に対して効率的な符号化を行うことができるようにな
る。As described above, according to the present invention, efficient coding can be performed on an audio signal.
【図1】先願発明に係る音響信号の符号化方法の基本原
理を示す図である。FIG. 1 is a diagram showing the basic principle of an audio signal encoding method according to the invention of the prior application.
【図2】先願発明に係る音響信号の符号化方法の実用的
な手順を示す流れ図である。FIG. 2 is a flowchart showing a practical procedure of an audio signal encoding method according to the invention of the prior application.
【図3】入力した音響データに含まれている直流成分を
除去するデジタル処理を示すグラフである。FIG. 3 is a graph showing digital processing for removing a DC component included in input acoustic data.
【図4】図3に示す音響データの一部を時間軸に関して
拡大して示したグラフである。4 is a graph showing a part of the acoustic data shown in FIG. 3 in an enlarged manner with respect to a time axis.
【図5】図4に矢印で示す変極点P1〜P6のみを抜き
出した示した図である。FIG. 5 is a diagram showing only inflection points P1 to P6 indicated by arrows in FIG. 4;
【図6】多少乱れた音響データの波形を示すグラフであ
る。FIG. 6 is a graph showing a waveform of acoustic data that has been slightly disturbed;
【図7】図6に矢印で示す変極点P1〜P7のみを抜き
出した示した図である。FIG. 7 is a diagram showing only the inflection points P1 to P7 indicated by arrows in FIG. 6;
【図8】図7に示す変極点P1〜P7の一部を間引処理
した状態を示す図である。8 is a diagram showing a state where a part of the inflection points P1 to P7 shown in FIG. 7 has been thinned out.
【図9】個々の変極点について、固有周波数を定義する
方法を示す図である。FIG. 9 is a diagram illustrating a method of defining a natural frequency for each inflection point.
【図10】個々の変極点に関する情報に基づいて、単位
区間を設定する具体的手法を示す図である。FIG. 10 is a diagram showing a specific method for setting a unit section based on information about each inflection point.
【図11】所定の許容レベルLLに基づくスライス処理
を示す図である。FIG. 11 is a diagram showing a slice process based on a predetermined allowable level LL.
【図12】単位区間設定の対象となる多数の変極点を矢
印で示した図である。FIG. 12 is a diagram in which a number of inflection points to be set for a unit section are indicated by arrows.
【図13】図12に示す変極点に対して、所定の許容レ
ベルLLに基づくスライス処理を行う状態を示す図であ
る。FIG. 13 is a diagram showing a state in which slicing processing is performed on the inflection point shown in FIG. 12 based on a predetermined allowable level LL.
【図14】図13に示すスライス処理によって変極点を
除外し、暫定区間K1,K2を設定した状態を示す図で
ある。14 is a diagram showing a state in which inflection points are excluded by the slice processing shown in FIG. 13 and provisional sections K1 and K2 are set.
【図15】図14に示す暫定区間K1についての不連続
位置を探索する処理を示す図である。FIG. 15 is a diagram illustrating a process of searching for a discontinuous position in a provisional section K1 illustrated in FIG. 14;
【図16】図15で探索された不連続位置に基づいて、
暫定区間K1を分割し、新たな暫定区間K1−1とK1
−2とを定義した状態を示す図である。FIG. 16 is based on the discontinuous position searched in FIG.
The provisional section K1 is divided into new provisional sections K1-1 and K1.
It is a figure which shows the state which defined -2.
【図17】図16に示す暫定区間K1−2,K2につい
ての統合処理を示す図である。17 is a diagram showing an integration process for provisional sections K1-2 and K2 shown in FIG. 16;
【図18】図17に示す統合処理によって、最終的に設
定された単位区間U1,U2を示す図である。18 is a diagram showing unit sections U1 and U2 finally set by the integration processing shown in FIG. 17;
【図19】各単位区間についての代表周波数および代表
強度を求める手法を示す図である。FIG. 19 is a diagram showing a method for obtaining a representative frequency and a representative intensity for each unit section.
【図20】5つの区間E0,U1,E1,U2,E2を
定義するための符号データを示す図である。FIG. 20 is a diagram showing code data for defining five sections E0, U1, E1, U2, and E2.
【図21】図20に示す単位区間U1,U2内の音響デ
ータを符号化して得られる符号データの一例を示す図表
である。FIG. 21 is a table showing an example of code data obtained by encoding sound data in unit sections U1 and U2 shown in FIG. 20;
【図22】図20に示す単位区間U1,U2内の音響デ
ータを符号化して得られる符号データの別な一例を示す
図表である。FIG. 22 is a table showing another example of code data obtained by encoding sound data in unit sections U1 and U2 shown in FIG. 20;
【図23】一般的なMIDI形式の符号データの構成を
示す図である。FIG. 23 is a diagram showing a configuration of code data in a general MIDI format.
【図24】各単位区間内の音響データについてのMID
Iデータへの具体的な変換方法を示す図である。FIG. 24 is an MID for acoustic data in each unit section.
It is a figure showing the concrete conversion method to I data.
【図25】図20に示す単位区間U1,U2内の音響デ
ータを、MIDIデータを用いて符号化した状態を示す
図表である。FIG. 25 is a table showing a state in which audio data in unit sections U1 and U2 shown in FIG. 20 are encoded using MIDI data.
【図26】生成したMIDIデータに対して修正処理が
必要な第1の事例を示す図である。FIG. 26 is a diagram illustrating a first case in which generated MIDI data needs to be modified.
【図27】生成したMIDIデータに対して修正処理が
必要な第2の事例を示す図である。FIG. 27 is a diagram illustrating a second case in which the generated MIDI data requires a correction process.
【図28】図27に示す事例における修正後の状態を示
す図である。FIG. 28 is a diagram showing a state after correction in the case shown in FIG. 27;
【図29】先願発明の符号化方法により得られる符号デ
ータの一例を示す図である。FIG. 29 is a diagram showing an example of code data obtained by the coding method of the invention of the prior application.
【図30】図29に示す符号データを2つのトラック
A,Bに分離して再配置した状態を示す図である。30 is a diagram showing a state where the code data shown in FIG. 29 is separated and rearranged into two tracks A and B.
【図31】図30に示す2つのトラックA,B上に再配
置された各単位区間U1〜U7を、それぞれ最大区間長
Lmax になるまで延長し、新たな単位区間UU1〜UU
7を形成した例を示す図である。31 extends each of the unit sections U1 to U7 rearranged on the two tracks A and B shown in FIG. 30 until the respective unit sections U1 to U7 reach the maximum section length Lmax, and adds new unit sections UU1 to UU.
It is a figure which shows the example which formed 7.
【図32】本発明に係る単位区間の延長処理を採り入れ
た場合の符号化方法の全手順を示す流れ図である。FIG. 32 is a flowchart showing the entire procedure of an encoding method when a unit section extension process according to the present invention is adopted.
【図33】図32に示すステップS50のトラック分離
処理の具体的な手順の一例を示す流れ図である。FIG. 33 is a flowchart showing an example of a specific procedure of a track separation process in step S50 shown in FIG. 32;
【図34】図33に示す手順の説明に用いる符号データ
列を示す図である。FIG. 34 is a diagram showing a code data sequence used for describing the procedure shown in FIG. 33.
【図35】図34に示す符号データを3つのトラック
A,B,Cに分離して再配置した状態を示す図である。FIG. 35 is a diagram showing a state in which the code data shown in FIG. 34 is separated and rearranged into three tracks A, B, and C.
【図36】図35に示す各トラック上の符号データに対
して単位区間延長処理を施した状態を示す図である。36 is a diagram illustrating a state in which unit section extension processing has been performed on code data on each track illustrated in FIG. 35;
【図37】図36に示すトラックA,B上の符号データ
に対して区間統合処理を施した状態を示す図である。FIG. 37 is a diagram showing a state in which section integration processing has been performed on code data on tracks A and B shown in FIG. 36;
【図38】図32に示すステップS60の単位区間延長
処理の具体的な手順の一例を示す流れ図である。FIG. 38 is a flowchart showing an example of a specific procedure of a unit section extension process in step S60 shown in FIG. 32;
【図39】図38に示す手順の説明に用いる符号データ
列を示す図である。FIG. 39 is a diagram showing a code data sequence used for describing the procedure shown in FIG. 38.
【図40】図39に示す符号データに対して、図38に
示す手順を実行した状態を示す図である。40 is a diagram showing a state in which the procedure shown in FIG. 38 has been performed on the code data shown in FIG. 39.
【図41】時間軸上に少なくとも一部が重複するよう
に、高域単位区間および低域単位区間をそれぞれ定義
し、各単位区間にそれぞれ異なる周波数を定義する符号
化方法の基本原理を示す図である。FIG. 41 is a diagram showing a basic principle of an encoding method in which a high-frequency unit section and a low-frequency unit section are respectively defined so that at least a part thereof overlaps on a time axis, and different frequencies are defined in each unit section. It is.
【図42】個々の変極点について、それぞれ高域固有周
波数と低域固有周波数との2通りの固有周波数を定義す
る方法を示す図である。FIG. 42 is a diagram showing a method of defining two types of natural frequencies, a high frequency natural frequency and a low frequency natural frequency, for each inflection point.
【図43】図42に示す個々の変極点について、高域固
有周波数と信号強度とを定義した状態を示す図である。FIG. 43 is a diagram showing a state in which a high-band natural frequency and a signal strength are defined for each inflection point shown in FIG. 42;
【図44】図42に示す個々の変極点について、低域固
有周波数と信号強度とを定義した状態を示す図である。FIG. 44 is a diagram showing a state where a low-band natural frequency and a signal strength are defined for each inflection point shown in FIG. 42;
【図45】同一の音響データに基いて低域符号データと
高域符号データとを生成する処理の概念図である。FIG. 45 is a conceptual diagram of processing for generating low-frequency code data and high-frequency code data based on the same acoustic data.
【図46】図45(e) に示す高域符号データを2つのト
ラックに分離して再配置した状態を示す図である。FIG. 46 is a diagram showing a state in which the high-frequency code data shown in FIG. 45 (e) is separated into two tracks and rearranged.
【図47】図45(d) に示す低域符号データおよび図4
6に示す高域符号データ1および2を別個のトラックに
分離し、単位区間延長処理を施した状態を示す図であ
る。FIG. 47 shows the low-frequency code data shown in FIG.
FIG. 7 is a diagram showing a state in which the high-frequency code data 1 and 2 shown in FIG. 6 are separated into separate tracks and subjected to unit section extension processing.
A,A1〜A6,Ai…代表強度 Ah(1)〜Ah(6)…高域代表強度 Al(1)〜Al(4)…低域代表強度 Amax …代表強度の最大値 a1〜a13…変極点の信号強度 aa…許容範囲 C1〜C12,C21〜C25…符号データ CC1〜CC12,CC21〜CC25,CCC1…延
長処理後の符号データ CC34,CC56,CC910,CCC13…統合処
理後の符号データ D…直流成分 d…オフセット量/単位区間の間隙 E0,E1,E2…空白区間 e1〜e6…終端位置 F,F1〜F6,Fi…代表周波数 Fh(1)〜Fh(6)…高域代表周波数 Fl(1)〜Fl(4)…低域代表周波数 f1〜f17…変極点の固有周波数 fh1〜fh13…変極点の高域固有周波数 fl1〜fl13…変極点の低域固有周波数 fa,fb,fc…周波数特性 ff…許容範囲 fs…サンプリング周波数 K1,K1−1,K1−2,K2…暫定区間 L,L1〜L4,Li…区間長 LL…許容レベル LLi…再生音の持続時間 Lmax …最大区間長 Lmin …最小区間長 Lth…区間長パラメータ N,N1,N2,N3,Ni…ノートナンバー P1〜P17…変極点 s1〜s6…始端位置 T,Ti…デルタタイム t1〜t17…時間軸上の位置 U1〜U7,Ui,Ui1,Ui2…単位区間 UU1〜UU6…延長処理後の単位区間 Uh(1)〜Uh(6)…高域単位区間 Ul(1)〜Ul(4)…低域単位区間 fV,Vi…ベロシティー x…サンプル番号 φ,φh,φl…周期A, A1 to A6, Ai: representative intensity Ah (1) to Ah (6): high range representative intensity Al (1) to Al (4): low range representative intensity Amax: maximum value of representative intensity a1 to a13: change Pole signal strength aa Allowable range C1 to C12, C21 to C25 Code data CC1 to CC12, CC21 to CC25, CCC1 Code data after extension processing CC34, CC56, CC910, CCC13 Code data after integration processing D ... DC component d: offset amount / gap between unit sections E0, E1, E2: blank section e1 to e6: terminal position F, F1 to F6, Fi: representative frequency Fh (1) to Fh (6): high-frequency representative frequency Fl (1) to Fl (4): low-frequency representative frequency f1 to f17: natural frequency of inflection point fh1 to fh13: high-frequency natural frequency of inflection point fl11 to fl13: low-frequency natural frequency of inflection point fa, fb, fc: frequency characteristics ff: allowable range fs: sampling frequency K1, K1-1, K1-2, K2: provisional section L, L1 to L4, Li: section length LL: allowable level LLi: reproduction sound continuation Time Lmax ... Maximum section length Lmin ... Minimum section length Lth ... Section length parameters N, N1, N2, N3, Ni ... Note numbers P1 to P17 ... Inflection points s1 to s6 ... Start position T, Ti ... Delta time t1 to t17 Positions on the time axis U1 to U7, Ui, Ui1, Ui2 ... unit sections UU1 to UU6 ... unit sections after extension processing Uh (1) to Uh (6) ... high frequency unit sections Ul (1) to Ul (4) … Low frequency unit section fV, Vi… Velocity x… Sample number φ, φh, φl… Period
Claims (9)
信号を符号化するための符号化方法であって、 符号化対象となる音響信号を、デジタルの音響データと
して取り込む入力段階と、 前記音響データの時間軸上に、複数の単位区間を設定す
る区間設定段階と、 個々の単位区間内の音響データに基づいて、個々の単位
区間を代表する所定の代表周波数および代表強度を定義
し、時間軸上での個々の単位区間の始端位置および終端
位置を示す情報と前記代表周波数および前記代表強度を
示す情報とを含む符号データを生成し、個々の単位区間
の音響データを個々の符号データによって表現する符号
化段階と、 を有し、前記符号化段階において、単位区間の長さを延
長する区間延長処理を行うことを特徴とする音響信号の
符号化方法。1. An encoding method for encoding an audio signal given as a time-series intensity signal, comprising: inputting an audio signal to be encoded as digital audio data; On the time axis, a section setting step of setting a plurality of unit sections, and based on sound data in each unit section, a predetermined representative frequency and a representative intensity representative of each unit section are defined, Generates code data including information indicating the start position and end position of each of the above unit sections and the information indicating the representative frequency and the representative intensity, and expresses the sound data of each unit section by the individual code data. An audio signal encoding method, comprising: performing an interval extension process to extend a length of a unit interval in the encoding step.
クを定義し、区間設定段階で設定された個々の単位区間
を複数のトラックに分離して再配置するトラック分離処
理を行い、各トラックごとにそれぞれ区間延長処理を行
うことを特徴とする音響信号の符号化方法。2. The encoding method according to claim 1, wherein in the encoding step, a plurality of tracks having a common time axis are defined, and each unit section set in the section setting step is converted to a plurality of tracks. A sound signal encoding method characterized by performing a track separation process for separating and rearranging, and performing a section extension process for each track.
配置された別な単位区間に対して、共通の時間軸上で少
なくとも一部分が重複するように、各トラックごとの区
間延長処理を行うことを特徴とする音響信号の符号化方
法。3. The encoding method according to claim 2, wherein at least a part of a unit section arranged on a certain track is different from another unit section arranged on another track on a common time axis. An audio signal encoding method characterized by performing section extension processing for each track so as to overlap.
方法において、 単位区間延長処理を行った後、互いに類似した符号デー
タをもつ単位区間が所定の基準間隔以下の間隔をおいて
存在していた場合に、これらの単位区間を1つの単位区
間に統合する区間統合処理を行い、統合前の個々の単位
区間の符号データに基いて、統合後の単位区間の符号デ
ータを決定するようにしたことを特徴とする音響信号の
符号化方法。4. The encoding method according to claim 1, wherein after performing unit interval extension processing, unit intervals having code data similar to each other are spaced at intervals equal to or less than a predetermined reference interval. If they exist, section integration processing for integrating these unit sections into one unit section is performed, and code data of the unit section after integration is determined based on code data of each unit section before integration. A method for encoding an audio signal, characterized in that:
タをもつ近接した単位区間を同一トラック上に再配置す
るようにしたことを特徴とする音響信号の符号化方法。5. The encoding method according to claim 2, wherein when performing track separation processing, adjacent unit sections having code data similar to each other are rearranged on the same track. Encoding method of the audio signal to be encoded.
方法において、 単位区間延長処理を行う際に、最大区間長Lmax と最小
区間長Lmin とを設定し、各区間を、隣接する区間に接
触するまで、最大でLmax まで延長する処理を行うとと
もに、区間長がLmin 未満の区間を削除する処理を行う
ことを特徴とする音響信号の符号化方法。6. The encoding method according to claim 1, wherein a maximum section length Lmax and a minimum section length Lmin are set when a unit section extension process is performed, and each section is set to an adjacent section. A method for encoding an acoustic signal, comprising: performing a process of extending a maximum length up to Lmax until a section is touched; and performing a process of deleting a section whose section length is less than Lmin.
方法において、 符号化段階で、代表周波数に基づいてノートナンバーを
定め、代表強度に基づいてベロシティーを定め、単位区
間の長さに基づいてデルタタイムを定め、1つの単位区
間の音響データを、ノートナンバー、ベロシティー、デ
ルタタイムで表現されるMIDI形式の符号データに変
換し、時間軸上で重複する単位区間に対しては異なるチ
ャンネルを割り当てることを特徴とする音響信号の符号
化方法。7. The encoding method according to claim 1, wherein in the encoding step, a note number is determined based on the representative frequency, a velocity is determined based on the representative intensity, and a length of the unit section is determined. The delta time is determined based on this, and the sound data of one unit section is converted into MIDI-format coded data represented by a note number, a velocity, and a delta time. Is an audio signal encoding method, wherein different channels are assigned.
方法を実行する音響信号の符号化のためのプログラムが
記録されたコンピュータ読み取り可能な記録媒体。8. A computer-readable recording medium on which a program for encoding an audio signal for executing the encoding method according to claim 1 is recorded.
方法により符号化された符号データが記録されたコンピ
ュータ読み取り可能な記録媒体。9. A computer-readable recording medium on which code data encoded by the encoding method according to claim 1 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9249636A JPH1173200A (en) | 1997-08-29 | 1997-08-29 | Acoustic signal encoding method and record medium readable by computer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9249636A JPH1173200A (en) | 1997-08-29 | 1997-08-29 | Acoustic signal encoding method and record medium readable by computer |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1173200A true JPH1173200A (en) | 1999-03-16 |
Family
ID=17195978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9249636A Pending JPH1173200A (en) | 1997-08-29 | 1997-08-29 | Acoustic signal encoding method and record medium readable by computer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1173200A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002153434A (en) * | 2000-11-17 | 2002-05-28 | Dainippon Printing Co Ltd | Time sequential signal analyzer |
JP2003058149A (en) * | 2001-08-10 | 2003-02-28 | Dainippon Printing Co Ltd | Frequency analyzing method and encoding method for sound signal |
JP2003108185A (en) * | 2001-09-28 | 2003-04-11 | Dainippon Printing Co Ltd | Time-series signal analyzing device |
JP2004334238A (en) * | 1996-11-20 | 2004-11-25 | Yamaha Corp | Sound signal analyzing device and method |
GB2408132A (en) * | 2003-11-08 | 2005-05-18 | Highlight Parking Systems Ltd | Parking Control System |
KR101276049B1 (en) * | 2012-01-25 | 2013-06-20 | 세종대학교산학협력단 | Apparatus and method for voice compressing using conditional split vector quantization |
-
1997
- 1997-08-29 JP JP9249636A patent/JPH1173200A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004334238A (en) * | 1996-11-20 | 2004-11-25 | Yamaha Corp | Sound signal analyzing device and method |
JP2002153434A (en) * | 2000-11-17 | 2002-05-28 | Dainippon Printing Co Ltd | Time sequential signal analyzer |
JP2003058149A (en) * | 2001-08-10 | 2003-02-28 | Dainippon Printing Co Ltd | Frequency analyzing method and encoding method for sound signal |
JP4662407B2 (en) * | 2001-08-10 | 2011-03-30 | 大日本印刷株式会社 | Frequency analysis method |
JP2003108185A (en) * | 2001-09-28 | 2003-04-11 | Dainippon Printing Co Ltd | Time-series signal analyzing device |
GB2408132A (en) * | 2003-11-08 | 2005-05-18 | Highlight Parking Systems Ltd | Parking Control System |
GB2408132B (en) * | 2003-11-08 | 2006-04-26 | Highlight Parking Systems Ltd | Parking indicator and/or control system |
KR101276049B1 (en) * | 2012-01-25 | 2013-06-20 | 세종대학교산학협력단 | Apparatus and method for voice compressing using conditional split vector quantization |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5808225A (en) | Compressing music into a digital format | |
US8093484B2 (en) | Methods, systems and computer program products for regenerating audio performances | |
CN112382257A (en) | Audio processing method, device, equipment and medium | |
WO2004051622A1 (en) | Musical composition data creation device and method | |
JP3776196B2 (en) | Audio signal encoding method and audio recording / reproducing apparatus | |
JP3795201B2 (en) | Acoustic signal encoding method and computer-readable recording medium | |
JPH1173200A (en) | Acoustic signal encoding method and record medium readable by computer | |
CN112216260A (en) | Electronic erhu system | |
JP4037542B2 (en) | Method for encoding an acoustic signal | |
JP3958841B2 (en) | Acoustic signal encoding method and computer-readable recording medium | |
JP4331289B2 (en) | Method for encoding an acoustic signal | |
JP4152502B2 (en) | Sound signal encoding device and code data editing device | |
JP2001005450A (en) | Method of encoding acoustic signal | |
JP2000293188A (en) | Chord real time recognizing method and storage medium | |
JP4220108B2 (en) | Acoustic signal coding system | |
JPH06149242A (en) | Automatic playing device | |
JP4473979B2 (en) | Acoustic signal encoding method and decoding method, and recording medium storing a program for executing the method | |
JP6047863B2 (en) | Method and apparatus for encoding acoustic signal | |
JP2003216147A (en) | Encoding method of acoustic signal | |
JP2002215142A (en) | Encoding method for acoustic signal | |
JP4156268B2 (en) | Frequency analysis method for time series signal and encoding method for acoustic signal | |
JP3788096B2 (en) | Waveform compression method and waveform generation method | |
JP6424907B2 (en) | Program for realizing performance information search method, performance information search method and performance information search apparatus | |
JP2003022096A (en) | Encoding method for sound signal | |
JP3935745B2 (en) | Method for encoding acoustic signal |