JP3620787B2 - Audio data encoding method - Google Patents
Audio data encoding method Download PDFInfo
- Publication number
- JP3620787B2 JP3620787B2 JP2000051801A JP2000051801A JP3620787B2 JP 3620787 B2 JP3620787 B2 JP 3620787B2 JP 2000051801 A JP2000051801 A JP 2000051801A JP 2000051801 A JP2000051801 A JP 2000051801A JP 3620787 B2 JP3620787 B2 JP 3620787B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- information
- audio data
- encoded
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000005236 sound signal Effects 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 abstract description 14
- 238000009826 distribution Methods 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 238000003860 storage Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、所定の音声信号に基づいて新たな音声データを生成するための音声データの符号化方法に関するものである。
【0002】
【従来の技術】
従来から、英会話等の語学の独習用、詩吟の練習用、法律の独習用、歌の練習、その他の目的のために、カセットテープ等の記録媒体に音楽とともに音声情報が記録された教材が種々提供されている。ここで、英会話の独習用の教材を例に説明すると、従来の主な記録媒体は、例えば一連の英語の発声(音声情報)が記録されてたカセットテープ(又はCD)であり、学習者はこのテープ教材とテキストとを組み合せて使用していた。なお、このような教材には、初級用から上級用まで種々のレベルが用意されている。
【0003】
また、日本国特許第2581700号には、複数の区画に区分された上級者学習用に適した音声情報列(ナチュラル・スピードの発生音を構成する各部の音)が記録された第1領域と、これら各区画に対応した等価な区画からなる初級者学習用に適した音声情報列(はっきりとした発生音を構成する各部の音であって、言語学上は同一の意味で派生の異なる音声)が記録された第2領域と、該上級者学習用及び初級者学習用の各音声情報列の対応する各区画の関係を、これら音声情報列の各区画の記録媒体における記録位置で示す情報が記録された第3領域とを、少なくとも備えたCD−ROM等の情報記録媒体、及びこのような構造を備えた情報記録媒体の対応する区画間での切替え再生等を含む再生方法が提案されている。
【0004】
【発明が解決しようとする課題】
上述のように、日本国特許第2581700号の情報記録媒体には、該媒体上の第1領域にネイティブスピーカーの発生音を構成する各部の音が記録され、また第2領域に言語上は同一の意味で遅緩した発音で構成された音声情報列が記録されている。したがって、第1領域に記録された音声情報列が再生されている最中に再生音を聞き取れなかった場合、第2領域に記録された同一内容の音声情報列(第1音声情報列の再生中の区画と第2音声情報列の再生すべき区画との対応は第3領域に記録されている)を切替えて再生することにより、学習者は聞き取れなかった音声を認知することができる。また、近年のパーソナル・コンピュータ等の情報処理機器の普及・高性能化を考慮すれば、制作時間の短縮や制作コストの削減のため、上記第1領域に記録される音声情報列から遅緩した第2領域に記録される音声情報列を生成することも不可能ではない。
【0005】
しかしながら、単にネイティブ・スピーカーの音声を時間軸に沿って均一に伸張させたのでは、利用者の聞き取り易さを損なってしまう。すなわち、主として日本人がナチュラル・スピードの英語を単にゆっくり再生して聴けるようにした場合であっても、各周波数成分について単純にかつ一様に音声再生時間を伸ばしたり短縮したのでは不充分であり、発生音を構成する各部の音、例えば子音部のスペクトルの時間変化が言語上の音として別の音を意味する可能性があるからである。例えば、BA(バ)とPA(パ)の発音は、前者のスペクトル変化が速く、後者は遅いだけでスペクトルそのものはほとんど同じ形をしており、BA(バ)という発音の子音部も含めて時間を伸長するとPA(パ)と聴こえることになる。
【0006】
一方、学習者のヒヤリング・レベルも、例えば上記第2領域に記録された音声再生速度でも十分に聞き取れない者、提供されたナチュラル・スピードでは満足できない者など様々であり、このように異なるヒヤリング・レベルの学習者を個々に満足させようとすると、各学習者のヒヤリング・レベルに応じた複数種類の音声情報を予め用意しなければならない。しかしながら、現状では学習者側で自分のヒヤリング・レベルに合った音声情報を選択できず、また、各学習者のヒヤリング・レベルに合った複数種類の音声情報を用意することは、CD等の記録媒体の記録容量に限界があるため現実的ではない。
【0007】
さらに、近年の情報通信技術の発達により、インターネット等のコンピュータ・ネットワークを利用したデータ配信も注目されている。このようなデータ配信を利用した音声情報の提供を考える場合、大量のデータを送信するにはまだまだ通信時間や通信コストの面で実用レベルに達しているとは言えない。
【0008】
この発明は上述のような課題を解決するためになされたもので、聞き取り易さを損なうことなく、利用者側で希望する再生速度の再生用音声データの復号化を可能にする音声データの符号化方法を提供することを目的としている。
【0009】
【課題を解決するための手段】
上述の課題を解決するため、この発明に係る音声データの符号化方法により生成されたデータは、音声信号から所定の規則に従って符号化された符号化音声データと、該符号化音声データの復号化の際に参照される復号化補助情報とを含む。以下、このデータを音声基礎データという。
【0010】
特に、上記復号化補助情報は、音声信号の波動に関する物理量、例えば周波数スペクトル情報などから特定された、少なくとも発生音を構成する各部の音の種類に関する情報を含む。これは、上述のような子音部の変化により異なる音に聞こえてしまう不具合を解消するためである。子音部の伸長度をBA(バ)と聴こえる限界に留め、母音部のみ望みの音声再生時間に伸長あるいは短縮するようにすれば、BA(バ)のままに聴こえることになる。母音部はいくら伸長あるいは短縮してもその母音のままで聴こえるから望みの長さ(望みの再生時間)に設定できる。
【0011】
一方、非英語圏の国民には弱すぎて聴き取りにくい音声や特定の周波数成分だけを選択的に2倍とか3倍に強調して聴かせることも語学学習等には必要である。母音部も含めて強調したのでは全体が大きくなり過ぎて効果がない。どうしても選択的に強調しなければならない。そこで、上記復号化補助情報は、強調すべき位置を指示するための強調位置識別情報を含むのが好ましい。また、この復号化補助情報は、復号化された音声データの周波数成分のうち、強調すべき周波数成分を個別に指示する情報を含むようにしてもよい。
【0012】
なお、上記符号化音声データを得るための符号化としては、異なる再生速度でも聞き取り易くするため、予め符号化対象の音声信号を周波数成分に分解し、該分割された周波数成分ごとにその振幅情報等をデータ化する特願平10−249672号記載の符号化が適している。また、符号化対象である音声信号は、ディジタル化された電気信号であり、その情報源としては、マイクを介して取り込まれたアナログ音声情報、磁気テープ等から読み出されたアナログ音声情報、MO、CD、ハードディスク等に記録されたディジタル音声情報のいずれであってもよい。ただし、アナログ音声情報の場合は、一旦A/D変換される必要がある。また、CD等に記録されたデータが圧縮符号化されている場合には、該圧縮データを伸張(解凍)する必要がある。
【0013】
近年普及し始めたインターネット等のコンピュータネットワーク、ケーブルTVネットワーク、衛生通信などの分野に着目すると、文字データ、音声データ、静止画データ、動画データなどのマルチメディアによる情報提供サービスも広く行われるようになってきており、このような情報通信技術を利用した情報提供サービスの1つとして、この発明を適用させるためには、画像データの表示タイミングの調節が不可欠となる。そこで、上述のようなデータ構造を備えた音声基礎データに、所定の表示手段に表示されるべき画像データの表示タイミングを指示する情報を含めることにより、音声データの再生動作に同期させた画像表示(特に、動画表示)が可能になる。
【0014】
そこで、この発明に係る音声データの符号化方法は、上記符号化音声データを生成する第1行程と、上記復号化補助情報を特定する第2行程と、該符号化音声データに復号化補助情報を付加する第3行程とを備える。上記第1行程では、例えば特願平10−249672号に記載された符号化技術のように、所定の規則に従って音声信号の符号化が行われる。上記第2行程では、符号化音声データの復号化の際に参照される復号化補助情報として、音声信号の波動に関する物理量(例えば周波数スペクトル情報)から少なくとも発生音を構成する各部の音の種類に関する情報が特定される。なお、上記第1及び第2行程は並行して実施することも可能である。
【0015】
以上のように生成された音声基礎データ(符号化音声データを含む)を利用することにより、音声データの復号化において、指定された再生速度情報に基づいた発生音を構成する各部の音ごとに調節された各学習者のヒヤリング・レベルに合った再生用音声データの復号化が可能になる。このように復号化された再生用音声データを再生することにより、学習者は自己の指定した速度に調節された再生音声を聴くことができる。すなわち、音声データの再生は、上述のように生成された音声基礎データから復号化補助情報を抽出する第1行程と、抽出された抽出された復号化補助情報に含まれる少なくとも発生音を構成する各部の音に関する情報を参照しながら、発生音を構成する各部の音ごとに再生速度を決定する第2行程と、決定された再生速度に相当するよう符号化音声データの該当部分に対して伸張処理(弛緩した音声の再生のため)短縮処理(より早い音声の再生のため)を施しながら、該符号化音声データを復号化する第3行程とを備える。
【0016】
なお、当該符号化方法は、聞き取り易さを損なうことなく、再生速度の異なる複数種類の再生用音声データが用意できるため、生成された再生速度の異なる再生用音声データ間での切り替え再生を行いながらの学習も可能になる。また、上記発生音を構成する各部の音には、音声スペクトルにおける母音部、該母音部の前後に現れる子音部、該母音部と子音部との間に現れる移行部、音声の切れ目(ポーズ)などが含まれる。
【0017】
加えて、上述のように生成された音声基礎データの提供は、一旦CD等の記録媒体に記録された形態で利用者に提供される場合と、情報通信手段を介して利用者に提供される場合が考えられる。情報通信技術を利用する場合でも音声基礎データの取り扱いはハードディスク等への一時記録が不可欠であり、この音声基礎データの記録では、聞き取り易さを損なうことなく、利用者側で再生速度が変更された再生用音声データの復号化が可能になるよう、符号化音声データとともに復号化補助情報が所定の記録媒体に記録される。なお、この記録媒体において、符号化音声データが記録される領域と復号化補助情報が記録される領域は、異なっていてもよい。
【0018】
上述のように生成された音声基礎データを有線又は無線の情報伝達手段を介して通信相手に送信するデータ配信方法としては、音声信号から所定の規則に従って符号化された符号化音声データと、該符号化音声データの復号化の際に参照される情報であって、音声信号の波動に関する物理量から少なくとも発生音を構成する各部の音の種類に関する情報を含む復号化補助情報とを、通信相手に送信する。なお、この配信方法では、送信される符号化音声データと復号化補助情報とを別個に通信相手に送信する構成であってもよい。
【0019】
加えて、上述のように生成された音声基礎データの再生動作を文字データ、画像データ(静止画と動画)などのマルチメディア再生に対応させる場合、特に動画再生と、再生速度が自由に変更された音声の再生との同期をとることが重要である。すなわち、動画は例えば1秒間に20フレーム程度の画像データをディスプレイに順次表示していくが、音声の再生動作との表示タイミングとの同期がとれていないと不自然な表示動作になってしまう。
【0020】
そこで、この再生では、1又はそれ以上の画像データを一旦メモリ上に展開し、該メモリ上に格納された画像データのうち1フレーム分の画像データを、音声データの再生動作に同期して、順次所定の表示手段に表示するのが好ましい。
【0021】
具体的な再生方法としては、メモリに格納される複数の画像データのうち1フレーム分又はそのN倍(正の有理数)の画像データの基準書き換え周期をTv、音声のディジタル化サンプリング周期に基づいて決定された基準再生時間周期をTa、そして、指示された再生速度情報に基づいて発生音を構成する各部の音ごとに決定された再生時間周期をTa´(>Ta)とするとき、所定タイミングでの画像データ書き換え動作の終了時点からTv×((Ta´/Ta)−1)まで、次回の画像データ書き換え動作を休止させる。
【0022】
なお、画像データの表示タイミングの調節は、音声のディジタル化サンプリング周期に基づいて決定された基準再生時間周期をTa、そして、指示された再生速度情報に基づいて発生音を構成する各部の音ごとに決定された再生時間周期をTa´(>Ta)とするとき、メモリに格納される画像データの平均書き換え周波数を、予め指定された書き換え周波数の(Ta´/Ta)倍に設定するようにしても、音声データの再生動作に同期した画像表示が可能になる。
【0023】
【発明の実施の形態】
以下、この発明の各実施形態を図1〜図13を用いて説明する。なお、図面の説明において同一部分には同一符号を付して重複する説明は省略する。
【0024】
この発明により生成される音声基礎データは、再生時の聞き取り易さを損なうことなく、利用者が自由に設定した再生速度の再生用音声データの復号化を、該利用者側で行うことを可能にする。このような音声基礎データの利用形態は、近年のディジタル技術の発達やデータ通信環境の整備により種々の態様が考えられる。図1は、この発明に係る音声データの符号化方法により生成された音声基礎データがどのように産業上利用されるかを説明するための概念図である。
【0025】
図1(a)に示されたように、音声データの符号化に利用される情報源10としては、例えばマイクを介して直接取り込まれたり、既に磁気テープなどに記録されたアナログ音声情報、さらにはMO、CD(DVDを含む)、H/D(ハードディスク)等に記録されているディジタル音声情報が利用可能であり、具体的には、市販されている教材やテレビ局、ラジオ局などから提供される音声情報などでも利用可能である。編集者100は、このような情報源10を利用して音声データ生成装置200により、音声データが符号化される。なお、この際、現状のデータ提供方法を考えると、生成された音声基礎データはCD(DVDを含む)、H/Dなどの記録媒体20に一旦記録された状態で利用者に提供される場合が多い。また、これらCDやH/Dには当該音声基礎データとともに関連する画像データが記録される場合も十分に考えられる。
【0026】
上記音声データ生成装置200により生成される音声基礎データは、上記情報源10から取り出されたディジタル音声信号から所定の規則に従って符号化された符号化音声データと、この符号化音声データの復号化の際に参照される情報であって、該音声信号の波動に関する物理量から特定された、少なくとも発生音を構成する各部の音の種類に関する情報を含む復号化補助情報とを備えたデータである。なお、符号化音声データを得るための符号化としては、例えば、異なる再生速度でも聞き取り易くするため、予め符号化対象の音声信号を周波数成分に分解し、該分割された周波数成分ごとにその振幅情報等をデータ化する特願平10−249672号記載の符号化が利用可能である。生成された符号化音声データ及び復号化補助情報は、音声データ生成装置200により、記録媒体20に格納される。これにより、CD、DVD、H/D等の記録媒体には上述の符号化音声データ、復号化補助情報とともに画像データ、文字データなどのマルチメディアが記録される。
【0027】
特に、記録媒体20としてのCDやDVDは、雑誌の付録として利用者に提供されたり、コンピュータ・ソフト、音楽CDなどと同様に店舗にて販売されるのが一般的である(市場での流通)。また、生成された音声基礎データはサーバ300から有線、無線を問わず、インターネット、衛生通信などの情報通信手段を介して利用者に配信される場合も十分に考えられる。
【0028】
データ配信の場合、上記音声データ生成装置200により生成された音声基礎データは、サーバ300の記憶装置310(例えばH/D)に画像データなどとともに一旦蓄積される。そして、H/D310に一旦蓄積された音声基礎データは、送受信装置320(図中のI/O)を介して利用者端末400に送信される。利用者端末400側では、送受信装置450を介して受信された音声基礎データが一旦H/D(外部記憶装置30に含まれる)に格納される。一方、CDやDVD等を利用したデータ提供では、利用者が購入したCDを端末装置400のCDドライブやDVDドライブに装着することにより該端末装置の外部記録装置30として利用される。
【0029】
通常、利用者側の端末装置400には入力装置460、CRT、液晶などのディスプレイ470、スピーカー480が装備されており、外部記憶装置300に画像データなどとともに記録されている音声基礎データは、当該端末装置400の復号化部410(ソフトウエアによっても実現可能)によって、利用者自身が指示した再生速度の音声データに一旦復号化された後、スピーカー480がら出力される。一方、外部記憶装置300に格納された画像データは一旦VRAM432に展開された後にディスプレイ470に各フレームごと表示される(ビットマップ・ディスプレイ)。なお、復号化部410により復号化された再生用音声データを上記外部記憶装置30内に順次蓄積することにより、該外部記憶装置30内には再生速度の異なる複数種類の再生用音声データを用意すれば、日本国特許第2581700号に記載された技術を利用して再生速度の異なる複数種類の音声データ間の切り替え再生が利用者側で可能になる。
【0030】
利用者は、図1(b)に示されたように、ディスプレイ470上に関連する画像471を表示させながらスピーカー480から出力される音声を聴くことになる。この際、音声のみ再生速度が変更されていたのでは、画像の表示タイミングがずれてしまう可能性がある。そこで、復号化部410が画像データの表示タイミングを制御できるよう、上記音声データ生成装置200において生成される符号化音声データに画像表示タイミングを指示する情報を予め付加しておくのが好ましい。
【0031】
次に、図1(a)に示された音声データ生成装置200及び音声データ再生装置(端末装置400)の詳細な構造を図2を用いて説明する。なお、図2(a)は、音声データ生成装置200の構成を示す図であり、図2(b)は、音声データ再生装置としての端末装置400の構成を示す図である。
【0032】
図2(a)に示されたように、音声データ生成装置200に取り込まれる音声信号は情報源10から提供される。なお、この情報源10から提供される音声情報のうち、マイクから取り込まれる音声情報及び磁気テープからの音声情報は、ともにアナログ音声データであるため、当該音声データ生成装置200へ入力される前にA/Dコンバータ11(I/O12に含まれる)によりPCMデータに変換される。また、MO、CD(DVD含む)、H/Dに既に格納された音声情報は、PCMデータとしてI/O12を介して当該音声データ生成装置200に取り込まれる。取り込まれた音声データが圧縮されている場合には、一旦ソフトウエア等の解凍しておく必要がある。
【0033】
音声データ生成装置200は、上述のように前処理された情報源10からの音声信号(電気信号)から所定の規則に従って符号化された符号化音声データを生成する符号化部210と、この符号化音声データの復号化の際に参照される復号化補助情報として、音声信号の波動に関する物理量(例えば周波数スペクトル情報)から少なくとも発生音を構成する各部の音の種類に関する情報を特定する解析部250と、符号化部210により符号化された符号化音声データに、解析部250により特定された復号化補助情報を付加する合成部260とを備える。この合成部260から出力された符号化音声データと復号化補助情報は、CD、DVD、H/D等の記録媒体20に記録される。なお、上記符号化音声データと復号化補助情報は、記録媒体20内の異なる領域にそれぞれ記録されてもよい。
【0034】
一方、利用者側では、図2(b)に示されたように、データ配信やCD等の形態で提供された音声基礎データが端末装置400の外部記憶装置30内に格納される。復号化部410は、キーボードや、マウス等のポインティング・デバイスなどの入力手段460を介して入力された利用者の指示内容に従って、外部記憶装置30からI/O31を介して読み出されたディジタルデータを所定の速度で再生可能な再生用音声データとして復号化するとともに、画像同期信号Dも出力する。復号化された再生用音声データはアナログデータに変換された後、スピーカー480から音声として出力される。
【0035】
なお、上記復号化部410は、外部記憶装置30からI/O31を介して読み出された音声基礎データを読み込み、この読み出された音声基礎データから、符号化音声データの復号化の際に参照される復号化補助情報を抽出するとともに、抽出された復号化補助情報に含まれる少なくとも発生音を構成する各部の音に関する情報を参照しながら上記符号化音声データに含まれる該発生音を構成する各部の音ごとに音声再生に適した再生速度を、利用者が指定した再生速度情報を基準にして決定する。この復号化部410における符号化音声データの復号化は、該符号化音声データに含まれる発生音を構成する各部の音ごとに、上述のように決定された再生速度に相当するよう該符号化音声データの該当部分に対して伸長処理又は短縮処理を施しながら行われる。
【0036】
図3は、上述の音声データ生成装置200における符号化部210の構造を示す図である。符号化部210は、まず、マイク等により、例えば音楽CDの音響クロック44.1KHzでサンプリングされたネイティブ・スピーカーのナチュラル・スピードの音声に相当する音声信号を取り込む。この取り込まれた音声信号は、一旦、各チャネルCH#1〜CH#85(周波数成分)に分割するためフィルタリングされる。なお、取り込まれた音声信号の周波数範囲は75Hz〜10,000Hz、また、サンプリング周波数は音楽CDの音響クロックに合わせて44.1kHz(22.68μs)である。分割するチャネル数は85(7オクターブ+1音)とし、各チャネル#1〜#85の中心周波数(中心f)は平均律(1オクターブ当り12平均律とする)の半音列になるように設定される(77.78Hz(D#)〜9,960Hz(D#))。
【0037】
以上のように各チャネル#1〜#85にそれぞれ分割されたデータは、その振幅情報が2.268msごと(44.1kHzサンプリングの100データに相当、ただし100データで1波形が形成できない場合にはデータ数を増やす)に抽出される。したがって、この実施形態では、各チャネル#1〜#85における振幅情報のサンプリングレート(第2周期)は441サンプル/s(2.268ms)である。なお、サンプリングレートは、規則性のある周期であればよく、例えば100データ分取り込んだ次に、120データ分取り込んで処理するなど、これら異なるレートで交互に処理を繰り返すような実施形態であってもよい。
【0038】
符号化部210は、2.268msごとにサンプリングされた各チャネル#1〜#85の振幅情報をそれぞれ1バイト(8ビット)で表現し、85バイト(85チャネル×1バイト)の符号化音声データa1,a2,a3,…,anを生成する。なお、符号化音声データa1,a2,a3,…,anには、該符号化音声データに相当する音声の再生時に表示される動画像との表示タイミングを制御するため、画像同期信号D(1バイト)が付加される。
【0039】
一方、図3に示された音声データ生成装置200の解析部250は、上記符号化部210において生成された符号化音声データの復号化の際に参照される復号化補助情報を特定する。
【0040】
復号化補助情報には、取り込まれた音声信号のスペクトル情報から発生音を構成する各部の音や、強調すべき部位を示す強調位置識別情報、強調すべき周波数成分等が含まれる。
【0041】
例えば、この実施形態において、発生音を構成する各部の音は、図4に示されたように、母音部(V)と、この母音部(V)を挟んで前後に現れる子音部(図中、前子音部がCF、後子音部がCRで示されている)と、母音部(V)と前後の各子音部CF、CRとの間に現れる移行部(図中、前移行部がTF、後移行部がTRで示されている)と、各音声の間に現れる無音期間を示すポーズ(P)とに分類される。なお、ポーズ(P)は、再生音声の遅延の際に他の発生音を構成する各部の音と同様に延伸されたのでは、利用者の聞き取り易さを損なう可能性がある。そこで、この実施形態においてポーズ(P)は、音節の間で発生することを示す場合(P1)と、句間で発生する場合(P2)と、文間で発生する場合(P3)とにさらに分類され、それぞれ特定すべき発生音を構成する各部の音に含められている。
【0042】
上記復号化補助情報s1,s2,s3,…,snおのおのは、符号化音声データa1,a2,a3,…,anのサンプリング間隔ごとに用意されるデータ列であって、上記発生音を構成する各部の音に関する情報として3ビット、強調位置識別情報として1ビットの計4ビット程度のデータである。また、この復号化補助情報には、非英語圏の民族には第3フォルマントのように聞き取りにくい周波数があるため、強調すべき周波数帯(特に中心周波数)の指定情報が個別に含まれてもよい。
【0043】
合成部260は、以上のように符号化部210により生成された符号化音声データa1,a2,a3,…,anに、解析部250により特定された復号化補助情報s1,s2,s3,…,snを付加し、記録媒体20にそれぞれを書き込む。なお、合成部260により生成された合成データは、図5(a)〜図5(c)に示されたような種々の論理構造を備えることが可能である。例えば、図5(a)に示されたように、生成された合成データは、符号化音声データa1,a2,a3,…,anの各データごとに対応する復号化補助情報s1,s2,s3,…,snが付加された構造であってもよい。また、図5(b)に示されたように、生成された合成データは、符号化音声データa1,a2,a3,…,anと復号化補助情報s1,s2,s3,…,snとがそれぞれ異なるグループのデータとして取り扱われる構造であってもよい。さらに、図5(c)に示されたように、生成された合成データは、符号化音声データa1,a2,a3,…,anを構成する複数のグループと、復号化補助情報s1,s2,s3,…,snの対応する複数のグループとの対により構成されてもよい。
【0044】
次に、音声データの復号化及び再生を行う利用者側の端末装置400の構造について説明する。
【0045】
図6は、端末装置400の復号化部410の構造を示す図であり、図7は、図6に示された符号化部410におけるPCMデータ生成部415の構造を示す図である。
【0046】
図6に示されたように、外部記憶装置30からI/O31を介して音声基礎データが復号化部410に取り込まれる。なお、外部記憶装置30に格納された音声基礎データは、コンピュータ・ネットワークや衛星などの情報通信手段を介して配信されたり、利用者が購入したCD等に格納されているデータであり、その他画像データも該外部記憶装置30内には記録されている。また、外部記憶装置30内に格納された音声基礎データが圧縮されている場合には、ソフトウエア等によるデータ伸長が復号化の前処理として行われる。
【0047】
復号化部410では、まず抽出部411が、外部記憶装置30から読み出された音声基礎データから復号化補助情報s1,s2,s3,…,snを抽出する。抽出された復号化補助情報s1,s2,s3,…,snのうち、発生音を構成する各部の音に関する情報(V、CF、CR、TF、TR、P1、P2、P3)は、入力手段460から入力された利用者からの指示情報とともに時間係数生成部412に入力される。また、抽出された復号化補助情報s12,s2,s3,…,snのうち、強調位置識別情報は、入力処理手段460から入力された利用者の指示情報とともに振幅強調係数生成部412に入力される。さらに、抽出された復号化補助情報s12,s2,s3,…,snのうち、強調すべき周波数成分(中心CH)に関する情報は、入力処理手段460から入力された利用者の指示情報とともに強調バンドデータ生成部414に入力される。
【0048】
また、この実施形態では、入力手段460から入力される利用者の再生速度指示情報としては、図8の表に示されたように、複数の再生レベルH3〜S6が用意されている。図8の表からも分かるように、この実施形態では、再生レベルNを標準の再生速度(ナチュラル・スピード)とし、H3に向かうほど再生速度を早く、逆にS6に向かうほど再生速度を遅くするように、該ナチュラル・スピードを基準とした再生時間の比及び再生速度の倍率で指示される。
【0049】
上記時間係数生成部411は、図9に示されたような、再生レベル(利用者が指示)と発生音を構成する各部の音の種類との関係によって決定される再生速度倍率が予め設定された表を備えており、この表に基づいて、再生速度倍率をPCMデータ生成部415に出力する。
【0050】
上記振幅強調係数生成部412は、図10に示されたような2種類の表を備える。図10(a)は、抽出部411によって抽出された復号化補助情報s1,s2,s3,…,snに強調位置識別情報が含まれていない場合(強調指示がない場合)に適用される表であり、図10(b)は、復号化補助情報s1,s2,s3,…,snに強調位置識別情報が含まれている場合(強調指示がない場合)に適用される表である。なお、これらの表に示されたパラメータは、抽出部411において復号化補助情報と分離された符号化音声データの各周波数成分の振幅を基準とした倍率を意味する。
【0051】
上記強調バンドデータ生成部414は、復号化補助情報s1,s2,s3,…,snに強調すべき周波数帯(中心CHで指定)の指示情報が含まれている場合、図11(a)に示されたように、中心CHに隣接する低周波数成分側5CH及び高周波数成分側5CHの合計11CHについて、各周波数成分の振幅を変更するパラメータを生成する。なお、強調バンドデータ生成部414は、図11(b)に示されたように、再生レベルに応じた中心CHの振幅倍率が予め設定された表を備えており、中心CHの振幅倍率は、入力手段460から入力された再生速度指示情報に従って決定される。また、中心CHに隣接する各CHの振幅倍率は、この中心CHの振幅倍率を基準にして、図11(a)のように直線近似できるようにそれぞれ設定され、PCMデータ生成部415に出力される。
【0052】
PCMデータ生成部415は、図7に示されたように、各チャネルに相当する周波数成分を発生させる正弦波ジェネレータ422を備える。制御部421は、抽出部411からの符号化音声データから各周波数成分の振幅情報と強調バンドデータ生成部414からの振幅倍率データに基づいて新たに振幅係数を生成し、この生成された振幅係数を乗算器423において正弦波ジェネレータ422からのデータ(基準振幅を示す)に乗算させる。そして、得られた各周波数成分のデータが加算器424で加算させることにより復号化されたPCMデータが得られる。さらに、制御部421は、時間係数生成部412からの再生速度倍率データに基づいて、該各符号化音声データa1,a2,a3,…,anの出力回数を調節することにより、復号化される音声データの間延びや短縮を行う。このとき、各符号化音声データa1,a2,a3,…,anごとに出力される画像同期信号Dの出力回数も同時に調節されることとなるため、音声データの再生側において画像の表示タイミング制御が可能になる。
【0053】
以上のようにPCMデータ生成部415において復号化されたデータは、利用者の再生速度指示情報に従って時間軸に沿って調節された復号化データとなる。このPCMデータ生成部415で復号化されたデータは、図10(a)あるいは図10(b)のいずれかの表から振幅強調係数生成部412が決定した倍率パラメータと乗算器416において乗算される。これにより、再生用音声データが得られる。得られた再生用音声データはD/A変換器417によりアナログデータに変換され、利用者が指示した再生速度の音声としてスピーカー480から出力される。
【0054】
一方、端末装置400では外部記憶装置30から読み出された画像データの表示も可能である。図12は、ビットマップ・ディスプレイの構造を示す図である。
【0055】
ビットマップ・ディスプレイは、1又はそれ以上のフレームを格納するメモリ432(VRAM)を備えており、描画部431が、外部記憶装置30からI/O32を介して読み出された画像データ(圧縮されている場合にはソフトウエア等32によりデータ伸長される)をこれらメモリ432に書き込んでいく。メモリ432に書き込まれた画像データは1フレームごとにスイッチS/W433を介してディスプレイ470に表示される。なお、これら描画部431の書き込みタイミング及びS/W433の切り替えタイミングはタイミングコントローラ434により行われる。
【0056】
音声再生と画像表示とのタイミングは、この実施形態では図13(a)に示されたようにPCMデータ生成部415から出力された画像同期信号Dをカウントすることにより行われる。すなわち、ナチュラル・スピードでの音声再生の場合、例えば、3クロックごとにメモリ432のデータ書き換えを行うことにしておけば、図13(b)に示されたように、PCMデータ生成部415が再生速度の遅い再生用音声データを生成する場合にも、該音声データの遅延タイミングに合ったデータ書き換えが可能になる(画像の表示タイミングを音声再生のタイミングに一致させることが可能になる)。
【0057】
すなわち、この実施形態では、メモリ432に格納される複数の画像データのうち1フレーム分又はそのN倍(正の有理数であって、Nは1/2や2/3であってもよい)の画像データの基準書き換え周期をTv、音声のディジタル化サンプリング周期(例えば、音楽CDの音響クロック)に基づいて決定された基準再生時間周期をTa、そして、指示された再生速度情報に基づいて発生音を構成する各部の音ごとに決定された再生時間周期をTa´(>Ta)とするとき、所定タイミングでの画像データ書き換え動作の終了時点からTv×((Ta´/Ta)−1)まで、次回の画像データ書き換え動作を休止させることを特徴としている。
【0058】
なお、音声再生と画像表示とのタイミング調整は、上述の実施形態に限定されるものではない。例えば、音声のディジタル化サンプリング周期に基づいて決定された基準再生時間周期をTa、そして、指示された再生速度情報に基づいて発生音を構成する各部の音ごとに決定された再生時間周期をTa´(>Ta)とするとき、上記メモリ432に格納される画像データの平均書き換え周波数は、予め指定された書き換え周期の(Ta´/Ta)倍に設定されてもよい。
【0059】
【発明の効果】
以上のようにこの発明によれば、マイク等から取り込まれたり、過去に蓄積された音声信号から所定の規則に従って符号化した符号化音声データと、該符号化音声データの復号化の際に参照される発生音を構成する各部の音の種類等を含む復号化補助情報とにより音声基礎データが得られる。このような音声基礎データを所定の記録媒体や配信方法により利用者に提供することにより、利用者側では任意に設定された速度の異なる複数種類の再生用音声データを復号化することができる。これにより、データ提供者から利用者へ提供すべき音声基礎データのデータ量を低減することができ、記録媒体の記録量の節約や、データ配信時間の短縮が実現される。
【0060】
さらに、上記符号化音声データに復号化補助情報とともに画像同期信号を付加することにより、復号化された再生用音声データの再生速度に合った画像再生も可能になる。
【図面の簡単な説明】
【図1】この発明の各実施形態を概念的に説明するための図である。
【図2】(a)は、この発明に係る音声データの符号化方法を実現する音声データ生成装置の概略構成を示すブロック図であり、(b)は、生成された音声基礎データから音声再生を実現する音声データ再生装置の概略構成を示すブロック図である。
【図3】図2(a)に示された音声データ生成装置における符号化部の構成を示すブロック図である。
【図4】符号化音声データの復号化に必要な復号化補助情報の一部を概念的に説明するための図である。
【図5】この発明に係る音声データの符号化方法により得られた符号化データを概念的に説明するための図である。
【図6】音声データ再生装置(端末装置)の構成を示すブロック図である。
【図7】図6に示された音声データ再生装置におけるPCMデータ生成部の構成を示すブロック図である。
【図8】再生レベルごとに設定された、ナチュラル・スピードの再生レベルを基準とした再生時間の比率及び再生速度の倍率の一例を示す表である。
【図9】図6に示された時間係数生成部において参照される表であって、発生音を構成する各部の音の種類ごとに設定された再生速度の一例を、ナチュラル・スピードの再生レベルを基準とした倍率で示した表である。
【図10】図6に示された振幅強調係数生成部において参照される表であって、発生音を構成する各部の音の種類ごとに設定される振幅の一例を、ナチュラル・スピードの再生レベルを基準とした倍率で示した表である。
【図11】(a)は、図6に示された強調バンドデータ生成部において参照される表であって、指示された周波数バンドデータの編集動作を説明するための図であり、(b)は、指示された周波数バンド(中心CH)の振幅を、ナチュラル・スピードの再生レベルを基準とした倍率で示した表である。
【図12】図6に示された音声データ再生装置(端末装置)による音声再生に同期して画像データを表示する表示装置の構成を示す図である。
【図13】音声再生動作に同期した画像表示タイミングを説明するためのタイムチャートである。
【符号の説明】
10…情報源、20、30、310…記録媒体、200…音声データ生成装置、210…符号化部、250…解析部、260…合成部、400…端末装置(PC)、410…復号化部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio data encoding method for generating new audio data based on a predetermined audio signal.
[0002]
[Prior art]
Various teaching materials with audio information recorded on a recording medium such as cassette tape for self-study of English conversation and other languages, poetry practice, law self-study, song practice, and other purposes. Is provided. Here, taking a self-study material for English conversation as an example, a conventional main recording medium is, for example, a cassette tape (or CD) on which a series of English utterances (voice information) is recorded. This tape material and text were used in combination. There are various levels of such teaching materials from beginner to advanced.
[0003]
Japanese Patent No. 2581700 includes a first area in which a voice information sequence (sounds of each part constituting a natural speed generated sound) suitable for advanced learning divided into a plurality of sections is recorded; , A speech information sequence suitable for beginners' learning composed of equivalent sections corresponding to these sections (sounds of each part constituting a clear generated sound, and differently derived sounds having the same meaning in linguistics) ) Is recorded, and information indicating the relationship between the corresponding sections of the speech information strings for the advanced learner and beginner learner in terms of recording positions on the recording medium of the sections of these speech information strings A recording method including at least an information recording medium such as a CD-ROM provided with a third area in which information is recorded and a switching reproduction between corresponding sections of the information recording medium having such a structure is proposed. ing.
[0004]
[Problems to be solved by the invention]
As described above, in the information recording medium of Japanese Patent No. 2581700, the sound of each part constituting the sound generated by the native speaker is recorded in the first area on the medium, and the same in terms of language in the second area. In this sense, a voice information sequence composed of slow pronunciations is recorded. Therefore, if the reproduced sound cannot be heard while the audio information sequence recorded in the first area is being reproduced, the audio information sequence having the same content recorded in the second area (during the reproduction of the first audio information sequence) The correspondence between the section and the section to be reproduced in the second audio information sequence is recorded in the third area), and the learner can recognize the voice that could not be heard. Also, considering the recent spread and high performance of information processing equipment such as personal computers, it was delayed from the audio information sequence recorded in the first area in order to shorten production time and production cost. It is not impossible to generate a voice information sequence recorded in the second area.
[0005]
However, if the voice of the native speaker is simply stretched along the time axis, the user's ease of listening is impaired. In other words, even if the Japanese are mainly able to listen to natural speed English by slowly playing it, it is not sufficient to simply extend or shorten the audio playback time for each frequency component. There is a possibility that a time change in the spectrum of each part constituting the generated sound, for example, the consonant part, may mean another sound as a linguistic sound. For example, the pronunciation of BA (pa) and PA (pa) are fast in the former spectrum change, the latter is slow, the spectrum itself is almost the same shape, including the consonant part of the pronunciation BA (ba). If you extend the time, you will hear PA.
[0006]
On the other hand, the hearing level of the learner also varies, for example, those who cannot be sufficiently heard even at the audio playback speed recorded in the second area, those who are not satisfied with the provided natural speed, etc. In order to satisfy each level of learners individually, it is necessary to prepare a plurality of types of audio information according to the hearing level of each learner. However, at present, the learner cannot select sound information suitable for his / her hearing level, and preparing multiple types of sound information suitable for each learner's hearing level is a record of a CD or the like. It is not realistic because the recording capacity of the medium is limited.
[0007]
Furthermore, with the recent development of information communication technology, data distribution using a computer network such as the Internet has attracted attention. When considering provision of voice information using such data distribution, it cannot be said that it has reached a practical level in terms of communication time and communication cost to transmit a large amount of data.
[0008]
The present invention has been made to solve the above-described problems, and is a code of audio data that enables decoding of audio data for reproduction at a reproduction speed desired by the user without impairing ease of listening. The purpose is to provide a conversion method.
[0009]
[Means for Solving the Problems]
In order to solve the above-described problems, data generated by the audio data encoding method according to the present invention includes encoded audio data encoded according to a predetermined rule from an audio signal, and decoding of the encoded audio data. And auxiliary decoding information to be referred to at the time. Hereinafter, this data is referred to as voice basic data.
[0010]
In particular, the decoding auxiliary information includes at least information regarding the type of sound of each part constituting the generated sound, which is specified from a physical quantity related to the wave of the audio signal, for example, frequency spectrum information. This is in order to eliminate the above-described problem that a different sound is heard due to a change in the consonant part. If the degree of expansion of the consonant part is kept at the limit where it can be heard as BA, and only the vowel part is extended or shortened to the desired voice reproduction time, it can be heard as BA. The vowel part can be set to the desired length (desired playback time) because it can be heard as it is, no matter how much it is expanded or shortened.
[0011]
On the other hand, it is also necessary for language learning, etc. that only non-English-speaking people are able to listen to voices that are too weak to hear and specific frequency components that are selectively emphasized twice or three times. The emphasis including the vowel part is too large to be effective. It must be emphasized selectively. Therefore, the decoding auxiliary information preferably includes emphasized position identification information for indicating a position to be emphasized. Further, this decoding auxiliary information may include information for individually indicating frequency components to be emphasized among the frequency components of the decoded audio data.
[0012]
Note that the encoding for obtaining the encoded audio data is performed by decomposing the audio signal to be encoded into frequency components in advance and making the amplitude information for each of the divided frequency components in order to make it easy to hear even at different playback speeds. The encoding described in Japanese Patent Application No. 10-249672, which converts the above into data, is suitable. The audio signal to be encoded is a digitized electric signal, and as its information source, analog audio information captured via a microphone, analog audio information read from a magnetic tape, etc., MO Any of digital audio information recorded on a CD, hard disk or the like may be used. However, in the case of analog audio information, A / D conversion needs to be performed once. In addition, when data recorded on a CD or the like is compression-encoded, it is necessary to decompress (decompress) the compressed data.
[0013]
Focusing on the fields of computer networks such as the Internet, cable TV networks, and sanitary communications, which have begun to spread in recent years, multimedia information provision services such as character data, audio data, still image data, and moving image data are widely performed. In order to apply the present invention as one of information providing services using such information communication technology, it is indispensable to adjust the display timing of image data. Therefore, by displaying information indicating the display timing of the image data to be displayed on the predetermined display means in the sound basic data having the data structure as described above, the image display synchronized with the reproduction operation of the sound data (In particular, moving image display) is possible.
[0014]
Therefore, the audio data encoding method according to the present invention includes a first step of generating the encoded audio data, a second step of specifying the decoding auxiliary information, and decoding auxiliary information in the encoded audio data. And a third step of adding. In the first step, an audio signal is encoded according to a predetermined rule, for example, as in the encoding technique described in Japanese Patent Application No. 10-249672. In the second step, as decoding auxiliary information to be referred to when decoding the encoded audio data, it relates to the type of sound of each part constituting at least the generated sound from the physical quantity (for example, frequency spectrum information) related to the wave of the audio signal. Information is identified. The first and second steps can be performed in parallel.
[0015]
By using the sound basic data (including encoded sound data) generated as described above, in the decoding of the sound data, for each sound of each part constituting the generated sound based on the designated reproduction speed information It is possible to decode the audio data for reproduction that matches the adjusted hearing level of each learner. By reproducing the reproduction audio data thus decoded, the learner can listen to the reproduction audio adjusted to the speed specified by the learner. That is, the reproduction of the audio data constitutes a first step of extracting the decoding auxiliary information from the audio basic data generated as described above, and at least a generated sound included in the extracted decoding auxiliary information. While referring to the information about the sound of each part, the second step of determining the playback speed for each sound of each part constituting the generated sound, and decompressing the corresponding part of the encoded audio data so as to correspond to the determined playback speed And a third step of decoding the encoded voice data while performing a shortening process (for faster voice playback) (for playback of relaxed voice).
[0016]
In addition, since the encoding method can prepare a plurality of types of reproduction audio data having different reproduction speeds without impairing ease of listening, switching reproduction between the generated reproduction audio data having different reproduction speeds is performed. Learning is possible. The sound of each part constituting the generated sound includes a vowel part in a speech spectrum, a consonant part appearing before and after the vowel part, a transition part appearing between the vowel part and the consonant part, and a voice break (pause). Etc. are included.
[0017]
In addition, the provision of the voice basic data generated as described above is provided to the user in a form once recorded on a recording medium such as a CD, and to the user via the information communication means. There are cases. Even when using information communication technology, it is indispensable to temporarily record the basic audio data on a hard disk, etc., and the recording speed of the basic audio data is changed on the user side without compromising ease of listening. The decoding auxiliary information is recorded together with the encoded audio data on a predetermined recording medium so that the reproduced audio data can be decoded. In this recording medium, the area where the encoded audio data is recorded and the area where the decoding auxiliary information is recorded may be different.
[0018]
As a data distribution method for transmitting the voice basic data generated as described above to a communication partner via wired or wireless information transmission means, encoded voice data encoded according to a predetermined rule from a voice signal, Decoding auxiliary information that is information that is referred to when decoding encoded audio data and that includes at least information about the type of sound of each part that constitutes the generated sound from the physical quantity related to the wave of the audio signal, Send. Note that this distribution method may be configured to separately transmit the encoded audio data and the auxiliary decoding information to the communication partner.
[0019]
In addition, when the playback operation of the sound basic data generated as described above is made compatible with multimedia playback such as character data and image data (still image and movie), the movie playback and the playback speed are freely changed. It is important to synchronize with the playback of the sound. In other words, for example, image data of about 20 frames per second is sequentially displayed on the display for a moving image, but an unnatural display operation occurs if the display timing is not synchronized with the audio reproduction operation.
[0020]
Therefore, in this reproduction, one or more image data is temporarily expanded on the memory, and one frame of the image data stored in the memory is synchronized with the audio data reproduction operation. It is preferable to sequentially display on a predetermined display means.
[0021]
As a specific reproduction method, Tv is a reference rewrite cycle of image data for one frame or N times (a positive rational number) of a plurality of image data stored in a memory, and based on a digitization sampling cycle of sound. When the determined reference reproduction time period is Ta and the reproduction time period determined for each sound of each part constituting the generated sound based on the instructed reproduction speed information is Ta ′ (> Ta), a predetermined timing The next image data rewriting operation is suspended from the end of the image data rewriting operation at Tv × ((Ta ′ / Ta) −1).
[0022]
The display timing of the image data is adjusted by adjusting the reference reproduction time period determined based on the digitization sampling period of the sound Ta and the sound of each part constituting the generated sound based on the instructed reproduction speed information. Is set to Ta ′ (> Ta), the average rewriting frequency of the image data stored in the memory is set to (Ta ′ / Ta) times the rewriting frequency specified in advance. Even in this case, it is possible to display an image in synchronization with the reproduction operation of the audio data.
[0023]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to FIGS. In the description of the drawings, the same portions are denoted by the same reference numerals, and redundant description is omitted.
[0024]
The voice basic data generated by the present invention enables the user side to decode the playback voice data at a playback speed freely set by the user without impairing the ease of listening at the time of playback. To. Various forms of use of such voice basic data can be considered due to recent developments in digital technology and development of data communication environments. FIG. 1 is a conceptual diagram for explaining how audio basic data generated by the audio data encoding method according to the present invention is industrially used.
[0025]
As shown in FIG. 1 (a), as the
[0026]
The basic speech data generated by the speech
[0027]
In particular, CDs and DVDs as the
[0028]
In the case of data distribution, the sound basic data generated by the sound
[0029]
Normally, the
[0030]
As shown in FIG. 1B, the user listens to the sound output from the
[0031]
Next, detailed structures of the audio
[0032]
As shown in FIG. 2A, the audio signal captured by the audio
[0033]
The audio
[0034]
On the other hand, on the user side, voice basic data provided in the form of data distribution, CD, or the like is stored in the
[0035]
The
[0036]
FIG. 3 is a diagram illustrating the structure of the
[0037]
As described above, the data divided into the
[0038]
The
[0039]
On the other hand, the
[0040]
The decoding auxiliary information includes the sound of each part constituting the generated sound, the emphasized position identification information indicating the part to be emphasized, the frequency component to be emphasized, and the like from the spectrum information of the captured audio signal.
[0041]
For example, in this embodiment, as shown in FIG. 4, the sound of each part constituting the generated sound includes a vowel part (V) and a consonant part that appears before and after the vowel part (V) (in the figure). The front consonant part is C F , The consonant part is C R Vowel part (V) and front and rear consonant parts C F , C R (In the figure, the previous transition is T F The rear transition part is T R And a pause (P) indicating a silent period appearing between the voices. Note that if the pause (P) is extended in the same way as the sounds of the other parts constituting the generated sound when the reproduced sound is delayed, it may impair the user's ease of hearing. Therefore, in this embodiment, the pause (P) is further divided into a case where it occurs between syllables (P1), a case where it occurs between phrases (P2), and a case where it occurs between sentences (P3). It is classified and included in the sound of each part constituting the generated sound to be identified.
[0042]
The decoding auxiliary information s1, s2, s3,..., Sn is a data string prepared for each sampling interval of the encoded speech data a1, a2, a3,. The data is about 4 bits in total, 3 bits as information about the sound of each part and 1 bit as emphasized position identification information. In addition, since there are frequencies that are difficult to hear for non-English-speaking ethnic groups, such as the third formant, this decoding auxiliary information may include information specifying the frequency band to be emphasized (particularly the center frequency) individually. Good.
[0043]
The synthesizing
[0044]
Next, the structure of the
[0045]
FIG. 6 is a diagram illustrating a structure of the
[0046]
As shown in FIG. 6, the voice basic data is taken into the
[0047]
In the
[0048]
In this embodiment, as the user's playback speed instruction information input from the
[0049]
The time
[0050]
The amplitude emphasis
[0051]
When the enhancement band
[0052]
As shown in FIG. 7, the PCM
[0053]
As described above, the data decoded by the PCM
[0054]
On the other hand, the
[0055]
The bitmap display includes a memory 432 (VRAM) that stores one or more frames, and the
[0056]
In this embodiment, the timing of audio reproduction and image display is performed by counting the image synchronization signal D output from the PCM
[0057]
That is, in this embodiment, one frame or a multiple of N of the plurality of image data stored in the memory 432 (a positive rational number, where N may be 1/2 or 2/3). The reference rewrite cycle of image data is Tv, the reference playback time cycle determined based on the digitization sampling cycle of audio (for example, the audio clock of a music CD) is Ta, and the generated sound is generated based on the indicated playback speed information. When the reproduction time period determined for each sound of each part constituting Ta is set to Ta ′ (> Ta), from the end of the image data rewriting operation at a predetermined timing to Tv × ((Ta ′ / Ta) −1) The next image data rewriting operation is suspended.
[0058]
Note that the timing adjustment between audio reproduction and image display is not limited to the above-described embodiment. For example, the reference reproduction time period determined based on the digitization sampling period of the voice is Ta, and the reproduction time period determined for each sound of each part constituting the generated sound based on the instructed reproduction speed information is Ta. When ′ (> Ta), the average rewriting frequency of the image data stored in the
[0059]
【The invention's effect】
As described above, according to the present invention, encoded audio data that is captured from a microphone or the like and encoded according to a predetermined rule from an audio signal that has been stored in the past, and is referred to when the encoded audio data is decoded. The basic speech data is obtained from the auxiliary decoding information including the type of sound of each part constituting the generated sound. By providing such audio basic data to the user using a predetermined recording medium or distribution method, it is possible to decode a plurality of types of reproduction audio data having different speeds set arbitrarily on the user side. Thereby, the data amount of the voice basic data to be provided from the data provider to the user can be reduced, and the recording amount of the recording medium can be saved and the data distribution time can be shortened.
[0060]
Further, by adding an image synchronization signal together with decoding auxiliary information to the encoded audio data, it is possible to reproduce an image that matches the reproduction speed of the decoded reproduction audio data.
[Brief description of the drawings]
FIG. 1 is a diagram for conceptually explaining each embodiment of the present invention.
FIG. 2 (a) is a block diagram showing a schematic configuration of an audio data generation apparatus that realizes an audio data encoding method according to the present invention, and FIG. 2 (b) is an audio reproduction from generated audio basic data. It is a block diagram which shows schematic structure of the audio | voice data reproduction | regeneration apparatus which implement | achieves.
FIG. 3 is a block diagram illustrating a configuration of an encoding unit in the audio data generation apparatus illustrated in FIG.
FIG. 4 is a diagram conceptually illustrating a part of decoding auxiliary information necessary for decoding encoded audio data.
FIG. 5 is a diagram for conceptually explaining encoded data obtained by an audio data encoding method according to the present invention.
FIG. 6 is a block diagram illustrating a configuration of an audio data reproduction device (terminal device).
7 is a block diagram showing a configuration of a PCM data generation unit in the audio data reproduction device shown in FIG. 6;
FIG. 8 is a table showing an example of a reproduction time ratio and a reproduction speed magnification set for each reproduction level based on a reproduction speed of natural speed.
9 is a table that is referred to in the time coefficient generation unit shown in FIG. 6, and shows an example of the reproduction speed set for each type of sound of each part that constitutes the generated sound. It is the table | surface shown by the magnification | multiplying_factor based on.
10 is a table that is referred to in the amplitude emphasis coefficient generation unit shown in FIG. 6, and shows an example of the amplitude set for each type of sound of each part that constitutes the generated sound. It is the table | surface shown by the magnification | multiplying_factor based on.
11A is a table referred to in the enhanced band data generation unit shown in FIG. 6 and is a diagram for explaining an editing operation of instructed frequency band data; FIG. FIG. 4 is a table showing the amplitude of the designated frequency band (center CH) by a magnification based on the reproduction level of natural speed.
12 is a diagram showing a configuration of a display device that displays image data in synchronization with audio reproduction by the audio data reproducing device (terminal device) shown in FIG. 6;
FIG. 13 is a time chart for explaining image display timing synchronized with an audio reproduction operation;
[Explanation of symbols]
DESCRIPTION OF
Claims (5)
前記所定のサンプリング周期ごとに生成された前記複数の符号化音声データそれぞれに対して用意され、該複数の符号化音声データの復号化の際に参照される復号化補助情報として、前記音声信号の波動に関する物理量から少なくとも発生音を構成する各部の音の種類に関する情報を特定する第2行程と、
前記第1行程において生成された前記複数の符号化音声データに前記第2行程において特定された前記複数の復号化補助情報を付加していく第3工程とを備えた音声データの符号化方法。A plurality of encodings obtained by encoding a plurality of frequency components divided from an audio signal at a predetermined sampling period, each of which is composed of encoded data of the plurality of frequency components encoded at the same timing A first step of generating audio data;
Prepared for each of the plurality of encoded audio data generated at each predetermined sampling period, and as decoding auxiliary information referred to when decoding the plurality of encoded audio data, A second step of identifying information on the type of sound of each part constituting at least the generated sound from the physical quantity related to the wave;
And a third step of adding the plurality of pieces of decoding auxiliary information specified in the second step to the plurality of pieces of encoded audio data generated in the first step.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000051801A JP3620787B2 (en) | 2000-02-28 | 2000-02-28 | Audio data encoding method |
PCT/JP2001/007252 WO2003019535A1 (en) | 2000-02-28 | 2001-08-24 | Data structure, generating method, reproducing method, recording method, recording medium and distributing method of voice data, and reproducing method of multimedia |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000051801A JP3620787B2 (en) | 2000-02-28 | 2000-02-28 | Audio data encoding method |
PCT/JP2001/007252 WO2003019535A1 (en) | 2000-02-28 | 2001-08-24 | Data structure, generating method, reproducing method, recording method, recording medium and distributing method of voice data, and reproducing method of multimedia |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001242890A JP2001242890A (en) | 2001-09-07 |
JP3620787B2 true JP3620787B2 (en) | 2005-02-16 |
Family
ID=26345129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000051801A Expired - Fee Related JP3620787B2 (en) | 2000-02-28 | 2000-02-28 | Audio data encoding method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP3620787B2 (en) |
WO (1) | WO2003019535A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010283605A (en) | 2009-06-04 | 2010-12-16 | Canon Inc | Video processing device and method |
JP4894896B2 (en) * | 2009-07-29 | 2012-03-14 | 株式会社Jvcケンウッド | Audio signal processing apparatus and audio signal processing method |
JP6322983B2 (en) * | 2013-12-06 | 2018-05-16 | ヤマハ株式会社 | Information providing system, communication terminal and program |
CN113112993B (en) * | 2020-01-10 | 2024-04-02 | 阿里巴巴集团控股有限公司 | Audio information processing method and device, electronic equipment and storage medium |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2758688B2 (en) * | 1990-03-08 | 1998-05-28 | 日本電気株式会社 | Speech synthesizer |
JP2992324B2 (en) * | 1990-10-26 | 1999-12-20 | 株式会社リコー | Voice section detection method |
JPH05224689A (en) * | 1992-02-13 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesizing device |
JP2500579B2 (en) * | 1993-02-03 | 1996-05-29 | 日本電気株式会社 | Video and audio synchronization system |
JPH06162168A (en) * | 1992-11-20 | 1994-06-10 | Fujitsu Ltd | Composite image display system |
JPH06167999A (en) * | 1992-11-30 | 1994-06-14 | Matsushita Electric Ind Co Ltd | Information recording and reproducing device |
JPH06289897A (en) * | 1993-03-31 | 1994-10-18 | Sony Corp | Speech signal processor |
JP3110215B2 (en) * | 1993-08-10 | 2000-11-20 | 沖電気工業株式会社 | Pronunciation training device |
JP3501514B2 (en) * | 1994-10-03 | 2004-03-02 | キヤノン株式会社 | Image playback method |
JPH08140054A (en) * | 1994-11-10 | 1996-05-31 | Matsushita Electric Ind Co Ltd | Audio signal and video signal synchronous reproduction method |
JPH08146985A (en) * | 1994-11-17 | 1996-06-07 | Sanyo Electric Co Ltd | Speaking speed control system |
JPH09152889A (en) * | 1995-11-29 | 1997-06-10 | Sanyo Electric Co Ltd | Speech speed transformer |
JP3092652B2 (en) * | 1996-06-10 | 2000-09-25 | 日本電気株式会社 | Audio playback device |
JP3261983B2 (en) * | 1996-06-19 | 2002-03-04 | ヤマハ株式会社 | Karaoke equipment |
KR19980024600A (en) * | 1996-09-17 | 1998-07-06 | 제링 에이 밀러 | How to change image signal playback time |
JPH10126745A (en) * | 1996-10-22 | 1998-05-15 | Nec Corp | Variable speed reproduced image expanding device |
JP3106987B2 (en) * | 1997-01-09 | 2000-11-06 | 日本電気株式会社 | Audio / video synchronous playback device |
JP4069474B2 (en) * | 1997-01-21 | 2008-04-02 | ヤマハ株式会社 | Image recording / playback device |
JPH10285558A (en) * | 1997-04-03 | 1998-10-23 | Sony Corp | Recording and reproducing device and variable speed reproduction method for video information |
JP3730764B2 (en) * | 1997-09-12 | 2006-01-05 | 日本放送協会 | Simultaneous speech / picture speed converter |
JP3164038B2 (en) * | 1997-11-05 | 2001-05-08 | 日本電気株式会社 | Voice band division decoding device |
JPH11265195A (en) * | 1998-01-14 | 1999-09-28 | Sony Corp | Information distribution system, information transmitter, information receiver and information distributing method |
JPH11308573A (en) * | 1998-04-20 | 1999-11-05 | Asahi Chem Ind Co Ltd | Image reproducing device |
JP2000013750A (en) * | 1998-06-25 | 2000-01-14 | Sony Corp | Device and method for reproducing information and providing medium |
JP2000099097A (en) * | 1998-09-24 | 2000-04-07 | Sony Corp | Signal reproducing device and method, voice signal reproducing device, and speed conversion method for voice signal |
-
2000
- 2000-02-28 JP JP2000051801A patent/JP3620787B2/en not_active Expired - Fee Related
-
2001
- 2001-08-24 WO PCT/JP2001/007252 patent/WO2003019535A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2003019535A1 (en) | 2003-03-06 |
JP2001242890A (en) | 2001-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100582154B1 (en) | Data interchange format of sequence data, sound reproducing apparatus and server equipment | |
CN1451153A (en) | Methods and system for encoding an audio sequence with synchronized data and outputting the same | |
US9601029B2 (en) | Method of presenting a piece of music to a user of an electronic device | |
Mitra | Introduction to multimedia systems | |
JP4174940B2 (en) | Karaoke equipment | |
JP3620787B2 (en) | Audio data encoding method | |
JP3617603B2 (en) | Audio information encoding method and generation method thereof | |
WO2002058053A1 (en) | Encoding method and decoding method for digital voice data | |
Shoyqulov et al. | The Audio-Is of the Main Components of Multimedia Technologies | |
Dudley | Fundamentals of speech synthesis | |
KR100710600B1 (en) | The method and apparatus that createdplayback auto synchronization of image, text, lip's shape using TTS | |
KR20000063615A (en) | Method of Reproducing Audio Signal Corresponding to Partially Designated Text Data and Reproducing Apparatus for the Same | |
JP4563418B2 (en) | Audio processing apparatus, audio processing method, and program | |
CN114550690B (en) | Song synthesis method and device | |
JP3510493B2 (en) | Audio signal encoding / decoding method and recording medium recording the program | |
KR20010011988A (en) | A learning method using a digital audio with caption data | |
JP2002108375A (en) | Device and method for converting karaoke music data | |
KR100612780B1 (en) | Speech and music reproduction apparatus | |
JP2581700B2 (en) | Information recording medium and information reproducing method | |
JP2007256815A (en) | Voice-reproducing apparatus, voice-reproducing method, and voice reproduction program | |
KR20010008954A (en) | Encoder and decoder for music file | |
KR0132829B1 (en) | Apparatus for generating accompaniment data and video music accompanied system suitable for this apparatus | |
JPH07287576A (en) | Musical sound reproducing method | |
JP2004302482A (en) | Karaoke machine with sign language learning function | |
CN114550690A (en) | Song synthesis method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040609 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040806 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20040827 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041102 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041112 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |