DE19538852A1 - Verfahren und Anordnung zur Klassifizierung von Sprachsignalen - Google Patents
Verfahren und Anordnung zur Klassifizierung von SprachsignalenInfo
- Publication number
- DE19538852A1 DE19538852A1 DE19538852A DE19538852A DE19538852A1 DE 19538852 A1 DE19538852 A1 DE 19538852A1 DE 19538852 A DE19538852 A DE 19538852A DE 19538852 A DE19538852 A DE 19538852A DE 19538852 A1 DE19538852 A1 DE 19538852A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- frame
- subframes
- segment
- transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000009466 transformation Effects 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 230000005284 excitation Effects 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Klassifizierung
von Sprachsignalen nach dem Oberbegriff des Patentanspruchs
1 sowie eine Schaltungsanordnung zur Durchführung des
Verfahrens.
Sprachcodierverfahren und zugehörige Schaltungsanordnungen
zur Klassifizierung von Sprachsignalen für Bitraten
unterhalb von 8 kbit pro Sekunde gewinnen zunehmend an
Bedeutung.
Die Hauptanwendungen hierfür sind unter anderem bei
Multiplexübertragung für bestehende Festnetze und in
Mobilfunksystemen der dritten Generation zu sehen. Auch für
die Bereitstellung von Diensten wie zum Beispiel
Videophonie werden Sprachcodierverfahren in diesem
Datenratenbereich benötigt.
Die meisten derzeit bekannten, hochqualitativen
Sprachcodierverfahren für Datenraten zwischen 4 kbit/s und
8 kbit/s arbeiten nach dem Prinzip des Code Excited Linear
Prediction (CELP)-Verfahrens wie es von Schroeder, M.R.,
Atal, B.S.: Code-Excited Linear Prediction (CELP): High
Quality Speech at Very Low Bit Rates, in Proceedings of
IEEE International Conference on Acoustics, Speech and
Signal Processing, 1985, erstmals beschrieben worden ist.
Dabei wird das Sprachsignal durch lineare Filterung von
Anregungsvektoren aus einem oder mehreren Codebüchern
synthetisiert. In einem ersten Schritt werden die
Koeffizienten des Kurzzeit-Synthesefilters durch
LPC-Analyse aus dem Eingangs-Sprachvektor ermittelt und
dann quantisiert. Im Anschluß daran werden die
Anregungscodebücher durchsucht, wobei als
Optimierungskriterium der perzeptuell gewichtete Fehler
zwischen Original- und synthetisiertem Sprachvektor
verwendet wird (⇒ Analyse durch Synthese). Übertragen
werden schließlich nur die Indizes der optimalen
Vektoren, aus denen der Decoder den synthetisierten
Sprachvektor wieder erzeugen kann.
Viele dieser Codierverfahren, wie zum Beispiel der neue
8 kbit/s Sprachcoder von ITU-T, beschrieben in der
Literaturstelle Study Group 15 Contribution - Q. 12/15:
Draft Recommendation G.729 - Coding Of Speech at 8 kbit/s
using Conjugate-Structure-Algebraic-Code-Excited-Linear-
Predictive (CS-ACELP) Coding, 1995, arbeiten mit einer
festen Kombination von Codebüchern. Diese starre Anordnung
berücksichtigt nicht die starken zeitlichen Änderungen der
Eigenschaften des Sprachsignals und benötigt zur Codierung
im Durchschnitt mehr Bits als erforderlich. Zum Beispiel
bleibt das nur zur Codierung von periodischen
Sprachabschnitten erforderliche adaptive Codebuch auch
während eindeutig nichtperiodischer Segmente eingeschaltet.
Um zu niedrigeren Datenraten im Bereich um 4 kbit/s bei
möglichst wenig abfallender Qualität zu gelangen, wurde
deshalb in anderen Veröffentlichungen, zum Beispiel in
Wang, S., Gersho, A.: Phonetically-Based Vector Excitation
Coding of Speech at 3.6 kbit/s, Proceedings of IEEE
International Conference On Acoustics, Speech and Signal
Processing, 1989, vorgeschlagen, das Sprachsignal vor der
Codierung in verschiedene typische Klassen einzuordnen. Im
Vorschlag für das GSM-Halbratensystem wird das Signal auf
Basis des Langzeit-Prädiktionsgewinns rahmenweise (alle 20
ms) in stimmhafte und stimmlose Abschnitte mit jeweils
angepaßten Codebüchern eingeteilt, wodurch die Datenrate
für die Anregung gesenkt und die Qualität gegenüber dem
Vollratensystem weitgehend gleich bleibt. Bei einer
allgemeineren Untersuchung wurde das Signal in die Klassen
stimmhaft, stimmlos und Onset eingeteilt. Dabei wurde die
Entscheidung rahmenweise (hier 11,25 ms) auf Basis von
Parametern - wie unter anderem Nulldurchgangsrate,
Reflexionskoeffizienten, Energie - durch
lineare Diskriminierung gewonnen, siehe zum Beispiel
Campbell, J., Tremain, T.: Voiced/Unvoiced Classification
Of Speech with Application to the U.S. Gouvernment LPC-10e
Algorithm, Proceedings of IEEE International Conference On
Acoustics, Speech and Signal Processing, 1986. Jeder Klasse
wird wiederum eine bestimmte Kombination von Codebüchern
zugeordnet, so daß die Datenrate auf 3,6 kbit/s bei
mittlerer Qualität gesenkt werden kann.
All diese bekannten Verfahren ermitteln das Ergebnis ihrer
Klassifizierung aus Parametern, die durch Berechnung von
Zeitmittelwerten aus einem Fenster konstanter Länge
gewonnen wurden. Die zeitliche Auflösung ist also durch die
Wahl dieser Fensterlänge fest vorgegeben. Verringert man
die Fensterlänge, so sinkt auch die Genauigkeit der
Mittelwerte. Erhöht man dagegen die Fensterlänge, so kann
der zeitliche Verlauf der Mittelwerte dem Verlauf des
instationären Sprachsignals nicht mehr folgen. Dies gilt
besonders für stark instationäre Übergänge (Onsets) von
stimmlosen auf stimmhafte Sprachabschnitte. Gerade die
zeitlich richtige Reproduktion der Lage der ersten
signifikanten Pulse stimmhafter Abschnitte
ist aber wichtig für die subjektive Beurteilung eines
Codierverfahrens. Weitere Nachteile herkömmlicher
Klassifizierungsverfahren sind oftmals eine hohe
Komplexität oder starke Abhängigkeit von in der Praxis
immer vorhandenen Hintergrundgeräuschen.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und
einen Klassifizierer von Sprachsignalen für die
signalangepaßte Steuerung von Sprachcodierverfahren zur
Senkung der Bitrate bei gleichbleibender Sprachqualität
bzw. zur Erhöhung der Qualität bei gleicher Bitrate zu
schaffen, die das Sprachsignal mit Hilfe der Wavelet-
Transformation für jeden Zeitraum klassifizieren, wobei
sowohl eine hohe Auflösung im Zeitbereich als auch im
Frequenzbereich erreicht werden soll.
Die Lösung für das erfindungsgemäße Verfahren ist im
Kennzeichen des Patentanspruchs 1 charakterisiert und
die für den Klassifizierer im Kennzeichen des
Patentanspruchs 5.
Weitere Lösungen bzw. Ausgestaltungen der Erfindung ergeben
sich aus den Kennzeichen der Patentansprüche 2-4.
Hier werden ein Verfahren und eine Anordnung beschrieben,
die das Sprachsignal auf Basis der Wavelet-Transformation
für jeden Zeitrahmen klassifizieren. Dadurch kann - den
Anforderungen des Sprachsignals entsprechend - sowohl eine
hohe Auflösung im Zeitbereich (Lokalisierung von Pulsen)
als auch im Frequenzbereich (gute Mittelwerte) erreicht
werden. Die Klassifizierung eignet sich deshalb besonders
zur Steuerung bzw. Auswahl von Codebüchern in einem
niederratigen Sprachcoder. Dabei weist das Verfahren und
die Anordnung eine hohe Unempfindlichkeit gegenüber
Hintergrundgeräuschen sowie eine niedrige Komplexität auf.
Bei der Wavelet-Transformation handelt es sich - ähnlich
der Fourier-Transformation - um ein mathematisches
Verfahren zur Bildung eines Modells für ein Signal oder
System. Im Gegensatz zur Fourier-Transformation kann man
aber im Zeit- und Frequenz- bzw. Skalierungsbereich die
Auflösung den Anforderungen entsprechend flexibel anpassen.
Die Basisfunktionen der Wavelet-Transformation werden durch
Skalierung und Verschiebung aus einem sogenannten
Mother-Wavelet erzeugt und haben Bandpaßcharakter. Die
Wavelet-Transformation ist somit erst durch Angabe des
zugehörigen Mother-Wavelets eindeutig definiert.
Hintergründe und Details zur mathematischen Theorie
sind beispielsweise aufgezeigt von Rioul O., Vetterli, M.:
Wavelets and Signal Processing, IEEE Signal Processing
Magazine, Oct. 1991.
Aufgrund ihrer Eigenschaften eignet sich die Wavelet-
Transformation gut zur Analyse instationärer Signale. Ein
weiterer Vorteil ist die Existenz schneller Algorithmen,
mit denen eine effiziente Berechnung der Wavelet-
Transformation durchgeführt werden kann. Erfolgreiche
Anwendungen im Bereich der Signalverarbeitung findet man
unter anderem in der Bildcodierung, bei
Breitbandkorrelationsverfahren (zum Beispiel für Radar)
sowie zur Sprachgrundfrequenzschätzung, wie unter anderem
aus den folgenden Literaturstellen hervorgeht. Mallat, S.,
Zhong, S.: Characterization of Signals from Multiscale
Edges, IEEE Transactions on Pattern Analysis and Machine
Intelligence, July, 1992 sowie Kadambe, S. Boudreaux-
Bartels, G.F.: Applications of the Wavelet Transform for
Pitch Detection of Speech Signals, IEEE Transactions on
Information Theory, March 1992.
Die Erfindung wird im folgenden anhand eines
Ausführungsbeispiels näher beschrieben. Für die
Beschreibung des Verfahrens soll der prinzipielle Aufbau
eines Klassifizierers nach Fig. 1 verwendet werden.
Zunächst erfolgt die Segmentierung des Sprachsignals. Das
Sprachsignal wird in Segmente konstanter Länge eingeteilt,
wobei die Länge der Segmente zwischen 5 ms und 40 ms
betragen soll. Zur Vermeidung von Randeffekten bei der sich
anschließenden Transformation kann eine der drei folgenden
Techniken angewandt werden:
- - Das Segment wird an den Grenzen gespiegelt.
- - Die Wavelet-Transformation wird im kleineren Intervall (L/2,N-L/2) berechnet und der Rahmen nur um den konstanten Versatz L/2 verschoben, so daß die Segmente überlappen. Dabei ist L die Länge eines auf den zeitlichen Ursprung zentrierten Wavelets, wobei die Bedingung N<L gelten muß.
- - An den Rändern des Segmentes wird mit den vorangegangenen bzw. zukünftigen Abtastwerten aufgefüllt.
Danach erfolgt eine diskrete Wavelet-Transformation.
Für ein solches Segment s(k), wird eine zeitdiskrete
Wavelet-Transformation (DWT) Sh(m, n) bezüglich eines
Wavelets h(k) mit den ganzzahligen Parametern Skalierung in
und Zeitverschiebung n berechnet. Diese Transformation ist
durch
definiert, wobei Nu und N₀ die durch die gewählte
Segmentierung vorgegebene untere bzw. obere Grenze des
Zeitindex k darstellen. Die Transformation muß nur für den
Skalierungsbereich 0<m<M und den Zeitbereich im Intervall
(O, N) berechnet werden, wobei die Konstante M in
Abhängigkeit von a₀ so groß gewählt werden muß, daß die
niedrigsten Signalfrequenzen im Transformationsbereich noch
ausreichend gut repräsentiert werden.
Zur Klassifizierung von Sprachsignalen reicht es in der
Regel aus, das Signal zu dyadischen Skalierungen (a₀=2) zu
betrachten. Läßt sich das Wavelet h(k) durch eine
sogenannte "Multiresolution-Analyse" gemäß Rioul, Vetterli
mittels einer iterierten Filterbank darstellen, so kann man
zur Berechnung der dyadischen Wavelet-Transformation in der
Literatur angegebene effiziente, rekursive Algorithmen
verwenden. In diesem Fall (a₀=2) ist eine Zerlegung bis
maximal M=6 ausreichend. Für die Klassifizierung eignen
sich besonders Wavelets mit wenigen signifikanten
Oszillationszyklen, aber dennoch möglichst glattem
Funktionsverlauf. Beispielsweise können kubische
Spline-Wavelets oder orthogonale Daubechies-Wavelets
geringer Länge verwendet werden.
Hiernach erfolgt die Klasseneinteilung. Das Sprachsegment
wird auf Basis der Transformationskoeffizienten in Klassen
eingeteilt. Um eine ausreichend feine Zeitlauflösung zu
erreichen, wird das Segment noch in P Subrahmen eingeteilt,
so daß für jeden Subrahmen ein Klassifizierungsergebnis
ausgegeben wird. Für einen Einsatz in niederratigen
Sprachcodierverfahren wurde die Unterscheidung der
folgenden Klassen vorgenommen:
- (1) Hintergrundrauschen/stimmlos,
- (2) Signalübergänge/"voicing onsets",
- (3) Periodisch/stimmhaft.
Beim Einsatz in bestimmten Codierverfahren kann es sinnvoll
sein, die periodische Klasse noch weiter aufzuteilen, etwa
in Abschnitte mit überwiegend tieffrequenter Energie oder
eher gleichmäßig verteilter Energie. Optional kann deshalb
auch eine Unterscheidung von mehr als drei Klassen
durchgeführt werden.
Im Anschluß daran erfolgt in einem entsprechenden Prozessor
die Parameterberechnung. Zunächst wird aus den
Transformationskoeffizienten Sh(m,n) ein Satz von
Parametern bestimmt, mit deren Hilfe dann anschließend die
endgültige Klasseneinteilung vorgenommen werden kann. Die
Auswahl der Parameter Skalierungs-Differenzmaß (P₁),
zeitliches Differenzmaß (P₂) und Periodizitätsmaß (P₃)
erwiesen sich dabei als besonders günstig, da sie einen
direkten Bezug zu den definierten Klassen (1) bis (3)
aufweisen.
- - Für P₁ wird die Varianz der Energie der DWT- Transformationskoeffizienten über alle Skalierungsbereiche berechnet. Auf Basis dieses Parameters kann rahmenweise - also für ein relativ grobes Zeitraster - festgestellt werden, ob das Sprachsignal stimmlos ist bzw. nur Hintergrundrauschen vorliegt.
- - Um P₂ zu ermitteln, wird zunächst die mittlere Energiedifferenz der Transformationskoeffizienten zwischen dem aktuellen und dem vergangen Rahmen berechnet. Nun werden für Transformationskoeffizienten feiner Skalierungsstufe (m klein) die Energiedifferenzen zwischen benachbarten Subrahmen ermittelt und mit der Energiedifferenz für den Gesamtrahmen verglichen. Dadurch kann ein Maß für die Wahrscheinlichkeit eines Signalübergangs (zum Beispiel stimmlos auf stimmhaft) für jeden Subrahmen - also für ein feines Zeitraster - bestimmt werden.
- - Für P₃ werden rahmenweise die lokalen Maxima von Transformationskoeffizienten grober Skalierungsstufe (m nahe bei M) bestimmt und geprüft, ob diese in regelmäßigen Abständen auftreten. Als lokale Maxima werden dabei die Spitzen bezeichnet, die einen gewissen Prozentsatz T des globalen Maximums des Rahmens übersteigen.
Die für diese Parameterberechnungen erforderlichen
Schwellwerte werden in Abhängigkeit vom aktuellen Pegel des
Hintergrundgeräusches adaptiv gesteuert, wodurch die
Robustheit des Verfahrens in gestörter Umgebung gesteigert
wird.
Darauffolgend wird die Auswertung vorgenommen. Die drei
Parameter werden der Auswerteeinheit in Form von
"Wahrscheinlichkeiten" (auf den Wertebereich (0,1)
abgebildete Größen) zugeführt. Die Auswerteeinheit selbst
trifft das endgültige Klassifizierungsergebnis für jeden
Subrahmen auf Basis eines Zustandsmodells. Dadurch wird das
Gedächtnis der für vorangegangene Subrahmen getroffenen
Entscheidungen berücksichtigt. Außerdem werden nicht
sinnvolle Übergänge, wie zum Beispiel direkter Sprung von
"stimmlos" auf "stimmhaft", verboten. Als Ergebnis wird
schließlich pro Rahmen ein Vektor mit P Komponenten
ausgegeben, der das Klassifizierungsergebnis für
die P Subrahmen enthält.
In den Fig. 2a und 2b sind die Klassifizierungsergebnisse
für das Sprachsegment " . . . parcel, I′d like . . . " einer
englischen Sprecherin exemplarisch dargestellt. Dabei
wurden die Sprachrahmen der Länge 20 ms in vier equidistante
Subrahmen zu jeweils 5 ms eingeteilt. Die DWT wurde nur für
dyadische Skalierungsschritte ermittelt und auf Basis von
kubischen Spline-Wavelets mit Hilfe einer rekursiven
Filterbank implementiert. Die drei Signalklassen werden mit
0,1,2 in der gleichen Reihenfolge wie oben bezeichnet. Für
Fig. 2a wurde Telefonband-Sprache (200 Hz bis 3400 Hz) ohne
Störung verwendet, während für Fig. 2b zusätzlich
Fahrzeuggeräusche mit einem durchschnittlichen
Signal-Rausch-Abstand von 10 dB überlagert wurden. Der
Vergleich der beiden Abbildungen zeigt, daß das
Klassifizierungsergebnis nahezu unabhängig vom Rauschpegel
ist. Mit Ausnahme kleinerer Unterschiede, die für
Anwendungen in der Sprachcodierung irrelevant sind, werden
die perzeptuell wichtigen periodischen Abschnitte sowie
deren Anfangs- und Endpunkte in beiden Fällen gut
lokalisiert. Durch Auswertung einer großen Vielfalt
unterschiedlichen Sprachmaterials ergab sich, daß der
Klassifizierungsfehler deutlich unter 5% für Signal-Rausch-
Abstände oberhalb 10 dB liegt.
Der Klassifizierer wurde zusätzlich für folgenden typischen
Anwendungsfall getestet: Ein CELP-Codierverfahren arbeitet
bei einer Rahmenlänge von 20 ms und teilt diesen Rahmen zur
effizienten Anregungscodierung in vier Subrahmen à 5 ms
ein. Für jeden Subrahmen soll entsprechend der drei oben
genannten Signalklassen auf Basis des Klassifizierers eine
angepaßte Kombination von Codebüchern verwendet werden. Es
wurde für jede Klasse ein typisches Codebuch mit jeweils 9
Bit/Subrahmen zur Codierung der Anregung eingesetzt,
wodurch sich eine Bitrate von lediglich 1800 Bit/s für die
Anregungscodierung (ohne Gain) ergab. Es wurden für die
stimmlose Klasse ein Gauß′sches Codebuch, für die
Onset-Klasse ein Zwei-Puls-Codebuch und für die periodische
Klasse ein adaptives Codebuch verwendet. Schon für diese
einfache, mit festen Subrahmenlängen arbeitende
Konstellation von Codebüchern ergab sich eine gut
verständliche Sprachqualität, jedoch noch mit rauhem Klang
in periodischen Abschnitten. Zum Vergleich sei erwähnt, daß
in ITU-T, Study Group 15 Contribution- Q. 12/15: Draft
Recommendation G. 729 - Coding Of Speech at 8 kbit/s using
Conjugate-Structure-Algebraic-Code-Excited-Linear-
Predictive (CS-ACELP) Coding, 1995, für die Codierung der
Anregung (ohne Gain) 4800 Bit/s benötigt werden, um
Leitungsqualität zu erzielen. Selbst in Gerson, I. et al.,
Speech and Channel Coding for the Half-Rate GSM Channel,
ITG-Fachbericht "Codierung für Quelle, Kanal und
Übertragung", 1994, werden dafür noch 2800 bit/s verwendet,
um Mobilfunkqualität sicherzustellen.
Claims (5)
1. Verfahren zur Klassifizierung von Sprache,
insbesondere Sprachsignalen für die signalangepaßte
Steuerung von Sprachcodierverfahren zur Senkung der
Bitrate bei gleichbleibender Sprachqualität oder zur
Erhöhung der Qualität bei gleicher Bitrate, dadurch
gekennzeichnet,
daß nach einer Segmentierung des Sprachsignals für
jeden gebildeten Rahmen eine Wavelet-Transformation
berechnet wird, aus der mit Hilfe adaptiver Schwellen
ein Satz Parameter (P₁ - ₃) ermittelt wird, die ein
Zustandsmodell steuern, das den Sprachrahmen in
Unterrahmen aufteilt und jeden dieser Unterrahmen in
eine von mehreren, für die Sprachcodierung typische
Klassen unterteilt.
2. Verfahren nach Patentanspruch 1, dadurch
gekennzeichnet,
daß das Sprachsignal in Segmente konstanter Länge
eingeteilt wird, und daß zur Vermeidung von
Randeffekten bei der sich anschließenden Wavelet-
Transformation entweder das Segment an den Grenzen
gespiegelt wird, oder die Wavelet-Transformation im
kleineren Intervall (L/2, N-L/2) berechnet wird und
der Rahmen nur um den konstanten Versatz L/2
verschoben wird, so daß die Segmente sich überlappen
oder daß an den Rändern des Segments mit den
vorangegangenen bzw. zukünftigen Abtastwerten
aufgefüllt wird.
3. Verfahren nach Patentanspruch 1 oder 2, dadurch
gekennzeichnet,
daß für ein Segment s(k) eine zeitdiskrete Wavelet-
Transformation (DWT) Sh(mn) bezüglich eines Wavelets
h(k) mit den ganzzahligen Parametern Skalierung in und
Zeitverschiebung n berechnet wird, und daß das Segment
auf Basis der Transformationskoeffizienten in Klassen
eingeteilt wird, insbesondere zur Erreichung einer
feinen Zeitauflösung noch in P Subrahmen eingeteilt
und für jeden Subrahmen ein Klassifizierungsergebnis
errechnet und ausgegeben wird.
4. Verfahren nach einem der Patentansprüche 1-3,
dadurch gekennzeichnet,
daß aus dem Transformationskoeffizienten
Sh(mn) ein Satz von Parametern, insbesondere
Skalierungs-Differenzmaß (P₁), zeitliches Differenzmaß
(P₂) und Periodizitätsmaß (P₃) bestimmt wird, mit
deren Hilfe dann anschließend die endgültige
Klasseneinteilung vorgenommen wird, wobei die für
diese Parameterberechnungen erforderlichen
Schwellwerte in Abhängigkeit vom aktuellen Pegel des
Hintergrundgeräusches adaptiv gesteuert werden.
5. Anordnung, insbesondere Klassifizierer zur
Durchführung des Verfahrens nach einem der
Patentansprüche 1-4, dadurch gekennzeichnet,
daß die Eingangssprache einer Segmentierungs
einrichtung zugeführt wird, daß nach der Segmentierung
der Eingangssprache für jeden gebildeten Rahmen bzw.
für jedes gebildete Segment durch einen Prozessor eine
diskrete Wavelet-Transformation berechnet wird, daß
daraus mit Hilfe adaptiver Schwellen ein Satz
Parameter (P₁ - P₃) ermittelt wird, die als
Eingangsgrößen einem Zustandsmodell zugeführt werden,
das seinerseits den Sprachrahmen in Unterrahmen
aufteilt und jeden dieser Unterrahmen in eine von
mehreren für die Sprachcodierung typische Klassen
einteilt.
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19538852A DE19538852A1 (de) | 1995-06-30 | 1995-10-19 | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
AT96104213T ATE206841T1 (de) | 1995-06-30 | 1996-03-16 | Verfahren und anordnung zur klassifizierung von sprachsignalen |
DE59607864T DE59607864D1 (de) | 1995-06-30 | 1996-03-16 | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
ES96104213T ES2165933T3 (es) | 1995-06-30 | 1996-03-16 | Procedimiento y dispositivo de clasificacion de las señales del habla. |
EP96104213A EP0751495B1 (de) | 1995-06-30 | 1996-03-16 | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
NO961636A NO309831B1 (no) | 1995-06-30 | 1996-04-24 | FremgangsmÕte og anordning for klassifisering av talesignaler |
CA002188369A CA2188369C (en) | 1995-10-19 | 1996-10-21 | Method and an arrangement for classifying speech signals |
US08/734,657 US5781881A (en) | 1995-10-19 | 1996-10-21 | Variable-subframe-length speech-coding classes derived from wavelet-transform parameters |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19523598 | 1995-06-30 | ||
DE19538852A DE19538852A1 (de) | 1995-06-30 | 1995-10-19 | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19538852A1 true DE19538852A1 (de) | 1997-01-02 |
Family
ID=7765525
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19538852A Pending DE19538852A1 (de) | 1995-06-30 | 1995-10-19 | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
DE59607864T Expired - Lifetime DE59607864D1 (de) | 1995-06-30 | 1996-03-16 | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59607864T Expired - Lifetime DE59607864D1 (de) | 1995-06-30 | 1996-03-16 | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
Country Status (1)
Country | Link |
---|---|
DE (2) | DE19538852A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19716862A1 (de) * | 1997-04-22 | 1998-10-29 | Deutsche Telekom Ag | Sprachaktivitätserkennung |
DE19730129A1 (de) * | 1997-07-14 | 1999-01-21 | Fraunhofer Ges Forschung | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4203436A1 (de) * | 1991-02-06 | 1992-08-13 | Koenig Florian | Datenreduzierte sprachkommunikation |
EP0519802A1 (de) * | 1991-06-18 | 1992-12-23 | Sextant Avionique | Verfahren zur Sprachsynthese unter Verwendung von Wellenstückchen |
DE4237563A1 (de) * | 1991-11-06 | 1993-05-19 | Korea Telecommunication | |
GB2272554A (en) * | 1992-11-13 | 1994-05-18 | Creative Tech Ltd | Recognizing speech by using wavelet transform and transient response therefrom |
DE4315315A1 (de) * | 1993-05-07 | 1994-11-10 | Ant Nachrichtentech | Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen |
DE4315313A1 (de) * | 1993-05-07 | 1994-11-10 | Ant Nachrichtentech | Vektorcodierverfahren insbesondere für Sprachsignale |
DE4340591A1 (de) * | 1993-04-13 | 1994-11-17 | Hewlett Packard Co | Datenkompressionsverfahren unter Verwendung kleiner Wörterbücher zur Anwendung auf Netzwerkpakete |
DE4440838A1 (de) * | 1993-11-18 | 1995-05-24 | Israel State | System zum Kompaktieren und Rekonstruieren von Wellendaten |
DE4437790A1 (de) * | 1993-10-22 | 1995-06-01 | Ricoh Kk | Verfahren und Vorrichtung zur Verwendung von endlichen Automaten zur Durchführung einer Kanalmodulation und einer Fehlerkorrektur und einer Entropie-Kodierung |
DE4427656C1 (de) * | 1994-08-05 | 1995-11-23 | Deutsche Forsch Luft Raumfahrt | Verfahren zur Kompression und Dekompression von digitalen SAR-Rohdaten und Einrichtung zu deren Durchführung |
DE19505435C1 (de) * | 1995-02-17 | 1995-12-07 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals |
-
1995
- 1995-10-19 DE DE19538852A patent/DE19538852A1/de active Pending
-
1996
- 1996-03-16 DE DE59607864T patent/DE59607864D1/de not_active Expired - Lifetime
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4203436A1 (de) * | 1991-02-06 | 1992-08-13 | Koenig Florian | Datenreduzierte sprachkommunikation |
EP0519802A1 (de) * | 1991-06-18 | 1992-12-23 | Sextant Avionique | Verfahren zur Sprachsynthese unter Verwendung von Wellenstückchen |
DE4237563A1 (de) * | 1991-11-06 | 1993-05-19 | Korea Telecommunication | |
GB2272554A (en) * | 1992-11-13 | 1994-05-18 | Creative Tech Ltd | Recognizing speech by using wavelet transform and transient response therefrom |
DE4340591A1 (de) * | 1993-04-13 | 1994-11-17 | Hewlett Packard Co | Datenkompressionsverfahren unter Verwendung kleiner Wörterbücher zur Anwendung auf Netzwerkpakete |
DE4315315A1 (de) * | 1993-05-07 | 1994-11-10 | Ant Nachrichtentech | Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen |
DE4315313A1 (de) * | 1993-05-07 | 1994-11-10 | Ant Nachrichtentech | Vektorcodierverfahren insbesondere für Sprachsignale |
DE4437790A1 (de) * | 1993-10-22 | 1995-06-01 | Ricoh Kk | Verfahren und Vorrichtung zur Verwendung von endlichen Automaten zur Durchführung einer Kanalmodulation und einer Fehlerkorrektur und einer Entropie-Kodierung |
DE4440838A1 (de) * | 1993-11-18 | 1995-05-24 | Israel State | System zum Kompaktieren und Rekonstruieren von Wellendaten |
DE4427656C1 (de) * | 1994-08-05 | 1995-11-23 | Deutsche Forsch Luft Raumfahrt | Verfahren zur Kompression und Dekompression von digitalen SAR-Rohdaten und Einrichtung zu deren Durchführung |
DE19505435C1 (de) * | 1995-02-17 | 1995-12-07 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19716862A1 (de) * | 1997-04-22 | 1998-10-29 | Deutsche Telekom Ag | Sprachaktivitätserkennung |
US6374211B2 (en) | 1997-04-22 | 2002-04-16 | Deutsche Telekom Ag | Voice activity detection method and device |
DE19730129A1 (de) * | 1997-07-14 | 1999-01-21 | Fraunhofer Ges Forschung | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
DE19730129C2 (de) * | 1997-07-14 | 2002-03-07 | Fraunhofer Ges Forschung | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
US6766293B1 (en) | 1997-07-14 | 2004-07-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method for signalling a noise substitution during audio signal coding |
Also Published As
Publication number | Publication date |
---|---|
DE59607864D1 (de) | 2001-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69412913T2 (de) | Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern | |
DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
DE60123651T2 (de) | Verfahren und vorrichtung zur robusten sprachklassifikation | |
DE69615119T2 (de) | Relaxation CELP (RCELP) Koder | |
DE69810754T2 (de) | Hochauflösendes nachbearbeitungsverfahren für einen sprachdekoder | |
DE60225381T2 (de) | Verfahren zur Kodierung von Sprach- und Musiksignalen | |
DE69926821T2 (de) | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen | |
DE69915830T2 (de) | Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem. | |
DE69604526T2 (de) | Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE69329511T2 (de) | Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten | |
DE60125219T2 (de) | Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder | |
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE60316396T2 (de) | Interoperable Sprachkodierung | |
EP1386307B2 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE60031002T2 (de) | Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife | |
US5781881A (en) | Variable-subframe-length speech-coding classes derived from wavelet-transform parameters | |
DE60017763T2 (de) | Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer | |
DE69911169T2 (de) | Verfahren zur dekodierung eines audiosignals mit korrektur von übertragungsfehlern | |
DE69832195T2 (de) | Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese | |
DE60224962T2 (de) | Verfahren und Vorrichtung zur Verschleierung von fehlerbehafteten Sprachrahmen | |
DE60212617T2 (de) | Vorrichtung zur sprachverbesserung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law |