[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE19538852A1 - Verfahren und Anordnung zur Klassifizierung von Sprachsignalen - Google Patents

Verfahren und Anordnung zur Klassifizierung von Sprachsignalen

Info

Publication number
DE19538852A1
DE19538852A1 DE19538852A DE19538852A DE19538852A1 DE 19538852 A1 DE19538852 A1 DE 19538852A1 DE 19538852 A DE19538852 A DE 19538852A DE 19538852 A DE19538852 A DE 19538852A DE 19538852 A1 DE19538852 A1 DE 19538852A1
Authority
DE
Germany
Prior art keywords
speech
frame
subframes
segment
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19538852A
Other languages
English (en)
Inventor
Joachim Dipl Ing Stegmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE19538852A priority Critical patent/DE19538852A1/de
Priority to AT96104213T priority patent/ATE206841T1/de
Priority to DE59607864T priority patent/DE59607864D1/de
Priority to ES96104213T priority patent/ES2165933T3/es
Priority to EP96104213A priority patent/EP0751495B1/de
Priority to NO961636A priority patent/NO309831B1/no
Priority to CA002188369A priority patent/CA2188369C/en
Priority to US08/734,657 priority patent/US5781881A/en
Publication of DE19538852A1 publication Critical patent/DE19538852A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Klassifizierung von Sprachsignalen nach dem Oberbegriff des Patentanspruchs 1 sowie eine Schaltungsanordnung zur Durchführung des Verfahrens.
Sprachcodierverfahren und zugehörige Schaltungsanordnungen zur Klassifizierung von Sprachsignalen für Bitraten unterhalb von 8 kbit pro Sekunde gewinnen zunehmend an Bedeutung.
Die Hauptanwendungen hierfür sind unter anderem bei Multiplexübertragung für bestehende Festnetze und in Mobilfunksystemen der dritten Generation zu sehen. Auch für die Bereitstellung von Diensten wie zum Beispiel Videophonie werden Sprachcodierverfahren in diesem Datenratenbereich benötigt.
Die meisten derzeit bekannten, hochqualitativen Sprachcodierverfahren für Datenraten zwischen 4 kbit/s und 8 kbit/s arbeiten nach dem Prinzip des Code Excited Linear Prediction (CELP)-Verfahrens wie es von Schroeder, M.R., Atal, B.S.: Code-Excited Linear Prediction (CELP): High Quality Speech at Very Low Bit Rates, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1985, erstmals beschrieben worden ist. Dabei wird das Sprachsignal durch lineare Filterung von Anregungsvektoren aus einem oder mehreren Codebüchern synthetisiert. In einem ersten Schritt werden die Koeffizienten des Kurzzeit-Synthesefilters durch LPC-Analyse aus dem Eingangs-Sprachvektor ermittelt und dann quantisiert. Im Anschluß daran werden die Anregungscodebücher durchsucht, wobei als Optimierungskriterium der perzeptuell gewichtete Fehler zwischen Original- und synthetisiertem Sprachvektor verwendet wird (⇒ Analyse durch Synthese). Übertragen werden schließlich nur die Indizes der optimalen Vektoren, aus denen der Decoder den synthetisierten Sprachvektor wieder erzeugen kann.
Viele dieser Codierverfahren, wie zum Beispiel der neue 8 kbit/s Sprachcoder von ITU-T, beschrieben in der Literaturstelle Study Group 15 Contribution - Q. 12/15: Draft Recommendation G.729 - Coding Of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code-Excited-Linear- Predictive (CS-ACELP) Coding, 1995, arbeiten mit einer festen Kombination von Codebüchern. Diese starre Anordnung berücksichtigt nicht die starken zeitlichen Änderungen der Eigenschaften des Sprachsignals und benötigt zur Codierung im Durchschnitt mehr Bits als erforderlich. Zum Beispiel bleibt das nur zur Codierung von periodischen Sprachabschnitten erforderliche adaptive Codebuch auch während eindeutig nichtperiodischer Segmente eingeschaltet.
Um zu niedrigeren Datenraten im Bereich um 4 kbit/s bei möglichst wenig abfallender Qualität zu gelangen, wurde deshalb in anderen Veröffentlichungen, zum Beispiel in Wang, S., Gersho, A.: Phonetically-Based Vector Excitation Coding of Speech at 3.6 kbit/s, Proceedings of IEEE International Conference On Acoustics, Speech and Signal Processing, 1989, vorgeschlagen, das Sprachsignal vor der Codierung in verschiedene typische Klassen einzuordnen. Im Vorschlag für das GSM-Halbratensystem wird das Signal auf Basis des Langzeit-Prädiktionsgewinns rahmenweise (alle 20 ms) in stimmhafte und stimmlose Abschnitte mit jeweils angepaßten Codebüchern eingeteilt, wodurch die Datenrate für die Anregung gesenkt und die Qualität gegenüber dem Vollratensystem weitgehend gleich bleibt. Bei einer allgemeineren Untersuchung wurde das Signal in die Klassen stimmhaft, stimmlos und Onset eingeteilt. Dabei wurde die Entscheidung rahmenweise (hier 11,25 ms) auf Basis von Parametern - wie unter anderem Nulldurchgangsrate, Reflexionskoeffizienten, Energie - durch lineare Diskriminierung gewonnen, siehe zum Beispiel Campbell, J., Tremain, T.: Voiced/Unvoiced Classification Of Speech with Application to the U.S. Gouvernment LPC-10e Algorithm, Proceedings of IEEE International Conference On Acoustics, Speech and Signal Processing, 1986. Jeder Klasse wird wiederum eine bestimmte Kombination von Codebüchern zugeordnet, so daß die Datenrate auf 3,6 kbit/s bei mittlerer Qualität gesenkt werden kann.
All diese bekannten Verfahren ermitteln das Ergebnis ihrer Klassifizierung aus Parametern, die durch Berechnung von Zeitmittelwerten aus einem Fenster konstanter Länge gewonnen wurden. Die zeitliche Auflösung ist also durch die Wahl dieser Fensterlänge fest vorgegeben. Verringert man die Fensterlänge, so sinkt auch die Genauigkeit der Mittelwerte. Erhöht man dagegen die Fensterlänge, so kann der zeitliche Verlauf der Mittelwerte dem Verlauf des instationären Sprachsignals nicht mehr folgen. Dies gilt besonders für stark instationäre Übergänge (Onsets) von stimmlosen auf stimmhafte Sprachabschnitte. Gerade die zeitlich richtige Reproduktion der Lage der ersten signifikanten Pulse stimmhafter Abschnitte ist aber wichtig für die subjektive Beurteilung eines Codierverfahrens. Weitere Nachteile herkömmlicher Klassifizierungsverfahren sind oftmals eine hohe Komplexität oder starke Abhängigkeit von in der Praxis immer vorhandenen Hintergrundgeräuschen.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und einen Klassifizierer von Sprachsignalen für die signalangepaßte Steuerung von Sprachcodierverfahren zur Senkung der Bitrate bei gleichbleibender Sprachqualität bzw. zur Erhöhung der Qualität bei gleicher Bitrate zu schaffen, die das Sprachsignal mit Hilfe der Wavelet- Transformation für jeden Zeitraum klassifizieren, wobei sowohl eine hohe Auflösung im Zeitbereich als auch im Frequenzbereich erreicht werden soll.
Die Lösung für das erfindungsgemäße Verfahren ist im Kennzeichen des Patentanspruchs 1 charakterisiert und die für den Klassifizierer im Kennzeichen des Patentanspruchs 5.
Weitere Lösungen bzw. Ausgestaltungen der Erfindung ergeben sich aus den Kennzeichen der Patentansprüche 2-4.
Hier werden ein Verfahren und eine Anordnung beschrieben, die das Sprachsignal auf Basis der Wavelet-Transformation für jeden Zeitrahmen klassifizieren. Dadurch kann - den Anforderungen des Sprachsignals entsprechend - sowohl eine hohe Auflösung im Zeitbereich (Lokalisierung von Pulsen) als auch im Frequenzbereich (gute Mittelwerte) erreicht werden. Die Klassifizierung eignet sich deshalb besonders zur Steuerung bzw. Auswahl von Codebüchern in einem niederratigen Sprachcoder. Dabei weist das Verfahren und die Anordnung eine hohe Unempfindlichkeit gegenüber Hintergrundgeräuschen sowie eine niedrige Komplexität auf. Bei der Wavelet-Transformation handelt es sich - ähnlich der Fourier-Transformation - um ein mathematisches Verfahren zur Bildung eines Modells für ein Signal oder System. Im Gegensatz zur Fourier-Transformation kann man aber im Zeit- und Frequenz- bzw. Skalierungsbereich die Auflösung den Anforderungen entsprechend flexibel anpassen. Die Basisfunktionen der Wavelet-Transformation werden durch Skalierung und Verschiebung aus einem sogenannten Mother-Wavelet erzeugt und haben Bandpaßcharakter. Die Wavelet-Transformation ist somit erst durch Angabe des zugehörigen Mother-Wavelets eindeutig definiert. Hintergründe und Details zur mathematischen Theorie sind beispielsweise aufgezeigt von Rioul O., Vetterli, M.: Wavelets and Signal Processing, IEEE Signal Processing Magazine, Oct. 1991.
Aufgrund ihrer Eigenschaften eignet sich die Wavelet- Transformation gut zur Analyse instationärer Signale. Ein weiterer Vorteil ist die Existenz schneller Algorithmen, mit denen eine effiziente Berechnung der Wavelet- Transformation durchgeführt werden kann. Erfolgreiche Anwendungen im Bereich der Signalverarbeitung findet man unter anderem in der Bildcodierung, bei Breitbandkorrelationsverfahren (zum Beispiel für Radar) sowie zur Sprachgrundfrequenzschätzung, wie unter anderem aus den folgenden Literaturstellen hervorgeht. Mallat, S., Zhong, S.: Characterization of Signals from Multiscale Edges, IEEE Transactions on Pattern Analysis and Machine Intelligence, July, 1992 sowie Kadambe, S. Boudreaux- Bartels, G.F.: Applications of the Wavelet Transform for Pitch Detection of Speech Signals, IEEE Transactions on Information Theory, March 1992.
Die Erfindung wird im folgenden anhand eines Ausführungsbeispiels näher beschrieben. Für die Beschreibung des Verfahrens soll der prinzipielle Aufbau eines Klassifizierers nach Fig. 1 verwendet werden. Zunächst erfolgt die Segmentierung des Sprachsignals. Das Sprachsignal wird in Segmente konstanter Länge eingeteilt, wobei die Länge der Segmente zwischen 5 ms und 40 ms betragen soll. Zur Vermeidung von Randeffekten bei der sich anschließenden Transformation kann eine der drei folgenden Techniken angewandt werden:
  • - Das Segment wird an den Grenzen gespiegelt.
  • - Die Wavelet-Transformation wird im kleineren Intervall (L/2,N-L/2) berechnet und der Rahmen nur um den konstanten Versatz L/2 verschoben, so daß die Segmente überlappen. Dabei ist L die Länge eines auf den zeitlichen Ursprung zentrierten Wavelets, wobei die Bedingung N<L gelten muß.
  • - An den Rändern des Segmentes wird mit den vorangegangenen bzw. zukünftigen Abtastwerten aufgefüllt.
Danach erfolgt eine diskrete Wavelet-Transformation. Für ein solches Segment s(k), wird eine zeitdiskrete Wavelet-Transformation (DWT) Sh(m, n) bezüglich eines Wavelets h(k) mit den ganzzahligen Parametern Skalierung in und Zeitverschiebung n berechnet. Diese Transformation ist durch
definiert, wobei Nu und N₀ die durch die gewählte Segmentierung vorgegebene untere bzw. obere Grenze des Zeitindex k darstellen. Die Transformation muß nur für den Skalierungsbereich 0<m<M und den Zeitbereich im Intervall (O, N) berechnet werden, wobei die Konstante M in Abhängigkeit von a₀ so groß gewählt werden muß, daß die niedrigsten Signalfrequenzen im Transformationsbereich noch ausreichend gut repräsentiert werden.
Zur Klassifizierung von Sprachsignalen reicht es in der Regel aus, das Signal zu dyadischen Skalierungen (a₀=2) zu betrachten. Läßt sich das Wavelet h(k) durch eine sogenannte "Multiresolution-Analyse" gemäß Rioul, Vetterli mittels einer iterierten Filterbank darstellen, so kann man zur Berechnung der dyadischen Wavelet-Transformation in der Literatur angegebene effiziente, rekursive Algorithmen verwenden. In diesem Fall (a₀=2) ist eine Zerlegung bis maximal M=6 ausreichend. Für die Klassifizierung eignen sich besonders Wavelets mit wenigen signifikanten Oszillationszyklen, aber dennoch möglichst glattem Funktionsverlauf. Beispielsweise können kubische Spline-Wavelets oder orthogonale Daubechies-Wavelets geringer Länge verwendet werden.
Hiernach erfolgt die Klasseneinteilung. Das Sprachsegment wird auf Basis der Transformationskoeffizienten in Klassen eingeteilt. Um eine ausreichend feine Zeitlauflösung zu erreichen, wird das Segment noch in P Subrahmen eingeteilt, so daß für jeden Subrahmen ein Klassifizierungsergebnis ausgegeben wird. Für einen Einsatz in niederratigen Sprachcodierverfahren wurde die Unterscheidung der folgenden Klassen vorgenommen:
  • (1) Hintergrundrauschen/stimmlos,
  • (2) Signalübergänge/"voicing onsets",
  • (3) Periodisch/stimmhaft.
Beim Einsatz in bestimmten Codierverfahren kann es sinnvoll sein, die periodische Klasse noch weiter aufzuteilen, etwa in Abschnitte mit überwiegend tieffrequenter Energie oder eher gleichmäßig verteilter Energie. Optional kann deshalb auch eine Unterscheidung von mehr als drei Klassen durchgeführt werden.
Im Anschluß daran erfolgt in einem entsprechenden Prozessor die Parameterberechnung. Zunächst wird aus den Transformationskoeffizienten Sh(m,n) ein Satz von Parametern bestimmt, mit deren Hilfe dann anschließend die endgültige Klasseneinteilung vorgenommen werden kann. Die Auswahl der Parameter Skalierungs-Differenzmaß (P₁), zeitliches Differenzmaß (P₂) und Periodizitätsmaß (P₃) erwiesen sich dabei als besonders günstig, da sie einen direkten Bezug zu den definierten Klassen (1) bis (3) aufweisen.
  • - Für P₁ wird die Varianz der Energie der DWT- Transformationskoeffizienten über alle Skalierungsbereiche berechnet. Auf Basis dieses Parameters kann rahmenweise - also für ein relativ grobes Zeitraster - festgestellt werden, ob das Sprachsignal stimmlos ist bzw. nur Hintergrundrauschen vorliegt.
  • - Um P₂ zu ermitteln, wird zunächst die mittlere Energiedifferenz der Transformationskoeffizienten zwischen dem aktuellen und dem vergangen Rahmen berechnet. Nun werden für Transformationskoeffizienten feiner Skalierungsstufe (m klein) die Energiedifferenzen zwischen benachbarten Subrahmen ermittelt und mit der Energiedifferenz für den Gesamtrahmen verglichen. Dadurch kann ein Maß für die Wahrscheinlichkeit eines Signalübergangs (zum Beispiel stimmlos auf stimmhaft) für jeden Subrahmen - also für ein feines Zeitraster - bestimmt werden.
  • - Für P₃ werden rahmenweise die lokalen Maxima von Transformationskoeffizienten grober Skalierungsstufe (m nahe bei M) bestimmt und geprüft, ob diese in regelmäßigen Abständen auftreten. Als lokale Maxima werden dabei die Spitzen bezeichnet, die einen gewissen Prozentsatz T des globalen Maximums des Rahmens übersteigen.
Die für diese Parameterberechnungen erforderlichen Schwellwerte werden in Abhängigkeit vom aktuellen Pegel des Hintergrundgeräusches adaptiv gesteuert, wodurch die Robustheit des Verfahrens in gestörter Umgebung gesteigert wird.
Darauffolgend wird die Auswertung vorgenommen. Die drei Parameter werden der Auswerteeinheit in Form von "Wahrscheinlichkeiten" (auf den Wertebereich (0,1) abgebildete Größen) zugeführt. Die Auswerteeinheit selbst trifft das endgültige Klassifizierungsergebnis für jeden Subrahmen auf Basis eines Zustandsmodells. Dadurch wird das Gedächtnis der für vorangegangene Subrahmen getroffenen Entscheidungen berücksichtigt. Außerdem werden nicht sinnvolle Übergänge, wie zum Beispiel direkter Sprung von "stimmlos" auf "stimmhaft", verboten. Als Ergebnis wird schließlich pro Rahmen ein Vektor mit P Komponenten ausgegeben, der das Klassifizierungsergebnis für die P Subrahmen enthält.
In den Fig. 2a und 2b sind die Klassifizierungsergebnisse für das Sprachsegment " . . . parcel, I′d like . . . " einer englischen Sprecherin exemplarisch dargestellt. Dabei wurden die Sprachrahmen der Länge 20 ms in vier equidistante Subrahmen zu jeweils 5 ms eingeteilt. Die DWT wurde nur für dyadische Skalierungsschritte ermittelt und auf Basis von kubischen Spline-Wavelets mit Hilfe einer rekursiven Filterbank implementiert. Die drei Signalklassen werden mit 0,1,2 in der gleichen Reihenfolge wie oben bezeichnet. Für Fig. 2a wurde Telefonband-Sprache (200 Hz bis 3400 Hz) ohne Störung verwendet, während für Fig. 2b zusätzlich Fahrzeuggeräusche mit einem durchschnittlichen Signal-Rausch-Abstand von 10 dB überlagert wurden. Der Vergleich der beiden Abbildungen zeigt, daß das Klassifizierungsergebnis nahezu unabhängig vom Rauschpegel ist. Mit Ausnahme kleinerer Unterschiede, die für Anwendungen in der Sprachcodierung irrelevant sind, werden die perzeptuell wichtigen periodischen Abschnitte sowie deren Anfangs- und Endpunkte in beiden Fällen gut lokalisiert. Durch Auswertung einer großen Vielfalt unterschiedlichen Sprachmaterials ergab sich, daß der Klassifizierungsfehler deutlich unter 5% für Signal-Rausch- Abstände oberhalb 10 dB liegt.
Der Klassifizierer wurde zusätzlich für folgenden typischen Anwendungsfall getestet: Ein CELP-Codierverfahren arbeitet bei einer Rahmenlänge von 20 ms und teilt diesen Rahmen zur effizienten Anregungscodierung in vier Subrahmen à 5 ms ein. Für jeden Subrahmen soll entsprechend der drei oben genannten Signalklassen auf Basis des Klassifizierers eine angepaßte Kombination von Codebüchern verwendet werden. Es wurde für jede Klasse ein typisches Codebuch mit jeweils 9 Bit/Subrahmen zur Codierung der Anregung eingesetzt, wodurch sich eine Bitrate von lediglich 1800 Bit/s für die Anregungscodierung (ohne Gain) ergab. Es wurden für die stimmlose Klasse ein Gauß′sches Codebuch, für die Onset-Klasse ein Zwei-Puls-Codebuch und für die periodische Klasse ein adaptives Codebuch verwendet. Schon für diese einfache, mit festen Subrahmenlängen arbeitende Konstellation von Codebüchern ergab sich eine gut verständliche Sprachqualität, jedoch noch mit rauhem Klang in periodischen Abschnitten. Zum Vergleich sei erwähnt, daß in ITU-T, Study Group 15 Contribution- Q. 12/15: Draft Recommendation G. 729 - Coding Of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code-Excited-Linear- Predictive (CS-ACELP) Coding, 1995, für die Codierung der Anregung (ohne Gain) 4800 Bit/s benötigt werden, um Leitungsqualität zu erzielen. Selbst in Gerson, I. et al., Speech and Channel Coding for the Half-Rate GSM Channel, ITG-Fachbericht "Codierung für Quelle, Kanal und Übertragung", 1994, werden dafür noch 2800 bit/s verwendet, um Mobilfunkqualität sicherzustellen.

Claims (5)

1. Verfahren zur Klassifizierung von Sprache, insbesondere Sprachsignalen für die signalangepaßte Steuerung von Sprachcodierverfahren zur Senkung der Bitrate bei gleichbleibender Sprachqualität oder zur Erhöhung der Qualität bei gleicher Bitrate, dadurch gekennzeichnet, daß nach einer Segmentierung des Sprachsignals für jeden gebildeten Rahmen eine Wavelet-Transformation berechnet wird, aus der mit Hilfe adaptiver Schwellen ein Satz Parameter (P₁ - ₃) ermittelt wird, die ein Zustandsmodell steuern, das den Sprachrahmen in Unterrahmen aufteilt und jeden dieser Unterrahmen in eine von mehreren, für die Sprachcodierung typische Klassen unterteilt.
2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, daß das Sprachsignal in Segmente konstanter Länge eingeteilt wird, und daß zur Vermeidung von Randeffekten bei der sich anschließenden Wavelet- Transformation entweder das Segment an den Grenzen gespiegelt wird, oder die Wavelet-Transformation im kleineren Intervall (L/2, N-L/2) berechnet wird und der Rahmen nur um den konstanten Versatz L/2 verschoben wird, so daß die Segmente sich überlappen oder daß an den Rändern des Segments mit den vorangegangenen bzw. zukünftigen Abtastwerten aufgefüllt wird.
3. Verfahren nach Patentanspruch 1 oder 2, dadurch gekennzeichnet, daß für ein Segment s(k) eine zeitdiskrete Wavelet- Transformation (DWT) Sh(mn) bezüglich eines Wavelets h(k) mit den ganzzahligen Parametern Skalierung in und Zeitverschiebung n berechnet wird, und daß das Segment auf Basis der Transformationskoeffizienten in Klassen eingeteilt wird, insbesondere zur Erreichung einer feinen Zeitauflösung noch in P Subrahmen eingeteilt und für jeden Subrahmen ein Klassifizierungsergebnis errechnet und ausgegeben wird.
4. Verfahren nach einem der Patentansprüche 1-3, dadurch gekennzeichnet, daß aus dem Transformationskoeffizienten Sh(mn) ein Satz von Parametern, insbesondere Skalierungs-Differenzmaß (P₁), zeitliches Differenzmaß (P₂) und Periodizitätsmaß (P₃) bestimmt wird, mit deren Hilfe dann anschließend die endgültige Klasseneinteilung vorgenommen wird, wobei die für diese Parameterberechnungen erforderlichen Schwellwerte in Abhängigkeit vom aktuellen Pegel des Hintergrundgeräusches adaptiv gesteuert werden.
5. Anordnung, insbesondere Klassifizierer zur Durchführung des Verfahrens nach einem der Patentansprüche 1-4, dadurch gekennzeichnet, daß die Eingangssprache einer Segmentierungs­ einrichtung zugeführt wird, daß nach der Segmentierung der Eingangssprache für jeden gebildeten Rahmen bzw. für jedes gebildete Segment durch einen Prozessor eine diskrete Wavelet-Transformation berechnet wird, daß daraus mit Hilfe adaptiver Schwellen ein Satz Parameter (P₁ - P₃) ermittelt wird, die als Eingangsgrößen einem Zustandsmodell zugeführt werden, das seinerseits den Sprachrahmen in Unterrahmen aufteilt und jeden dieser Unterrahmen in eine von mehreren für die Sprachcodierung typische Klassen einteilt.
DE19538852A 1995-06-30 1995-10-19 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen Pending DE19538852A1 (de)

Priority Applications (8)

Application Number Priority Date Filing Date Title
DE19538852A DE19538852A1 (de) 1995-06-30 1995-10-19 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
AT96104213T ATE206841T1 (de) 1995-06-30 1996-03-16 Verfahren und anordnung zur klassifizierung von sprachsignalen
DE59607864T DE59607864D1 (de) 1995-06-30 1996-03-16 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
ES96104213T ES2165933T3 (es) 1995-06-30 1996-03-16 Procedimiento y dispositivo de clasificacion de las señales del habla.
EP96104213A EP0751495B1 (de) 1995-06-30 1996-03-16 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
NO961636A NO309831B1 (no) 1995-06-30 1996-04-24 FremgangsmÕte og anordning for klassifisering av talesignaler
CA002188369A CA2188369C (en) 1995-10-19 1996-10-21 Method and an arrangement for classifying speech signals
US08/734,657 US5781881A (en) 1995-10-19 1996-10-21 Variable-subframe-length speech-coding classes derived from wavelet-transform parameters

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19523598 1995-06-30
DE19538852A DE19538852A1 (de) 1995-06-30 1995-10-19 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen

Publications (1)

Publication Number Publication Date
DE19538852A1 true DE19538852A1 (de) 1997-01-02

Family

ID=7765525

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19538852A Pending DE19538852A1 (de) 1995-06-30 1995-10-19 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
DE59607864T Expired - Lifetime DE59607864D1 (de) 1995-06-30 1996-03-16 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE59607864T Expired - Lifetime DE59607864D1 (de) 1995-06-30 1996-03-16 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen

Country Status (1)

Country Link
DE (2) DE19538852A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19716862A1 (de) * 1997-04-22 1998-10-29 Deutsche Telekom Ag Sprachaktivitätserkennung
DE19730129A1 (de) * 1997-07-14 1999-01-21 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4203436A1 (de) * 1991-02-06 1992-08-13 Koenig Florian Datenreduzierte sprachkommunikation
EP0519802A1 (de) * 1991-06-18 1992-12-23 Sextant Avionique Verfahren zur Sprachsynthese unter Verwendung von Wellenstückchen
DE4237563A1 (de) * 1991-11-06 1993-05-19 Korea Telecommunication
GB2272554A (en) * 1992-11-13 1994-05-18 Creative Tech Ltd Recognizing speech by using wavelet transform and transient response therefrom
DE4315315A1 (de) * 1993-05-07 1994-11-10 Ant Nachrichtentech Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen
DE4315313A1 (de) * 1993-05-07 1994-11-10 Ant Nachrichtentech Vektorcodierverfahren insbesondere für Sprachsignale
DE4340591A1 (de) * 1993-04-13 1994-11-17 Hewlett Packard Co Datenkompressionsverfahren unter Verwendung kleiner Wörterbücher zur Anwendung auf Netzwerkpakete
DE4440838A1 (de) * 1993-11-18 1995-05-24 Israel State System zum Kompaktieren und Rekonstruieren von Wellendaten
DE4437790A1 (de) * 1993-10-22 1995-06-01 Ricoh Kk Verfahren und Vorrichtung zur Verwendung von endlichen Automaten zur Durchführung einer Kanalmodulation und einer Fehlerkorrektur und einer Entropie-Kodierung
DE4427656C1 (de) * 1994-08-05 1995-11-23 Deutsche Forsch Luft Raumfahrt Verfahren zur Kompression und Dekompression von digitalen SAR-Rohdaten und Einrichtung zu deren Durchführung
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4203436A1 (de) * 1991-02-06 1992-08-13 Koenig Florian Datenreduzierte sprachkommunikation
EP0519802A1 (de) * 1991-06-18 1992-12-23 Sextant Avionique Verfahren zur Sprachsynthese unter Verwendung von Wellenstückchen
DE4237563A1 (de) * 1991-11-06 1993-05-19 Korea Telecommunication
GB2272554A (en) * 1992-11-13 1994-05-18 Creative Tech Ltd Recognizing speech by using wavelet transform and transient response therefrom
DE4340591A1 (de) * 1993-04-13 1994-11-17 Hewlett Packard Co Datenkompressionsverfahren unter Verwendung kleiner Wörterbücher zur Anwendung auf Netzwerkpakete
DE4315315A1 (de) * 1993-05-07 1994-11-10 Ant Nachrichtentech Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen
DE4315313A1 (de) * 1993-05-07 1994-11-10 Ant Nachrichtentech Vektorcodierverfahren insbesondere für Sprachsignale
DE4437790A1 (de) * 1993-10-22 1995-06-01 Ricoh Kk Verfahren und Vorrichtung zur Verwendung von endlichen Automaten zur Durchführung einer Kanalmodulation und einer Fehlerkorrektur und einer Entropie-Kodierung
DE4440838A1 (de) * 1993-11-18 1995-05-24 Israel State System zum Kompaktieren und Rekonstruieren von Wellendaten
DE4427656C1 (de) * 1994-08-05 1995-11-23 Deutsche Forsch Luft Raumfahrt Verfahren zur Kompression und Dekompression von digitalen SAR-Rohdaten und Einrichtung zu deren Durchführung
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19716862A1 (de) * 1997-04-22 1998-10-29 Deutsche Telekom Ag Sprachaktivitätserkennung
US6374211B2 (en) 1997-04-22 2002-04-16 Deutsche Telekom Ag Voice activity detection method and device
DE19730129A1 (de) * 1997-07-14 1999-01-21 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
DE19730129C2 (de) * 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
US6766293B1 (en) 1997-07-14 2004-07-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method for signalling a noise substitution during audio signal coding

Also Published As

Publication number Publication date
DE59607864D1 (de) 2001-11-15

Similar Documents

Publication Publication Date Title
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE69615119T2 (de) Relaxation CELP (RCELP) Koder
DE69810754T2 (de) Hochauflösendes nachbearbeitungsverfahren für einen sprachdekoder
DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60316396T2 (de) Interoperable Sprachkodierung
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
US5781881A (en) Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE69911169T2 (de) Verfahren zur dekodierung eines audiosignals mit korrektur von übertragungsfehlern
DE69832195T2 (de) Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese
DE60224962T2 (de) Verfahren und Vorrichtung zur Verschleierung von fehlerbehafteten Sprachrahmen
DE60212617T2 (de) Vorrichtung zur sprachverbesserung

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law