DE10252327A1 - Process for widening the bandwidth of a narrow band filtered speech signal especially from a telecommunication device divides into signal spectral structures and recombines - Google Patents
Process for widening the bandwidth of a narrow band filtered speech signal especially from a telecommunication device divides into signal spectral structures and recombines Download PDFInfo
- Publication number
- DE10252327A1 DE10252327A1 DE2002152327 DE10252327A DE10252327A1 DE 10252327 A1 DE10252327 A1 DE 10252327A1 DE 2002152327 DE2002152327 DE 2002152327 DE 10252327 A DE10252327 A DE 10252327A DE 10252327 A1 DE10252327 A1 DE 10252327A1
- Authority
- DE
- Germany
- Prior art keywords
- speech signal
- generated
- narrowband
- broadband
- spectral structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000003595 spectral effect Effects 0.000 title claims abstract description 71
- 230000008569 process Effects 0.000 title abstract description 8
- 239000013589 supplement Substances 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000007792 addition Methods 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 16
- 230000005284 excitation Effects 0.000 description 9
- 230000007774 longterm Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Die vorliegende Erfindung betrifft ein Verfahren zur Erweiterung der Brandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals gemäß dem Oberbegriff des Patentanspruches 1.The present invention relates to a method of expanding the bandwidth of a narrowband filtered speech signal, in particular a speech signal sent by a telecommunication device according to the generic term of claim 1.
Sprachcodierverfahren sind durch ihre unterschiedlichen Bandbreiten charakterisiert. So gibt es beispielsweise Schmalband-Codierer (engl.: narrow-band coder), welche Sprachsignale, die im Frequenzbereich bis 4000 Hz liegen, in codierte Sprachsignale umsetzen und Breitband-Codierer (engt.: wideband coder), welche Sprachsignale, die typischerweise zwischen 50 und 7000 Hz liegen, in codierte Sprachsignale umsetzen. Die Sprachsignale, die dem Schmalband-Codierer zugeführt werden, werden dabei in der Regel mit einer geringeren Abtastrate abgetastet als die Sprachsignale, die dem Breitband-Codierer zugeführt werden. Dafür ist die Nettobitrate des Schmalband-Codierers in der Regel niedriger als die Nettobitrate des Breitband-Codierers.Speech coding procedures are through characterized their different bandwidths. For example, there is Narrow-band coder, which speech signals, which are in the frequency range up to 4000 Hz, in coded speech signals implement and broadband encoder (narrow: wideband coder) which Speech signals, which are typically between 50 and 7000 Hz, convert into coded speech signals. The speech signals sent to the narrowband encoder supplied are, as a rule, with a lower sampling rate sampled as the speech signals that are supplied to the broadband encoder. For that is the net bit rate of the narrowband encoder is usually lower than the net bit rate of the broadband encoder.
Werden die codierten Sprachsignale verschiedener Bandbreite innerhalb des gleichen Kanalmodus übertragen, so ermöglicht dies die Anwendung verschiedener Raten bei der Kanalcodierung, was zu unterschiedlichem Fehlerschutz führt. So ist es bei Anwendung des gleichen Kanalmodus möglich, bei schlechten Übertragungsbedingungen über den Übertragungskanal den schmalbandigen codierten Sprachsignalen im Zuge der Kanalcodierung mehr redundante Fehlerschutzbits hinzuzufügen als den breitbandigen codierten Sprachsignalen. Daher bietet sich bei variierenden Übertragungsbedingungen die Übertragung von Sprachsignalen über einen Übertragungskanal an, bei der ab hängig von den Übertragungsbedingungen die Sprachcodierung zwischen einer breitbandigen und einer schmalbandigen Sprachcodierung umgeschaltet ["Wide-Band" to Narrow-Band"-Switching ("WB/NB"-Switching)] und die Kanalcodierung, insbesondere die Rate der Kanalcodierung, daran angepaßt wird. Empfangsseitig erfolgt eine an die Codierung angepaßte Decodierung der codierten Sprachsignale.Will the coded speech signals transmit different bandwidth within the same channel mode, so enables this the application of different rates in channel coding what leads to different error protection. So it is with application the same channel mode possible, in the event of poor transmission conditions via the transmission channel the narrow-band coded speech signals in the course of channel coding more add redundant error protection bits than the broadband encoded Speech signals. Therefore, it offers itself with varying transmission conditions the transfer of voice signals over a transmission channel dependent on from the transmission conditions the speech coding between a broadband and a narrowband speech coding switched ["wide-band" to narrow-band "switching (" WB / NB "switching)] and the channel coding, in particular the rate of the channel coding, thereon customized becomes. At the receiving end there is a decoding adapted to the coding the coded speech signals.
Bei dem neuen Telekommunikationssystem zur drahtlosen Telekommunikation UMTS (Universal Mobile Telecommunications System") ist beispielsweise eine Breitband-Codierung standardisiert worden, um mit den zukünftigen UMTS-Endgeräten eine sehr gute Sprachqualität zu gewährleisten.With the new telecommunication system for wireless telecommunications UMTS (Universal Mobile Telecommunications System ") is for example Broadband coding has been standardized to match future ones UMTS terminals a very good voice quality to ensure.
Nachteilig bei einem derartigen Ansatz ist, dass ein empfangender Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfindet.A disadvantage of such an approach is that a receiving participant especially the sudden Switch from broadband coding to narrowband coding and the associated loss of quality feels extremely disturbing.
Dieses sogenannte "WB/NB-Switching"-Problem kann auch bei der Handover-Situation in Telekommunikationssystemen zur drahtlosen Telekommunikation mit mehreren Basisstationen und Mobilteilen, wobei die Basisstationen unterschiedlichen Telekommunikationsteilsystemen zugeordnet sind und die Mobilteilen innerhalb des Systems für ein teilsystemübergreifendes Roaming als Dual-Mode-Mobilteilen ausgebildet sind, auftreten: Ausgangspunkt der Betrachtungen ist eine bestehende breitbandige Gesprächsverbindung zwischen einer Basisstation und einem Mobilteil. Wenn nun für das Mobilteil bzw. den Gesprächsteilnehmer eine Übergabe (Handover) an eine andere Basisstation durchgeführt wird, kann der Fall eintreten, dass die übernehmende Basisstation zu einem Teilsystem gehört, welches den breitbandigen Sprachservice nicht unterstützt. Aus diesem Grunde wird dann auf die schmalbandige Codierung und Decodierung zurückgeschaltet.This so-called "WB / NB switching" problem can also in the handover situation in telecommunication systems for wireless Telecommunications with multiple base stations and handsets, where the base stations different telecommunication subsystems are assigned and the handsets within the system for a cross-subsystem Roaming as dual-mode handsets occur: starting point of the Considerations is an existing broadband call connection between a base station and a handset. If now for the handset or the participant a handover (Handover) to another base station, the case can occur that the takeover Base station belongs to a subsystem that the broadband Voice service not supported. For this reason, the narrowband coding and Decoding switched back.
Auch in diesem Szenario wird der empfangende Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfinden.In this scenario too receiving subscribers in particular the sudden switching of broadband coding on narrowband coding and the associated loss of quality find it extremely disturbing.
Basisstationen, die wie oben beschrieben keine breitbandige Gesprächsverbindung unterstützen, sowie andere Telekommunikationsendgeräte, welche lediglich Schmalband-Codierung oder analoge Sprachsignalübertragung im Bereich von typisch 300 bis 3400 Hz ermöglichen, sind noch weit verbreitet, da die bisher bekannten Telekommunikationssysteme Sprachsignale bisher im Allgemeinen mit einer Bandbreite von etwa 3,1 kHz zwischen 3400 Hz und 300 Hz übertragen, da die Verständlichkeit der Kommunikation trotz der damit gegebenen Bandbegrenzung der Sprache ausreichend ist. Zur Übertragung der Sprachsignale verwenden die bisher bekannten Telekommunikationssysteme dabei verschiedene digitale und analoge Codierverfahren.Base stations that do not, as described above broadband call connection support, as well as other telecommunications terminals, which are only narrowband coding or analog voice signal transmission in the typical 300 to 3400 Hz range are still widespread, since the previously known telecommunications systems voice signals so far generally with a bandwidth of about 3.1 kHz between 3400 Hz and 300 Hz transmitted, because the intelligibility communication in spite of the given band limitation of the language is sufficient. To transfer the Voice signals use the previously known telecommunication systems various digital and analog coding methods.
Um eine Qualitätsverbesserung derart zu erzielen, dass eine Sprachqualität in Telekommunikationssystemen mit der Sprachqualität bei Radio- und Fernsehsignalen vergleichbar ist, wird es erforderlich, Frequenzanteile der Sprache, die über die Bandbreite von 300 Hz bis 3400 Hz hinausgehen, empfängerseitig abzuschätzen und zu synthetisieren.To achieve a quality improvement like this that a voice quality in telecommunication systems with the voice quality at radio and television signals is comparable, it becomes necessary to share frequencies the language that over the bandwidth goes from 300 Hz to 3400 Hz on the receiver side estimate and synthesize.
Im Stand der Technik sind verschiedene Verfahren bekannt, die eine Erweiterung der Bandbreite eines schmalbandigen Sprachsignals ermöglichen.There are several in the prior art Known methods of expanding the bandwidth of a narrowband Enable speech signal.
In vielen Verfahren der digitalen Sprachcodierung wird das digitale Sprachsignal zur Weiterverarbeitung und Übertragung in Koeffizienten, welche die spektrale Grobstruktur eines Signalabschnitts beschreiben, und ein sogenanntes Restsignal (auch Prädiktionsfehlersignal genannt) aufgespalten, welches die spektrale Feinstruktur bildet. Dieses Restsignal enthält nicht mehr die spektrale Einhüllende des Sprachsignals, wel the durch die Koeffizienten, die die spektrale Grobstruktur beschreiben, repräsentiert wird.In many digital processes Speech coding becomes the digital speech signal for further processing and transmission in coefficients that represent the spectral rough structure of a signal section describe, and a so-called residual signal (also prediction error signal called) split, which forms the spectral fine structure. This Contains residual signal no longer the spectral envelope of the speech signal, wel the by the coefficients that the spectral Describe rough structure, represented becomes.
Auf der Decoderseite werden diese beiden – meist quantisiert übertragenen – Teile, welche die spektrale Grob- und Feinstruktur beschrieben, wieder zusammengefügt und bilden das decodierte Sprachsignal.On the decoder side, these two - mostly quantized transmitted - parts that describe the spectral coarse and fine structure, put together again and form the decoded speech signal.
Eine typische Repräsentation für die spektrale Grobstruktur bilden die LPC-Koeffizienten, welche ein rekursives Filter (sogenanntes Synthesefilter) beschreiben, dessen übertragungsfunktion der spektralen Grobstruktur entspricht. Diese Koeffizienten werden in ihrer eigentlichen oder einer transformierten Form in vielen Sprachcodern verwendet. Hierbei wird auf Empfängerseite das empfangene Restsignal als Eingangssignal für das Synthesefilter verwendet, so dass am Ausgang des Filters das rekonstruierte Sprachsignal verfügbar ist. Die LPC-Koeffizienten sind folglich eine Repräsentation der spektralen Grobstruktur eines Sprachsignalsabschnitts und können unter Verwendung eines passenden Anregungssignals zur Synthese von Sprachsignalen verwendet werden.A typical representation for the spectral coarse structure form the LPC coefficients, which one describe recursive filter (so-called synthesis filter), its transfer function corresponds to the rough spectral structure. These coefficients will be in its actual or a transformed form in many Voice encoders used. Here, the received residual signal on the receiver side as an input signal for uses the synthesis filter, so that at the output of the filter reconstructed speech signal available is. The LPC coefficients are therefore a representation the rough spectral structure of a speech signal section and can under Use of a suitable excitation signal for the synthesis of speech signals be used.
Aus der Druckschrift – Carl, H.; Heute, U.: „Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 – ist ein Verfahren zur Erweiterung der Bandbreite im oberen Frequenzbereich bekannt, das zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) basiert, die eine Relation zwischen den LPC-Koeffizienten (Linear Predictive Coding, lineare Prädiktionscodierung) eines schmalbandigen Sprachsignalabschnitts und denen eines breitbandigen Sprachsignalabschnitts bilden. Das hat zur Folge, dass die Codebücher gleichzeitig mit schmalbandiger und breitbandiger Sprache trainiert und im Kommunikationsendgerät abgespeichert werden müssen.From the publication - Carl, H.; Today, U .: “Bandwidth Enhancement of Narrow-Band Speech Signals ", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 - is a method for expanding the bandwidth in the upper frequency range known to evaluate the statistical properties of a narrowband speech signal on special language data books, the so-called code books (Codebooks) based, which is a relation between the LPC coefficients (Linear Predictive Coding) of a narrowband Speech signal section and those of a broadband speech signal section form. As a result, the code books simultaneously with narrowband and broadband language trained and stored in the communication terminal Need to become.
Außerdem wird aus dem schmalbandigen Restsignal, das durch die lineare Prädiktionsanalyse des schmalbandigen Sprachsignals erzeugt wurde, ein breitbandiges Anregungssignal erzeugt, welches Frequenzkomponenten oberhalb der Bandbreite des schmalbandigen Sprachsignals enthält.In addition, the narrowband residual signal, that by the linear prediction analysis of the narrowband speech signal was generated, a broadband excitation signal generates which frequency components are above the bandwidth of the narrowband Contains voice signal.
Versuche haben gezeigt, dass die aus den Codebüchern mittels LPC-Koeffizienten erhaltenen spektralen Grobstrukturen für das abzuschätzende Frequenzband häufig fehlerhaft sind, also z.B. bei stimmhaften Lauten zu viel Energie für das obere Frequenzband abschätzen, was zu einer schlechten Qualität der Bandbreitenerweiterung führt.Trials have shown that the from the code books Spectral coarse structures obtained by means of LPC coefficients for the frequency band to be estimated frequently are faulty, e.g. too much energy with voiced sounds for the estimate upper frequency band, resulting in poor quality the bandwidth expansion leads.
Aus der nachveröffentlichten Internationalen Anmeldung PCT/DE01/01826 ist ein alternatives Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals bekannt. Bei diesem Verfahren wird auf Basis des schmalbandigen Sprachsignals detektiert, ob das schmalbandige Sprachsignal einem stimmhaften Laut, einem stimmlosen Laut oder einer Kombination stimmhaft/stimmlos entspricht, und aufgrund der detektierten Lautart wird eine Auswahl getroffen, wie das schmalbandige Sprachsignal spektral erweitert wird. Hierbei wird auf Basis der getroffenen stimmhaft/stimmlos-Unterscheidung mindestens ein Parameter berechnet, der die Form der spektralen Struktur der oberen Erweiterung bestimmt, so dass schließlich eine Verknüpfung auf Basis des schmalbandigen Sprachsignals und der gewählten Ergänzung derart erfolgt, dass ein im oberen Frequenzbereich erweitertes Sprachsignal erzeugt wird oder auf Basis der Ergänzung ein breitbandiges Sprachsignal in voller Bandbreite erzeugt wird.From the post-published international application PCT / DE01 / 01826 is an alternative method to extend the Bandwidth of a narrowband speech signal is known. With this The method is detected on the basis of the narrowband speech signal, whether the narrowband speech signal is a voiced sound, a unvoiced sound or a combination of voiced / unvoiced and based on the type of sound detected, a selection is made, how the narrowband speech signal is spectrally expanded. in this connection is based on the voiced / unvoiced distinction at least calculates a parameter that reflects the shape of the spectral structure of the upper extension determines, so that finally a shortcut on The basis of the narrowband speech signal and the chosen supplement like this there is a voice signal that is expanded in the upper frequency range will or based on the supplement a broadband speech signal is generated in full bandwidth.
Nach dem Detektieren eines stimmhaften Lautes wird eine Ergänzung gewählt, die den typischen Verlauf der spektralen Struktur eines stimmhaften Lautes – mit einer vernachlässigbar geringen Signalenergie in Frequenzanteilen oberhalb einer Frequenzfrequenz – aufweist.After detecting a voiced sound will be a complement selected which the typical course of the spectral structure of a voiced Loud - with one negligible low signal energy in frequency components above a frequency frequency - has.
Diese Ergänzung kann stets die gleiche sein, unabhängig davon um welchen stimmhaften Laut – z.B. „a", „e" oder „i" – es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs für stimmhafte Laute entfällt.This addition can always be the same be independent of which voiced sound - e.g. "A", "e" or "i" - it is such that determining the sound and using a codebook for voiced Noises are omitted.
Nach dem Detektieren eines stimmlosen Lautes wird eine Ergänzung gewählt, die den typischen Verlauf der spektralen Grobstruktur eines stimmlosen Lautes aufweist, d.h. ein wesentlicher Teil der Signalenergie befindet sich oberhalb der oberen Grenzfrequenz des schmalbandigen Sprachsignals. Auf diese Weise kann einfach ohne genaue Kenntnis des Lautes eine Erweiterung des schmalbandigen Sprachsignals durchgeführt werden.After detecting an unvoiced sound will be a complement selected which the typical course of the spectral rough structure of a voiceless Has loud, i.e. a substantial part of the signal energy is located above the upper limit frequency of the narrowband speech signal. This way you can easily get a sound without knowing the sound Expansion of the narrowband speech signal can be performed.
Zwei alternative Ausführungsbeispiele,
die auf dem oben beschriebenen Verfahren basieren, werden in der
genannten PCT-Anmeldung
auf den Seiten 7-8, Seiten 15-25 iVm den
Die der Erfindung zugrundeliegende Aufgabe besteht darin, die Bandbreite eines schmalbandig gefilterten Sprachsignals auf einfache und kostengünstige Weise ohne Qualitätseinbußen zu erweitern und dabei die Nachteile aus dem vorstehend gewürdigten Stand der Technik zu vermeiden.The basis of the invention Task is the bandwidth of a narrowband filtered Voice signal in a simple and inexpensive way without quality loss and expand thereby the disadvantages from the prior art acknowledged above avoid.
Diese Aufgabe wird ausgehend von dem im Oberbegriff des Anspruchs 1 definierten Verfahren durch die im Kennzeichen des Anspruchs 1 angegebenen Merkmale gelöst.This task is based on the method defined in the preamble of claim 1 by the solved in the characterizing part of claim 1.
Die der Erfindung zugrundeliegende Idee besteht in der Kombination der aus dem vorstehend gewürdigten Stand der Technik bekannten Verfahren. Diese Kombination behebt die Nachteile beider Verfahren und ermöglicht das Erreichen eines optimalen Qualität des erweiterten Signals.The basis of the invention Idea consists in the combination of the one previously appreciated Methods known in the prior art. This combination fixes the disadvantages of both methods and enables one to be achieved optimal quality of the extended signal.
So wird das schmalbandig gefilterte Sprachsignal in bezug auf Frequenzanteile oberhalb der Grenzfrequenz derart geschätzt, dass zunächst das schmalbandige Sprachsignal in Sprachsignalzeitabschnitte unterteilt wird, jeweils eine spektrale Struktur aus den schmalbandigen Sprachsignalzeitabschnitten berechnet wird, jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter und/oder stimmloser Laut klassifiziert wird, erste eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals in bezug auf die vorgenommene lautartbezogene Klassifizierung erzeugt werden, wobei zumindest für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist, zweite eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals basierend auf allgemein bekannten Methoden zur Auswertung der statistischen Eigenschaften des schmalbandigen Sprachsignals erzeugt werden, wobei die Ergänzung abhängig von dem jeweiligen Laut ist, die beiden Ergänzungen, z.B durch Multiplikation gemäß Anspruch 8, verknüpft werden und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise derart verknüpft werden, dass jeweils eine erweiterte spektrale Struktur entsteht sowie anschließend auf der Basis der erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird, bevor abschließend aus den einzelnen breitbandigen erweiterten Sprachsignalzeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird.Thus, the narrowband filtered speech signal is estimated with respect to frequency components above the cutoff frequency in such a way that the narrowband speech signal is first divided into speech signal time segments, each a spectral structure is calculated from the narrowband speech signal time segments, each narrowband speech signal time segment is classified as a voiced and / or unvoiced sound, first additions with a spectral structure are generated to expand the narrowband speech signal with respect to the sound type-related classification, at least for the case of the voiced sound the addition is independent of the respective sound, second additions having a spectral structure for expanding the narrowband speech signal are generated based on generally known methods for evaluating the statistical properties of the narrowband speech signal, the addition being dependent on the respective sound, the two additions, for example by multiplication according to claim 8, and the spectral structure of the generated supplement are intermittently linked in such a way that an extended spectral str structure and then, on the basis of the expanded spectral structure, a broadband extended speech signal time segment is generated before finally a broadband expanded speech signal is generated from the individual broadband expanded speech signal time segments.
Der Hauptvorteil des erfindungsgemäßen Verfahrens liegt darin, dass mögliche Fehler in der Schätzung der erweiterten Spektralstruktur der aus der Druckschrift – Carl, H.; Heute, U.: „Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 bekannten Methode durch die aus der aus der nachveröffentlichten Internationalen Anmeldung PCT/DE01/01826 bekannten Methode korrigiert werden. Falls mit der erstgenannten Methode ei ne Spektralstruktur für einen stimmhaften Laut geschätzt wird, die zu viel Energie im oberen Frequenzbereich hat, wird die durch Kombination der beiden Methoden verknüpfte Spektralstruktur mit der gemäß der PCT-Anmeldung geschätzten Spektralstruktur berichtigt.The main advantage of the method according to the invention is that possible Estimation error the expanded spectral structure of that from the publication - Carl, H.; Today, U .: “Bandwidth Enhancement of Narrow-Band Speech Signals ", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 known method from the from the subsequently published International application PCT / DE01 / 01826 known method corrected become. If a spectral structure with the former method for one voiced sound is estimated that has too much energy in the upper frequency range, is caused by Combination of the two methods linked spectral structure with the according to the PCT application estimated Corrected spectral structure.
Da es mit der Kombination beider Methoden möglich ist, die Fehler bei der Schätzung der Spektralstruktur von stimmhaften Lauten zu korrigieren, brauchen bei der erstgenannten Methode nur stimmlose Laute trainiert zu werden. Dies erlaubt eine verbesserte Schätzung für stimmlose Laute und daher eine verbesserte Qualität des erweiterten Sprachsignals.Since it is with the combination of both Methods possible is the error in the estimation correct the spectral structure of voiced sounds in the former method, only unvoiced sounds are trained. This allows an improved estimate for unvoiced sounds and therefore one improved quality of the extended speech signal.
Die Weiterbildung der Erfindung gemäß Anspruch zeichnet sich dadurch aus, dass durch eine Fouriertransformation die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes berechnet und durch eine inverse Fouriertransformation aus der erweiterten spektralen Struktur der breitbandige erweiterte Sprachsignalzeitabschnitt erzeugt werden kann, ohne dass dabei das Sprachsignal in eine Grobstruktur und Feinstruktur aufgespaltet werden muss.The development of the invention according to claim is characterized in that by a Fourier transformation the spectral structure of the narrowband speech signal period calculated and by an inverse Fourier transformation from the extended spectral structure of the broadband extended speech signal period can be generated without the speech signal being roughly structured and fine structure has to be split.
Bei der Weiterbildung gemäß Anspruch 4 wird die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils erzeugte erste Ergänzung derart erzeugt, dass die Energie dieser Ergänzung in Bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes vernachlässigbar ist.In the training according to claim 4 will be the for the narrow-band speech signal periods classified as voiced sounds first addition generated in each case generated in such a way that the energy of this supplement in relation to the total energy of the narrowband speech signal section is negligible is.
Diese Ergänzung kann stets die gleiche sein, unabhängig davon, um welchen stimmhaften Laut – z.B.: "a", "e" oder "i" – es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs zu diesem Zweck für stimmhafte Laute entfällt.This addition can always be the same be independent of which voiced sound - e.g. "a", "e" or "i" - is acts so that a determination of the sound as well as the application a codebook for this purpose for voiced sounds is omitted.
Durch die Weiterbildung gemäß Anspruch 4 ist eine Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals ge währleistet, da durch diese Art der Weiterbildung berücksichtigt wird, dass bei stimmlosen Lauten im oberen Frequenzbereich ein wesentlicher Teil der Signalenergie fortgesetzt wird, so dass eine Vernachlässigung des genauen Verlaufs dieses Teils verhindert wird, die dadurch erfolgt, daß stets die gleiche Ergänzung vorgenommen wird und somit das synthetisierte Sprachsignals verfälscht würde.By training according to claim 4 is a quality improvement of the broadband extended voice signal guaranteed ge, because of this type of further training taken into account is that with unvoiced sounds in the upper frequency range an essential Part of the signal energy continues, causing neglect the exact course of this part is prevented, which is done by always the same addition is carried out and thus the synthesized speech signal would be falsified.
Bei der Weiterbildung gemäß Anspruch 5 wird die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalabschnitte jeweils erzeugte erste Ergänzung derart erzeugt, daß die Energie dieser Ergänzung in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes nicht vernachlässigbar ist. Auf diese Weise kann einfach ohne genaue Kenntnis des stimmlosen Lautes ein Erweiterung des schmalbandig gefilterten Sprachsignals durchgeführt werden.In the training according to claim 5 will be the for the narrowband speech signal sections classified as unvoiced sounds first addition generated in each case generated in such a way that the Energy of this supplement not in relation to the total energy of the narrowband speech signal section negligible is. This way it can easily be done without precise knowledge of the unvoiced Loud an extension of the narrowband filtered speech signal carried out become.
Um die Qualität des breitbandigen erweiterten Sprachsignals gemäß der Ansprüche 1 bis 5 zu verbessern, ist es von Vorteil, wenn gemäß Anspruch 7 der aus der erweiterten spektralen Struktur jeweils erzeugte breitbandige erweiterte Sprachsignalzeitabschnitt hochpassgefiltert wird, der hochpassgefilterte Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt verknüpft wird und aus den einzelnen verknüpften Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal erzeugt wird.Extended to the quality of broadband Speech signal according to claims 1 to 5 to improve, it is advantageous if according to claim 7 of the extended spectral structure each generated broadband extended speech signal period is high pass filtered, the high pass filtered speech signal period with the corresponding narrowband speech signal period is linked and linked from each Speech signal periods the broadband extended speech signal is produced.
Weitere Einzelheiten, Merkmale und Vorteile der Erfindung werden nachfolgend anhand der in den Figuren dargestellten Ausführungsbeispiele näher erläutert. Dabei zeigen:More details, features and Advantages of the invention are described below with reference to the figures illustrated embodiments explained in more detail. there demonstrate:
In einem ersten Prozessschritt P0.1
wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige
Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden
Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.1 die Spektralstruktur
z.B. durch eine „Fourier-Transformation" berechnet und in
einem dritten Prozessschritt P2.1 eine Klassi fizierung derart durchgeführt, dass der
jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut – wie beispielsweise "a", "e" oder "i", deren Aussprache ein in
Diese Unterscheidung wird beispielsweise anhand
der Position der ersten Formanten oder anhand des Verhältnisses
von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz
- beispielsweise 2 kHz – geschehen.
Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach
durchzuführen,
da wie ein Vergleich des in
Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie zu Langzeitsignalenergie mit einem Schwellwert realisiert.Alternatively, a short-term signal energy of a first narrowband filtered speech signal time segment and a long-term signal energy based on further successive Narrow-band filtered speech signal time segments correlating to the first signal determined and then detecting by comparing a ratio of short-term signal energy implemented for long-term signal energy with a threshold value.
Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie – d.h. der Signalenergie in einem kurzen Zeitausschnitt des Schmalband-Sprachsignals – und der Langzeitsignalenergie – d.h. der Signalenergie über einen längeren Zeitausschnitt betrachtet – und anschließendem Vergleich des Verhältnis Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.Alternatively, the distinction can be made by Comparison of short-term signal energy - i.e. the signal energy in a short time segment of the narrowband speech signal - and the Long-term signal energy - i.e. the signal energy over a longer time slice considered - and followed by Comparison of the ratio Short-term to long-term energy can be carried out with a fixed threshold.
Im Anschluss daran wird in einem vierten Prozessschritt P3.1 im Rahmen einer ersten Spektralstrukturerweiterung in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung die im zweiten Prozessschritt P1.1 berechnete Spektralstruktur durch eine „Inverse Fourier-Transformation" erweitert. Dies geschieht derart, dass zeitabschnittsweise in Bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung erste Ergänzungen EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei beispielsweise (insbesondere) für den Fall des stimmhaften Lautes die erste Ergänzung EG1 unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes – stimmhaft/stimmlos (stimmhaft und/oder stimmlos) – wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt), die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer erweiterten spektralen Struktur verknüpft werden und aus dieser erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird.Subsequently, in one fourth process step P3.1 as part of a first spectral structure expansion with regard to the sound-related classification made in the third process step P2.1 the spectral structure calculated in the second process step P1.1 an "inverse Fourier transform ". This happens in such a way that it intermittently with respect to that in the third process step P2.1 initial type-related classification EG1 for expanding the speech signal, each with a spectral structure have, are generated, for example (in particular) for the case of the voiced sound the first addition EG1 regardless of that respective sound is (with determination of the type of speech - voiced / unvoiced (voiced and / or voiceless) - will also determines the addition necessary to expand the range) spectral structure of the narrowband speech signal period and the spectral structure of the supplement created periodically an expanded spectral structure and from this expanded spectral structure each generated a broadband extended speech signal period becomes.
Parallel dazu werden in einem fünften Prozessschritt P4.1 im Rahmen einer zweiten Spektralstrukturerweiterung z.B. gemäß der Druckschrift – Carl, H.; Heute, U.: „Bandwidth Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 – zur Auswertung der statistischen Eigenschaften eines schmalbandigen Sprachsignals basierend auf besondere Sprachdatenbücher, den sogenannten Codebüchern (Codebooks) zweite eine spektrale Struktur aufweisende Ergänzungen EG2 erzeugt, wobei die Ergänzung abhängig von dem jeweiligen Laut ist.In parallel, in a fifth process step P4.1 as part of a second spectral structure expansion e.g. according to the publication - Carl, H.; Today, U .: “Bandwidth Enhancement of Narrow-Band Speech Signals ", Proceedings EUSIPCO 1994, Edinburgh, 1994, pp. 1178-1181 - for Evaluation of the statistical properties of a narrowband Speech signal based on special speech data books, the so-called code books second generates supplements EG2 having a spectral structure, where the complement dependent of the respective sound.
In einem sich daran anschließenden sechsten Prozessschritt P5.1 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2 verknüpft, bevor in einem siebten Prozessschritt P6.1 eine erweiterte Spektralstruktur erzeugt und in einem achten Prozessschritt P7.1 ein erweiterter Sprachsignalzeitabschnitt erzeugt wird. Diese Verknüpfung geschieht vorzugsweise durch eine Multiplikation.In a subsequent sixth Process step P5.1 becomes the first supplement EG1 with the second supplement EG2 connected, before an extended spectral structure in a seventh process step P6.1 generated and in an eighth process step P7.1 an extended Speech signal period is generated. This link is preferably done by multiplication.
Daran anschließend gibt es zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.After that there are two ways the broadband speech signal extended towards the upper frequencies to obtain.
Um eine gewisse Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals zu erzielen, ist es möglich, den jeweiligen im vierten Prozessschritt P3.1 erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitt in einem neunten Prozessschritt P8.1 mittels eines Hochpassfilters zu filtern, danach in einem zehnten Prozessschritt P9.1 diesen gefilterten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt aus dem ersten Prozessschritt P0.1 zu verknüpfen, bevor abschließend in einem elften Prozessschritt P10.1 aus den einzelnen verknüpften Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird.In order to achieve a certain improvement in the quality of the broadband expanded speech signal, it is possible to expand the broadband expanded in each case in the fourth process step P3.1 Filtering the speech signal time period in a ninth process step P8.1 using a high-pass filter, then in a tenth process step P9.1 to link this filtered speech signal time period with the corresponding narrowband speech signal time period from the first process step P0.1, before finally in an eleventh process step P10.1 the individual linked speech signal time segments, the broadband voice signal expanded in the direction of the upper frequencies is generated by combining these time segments.
Kann auf eine derartige Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem achten Prozessschritt P7.1 aus den in diesem Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem elften Prozessschritt P10.1 durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.Can on such a quality improvement the broadband extended speech signal can be dispensed with, so instead it is also possible immediately after the eighth process step P7.1 from the in this Process step each generated broadband extended speech signal periods in the eleventh process step P10.1 by joining them together Periods of time the broadband towards the upper frequencies to generate extended speech signal.
Anhand der
Im Allgemeinen wird ein Sprachsignal durch lineare Prädiktion analysiert. Dabei werden unter der Annahme, dass ein Sprach abtastwert durch die lineare Kombination von vorherigen Sprachabtastwerten angenähert werden kann, lineare Prädiktionskoeffizienten, sogenannte LPC-Koeffizienten, die die Filterkoeffizienten eines Sprachsynthesefilters darstellen, sowie ein Anregungssignal für dieses Synthesefilter berechnet. Durch Anwenden der zu einem Sprachsignalabschnitt gehörenden LPC-Koeffizienten auf diesen Sprachsignalabschnitt mittels Filterung des Abschnitts mit einem durch diese Koeffizienten definierten nichtrekursiven Digitalfilter entsteht das sogenannte Prädiktionsfehlersignal. Dieses Signal beschreibt die Differenz zwischen dem durch die lineare Prädiktion geschätztem Signalwert und dem tatsächlichem Signalwert. Es stellt auch gleichzeitig das Anregungssignal für das durch die LPC-Koeffizienten definierte rein rekursive Synthesefilter dar, mit dem der Original-Sprachsignalabschnitt durch Filtern des Prädiktionsfehler- bzw. Anregungssignals wiedergewonnen wird. Um ein Sprachsignal in die Richtung der oberen Frequenzen zu erweitern, ist die Kenntnis eines breitbandigen Anregungssignals und der Filterkoeffizienten, die das (breitbandige) Sprachsignal im Sinne der linearen Prädiktion beschreiben erforderlich.Generally a voice signal through linear prediction analyzed. Doing so assumes that a speech sample can be approximated by the linear combination of previous speech samples can, linear prediction coefficients, so-called LPC coefficients, which are the filter coefficients of a Represent speech synthesis filter, and an excitation signal for this Synthesis filter calculated. By applying that to a speech signal section belonging LPC coefficients on this speech signal section by means of filtering of the section with a non-recursive defined by these coefficients Digital filter creates the so-called prediction error signal. This Signal describes the difference between that by linear prediction estimated Signal value and the actual Signal value. It also puts through the excitation signal for the defined the LPC coefficients purely recursive synthesis filter with which the original speech signal section by filtering the prediction error or excitation signal is recovered. To a voice signal in expanding the direction of the upper frequencies is knowledge of one broadband excitation signal and the filter coefficient, the the (broadband) speech signal in the sense of linear prediction describe required.
Da beispielsweise in Telekommunikationssystemen in denen schmalbandig übertragen wird, das Sprachsignal schmalbandig vorliegt, wird erfindungsgemäß anhand des mittels linearer Prädiktion aus dem Sprachsignal berechneten schmalbandigen Anregungssignal ein breitbandiges Anregungssignal ermittelt.Because, for example, in telecommunication systems in which narrowband broadcast is, the speech signal is narrowband, is based on the invention using linear prediction the narrowband excitation signal calculated from the speech signal broadband excitation signal determined.
Dies erfolgt beispielweise durch Frequenzspiegelung des schmalbandigen Anregungssignals, bei dem die Frequenzanteile zwischen 0 kHz und 4 kHz an der 4 kHz – Spektrallinie in einen Bereich von 4 kHz bis 8 kHz gespiegelt werden.This is done, for example, by Frequency mirroring of the narrowband excitation signal at which the frequency components between 0 kHz and 4 kHz on the 4 kHz spectral line be reflected in a range from 4 kHz to 8 kHz.
Alternativ kann die Berechnung auch durch Addition des schmalbandigen Signals mit Gauß'schem (weißen) oder begrenzten (gefärbtem) Rauschen realisiert werden.Alternatively, the calculation can also by adding the narrowband signal with Gaussian (white) or limited (colored) noise will be realized.
In einem ersten Prozessschritt P0.2
wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige
Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden
Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.2 in
bekannter Weise im Rahmen einer Prädiktionsanalyse LPC-Koeffizienten und
ein schmalbandiges Prädiktionsfehlersignal
berechnet, in einem dritten Prozessschritt P2.2 auf der Basis der
LPC-Koeffizienten und des schmalbandigen Prädiktionsfehlersignals die Spektralstruktur
der schmalbandigen Sprachsignalzeitabschnitte berechnet und in einem
vierten Prozessschritt P3.2 eine Klassifizierung derart durchgeführt, dass
der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut – wie beispielsweise "a", "e" oder "i", deren Aussprache ein in
Diese Unterscheidung wird beispielsweise anhand
der Position der ersten Formanten oder anhand des Verhältnisses
von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz
- beispielsweise 2 kHz – geschehen.
Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach
durchzuführen,
da wie ein Vergleich des in
Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie zu Langzeitsignalenergie mit einem Schwellwert realisiert.As an alternative to this, a short-term signal energy of a first narrow-band filtered speech signal time segment and a long-term signal energy are determined on the basis of further successive narrow-band filtered speech signal time segments correlating with the first signal, and then the detection by comparing a ratio Realized short-term signal energy to long-term signal energy with a threshold.
Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie – d.h. der Signalenergie in einem kurzen Zeitausschnitt des Schmalband-Sprachsignals – und der Langzeitsignalenergie – d.h. der Signalenergie über einen längeren Zeitausschnitt betrachtet – und anschließendem Vergleich des Verhältnis Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.Alternatively, the distinction can be made by Comparison of short-term signal energy - i.e. the signal energy in a short time segment of the narrowband speech signal - and the Long-term signal energy - i.e. the signal energy over a longer time slice considered - and followed by Comparison of the ratio Short-term to long-term energy can be carried out with a fixed threshold.
Im Anschluss daran wird in einem fünften Prozessschritt P4.2 in Bezug auf die im dritten Prozessschritt P2.1 vorgenommene 1autartbezogene Klassifizierung die im dritten Prozessschritt P2.2 berechnete Spektralstruktur erweitert. Dies geschieht derart, dass zeitabschnittsweise in Bezug auf die im vierten Prozessschritt P3.2 vorgenommene lautartbezogene Klassifizierung erste Ergänzungen EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes – stimmhaft/stimmlos (stimmhaft und/oder stimmlos) – wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt), die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer erweiterten spektralen Struktur verknüpft werden.Subsequently, in one fifth process step P4.2 in relation to that made in the third process step P2.1 1 type-related classification that in the third process step P2.2 calculated spectral structure expanded. This happens in such a way that periodically with respect to that in the fourth process step P3.2 Classification based on sound type first additions EG1 for expanding the speech signal, each a spectral Have structure, are generated, in the case of voiced Loud the addition regardless of the respective sound is (with determination of the type of speech - voiced / unvoiced (voiced and / or voiceless) - will also determines the addition necessary to expand the bandwidth), the spectral structure of the narrowband speech signal period and the spectral structure of the supplement created periodically into one extended spectral structure.
Handelt es sich in dem fünften Prozessschritt P4.2
bei dem untersuchten schmalbandigen Sprachsignal um einen stimmhaften Laut,
so wird die schmalbandige spektrale Struktur, wie in
Alternativ kann auch ganz von einer
Erweiterung abgesehen werden, weil in der Regel die Signalenergie
eines stimmhaften Lautes oberhalb der oberen Grenzfrequenz des Schmalband-Sprachsignals (z.B.
4 kHz) vernachlässigbar
ist (vgl.
Es ist auch möglich, dass die Erweiterung, die nach Detektion eines stimmhaften Lautes vorgenommen wird, unabhängig von der genauen Kenntnis der Laute stets die gleiche ist (angepasst lediglich an die Energie des Schmalband-Sprachsignals), so dass eine einfache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.It is also possible that the extension that after a voiced sound is detected, regardless of the exact knowledge of the sounds is always the same (adapted only the energy of the narrowband speech signal), so that a simple, inexpensive and rapid implementation of this extension is achieved.
Handelt es sich in dem fünften Prozessschritt P9.2
bei dem untersuchten schmalbandigen Sprachsignal um einen stimmlosen
Laut, so wird der schmalbandige Frequenzgang, wie in
Auch hierbei kann die Erweiterung stets, unabhängig von der genauen Kenntnis der Laute, durch eine gleichartige spektrale Erweiterung erfolgen (angepasst lediglich an die Energie des Schmalband-Sprachsignals), so dass hierdurch ebenso eine ein fache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.The extension can also be used here always, independently from the exact knowledge of the sounds, by a similar spectral Expansion takes place (only adapted to the energy of the narrowband speech signal), so that this is also a simple, inexpensive and quick implementation of this Extension is achieved.
Als Ergebnis der ersten bis fünften Prozessschritte
P0.2...P4.2 in
Außerdem wird in einem sechsten Prozessschritt P5.2 das in dem zweiten Prozessschritt P1.2 berechnete schmalbandige Prädiktionsfehlersignal zum einem breitbandigen Prädiktionsfehlersignal erweitert, so dass bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Pürädiktionsfehlersignalabschnitte des breitbandigen Prädiktionsfehlersignales erzeugt werden.In addition, in a sixth Process step P5.2 that calculated in the second process step P1.2 narrowband prediction error signal for a broadband prediction error signal expanded so that regarding the time period of the narrowband speech signal time periods corresponding prediction error signal sections of the broadband prediction error signal be generated.
Parallel dazu werden wieder in einem
siebten Prozessschritt P6.2 im Rahmen einer zweiten Spektralstrukturerweiterung
z.B. gemäß der Druckschrift – Carl,
H.; Heute, U.: „Bandwidth
Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO
In einem sich daran anschließenden achten Prozessschritt P7.2 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2 verknüpft, bevor in einem neunten Prozessschritt P8.2 eine erweiterte Spektralstruktur erzeugt wird. Diese Verknüpfung geschieht vorzugsweise durch eine Multiplikation.In a subsequent eighth process step P7.2 will be the first addition EG1 with the second addition Linked EG2, before an extended spectral structure in a ninth process step P8.2 is produced. This link is preferably done by multiplication.
Daran anschließend wird aus der im neunten Prozessschritt P8.2 erzeugten erweiterten spektralen Struktur durch die Berechnung von breitbandigen Filterkoeffizienten in einem zehn ten Prozessschritt P9.2 und dem im sechsten Prozessschritt P5.2 jeweils erzeugten breitbandigen Prädiktionsfehlersignalabschnitt in einem elften Prozessschritt P10.2 mittels eines sogenannten Synthesefilters jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt.This is followed by the ninth process step P8.2 generated extended spectral structure through the calculation of broadband filter coefficients in a tenth process step P9.2 and the broadband generated in the sixth process step P5.2 Prädiktionsfehlersignalabschnitt in an eleventh process step P10.2 using a so-called synthesis filter each a broadband extended speech signal period generated.
Daran anschließend gibt es wieder zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.Then there are two options the broadband speech signal extended towards the upper frequencies to obtain.
Um eine gewisse Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals zu erzielen, ist es möglich, den jeweiligen im elften Prozessschritt P10.2 erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitt in einem zwölften Prozessschritt P11.2 mittels eines Hochpassfilters zu filtern, danach in einem dreizehnten Prozessschritt P12.2 diesen gefilterten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt aus dem ersten Prozessschritt P0.2 zu verknüpfen, bevor abschließend in einem vierzehnten Prozessschritt P13.2 aus den einzelnen verknüpften Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird.In order to improve the quality of the to achieve broadband extended speech signal, it is possible to filter the respective broadband extended speech signal time segment generated in the eleventh process step P10.2 in a twelfth process step P11.2 using a high pass filter, then in a thirteenth process step P12.2 this filtered speech signal time segment with the corresponding narrowband Linking the speech signal time period from the first process step P0.2 before finally, in a fourteenth process step P13.2, the broadband speech signal expanded in the direction of the upper frequencies is generated from the individual linked speech signal time periods by combining these time periods.
Kann auf eine derartige Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem elften Prozessschritt P10.2 aus den in diesem Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem vierzehnten Prozessschritt P13.2 durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.Can on such a quality improvement the broadband extended speech signal can be dispensed with, so instead it is also possible immediately after the eleventh process step P10.2 from the in this Process step each generated broadband extended speech signal periods in the fourteenth process step P13.2 by joining them together Periods of time the broadband towards the upper frequencies to generate extended speech signal.
Claims (8)
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002152327 DE10252327A1 (en) | 2002-11-11 | 2002-11-11 | Process for widening the bandwidth of a narrow band filtered speech signal especially from a telecommunication device divides into signal spectral structures and recombines |
PCT/EP2003/011137 WO2004044894A1 (en) | 2002-11-11 | 2003-10-08 | Method for enlarging the bandwidth of a narrow-band filtered speech signal |
AU2003278058A AU2003278058A1 (en) | 2002-11-11 | 2003-10-08 | Method for enlarging the bandwidth of a narrow-band filtered speech signal |
EP03769360A EP1561205A1 (en) | 2002-11-11 | 2003-10-08 | Method for enlarging the bandwidth of a narrow-band filtered speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002152327 DE10252327A1 (en) | 2002-11-11 | 2002-11-11 | Process for widening the bandwidth of a narrow band filtered speech signal especially from a telecommunication device divides into signal spectral structures and recombines |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10252327A1 true DE10252327A1 (en) | 2004-05-27 |
Family
ID=32185450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2002152327 Withdrawn DE10252327A1 (en) | 2002-11-11 | 2002-11-11 | Process for widening the bandwidth of a narrow band filtered speech signal especially from a telecommunication device divides into signal spectral structures and recombines |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1561205A1 (en) |
AU (1) | AU2003278058A1 (en) |
DE (1) | DE10252327A1 (en) |
WO (1) | WO2004044894A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102089816B (en) | 2008-07-11 | 2013-01-30 | 弗朗霍夫应用科学研究促进协会 | Audio signal synthesizer and audio signal encoder |
EP2346030B1 (en) | 2008-07-11 | 2014-10-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method for encoding an audio signal and computer program |
CN112770269B (en) * | 2019-11-05 | 2022-05-17 | 海能达通信股份有限公司 | Voice communication method and system under wide-band and narrow-band intercommunication environment |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
DE10041512B4 (en) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Method and device for artificially expanding the bandwidth of speech signals |
SE0004818D0 (en) * | 2000-12-22 | 2000-12-22 | Coding Technologies Sweden Ab | Enhancing source coding systems by adaptive transposition |
US20020128839A1 (en) * | 2001-01-12 | 2002-09-12 | Ulf Lindgren | Speech bandwidth extension |
CN1529882A (en) * | 2001-05-11 | 2004-09-15 | 西门子公司 | Method for enlarging band width of narrow-band filtered voice signal, especially voice emitted by telecommunication appliance |
-
2002
- 2002-11-11 DE DE2002152327 patent/DE10252327A1/en not_active Withdrawn
-
2003
- 2003-10-08 EP EP03769360A patent/EP1561205A1/en not_active Withdrawn
- 2003-10-08 WO PCT/EP2003/011137 patent/WO2004044894A1/en not_active Application Discontinuation
- 2003-10-08 AU AU2003278058A patent/AU2003278058A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
AU2003278058A1 (en) | 2004-06-03 |
WO2004044894A1 (en) | 2004-05-27 |
EP1561205A1 (en) | 2005-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1388147B1 (en) | Method for enlarging the band width of a narrow-band filtered voice signal, especially a voice signal emitted by a telecommunication appliance | |
DE69910240T2 (en) | DEVICE AND METHOD FOR RESTORING THE HIGH FREQUENCY PART OF AN OVER-SAMPLE SYNTHETIZED BROADBAND SIGNAL | |
DE69634645T2 (en) | Method and apparatus for speech coding | |
DE69618422T2 (en) | Speech decoding method and portable terminal | |
EP1979901B1 (en) | Method and arrangements for audio signal encoding | |
DE10041512B4 (en) | Method and device for artificially expanding the bandwidth of speech signals | |
DE60013785T2 (en) | IMPROVED SUBJECTIVE QUALITY OF SBR (SPECTRAL BAND REPLICATION) AND HFR (HIGH FREQUENCY RECONSTRUCTION) CODING PROCEDURES BY ADDING NOISE AND LIMITING NOISE REDUCTION | |
DE69132885T2 (en) | Low delay, 32 kbit / s CELP encoding for a broadband voice signal | |
DE60012198T2 (en) | ENCODING THE CORD OF THE SPECTRUM BY VARIABLE TIME / FREQUENCY RESOLUTION | |
DE60117471T2 (en) | BROADBAND SIGNAL TRANSMISSION SYSTEM | |
DE102005032724B4 (en) | Method and device for artificially expanding the bandwidth of speech signals | |
EP1869671B1 (en) | Noise suppression process and device | |
DE69911169T2 (en) | METHOD FOR DECODING AN AUDIO SIGNAL WITH CORRECTION OF TRANSMISSION ERRORS | |
DE69420183T2 (en) | Method and device for speech coding and speech decoding and speech processing | |
EP1697930A1 (en) | Device and method for processing a multi-channel signal | |
DE69730721T2 (en) | METHOD AND DEVICES FOR NOISE CONDITIONING OF SIGNALS WHICH REPRESENT AUDIO INFORMATION IN COMPRESSED AND DIGITIZED FORM | |
DE19747132A1 (en) | Audio signal coding method | |
WO2000068934A1 (en) | Method and device for error concealment in an encoded audio-signal and method and device for decoding an encoded audio signal | |
DE69713712T2 (en) | Speech encoder with sinus analysis and fundamental frequency control | |
DE60124079T2 (en) | language processing | |
WO1999017587A1 (en) | Process and device for coding a time-discrete stereo signal | |
EP1687808A1 (en) | Audio coding | |
DE4343366C2 (en) | Method and circuit arrangement for increasing the bandwidth of narrowband speech signals | |
DE69522474T2 (en) | BASE RATE POST FILTER | |
DE10252327A1 (en) | Process for widening the bandwidth of a narrow band filtered speech signal especially from a telecommunication device divides into signal spectral structures and recombines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |