EP0334023A2 - Verfahren zur Erkennung von Sprachsignalen - Google Patents
Verfahren zur Erkennung von Sprachsignalen Download PDFInfo
- Publication number
- EP0334023A2 EP0334023A2 EP89102876A EP89102876A EP0334023A2 EP 0334023 A2 EP0334023 A2 EP 0334023A2 EP 89102876 A EP89102876 A EP 89102876A EP 89102876 A EP89102876 A EP 89102876A EP 0334023 A2 EP0334023 A2 EP 0334023A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- speech
- amplitude
- signals
- control amplifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title abstract description 26
- 230000002238 attenuated effect Effects 0.000 claims description 2
- 230000001934 delay Effects 0.000 claims 1
- 230000003321 amplification Effects 0.000 abstract description 5
- 238000003199 nucleic acid amplification method Methods 0.000 abstract description 5
- 238000001914 filtration Methods 0.000 abstract description 3
- 230000002452 interceptive effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Definitions
- the invention relates to a method for recognizing speech signals, these first being fed to a low-pass filter, the pass band of which is in the range of the basic speech frequency.
- the recognition of voice signals is of great importance, since the presence of voice signals can be used as a criterion for increasing the gain.
- the amplification of the transmit and receive signal is controlled as a function of the presence of a speech signal. The same applies to conference facilities.
- the object of the invention is now to provide a method for recognizing speech signals, in which the presence of speech signals is recognized after a very short time, without this suppressing initial syllables.
- This object is achieved in that the signals appearing at the output of the low-pass filter are checked for the amplitude and duration of a specific amplitude and in that a speech signal is recognized when at least three successive amplitudes have occurred within a predetermined time frame.
- the signals are first checked for maximum amplitude values. As soon as a maximum amplitude value is determined, the period of time within which a further maximum amplitude value occurs is measured in order to be able to recognize speech signals in this way.
- the three amplitudes A1 to A3 shown in FIG. 1 are the amplitudes of a speech signal which are present at the output of a low-pass filter whose cut-off frequency is approximately 400 Hz.
- the signals supplied to the input of the low-pass filter are generated, for example, by a microphone and are composed of room noises and speech signals.
- the method according to the invention for recognizing speech signals now essentially uses the frequency range of the fundamental speech frequency (80 to 333 Hz) for analysis.
- the most important feature for the detection of speech signals is the period of the vibrations of the speech signals, which is in the range of 3 to 12.5 ms at the basic speech frequency depending on the speaker. This first feature is used to distinguish between speech and noise.
- the detection of zero crossings in the speech signal is not expedient, since in the event of interference, for example due to noise, the number of zero crossings can increase so greatly that speech recognition is no longer possible in this way.
- the method according to the invention uses the maxima of the speech signal to recognize speech. If these are then within a predetermined amplitude time window, then a first criterion for the presence of speech signals is given. The choice of window parameters has a significant influence on the period detection.
- the window size is chosen such that it is smaller than half the smallest possible period of the basic speech frequency so that both positive and negative maximum values of the speech signal can be recognized. This is necessary because the speech signal is not symmetrical with respect to the dynamic range.
- the window size is therefore approximately 0.9 ms.
- the amplitude tolerance of the maximum values is very small over a few periods in the case of an undisturbed speech signal, but can be increased significantly at high interference levels due to additive superimposition of the interference signal.
- the amplitude window is approximately plus minus 20% of the first maximum.
- the amplitude A1 has been recognized as the maximum value, whereupon its duration t1 is stored as a period.
- the time window of the period PF begins at the temporal center of the amplitude A1 of the first maximum M1 to run, which is open between 3 and 12.5 ms. If the next amplitude A2 now falls within the time window of the period PF, since its time window ZF lies within the amplitude window AF, the duration of the amplitude A2 is identified as the second maximum by storing the value t2.
- the amplitude window AF is defined as a threshold as a function of the amplitude value of the first maximum M1.
- a simple counting process for detecting the three successive amplitudes A1 to A3, which meet the conditions described above, can already be used to conclude that a speech signal is present, in which case it is not necessary to store the period durations t1 to t3.
- two methods can be used for a more precise determination of speech signals, which are described below.
- the degree of correlation between the individual periods is determined. Through a cross correlation between the successive signal sections of a period length, high values for the nominated cross correlation coefficient are achieved in the areas in which speech is present. However, if the detected period is only random maxima in the specified interval, the correlation analysis gives small values.
- the second or, in the case of detection of several periods the third period is correlated with the first. If three periods are correlated, the smaller of the two values is used for the decision. This reduces the frequency of errors in the case of randomly detected periods, particularly in the event of interference by noise signals. If more periods are used for the detection, the detection speed slows down, however, no further improvement can be achieved since the values of KKF (k. N p ) decrease significantly due to the amplitude and frequency modulation of the speech signal.
- a further improvement in the decision can be achieved if, instead of evaluating the cross-correlation function for speech decision, the nominated mean square error between the recognized periods is used.
- the decisive advantage of this method for speech detection is the recognition time.
- the detection time is 37.5 ms.
- the analysis using the simplified method described at the beginning gives approximately the same results as the evaluation method with cross-correlation or after determining the mean square error.
- the detection rate is on average 5% below the detection rate of the previously described method, but can also assume higher values depending on the noise situation. Differences to the above-mentioned procedure become clear when the speech sequence is disturbed. With the selected parameters, the period detection can deliver an increased number of wrong decisions, depending on the respective background noise, for some background noise situations.
- reflections of the interference signal if they meet the criteria for the presence of speech, are recognized as speech and lead to incorrect decisions.
- the detection of sinusoidal interference in the area of the fundamental speech frequency is only possible on the basis of the duration and frequency constancy of this interference signal.
- the selection of the method for speech detection to be used is essentially determined by the expected useful / interference power ratios and the interference noises.
- useful / interference power ratios of more than 12 dB
- the simplified detection method can already be used without arithmetic operations.
- all methods only have a short signal delay in the range of the detection time (9 to 37 ms) Sequence so that initial syllables are not suppressed.
- the method presented can be implemented, for example, with the aid of a signal processor SP (see FIG. 2).
- the analog signal from the microphone M is sampled and digitized via the analog / digital converter W1.
- the sample values obtained in this way can be used by the signal processor according to the method according to the invention for speech detection. If speech is recognized, the microphone signal can be amplified by the control amplifier RV1 by a fixed amount at the instigation of the signal processor SP.
- Such an arrangement is suitable, for example, for microphones which are located in a room with a large amount of noise.
- the amplification of the speech signals results in better intelligibility.
- a hands-free device in the presence of a speech signal in the signal of the microphone M, the control amplifier RV2 is caused by the signal processor SP to attenuate the signal for the loudspeaker LS accordingly, in order in this way to to prevent acoustic feedback between loudspeaker LS and microphone M.
- the control amplifier RV2 could be influenced at the instigation of the signal processor SP in such a way that it amplifies the input signal to achieve a better intelligibility of the loudspeaker signal LS.
- the signal processor receives at its inputs SE and EE data words which represent the samples of the signals. Data words are also applied to the connected lines at the outputs SA and EA of the signal processor SP. To avoid the suppression of initial syllables, the input signals can be delayed using the signal processor SP by a time which is in the range of the recognition time (5-37 ms). Likewise, a fall time can be caused by the signal processor SP for the control signals influencing the control amplifiers RV, which are of the order of magnitude of 200 to 900 ms and are used to bridge unvoiced sounds and short speech pauses between words and sentences.
- the low-pass filtering function with a cut-off frequency of 400 Hz can also be carried out by the signal processor SP.
- Another application of the method according to the invention is also conceivable in the context of an intercom system, the other direction being attenuated as a function of voice signals in one direction at the instigation of the signal processor.
- a signal processor is not further discussed in the context of this description, but such signal processors are sold, for example, by Texas Instruments under the designation TMS 320 or by Fujitsu under the designation MB 8764. Such a signal processor is to be programmed in such a way that the described method steps run automatically.
- the analog / digital converters W1 and W4 serve to convert the analog signals into digital signals for signal processing in the signal processor SP, while the conversion of the digital signals occurring at the outputs SA and EA into analog signals by the digital / analog converters W2 and W3 takes place.
- control amplifiers RV1 and RV2 can also be dispensed with if the function of amplifying the signals is taken over by the signal processor SP itself, which can also be designed as a suitable microprocessor.
- the implementation of the method according to the invention is conceivable by means of a corresponding, discretely constructed analog circuit arrangement or also a correspondingly designed customer circuit.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
- Die Erfindung betrifft ein Verfahren zur Erkennung von Sprachsignalen, wobei diese zunächst einem Tiefpaß zugeführt werden, dessen Durchlaßbereich im Bereich der Sprachgrundfrequenz liegt.
- Auf dem Gebiet der Elektroakustik ist die Erkennung von Sprachsignalen von großer Bedeutung, da das Vorliegen von Sprachsignalen als Kriterium für die Anhebung der Verstärkung herangezogen werden kann. So wird beispielsweise zur akustischen Entkopplung von Freisprecheinrichtungen die Verstärkung des Sende- und Empfangssignals in Abhängigkeit vom Vorliegen eines Sprachsignals gesteuert. Das gleiche gilt für Konferenzeinrichtungen.
- Es ist bereits vorgeschlagen worden (P 37 34 446.3), die Störgeräuschkompensation für ein Mikrofon dadurch zu erreichen, daß bei Vorhandensein eines Sprachsignals dasselbe einer größeren Verstärkung unterworfen wird, um auf diese Weise eine bessere Verständlichkeit bei starkem Hintergrundgeräusch zu erreichen. Dabei wird nach einer Bandpaßfilterung für die Sprachgrundfrequenz die Einhüllende von Sprache des Mikrofonsignals detektiert und das Detektionssignal einem Zeitglied zugeführt, welches eine bestimmte Ansprechverzögerung aufweist. Das Ausgangssignal des Zeitglieds dient dann zur Steuerung eines, das Mikrofonsignal verstärkenden Regelverstärkers. Nachteilig bei diesem Verfahren ist die Verwendung von Zeitgliedern zur Bearbeitung des Mikrofonsignals, wodurch die Gefahr besteht, daß Anfangssilben unterdrückt werden.
- Die Aufgabe der Erfindung besteht nun darin, ein Verfahren zur Erkennung von Sprachsignalen anzugeben, bei welchem schon nach sehr kurzer Zeit das Vorliegen von Sprachsignalen erkannt wird, ohne daß es hierbei zu einer Unterdrückung von Anfangssilben kommt.
- Diese Aufgabe wird dadurch gelöst, daß die am Ausgang des Tiefpaßfilters auftretenden Signale auf Amplitude und Dauer einer bestimmten Amplitude überprüft werden und daß dann ein Sprachsignal erkannt wird, wenn mindestens drei aufeinanderfolgende Amplituden innerhalb eines vorgegebenen Zeitrasters aufgetreten sind.
- Die Signale werden zunächst nach Amplitudenhöchstwerten überprüft. Sobald ein Amplitudenhöchstwert festgestellt wird, wird der Zeitraum gemessen, innerhalb dessen ein weiterer Amplitudenhöchstwert auftritt, um auf diese Weise Sprachsignale erkennen zu können.
- Die Erfindung wird anhand eines Ausführungsbeispiels näher erläutert, welches in der Zeichnung dargestellt ist.
- Es zeigt:
- Fig. 1 eine Darstellung der Perioden eines Sprachsignals in Verbindung mit den Auswertekriterien und
- Fig. 2 das Blockschaltbild für eine Anordnung zur Durchführung des Verfahrens.
- Die in Fig. 1 dargestellten drei Amplituden A1 bis A3 sind die Amplituden eines Sprachsignals, welche am Ausgang eines Tiefpaßfilters anstehen, dessen Grenzfrequenz bei ca. 400 Hz liegt. Die dem Eingang des Tiefpaßfilters zugeführten Signale werden beispielsweise von einem Mikrofon erzeugt und setzen sich aus Raumgeräuschen und Sprachsignalen zusammen.
- Das erfindungsgemäße Verfahren zur Erkennung von Sprachsignalen benutzt nun zur Analyse im wesentlichen den Frequenzbereich der Sprachgrundfrequenz ( 80 bis 333 Hz). Das wichtigste Merkmal zur Erkennung von Sprachsignalen ist die Periodendauer der Schwingungen der Sprachsignale, die bei der Sprachgrundfrequenz je nach Sprecher im Bereich von 3 bis 12,5 ms liegt. Dieses erste Merkmal dient zur Unterscheidung zwischen Sprache und Störgeräusch. Zur sicheren Erkennung von Sprachsignalen ist die Detektion von Nulldurchgängen im Sprachsignal nicht sinnvoll, da sich bei Störung, beispielsweise durch Rauschen,die Anzahl der Nulldurchgänge so stark erhöhen kann, so daß eine Erkennung von Sprache auf diese Weise nicht mehr möglich ist. Das Verfahren gemäß der Erfindung benutzt zur Erkennung von Sprache die Maxima des Sprachsignals. Liegen diese dann doch innerhalb eines vorgegebenen Amplituden-Zeitfensters, so ist ein erstes Kriterium für das Vorhandensein von Sprachsignalen gegeben. Einen wesentlichen Einfluß auf die Periodenerkennung hat die Wahl der Fensterparameter.
- Die Fenstergröße wird derart gewählt, daß diese kleiner ist als die Hälfte der kleinstmöglichen Periode der Sprachgrundfrequenz, damit sowohl positive als auch negative Maximalwerte des Sprachsignals erkannt werden können. Dies ist notwendig, da das Sprachsignal bezüglich des Aussteuerungsbereichs nicht symmetrisch ist. Die Fenstergröße beträgt demnach ca. 0,9 ms.
- Die Amplitudentoleranz der Maximalwerte ist bei ungestörtem Sprachsignal über einige Perioden sehr gering, kann aber bei hohen Störpegeln infolge additiver Überlagerung des Störsignals deutlich vergrößert werden. Das Amplitudenfenster beträgt ca. plusminus 20 % des ersten Maximums.
- Bei ungestörter Sprache ist der Abstand der Maximalwerte der Signale nicht konstant, da das Sprachsignal frequenzmoduliert wird. Ein streng periodischer Verlauf des Anregungssignals kann nicht erwartet werden, die Schwankungen der Sprachgrundfrequenz können deshalb erheblich sein. Einen quasi periodischen Verlauf weisen jedoch die stimmhaften, eingeschwungenen Laute auf. Wird das Signal gestört (beispielsweise additiv durch Rauschen), so kann sich eine zusätzliche Verschiebung der Signalmaxima in zeitlicher Richtung ergeben. Durchgeführte Untersuchungen haben gezeigt, daß der Toleranzbereich für die Detektion der Signalmaxima ca. 15 % betragen kann.
- Unter diesen Randbedingungen kann davon ausgegangen werden, daß auch bei ungestörtem Sprachsignal nie mehr als 10 Perioden des Signals die vorgegebenen Kriterien erfüllen, so daß anhand des erfindungsgemäßen Verfahrens auch periodische, nicht modulierte Störsignale, deren Frequenz im Bereich der Sprachgrundfrequenz liegt, von Sprachsignalen unterscheiden werden können.
- Sobald ein Maximalwert erkannt wird, wird dessen zeitliche Position abgespeichert. Erfüllt der nächste auftretende Maximalwert nicht die weiter unten beschriebenen Bedingungen, so werden die Daten des ersten Maximalwertes gelöscht und diejenigen des nächsten Maximalwertes an dessen Stelle eingespeichert.
- Bei dem in Fig. 1 gezeigten Beispiel einer Amplitudenfolge wird davon ausgegangen, daß die gezeigten drei Maximalwerte M1 bis M3 sämtliche zur Erkennung von Sprachsignalen erforderliche Bedingungen erfüllen. Die Amplitude A1 ist als Maximalwert erkannt worden, woraufhin deren Dauer t1 als Periodendauer abgespeichert wird. Bei der zeitlichen Mitte der Amplitude A1 des ersten Maximums M1 beginnt das Zeitfenster der Periode PF zu laufen, welches zwischen 3 und 12,5 ms geöffnet ist. Fällt nun die nächste Amplitude A2 in das Zeitfenster der Periode PF, da deren Zeitfenster ZF innerhalb des Amplitudenfensters AF liegt, dann wird die Dauer der Amplitude A2 als zweites Maximum durch Einspeicherung des Wertes t2 gekennzeichnet. Liegt nun die Amplitude A3 innerhalb eines Zeitfensters F, welches durch die Periodendauer t2 ± 7,5 % bestimmt wird, so wird auch der Zeitwert t3 des dritten Maximums M3 abgespeichert. Es wird noch darauf hingewiesen, daß das Amplitudenfenster AF als Schwelle in Abhängigkeit von dem Amplitudenwert des ersten Maximums M1 festgelegt wird.
- Durch einen einfachen Zählvorgang zur Erfassung der drei aufeinanderfolgenden Amplituden A1 bis A3, welche die oben beschriebenen Bedingungen erfüllen, kann bereits auf Vorliegen eines Sprachsignals geschlossen werden, wobei in diesem Fall eine Abspeicherung der Periodendauern t1 bis t3 nicht notwendig ist. Für eine genauere Bestimmung von Sprachsignalen können jedoch zwei Verfahren herangezogen werden, die im folgenden beschrieben werden.
- Wurden mehrere Perioden einer Schwingung im Sprachgrundfrequenzbereich erkannt, so erfolgt die Bestimmung des Korrelationsgrades zwischen den einzelnen Perioden. Durch eine Kreuzkorrelation zwischen den aufeinanderfolgenden Signalabschnitten einer Periodenlänge werden hohe Werte für den nomierten Kreuzkorrelationskoeffizienten in den Bereichen erreicht, in denen Sprache vorhanden ist. Handelt es sich bei der detektierten Periode jedoch nur um zufällige Maxima im vorgegebenen Intervall, so ergibt die Korrelationsanalyse kleine Werte.
-
- Die Verwendung dieses Fehlerkriteriums führt bei ungestörter Sprache zu ähnlichen Ergebnissen, wie die Bildung der KKF (k . Np). Unterschiede ergeben sich jedoch bei gestörtem Sprachsignal. Bei Bildung der KKF (k . Np) führt die Unterscheidung zwischen Sprache und Störung anhand des Korrelationskoeffizientens häufiger zu Fehlentscheidungen als die Bildung 1-Δf². Sowohl KKF (k . Np) als auch 1-Δf² können Werte im Bereich von 0 bis 1 annehmen. Überschreitet der Wert von KKF (k . Np) bzw. von 1-Δf² einen Wert von beispielsweise 0,7, so wird das Eingangssignal als Sprache markiert. Untersuchungen haben gezeigt, daß die Wahl der Schwelle unkritisch ist, sie kann auch im Bereich von 0,3 bis 0,9 gewählt werden.
- Der entscheidende Vorteil dieses Verfahrens zur Sprachdetektion ist die Erkennungszeit. Im ungünstigsten Fall, d. h. wenn der Sprecher eine Stimmgrundfrequenz von 80 Hz hat und bei einer Detektion von drei Perioden beträgt die Detektionszeit 37,5 ms.
- Bei ungestörten Signalen ergibt die Analyse nach dem eingangs beschriebenen vereinfachten Verfahren annähernd die gleichen Ergebnisse, wie das Auswerteverfahren mit Kreuzkorrelation oder nach Ermittlung des mittleren quadratischen Fehlers. Die Erkennungsrate liegt im Mittel 5 % unter der Erkennungsrate des zuvor beschriebenen Verfahrens, kann aber auch je nach Störschallsituation höhere Werte annehmen. Unterschiede zu dem vorgenannten Verfahren werden bei Störung der Sprachsequenz deutlich. Bei den gewählten Parametern kann die Periodenerkennung, abhängig vom jeweiligen Störgeräusch, für einige Störschallsituationen eine erhöhte Anzahl von Fehlentscheidungen liefern. Insbesondere bei Störung durch impulshaltige Signale werden Reflektionen des Störsignals, wenn sie die Kriterien für das Vorhandensein von Sprache erfüllen, als Sprache erkannt und führen zu Fehlentscheidungen. Die Detektion von sinusförmigen Störanteilen im Bereich der Sprachgrundfrequenz ist nur anhand der zeitlichen Dauer und Frequenzkonstanz dieses Störsignals möglich.
- Die Auswahl des anzuwendenden Verfahrens zur Sprachdetektion wird im wesentlichen von den zu erwartenden Nutz-/Störleistungsverhältnissen sowie den Störgeräuschen bestimmt. Bei Nutz-/Störleistungsverhältnissen von größer 12 dB kann bereits das vereinfachte Detektionsverfahren ohne Rechenvorgänge angewandt werden. Sämtliche Verfahren haben jedoch nur eine kurze Signalverzögerung im Bereich der Detektionszeit (9 bis 37 ms) zur Folge, so daß Anfangssilben nicht unterdrückt werden.
- Die Realisierung des vorgestellten Verfahrens kann beispielsweise mit Hilfe eines Signalprozessors SP (s. Fig. 2) erfolgen. Das analoge Signal des Mikrofons M wird über den Analog/Digitalwandler W1 abgetastet und digitalisiert. Die so gewonnenen Abtastwerte können gemäß dem erfindungsgemäßen Verfahren zur Sprachdetektion durch den Signalprozessor herangezogen werden. Wird Sprache erkannt, so kann das Mikrofonsignal um einen festgelegten Betrag auf Veranlassung des Signalprozessors SP durch den Regelverstärker RV1 verstärkt werden.
- Eine derartige Anordnung ist beispielsweise für Mikrofone geeignet, welche sich in einem Raum mit einem großen Störgeräuschen befinden. Durch die Verstärkung der Sprachsignale wird auf diese Weise eine bessere Verständlichkeit erzielt.
- Bei dem in Fig. 2 gezeigten Anwendungsbeispiel ist eine Freisprecheinrichtung vorhanden, wobei bei dieser bei Vorhandensein eines Sprachsignals im Signal des Mikrofons M der Regelverstärker RV2 durch den Signalprozessor SP veranlaßt wird, das Signal für den Lautsprecher LS entsprechend zu dämpfen, um auf diese Weise eine akustische Rückkopplung zwischen Lautsprecher LS und Mikrofon M zu verhindern. Umgekehrt könnte auch bei Vorliegen von Sprachsignalen für den Lautsprecher LS der Regelverstärker RV2 auf Veranlassung des Signalprozessors SP derart beeinflußt werden, daß diese das Eingangssignal höher verstärkt, um auf diese Weise eine bessere Verständlichkeit des Lautsprechersignals LS zu erreichen.
- Der Signalprozessor erhält an seinen Eingängen SE und EE Datenworte, welche die Abtastwerte der Signale darstellen. Ebenso werden an den Ausgängen SA und EA des Signalprozessors SP Datenworte an die angeschlossenen Leitungen angelegt. Zur Vermeidung der Unterdrückung von Anfangssilben können die Eingangssignale mit Hilfe des Signalprozessors SP um eine Zeit verzögert werden, welche im Bereich der Erkennungszeit (5-37ms) liegen. Ebenso kann durch den Signalprozessor SP eine Abfallzeit für die die Regelverstärker RV beinflussenden Steuersignale erzeugt werden, die in einer Größenordnung von 200 bis 900 ms liegt und zur Überbrückung von stimmlosen Lauten und kurzen Sprachpausen zwischen Wörtern und Sätzen dient. Die Funktion der Tiefpaßfilterung mit einer Grenzfrequenz von 400 Hz kann ebenfalls durch den Signalprozessor SP vorgenommen werden.
- Eine andere Anwendung des erfindungsgemäßen Verfahrens ist auch im Rahmen einer Gegensprechanlage denkbar, wobei in Abhängigkeit von Sprachsignalen in der einen Richtung die andere Richtung auf Veranlassung des Signalprozessors entsprechend gedämpft wird.
- Auf den Aufbau eines Signalprozessors wird im Rahmen dieser Beschreibung nicht weiter eingegangen, derartige Signalprozessoren werden jedoch beispielsweise von der Firma Texas Instruments unter der Bezeichnung TMS 320 oder von der Firma Fujitsu unter der Bezeichnung MB 8764 vertrieben. Ein solchen Signalprozessor ist derart zu programmieren, daß die beschriebenen Verfahrensschritte selbstätig ablaufen. Zur Umsetzung der analogen Signale in digitale Signale zur Signalverarbeitung in dem Signalprozessor SP dienen die Analog/Digital-Wandler W1 und W4, während die Umsetzung der an den Ausgängen SA und EA auftretenden digitalen Signale in analoge Signale durch die Digital/Analog-Wandler W2 und W3 erfolgt.
- Im Gegensatz zu dem in Fig. 2 gezeigten Blockschaltbild kann auch auf die Regelverstärker RV1 und RV2 verzichtet werden, wenn die Funktion der Verstärkung der Signale durch den Signalprozessor SP selbst übernommen wird, der auch als geeigneter Mikroprozessor ausgebildet sein kann. Ebenso ist die Durchführung des erfindungsgemäßen Verfahrens durch eine entsprechende diskret aufgebaute analoge Schaltungsanordnung oder auch einen entsprechend ausgebildeten Kundenschaltkreis denkbar.
Claims (20)
dadurch gekennzeichnet,
daß die am Ausgang des Tiefpaßfilters auftretenden Signale auf Amplitude und Dauer einer bestimmten Amplitude überprüft werden und daß dann ein Sprachsignal erkannt wird, wenn mindestens drei aufeinanderfolgende Amplituden im Bereich der Sprachgrundfrequenz aufgetreten sind.
dadurch gekennzeichnet,
daß das Tiefpaßfilter eine obere Grenzfrequenz von höchstens 400 Hz aufweist.
dadurch gekennzeichnet,
daß die Dauer der Überprüfung einer Amplitude über ein Zeitfenster (ZF) erfolgt, dessen Länge kleiner ist, als die Hälfte der kürzesten Periode der Sprachgrundfrequenz.
dadurch gekennzeichnet,
daß sowohl positive als auch negative Amplituden überprüft werden.
dadurch gekennzeichnet,
daß die Überprüfung der folgenden Amplituden über ein Amplitudenfenster (AF) erfolgt, dessen Amplitudenbereich in Abhängigkeit von dem ersten erkannten Amplitudenhöchstwert festgelegt wird.
dadurch gekennzeichnet,
daß das Amplitudenfenster einen Amplitudenbereich von + 20 bis -20 % des Amplitudenhöchstwertes aufweist.
dadurch gekennzeichnet,
daß der Zeitraum zwischen dem ersten erkannten Amplitudenhöchstwert und dem folgenden im Amplitudenfenster (AF) liegenden Amplitude innerhalb eines vorgegebenen Zeitrahmens gemessen wird.
dadurch gekennzeichnet,
daß der Zeitrahmen (PF) zwischen 3 und 12,5 ms liegt.
dadurch gekennzeichnet,
daß der dritte Amplitudenhöchstwert (A3) in einem Zeitfenster ( F) liegen muß, dessen Lage durch den Abstand zwischen dem ersten (A1) und dem zweiten (A2) Amplitudenhöchstwert bestimmt wird und innerhalb einer Toleranz von ± 7,5 % desselben liegt.
dadurch gekennzeichnet,
daß die erste Periode und die zweite Periode bzw. die erste Periode und die dritte Periode zur Bestimmung der Kreuz-Korrelationsgrade benutzt wird.
dadurch gekennzeichnet,
daß aus den gemessenen Zeiträumen der ersten und der zweiten bzw. der ersten und der dritten Periode der normierte mittlere quadratische Fehler ermittelt wird.
dadurch gekennzeichnet,
daß die ermittelten Werte mit Hilfe einer wählbaren Schwelle überprüft werden und daß bei Überschreiten der Schwelle durch einen ermittelten Wert ein Sprachsignal erkannt wird.
dadurch gekennzeichnet,
daß das analoge Sprachsignal einem Analog/Digital-Wandler zugeführt wird.
dadurch gekennzeichnet,
daß das digitalisierte Sprachsignal einem Signalprozessor (SP) zugeführt wird, welcher ein, das Vorliegen eines Sprachsignals kennzeichnendes Ausgangssignal liefert.
dadurch gekennzeichnet,
daß bei Vorliegen eines Sprachsignals das Eingangssignal des Regelverstärkers (RV) auf Veranlassung des Signalprozessors um einen vorgegebenen Wert verstärkt wird.
dadurch gekennzeichnet,
daß bei Vorliegen eines Sprachsignals des Mikrofons (M) das Lautsprechersignal um einen vorgegebenen Wert durch den zugeordneten Regelverstärker (RV2) auf Veranlassung des Signalprozessors (SP) gedämpft wird.
dadurch gekennzeichnet,
daß durch den Signalprozessor (SP) das Mikrofonsignal um den Betrag der Erkennungszeit von Sprachsignalen verzögert wird.
dadurch gekennzeichnet,
daß durch den Signalprozessor (SP) bei Vorliegen eines Sprachsignals der betreffende Regelverstärker aufgesteuert und der andere Regelverstärker gedämpft wird.
dadurch gekennzeichnet,
daß das Steuersignal für den bzw. die Regelverstärker nach Ausbleiben eines Sprachsignals für eine bestimmte Zeit aufrechterhalten wird.
dadurch gekennzeichnet,
daß die Funktion der Regelverstärker (Rv1, Rv2) durch den Signalprozessor (SP) übernommen wird.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19883810068 DE3810068A1 (de) | 1988-03-25 | 1988-03-25 | Verfahren zur erkennung von sprachsignalen |
DE3810068 | 1988-03-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
EP0334023A2 true EP0334023A2 (de) | 1989-09-27 |
EP0334023A3 EP0334023A3 (de) | 1991-02-06 |
Family
ID=6350648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP19890102876 Withdrawn EP0334023A3 (de) | 1988-03-25 | 1989-02-20 | Verfahren zur Erkennung von Sprachsignalen |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP0334023A3 (de) |
DE (1) | DE3810068A1 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992013340A1 (en) * | 1991-01-18 | 1992-08-06 | Theis Peter F | System for distinguishing or counting spoken itemized expressions |
WO1997000515A1 (en) * | 1995-06-19 | 1997-01-03 | Fjaellbrandt Tore | Method and arrangement for determining a pitch frequency in an acoustic signal |
WO2000070602A1 (en) * | 1999-05-18 | 2000-11-23 | Voxlab Oy | Method of evaluating the rhythmicity of a digital signal composed of samples |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822726A (en) * | 1995-01-31 | 1998-10-13 | Motorola, Inc. | Speech presence detector based on sparse time-random signal samples |
DE10321625B4 (de) * | 2003-05-13 | 2007-08-23 | Gehrke Kommunikationssyteme Gmbh | Signalübertragungsvorrichtung und Verfahren zum Regeln einer Signalübertragungsvorrichtung |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3751602A (en) * | 1971-08-13 | 1973-08-07 | Bell Telephone Labor Inc | Loudspeaking telephone |
FR2380612A1 (fr) * | 1977-02-09 | 1978-09-08 | Thomson Csf | Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif |
EP0120325A1 (de) * | 1983-03-01 | 1984-10-03 | Alcatel N.V. | Schaltungsanordnung für einen Freisprechapparat |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3513260A (en) * | 1967-10-13 | 1970-05-19 | Ibm | Speech presence detector |
US4484344A (en) * | 1982-03-01 | 1984-11-20 | Rockwell International Corporation | Voice operated switch |
-
1988
- 1988-03-25 DE DE19883810068 patent/DE3810068A1/de active Granted
-
1989
- 1989-02-20 EP EP19890102876 patent/EP0334023A3/de not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3751602A (en) * | 1971-08-13 | 1973-08-07 | Bell Telephone Labor Inc | Loudspeaking telephone |
FR2380612A1 (fr) * | 1977-02-09 | 1978-09-08 | Thomson Csf | Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif |
EP0120325A1 (de) * | 1983-03-01 | 1984-10-03 | Alcatel N.V. | Schaltungsanordnung für einen Freisprechapparat |
Non-Patent Citations (5)
Title |
---|
ELECTRONICS LETTERS, Band 14, Nr. 4, 16. Febrar 1978, Seiten 109-110, Hitchin, GB; N.R. MALIK et al.: "Adaptive instantaneous pitch detector with microcomputer error correction" * |
ELEKTRONIK, Band 36, Nr. 22, 30. Oktober 1987, Seiten 87-90, M}nchen, DE; C. DESAI: "Frei sprechen ohne R}ckkopplung" * |
IEEE TRANSACTIONS ON CONSUMER ELECTRONICS, Band 34, Nr. 3, August 1988, Seiten 824-833, New York, US; M. GOTO et al.: "Microprocessor based English speech training system" * |
N.T.I.S. TECHN. NOTES, Juni 1988, Seite 450, Springfield, US; "Pitch-learning algorithm for speech encoders" * |
THE JOURNAL OF ACOUSTICAL SOCIETY OF AMERICA, Band 46, Nr. 2, Teil 2, 1969, Seiten 442-448, New York, US; B. GOLD et al.: "Parallel processing techniques for estimating pitch periods of speech in the time domain" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992013340A1 (en) * | 1991-01-18 | 1992-08-06 | Theis Peter F | System for distinguishing or counting spoken itemized expressions |
WO1997000515A1 (en) * | 1995-06-19 | 1997-01-03 | Fjaellbrandt Tore | Method and arrangement for determining a pitch frequency in an acoustic signal |
WO2000070602A1 (en) * | 1999-05-18 | 2000-11-23 | Voxlab Oy | Method of evaluating the rhythmicity of a digital signal composed of samples |
Also Published As
Publication number | Publication date |
---|---|
DE3810068A1 (de) | 1989-10-05 |
EP0334023A3 (de) | 1991-02-06 |
DE3810068C2 (de) | 1990-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2719973C2 (de) | ||
DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
DE69331181T2 (de) | Tonverstärkervorrichtung mit automatischer Unterdrückung akustischer Rückkopplung | |
DE4126902C2 (de) | Sprachintervall - Feststelleinheit | |
DE3802903C2 (de) | ||
DE69917361T2 (de) | Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen | |
DE2518320A1 (de) | Verfahren und detektorschaltung zum feststellen einer signalaktivitaet im tonfrequenzbereich bei einer fernsprechverbindungsleitung | |
DE69915711T2 (de) | Verfahren und signalprozessor zur verstärkung von sprachsignal-komponenten in einem hörhilfegerät | |
DE3235279C2 (de) | Spracherkennungseinrichtung | |
DE1248225B (de) | Verfahren und Vorrichtung zum genauen Ermitteln der Herzschlagfrequenz | |
DE69529223T2 (de) | Testverfahren | |
DE2207141A1 (de) | Schaltungsanordnung zur unterdrueckung unerwuenschter sprachsignale mittels eines vorhersagenden filters | |
DE3525472A1 (de) | Anordnung zum detektieren impulsartiger stoerungen und anordnung zum unterdruecken impulsartiger stoerungen mit einer anordnung zum detektieren impulsartiger stoerungen | |
DE102015207706B3 (de) | Verfahren zur frequenzabhängigen Rauschunterdrückung eines Eingangssignals | |
EP1101390B1 (de) | Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe | |
CH691787A5 (de) | Klirrunterdruckung bei Hörgeräten mit AGC. | |
EP0334023A2 (de) | Verfahren zur Erkennung von Sprachsignalen | |
DE3733983A1 (de) | Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen | |
DE3102385A1 (de) | Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern | |
DE3101483A1 (de) | Datenerkennungsdetektor bei einer zeitabhaengigen sprechinterpoliereinrichtung | |
DE2302360A1 (de) | Einrichtung mit einer sende- und einer empfangsstation zum erzeugen, umformen und uebertragen von signalen | |
DE3734446C2 (de) | ||
DE3779708T2 (de) | Schaltungsanordnung zur isolationsgewaehrung zwischen den uebertragungswegen eines freisprechapparates. | |
DE69608822T2 (de) | Hörgerät mit verbessertem perzentilgenerator | |
DE69208602T2 (de) | Ein den Frequenzhub begrenzender Übertragungsschaltkreis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH DE ES FR GB IT LI LU NL SE |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: TELENORMA GMBH |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT BE CH DE ES FR GB IT LI LU NL SE |
|
17P | Request for examination filed |
Effective date: 19910306 |
|
17Q | First examination report despatched |
Effective date: 19921221 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN |
|
18W | Application withdrawn |
Withdrawal date: 19930408 |