EP4134954B1

EP4134954B1 - Method and device for improving an audio signal

Info

Publication number: EP4134954B1
Application number: EP21190351.3A
Authority: EP
Inventors: Markus Vieweg; Dr. Bernd Dominik Schäfer
Original assignee: Optimic GmbH
Current assignee: Optimic GmbH
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2023-08-02
Anticipated expiration: 2041-08-09
Also published as: EP4134954A1; EP4134954C0

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Verbesserung eines Audiosignals. Das Verfahren wird vorzugsweise in Echtzeit ausgeführt, sodass es sich für eine im Wesentlichen gleichzeitige Aufnahme und Wiedergabe von Audiosignalen eignet.The present invention relates to a method for enhancing an audio signal. The method is preferably carried out in real time, so that it is suitable for essentially simultaneous recording and playback of audio signals.

Audiosignale werden in der Praxis häufig unter ungünstigen akustischen Bedingungen mithilfe von Mikrofonen aufgezeichnet. Beispielsweise ist ein gewünschter Sprachsignalanteil während der Aufzeichnung von einem unerwünschten Störgeräusch überlagert, welches die Qualität des Audiosignals beeinträchtigt, insbesondere im Hinblick auf die Sprachverständlichkeit. Darüber hinaus kann das Audiosignal aufgrund der räumlichen Gegebenheiten oder in Folge eines großen Abstandes zwischen dem Sprecher und dem Mikrofon verhallt sein, sodass der Sprachanteil des Audiosignals bei einer gleichzeitigen Wiedergabe über Lautsprecher trotz einer Verstärkung schwer zu verstehen ist. Der eigentliche Vorteil einer akustischen Verstärkung des Audiosignals ist aus diesem Grunde häufig nicht ausreichend, um für eine befriedigende Sprachsignalqualität und Sprachverständlichkeit zu sorgen.In practice, audio signals are often recorded under unfavorable acoustic conditions using microphones. For example, a desired speech signal component is overlaid by unwanted background noise during the recording, which impairs the quality of the audio signal, particularly with regard to speech intelligibility. In addition, the audio signal can be reverberated due to the spatial conditions or as a result of a large distance between the speaker and the microphone, so that the speech component of the audio signal is difficult to understand when played back over loudspeakers despite amplification. For this reason, the actual advantage of acoustic amplification of the audio signal is often not sufficient to ensure satisfactory speech signal quality and speech intelligibility.

Zur Reduzierung der genannten Probleme ist es grundsätzlich möglich, das Audiosignal nach der Aufzeichnung mittels eines Audiofilters zu verarbeiten, um unerwünschte Signalanteile zu reduzieren. Dies ist jedoch mit Schwierigkeiten verbunden, weil das Audiofilter auf das jeweilige Audiosignal abgestimmt sein muss. In der Praxis bedeutet dies, dass ein Audiofilter für ein bestimmtes Audiosignal, welches in einer bestimmten akustischen Umgebung mit einem bestimmten Mikrofon aufgezeichnet worden ist, gute Ergebnisse erzielen kann, für ein anderes Audiosignal, welches unter anderen Bedingungen aufgezeichnet worden ist, jedoch nicht.In order to reduce the problems mentioned, it is basically possible to process the audio signal after recording using an audio filter in order to reduce undesired signal components. However, this is associated with difficulties because the audio filter must be matched to the respective audio signal. In practice, this means that an audio filter can achieve good results for a specific audio signal recorded in a specific acoustic environment with a specific microphone, for a different audio signal, which has been recorded under other conditions, but not.

Die vorstehend genannten Probleme sind insbesondere im Bereich der z.B. für Messen eingesetzten mobilen Tontechnik relevant, weil diese mit unterschiedlichsten akustische Umgebungen kompatibel sein muss und in aller Regel wenig Zeit zur Verfügung steht, um die Audioverarbeitungsgeräte optimal einzustellen. Darüber hinaus besteht häufig überhaupt keine Möglichkeit, die Audiogeräte auf einen jeweiligen Sprecher zu optimieren, beispielsweise im Hinblick auf den geeigneten Abstand zwischen dem Sprecher und dem Mikrofon. Darüber hinaus bereiten Unterschiede zwischen verschiedenen Sprechern Probleme. Beispielsweise können unterschiedliche Sprecher, die insbesondere aufgrund von Alters- und Geschlechterunterschieden unterschiedliche Stimmeigenschaften aufweisen (z.B. unterschiedliche Sprecherlautstärke und Frequenzzusammensetzung), mit denselben Audiogeräten bei konstanter Konfiguration nicht in der Weise behandelt werden, dass zuverlässig eine hohe Sprachsignalqualität erzielt wird.The problems mentioned above are particularly relevant in the field of mobile audio technology used, for example, for trade fairs, because it has to be compatible with a wide variety of acoustic environments and, as a rule, little time is available to optimally adjust the audio processing devices. In addition, there is often no way at all to optimize the audio devices for a particular speaker, for example with regard to the appropriate distance between the speaker and the microphone. In addition, differences between different speakers cause problems. For example, different speakers, who have different voice characteristics (e.g. different speaker volume and frequency composition), in particular due to age and gender differences, cannot be treated with the same audio devices with a constant configuration in such a way that a high voice signal quality is reliably achieved.

Zwar ist es möglich, mithilfe eines Mischpults das Audiosignal zu filtern und die akustischen Filterparameter während der Aufnahme manuell einzustellen. Dies ist jedoch aufwendig und erfordert besonders geschultes Personal. Zudem sind die auf diese Weise erzielbaren Verbesserungen variabel. Probleme bestehen insbesondere bei stark wechselnden akustischen Aufnahmesituationen, die nicht mit ausreichender Geschwindigkeit und Zuverlässigkeit kompensiert werden können.It is possible to use a mixer to filter the audio signal and set the acoustic filter parameters manually during recording. However, this is expensive and requires specially trained personnel. In addition, the improvements that can be achieved in this way are variable. Problems exist in particular in the case of strongly changing acoustic recording situations that cannot be compensated for with sufficient speed and reliability.

Verfahren zur Verbesserung der Sprachsignalqualität sind aus den Dokumenten US 2016 0 019 905 A1 , US 2017 0 047 080 A1 , US 6 295 364 B1 , US 2010 012 1 634 A1 , US 2006 024 7 922 A1 sowie Schepker et al., Improving speech intelligibility in noise by SII-dependent preprocessing using frequency-dependent amplification and dynamic range compression, Interspeech 2013 bekannt.Methods for improving the voice signal quality are from the documents U.S. 2016 0 019 905 A1 , U.S. 2017 0 047 080 A1 , U.S. 6,295,364 B1 , US 2010 012 1 634 A1 , US 2006 024 7 922 A1 and Schepker etc al., Improving speech intelligibility in noise by SII-dependent preprocessing using frequency-dependent amplification and dynamic range compression, Interspeech 2013.

Es ist eine Aufgabe der Erfindung, ein Verfahren zur Verbesserung von Audiosignalen bereitzustellen, welches für unterschiedliche Audiosignale geeignet ist und insbesondere eine zuverlässige automatische Verbesserung des Audiosignals in Echtzeit ermöglicht. Ferner ist es eine Aufgabe der Erfindung, eine Vorrichtung zur Verbesserung von Audiosignalen bereitzustellen, welches zur automatischen Verbesserung von unterschiedlichen Audiosignalen insbesondere in Echtzeit geeignet ist.It is an object of the invention to provide a method for enhancing audio signals which is suitable for different audio signals and in particular a reliable automatic one Enhancing the audio signal in real time. Furthermore, it is an object of the invention to provide a device for enhancing audio signals, which is suitable for automatically enhancing different audio signals, in particular in real time.

Die Aufgabe wird gemäß einem ersten Aspekt gelöst durch ein Verfahren mit den Merkmalen des Anspruchs 1.According to a first aspect, the object is achieved by a method having the features of claim 1.

Ein erfindungsgemäßes Verfahren zur Verbesserung eines Audiosignals weist zumindest folgende Schritte auf: Empfangen eines Audiosignals mit mehreren Amplitudenwerten, wobei das Audiosignal zumindest abschnittsweise Sprache aufweist; Detektieren von Sprachabschnitten des Audiosignals; Filtern des Audiosignals mit wenigstens einem Pegelfilter, um Signalpegelvariationen des Audiosignals in den detektierten Sprachabschnitten zu reduzieren; und Filtern des Audiosignals mit wenigstens einem Entzerrfilter, um spektrale Variationen des Audiosignals in den detektierten Sprachabschnitten zu reduzieren.A method according to the invention for improving an audio signal has at least the following steps: receiving an audio signal with a plurality of amplitude values, the audio signal having speech at least in sections; detecting speech portions of the audio signal; filtering the audio signal with at least one level filter to reduce signal level variations of the audio signal in the detected speech sections; and filtering the audio signal with at least one equalization filter to reduce spectral variations of the audio signal in the detected speech segments.

Das Verfahren umfasst ferner folgende Schritte: Bestimmen einer Rückkopplungsfrequenz, welche eine Rückkopplung des Audiosignals repräsentiert; Filtern des Audiosignals mit einem Rückkopplungsfilter auf der Grundlage der bestimmten Rückkopplungsfrequenz, um Rückkopplungen repräsentierende Spektralanteile des Audiosignals zu reduzieren.The method also includes the following steps: determining a feedback frequency, which represents a feedback of the audio signal; Filtering the audio signal with a feedback filter on the basis of the determined feedback frequency in order to reduce spectral components of the audio signal that represent feedback.

Das Filtern mit dem wenigstens einen Entzerrfilter umfasst einen Schritt des Bestimmens von Grobspektralwerten auf der Grundlage von Feinspektralwerten des Audiosignals, wobei die Grobspektralwerte die Feinspektralwerte mit einer geringeren Spektralauflösung als die Feinspektralwerte repräsentieren. Ferner werden erste Entzerrgewichte bestimmt, die eine Abweichung der Grobspektralwerte von vorbestimmten Referenzspektralwerten repräsentieren. Das Audiosignal wird außerdem mit den ersten Entzerrgewichten gewichtet, um die Spektralwerte in Übereinstimmung mit den Referenzspektralwerten zu bringen.Filtering with the at least one equalization filter includes a step of determining coarse spectral values on the basis of fine spectral values of the audio signal, the coarse spectral values representing the fine spectral values with a lower spectral resolution than the fine spectral values. Furthermore, first equalization weights are determined, which indicate a deviation of the coarse spectral values from predetermined represent reference spectral values. The audio signal is also weighted with the first equalization weights to bring the spectral values into agreement with the reference spectral values.

Das Bestimmen der Rückkopplungsfrequenz umfasst folgende Schritte: Bestimmen einer Untermenge von Spektralwerten des Audiosignals, die einen vorbestimmten Spektralschwellenwert verletzen; Bestimmen von mehreren ersten Spektralparameterwerten auf der Grundlage der Untermenge, wobei jeder der ersten Spektralparameterwerte eine vorbestimmte Relation zwischen einem zugeordneten Spektralwert der Untermenge und wenigstens einem zeitlich und/oder spektral benachbarten Spektralwert repräsentiert; und Bestimmen der Rückkopplungsfrequenz auf der Grundlage der mehreren ersten Spektralparameterwerte.Determining the feedback frequency includes the steps of: determining a subset of spectral values of the audio signal that violate a predetermined spectral threshold; determining a plurality of first spectral parameter values on the basis of the subset, each of the first spectral parameter values representing a predetermined relation between an associated spectral value of the subset and at least one temporally and/or spectrally adjacent spectral value; and determining the feedback frequency based on the plurality of first spectral parameter values.

Es hat sich gezeigt, dass die Qualität von Audiosignalen besonders unter einer unzureichenden Verständlichkeit der enthaltenen Sprachanteile leidet, also insbesondere jenen Abschnitten des Audiosignals, welche gesprochene Sprache aufweisen. Vor diesem Hintergrund werden erfindungsgemäß Zeitabschnitte des Audiosignals detektiert, welche Sprache aufweisen und als Sprachabschnitte bezeichnet werden können. Auf der Grundlage der detektierten Abschnitte wird das Audiosignal sodann mit einem Pegelfilter und einem Entzerrfilter verarbeitet, um bestimmte Variationen des Audiosignals zu reduzieren. Hierbei können Variationen sowohl innerhalb eines Audiosignals, als auch zwischen verschiedenen Audiosignalen behandelt werden.It has been shown that the quality of audio signals suffers particularly from insufficient intelligibility of the speech components contained, ie in particular those sections of the audio signal which contain spoken language. Against this background, according to the invention, time sections of the audio signal are detected which contain speech and can be referred to as speech sections. Based on the detected portions, the audio signal is then processed with a level filter and an equalization filter to reduce certain variations in the audio signal. Here, variations can be treated both within an audio signal and between different audio signals.

Das Pegelfilter dient zur Reduktion von Signalpegelvariationen, um den Pegel des Audiosignals zu vereinheitlichen. Beispielsweise werden abschnittsweise sehr laute und leise Sprachsignalanteile abgeschwächt bzw. verstärkt, sodass sich insgesamt ein einheitlicher Signalpegel einstellt. Unterschiedliche Signalpegel ergeben sich in der Praxis z.B. durch variable Abstände zwischen einem Sprecher und dem aufzeichnenden Mikrofon sowie durch die akustischen Eigenschaften des umgebenden Raums. Die hieraus resultierenden Pegelvariationen werden durch das Pegelfilter jedoch kompensiert, sodass sich die subjektive Signalqualität verbessert.The level filter is used to reduce signal level variations in order to standardize the level of the audio signal. For example, very loud and quiet parts of the speech signal are attenuated or amplified in sections, resulting in a uniform signal level overall adjusts In practice, different signal levels result, for example, from variable distances between a speaker and the recording microphone and from the acoustic properties of the surrounding room. However, the resulting level variations are compensated by the level filter, so that the subjective signal quality improves.

Zusätzlich oder alternativ kommt ein Entzerrfilter zum Einsatz, um spektrale Variationen des Audiosignals zu reduzieren. Spektrale Variationen treten einerseits durch unterschiedliche Sprecher auf, die mit ihren Stimmen dem Audiosignal eine jeweils eigene Spektralcharakteristik aufprägen. Hinzu kommt eine spektrale Färbung durch die akustische Umgebung während der Aufnahme sowie gegebenenfalls durch die verwendeten Tongeräte, insbesondere das Mikrofon und dessen Ausrichtung relativ zum Sprecher.Additionally or alternatively, an equalization filter is used to reduce spectral variations in the audio signal. On the one hand, spectral variations occur due to different speakers, who impress their own spectral characteristics on the audio signal with their voices. In addition, there is a spectral coloring due to the acoustic environment during the recording and possibly due to the sound equipment used, in particular the microphone and its alignment relative to the speaker.

Für eine hohe Sprachverständlichkeit ist es von Bedeutung, dass die Spektralanteile in bestimmten Frequenzbereichen, die für die Sprachverständlichkeit relevant sind, möglichst nicht oder nur in geringem Umfang durch andere spektrale Anteile maskiert werden. Häufig führen die akustischen Umgebungsbedingungen jedoch dazu, dass die sprachrelevanten Anteile in denselben oder in benachbarten Frequenzbereichen von anderen Signalanteilen variabel überlagert werden, sodass die sprachrelevanten Anteile nicht immer gleich gut wahrgenommen werden können. Derartige Veränderungen des Signals sind anhand der spektralen Variationen über die Zeit feststellbar und können daher durch ein geeignetes Filter behandelt werden. Vor diesem Hintergrund wird das Entzerrfilter dazu eingesetzt, spektrale Variationen in den detektierten Sprachabschnitten zu reduzieren. Auf diese Weise kann das Audiosignal in spektraler Hinsicht vereinheitlicht werden, um die Signalqualität insbesondere im Hinblick auf eine gute Sprachverständlichkeit zu erhöhen.For a high level of speech intelligibility, it is important that the spectral components in certain frequency ranges that are relevant for speech intelligibility are not masked, or only to a small extent, by other spectral components. However, the acoustic environmental conditions often lead to the speech-relevant parts being variably superimposed by other signal parts in the same or in neighboring frequency ranges, so that the speech-relevant parts cannot always be perceived equally well. Such changes in the signal can be determined from the spectral variations over time and can therefore be treated by a suitable filter. Against this background, the equalization filter is used to reduce spectral variations in the detected speech sections. In this way, the audio signal can be standardized in spectral terms in order to To increase signal quality, especially with regard to good speech intelligibility.

Durch das Verfahren kann insbesondere eine vollautomatische Signalverbesserung erfolgen. Eine vorherige oder betriebsbegleitende manuelle Einstellung oder Nachregelung von Filterparametern ist somit nicht notwendig, d.h. die Parameter des Pegel- und/oder Entzerrfilters können bei bestimmungsgemäßer Ausführung des Verfahrens fest eingestellt sein oder werden durch eine Recheneinheit automatisch eingestellt. Darüber hinaus gewährleistet das Verfahren eine hervorragende Signalverbesserung für unterschiedlichste Audiosignale, auch in besonders schwierigen akustischen Umgebungen. Mit anderen Worten ist das Verfahren besonders robust gegenüber akustischen Variationen jeglicher Art und ist somit für den professionellen Einsatz in der Praxis besonders geeignet. Darüber hinaus kann das Verfahre in Echtzeit, d.h. mit einer Latenz von weniger als 20 ms, bevorzugt von weniger als 10 ms, insbesondere 6 ms.In particular, the method allows a fully automatic signal improvement to take place. A previous or operational manual setting or readjustment of filter parameters is therefore not necessary, i.e. the parameters of the level and/or equalization filter can be permanently set when the method is carried out as intended or are set automatically by a computing unit. In addition, the process ensures excellent signal improvement for a wide variety of audio signals, even in particularly difficult acoustic environments. In other words, the method is particularly robust against acoustic variations of any kind and is therefore particularly suitable for professional use in practice. In addition, the method can be used in real time, i.e. with a latency of less than 20 ms, preferably less than 10 ms, in particular 6 ms.

Besonders vorteilhaft ist es, wenn sowohl das Pegelfilter, als auch das Entzerrfilter verwendet werden. Darüber hinaus können noch zusätzliche Filter vorgesehen sein, um das Audiosignal weiter zu verbessern, wie im Folgenden erläutert wird.It is particularly advantageous if both the level filter and the equalization filter are used. In addition, additional filters can also be provided in order to further improve the audio signal, as will be explained below.

Es versteht sich, dass die Filterung des Audiosignals nicht notwendig auf die detektierten Sprachabschnitte beschränkt werden muss. Beispielsweise kann ein Entzerrfilter im Hinblick auf besondere Spektralanteile, die etwa durch Rückkopplungen verursacht werden, zusätzlich auch außerhalb von Sprachabschnitten wirksam sein. Das Audiosignal wird jedoch zumindest in den Sprachabschnitten gefiltert, weil diese für die Sprachverständlichkeit besonders bedeutsam sind. Zur Verbesserung der Effizienz des Verfahrens können bestimmte Aspekte der Filterung auf die Sprachabschnitte beschränkt werden.It goes without saying that the filtering of the audio signal does not necessarily have to be restricted to the detected speech sections. For example, an equalization filter can also be effective outside of speech sections with regard to special spectral components that are caused, for example, by feedback. However, the audio signal is filtered at least in the speech sections because these are particularly important for speech intelligibility. To the In order to improve the efficiency of the method, certain aspects of the filtering can be restricted to the speech sections.

Ausführungsformen sind in der Beschreibung, den Figuren und den abhängigen Ansprüchen offenbart.Embodiments are disclosed in the description, the figures and the dependent claims.

Gemäß einer Ausführungsform umfasst das Verfahren einen Schritt des Bestimmens von mehreren Spektralwerten auf der Grundlage der Amplitudenwerte, wobei die Amplitudenwerte das Audiosignal in einem Zeitbereich repräsentieren und wobei die Spektralwerte das Audiosignal in einem Frequenzbereich repräsentieren. Das Detektieren der Sprachabschnitte, das Filtern mit dem wenigstens einen Pegelfilter und/oder das Filtern mit dem wenigstens einen Entzerrfilter erfolgt auf der Grundlage der Amplitudenwerte und/oder der Spektralwerte. Die Filterung erfolgt somit auf der Grundlage von zwei unterschiedlichen Repräsentationen des Audiosignals, nämlich Zeitbereichs- und Frequenzbereichswerten des Audiosignals. Die Effizienz und Zuverlässigkeit des Verfahrens wird auf diese Weise gesteigert.According to one embodiment, the method includes a step of determining a plurality of spectral values on the basis of the amplitude values, the amplitude values representing the audio signal in a time domain and the spectral values representing the audio signal in a frequency domain. The detection of the speech sections, the filtering with the at least one level filter and/or the filtering with the at least one equalization filter takes place on the basis of the amplitude values and/or the spectral values. The filtering is thus performed on the basis of two different representations of the audio signal, namely time domain and frequency domain values of the audio signal. The efficiency and reliability of the process is increased in this way.

Die Spektralwerte können mittels bekannter Frequenzraumtransformationen, wie beispielsweise der schnellen FourierTransformation (Fast Fourier Transformation, FFT) auf der Grundlage der Zeitbereichsamplitudenwerte ermittelt werden. Die Spektralwerte sind vorzugsweise durch den Betrag der Frequenzkoeffizienten (Spektralamplitudenwerte) gebildet, die durch FFT auf der Grundlage der Zeitbereichsamplitudenwerte besonders effizient ermittelt werden können. Der vorteilhafte Einsatz der Amplitudenwerte und der Spektralwerte erfordert somit vergleichsweise wenig Rechnerressourcen.The spectral values can be determined on the basis of the time-domain amplitude values using known frequency-space transforms, such as the Fast Fourier Transform (FFT). The spectral values are preferably formed by the absolute value of the frequency coefficients (spectral amplitude values), which can be determined particularly efficiently by FFT on the basis of the time domain amplitude values. The advantageous use of the amplitude values and the spectral values thus requires comparatively few computer resources.

Gemäß einer weiteren Ausführungsform umfasst das Detektieren der Sprachabschnitte zumindest folgende Schritte: Bestimmen wenigstens eines ersten Energieparameterwerts auf der Grundlage der Amplitudenwerte, wobei der erste Energieparameterwert eine mittlere Energie eines Abschnitts des Sprachsignals repräsentiert; Bestimmen wenigstens eines zweiten Spektralparameterwerts auf der Grundlage von Spektralwerten des Audiosignals, wobei der wenigstens eine zweite Spektralparameterwert eine harmonische Spektralstruktur des Abschnitts repräsentiert; und Detektieren des Abschnitts als Sprachabschnitt, wenn der wenigstens eine erste Energieparameterwert einen ersten Energieparameterschwellenwert und/oder der wenigstens eine zweite Spektralparameterwert einen Spektralparameterschwellenwert verletzt. Die Detektion von Sprachabschnitten auf der Grundlage von Zeitbereichsund Spektralparametern hat sich als besonders nützlich erwiesen, um sowohl rauschartige Abschnitte (z.B. bei Konsonanten), als auch tonale Abschnitte (z.B. bei Vokalen) zuverlässig zu erfassen und durch Schwellenwertvergleich zur Unterscheidung von Sprachabschnitten und Rauschabschnitten auszuwerten.According to a further embodiment, the detection of the speech sections comprises at least the following steps: determining at least a first energy parameter value on the basis of the amplitude values, wherein the first energy parameter value represents an average energy of a portion of the speech signal; determining at least one second spectral parameter value based on spectral values of the audio signal, the at least one second spectral parameter value representing a harmonic spectral structure of the portion; and detecting the segment as a speech segment if the at least one first energy parameter value violates a first energy parameter threshold and/or the at least one second spectral parameter value violates a spectral parameter threshold. The detection of speech sections based on time domain and spectral parameters has proven to be particularly useful for reliably detecting both noise-like sections (e.g. consonants) and tonal sections (e.g. vowels) and evaluating them by threshold comparison to distinguish between speech sections and noise sections.

Die genannten Schwellenwerte (Energieparameterschwellenwert und Spektralparameterschwellenwert) können grundsätzlich fest eingestellt sein. Die Zuverlässigkeit der Detektion von Sprachabschnitten kann jedoch in besonderer Weise verbessert werden, indem der erste Energieparameterschwellenwert und/oder der erste Spektralparameterschwellenwert in Abhängigkeit von der Zeit angepasst wird. Beispielsweise kann der Signalpegel des Audiosignals zur Einstellung der Schwellenwerte herangezogen werden, um sicherzustellen, dass die Schwellenwerte auf das jeweils aktuelle Energieniveau abgestimmt sind.The threshold values mentioned (energy parameter threshold value and spectral parameter threshold value) can in principle be permanently set. However, the reliability of the detection of speech sections can be improved in a particular way by adapting the first energy parameter threshold value and/or the first spectral parameter threshold value as a function of time. For example, the signal level of the audio signal can be used to set the thresholds to ensure that the thresholds are aligned with the current energy level.

Nach einer weiteren Ausführungsform umfasst das Filtern des Audiosignals mit dem wenigstens einen Pegelfilter zumindest das Folgende: Bestimmen wenigstens eines Pegelparameterwerts auf der Grundlage der Amplitudenwerte, wobei der Pegelparameterwert einen mittleren Pegel des Audiosignals für einen detektierten Sprachabschnitt repräsentiert; Bestimmen von wenigstens einem Kompensationsgewicht auf der Grundlage des wenigstens einen Pegelparameterwerts; und Gewichten des Audiosignals mit dem wenigstens einen Kompensationsgewicht, um die Signalpegelvariationen des Audiosignals zu reduzieren.According to a further embodiment, the filtering of the audio signal with the at least one level filter comprises at least the following: determining at least one level parameter value on the basis of the amplitude values, the level parameter value having a represents mean level of the audio signal for a detected speech segment; determining at least one compensation weight based on the at least one level parameter value; and weighting the audio signal with the at least one compensation weight to reduce the signal level variations of the audio signal.

Der wenigstens eine Pegelparameterwert kann allgemein mehrere Pegelparameterwerte umfassen, die den Pegel für detektierte Sprachabschnitte unterschiedlicher Länge angeben. Vorteilhaft können erste und zweite Pegelparameterwerte bestimmt werden, wobei die ersten Pegelparameterwerte den mittleren Pegel des Audiosignals mit einer ersten Zeitauflösung repräsentieren und wobei die zweiten Pegelparameterwerte den mittleren Pegel des Audiosignals mit einer zweiten Zeitauflösung repräsentieren. Die erste und zweite Zeitauflösung unterschieden sich voneinander. Auf diese Weise können kurzfristige und langfristige Effekte der auditorischen Wahrnehmung des Menschen vorteilhaft berücksichtigt werden. Insbesondere können kurzzeitige Pegelspitzen (Clipping) durch Pegelparameterwerte mit kurzer Zeitauflösung erfasst und zur Filterung herangezogen werden. Darüber hinaus können moderate Pegelvariationen, die erst ab einer Mindestdauer wahrnehmbar werden, durch Pegelparameterwerte mit größerer Zeitauflösung erfasst werden. Das Kompensationsgewicht für das Pegelfilter wird sodann auf der Grundlage der ersten und zweiten Pegelparameterwerte bestimmt.The at least one level parameter value can generally comprise a plurality of level parameter values which indicate the level for detected speech sections of different lengths. Advantageously, first and second level parameter values can be determined, the first level parameter values representing the mean level of the audio signal with a first time resolution and the second level parameter values representing the mean level of the audio signal with a second time resolution. The first and second time resolution differ from each other. In this way, short-term and long-term effects of human auditory perception can be advantageously taken into account. In particular, brief level peaks (clipping) can be detected by level parameter values with a short time resolution and used for filtering. In addition, moderate level variations, which only become perceptible after a minimum duration, can be recorded using level parameter values with greater time resolution. The compensation weight for the level filter is then determined based on the first and second level parameter values.

Die ersten Pegelparameterwerte werden vorzugsweise auf der Grundlage von mehreren aufeinanderfolgenden Energiemittelwerten gebildet. Diese können geglättet werden, um erste Lautstärkewerte zu erhalten, die die ersten Pegelparameterwerte bilden. Die zweiten Pegelparameterwerte sind vorzugsweise durch zweite Lautstärkewerte gebildet. Diese können wiederum auf der Grundlage von mehreren aufeinanderfolgenden Energiemittelwerten gebildet werden, wobei abweichend von den ersten Lautstärkewerten eine größere Anzahl von Energiemittelwerten geglättet werden, sodass die zweiten Pegelparameterwerte den Pegel jeweils für eine größere Zeitdauer angeben als die ersten Pegelparameterwerte. Die zweite Zeitauflösung ist somit vorzugsweise größer als die erste Zeitauflösung.The first level parameter values are preferably formed on the basis of a plurality of consecutive energy averages. These can be smoothed to obtain first loudness values that form the first level parameter values. The second level parameter values are preferably formed by second volume values. these can are in turn formed on the basis of a plurality of consecutive energy averages, with a larger number of energy averages being smoothed than the first volume values, so that the second level parameter values each indicate the level for a longer period of time than the first level parameter values. The second time resolution is therefore preferably greater than the first time resolution.

Zur Bestimmung von Lautstärkewerten werden vorzugsweise zumindest einige der Amplitudenwerte in Zeitabschnitte des Audiosignals gruppiert. Sodann werden die Lautstärkewerte für zumindest einige der Zeitabschnitte auf der Grundlage der gruppierten Amplitudenwerte bestimmt, wobei jeder der Lautstärkewerte die Lautstärke eines der Zeitabschnitte des Audiosignals repräsentiert.In order to determine loudness values, at least some of the amplitude values are preferably grouped into time segments of the audio signal. Then the loudness values for at least some of the time periods are determined based on the grouped amplitude values, each of the loudness values representing the loudness of one of the time periods of the audio signal.

Die Begriffe "Energie" und "Pegel" repräsentieren jeweils eine Intensität oder Höhe der Amplitudenwerte. Pegelwerte können somit grundsätzlich als Energiewerte des Audiosignals angesehen werden und umgekehrt, wobei eine unterschiedliche Einheit für beide Werte möglich, jedoch nicht zwingend ist (z.B. kann für den Pegel im Gegensatz zur Energie die normierte logarithmische Einheit dB vorgesehen sein). Der Begriff "Pegel" stellt jedoch insbesondere einen funktionalen Bezug zum Pegelfilter her. Der Begriff "Lautstärke" repräsentiert die Intensität der Amplitudenwerte unter Berücksichtigung der auditorischen Wahrnehmbarkeit.The terms "energy" and "level" each represent an intensity or magnitude of the amplitude values. Level values can therefore basically be viewed as energy values of the audio signal and vice versa, with a different unit for both values being possible but not mandatory (e.g. the normalized logarithmic unit dB can be provided for the level in contrast to the energy). However, the term "level" creates a functional reference to the level filter in particular. The term "loudness" represents the intensity of the amplitude values considering the auditory perceptibility.

Gemäß einer weiteren vorteilhaften Ausführungsform werden erste Kompensationsgewichte und zweite Kompensationsgewichte bestimmt, wobei die ersten Kompensationsgewichte bestimmt werden, um Signalpegelvariationen mit wenigstens einem Pegel, der größer als ein vorbestimmter Pegelschwellenwert ist, zu reduzieren, wobei die zweiten Kompensationsgewichte bestimmt werden, um den Signalpegel des Audiosignals auf einen vorbestimmten Wert einzustellen. Auf diese Weise werden einerseits übermäßige Pegelwerte behandelt, die potentiell als qualitätsmindernde Verzerrung wahrnehmbar sind. Darüber hinaus wird das Audiosignal in den detektierten Sprachabschnitten auf einen Grundpegel eingestellt, sodass aus der Sicht des Hörers moderate Lautstärkeschwankungen kompensiert werden können. Vorzugsweise werden die ersten Kompensationsgewichte auf der Grundlage der ersten Pegelparameterwerte und die zweiten Kompensationsgewichte auf der Grundlage der zweiten Pegelparameterwerte ermittelt. Auf diese Weise kann die Filterung besonders gehörgerecht ausgeführt werden.According to a further advantageous embodiment, first compensation weights and second compensation weights are determined, with the first compensation weights being determined in order to reduce signal level variations with at least one level that is greater than a predetermined level threshold value, with the second compensation weights being determined in order to reduce the signal level of the Adjust audio signal to a predetermined value. In this way, on the one hand, excessive level values are treated, which can potentially be perceived as distortion that reduces quality. In addition, the audio signal in the detected speech sections is set to a basic level so that moderate volume fluctuations from the listener's point of view can be compensated. The first compensation weights are preferably determined on the basis of the first level parameter values and the second compensation weights are determined on the basis of the second level parameter values. In this way, the filtering can be carried out in a particularly hearing-friendly manner.

Wie oben erwähnt umfasst das Filtern mit dem wenigstens einen Entzerrfilter einen Schritt des Bestimmens von Grobspektralwerten auf der Grundlage von Feinspektralwerten des Audiosignals, wobei die Grobspektralwerte die Feinspektralwerte mit einer geringeren Spektralauflösung als die Feinspektralwerte repräsentieren. Ferner werden erste Entzerrgewichte bestimmt, die eine Abweichung der Grobspektralwerte von vorbestimmten Referenzspektralwerten repräsentieren. Das Audiosignal wird außerdem mit den ersten Entzerrgewichten gewichtet, um die Spektralwerte in Übereinstimmung mit den Referenzspektralwerten zu bringen. Die Feinspektralwerte sind vorzugsweise durch die oben genannten Spektralwerte gebildet, die insbesondere durch FFT effizient ermittelt werden können. Die Spektralauflösung dieser Spektralwerte ist bei einer Abtastrate von z.B. 48 kHz und einer Blocklänge von 1024 deutlich höher als die Auflösung, die durch das menschliche Gehör aufgelöst werden kann. Die Frequenzauflösung der Grobspektralwerte entspricht demgegenüber vorzugsweise der Auflösung des menschlichen Gehörs, sodass auf dieser Grundlage eine gehörgerechte Entzerrung ermöglicht wird. Die hierfür herangezogenen Referenzspektralwerte repräsentieren ein Referenzspektrum zur Erzielung einer hohen Sprachqualität von Audiosignalen. Die Grobspektralwerte können beispielsweise durch Oktavbandfilterung der Feinspektralwerte gewonnen werden.As mentioned above, the filtering with the at least one equalization filter includes a step of determining coarse spectral values on the basis of fine spectral values of the audio signal, the coarse spectral values representing the fine spectral values with a lower spectral resolution than the fine spectral values. Furthermore, first equalization weights are determined, which represent a deviation of the coarse spectral values from predetermined reference spectral values. The audio signal is also weighted with the first equalization weights to bring the spectral values into agreement with the reference spectral values. The fine spectral values are preferably formed by the spectral values mentioned above, which can be efficiently determined in particular by FFT. With a sampling rate of 48 kHz and a block length of 1024, for example, the spectral resolution of these spectral values is significantly higher than the resolution that can be resolved by the human ear. In contrast, the frequency resolution of the coarse spectral values preferably corresponds to the resolution of human hearing, so that on this basis an aurally appropriate equalization is made possible. The reference spectral values used for this purpose represent a reference spectrum for achieving a high voice quality of audio signals. The coarse spectral values can be obtained, for example, by octave band filtering of the fine spectral values.

Nach einer weiteren Ausführungsform umfasst das Filtern mit dem wenigstens einen Entzerrfilter ein Gewichten des Audiosignals mit zweiten Entzerrgewichten, wobei die zweiten Entzerrgewichte vorbestimmt sind. Es können somit zusätzlich oder alternativ zu den ersten Entzerrgewichten zweite Entzerrgewichte vorgesehen sein, die im Gegensatz zu den ersten Entzerrgewichten nicht dynamisch bestimmt werden, sondern im Vorfeld festgelegt sind. Durch die die zweiten Entzerrgewichte können beispielsweise Spektralanteile abgeschwächt werden, die für eine hohe Sprachqualität stets hinderlich sind und somit mit einem negativen Verstärkungsfaktor belegt werden können.According to a further embodiment, the filtering with the at least one equalization filter includes a weighting of the audio signal with second equalization weights, the second equalization weights being predetermined. Thus, in addition to or as an alternative to the first equalization weights, second equalization weights can be provided which, in contrast to the first equalization weights, are not determined dynamically but are fixed in advance. The second equalization weights can be used to weaken spectral components, for example, which are always a hindrance to high voice quality and can therefore be given a negative gain factor.

Nach einer weiteren Ausführungsform umfasst das Verfahren ein Filtern des Audiosignals mit wenigstens einem Kompressor, um einen Dynamikumfang des Audiosignals zu reduzieren. Für den wenigstens einen Kompressor können mehrere voneinander verschiedene Parametersätze vorgesehen sein, die in Abhängigkeit von einem Betrag des Audiosignals ausgewählt und der Filterung mit dem wenigstens einen Kompressor zugrunde gelegt werden. Vorteilhaft können sich die mehreren Parametersätze in einem Kompressionsgrad voneinander unterscheiden. Beispielsweise können die mehreren Parametersätze einen ersten Parametersatz umfassen, um den Dynamikumfang des Audiosignals mit einem ersten Kompressionsgrad zu reduzieren, wobei die mehreren Parametersätze einen zweiten Parametersatz umfassen, um den Dynamikumfang des Audiosignals mit einem zweiten Kompressionsgrad zu reduzieren, der stärker als der erste Kompressionsgrad ist. Für besonders gute Ergebnisse weisen die mehreren Parametersätze vorzugsweise einen dritten Parametersatz auf, um den Dynamikumfang des Audiosignals mit einem dritten Kompressionsgrad zu reduzieren, der geringer als der erste Kompressionsgrad ist. Auf diese Weise können qualitätsmindernde Verzerrungen, die durch eine starke Kompression hervorgerufen werden können, besonders effektiv vermieden werden. Der Kompressor kann als ein spezielles Pegelfilter angesehen werden, weil eine Reduktion des Dynamikumfangs mit einer Reduktion des Pegels und der Pegelvariationen einhergeht.According to a further embodiment, the method includes filtering the audio signal with at least one compressor in order to reduce a dynamic range of the audio signal. For the at least one compressor, a plurality of different sets of parameters can be provided, which are selected as a function of an amount of the audio signal and are used as a basis for filtering with the at least one compressor. The multiple parameter sets can advantageously differ from one another in terms of a degree of compression. For example, the multiple sets of parameters may include a first set of parameters to reduce the dynamic range of the audio signal with a first degree of compression, wherein the multiple sets of parameters include a second set of parameters to reduce the dynamic range of the audio signal with a second degree of compression that is greater than the first degree of compression . For particularly good results, the plurality of parameter sets preferably have a third parameter set in order to match the dynamic range of the audio signal with a third Reduce compression level that is less than the first compression level. In this way, quality-reducing distortions that can be caused by strong compression can be avoided particularly effectively. The compressor can be thought of as a special level filter because a reduction in dynamic range is accompanied by a reduction in level and level variations.

Wie oben erwähnt umfasst das Verfahren ferner folgende Schritte: Bestimmen einer Rückkopplungsfrequenz, welche eine Rückkopplung des Audiosignals repräsentiert; Filtern des Audiosignals mit einem Rückkopplungsfilter auf der Grundlage der bestimmten Rückkopplungsfrequenz, um Rückkopplungen repräsentierende Spektralanteile des Audiosignals zu reduzieren. Zum Bestimmen der Rückkopplungsfrequenz werden vorzugsweise die bereits vorliegenden Spektralwerte herangezogen, sodass diese hierfür nicht neu bestimmt werden müssen. Rückkopplungen entstehen, wenn wiedergegebene Signalanteile von dem Mikrofon nochmals aufgezeichnet und verstärkt werden, sodass sich ein instabiler Systemzustand einstellt, der akustisch durch eine starke Resonanz, z.B. durch Brummen oder einen schrillen Pfeifton, wahrnehmbar ist. Das Rückkopplungsfilter wirkt der Entstehung derartiger Kopplungseffekte entgegen, sodass die Signalqualität nicht beeinträchtigt wird. Das Rückkopplungsfilter kann als ein spezielles Entzerrfilter angesehen werden.As mentioned above, the method further comprises the following steps: determining a feedback frequency, which represents a feedback of the audio signal; Filtering the audio signal with a feedback filter on the basis of the determined feedback frequency in order to reduce spectral components of the audio signal that represent feedback. The spectral values already present are preferably used to determine the feedback frequency, so that they do not have to be determined again for this purpose. Feedback occurs when reproduced signal components are recorded again by the microphone and amplified, resulting in an unstable system state that is acoustically perceptible through strong resonance, e.g. through humming or a shrill whistling sound. The feedback filter counteracts such coupling effects so that the signal quality is not affected. The feedback filter can be viewed as a special equalization filter.

Wie weiter oben erwähnt umfasst das Bestimmen der Rückkopplungsfrequenz umfasst vorzugsweise folgende Schritte: Bestimmen einer Untermenge von Spektralwerten des Audiosignals, die einen vorbestimmten Spektralschwellenwert verletzen; Bestimmen von mehreren ersten Spektralparameterwerten auf der Grundlage der Untermenge, wobei jeder der ersten Spektralparameterwerte eine vorbestimmte Relation zwischen einem zugeordneten Spektralwert der Untermenge und wenigstens einem zeitlich und/oder spektral benachbarten Spektralwert repräsentiert; und
Bestimmen der Rückkopplungsfrequenz auf der Grundlage der mehreren ersten Spektralparameterwerte. Der Rechenaufwand zur Bestimmung der Rückkopplungsfrequenz kann durch die schwellenwertbasierte Vorselektion von Spektralwerten stark reduziert werden, sodass die Echtzeitfähigkeit des Verfahrens begünstigt wird. Eine vorbestimmte Relation zwischen Spektralwerten kann insbesondere durch eine mathematische Verknüpfung der Spektralwerte gebildet werden, z.B. durch Verwendung von mathematischen Operatoren, wie Division oder Addition. Auf diese Weise können bestimmte Eigenschaften des Spektrums, die für eine Rückkopplungsfrequenz typisch sind, effizient erfasst werden.As mentioned above, determining the feedback frequency preferably comprises the following steps: determining a subset of spectral values of the audio signal that violate a predetermined spectral threshold value; determining a plurality of first spectral parameter values based on the subset, each of the first spectral parameter values having a represents a predetermined relation between an associated spectral value of the subset and at least one temporally and/or spectrally adjacent spectral value; and
determining the feedback frequency based on the plurality of first spectral parameter values. The computing effort for determining the feedback frequency can be greatly reduced by the threshold-based preselection of spectral values, so that the real-time capability of the method is enhanced. A predetermined relation between spectral values can be formed, in particular, by mathematically linking the spectral values, for example by using mathematical operators such as division or addition. In this way, certain properties of the spectrum that are typical of a feedback frequency can be efficiently detected.

Von besonderem Vorteil ist es, dass wenn die bestimmte Rückkopplungsfrequenz zwischen aufeinanderfolgenden Zeitabschnitten des Audiosignals verschwindet, die Wirksamkeit des Rückkopplungsfilters über mehrere Zeitabschnitte schrittweise reduziert wird. Auf diese Weise wird besonders zuverlässig gewährleistet, dass eine etwaige Rückkopplungsfrequenz wirksam aus dem Signal entfernt wird. Darüber hinaus werden eventuell wahrnehmbare Filterfluktuationen vermieden. Die schrittweise Reduktion des Rückkopplungsfilters erfolgt vorzugsweise nach dem Schema eines endlichen Automaten.It is of particular advantage that if the specific feedback frequency disappears between successive time sections of the audio signal, the effectiveness of the feedback filter is gradually reduced over a number of time sections. In this way, it is ensured in a particularly reliable manner that any feedback frequency is effectively removed from the signal. In addition, any noticeable filter fluctuations are avoided. The step-by-step reduction of the feedback filter preferably takes place according to the scheme of a finite automaton.

Nach einer weiteren Ausführungsform ist zur Filterung des Audiosignals ein Pausenfilter vorgesehen, um das Audiosignal in Bereichen außerhalb der detektierten Sprachabschnitte zu reduzieren. Hierdurch können z.B. zeitliche Maskierungseffekte durch Hintergrundstörgeräusche abgeschwächt werden.According to a further embodiment, a pause filter is provided for filtering the audio signal in order to reduce the audio signal in areas outside of the detected speech sections. In this way, for example, temporal masking effects caused by background noise can be weakened.

Ferner kann das Audiosignal mit einem Rauschfilter gefiltert werden, um das Audiosignal in Bereichen mit Amplitudenwerten, die einen vorbestimmten Rauschschwellenwert verletzen, zu reduzieren. Insbesondere können auf diese Weise sehr kleine Amplitudenwerte, die unterhalb eines Schwellenwerts liegen und für eine gute Signalqualität irrelevant sind, im Wesentlichen vollständig entfernt werden. Das Entstehen von Rückkopplungen wird hierdurch entgegengewirkt. Vorzugsweise wird ein Noisegate-filter eingesetzt.Furthermore, the audio signal can be filtered with a noise filter in order to reduce the audio signal in areas with amplitude values that violate a predetermined noise threshold value. In particular, very small amplitude values that are below a threshold value and are irrelevant for good signal quality can be essentially completely removed in this way. This counteracts the occurrence of feedback. A noise gate filter is preferably used.

Nach einer weiteren Ausführungsform wird das Audiosignal mit einem Bandpassfilter gefiltert. Eine untere Grenzfrequenz des Bandpassfilters liegt vorzugsweise in einem Bereich von 50 bis 100 Hz. Eine obere Grenzfrequenz des Bandpassfilters liegt vorzugsweise in einem Bereich von 8000 bis 10000 Hz.According to a further embodiment, the audio signal is filtered with a bandpass filter. A lower limit frequency of the bandpass filter is preferably in a range from 50 to 100 Hz. An upper limit frequency of the bandpass filter is preferably in a range from 8000 to 10000 Hz.

Die vorstehend beschriebenen Verfahrensaspekte können als Befehle in einem nicht-flüchtigen Speicher hinterlegt sein. Wenn die Befehle von einer Recheneinheit ausgeführt werden, wird die Recheneinheit durch die Befehle veranlasst, das beschriebene Verfahren gemäß einer Ausführungsform auszuführen. Allgemein kann das Verfahren somit teilweise oder vollständig durch einen Computer implementiert sein.The method aspects described above can be stored as instructions in a non-volatile memory. If the instructions are executed by an arithmetic unit, the arithmetic unit is prompted by the instructions to execute the method described according to one embodiment. In general, the method can thus be partially or fully implemented by a computer.

Die Aufgabe der Erfindung wird gemäß einem zweiten Aspekt gelöst durch eine Vorrichtung mit den Merkmalen des unabhängigen Vorrichtungsanspruchs.According to a second aspect, the object of the invention is achieved by a device having the features of the independent device claim.

Eine erfindungsgemäße Vorrichtung zur Verbesserung eines Audiosignals, welches Sprache aufweist, umfasst einerseits wenigstens eine Eingangsschnittstelle zum Erfassen eines Audiosignals. Die Eingangsschnittstelle weist einen Anschluss für ein Mikrofon auf, um das Audiosignal zu erfassen. Andererseits ist wenigstens eine Ausgangsschnittstelle zum Ausgeben des Audiosignals vorgesehen. Die Ausgangsschnittstelle weist einen Anschluss für ein Audiowiedergabegerät, z.B. eine Beschallungsanlage mit ein oder mehreren Schallwandlern auf. Die Vorrichtung weist außerdem eine Recheneinheit zum Ausführen eines Verfahrens zur Verbesserung des Audiosignals auf. Das Verfahren ist nach einem der vorhergehenden Ausführungsformen ausgebildet.A device according to the invention for improving an audio signal that has speech comprises, on the one hand, at least one input interface for detecting an audio signal. The input interface has a connector for a microphone to capture the audio signal. On the other hand, at least one output interface is provided for outputting the audio signal. The Output interface has a connection for an audio playback device, eg a public address system with one or more sound transducers. The device also has a computing unit for executing a method for improving the audio signal. The method is designed according to one of the preceding embodiments.

Die Vorrichtung ist vorzugsweise als ein kompaktes Audiogerät ausgebildet, sodass es sich insbesondere auch für den mobilen Einsatz besonders eignet.The device is preferably designed as a compact audio device, so that it is particularly suitable for mobile use.

Die Vorrichtung weist vorzugsweise einen nicht-flüchtigen Speicher auf, in dem Befehle zur Ausführung des Verfahrens hinterlegt sind. Der Speicher ist hierzu mit der Recheneinheit koppelbar.The device preferably has a non-volatile memory in which commands for executing the method are stored. For this purpose, the memory can be coupled to the processing unit.

Die Recheneinheit umfasst vorzugsweise einen Analog-zu-Digital-Umsetzer sowie einen Digital-zu-Analog-Umsetzer. Die Verbesserung des Audiosignals kann somit zumindest teilweise auf der Grundlage einer digitalen Version des Audiosignals erfolgen. Das Verfahren kann somit einerseits besonders effizient durchgeführt werden. Andererseits kann eine hohe Filterungsqualität gewährleistet werden.The computing unit preferably includes an analog-to-digital converter and a digital-to-analog converter. The enhancement of the audio signal can thus be based at least in part on a digital version of the audio signal. The method can thus be carried out particularly efficiently on the one hand. On the other hand, a high filtering quality can be guaranteed.

Die Eingangs- oder Ausgangsschnittstelle kann jeweils als drahtgebundene Schnittstelle ausgeführt sein, um eine Kompatibilität mit anderen professionellen Tongeräten zu gewährleisten und Übertragungsverluste zu minimieren. Es ist jedoch auch denkbar, die Schnittstellen jeweils drahtlos auszubilden, wobei die Schnittstellen hierfür auch zu einer gemeinsamen Drahtlosschnittstelle zusammengefasst sein können.The input or output interface can be implemented as a wired interface in order to ensure compatibility with other professional audio devices and to minimize transmission losses. However, it is also conceivable for the interfaces to be wireless in each case, in which case the interfaces can also be combined to form a common wireless interface for this purpose.

Weitere Ausführungsformen der Vorrichtung sind in den abhängigen Ansprüchen, der nachfolgenden Beschreibung sowie den Zeichnungen beschrieben. Es versteht sich jedoch, dass auch beschriebene Verfahrensmerkmale in entsprechender Weise in der Vorrichtung verwirklicht sein können, insbesondere durch entsprechende Konfiguration der Recheneinheit. Umgekehrt können auch hier beschriebene Vorrichtungsmerkmale hinsichtlich ihrer Funktion als Verfahrensmerkmale einen Teil des Verfahrens bilden.Further embodiments of the device are in the dependent claims, the following description and the drawings described. However, it goes without saying that the method features described can also be implemented in a corresponding manner in the device, in particular by means of a corresponding configuration of the computing unit. Conversely, device features described here can also form part of the process with regard to their function as process features.

Gemäß einer Ausführungsform umfasst die Vorrichtung ferner einen Vorverstärker für das Audiosignal, der mit der Eingangsschnittstelle koppelbar ist. Auf diese Weise kann das Audiosignal vorteilhaft vor einer Abtastung auf einen vorbestimmten Pegelbereich verstärkt werden. Für den Vorverstärker können mehrere vorbestimmte Verstärkungswerte vorgesehen sein, wobei einer der Verstärkungswerte vorzugsweise automatisch oder durch einen Bediener der Vorrichtung ausgewählt und der Verstärkung zugrunde gelegt wird.According to one embodiment, the device also includes a preamplifier for the audio signal, which can be coupled to the input interface. In this way, the audio signal can advantageously be amplified to a predetermined level range before sampling. A plurality of predetermined amplification values can be provided for the preamplifier, with one of the amplification values preferably being selected automatically or by an operator of the device and the amplification being used as a basis.

Die Vorrichtung verfügt vorzugsweise über eine elektrische Versorgung für die Eingangsschnittstelle. Somit wird im Sinne einer sogenannten Phantomspeisung eine elektrische Versorgung eines angeschlossenen Schallwandlers, z.B. eines Mikrofons, über die Eingangsschnittstelle ermöglicht.The device preferably has an electrical supply for the input interface. This enables electrical supply of a connected sound transducer, e.g. a microphone, via the input interface in the sense of a so-called phantom power supply.

Gemäß einer weiteren Ausführungsform weist die Vorrichtung ferner eine Schalteinrichtung auf, die mit der Eingangsschnittstelle, der Ausgangsschnittstelle und/oder der Recheneinheit koppelbar ist, um die Eingangsschnittstelle wahlweise über die Recheneinheit mit der Ausgangsschnittstelle zu verbinden. Mit anderen Worten kann die Recheneinheit überbrückt werden. Auf diese Weise kann eine Ausgabe des Audiosignals auch im Falle einer Fehlfunktion der Recheneinheit gewährleistet werden.According to a further embodiment, the device also has a switching device which can be coupled to the input interface, the output interface and/or the processing unit in order to optionally connect the input interface to the output interface via the processing unit. In other words, the computing unit can be bypassed. In this way, an output of the audio signal can also be guaranteed in the event of a malfunction of the processing unit.

Um eine zuverlässige Funktion der Vorrichtung auch im Dauerbetrieb zu ermöglichen, ist die Vorrichtung vorzugsweise mit einer Kühleinrichtung versehen. Sämtliche Komponenten der Vorrichtung einschließlich der Recheneinheit können somit in einem kompakten Gehäuse aufgenommen sein, wobei z.B. Abwärme der Recheneinheit dennoch wirksam durch die Kühleinrichtung abgeführt werden kann, um die Funktion der Recheneinheit nicht zu beeinträchtigen und die Lebensdauer aller Komponenten nicht zu verkürzen.In order to enable the device to function reliably even in continuous operation, the device is preferably provided with a cooling device. All components of the device, including the processing unit, can thus be accommodated in a compact housing, with e.g.

Die Recheneinheit kann vorteilhaft einen Einplatinenrechner aufweisen, sodass die Vorrichtung insgesamt besonders kompakt ausgebildet werden kann. Die Vorrichtung kann außerdem ein Gehäuse aufweisen, in das insbesondere alle elektrischen Komponenten der Vorrichtung aufgenommen sein können, um auf diese Weise vor äußeren Einflüssen geschützt zu werden. Die Recheneinheit kann einen oder mehrere Prozessoren sowie einen Speicher aufweisen, in dem Befehle zur Ausführung des Verfahrens gespeichert werden können.The computing unit can advantageously have a single-board computer, so that the device can be made particularly compact overall. The device can also have a housing, in which in particular all electrical components of the device can be accommodated in order to be protected from external influences in this way. The computing unit can have one or more processors and a memory in which instructions for executing the method can be stored.

Zur Konfiguration der Vorrichtung weist die Vorrichtung vorzugsweise wenigstens eine externe Kommunikationsschnittstelle auf. Beispielsweise kann die Vorrichtung mit einer Netzwerkschnittstelle, z.B. einer EthernetSchnittstelle, oder einer Bus-Schnittstelle ausgestattet sein, um über ein Netzwerk oder direkt mit einem Benutzerendgerät, beispielsweise einem PC oder einem mobilen Endgerät, wie etwa einem Laptop verbunden zu werden. Es kann auch eine Anbindung an drahtlose Endgeräte über das Internet erfolgen, um eine Anbindung an einen zentralen Server (Cloud) zu ermöglichen. Die Steuerungsschnittstelle kann auch als Drahtlosschnittstelle ausgebildet sein, sodass die Vorrichtung unmittelbar mit einem mobilen Endgerät verbunden werden kann (z.B. über Bluetooth oder ein lokales Drahtlosnetzwerk). Die Kommunikation mit der Vorrichtung, z.B. zum Zwecke der Konfiguration, kann somit besonders komfortabel erfolgen. Über die Kommunikationsschnittstelle können insbesondere Steuerungsdaten, z.B. Filterparameter zur Ausführung des beschriebenen Verfahrens zur Verbesserung eines Audiosignals eingestellt werden. Dies kann insbesondere aus der Ferne erfolgen, sodass eine Konfiguration durch den Endnutzer der Vorrichtung vollständig vermieden werden kann. Zusätzlich oder alternativ kann die Kommunikationsschnittstelle zur Übertragung des Audiosignals an ein mobiles Endgerät oder einen zentralen Server ausgebildet sein. Auf diese Weise kann das Audiosignal z.B. zu Dokumentationszwecken in dem Endgerät oder in einer Cloud gespeichert werden. Zur Übertragung an einen zentralen Server ist die Kommunikationsschnittstelle vorzugsweise als Ethernet-Schnittstelle ausgebildet, die auch eine Übertragung von Audiosignalen ermöglicht (z.B. unter Verwendung von Dante, Milan, AES (Advanced Encryption Standard).In order to configure the device, the device preferably has at least one external communication interface. For example, the device can be equipped with a network interface, eg an Ethernet interface, or a bus interface to be connected via a network or directly to a user terminal, for example a PC or a mobile terminal such as a laptop. A connection to wireless end devices can also take place via the Internet in order to enable a connection to a central server (cloud). The control interface can also be in the form of a wireless interface, so that the device can be connected directly to a mobile end device (eg via Bluetooth or a local wireless network). Communication with the device, for example for the purpose of configuration, can thus be particularly done comfortably. In particular, control data, for example filter parameters for executing the described method for improving an audio signal, can be set via the communication interface. In particular, this can be done remotely so that configuration by the end user of the device can be avoided entirely. In addition or as an alternative, the communication interface can be designed to transmit the audio signal to a mobile terminal device or a central server. In this way, the audio signal can be stored in the end device or in a cloud, for example for documentation purposes. For transmission to a central server, the communication interface is preferably designed as an Ethernet interface, which also enables transmission of audio signals (eg using Dante, Milan, AES (Advanced Encryption Standard).

Außerdem kann über eine Kommunikationsschnittstelle der Vorrichtung eine Firmware der Vorrichtung aktualisiert werden. Vorzugsweise ist eine Kommunikationsschnittstelle in Form einer separaten Busschnittstelle vorgesehen, die insbesondere zum Anschließen eines Speichermediums, z.B. eines Massenspeichers in Form eines USB-Sticks oder dergleichen dient. Auf dem Speichermedium können einerseits Konfigurationsund/oder Aktualisierungsdaten gespeichert sein, die an die Vorrichtung übertragen werden, um die lokal gespeicherten Daten zu aktualisieren. Darüber hinaus kann das Audiosignal zu Aufnahmezwecken an das Speichermedium ausgegeben und in dem Speichermedium gespeichert werden. Hierzu ist die Vorrichtung vorzugsweise mit einer Bedienschnittstelle ausgestattet, um die Aufnahme des Audiosignals unmittelbar an der Vorrichtung steuern zu können.In addition, a firmware of the device can be updated via a communication interface of the device. A communication interface is preferably provided in the form of a separate bus interface, which is used in particular to connect a storage medium, e.g. a mass storage device in the form of a USB stick or the like. On the one hand, configuration and/or update data can be stored on the storage medium, which are transmitted to the device in order to update the locally stored data. In addition, the audio signal can be output to the storage medium for recording purposes and stored in the storage medium. For this purpose, the device is preferably equipped with an operating interface in order to be able to control the recording of the audio signal directly on the device.

Ein nicht unter die Ansprüche fallender Aspekt der Offenbarung bezieht sich auf ein Verfahren zur selektiven Verbesserung eines ersten Audiosignals unter Verwendung eines Audioverarbeitungsmittels, wobei das erste Audiosignal zumindest abschnittsweise Sprache aufweist und das Verfahren zumindest folgende Schritte umfasst: Feststellen, ob das Audioverarbeitungsmittel einen vorbestimmten Tauglichkeitszustand aufweist; Wenn das Audioverarbeitungsmittel den vorbestimmten Tauglichkeitszustand aufweist, Ausführen eines Verfahrens zur Verbesserung des ersten Audiosignals unter Verwendung des Audioverarbeitungsmittels, um ein zweites Audiosignal bereitzustellen; Wenn das Audioverarbeitungsmittel den vorbestimmten Tauglichkeitszustand nicht aufweist, Bereitstellen des ersten Audiosignals. Das Verfahren ermöglicht somit eine selektive Verwendung des Audioverarbeitungsmittels in Abhängigkeit von seinem Tauglichkeitszustand. Fehlfunktionen des Audioverarbeitungsmittels führen somit nicht dazu, dass kein Audiosignal mehr ausgegeben wird und die Nutzerzufriedenheit beeinträchtigt wird. Im Falle einer Fehlfunktion wird zumindest das erste Audiosignal bereitgestellt, sodass z.B. für Beschallungsanlagen ein brauchbares Audiosignal zur Verfügung steht und auf diese Weise eine Basisfunktionalität erhalten bleibt. Das Verfahren kann insbesondere durch eine Schalteinrichtung verwirklicht werden, welche in einer Vorrichtung z.B. als schaltbares Relais ausgeführt sein kann. Alternativ kann die Schaltfunktionalität auch durch die Recheneinheit selbst verwirklicht werden. Eine separate Schalteinrichtung besitzt jedoch den Vorteil eines Schutzes gegenüber einem vollständigen Ausfall der Recheneinheit, in dem keinerlei Durchleitung des Signals erfolgen kann.A non-claimed aspect of the disclosure relates to a method for selectively enhancing a first audio signal using an audio processing means, wherein the first audio signal comprises at least portions of speech and the method comprises at least the following steps: determining whether the audio processing means has a predetermined health status; If the audio processing means has the predetermined fitness state, performing a method of enhancing the first audio signal using the audio processing means to provide a second audio signal; If the audio processing means does not have the predetermined health status, providing the first audio signal. The method thus enables the audio processing means to be used selectively depending on its health status. Malfunctions of the audio processing means therefore do not lead to no audio signal being output and user satisfaction being impaired. In the event of a malfunction, at least the first audio signal is provided, so that a usable audio signal is available, for example for public address systems, and in this way a basic functionality is retained. The method can be implemented in particular by a switching device, which can be implemented in a device, for example as a switchable relay. Alternatively, the switching functionality can also be implemented by the computing unit itself. However, a separate switching device has the advantage of protection against a complete failure of the processing unit, in which no transmission of the signal can take place.

Die hierin offenbarten Verfahren sind vorzugsweise mit der beschriebenen Vorrichtung ausführbar. Es ist jedoch auch möglich, die Verfahren ganz oder teilweise auf einem beliebigen Computer, insbesondere einem zentralen Server auszuführen. Beispielsweise kann das Audiosignal lokal erfasst und auf einen Server übertragen werden, wo die Signalverbesserung ausgeführt wird. Sodann kann das verbesserte Signal an einen lokalen Empfänger übermittelt werden, um es mit einem Schallwandler wiederzugeben.The methods disclosed herein can preferably be carried out with the device described. However, it is also possible to carry out the method in whole or in part on any computer, in particular a central server. For example, the audio signal can be captured locally and transmitted to a server where signal enhancement is performed. The enhanced signal can then be sent to a local receiver for playback with a sound transducer.

Die Erfindung wird nachfolgend rein beispielhaft anhand der Zeichnungen weiter erläutert. Die Zeichnungen zeigen im Einzelnen:

Fig. 1: ein Blockdiagramm zur Illustration eines Verfahrens zur Verbesserung eines Audiosignals;
Fig. 2: ein Blockdiagramm zur Illustration eines Verfahrens zum Detektieren von Sprachabschnitten eines Audiosignals;
Fig. 3: Frequenzgänge von Oktavfiltern zur Bestimmung von Grobspektralwerten für ein Entzerrfilter für das Verfahren nach Fig. 1;
Fig. 4: ein Blockdiagramm zur Illustration eines Verfahrens zum Bestimmen einer Rückkopplungsfrequenz;
Fig. 5: ein Blockdiagramm zur Illustration eines schrittweisen Reduzierens eines Rückkopplungsfilters;
Fig. 6: eine schematische Darstellung eines Geräts zur Audiosignalverbesserung;
Fig. 7: eine Anordnung mit dem Gerät von Fig. 7.

The invention is explained in more detail below purely by way of example with reference to the drawings. The drawings show in detail:

1: a block diagram to illustrate a method for enhancing an audio signal;
2: a block diagram for illustrating a method for detecting speech portions of an audio signal;
3: Frequency responses of octave filters for determining coarse spectral values for an equalization filter for the method 1 ;
4: a block diagram to illustrate a method for determining a feedback frequency;
figure 5: a block diagram to illustrate a stepwise reduction of a feedback filter;
6: a schematic representation of a device for audio signal enhancement;
7: an arrangement with the device of 7 .

In den Figuren sind gleiche oder sich entsprechende Elemente mit denselben Bezugszeichen gekennzeichnet.In the figures, identical or corresponding elements are marked with the same reference symbols.

Ein Verfahren zur Verbesserung eines Audiosignals wird nachfolgend mit Bezug auf Fig. 1 beschrieben.A method for enhancing an audio signal is described below with reference to 1 described.

Ein analoges Audiosignal wird mit einem nicht gezeigten Mikrofon erfasst (Schritt 10), wobei das Audiosignal mehrere Sprachabschnitte sowie mehrere Rauschabschnitte aufweist. Die Sprachabschnitte weisen Sprache auf und bilden einen Sprachsignalanteil. Die Rauschabschnitte sind durch alle übrigen Abschnitte gebildet, die keine Sprache aufweisen, insbesondere in Sprechpausen.An analog audio signal is captured with a microphone (not shown) (step 10), the audio signal having a plurality of speech sections and a plurality of noise sections. The speech sections have speech and form a speech signal component. The noise sections are formed by all other sections that do not have speech, especially in pauses in speaking.

In Schritt 12 wird das Audiosignal vorverstärkt, d.h. als analoges Signal mit einem Verstärkungsfaktor elektronisch verstärkt. Für einen entsprechenden Vorverstärker (in Fig. 1 nicht gezeigt) kann eine feste Verstärkung eingestellt sein. Alternativ kann durch einen Benutzer einer von mehreren voreingestellten Verstärkungswerten in Abhängigkeit eines aufnahmebedingten Grundpegels ausgewählt werden, um ein nachfolgendes Pegelfilter zur Reduktion von Pegelvariationen zu entlasten.In step 12, the audio signal is pre-amplified, ie electronically amplified as an analog signal with an amplification factor. For a corresponding preamplifier (in 1 not shown), a fixed gain can be set. Alternatively, a user can select one of a number of preset gain values as a function of a recording-related basic level in order to relieve a subsequent level filter for reducing level variations.

Das vorverstärkte Audiosignal wird in Schritt 14 von einem analogen Signal zu einem digitalen Signal umgewandelt. Dies erfolgt vorzugsweise mittels eines Analog-zu-Digital-Umsetzer, welcher das Analogsignal mit einer vorbestimmten Abtastrate, z.B. 48.000 Hz abtastet. Der Schritt 14 kann alternativ auch nach dem Schritt 16 erfolgen, der im Folgenden erläutert wird.The pre-amplified audio signal is converted in step 14 from an analogue signal to a digital signal. This is preferably done using an analog-to-digital converter which samples the analog signal at a predetermined sampling rate, e.g., 48,000 Hz. Alternatively, step 14 can also take place after step 16, which is explained below.

Das Audiosignal wird in Schritt 16 mit einem Pegelfilter verarbeitet, um Variationen des Signalpegels auszugleichen. Das Pegelfilter wird hierzu in Abhängigkeit von ersten Filterdaten 44 betrieben, die auf der Grundlage des Audiosignals am Ausgang des Pegelfilters in Schritt 18 ermittelt werden. Sie umfassen erste Lautstärkewerte, detektierte Sprachabschnitte sowie detektierte Pegelspitzen. Pegelspitzen sind detektierte Signalpegel, die größer als ein vorbestimmter Pegelschwellenwert sind, in dem das Signal übersteuert (Clipping).The audio signal is processed with a level filter in step 16 in order to compensate for variations in the signal level. For this purpose, the level filter is operated as a function of first filter data 44, which is based on of the audio signal at the output of the level filter can be determined in step 18. They include first volume values, detected speech sections and detected level peaks. Level peaks are detected signal levels that are greater than a predetermined level threshold value, in which the signal overdrives (clipping).

Die Lautstärkewerte werden für einzelne Blöcke des Audiosignals ermittelt, die vorzugsweise jeweils eine Länge von 64 Abtastwerten aufweisen. Für jeden Block wird ein erster Lautstärkewert ermittelt, indem die quadrierten Abtastwerte des Blocks aufsummiert werden und sodann die Quadratwurzel der Summe ermittelt wird. Es werden auf diese Weise sogenannte RMS-Werte (Root-Mean-Square) gebildet, die jeweils eine mittlere Energie des zugrundeliegenden Blocks von Abtastwerten repräsentieren.The volume values are determined for individual blocks of the audio signal, which preferably each have a length of 64 sample values. For each block, a first loudness value is determined by summing the squared sample values of the block and then taking the square root of the sum. So-called RMS values (Root Mean Square) are formed in this way, each of which represents an average energy of the underlying block of sampled values.

Vorzugsweise werden für das Pegelfilter die RMS-Werte von mehreren Blöcken herangezogen. Zur Detektion von Pegelspitzen werden hierzu die RMS-Werte des aktuellen Blocks sowie des vorhergehenden Blocks gemeinsam ausgewertet, wobei eine Pegelspitze detektiert wird, wenn mindestens einer der beiden RMS-Werte einen vorbestimmten Schwellenwert überschreitet, zum Beispiel - 3 dB. Im Falle einer detektierten Pegelspitze wird diese Information als Teil der ersten Filterdaten 44 in Schritt 16 berücksichtigt. In Ansprechen auf eine detektierte Pegelspitze wird die Verstärkung des Pegelfilters in Schritt 16 stark und schnell vermindert, zum Beispiel mit einer Rate von - 3 dB innerhalb von 200 ms. Auf diese Weise werden Pegelspitzen effektiv entfernt. Vorzugsweise werden Pegelspitzen unabhängig davon gefiltert, ob der betreffende Abschnitt des Audiosignals ein Sprachabschnitt ist oder nicht.The RMS values of several blocks are preferably used for the level filter. To detect level peaks, the RMS values of the current block and the previous block are evaluated together, with a level peak being detected if at least one of the two RMS values exceeds a predetermined threshold value, for example −3 dB. If a level peak is detected, this information is taken into account as part of the first filter data 44 in step 16 . In response to a detected peak in level, the gain of the level filter is reduced sharply and rapidly in step 16, for example at a rate of -3 dB within 200 ms. This effectively removes level peaks. Level peaks are preferably filtered regardless of whether the relevant section of the audio signal is a speech section or not.

Das Pegelfilter von Schritt 16 ist ferner so konfiguriert, dass der Pegel des Audiosignals auf einen vorbestimmten Wert eingestellt wird. Hierzu werden die RMS-Werte des aktuellen Blocks sowie einer Vielzahl von mehreren vorhergehenden Blöcken, zum Beispiel 30 vorhergehenden Blöcken, herangezogen. Die RMS-Werte werden über die betrachteten Blöcke geglättet, sodass kurzzeitige Schwankungen entfernt werden, die für die menschliche Wahrnehmung (mit Ausnahme der separat behandelten Pegelspitzen) irrelevant sind. Vorzugsweise wird zur Glättung der Median der betrachteten RMS-Werte gebildet, um zweite Lautstärkewerte zu erhalten, die den aktuellen Signalpegel gehörgerecht angeben. Sodann wird ein Kompensationsgewicht bestimmt, der die Differenz zwischen einem vorbestimmten Referenzwert und dem aktuellen zweiten Lautstärkewert repräsentiert. Beispielsweise kann der aktuelle Lautstärkewert von einer Referenzlautstärke von - 20 dB subtrahiert werden, um ein Kompensationsgewicht zu bilden. Das Kompensationsgewicht wird sodann mit dem Audiosignal gewichtet, z.B. multipliziert, um die Lautstärke mit der Referenzlautstärke in Übereinstimmung zu bringen.The level filter of step 16 is further configured to adjust the level of the audio signal to a predetermined value. For this purpose, the RMS values of the current block and a large number of several previous blocks, for example 30 previous blocks, are used. The RMS values are smoothed across the blocks considered, removing short-term fluctuations that are irrelevant to human perception (except for the level peaks, which are treated separately). The median of the RMS values under consideration is preferably formed for smoothing in order to obtain second volume values which indicate the current signal level in an aurally correct manner. A compensation weight is then determined, which represents the difference between a predetermined reference value and the current second volume value. For example, the current volume value can be subtracted from a reference volume of -20 dB to form a compensation weight. The compensation weight is then weighted, e.g. multiplied, with the audio signal to bring the loudness in line with the reference loudness.

Vorzugsweise wird die maximale zeitliche Änderung des Kompensationsgewichts begrenzt, zum Beispiel auf 5 dB pro Sekunde. Auf diese Weise werden unnatürliche Fluktuationen in der Lautstärke des Audiosignals vermieden.The maximum change in the compensation weight over time is preferably limited, for example to 5 dB per second. This avoids unnatural fluctuations in the volume of the audio signal.

Darüber hinaus wird die Einstellung des Signalpegels mit Bezug auf die Referenzlautstärke vorzugsweise nur in solchen Abschnitten des Audiosignals durchgeführt, die als Sprachabschnitte detektiert worden sind. Die Information, welche Abschnitte als Sprachabschnitte detektiert worden sind, wird als Teil der Filterdaten 44 dem Pegelfilter von Schritt 16 bekanntgemacht.In addition, the adjustment of the signal level with reference to the reference volume is preferably only carried out in those sections of the audio signal which have been detected as speech sections. The information as to which sections have been detected as speech sections is made known to the level filter of step 16 as part of the filter data 44 .

Die Detektion von Sprachabschnitten erfolgt in Schritt 18 und wird im Folgenden anhand von Fig. 2 erläutert.The detection of speech segments takes place in step 18 and is explained below with reference to 2 explained.

Die Detektion von Sprachabschnitten erfolgt auf der Grundlage von Amplitudenwerten 54 und Spektralwerten 56, wobei die Amplitudenwerte 54 das Audiosignal im Zeitbereich und die Spektralwerte 56 das Audiosignal im Frequenzbereich repräsentieren. Die Amplitudenwerte 54 sind durch die Abtastwerte des digitalen Audiosignals nach Schritt 14 gebildet. Die Spektralwerte 56 werden blockweise durch schnelle Fouriertransformationen (FTP) auf der Grundlage der Amplitudenwerte 54 ermittelt. Es können grundsätzlich jedoch auch andere Frequenztransformationen eingesetzt werden. Die Blocklänge zur Ermittlung der Spektralwerte 56 beträgt vorzugsweise 1024 Amplitudenwerte (Abtastwerte), wobei sich benachbarte Blöcke vorzugsweise um die Hälfte überlappen und die betreffenden Amplitudenwerte jedes Blocks vor der Transformation mit einem Hann-Fenster gewichtet werden, um unerwünschte Spektralanteile, die durch die Blockgrenzen verursacht werden, zu reduzieren. Ferner werden die Spektralwerte 56 mit einem vorbestimmten Faktor gewichtet, sodass die Spektralwerte 56 auf einen Bereich zwischen 0 und 1 normalisiert werden. Der Faktor hängt insbesondere von dem verwendeten Fenster ab. Im Fall des bevorzugten Hann-Fensters kann vorteilhaft ein Faktor von 0,00391 verwendet werden.Speech sections are detected on the basis of amplitude values 54 and spectral values 56, with the amplitude values 54 representing the audio signal in the time domain and the spectral values 56 representing the audio signal in the frequency domain. The amplitude values 54 are formed by the sample values of the digital audio signal after step 14. The spectral values 56 are determined block by block using fast Fourier transformations (FTP) on the basis of the amplitude values 54 . In principle, however, other frequency transformations can also be used. The block length for determining the spectral values 56 is preferably 1024 amplitude values (sampling values), with adjacent blocks preferably overlapping by half and the relevant amplitude values of each block being weighted with a Hann window before the transformation, in order to avoid unwanted spectral components caused by the block boundaries become to reduce. Furthermore, the spectral values 56 are weighted with a predetermined factor, so that the spectral values 56 are normalized to a range between 0 and 1. The factor depends in particular on the window used. In the case of the preferred Hann window, a factor of 0.00391 can advantageously be used.

In Schritt 58 von Fig. 2 werden drei Parameter bestimmt und jeweils daraufhin geprüft, ob ein zugeordnetes Schwellenwertkriterium verletzt wird. Ein erster Parameterwert wird durch den oben beschriebenen RMS-Wert auf der Grundlage der Amplitudenwerte 54 gebildet. Der erste Parameterwert kann auch als Kurzzeitenergie (STE = Short Time Energy) bezeichnet werden, weil er die mittlere Energie über einen Block mit einer relativ kurzen Länge von 64 Amplitudenwerten repräsentiert. Sofern der erste Parameterwert einen zugeordneten Schwellenwert überschreitet (Schritt 62), zeigt der erste Parameterwert einen Sprachabschnitt an, andernfalls einen Rauschabschnitt (kein Sprachabschnitt). Hohe RMS-Werte können insbesondere durch Konsonanten hervorgerufen werden und deuten somit auf Sprache hin.In step 58 of 2 three parameters are determined and each checked to determine whether an associated threshold value criterion is violated. A first parameter value is formed by the RMS value described above based on the amplitude values 54 . The first parameter value may also be referred to as Short Time Energy (STE) because it represents the average energy over a relatively short length block of 64 amplitude values. If the first parameter value exceeds an associated threshold (step 62), the first parameter value indicates a speech portion, otherwise a noise (non-speech) portion. High RMS values can be caused in particular by consonants and thus indicate speech.

Ein zweiter Parameterwert wird auf der Grundlage der Spektralwerte 56 ermittelt und gibt die Ausprägung einer harmonischen Obertonstruktur des Frequenzspektrums an. Insbesondere stellt der zweite Parameterwert ein Maß für die spektrale Flachheit des Frequenzspektrums dar, das durch die Spektralwerte 56 repräsentiert wird (Spectral Flatness, SF). Der zweite Parameterwert wird vorzugsweise durch Division des geometrischen Mittelwerts der Spektralwerte 56 und des arithmetischen Mittelwerts der Spektralwerte 56 bestimmt. Der zweite Parameterwert wird sodann mit einem zugeordneten Schwellenwert verglichen (Schritt 62). Wenn der Schwellenwert unterschritten wird, zeigt der zweite Parameterwert einen Sprachabschnitt an, andernfalls einen Rauschabschnitt. Hohe Werte des zweiten Parameters deuten auf rauschartigen Blöcke hin, die untypisch für Sprache sind. Im Gegensatz zu dem ersten Parameter bezieht sich der zweite Parameter aufgrund der Spektralwerte auf eine deutlich längere Blocklänge von 1024, sodass die üblicherweise deutlich kürzeren Konsonanten gegenüber einer ansonsten tonalen Charakteristik nicht ins Gewicht fallen.A second parameter value is determined on the basis of the spectral values 56 and indicates the form of a harmonic overtone structure of the frequency spectrum. In particular, the second parameter value represents a measure of the spectral flatness of the frequency spectrum represented by the spectral values 56 (Spectral Flatness, SF). The second parameter value is preferably determined by dividing the geometric mean of the spectral values 56 and the arithmetic mean of the spectral values 56 . The second parameter value is then compared to an associated threshold (step 62). If the threshold is exceeded, the second parameter value indicates a speech section, otherwise a noise section. High values of the second parameter indicate noise-like blocks that are atypical for speech. In contrast to the first parameter, the second parameter refers to a significantly longer block length of 1024 due to the spectral values, so that the usually significantly shorter consonants are not significant compared to an otherwise tonal characteristic.

Außerdem wird ein dritter Parameterwert bestimmt, der angibt, ob ein Maximum der Spektralwerte 56 in einem vorbestimmten Frequenzbereich liegt. Hierzu wird vorzugsweise ermittelt, ob der Spektralwert, dessen Betrag ein Maximum gegenüber den übrigen Spektralwerten 56 eines Blocks bildet (Schritt 58), in einem Frequenzbereich zwischen 70 und 250 Hz liegt, d.h. es wird geprüft, ob der maximale Spektralwert eine Frequenz repräsentiert, die größer als ein unterer Frequenzschwellenwert und kleiner als ein oberer Frequenzschwellenwert ist (Schritt 62). Zutreffendenfalls zeigt der dritte Parameterwert einen Sprachabschnitt an, andernfalls einen Rauschabschnitt. Die Grundfrequenz von Sprache liegt in der Regel im Bereich zwischen 70 und 250 Hz, sodass ein Maximum der Spektralwerte 56 in diesem Bereich auf Sprache hinweist.A third parameter value is also determined, which indicates whether a maximum of the spectral values 56 lies in a predetermined frequency range. For this purpose, it is preferably determined whether the spectral value, the amount of which forms a maximum compared to the other spectral values 56 of a block (step 58), is in a frequency range between 70 and 250 Hz, ie it is checked whether the maximum spectral value represents a frequency that greater than a lower frequency threshold and is less than an upper frequency threshold (step 62). If true, the third parameter value indicates a speech portion, otherwise a noise portion. The fundamental frequency of speech is generally in the range between 70 and 250 Hz, so that a maximum of the spectral values 56 in this range indicates speech.

Für die ersten und zweiten Parameterwerte sind vorzugsweise adaptive Schwellenwerte vorgesehen, um variable Distanzen zwischen einem jeweiligen Sprecher und dem aufzeichnenden Mikrofon zu kompensieren. Der Schwellenwert wird für einen betreffenden Block adaptiv auf der Grundlage der Parameterwerte von mehreren vorhergehenden Blöcken bestimmt (Schritt 60), wobei die vorhergehenden Blöcke vorzugsweise detektierte Sprachabschnitte und Rauschabschnitte umfassen. Beispielsweise werden zur Bestimmung des Schwellenwerts für den ersten Parameterwert die ersten Parameterwerte von 30 vorhergehenden als Sprachabschnitt klassifizierten Blöcken und die ersten Parameterwerte von dreißig vorhergehenden als Rauschabschnitt klassifizierten Blöcken herangezogen. Die ersten Parameterwerte werden für jeden Abschnittstyp aufsummiert und die erhaltenen Summen voneinander subtrahiert. Das Ergebnis wird mit einem Gewichtungsfaktor gewichtet, um den zugeordneten Schwellenwert für den ersten Parameterwert des aktuellen Blocks zu erhalten. Auf diese Weise wird gewährleistet, dass der Schwellenwert an das aktuelle Betragsniveau des ersten Parameterwerts angepasst wird, um Falschklassifikationen zu vermeiden. Der Gewichtungsfaktor wird vorzugsweise zwischen 0 und 1 eingestellt und steuert die Empfindlichkeit der Detektion.Adaptive threshold values are preferably provided for the first and second parameter values in order to compensate for variable distances between a respective speaker and the recording microphone. The threshold value is determined adaptively for a block of interest based on the parameter values of several previous blocks (step 60), the previous blocks preferably comprising detected speech sections and noise sections. For example, the first parameter values of 30 previous blocks classified as speech section and the first parameter values of thirty previous blocks classified as noise section are used to determine the threshold value for the first parameter value. The first parameter values are summed up for each section type and the sums obtained are subtracted from each other. The result is weighted with a weighting factor to get the associated threshold for the first parameter value of the current block. This ensures that the threshold value is adjusted to the current level of the first parameter value in order to avoid incorrect classifications. The weighting factor is preferably set between 0 and 1 and controls the sensitivity of the detection.

Nach dem Prinzip des Schwellenwerts für den ersten Parameter wird vorzugsweise auch der Schwellenwert für den zweiten Parameter ermittelt. Hierbei wird die Berechnungsvorschrift jedoch invertiert, da der zweite Parameter mit abnehmendem Betrag Sprache indiziert und somit im Vergleich zum ersten Parameter umgekehrt mit Sprache korreliert ist. Folglich wird die Summe der zweiten Parameterwerte für Sprachabschnitte von der Summe der zweiten Parameterwerte für Rauschabschnitte subtrahiert und mit einem Gewichtungsfaktor beaufschlagt, der vorzugsweise zwischen 0 und 1 liegt und die Empfindlichkeit der Detektion steuert.The threshold value for the second parameter is preferably also determined according to the principle of the threshold value for the first parameter. In this case, however, the calculation rule is inverted, since the second parameter indicates language with a decreasing amount and is therefore im is inversely correlated with speech compared to the first parameter. Consequently, the sum of the second parameter values for speech sections is subtracted from the sum of the second parameter values for noise sections and given a weighting factor, preferably between 0 and 1, which controls the sensitivity of the detection.

In Schritt 64 werden die drei Parameter gemeinsam ausgewertet und festgestellt, ob die Parameterwerte jeweils das zugeordnete Schwellenwertkriterium verletzen oder nicht. Wenn zwei der drei Parameterwerte einen Sprachabschnitt anzeigen, d.h. dass jeweils zugeordnete Schwellenwertkriterium verletzen, wird der betreffende Block vorläufig als Sprachabschnitt detektiert.In step 64, the three parameters are evaluated together and it is determined whether or not the parameter values violate the associated threshold criterion. If two of the three parameter values indicate a speech section, i.e. violate the associated threshold criterion, the block in question is provisionally detected as a speech section.

Um stark fluktuierende Detektionsergebnisse zu vermeiden, insbesondere nicht plausible alternierende Wechsel zwischen Sprachabschnitten und Rauschabschnitten, wird ein Wechsel zwischen einem Sprachabschnitt und einem Rauschabschnitt und umgekehrt nur dann zugelassen, wenn eine vorbestimmte Anzahl von aufeinanderfolgenden Blöcken als Sprachabschnitt oder Rauschabschnitt klassifiziert worden sind (Schritt 66 und 68). Beispielsweise müssen nach einem als Rauschabschnitt detektierten Block fünf unmittelbar aufeinanderfolgende Blöcke vorläufig als Sprachabschnitt detektiert werden, um diese Blöcke final als Sprachabschnitt zu detektieren (Schritt 70). Andernfalls werden die Blöcke weiterhin als Rauschabschnitte detektiert (Schritt 72). Umgekehrt müssen nach einem als Sprachabschnitt detektierten Block z.B. acht unmittelbar aufeinanderfolgende Blöcke vorläufig als Rauschabschnitt detektiert werden, um diese Blöcke final als Rauschabschnitte zu detektieren (Schritt 72). Andernfalls werden die Blöcke weiterhin als Sprachabschnitte detektiert (Schritt 70).In order to avoid strongly fluctuating detection results, in particular implausible alternating changes between speech sections and noise sections, a change between a speech section and a noise section and vice versa is only permitted if a predetermined number of consecutive blocks have been classified as speech section or noise section (step 66 and 68). For example, after a block detected as a noise section, five immediately consecutive blocks must be provisionally detected as a speech section in order to finally detect these blocks as a speech section (step 70). Otherwise, the blocks are still detected as noise sections (step 72). Conversely, after a block detected as a speech section, for example eight immediately consecutive blocks must be provisionally detected as a noise section in order to finally detect these blocks as noise sections (step 72). Otherwise, the blocks are still detected as sections of speech (step 70).

Im Folgenden werden weitere Schritte des Verfahrens von Fig. 1 erläutert. In Schritt 20 wird das Audiosignal mit einem festen Verstärkungsfaktor gewichtet, um Pegelverluste durch nachfolgende Filter vorab zu kompensieren. Beispielsweise kann das Signal um 3 bis 6 dB verstärkt werden.Further steps of the procedure are described below 1 explained. In step 20, the audio signal is weighted with a fixed amplification factor in order to compensate in advance for level losses caused by subsequent filters. For example, the signal can be amplified by 3 to 6 dB.

In Schritt 22 wird das Audiosignal mit einem Rauschfilter gefiltert, welches dazu angepasst ist, sehr leise Abschnitte des Audiosignals zu reduzieren. Hierbei wird davon ausgegangen, dass sehr leise Signalabschnitte keine relevante Information beinhalten und die empfundene Sprachqualität insoweit allenfalls negativ beeinträchtigen können. Insbesondere wird durch eine Reduktion des Signalpegels in sehr leisen Signalabschnitten das Risiko von Rückkopplungen reduziert. Als Rauschfilter kann insbesondere ein sogenanntes Noise-Gate verwendet werden, welches dazu angepasst ist, leise Signalabschnitte zu unterdrücken. Als Kriterium zur Erkennung von leisen Signalabschnitten wird ein Schwellenwert zugrunde gelegt, der mit dem aktuellen Signalpegel verglichen wird. Sofern der aktuelle Signalpegel den Schwellenwert unterschreitet, wird das Rauschfilter aktiviert. Der Schwellenwert liegt vorzugsweise deutlich unterhalb der in Schritt 16 eingestellten Referenzlautstärke. Beispielsweise kann der Schwellenwert bei -55 dB liegen. Bei Unterschreiten des Schwellenwerts wird das Audiosignal mit einem Ratio im Bereich von 5 bis 10 abgesenkt. Als Anstiegszeit (attack time) und Ausklingzeit (release time) werden vorzugsweise Werte im Bereich von 10 ms bzw. 100 ms verwendet.In step 22 the audio signal is filtered with a noise filter adapted to reduce very quiet portions of the audio signal. It is assumed here that very quiet signal sections do not contain any relevant information and in this respect can at most negatively affect the perceived voice quality. In particular, the risk of feedback is reduced by reducing the signal level in very quiet signal sections. In particular, a so-called noise gate can be used as a noise filter, which is adapted to suppress quiet signal sections. A threshold value, which is compared with the current signal level, is used as the criterion for recognizing quiet signal sections. If the current signal level falls below the threshold, the noise filter is activated. The threshold value is preferably well below the reference volume set in step 16 . For example, the threshold can be -55 dB. If the threshold value is not reached, the audio signal is reduced with a ratio in the range of 5 to 10. Values in the range of 10 ms or 100 ms are preferably used as rise time (attack time) and decay time (release time).

In Schritt 24 werden zweite Filterparameter 46 bestimmt, welche für die nachfolgenden Schritte 32, 34 und 36 herangezogen werden. Die zweiten Filterparameter 46 umfassen einerseits die bereits in Schritt 18 detektierten Sprachabschnitte 52. Außerdem werden Oktavspektralwerte 48 bestimmt, die im Vergleich zu den Spektralwerten 56 eine gröbere Spektralauflösung aufweisen, die der auditorischen Wahrnehmung des Menschen nachgebildet ist. Hierzu werden die z.B. mittels FFT bestimmten Spektralwerte 56 mit einer Oktavfilterbank gefiltert. Die Oktavfilterbank umfasst insgesamt acht sich im Spektralbereich überlappende Filter, die in Fig. 3 beispielhaft durch Betragsfrequenzgänge 37 über die Frequenz F und den Betrag G dargestellt sind. Die Frequenzgänge 37 weisen ihr jeweiliges Maximum bei einer filtereigenen Mittenfrequenz fc auf und fallen zu kleineren und größeren Frequenzwerten hin ab. Die Mittenfrequenzen fc betragen vorzugsweise 63, 125, 250, 500, 1000, 2000, 4000 und 8000 Hz. Die Grenzfrequenzen (Betragsfrequenzgang von - 3 dB) können auf der Grundlage der jeweiligen Mittenfrequenz fc generisch berechnet werden. Die untere Grenzfrequenz beträgt 32fc/45 und die obere Grenzfrequenz beträgt 45fc/32. Zur Filterung werden die in ein jeweiliges Filter fallenden Spektralwerte gewichtet aufsummiert, wobei die Gewichte jeweils den Betragsfrequenzgang bei der Frequenz des betreffenden Spektralwerts repräsentieren.In step 24, second filter parameters 46 are determined, which are used for the subsequent steps 32, 34 and 36. The second filter parameters 46 include, on the one hand, the speech sections 52 already detected in step 18. Octave spectral values 48 are also determined, which in comparison to the spectral values 56 have a coarser Have spectral resolution that is modeled on human auditory perception. For this purpose, the spectral values 56 determined, for example, by means of FFT are filtered with an octave filter bank. The octave filter bank comprises a total of eight filters that overlap in the spectral range and are 3 are represented by way of example by magnitude frequency responses 37 over the frequency F and the magnitude G. The frequency responses 37 have their respective maximum at a filter-specific mid-frequency fc and fall towards smaller and larger frequency values. The center frequencies fc are preferably 63, 125, 250, 500, 1000, 2000, 4000 and 8000 Hz. The cut-off frequencies (magnitude frequency response of -3 dB) can be calculated generically on the basis of the respective center frequency fc. The lower cutoff frequency is 32fc/45 and the upper cutoff frequency is 45fc/32. For filtering, the weighted spectral values falling into a respective filter are summed up, with the weights each representing the absolute value frequency response at the frequency of the spectral value in question.

In Schritte 24 werden ferner Rückkopplungsfrequenzen 50 bestimmt, die als Teil der Filterdaten 46 für ein Rückkopplungsfilter verwendet werden, welches in Schritt 34 zum Einsatz kommt. Die Bestimmung der Rückkopplungsfrequenzen wird nachfolgend anhand von Fig. 4 näher erläutert.In step 24, feedback frequencies 50 are also determined, which are used as part of the filter data 46 for a feedback filter, which is used in step 34. The determination of the feedback frequencies is based on 4 explained in more detail.

Aus den Spektralwerten 56 werden mittels einer Maximalwertanalyse mehrere Kandidaten selektiert, die mögliche Rückkopplungsfrequenzen repräsentieren. Beispielsweise können als Kandidaten aus den Spektralwerten 56 diejenigen Spektralwerte herausgesucht werden, die jeweils den höchsten Betrag aller Spektralwerte eines Blocks aufweisen und von Spektralwerten mit ähnlichem Betrag benachbart sind. Die Kandidaten repräsentieren somit die Maxima von ausgeprägten Extrema des Spektrums. Für jeden Kandidaten werden drei Parameterwerte bestimmt (Schritt 74) und mit einem jeweiligen Schwellenwert verglichen (Schritt 78). Die Schwellenwerte sind für jeden Parameter vorzugsweise fest eingestellt, weil die Parameter in der Regel unempfindlich gegen eine im Vergleich zum Hintergrundrauschen geringe Sprachsignallautstärke sind.A maximum value analysis is used to select a number of candidates from the spectral values 56, which represent possible feedback frequencies. For example, those spectral values can be sought out as candidates from the spectral values 56 which in each case have the highest absolute value of all spectral values of a block and are adjacent to spectral values with a similar absolute value. The candidates thus represent the maxima of pronounced extrema of the spectrum. For each candidate, three parameter values are determined (step 74) and compared to a respective threshold (step 78). The threshold values are preferably permanently set for each parameter because the parameters are generally insensitive to a voice signal volume that is low compared to the background noise.

Ein erster Parameter repräsentiert das Verhältnis zwischen dem Betrag des Kandidaten und den zugehörigen Harmonischen (Peak-to-Harmonic Ratio, PHPR). Vorzugsweise werden die ersten beiden Harmonischen herangezogen, d.h. die Spektralwerte, die im Vergleich zum Kandidaten die doppelte und dreifache Frequenz repräsentieren. Hohe PHPR-Werte deuten auf eine Rückkopplungsfrequenz (Feedbackfrequenz) hin, weil Sprache in der Regel eine klare Obertonstruktur mit Harmonischen aufweist.A first parameter represents the ratio between the magnitude of the candidate and the associated harmonics (Peak-to-Harmonic Ratio, PHPR). Preferably, the first two harmonics are used, i.e. the spectral values that represent double and triple the frequency compared to the candidate. High PHPR values indicate a feedback frequency (feedback frequency) because speech usually has a clear overtone structure with harmonics.

Ein zweiter Parameter repräsentiert das Verhältnis zwischen dem Betrag des Kandidaten und dem Betrag von unmittelbar benachbarten Spektralwerten (Peak-to-Neighbouring Ratio, PNPR). Vorzugsweise werden die ersten drei benachbarten Spektralwerte in jeder Frequenzrichtung herangezogen. Hohe PNPR-Werte deuten auf eine Rückkopplungsfrequenz hin, weil Sprache in der Regel weniger steile Frequenzmaxima aufweist.A second parameter represents the ratio between the magnitude of the candidate and the magnitude of immediately neighboring spectral values (Peak-to-Neighboring Ratio, PNPR). The first three adjacent spectral values in each frequency direction are preferably used. High PNPR values indicate a feedback frequency because speech tends to have less steep frequency maxima.

Ein dritter Parameter repräsentiert den zeitlichen Verlauf des Betrags des Kandidaten (Interframe Magnitude Slope Deviation, IMSD). Vorzugsweise wird der mittlere Anstieg des Betrags des Kandidaten sowie mehrerer benachbarter Spektralwerte über fünf vorhergehende Blöcke ermittelt. Positive IMSD-Werte von z.B. 0,5 dB deuten typischerweise auf eine Rückkopplungsfrequenz hin, weil der Betrag der Grundfrequenz von Sprache über mehrere Blöcke hinweg in der Regel nicht ansteigt.A third parameter represents the course of the absolute value of the candidate over time (Interframe Magnitude Slope Deviation, IMSD). The mean increase in the absolute value of the candidate and a number of adjacent spectral values is preferably determined over five previous blocks. Positive IMSD values of, for example, 0.5 dB typically indicate a feedback frequency, because the amount of the fundamental frequency of speech does not usually increase over several blocks.

Für weiteren Informationen zur Berechnung der Parameter wird auf die Veröffentlichung, T.V. Waterschoot, M. Moonen, "Comparative Evaluation of Howeling Detection Criteria in Notch-Filter-Based Howling Supression", Journal of the Audio Engineering Society, Vol. 58, pp. 923-940, 2010 , verwiesen.For more information on the calculation of the parameters, refer to the Publication, TV Waterschoot, M. Moonen, "Comparative Evaluation of Howeling Detection Criteria in Notch-Filter-Based Howling Supression", Journal of the Audio Engineering Society, Vol. 58, pp. 923-940, 2010 , referenced.

Wenn alle drei Parameter zur Bestimmung der Rückkopplungsfrequenz für einen betreffenden Kandidaten das zugeordnete Schwellenwertkriterium verletzen, wird die Rückkopplungsfrequenz vorzugsweise als ein Maximums des Spektrums im Bereich des betreffenden Kandidaten ermittelt. Hierzu wird das Spektrum auf der Grundlage des Kandidaten und der benachbarten Spektralwerte mit einer Interpolationsfunktion (z.B. durch parabolische Interpolation) interpoliert und sodann das Maximum der Interpolationsfunktion gebildet. Dieses Maximum kann insbesondere zwischen zwei Spektralwerten liegen, sodass das interpolierte Maximum genauer ist. Die auf diese Weise bestimmte Rückkopplungsfrequenz wird als Teil der Filterdaten 50 dem Rückkopplungsfilter zugrunde gelegt (Schritt 34).If all three parameters for determining the feedback frequency for a candidate in question violate the associated threshold criterion, the feedback frequency is preferably determined as a maximum of the spectrum in the region of the candidate in question. For this purpose, the spectrum is interpolated on the basis of the candidate and the adjacent spectral values with an interpolation function (e.g. by parabolic interpolation) and then the maximum of the interpolation function is formed. In particular, this maximum can lie between two spectral values, so that the interpolated maximum is more precise. The feedback frequency determined in this way is used as part of the filter data 50 for the feedback filter (step 34).

Zur Entlastung der Rechnerressourcen ist es bevorzugt, für einen vorbestimmten Zeitraum nach einer erfolgreich bestimmten Rückkopplungsfrequenz den zugrundeliegenden Kandidaten nicht erneut der Parameteranalyse zu unterziehen, wenn der Kandidat erneut als solcher identifiziert wird. Beispielsweise werden dieselben Kandidaten innerhalb eines Zeitfensters von 1 Sekunde nicht erneut daraufhin überprüft, ob Sie eine Rückkopplungsfrequenz repräsentieren oder nicht. Stattdessen wird die für den zeitlich vorherigen Kandidaten bestimmte Rückkopplungsfrequenz für den nachfolgenden, selben Kandidaten übernommen, weil eine hohe Wahrscheinlichkeit dafür besteht, dass dieselbe Rückkopplungsfrequenz auch für den nachfolgenden Kandidaten bestimmt werden würde. Erst nach Ablauf der vorbestimmten Zeit wird ein betreffender Kandidat erneut überprüft.In order to relieve the computer resources, it is preferred not to subject the underlying candidate to the parameter analysis again for a predetermined period of time after a successfully determined feedback frequency if the candidate is identified as such again. For example, the same candidates are not checked again within a 1 second time window to determine whether or not they represent a feedback frequency. Instead, the feedback frequency determined for the temporally previous candidate is adopted for the subsequent, same candidate, because there is a high probability that the same feedback frequency will also be used for the subsequent candidate would be determined. Only after the predetermined time has elapsed is a relevant candidate checked again.

Für jede bestimmte Rückkopplungsfrequenz ist in dem Rückkopplungsfilter ein sogenanntes Glocken-Filter (Peak-Filter) vorgesehen, dessen Mittenfrequenz auf die bestimmte Rückkopplungsfrequenz eingestellt wird. Der Q-Wert der Filter wird vorzugsweise auf einen festen Wert eingestellt. Außerdem wird die Verstärkung des Filters vorzugsweise adaptiv eingestellt, wie nachfolgend anhand von Fig. 5 erläutert wird.For each specific feedback frequency, a so-called bell filter (peak filter) is provided in the feedback filter, the center frequency of which is set to the specific feedback frequency. The Q value of the filters is preferably set to a fixed value. In addition, the gain of the filter is preferably adjusted adaptively, as shown below with reference to FIG figure 5 is explained.

Der in Fig. 5 dargestellte Algorithmus verwirklicht einen endlichen Automaten (Finite-State Machine, FSM), der sich zunächst in einem inaktiven Zustand 90 befindet, d.h. das Glockenfilter hat eine Verstärkung von 0 dB und beeinflusst das Audiosignal nicht. Bei einer neu bestimmten Rückkopplungsfrequenz wird in einen aktiven Zustand 92 gewechselt, in dem das Glockenfilter mit voller (negativer) Verstärkung betrieben wird. Nach Ablauf einer ersten vorbestimmten Zeit X wird in einen ersten Reduktionszustand 94 gewechselt, wenn bis dahin die Rückkopplungsfrequenz nicht erneut bestimmt worden ist und der aktive Zustand deswegen beibehalten wird (Rückführung 96). Im ersten Reduktionszustand hat das Glockenfilter eine reduzierte Verstärkung, beispielsweise 2/3 der vollen Verstärkung. Das Rückkopplungsfilter wird somit mit abgeschwächter Wirksamkeit betrieben. Nach Ablauf einer zweiten vorbestimmten Zeit Y wird in einen zweiten Reduktionszustand 98 gewechselt, wenn bis dahin die Rückkopplungsfrequenz nicht erneut bestimmt worden ist und der aktive Zustand beibehalten wird (Rückführung 96).the inside figure 5 The algorithm illustrated implements a finite state machine (FSM) which is initially in an inactive state 90, ie the bell filter has a gain of 0 dB and does not affect the audio signal. At a newly determined feedback frequency, an active state 92 is entered, in which the bell filter is operated with full (negative) gain. After a first predetermined time X has elapsed, a change is made to a first reduction state 94 if the feedback frequency has not been determined again by then and the active state is therefore retained (feedback 96). In the first reduction state, the bell filter has a reduced gain, for example 2/3 of full gain. The feedback filter is thus operated with reduced effectiveness. After a second predetermined time Y has elapsed, a change is made to a second reduction state 98 if the feedback frequency has not been determined again by then and the active state is retained (feedback 96).

Nach erneutem Ablauf der zweiten vorbestimmten Zeit Y wird in dritten Reduktionszustand 100 gewechselt, in dem das Glockenfilter für den Wechsel in den inaktiven Zustand beim nächsten Filterdurchlauf vorgemerkt ist.After the second predetermined time Y has elapsed again, a change is made to the third reduction state 100, in which the bell filter for the Change to the inactive state is scheduled for the next filter run.

Die zeitabhängige Adaption des Rückkopplungsfilters ist aus mehreren Gründen vorteilhaft. Einerseits wird sichergestellt, dass eine bestimmte Rückkopplungsfrequenz ausreichend lange gefiltert wird. Rückkopplungen halten in der Regel für mindestens einige 100 ms an, sodass eine ausreichend lange Filterung erforderlich ist, um die Rückkopplung wirksam zu unterdrücken. Darüber hinaus werden aufgrund der stufenweisen Reduktion des Rückkopplungsfilters hörbare Verzerrungen des Audiosignals reduziert.The time-dependent adaptation of the feedback filter is advantageous for several reasons. On the one hand, it ensures that a specific feedback frequency is filtered for a sufficiently long time. Feedback typically lasts for at least a few 100 ms, so long enough filtering is required to effectively suppress the feedback. In addition, due to the gradual reduction of the feedback filter, audible distortion of the audio signal is reduced.

In Schritt 26 wird das Audiosignal mit einem zweistufigen Kompressor gefiltert, um Pegelspitzen zu entfernen, die zu hörbaren Verzerrungen führen können. Eine erste Kompressorstufe wird bei einem Signalpegel oberhalb eines ersten Schwellenwerts aktiviert und filtert das Audiosignal mit einem ersten Filter, welches moderate Pegelspitzen mit einem geringen Kompressionsgrad reduziert (z.B. Ratio 20, Anstiegszeit 10 ms, Ausklingzeit 100 ms). Die zweite Kompressorstufe wird bei einem Signalpegel oberhalb eines zweiten Schwellenwerts aktiviert, welcher größer als der erste Schwellenwert ist. Das Audiosignal wird dann mit einem zweiten Filter gefiltert, um extreme Pegelspitzen besonders wirksam zu beseitigen. Hierzu wird ein stärkerer Kompressionsgrad gewählt (z.B. Ratio 1000, Anstiegszeit 0,1 ms, Ausklingzeit 5 ms). Die zweite Kompressorstufe stellt ein Notfallfilter dar, um zu gewährleisten, dass alle Amplitudenwerte unterhalb eines kritischen Maximalwerts liegenIn step 26, the audio signal is filtered with a two-stage compressor to remove peak levels that can lead to audible distortion. A first compressor stage is activated at a signal level above a first threshold and filters the audio signal with a first filter that reduces moderate level peaks with a low degree of compression (e.g. ratio 20, rise time 10 ms, decay time 100 ms). The second compressor stage is activated at a signal level above a second threshold, which is greater than the first threshold. The audio signal is then filtered with a second filter to remove extreme peaks particularly effectively. For this purpose, a stronger degree of compression is selected (e.g. ratio 1000, rise time 0.1 ms, decay time 5 ms). The second compressor stage provides an emergency filter to ensure that all amplitude values are below a critical maximum value

In Schritt 28 wird das Audiosignal mit einem Bandpass gefiltert, um potentielle Störsignale zu entfernen. Hierzu werden vorzugsweise alle Spektralanteile, die zumindest überwiegen keine Sprache repräsentieren aufweisen, reduziert. Sprachsignalanteile sind überwiegend auf den Frequenzbereich zwischen 70 und 8000 Hz begrenzt, sodass Spektralanteile außerhalb dieses Frequenzbereichs gefiltert werden können. Als Bandpassfilter wird vorzugsweise ein doppelt kaskadierter Hochpass zweiter Ordnung mit einem ebenfalls doppelt kaskadierten Tiefpass zweiter Ordnung kombiniert. Der Hochpass und der Tiefpass weisen vorzugsweise jeweils eine Flankensteilheit von 24 dB pro Oktave auf. Die Grenzfrequenzen liegen vorzugsweise im Bereich zwischen 60 und 80 Hz (untere Grenzfrequenz) und zwischen 8000 und 10000 Hz (obere Grenzfrequenz). Ferner sollten sich die Q-Werte der Filter über eine Oktave erstrecken und z.B. Werte im Bereich von 1,4 aufweisen.In step 28, the audio signal is bandpass filtered to remove potential spurious signals. To this end, preferably all spectral components that at least predominantly do not represent speech are reduced. Speech signal components are predominantly on the Frequency range between 70 and 8000 Hz is limited so that spectral components outside this frequency range can be filtered. A double-cascaded second-order high-pass filter is preferably combined with a double-cascaded second-order low-pass filter as the band-pass filter. The high-pass filter and the low-pass filter preferably each have an edge steepness of 24 dB per octave. The limit frequencies are preferably in the range between 60 and 80 Hz (lower limit frequency) and between 8000 and 10000 Hz (upper limit frequency). Furthermore, the Q values of the filters should extend over an octave and have values in the range of 1.4, for example.

In Schritt 30 wird das Audiosignal mit einem zweiten Kompressor gefiltert, um den Dynamikumfang des Audiosignals zu reduzieren. Hierdurch wird die subjektive Lautstärke einheitlicher und die Sprachverständlichkeit wird verbessert. Als Kompressor dient ein Filter mit relativ mildem Kompressionsgrad, der insbesondere geringer ist, als die Kompressionsgrade des ersten Kompressors von Schritt 28. Beispielsweise kann ein niedriges Ratio gewählt werden, welches den Wert von drei nicht übersteigen sollte. Außerdem sind vorzugsweise längere Anstiegs- bzw. Ausklingzeiten im Bereich von 0,5 und 1 Sekunden vorgesehen.In step 30, the audio signal is filtered with a second compressor in order to reduce the dynamic range of the audio signal. This makes the subjective loudness more uniform and speech intelligibility is improved. A filter with a relatively mild degree of compression, which is in particular lower than the degree of compression of the first compressor from step 28, is used as the compressor. For example, a low ratio can be selected, which should not exceed the value of three. In addition, longer rise and decay times in the range of 0.5 and 1 second are preferably provided.

In Schritt 32 wird das Audiosignal mit einem Entzerrer gefiltert, um spektrale Variationen zu reduzieren. Der Entzerrer wird hierzu mit acht Glockenfiltern betrieben, deren Mittenfrequenzen denjenigen der Oktavbandfilter von Fig. 3 entsprechen, die zur Bestimmung der Oktavspektralwerte dienen. Die Q-Werte der Glockenfilter sind vorzugsweise so eingestellt, dass sie jeweils etwa eine Oktave abdecken. Für jedes Glockenfilter ist ein eigener Verstärkungsfaktor vorgesehen, der in Abhängigkeit von den Oktavspektralwerten 48 und vordefinierten Referenzspektralwerten bestimmt wird. Die Referenzspektralwerte korrespondieren in ihrer Spektralauflösung mit den Oktavspektralwerten, sodass jedem Oktavspektralwert ein Referenzspektralwert zugeordnet ist.In step 32, the audio signal is filtered with an equalizer to reduce spectral variations. For this purpose, the equalizer is operated with eight bell filters whose center frequencies correspond to those of the octave band filters from 3 correspond, which are used to determine the octave spectral values. The Q values of the bell filters are preferably set to cover about an octave each. A separate amplification factor is provided for each bell filter, which is determined as a function of the octave spectral values 48 and predefined reference spectral values. The reference spectral values correspond in their spectral resolution to the octave spectral values, so that each octave spectral value is assigned a reference spectral value.

Die Referenzspektralwerte bilden zusammen eine Referenzspektralkurve, deren Form mit einer hohen Sprachverständlichkeit korreliert ist und beispielsweise durch spektrale Auswertung einer Vielzahl von ungestörten Sprachsignalen, z.B. auf der Grundlage eines Mittelwerts des oktavgefilterten Spektrums ermittelt werden kann. Jeder Oktavspektralwert wird mit einem zugeordneten Referenzspektralwert verglichen, um einen Verstärkungsfaktor zu ermitteln, welcher die Abweichung zwischen dem Oktavspektralwert und dem zugeordneten Referenzspektralwert repräsentiert. Wenn ein betreffender Oktavspektralwert beispielsweise einen Betrag unterhalb des zugeordneten Referenzspektralwerts aufweist, wird ein Verstärkungsfaktor für das Glockenfilter dieses Spektralbereichs derart bestimmt, dass eine Gewichtung des Oktavspektralwerts mit dem Gewichtungsfaktor den Referenzspektralwert zumindest näherungsweise ergibt. Die Verstärkungsfaktoren sind auf diese Weise dazu angepasst, das Frequenzspektrum des Audiosignals in Übereinstimmung mit der Referenzspektralkurve zu bringen und somit spektrale Variationen innerhalb des Audiosignals und zwischen verschiedenen Audiosignalen zu reduzieren. Beispielsweise werden Eigenschaften unterschiedlicher Sprecher oder spektrale Einflüsse durch unterschiedliche Mikrofonpositionen zugunsten einer hohen Sprachverständlichkeit ausgeglichen.The reference spectral values together form a reference spectral curve, the shape of which is correlated with a high level of speech intelligibility and can be determined, for example, by spectral evaluation of a large number of undisturbed speech signals, e.g. on the basis of a mean value of the octave-filtered spectrum. Each octave spectral value is compared to an associated reference spectral value in order to determine an amplification factor which represents the deviation between the octave spectral value and the associated reference spectral value. If a relevant octave spectral value is below the associated reference spectral value, for example, an amplification factor for the bell filter of this spectral range is determined such that weighting the octave spectral value with the weighting factor at least approximately results in the reference spectral value. The gain factors are adjusted in this way to bring the frequency spectrum of the audio signal into agreement with the reference spectral curve and thus reduce spectral variations within the audio signal and between different audio signals. For example, characteristics of different speakers or spectral influences are compensated for by different microphone positions in favor of high speech intelligibility.

Zur Vermeidung von Verzerrungen werden die Verstärkungsfaktoren vorzugsweise nach oben und unten begrenzt. Darüber hinaus wird auch die zeitliche Änderung der Verstärkungsfaktoren begrenzt.In order to avoid distortions, the amplification factors are preferably limited above and below. In addition, the change in the amplification factors over time is also limited.

Die Glockenfilter zur Filterung des Audiosignals in Schritt 32 werden vorzugsweise nur zur Filterung von Blöcken verwendet, die als Sprachabschnitt detektiert worden sind. Somit wird die Anpassung des Spektrums an die Referenzspektralkurve auf Sprachabschnitte begrenzt. Etwaige Verzerrungen sowie eine ineffiziente Nutzung der Rechenressourcen werden somit vermieden.The bell filters for filtering the audio signal in step 32 are preferably used only for filtering blocks that are classified as Speech section have been detected. Thus, the fitting of the spectrum to the reference spectral curve is limited to speech sections. Any distortions and inefficient use of computing resources are thus avoided.

Die Filterung mit dem Entzerrer bzw. den Glockenfiltern in Schritt 32 kann unerwünschte Variationen des Signalpegels verursachen. Um derartige Variationen zu kompensieren, wird das Audiosignal vorzugsweise mit einem Korrekturfaktor gewichtet, welcher als Mittelwert der vorzeicheninvertierten Gewichtungsfaktoren bestimmt wird.The filtering with the equalizer or bell filters in step 32 can cause undesired variations in the signal level. In order to compensate for such variations, the audio signal is preferably weighted with a correction factor which is determined as the mean value of the sign-inverted weighting factors.

In Schritt 36 wird das Audiosignal mit einem Pausenfilter gefiltert, um den Signalpegel in Bereichen außerhalb der detektierten Sprachabschnitte, d.h. in Sprachpausen, zu reduzieren und auf diese Weise Störgeräusche zu reduzieren. Hierzu werden die in Schritt 18 bzw. 24 detektierten Sprachabschnitte als Filterdaten 52 herangezogen. Diejenigen Abschnitte des Audiosignals, die nicht als Sprachabschnitte detektiert worden sind, bilden Rauschabschnitte, die durch das Pausenfilter gefiltert werden. Das Audiosignal wird in den detektierten Rauschabschnitten vorzugsweise mit einem festen negativen Verstärkungsfaktor von z.B. -3 dB gewichtet.In step 36 the audio signal is filtered with a pause filter in order to reduce the signal level in areas outside the detected speech sections, i.e. in speech pauses, and in this way to reduce background noise. For this purpose, the speech sections detected in step 18 or 24 are used as filter data 52 . Those sections of the audio signal which have not been detected as speech sections form noise sections which are filtered by the pause filter. The audio signal is preferably weighted in the detected noise sections with a fixed negative gain factor of, for example -3 dB.

In Schritt 38 wird das Audiosignal mit einem weiteren Entzerrer gefiltert, um die Effekte der verschiedenen Filterungen auszugleichen. Hierzu wird vorzugsweise eine Filterbank bestehend aus 23 Glockenfiltern zwischen 50 Hz und 10 kHz eingesetzt. Die Filter erstrecken sich vorzugsweise jeweils über eine Dritteloktave, wobei der Q-Wert auf 4,3 eingestellt werden kann. Für jedes Glockenfilter ist vorzugsweise ein fester negativer Verstärkungsfaktor vorgesehen.In step 38 the audio signal is filtered with a further equalizer in order to compensate for the effects of the different filtering. A filter bank consisting of 23 bell filters between 50 Hz and 10 kHz is preferably used for this purpose. The filters preferably each extend over a third of an octave, with the Q value being adjustable to 4.3. A fixed negative gain factor is preferably provided for each bell filter.

In Schritt 40 kann das Audiosignal zu Testzwecken während einer Entwicklungsphase analysiert werden. Diese Möglichkeit ist rein optional und für eine spätere Anwendung des Verfahrens im Praxisbetrieb nicht notwendig.In step 40 the audio signal can be analyzed for test purposes during a development phase. This option is purely optional and not necessary for a later application of the method in practice.

In Schritt 42 wird das nunmehr verbesserte Audiosignal zunächst mittels eines Digital-Analog-Wandlers in ein analoges Signal transformiert und sodann über eine Ausgabeschnittstelle bereitgestellt. Von dort kann das Audiosignal für eine Wiedergabe über ein Beschallungssystem abgegriffen werden. Denkbar ist auch die Ausgabe des digitalen Audiosignals anstelle einer analogen Fassung, sofern das Beschallungssystem einen digitalen Signaleingang für das Audiosignal aufweist.In step 42, the now improved audio signal is first transformed into an analog signal by means of a digital-to-analog converter and then made available via an output interface. From there, the audio signal can be picked up for playback via a sound reinforcement system. It is also conceivable for the digital audio signal to be output instead of an analogue version, provided the sound reinforcement system has a digital signal input for the audio signal.

Mit Bezug auf Fig. 6 wird nachfolgend ein Audiogerät 102 beschrieben, welches dazu eingerichtet ist, das Verfahren von Fig. 1 auszuführen. Das Audiogerät 102 weist ein schematisch angedeutetes Gehäuse 104 auf. Die Außenmaße des Gehäuses 104 sind vorzugsweise nicht größer als wenige Zentimeter, beispielsweise maximal 10 Zentimeter, sodass das Gehäuse 104 insgesamt kompakt und insbesondere auch für mobile Anwendungen geeignet ist.Regarding 6 an audio device 102 is described below, which is set up to carry out the method of 1 to execute. The audio device 102 has a housing 104 indicated schematically. The external dimensions of the housing 104 are preferably no larger than a few centimeters, for example a maximum of 10 centimeters, so that the housing 104 is compact overall and is also particularly suitable for mobile applications.

Das Audiogerät 102 weist eine Eingangsschnittstelle 112 zum Empfangen eines analogen Audiosignals sowie eine Ausgangsschnittstelle zum Ausgeben des verbesserten Audiosignals aus. Ferner weist die Vorrichtung eine USB-C-Schnittstelle 110 sowie eine Ethernetschnittstelle 108 auf. Die USB-C-Schnittstelle 110 kann allgemein als eine Energieversorgungsschnittstelle zum Anschließen an eine externe Energieversorgung ausgebildet sein. Sie muss nicht zwingend gemäß dem USB-C-Standard ausgebildet sein.The audio device 102 has an input interface 112 for receiving an analog audio signal and an output interface for outputting the enhanced audio signal. The device also has a USB-C interface 110 and an Ethernet interface 108 . The USB-C interface 110 can generally be embodied as a power supply interface for connecting to an external power supply. It does not necessarily have to be designed according to the USB-C standard.

Zusätzlich oder alternativ können ein oder mehrere Drahtlosschnittstellen vorgesehen sein, um Audiosignale und/oder Steuerungssignale und/oder elektrische Energie auf drahtlosem Wege von außen zu empfangen und/oder zu einem nicht gezeigten Empfänger zu übertragen.Additionally or alternatively, one or more wireless interfaces can be provided in order to wirelessly receive audio signals and/or control signals and/or electrical energy from outside and/or transmit them to a receiver (not shown).

Die Eingangsschnittstelle 112 und die Ausgangsschnittstelle 106 sind vorzugsweise jeweils als XLR-Schnittstellen ausgebildet, sodass herkömmliche Schallwandler über XLR-Steckverbinder direkt mit dem Audiogerät 102 verbunden werden können.The input interface 112 and the output interface 106 are preferably each designed as XLR interfaces, so that conventional sound transducers can be connected directly to the audio device 102 via XLR connectors.

Das Audiogerät 102 kann somit insbesondere in einer in Fig. 7 gezeigten Anordnung betrieben werden, in der die Eingangsschnittstelle 112 mit einem Mikrofon 134 zum Erfassen eines Audiosignals von einem nicht gezeigten Sprecher verbunden ist. Ferner ist die Ausgangsschnittstelle 106 über einen Verstärker 130 mit einem Lautsprecher 132 oder einem Beschallungssystem mit mehreren Lautsprechern verbunden, um das mittels des Audiogeräts 102 verbesserte Audiosignal wiederzugeben. Der Lautsprecher 132 und das Mikrofon 134 befinden sich in demselben Raum, beispielsweise einem Konferenzraum oder dergleichen. Die Signalverbesserung erfolgt in Echtzeit, sodass das mit dem Mikrofon 134 aufgenommene Audiosignal im Wesentlichen gleichzeitig über den Lautsprecher 132 wiedergegeben werden kann und somit für eine akustisch vorteilhafte Verstärkung des Audiosignals sorgt.The audio device 102 can thus be used in particular in an in 7 shown arrangement in which the input interface 112 is connected to a microphone 134 for detecting an audio signal from a speaker, not shown. Furthermore, the output interface 106 is connected via an amplifier 130 to a loudspeaker 132 or a public address system with multiple loudspeakers in order to reproduce the audio signal enhanced by the audio device 102 . Speaker 132 and microphone 134 are in the same room, such as a conference room or the like. The signal improvement takes place in real time, so that the audio signal recorded with the microphone 134 can be played back essentially simultaneously via the loudspeaker 132 and thus ensures an acoustically advantageous amplification of the audio signal.

Das Audiogerät 102 weist ferner eine manuelle Schnittstelle 128 auf, die in Fig. 6 lediglich schematisch angedeutet ist und allgemein dazu eingerichtet ist, Steuerungsdaten für das Audiogerät 102 durch manuelle Eingabe eines Benutzers unmittelbar an dem Audiogerät 102 zu empfangen.The audio device 102 also includes a manual interface 128, which is 6 is indicated only schematically and is generally set up to receive control data for the audio device 102 directly at the audio device 102 by manual input from a user.

Das Audiosignal wird zunächst mit dem Mikrofon 134 erfasst und über die Eingangsschnittstelle 112 einem Vorverstärker 116 zugeführt. Sodann gelangt das Audiosignal in Abhängigkeit von einer Stellung einer Schalteinrichtung 118 entweder über eine Recheneinheit 114 oder direkt zu der Ausgangsschnittstelle 106. Die Schalterstellung der Schalteinrichtung 118 wird über die Recheneinheit 114 gesteuert. Hierzu kann die Recheneinheit 114 von extern über die Schnittstellen 108, 110 und/oder 128 eine Vorgabe empfangen, die festlegt, ob das Audiosignal durch die Recheneinheit 114 geführt und durch diese verbessert werden soll oder nicht. Alternativ oder zusätzlich kann die Recheneinheit 114 im Wege einer Selbstdiagnose ihre Funktionstüchtigkeit zur Ausführung des Verfahrens zu Verbesserung des Audiosignals feststellen und in Abhängigkeit von der Prüfung die Schalterstellung der Schalteinrichtung 118 einstellen. Beispielsweise kann die Schalteinrichtung 118 in einer Grundeinstellung die Eingangsschnittstelle 112 über den Vorverstärker 116 direkt mit der Ausgangsschnittstelle 106 verbinden, wobei die Schalteinrichtung 118 lediglich im Falle der vollen Funktionstüchtigkeit der Recheneinheit 114 einschließlich der notwendigen Energieversorgung umgeschaltet wird, um die Eingangsschnittstelle 112 mit der Recheneinheit 114 zu verbinden. Auf diese Weise wird gewährleistet, dass das Audiosignal von der Ausgangsschnittstelle 106 unabhängig von einer etwaigen Fehlfunktion der Recheneinheit 114 und eines Ausfalls der Energieversorgung abgegriffen werden kann. Das Audiogerät 102 ist somit für den professionellen Einsatz besonders gut geeignet.The audio signal is first recorded with the microphone 134 and fed to a preamplifier 116 via the input interface 112 . Depending on the position of a switching device 118, the audio signal then reaches the output interface 106 either via a processing unit 114 or directly. For this The processing unit 114 can receive a specification from the outside via the interfaces 108, 110 and/or 128 that defines whether the audio signal is to be routed through the processing unit 114 and improved by it or not. As an alternative or in addition, the arithmetic unit 114 can determine its functionality for executing the method for improving the audio signal by means of a self-diagnosis and set the switch position of the switching device 118 depending on the test. For example, in a basic setting, switching device 118 can connect input interface 112 directly to output interface 106 via preamplifier 116, with switching device 118 only being switched over if processing unit 114 is fully functional, including the necessary power supply, in order to connect input interface 112 to processing unit 114 connect to. This ensures that the audio signal can be tapped from the output interface 106 independently of any malfunction of the computing unit 114 and a failure of the energy supply. The audio device 102 is therefore particularly well suited for professional use.

Der Vorverstärker 116 kann mit variabler Verstärkung betrieben werden. Hierzu kann von der Recheneinheit 114 ein jeweiliger Verstärkungswert eingestellt werden. Dieser kann beispielsweise mittels der Schnittstelle 128 aus einer vorbestimmten Menge an unterschiedlichen Verstärkungswerten, z.B. drei Verstärkungswerten, unmittelbar an der Vorrichtung 102 ausgewählt werden. Die Auswahl des Verstärkungswerts kann dem Bediener durch eine Leuchtanzeige, z.B. durch mehrere LED-Dioden, am Audiogerät 102 visuell vermittelt werden. Durch geeignete Einstellung der Vorverstärkung können große Pegelvariationen vorzugsweise bereits im analogen Signal kompensiert werden, sodass digitales Rauschen aufgrund hoher Verstärkungen des Digitalsignals vermieden werden kann.The preamplifier 116 can be operated with variable gain. For this purpose, a respective amplification value can be set by the arithmetic unit 114 . This can, for example, be selected directly on the device 102 by means of the interface 128 from a predetermined number of different amplification values, for example three amplification values. The selection of the amplification value can be conveyed visually to the operator by means of an illuminated display, eg by means of a number of LED diodes, on the audio device 102 . By setting the preamplification appropriately, large level variations can preferably already be compensated for in the analog signal, so that digital noise due to high amplification of the digital signal can be avoided.

Zur Energieversorgung des Audiogeräts 102 ist einerseits die Schnittstelle 110 vorgesehen, die mittels zugeordnetem Versorgungskabel mit einer Netzquelle verbunden werden kann, um das Audiogerät 102 im Netzbetrieb zu betreiben. Alternativ kann das Audiogerät 102 über einen in dem Gehäuse 104 integrierten Energiespeicher, beispielsweise einen elektrischen Akku 126, versorgt werden. Der Akku 126 ist mit der Schnittstelle 110 gekoppelt und kann über diese geladen werden. Anstelle der USB-C-Schnittstelle 110 kann auch ein anderer Schnittstellentyp zur Energieversorgung vorgesehen sein.On the one hand, the interface 110 is provided for the energy supply of the audio device 102, which can be connected to a mains source by means of an associated supply cable in order to operate the audio device 102 in mains operation. Alternatively, the audio device 102 can be supplied via an energy store integrated in the housing 104, for example an electric battery 126. The rechargeable battery 126 is coupled to the interface 110 and can be charged via it. Instead of the USB-C interface 110, another type of interface can also be provided for the power supply.

Zum Schutz vor Überspannung oder Falschpolung ist die Vorrichtung 102 vorzugsweise mit einer elektrischen Schutzeinrichtung 120 ausgestattet, welche die elektrischen Verbraucher des Audiogeräts 102 vor Spannungsschäden schützt. Hierzu zählen insbesondere die Recheneinheit 114, ein Lüfter 124 zum Kühlen der Recheneinheit 114 und eine Phantomspeisungseinrichtung 122, die mit der Eingangsschnittstelle 112 gekoppelt ist. Die Phantomspeisungseinrichtung 122 dient zur elektrischen Versorgung des an die Eingangsschnittstelle 112 angeschlossenen Mikrofons 134, beispielsweise mit einer Mikrofonversorgungsspannung von 48 Volt. Die Phantomspeisungseinrichtung 122 weist einen nicht näher gezeigten Spannungswandler auf, um die Versorgungsspannung des Audiogeräts 102, die über die USB-C-Schnittstelle 110 bereitgestellt wird, beispielsweise 5 Volt, in die Mikrofonversorgungsspannung zu wandeln.To protect against overvoltage or incorrect polarity, the device 102 is preferably equipped with an electrical protective device 120, which protects the electrical consumers of the audio device 102 from voltage damage. These include in particular the computing unit 114, a fan 124 for cooling the computing unit 114 and a phantom power supply device 122 which is coupled to the input interface 112. The phantom power device 122 is used to supply the microphone 134 connected to the input interface 112 with electricity, for example with a microphone supply voltage of 48 volts. The phantom power device 122 has a voltage converter, not shown in detail, in order to convert the supply voltage of the audio device 102, which is provided via the USB-C interface 110, for example 5 volts, into the microphone supply voltage.

Die Recheneinheit 114 ist vorzugsweise als ein Einplatinenrechner ausgebildet, sodass das Audiogerät 102 unter diesem Aspekt kompakt ausgebildet und außerdem kostengünstig hergestellt werden kann. Die Recheneinheit 114 wird insbesondere über eine Busschnittstelle 107 konfiguriert, die vorzugsweise vom Typ USB-A ist. Die Schnittstelle 107 wird hierzu mit einem Server oder direkt mit einem mobilen Endgerät verbunden (nicht gezeigt), um von außen auf die Recheneinheit 114 zugreifen und wahlweise ein oder mehrere Konfigurationsparameter für das Verfahren von Fig. 1 (z.B. Schwellenwerte, Anstiegs- und Ausklingzeiten) einstellen zu können. Denkbar ist auch eine Konfiguration über die USB-C-Schnittstelle 110.The computing unit 114 is preferably designed as a single-board computer, so that the audio device 102 can be designed to be compact from this point of view and can also be produced inexpensively. The computing unit 114 is configured in particular via a bus interface 107, which is preferably of the USB-A type. For this purpose, the interface 107 is connected to a server or directly to a mobile terminal device connected (not shown) to access the computing unit 114 from the outside and optionally one or more configuration parameters for the method of 1 (e.g. threshold values, rise and decay times). A configuration via the USB-C interface 110 is also conceivable.

Alternativ ist es möglich, einen USB-Stick oder dergleichen an die Schnittstelle 107 anzuschließen, wobei die gewünschten Konfigurationsdaten oder eine neue Firmware in dem USB-Stick gespeichert sind. Die Daten werden sodann automatisch oder nach Initiierung durch einen Bediener über die Schnittstelle 107 an die Recheneinheit 114 übertragen, um die Konfigurationsparameter oder die Firmware entsprechend zu aktualisieren. Dieser Vorgang kann durch einen Endbenutzer der Vorrichtung durchgeführt werden.Alternatively, it is possible to connect a USB stick or the like to the interface 107, with the desired configuration data or new firmware being stored on the USB stick. The data are then transmitted to the processing unit 114 automatically or after initiation by an operator via the interface 107 in order to update the configuration parameters or the firmware accordingly. This process can be performed by an end user of the device.

Vorzugsweise ist eine detaillierte Konfiguration von Filterparametern durch den Endbenutzer jedoch nicht erforderlich. In einem internen Speicher der Recheneinheit (nicht gezeigt) sind bereits alle notwendigen Konfigurationsparameterwerte hinterlegt, sodass das Verfahren bei nahezu allen üblichen akustischen Umgebungsbedingungen vollautomatisch gute Ergebnisse gewährleistet. Für besondere akustische Umgebungen kann der Konfigurationsparametersatz beispielsweise durch einen geschulten Fachmann aus der Ferne oder lokal über die Schnittstelle 107 angepasst werden. Für den Endbenutzer fällt somit kein Einrichtungsaufwand an. Zur Inbetriebnahme im Anwendungsfall von Fig. 7 ist es lediglich erforderlich, das Audiogerät 102 über die vorgesehenen Schnittstellen 112 und 106 mit dem Mikrofon 134 und dem Lautsprecher 132 zu verbinden. Sodann kann das Audiogerät 102 direkt im Sinne einer plug-and-play-Funktionalität verwendet werden. Sofern kein Akkubetrieb gewünscht ist, wird das Audiogerät 102 über die USB-C-Schnittstelle 110 mit einer Netzquelle (nicht gezeigt) verbunden, um das Audiogerät 102 elektrisch zu versorgen.However, a detailed configuration of filter parameters by the end user is preferably not required. All the necessary configuration parameter values are already stored in an internal memory of the computing unit (not shown), so that the method ensures good results fully automatically under almost all usual acoustic environmental conditions. For special acoustic environments, the configuration parameter set can be adjusted remotely or locally via the interface 107 by a trained expert, for example. This means that there is no setup effort for the end user. For commissioning in the application of 7 it is only necessary to connect the audio device 102 to the microphone 134 and the loudspeaker 132 via the interfaces 112 and 106 provided. Then the audio device 102 can be used directly in terms of a plug-and-play functionality. If battery operation is not desired, the audio device 102 is connected via the USB-C interface 110 connected to a power source (not shown) to power the audio device 102 electrically.

Das Audiogerät 102 weist ferner eine manuelle Bedienschnittstelle 113 (z.B. mit einer manuell betätigbaren Taste) sowie eine optische Anzeigeeinrichtung 109 auf (z.B. eine LED). Über die Bedienschnittstelle 113 kann ein Benutzer des Audiogeräts 102 eine Aufzeichnung des an der Ausgangsschnittstelle 106 bereitgestellten Audiosignals steuern. Beispielsweise schließt der Benutzer zunächst einen USB-Stick oder dergleichen an die Schnittstelle 107. Dwe USB-Stick wird durch die Recheneinheit 114 detektiert und es wird dem Benutzer an der Anzeigeeinrichtung 109 durch Aktivierung eines ersten Anzeigemodus angezeigt, dass das Audiogerät 102 aufnahmebereit ist. Um das Audiosignal (in seiner digitalen Form) in dem USB-Stick abzuspeichern, wird sodann die Bedienschnittstelle 113 betätigt. Die Anzeigeeinrichtung 109 zeigt den erfolgreichen Start der Aufnahme durch Aktivierung eines zweiten Anzeigemodus an (z.B. blinkende LED). Das Audiosignal wird sodann fortlaufend in einer Datei auf dem USB-Stick abgelegt. Wenn die Speicherkapazität erschöpft ist, wird die Aufnahme automatisch beendet. Dem Benutzer wird dies durch Aktivierung eines dritten Anzeigemodus an der Anzeigeeinrichtung 109 angezeigt. Die Aufnahme kann wahlweise vorzeitig durch nochmalige Betätigung der Bedienschnittstelle 107 beendet werden.The audio device 102 also has a manual operating interface 113 (eg with a manually operable button) and a visual display device 109 (eg an LED). A user of the audio device 102 can control a recording of the audio signal provided at the output interface 106 via the operating interface 113 . For example, the user first connects a USB stick or the like to the interface 107. The USB stick is detected by the computing unit 114 and the user is shown on the display device 109 by activating a first display mode that the audio device 102 is ready to record. The user interface 113 is then actuated in order to store the audio signal (in its digital form) in the USB stick. The display device 109 indicates the successful start of the recording by activating a second display mode (eg flashing LED). The audio signal is then stored continuously in a file on the USB stick. When the storage capacity is full, the recording will stop automatically. This is indicated to the user by activating a third display mode on the display device 109 . The recording can optionally be ended prematurely by operating the user interface 107 again.

REFERENCE LIST

1010: Erfassen eines Audiosignals mit einem MikrofonCapturing an audio signal with a microphone
1212: Vorverstärkungpreamp
1414: Erfassen des Audiosignals an einer EingangsschnittstelleCapturing the audio signal at an input interface
1616: Elektronischer Verstärker (Erstes Pegelfilter)Electronic Amplifier (First Level Filter)
1818: Eingangsanalyseinput analysis
2020: Softwareverstärker (Zweites Pegelfilter)Software amplifier (second level filter)
2222: Rauschfilternoise filter
2424: Zwischenanalyseinterim analysis
2626: Bandpassbandpass
2828: Erster KompressorFirst Compressor
3030: Zweiter KompressorSecond Compressor
3232: Erstes Entzerrfilter und drittes PegelfilterFirst equalization filter and third level filter
3434: Rückkopplungsfilterfeedback filter
3636: Pausenfilterpause filter
3737: Betragsfrequenzgangmagnitude frequency response
3838: Zweites EntzerrfilterSecond equalization filter
4040: Ausgangsanalyseinitial analysis
4242: Bereitstellen des Audiosignals an einer AusgabeschnittstelleProviding the audio signal at an output interface
4444: Erste FilterdatenFirst filter data
4646: Zweite FilterdatenSecond filter data
4848: Oktavlautstärkenoctave volumes
5050: Rückkopplungsfrequenzenfeedback frequencies
5252: Detektierte SprachabschnitteDetected speech segments
5454: Amplitudenwerteamplitude values
5656: Spektralwertespectral values
5858: Parameterberechnungparameter calculation
6060: Schwellenwertberechnungthreshold calculation
6262: Vergleichen mit SchwellenwertenCompare to thresholds
6464: Bestimmen ob Schwellenwerte verletztDetermine if thresholds violated
6666: Bestimmen Anzahl aufeinanderfolgender AbschnitteDetermine number of consecutive sections
6868: Vergleichen mit MindestanzahlCompare with minimum number
7070: Detektion als SprachabschnittDetection as a section of speech
7272: Detektion als RauschabschnittDetection as noise section
7474: Suche FrequenzkandidatenSearch frequency candidates
7676: Parameterberechnungparameter calculation
7878: Vergleich mit SchwellenwertenComparison with threshold values
8080: Verzweigungbranch
8282: Interpolationinterpolation
8484: Speicherung RückkopplungsfrequenzStorage feedback frequency
8686: Löschen der RückkopplungsfrequenzClearing the feedback frequency
8888: EndeEnd
9090: Inaktiver Zustandinactive state
9292: Aktiver Zustandactive state
9494: Erster ReduktionszustandFirst state of reduction
9696: Rückführungreturn
9898: Zweiter ReduktionszustandSecond state of reduction
100100: Dritter ReduktionszustandThird state of reduction
102102: Audiogerätaudio device
104104: GehäuseHousing
106106: Ausgangsschnittstelleoutput interface
107107: USB-A-SchnittstelleUSB-A interface
108108: EthernetschnittstelleEthernet interface
109109: Anzeigeeinrichtungdisplay device
110110: USB-C-SchnittstelleUSB-C interface
112112: Eingangsschnittstelleinput interface
113113: Manuelle BedienschnittstelleManual operator interface
114114: Recheneinheitunit of account
116116: Vorverstärkerpreamp
118118: Schalteinrichtungswitching device
120120: Schutzeinrichtungprotective device
122122: Phantomspeisungphantom power
124124: LüfterFan
126126: Energiespeicherenergy storage
128128: Manuelle BedienschnittstelleManual operator interface
130130: Verstärkeramplifier
132132: Lautsprecherspeaker
134134: Mikrofonmicrophone

Ff: Frequenzfrequency
GG: BetragAmount
fcFC: Mittenfrequenzcenter frequency

Claims

A method for enhancing an audio signal, in particular in real time, the method comprising at least the following steps:
- Receiving an audio signal having multiple amplitude values, the audio signal having speech at least in sections;

- Detecting speech sections of the audio signal (18, 24);

- filtering the audio signal with at least one level filter (16) to reduce signal level variations of the audio signal in the detected speech portions;

- determining a feedback frequency (50) representing a feedback of the audio signal;

- filtering the audio signal with a feedback filter (34) based on the determined feedback frequency (50) to reduce spectral components of the audio signal representing feedback; and

- filtering the audio signal with at least one equalization filter (32) to reduce spectral variations of the audio signal in the detected speech portions, the filtering with the at least one equalization filter (32) comprising:
- determining coarse spectral values (48) based on fine spectral values (56) of the audio signal, wherein the coarse spectral values (48) represent the fine spectral values (56) at a lower spectral resolution than the fine spectral values (56);

- determining first equalization weights representing a deviation of the coarse spectral values (48) from predetermined reference spectral values;

- weighting the audio signal with the first equalization weights to bring spectral values of the audio signal into agreement with the reference spectral values;

wherein determining the feedback frequency (50) comprises:
- Determining a subset of spectral values of the audio signal that violate a predetermined spectral threshold (74);

- determining a plurality of first spectral parameter values based on the subset, each of the first spectral parameter values representing a predetermined relationship between an associated spectral value of the subset and at least one temporally and/or spectrally adjacent spectral value (76); and

- determining the feedback frequency (50) based on the plurality of first spectral parameter values (78, 80, 82, 84).
The method of claim 1,
further comprising determining a plurality of spectral values (56) based on the amplitude values (54), wherein the amplitude values (54) represent the audio signal in a time domain and wherein the spectral values (56) represent the audio signal in a frequency domain, and wherein detecting the speech portions (18, 24), filtering with the at least one level filter (16) and/or filtering with the at least one equalization filter (32) is based on the amplitude values (54) and/or the spectral values (56).
Method according to claim 1 or 2,
wherein detecting the speech segments (18, 24) comprises:
- Determining at least a first energy parameter value based on the amplitude values (54), wherein the first energy parameter value represents an average energy of the audio signal for a plurality of the amplitude values (54);

- determining at least one second spectral parameter value based on spectral values (56) of the audio signal, the at least one second spectral parameter value representing a harmonic spectral structure of the audio signal for a plurality of the spectral values (56); and

- detecting a portion of the audio signal as a speech portion when the at least one first energy parameter value violates a first energy parameter threshold value and/or the at least one second spectral parameter value violates a spectral parameter threshold value (62, 64),

in particular wherein the energy parameter threshold value and/or the spectral parameter threshold value is adjusted as a function of time.
A method according to any one of the preceding claims,
wherein filtering the audio signal with the at least one level filter (16) comprises:
- Determining at least one level parameter value based on the amplitude values (54), wherein the level parameter value represents an average level of the audio signal for a detected speech portion;

- determining at least one compensation weight based on the at least one level parameter value;

- weighting the audio signal with the at least one compensation weight to reduce signal level variations of the audio signal.
A method according to claim 4,
wherein the at least one level parameter value comprises first and second level parameter values for a plurality of detected speech segments, wherein the first level parameter values represent the average level of the audio signal at a first time resolution, wherein the second level parameter values represent the average level of the audio signal at a second time resolution, wherein the second time resolution is greater than the first time resolution, and wherein the at least one compensation weight is determined based on the first and second level parameter values,

in particular wherein the first level parameter values are formed by average energy values and/or first loudness values and the second level parameter values are formed by second loudness values.
Method according to claim 4 or 5,
wherein said at least one compensation weight comprises first compensation weights and second compensation weights, said first compensation weights being determined to reduce signal level variations having at least one level greater than a predetermined level threshold value,

wherein the second compensation weights are determined to adjust the signal level of the audio signal to a predetermined value.
A method according to any one of the preceding claims,
wherein filtering with the at least one equalization filter (32) comprises:
weighting the audio signal with second equalization weights (38),

wherein the second equalization weights are predetermined.
A method according to any one of the preceding claims, further comprising:
filtering the audio signal with at least one compressor (28, 30) to reduce a dynamic range of the audio signal,

in particular wherein a plurality of mutually different parameter sets are provided for the at least one compressor (28, 30), which parameter sets are selected in dependence on a magnitude of the audio signal and are used as a basis for the filtering with the at least one compressor, wherein the plurality of parameter sets differ from one another in a degree of compression.
Method according to any one of the preceding claims,
wherein, when the determined feedback frequency (50) disappears between successive time periods of the audio signal, the effectiveness of the feedback filter (34) is gradually reduced (94, 98, 100) over a plurality of time periods.
Method according to any one of the preceding claims,
further comprising:
- Filtering the audio signal with a pause filter (36) to reduce the audio signal in regions outside of the detected speech segments; and/or

- filtering the audio signal with a noise filter (22) to reduce the audio signal in regions having amplitude values that violate a predetermined noise threshold; and/or

- filtering the audio signal with a bandpass filter (26), wherein a lower cut-off frequency of the bandpass filter preferably lies in a range of 50 to 100 Hz, and wherein an upper cut-off frequency of the bandpass filter preferably lies in a range of 8000 to 10000 Hz.
Device for enhancing an audio signal, in particular in real time, said audio signal comprising speech,
the device (102) comprising:
- at least one input interface (112) for detecting an audio signal, the input interface (112) having a connector for a microphone (134);

- at least one output interface (106) for outputting the audio signal, the output interface (106) having a connector for an audio playback device (130, 132); and

- a computing unit (114) for performing a method for enhancing the audio signal according to any of the preceding claims.
Device according to claim 11,
further comprising:
- a preamplifier (116) for the audio signal, the preamplifier (116) being couplable to the input interface (112); and/or

- an electrical supply (122) for the input interface (112); and/or

- a switching means (118) couplable to the input interface (112), the output interface (106) and the computing unit (114); and/or

- a cooling device (124);

and/or wherein the computing unit (114) comprises a single board computer; and/or

wherein the device (102) comprises a housing (104); and/or

at least one external communication interface (108, 110).