NL7908213A

NL7908213A - Spraaksynthese inrichting met tenminste twee vervormingsketens.

Info

Publication number: NL7908213A
Application number: NL7908213A
Authority: NL
Original assignee: Philips Nv
Priority date: 1979-11-09
Filing date: 1979-11-09
Publication date: 1981-06-01
Also published as: EP0028856A3; EP0028856B1; US4355204A; DE3069776D1; AU534175B2; JPH0456320B2; JPS5675700A; AU6409180A; CA1155958A; EP0028856A2

Description

Λ ΐ ΡΗΝ 9618 1 N.V. Philips* Gloeilampenfabrieken te Eindhoven Spraaksynthese inrichting met tenminste twee vervormings-ketens.

De uitvinding heeft betrekking op een inrichting voor het synthetiseren van spraak uit een band van laagfrequente componenten van een spraaksignaal en een aantal smalbandige regelsignalen welke karakteristiek 5 zijn voor een aantal deelbanden van hoogfrequente componenten van het spraaksignaal, bevattende middelen voor het uit de band van laagfrequente componenten opwekken van een band van hoogfrequente componeneten, middelen voor het verdelen van de band van hoogfrequente componenten in een 10 aantal deelbanden welke overeenkomen met de deelbanden van hoogfrequente componenten van het spraaksignaal, middelen voor het corrigeren van de uit de opgewekte band afgeleide deelbanden met de regelsignalen en middelen voor het combineren van de band van laagfrequente componenten met de 15 gecorrigeerde deelbanden van de opgewekte hoogfrequente componenten tot een spraakuitgangssignaal..

Dergelijke inrichtingen worden toegepast als spraaksynthese inrichtingen in vocoders met spraakexcitatie. Vocoders met spraakexcitatie kunnen worden onderscheiden 20 in kanaalvocoders en formant vocoders naargelang de wijze waarop de deelbanden van hoogfrequente componenten worden gekozen en het karakter van de regelsignalen welke daaruit worden afgeleid. Bij kanaalvocoders wordt uitgegaan van een, meestal vrij groot, aantal aaneengesloten deel-25 banden waaruit regelsignalen worden afgeleid welke een maat zijn voor de gemiddelde signaalamplitude in elke deelband. Als voorbeeld van een dergelijke kanaalvocoder kan worden genoemd de in het Amerikaanse octrooischrift 3139^87 beschreven inrichting. Bij formant vocoders worden de deelbanden gevormd door een klein aantal, meestal drie of vier, formantgebieden waarbij de regelsignalen informatie verschaffen omtrent de frequentie en de amplitude

79 0 82 1 J

' *> * 2 van de in een formantgebied voorkomende spectrale pieken.

Een voorbeeld van een dergelijke formantvocoder is te vinden in: J.L. Flanagan, "Resonance-vocoder and baseband complement” IRE Transactions on Audio AU-8, i960, blz.

5 95-102.

Om uit de band van laagfrequente componenten een band van hoogfrequente componenten op te -wekken, wordt bij dergelijke vocoders gebruik gemaakt van een vervor-mingsnetwerk. Omdat bekende, eenvoudige vervormingsnet-10 werken, zoals begrenzers en gelijkrichtingsschakelingen, niet goed bleken te voldoen, met name aanleiding bleken te geven tot onnatuurlijk althans minder natuurlijk klinkende spraakuitgangssignalen, zijn zeer complexe vervormings-ketens ontworpen. Zie in dit verband bijvoorbeeld: M.R.

15 Schroeder en E.E. David Jr., ”A vocoder for transmitting 10 kc/s speech over a 3>5 kc/s channel”, Acustica nr. 10 i960, blz. 35-^3» in het bijzonder figuur 5.

De uitvinding beoogt een inrichting van de in de aanhef vermelde soort te verschaffen waarbij met een 20 eenvoudig vervormingsnetwerk toch een zo natuurlijk mogelijk spraakuitgangssignaal wordt verkregen.

De inrichting volgens de uitvinding vertoont daartoe het kenmerk, dat de middelen voor het opwekken van een band van hoogfrequente componenten tenminste twee 25 ketens omvatten die elk een band van hoogfrequente componenten opwekken uit de band van laagfrequente componenten van het spraaksignaal, waarbij uit elk van de opgewekte banden een gedeelte van het aantal deelbanden wordt afgeleid.

30 In een gunstige uitvoeringsvorm van de inrich ting volgens de uitvinding wordt een eerste keten gevormd door een tweezijdige gelijkrichtschakeling voor het opwekken van een relatief laagfrequente band van hoogfrequente componenten en wordt een tweede keten gevormd door een begren-35 zingsschakeling voor het opwekken van een relatief hoogfrequente band van hoogfrequente componenten.

De uitvinding wordt onderstaand nader toegelicht aan de hand van de tekening.

7908213 *· « 3

Daarin toont:

Figuur 1 een eerste uitvoeringsvoorbeeld van een inrichting volgens de uitvinding voor toepassing in een kanaalvocoder.

g Figuur 2 een tweede uitvoeringsvoorbeeld van een inrichting volgens de uitvinding voor toepassing in een formantvocoder.

Figuur 3 een uitvoeringsvorm van de in een inrichting volgens de uitvinding toe te passen regelcircuits.

10 Figuur 4 een schematische voorstelling van de toe te passen vervormingsketens met de daarbij behorende uitgangssignalen.

In de figuren zijn gelijke delen met dezelfde verwijzingscijfers aangeduid.

15 Bij de inrichting volgens fig. 1 wordt aan een ingangsklem 1 een band van laagfrequente componenten van een spraaksignaal (basisbandsignaal) toegevoerd. Uit dit basisbandsignaal, met een frequentiespectrum dat zich uitstrekt van bijvoorbeeld 300 tot 1500 Hz, wordt met be-20 hulp van een eerste vervormingsketen 2 een relatief laagfrequente band van hoogfrequente componenten opgewekt, welke band door middel van een aantal bandfilters 3> 4 en 5 wordt verdeeld in aaneengesloten deelbanden van bijvoorbeeld 1600-1850 Hz, 1850-2100 Hz en 2100-2350 Hz. Door 25 middel van een aantal regelcircuits 6, J en 8 wordt de amplitude van de opgwekte deelbanden genormeerd. De zo verkregen deelbanden met genormeerde amplitude worden aan analoge vermenigvuldigers 9> 10 en 11 toegevoerd, waarna met behulp van evenzovele van de ingangsklemmen 12, 13 30 en 14 ontvangen regelsignalen, welke een maat zijn voor de gemiddelde amplitude in de overeenkomstige deelbanden van het oorspronkelijke spraaksignaal, de opgewekte deelbanden worden gecorrigeerd.

Uit het aan de ingangsklem 1 toegevoerde basis-35 bandsignaal wordt met behulp van een tweede vervormingsketen 15 een relatief hoogfrequente band van hoogfrequente componenten opgewekt, welke band door middel van band- 7908213 * f 4 filters 16, 17 en 18 wordt verdeeld in aaneengesloten deelbanden van bijvoorbeeld 2350-2850 Hz, 2850-3350 Hz en 3350-3850 Hz. Deze opgewekte deelbanden worden na normering van de amplitude in een aantal regelcircuits 19» 20 en 21, s toegevoerd aan de analoge vermenigvuldigers 22, 23 respectievelijk 24 waaraan ook een aantal van de ingangskiemmen 25, 26 respectievelijk 27 afkomstige regelsignalen worden toegevoerd.

Aan de uitgangen van de analoge vermenigvuldi-gers 9, 10, 11, 22, 23 en 24 ontstaan zo een aantal gecorrigeerde deelbanden.van hoogfrequente componenten, welke deelbanden een zo goed mógelijke benadering zijn van de, in het niet weergegeven analysegedeelte van een kanaalvo-coder, uit het oorspronkelijke spraaksignaal afgeleide 15 deelbanden. De gecorrigeerde deelbanden worden, eventueel via geschikt gekozen eenvoudige banddoorlaatfilters, te-samen met het door een vertragingsketen 28 vertraagde basisbandsignaal, aan een sommeerinrichting 29 toegevoerd, waarna aan een uitgangsklem 30 het gesynthetiseerde spraak-20 uitgangssignaal verschijnt.

De in fig. 2 weergegeven inrichting bevat een ingangsklem 1, waaraan een basisbandsignaal wordt toegevoerd, bijvoorbeeld een band van 300-700 Hz. Aan ingangs-klemmen 31 en 32 worden regelsignalen toegevoerd die in-25 formatie verschaffen over respectievelijk de amplitude en de frequentie van een in een eerste deelband (bijvoorbeeld 800-1500 Hz) voorkomend spectraal maximum. Evenzo worden aan ingangskiemmen 33 en 34 een amplitude- en een frequentieregelsignaal toegevoerd, welke betrekking hebben 30 op een tweede deelband (bijvoorbeeld 1500-2200 Hz) en aan ingangsklemmen 35 en 36 dito regelsignalen, betrekking hebbend op een derde deelband (2200-3200 Hz). De genoemde deelbanden worden bepaald door het niet weergegeven analysegedeelte van een formantvocoder. Hierbij kan worden opge-35 merkt, dat de eerste en de tweede deelband tesamen het tweede formantgebied bestrijken en dat de derde deelband het derde formantgebied bestrijkt van een van een mannelijke stem afkomstig spraaksignaal.

7908213 5 V *

Uit het basisbandsignaal worden met behulp van de vervormingsketens 2 en 15 banden van hoogfrequente componenten gevormd. Daarbij wordt de van de. yervormings-keten 2 afkomstige band, door middel van banddoorlaatfilters 5 37 en 38 met een variabele resonantiefrequentie,verdeeld in twee deelbanden welke met behulp van de regelcircuits 39 en 40 en de analoge vermenigvuldigers 41 en 42 onder invloed van de regelsignalen op de ingangsklemmen 31 en 32 respectievelijk de regelsignalen op de ingangsklemmen 33 10 en 34 zo goed mogelijk gelijk wórden gemaakt aan respectievelijk de genoemde eerste en tweede deelband welke te-samen het tweede formantgebied bestrijken. De door de ver-vormingsketen 15 geleverde band van hoogfrequente componenten wordt door middel van een banddoorlaatfilter 43 met 15 variabele resonantiefrequentie en door een analoge vermenigvuldiger 44 onder invloed van de regelsignalen op de ingangsklemmen 35 en 36 20 goed mogelijk gelijk gemaakt aan de derde deelband die het derde formant bestrijkt.

De aan de uitgangen van de analoge vermenig-20 vuldigers 4l, 42 en 44 optredende gecorrigeerde deelbanden worden samen met het basisbandsignaal, na vertraging in de vertragingsketen 28 ter compensatie van de in de filters optredende looptijden, aan de sommeerinrichting 29 toegevoerd, waarna aan de uitgangsklem 30 het gesynthetiseerde 25 spraakuitgangssignaal optreedt.

De toegepaste regelcircuits zijn alle op gelijke wijze opgebouwd. Fig. 3 toont een mogelijke uitvoeringsvorm, waarbij aan een ingang 45 de van een banddoorlaatfilter afkomstige deelband wordt toegevoerd* In een 30 amplitude detector bestaande uit een gelijkrichtschakeling 46 en een laagdoorlaatfilter 47 wordt de amplitude bepaald, waarna met een deler 48 de amplitude wordt genormeerd.

Teneinde te voorkomen dat bij afwezigheid van een ingangssignaal door nul wordt gedeeld, wordt met behulp van een 35 opteller 49 een kleine gelijkspanning toegevoegd.

Om de looptijd van het laagdoorlaatfilter 47 te compenseren is op de in de figuur aangegeven wijze een analoge vertragingsinrichting 50 toegepast.

7908213 6

Deze vertragingsinrichting wordt bijvoorbeeld gevormd door een emmertjesgeheugen.

Opgemerkt zij, dat bij toepassing van een top-gelijkrichter als amplitude detector de vertragingsin-5 richting 50 kan vervallen.

In fig. 4 is schematisch een voorbeeld gegeven van de in de inrichtingen volgens de figuren 1 en 2 toe te passen vervormingsketens 2 en 15· De in fig. 4A aangegeven keten 2 wordt gevormd door een tweezijdige gelijk-10 richtschakeling. Als aan de ingangsklem 51 een sinusvormig signaal woirdt aangeboden, dan zal aan de uitgang 52 een signaal verschijnen, waarvan de vorm overeenkomt met de in fig. 4B gegeven signaalvorm. De in figuur 4C aangegeven keten 15 wordt gevormd door een begrenzingsschakeling 15 die in respons op een sinusvormig signaal aan ingangsklem 53, aan een uitgangsklem 54 een signaal zal leveren waarvan de gedaante overeenkomt met de in fig. 4d weergegeven signaalvorm.

Het zal duidelijk zijn dat de door de vervormingsketen 2 20 opgewekte frequentiecomponenten voornamelijk in een lagere band liggen dan de door vervormingsketen 15 opgewekte componenten, zodat de eerste meer geschikt is om een exci-tatiesignaal voor de in frequentie lager gelegen deelbanden te leveren en de tweede met succes kan worden toegepast 25 om juist voor de hogere deelbanden een excitatiesignaal op te wekken.

Opgemerkt zij, dat uiteraard ook andere vervormingsketens kunnen worden toegepast. De weergegeven combinatie van een tweezijdige gelijkrichtschakeling en een begrenzings-30 schakeling bleek in de praktijk echter goed te voldoen.

35 7908213

Claims

1. Inrichting voor het synthetiseren van spraak uit een band van laagfrequente componenten van een spraak-5 signaal en een aantal smalbandige regelsignalen welke karakteristiek zijn voor een aantal deelbanden van hoogfrequente componenten van het spraaksignaal, bevattende middelen voor het uit de band van laagfrequente componenten opwekken van een band van hoogfrequente componenten, 10 middelen voor het verdelen van de band van hoogfrequente componenten in een aantal deelbanden wélke overeenkomen met de deelbanden van hoogfrequente componenten van het spraaksignaal, middelen voor het corrigeren van de uit de opgewekte band afgeleide deelbanden met de regelsignalen 15 en middelen voor het combineren van de band van laagfrequente componenten met de gecorrigeerde deelbanden van de opgewekte hoogfrequente componenten tot een spraakuit-gangssignaal, met het kenmerk, dat de middelen voor het opwekken van een band van hoogfrequente componenten ten-20 minste twee ketens omvatten die elk een band van hoogfrequente componenten opwekken uit de band van laagfrequente componenten van het spraaksignaal, waarbij uit elk van de opgewekte banden een gedeelte van het aantal deelbanden wordt afgeleid.

2. Inrichting volgens conclusie 1 , met het ken merk, dat een eerste keten wordt gevormd door een tweezijdige gelijkrichtschakeling voor het opwekken van een relatief laagfrequente band van hoogfrequente componenten en dat een tweede keten wordt gevormd door een begrenzings-30 schakeling voor het opwekken van een relatief hoogfrequente band van hoogfrequente componenten. 35 7908213