5.3.2(2) Digitale opslag en analyse van geluid

05 Geluidsleer


Bij het schrijven van dit hoofdstuk is gebruik gemaakt het werkboek ‘Inleiding in de Fonetiek’ van de studierichting ‘Fonetiek’ (Opleiding Taalwetenschap) van de Universiteit Utrecht (auteur G. Bloothooft)

5.3.2.1(2) Registratie – Analoog en digitaal

Registratie van geluid is nodig om metingen te verrichten, bewerkingen uit te voeren en om de registratie te bewaren zodat deze op een later tijdstip opnieuw ten gehore gebracht en bekeken kunnen worden. Bij het verrichten van metingen kan men denken aan het bepalen van de sterkte van een geluid. Het bewerken van geluid kan bestaan in het uitfilteren van bepaalde frequenties. De registratie (‘opname’) van geluid gebeurt met een microfoon. Een microfoon zet luchtdrukvariaties om in een elektrische (wissel)spanning. De geregistreerde elektrische signalen kunnen analoog worden opgeslagen op de geluidsband van een bandrecorder of cassetterecorder.

Geluidsdruk en elektrische wisselspanningspanning zijn ‘continu variërende’ grootheden. Dit betekent dat deze grootheden niet ‘springen’ van de ene naar de andere waarde, maar alle tussengelegen waarden ‘aandoen’. Zie Fig.1A. Continu variërende signalen heten ook ‘analoge’ signalen. De bewerkingen die er op toegepast worden staan bekend onder de naam ‘analoge signaalverwerking’. Bandrecorders, cassetterecorders, versterkers en (analoge) filters zijn voorbeelden van apparaten die signalen analoog opslaan of bewerken.

Analoge signalen kunnen omgezet worden in ‘digitale’ signalen door gebruik te maken van getallen uit het binaire getallenstelsel. Daardoor worden deze geschikt voor opslag in het geheugen van een PC, op een CD of DVD en in een MP3 speler. Digitale opslag is ook mogelijk in de DAT-recorder. Dit is een digitale bandrecorder (DAT staat voor ‘Digital Audio Tape’). In de DAT-recorder wordt het analoge signaal meteen als een reeks getallen (digitaal) op de band gecodeerd.

De omzetting van analoge signalen in binaire, dus in voor de computer hanteerbare getallen gebeurt in een Analoog/Digitaal-omzetter (A/D-converter). Deze A/D-omzetter bepaalt in een vast ritme steeds de spanning van het analoge signaal en zet dit om in een getal dat evenredig is met de gemeten spanning. Dit proces heet digitaliseren of bemonsteren (‘sampling’). Het door A/D-conversie verkregen digitale signaal is een benadering van de originele analoge golfvorm. Een Digitaal/Analoog-omzetter (D/A-omzetter) doet precies het omgekeerde.

5.3.2.2(2) Bemonstering

Frequentie

Fig.1.  illustreert het proces van bemonstering. In deelfiguur A is het analoge signaal afgebeeld. De pijltjes in deelfiguur B geven aan met welk ritme (bemonsteringsfrequentie) de monsters worden genomen. In deelfiguur C zien we discrete waarden van de analoge golfvorm op de achtereenvolgende tijdstippen. De hoogtes van de pijltjes worden omgezet in binaire getallen en opgeslagen.

Fig.1. Principe van de analoog-digitaal omzetting.

Het zal duidelijk zijn dat naarmate de pijltjes dichter op elkaar staan, dus naarmate de bemonsteringsfrequentie hoger is, de benadering van het oorspronkelijke signaal beter is. De bemonsteringsfrequentie wordt genoteerd als fs (met de ‘s’ van ‘sampling frequency’).

Een te lage bemonsteringsfrequentie geeft een onnauwkeurige weergave van het analoge signaal, zelfs zodanig dat het originele signaal onjuist wordt weergegeven. De regel is dat de bemonsteringsfrequentie minimaal twee keer zo hoog moet zijn als de hoogste in het signaal voorkomende frequentiecomponent (fs>2f). Fig.2 laat zien wat er gebeurt wanneer dit niet het geval is. Het gaat hier om een sinusvormig signaal met een frequentie van 800 Hz en bemonsterd met een frequentie van 1000 Hz. In het bovenste spoor zijn de signaalwaarden op 0, 1, 2, etc. ms aangegeven. Deze reeks waarden kunnen het beste geïnterpreteerd worden als ‘onderdelen’ van een sinusvormig signaal van 200 Hz (1000 Hz – 800 Hz). Dit is een goed hoorbare toon. De frequentie van 200 Hz heet de ‘spiegelfrequentie’ of  ‘fa

Fig.2. Boven: Oscillogram van een sinus met f=800 Hz, bemonsterd met fs=1000 Hz (SF). Onder: De meetwaarden passen tevens bij een spiegelfrequentie f a=200 Hz. Deze spiegelfrequentie is een hoorbare component in het gedigitaliseerde signaal.

Een betere bemonstering van het originele signaal is te zien in Fig.3. Hier wordt weer een sinus van 800 Hz bemonsterd, maar nu met een frequentie van 2000 Hz. Er is dus voldaan aan de regel fs>2f. In dit geval is er geen sprake meer van een spiegelfrequentie. Het bemonsterde signaal kan alleen als 800 Hz geïnterpreteerd worden .

Voor het bemonsteren van spraak wordt meestal een frequentie van 22.050 kHz gebruikt. Aan muziek daarentegen worden veel hogere eisen gesteld, omdat de hogere frequenties in muziek veel belangrijker zijn dan bij spraak.. Voor CD’s wordt meestal een bemonsteringsfrequentie van 44.1 kHz gebruikt.

Fig.3. Boven: Oscillogram van een sinus met f=800 Hz, bemonsterd met fs=2000 Hz (SF=Sample Frequency). Onder: De spiegelfrequentie fa=200 Hz past nu niet meer bij de meetwaarden. Het resultaat bevat alleen de frequentie van het ingangssignaal.

5.3.2.3(2) Resolutie

Bij digitalisatie dient niet alleen de frequentie van een signaal zo goed mogelijk weergegeven te worden, maar ook de variaties in de sterkte van het signaal. Het aantal bits dat een A/D-omzetter beschikbaar heeft voor een zo nauwkeurig mogelijke benadering van het analoge signaal wordt aangeduid met de term ‘amplituderesolutie’. Met een 2-bits omzetter kan het analoge signaal in slechts 22 = 4 niveaus worden verdeeld. Dit betekent dat het digitale signaal maximaal 4 amplitudewaarden kan aannemen. Met een 4-bits A/D- omzetter zijn er 16 niveaus beschikbaar en bij een 12-bits omzetter 4096. Elk toegevoegd bit verbetert de geluidskwaliteit (signaal-ruis verhouding) met 6 dB. De representatie van een signaal in deze twee gevallen is afgebeeld in Fig.4.

Fig.4. Oscillogrammen van een ingangssignaal (gestippelde curve) en het bemonsterde signaal (doorgetrokken curve).
Boven: Na bemonstering met amplituderesolutie van 2 bits (4 mogelijke amplitudewaarden).
Onder: Na bemonstering met amplituderesolutie van 4 bits (16 mogelijke amplitudewaarden).

Digitalisatie levert altijd afronding van de amplitude op. Elke amplitudewaarde die tussen twee met behulp van het aantal beschikbare bits weer te geven amplitudewaarden ligt wordt naar boven of naar beneden afgerond. Deze afronding zorgt voor hoorbare ruis in het gedigitaliseerde signaal . In de praktijk is het digitale signaal van een 8-bits omzetter visueel (in een oscillogram) al niet meer te onderscheiden van het origineel. Bij het digitaliseren van spraak wordt standaard gewerkt met 16-bits omzetters.

5.3.2.4(2) Het binaire getallenstelsel

Het decimale getallenstelsel heeft 10 als grondtal . Voor de notatie van een getal wordt gebruik gemaakt van de  beschikbare 10 cijfers 0 tot en met 9. In het decimale stelsel kan elk getal weergegeven worden door optelling van machten van 10, bijvoorbeeld:

135 = 100 + 30 + 5 = 1.(102) + 3.(101) + 5.(100)

waarbij per definitie 100 = 1.

Een meer algemene vorm van deze notatie is als volgt:

X = … + N.(10N) + … + D.(103) + C.(102) + B.(101) + A.(100)

waarbij N, D, C, B, A, enz. de waarden 0 t/m 9 kunnen aannemen.

Het binaire getallenstelsel heeft 2 als grondtal. Getallen zijn dus combinaties van de cijfers 0 en 1. In het binaire stelsel wordt elk getal weergegeven door optelling van machten van 2. Het cijfer 1 geeft aan dat de betreffende macht wél (1 keer) voorkomt en het cijfer 0 geeft aan dat de betreffende macht niet (0 keer) voorkomt, zoals het binaire getal:

10000111

In dit getal 10000111 heet elke 0 of 1 een bit (‘binary digit’). Dit binaire getal is de weergave van :

1.(27) + 0.(26) + 0.(25) + 0.(24) + 0.(23) + 1.(22) + 1.(21) + 1.(20)

Uitgerekend levert dit:

128 + 0 + 0 + 0 + 0 + 4 + 2 + 1 = 135

Is de hoogste macht van 2 gelijk aan N (hier 7) dan bevat het binaire getal N+1 cijfers (hier 8). De algemene notatie in het binaire stelsel is:

X = … + N.(2N) + … + C.(23) + B.(22) + A.(21)

waarbij N, C, B, A, enz. ieder alleen de waarden 0 of 1 kunnen aannemen.

Voor de omrekening van een getal van het decimale naar het binaire stelsel zoekt men eerst de grootste macht van 2 die kleiner is dan het om te rekenen getal en noteert men een 1. Als de volgende macht van 2 in het restgetal past, noteert men weer een 1, zo niet, een 0. Zo gaat men door tot het hele getal opgedeeld is in machten van 2. Tabel I geeft een overzicht van een aantal machten van 2.

n 0 1 2 3 4 5 6 7 8 9 16
2n 1 2 4 8 16 32 64 128 256 512 65536

Tabel I. Overzicht van een aantal machten van 2.

Enkele voorbeelden:

 279 (decimaal)  = 1(256) + 0(128) + 0(64) + 0(32) + 1(16) + 0(8) + 1(4) + 1(2) + 1(1)
 = 1(28) + 0(27) + 0(26) + 0(25) + 1(24) + 0(23) + 1(22) + 1(21 ) + 1(20)
 = 100010111 (binair)

 

 11101000 (binair)  = 1(27) + 1(26) + 1(25) + 0(24) + 1(23) + 0(22) + 0(21) + 0(20 )
 = 1(128) + 1(64) + 1(32) + 0(16) + 1(8) + 0(4) + 0(2) + 0(1)
 = 128+64+32+8
 = 232 (decimaal)

Het maximale getal dat weergegeven kan worden in een 3-cijferig decimaal getal is 999. Dit is 103-1. Het maximale getal dat weergegeven kan worden in een 8-bits binair getal is 11111111. Dit is 28-1 (255 decimaal). Het maximale getal dat je kunt weergeven in een 16-bits getal is 1111111111111111. Dit is 216-1 (65535 decimaal).

5.3.2.5(2) Fourieranalyse voor niet-continue signalen – Venstering

In Hfdst.5.3.1. wordt de Fourieranalyse besproken. Het gaat daar om de spectra van analoge (continue) signalen. Naast de analoge Fourieranalyse bestaan er ook een Fourieranalyse voor niet-continue (‘tijddiscrete’) signalen, de Discrete Fourier Transform (DFT). Deze discrete Fouriertransformatie wordt toegepast in de digitale signaalbewerking voor het berekenen van de frequenties die aanwezig zijn in een bemonsterd signaal. Voor de DFT bestaat een snelle rekentechniek, de Fast Fourier Transform (FFT).

Bij het toepassen van de FFT techniek op bemonsterde signalen met behulp van de PC zijn de spectra niet mooi ‘scherp’, maar verbreed. Frequenties worden niet precies weergegeven. Hiervoor zijn twee oorzaken. In de eerste plaats leidt het feit dat de programmatuur moet uitgaan van een eindige reeks getallen (bemonsteringen) ertoe dat een spectrum, zoals dat van een sinusvormig signaal (Fig.5, frequentie 100 Hz), bestaat uit een reeks dicht op elkaar staande paaltjes rond 100 Hz. De achterliggende theorie brengt met zich mee dat het aantal paaltjes in het spectrum (op onderling gelijke afstanden) gelijk is aan het aantal meetwaarden ‘samples’ uit het analoge signaal. Gemiddeld ligt het bergje bij 100 Hz.

Fig.5. Oscillogram  van een stukje uit een sinusvormig signaal. Het spectrum bestaat niet uit één paaltje bij 100 Hz, maar uit een bergje, zoals beschreven in de tekst.

De verbreding van de weergave van sinusvormige signalen in een spectrum wordt ook veroorzaakt doordat de programmatuur voor het berekenen van een spectrum altijd gebruik maakt van beperkt stukje uit het analoge signaal.

Een standaard tijdsduur is b.v. 25 ms. In het algoritme dat de frequentieanalyse uitvoert worden deze stukjes achter elkaar ‘geplakt’. In veel gevallen zullen dan de begin- en de eindgrens van het uitgeknipte stukje signaal niet precies samenvallen met begin en einde van een periode. Dit is voor de berekening echter wel noodzakelijk. Het gevolg is dat er frequentiecomponenten in het spectrum worden opgenomen die eigenlijk niet in het signaal voorkomen. Om dit probleem op te lossen wordt gebruik gemaakt van venstering (‘windowing’). Daartoe krijgt het signaalsegment (Fig.6, bovenste figuur links) de vorm van een ander signaal (Fig.6, middelste figuur links) opgedrukt . Alleen het deel van het signaal dat zich binnen dit ‘tijdvenster’ bevindt (Fig.6, onderste figuur links) wordt geanalyseerd.

Fig.6. Een fragment van een onbewerkt signaal (0,2 s van een sinus van 200 Hz) met zijn spectrum, een Hanning-venster (met een duur van 0,2 s), en het resulterende gevensterde signaalfragment (0,2 s) met zijn spectrum.

Venstering zorgt ervoor dat de amplitudes van het  begin en het einde van het stukje signaal de waarde 0 krijgen. Het segment is daardoor kunstmatig periodiek gemaakt, waardoor de frequentieanalyse beter gaat. Meestal wordt gebruik gemaakt van een ‘Hanning-window’(bedacht door Hanning). De bovenste figuur rechts in Fig.6 laat het ongevensterde spectrum zien van het signaalsegment (200 Hz) en in de onderste figuur rechts is het resultaat van de venstering te zien.

5.3.2.6(2) Links

http://www.let.uu.nl/ ~Gerrit.Bloothooft/personal/onderwijs/ExpTaalkunde/werkboekPracticumFonetiek2004.pdf

Auteur

Lamoré

Revisie

2007

8 Diagnostiek
9 Revalidatie