Bij het schrijven van dit hoofdstuk is dankbaar gebruik gemaakt van het boek ‘Spreken en verstaan’ door Nooteboom en Cohen (1995) en van het boek ‘Algemene fonetiek’ door Rietveld & van Heuven (2001).
De schrijver van dit hoofdstuk is verder dr. ir Gerrit Bloothoofd dankbaar voor het overnemen van informatie uit het werkboek ‘Inleiding in de Fonetiek’ van de studierichting ‘Fonetiek’ (Opleiding Taalwetenschap) van de Universiteit Utrecht .
10.2.1.1(2). Inleiding
Akoestische fonetiek richt zich op de fysische (akoestische) analyse van spraakklanken en combinaties daarvan. Doel is om akoestische wetmatigheden te vinden in spraak wanneer klinkers, medeklinkers, woorden en zinnen worden geproduceerd, maar ook om te onderzoeken welke functie die wetmatigheden hebben voor het herkennen van de verschillende spraakeenheden. Deze doelstelling leidt ertoe dat in de akoestische fonetiek productie en perceptie van spraak sterk gekoppeld zijn. Verder komen de ‘eigenschappen van het oor’ , zoals het waarnemen van toonhoogteveranderingen, luidheid- en timbreverschillen en het horen van verschillen tussen kortdurende en langer durende geluiden in de akoestische fonetiek bij de herkenning van spraakgeluiden in een specifieke context terug. Het zal duidelijk zijn dat hier alleen de stemhebbende spraakklanken worden besproken.
Akoestische fonetiek kent een breed scala van onderwerpen en thema’s. Dit maakt het niet gemakkelijk in het voorliggende hoofdstuk een samenhangende keuze te maken en een ‘lijn’ aan te brengen. De keuze is gevallen op de volgende, deels op de audiologie georiënteerde, onderwerpen:
- De fysica ter verklaring van de stemgeving en de vorming van de formanten
- De wet van Bernoulli
- De theorie van Hermann ter verklaring van de vorming van de formanten
- De relatie tussen de akoestische eigenschappen van combinaties van fonemen en de herkenning. In dit kader worden ook enkele in de fonetiek gebruikte begrippen uitgelegd:
- Herkenning van tweeklanken en combinaties van fonemen
- Herkenning van klinkers in een context
- Categoriale waarneming
- Co-articulatie
- Aan- of afwezigheid van stembandtrilling (‘Voice Onset Time’ – VOT)
- Verbonden spraak, eigenschappen en perceptie
- Het gehoor en de waarneming van spraak
10.2.1.2(2). De fysische verklaring van de stemgeving – De wet van Bernoulli
In Hfdst.10.1.2(2) werden de anatomie en de functie van de stembanden beschreven. De twee spiertjes in het strottenhoofd, de stembanden, vormen samen een spleet. Wanneer de stembanden trillen wordt de luchtpijp beurtelings afgesloten en geopend. Als de stembanden gesloten zijn worden ze door ademdruk van elkaar gedrukt waarna ze met kracht weer sluiten. Iedere keer als de stembanden open gaan wordt er een ‘luchtprop’ het aanzetstuk in geslingerd. Dit zich herhalende proces is het ‘basisgeluid’. Spraakklanken waarbij de stembanden in trilling zijn worden ‘stemhebbend’ genoemd. De opening van de stembanden uitgezet als functie van de tijd, ziet er uit als afgebeeld in Fig.1. Men noemt dit een ‘relaxatietrilling’. Kenmerkend is dat het sluiten van de stembanden veel sneller verloopt dan het openen. De herhalingsfrequentie van het basisgeluid (het aantal luchtproppen dat per seconde het aanzetstuk in geslingerd wordt) wordt aangeduid met F0 (=1/T), met T als periode.
De fysische verklaring van het ‘stemgeven’, het mechanisme dat de trilling veroorzaakt, wordt geleverd door de wet van Bernoulli. Deze wet zegt dat in gasstromen de druk afneemt als de snelheid toeneemt, en omgekeerd. De wet is gebaseerd op het overgaan van potentiële energie (energie die een deeltje ontleent aan de plaats waarop het zich bevindt t.o.v. andere deeltjes) in kinetische energie (energie die een deeltje ontleent aan de snelheid die het heeft). Wanneer een gas door een buis met een vernauwing stroomt, neemt bij die vernauwing de snelheid toe. Toename van de snelheid van een deeltje betekent een toename van de kinetisch energie. Uitgaande van de wet van behoud van energie, dus van het constant zijn van de totale energie (kinetische + potentiële energie), zal de potentiële energie afnemen en ontstaat er een drukverlaging.
Het voorafgaande wordt toegepast op het stemgeven. Het moment waarop de stembanden gesloten zijn wordt als uitgangspunt genomen. Wanneer de ademdruk vanuit de longen wordt opgevoerd, worden de stembanden geleidelijk van elkaar gedrukt. Omdat ter plaatse van de stembanden in de luchtpijp een vernauwing aanwezig is neemt de snelheid van de luchtstroom daar toe en treedt er een drukverlaging op. Dit heeft tot gevolg dat enkele milliseconden nadat het openen is ingezet de stembanden abrupt worden gesloten. De kracht die deze sluiting tot stand brengt wordt voor het grootste deel bepaald door het Bernoulli effect.
Naast de verklaring op basis van het Bernoulli effect kan men zich voorstellen dat het ontsnappen van lucht tussen de stembanden en de daarmee samenhangende afname van de subglottische druk het sluiten van de stembanden veroorzaakt. Het grote volume lucht met de hoge druk in de longen kan echter niet verklaren waarom het openstaan van de stembanden zo kort duurt. Ook is voorstelbaar dat de elasticiteit van de stembanden bijdraagt aan de kracht waarmee de stembanden zich sluiten. In dat geval kan niet verklaard worden waarom de spanning van de stembanden precies op het juiste moment toeneemt en met de juiste regelmaat terugkeert. Voor de verklaring van het abrupt sluiten van de stembanden is het Bernoulli effect essentieel.
Een verandering in de spanning van de stembanden (stembanden zijn spieren) en een verandering van de massa van de stembanden (doordat slechts een deel ervan trilt) leidt tot variaties in de herhalingsfrequentie van het basisgeluid. Een grotere spanning van de stembanden geeft een hogere F0, een kleinere spanning een lagere. Een vermindering van de massa geeft een hogere F0. Voor mannenstemmen bedraagt F0 ongeveer 125 Hz en voor vrouwenstemmen ongeveer 250 Hz.
Er zijn verschillende soorten ‘aanzet’ mogelijk:
- De zachte aanzet, waarbij de stembanden geopend zijn als de ademdruk opgevoerd wordt. De stembanden komen eerst in trilling zonder de gesloten toestand te bereiken, pas daarna ontstaat een relaxatietrilling als die in Fig.2. Bij ongeoefende sprekers wordt soms voortdurend de gesloten toestand niet geheel bereikt. Bij zang treedt dit op bij falsetstem.
- Het normale geval, waarbij de stembanden eerst gesloten worden en dan op de boven beschreven wijze in trilling gebracht.
- Er vindt eerst een zo sterke glottisslag plaats, dat de relaxatietrilling een korte tijd aperiodiek is. In sommige talen werkt dit als een foneem .
De bovenstaande verklaring van het stembandmechanisme staat wel bekend als de myoëlastische-aerodynamische theorie van de stembandtrilling.
10.2.1.3(2). De fysische verklaring van de vorming van de formanten – Theorie van Hermann
In Hfdst.10.1.2(2), Par.4 werd de vorming van de formanten besproken op basis van de filtertheorie van Helmholtz. In deze theorie wordt het aanzetstuk opgevat als een stelsel van gekoppelde resonatoren. Deze resonatoren treden op als filters voor het breedbandige basisgeluid. De formantfrequenties zijn de resonantiefrequenties en een bepaalde combinatie van resonantiefrequenties vormt een klinker.
Tegenover de theorie van Helmholtz heeft jarenlang de theorie van Hermann gestaan. In de loop van de tijd is gebleken dat deze twee theorieën niet met elkaar in strijd zijn, maar verschillende mathematische beschrijvingswijzen van hetzelfde fenomeen zijn. De basis van de theorie van Hermann is dat elk van de propjes lucht die door de stembanden worden geproduceerd de (twee ) holtes van het aanzetstuk ‘aanslaan’. De combinatie van twee holtes heet een ‘tweelingbuis’ (‘twin-tube’). De luchtdeeltjes in de holtes voeren vervolgens een gedempte trilling uit. Wanneer dus de stembanden 125 keer per seconde trillen wordt deze gedempte trilling 125 keer per seconde uitgevoerd. Het principe, op basis van een model, is afgebeeld in Fig.2. Het bovenste spoor in deze figuur illustreren de pulsen de opeenvolging van de propjes lucht. Deze opeenvolging bepaalt de grondfrequentie (‘toonhoogte’) van het spraaksignaal. Het tweede spoor illustreert het uitklinken van de grotere holte en het derde spoor dat van de kleinere. Het onderste spoor geeft de som van de twee vorige, dus de trilling van de klinker.
De afleiding van de formantfrequenties (hier alleen F1 en F2) uit de vorm van het aanzetstuk, dus uit de gedempte trillingen, is gebaseerd op de theorie van de toonvorming in orgelpijpen. Het eenvoudigste aanzetstuk is dat voor de klinker /ə/ in ‘de’. In dat geval zijn er geen vernauwingen en ziet het aanzetstuk eruit als een recht stuk pijp. Aan de kant van de keel is de pijp altijd gesloten omdat na het ‘aangeslagen’ zijn, wanneer de trilling uitklinkt, de glottis gesloten is (tót de volgende ‘aanslag’). Aan de mondzijde is er een opening (open orgelpijp). De trilling in het stukje pijp leidt tot het optreden van staande golven . Aan de gesloten (keel)zijde bevindt zich altijd een (deeltjes)snelheidsknoop (hier kunnen de luchtdeeltjes niet bewegen) en aan de mondzijde een snelheidsbuik (daar juist wél). Bij deze eisen, zijn meerdere staande golven mogelijk, zoals afgebeeld in Fig.3.
De frequentie die bij golf (1) hoort is de eerste formant, bij (2) hoort de tweede formant enz. De afstand van een knoop tot de eerstvolgende buik is een kwart van de golflengte van de (longitudinale) trilling. Wanneer de lengte van het aanzetstuk op 17.5 cm gesteld wordt (voor een volwassen man), dan geldt in geval (1), dus voor de eerste formant, voor de golflengte λ:
λ = 70 cm
Voor het verband tussen de snelheid υ van het geluid, de frequentie F en de golflengte λ geldt:
υ = F · λ
Bij een geluidsnelheid van 350 m/s betekent dit dat de frequentie van de laagste formant (F1) 500 Hz bedraagt. Omdat de golflengte voor de tweede formant drie keer zo klein is, bedraagt de frequentie van de tweede formant 1500 Hz.
Voor de overige klinkers is er altijd sprake van een vernauwing in de ‘eenvoudige’ buis die in Fig.3 is afgebeeld. De buis met een vernauwing kan nog tuitvormig en trechtervormig zijn. Voor de klinker /ɑ/ bevindt de vernauwing zich in het midden en heeft de buis de vorm van een trechter. De vorming van de eerste en tweede formant voor deze klinker is afgebeeld in Fig.4.
In het linker plaatje (eerste formant) bevindt zich rechts, aan de keelzijde (bij D), voor wat betreft de deeltjessnelheid een knoop, omdat de deeltjes daar niet kunnen bewegen. Aan de mondzijde, bij A, bevindt zich een buik. In datzelfde plaatje wordt, van rechts naar links gaande, de snelheid steeds groter, omdat een knoop altijd gevolgd wordt door een buik. De verwijding van de buis daarna maakt dat dit verloop verstoord wordt en de snelheid afneemt. In een wijde buis zijn de snelheden kleiner dan in een smalle. Van de mondzijde uit, waar zich de buik bevindt, naar rechts gaande neemt de snelheid af want de buik wordt gevolgd door een knoop. De vernauwing die vervolgens, van die kant uit geredeneerd optreedt, maakt dat de snelheid groter wordt. Die sprong in snelheid is niet zo abrupt als in Fig.4 getekend. De buik die bij het rechtse stukje golf hoort ligt iets links van het midden (bij C, op 11 cm afstand van de knoop bij D) en de knoop die bij het linkse stukje hoort ligt iets rechts van het midden (bij B op 11 cm afstand van de buik bij A). De twee stukjes golf AB en CD betreffen dezelfde trillingsvorm. In feite vindt een aanpassing plaats van het golfpatroon aan de vorm van de buis. Dat wordt bereikt met een golflengte die eigenlijk te klein is voor de totale lengte van de buis (¼ λ is 11 cm in plaats van 17.5 cm). Berekeningen leveren een golflengte van 44 cm en dus een F1 van 800 Hz. Voor de vorming van de tweede formant geldt een vergelijkbare redenering, ontleend aan het rechter plaatje in Fig.4. De buik die bij het rechtse stukje golf hoort (R) is nog verder opgeschoven naar de knoop aan de keelzijde en de knoop van het linkse stukje (Q) weer dichter bij de buik bij P dan voor de eerste formant. De beweging van de luchtdeeltjes links van de knoop Q is tegengesteld aan die aan de rechterkant daarvan. Dit laatste is in de figuur aangegeven door de ‘omslag’ ten opzichte van de horizontale lijn. Hier geldt F2 = 350/0.3 = 1150 Hz.
Het meer algemene geval van de tweelingbuis, waarbij de vernauwing zich niet precies in het midden bevindt en de formule die gebruikt wordt om de in dat geval de formantfrequenties te berekenen wordt besproken in niveau 3 van dit hoofdstuk.
10.2.1.4(2). Tweeklanken en fonemen in een context – Akoestische eigenschappen en herkenning
Tweeklanken en combinaties van fonemen
Klinkers worden gekarakteriseerd door een reeks formantfrequenties F1, F2, F3 etc. In Fig.11 van Hfdst. 10.1.2, Par.4, is geïllustreerd dat die formantfrequenties binnen zekere grenzen constant zijn. Het aanzetstuk verandert namelijk gedurende de productie niet van vorm. Men spreekt hier van ‘enkelvoudige klinkers’.
Tweeklanken, dat wil zeggen combinaties van klinkers zoals de /ɛi/ (steil), de /œy/ (huis) en de /ɑu/ (rauw), gedragen zich niet als een stapsgewijze opeenvolging van twee klinkers. Het zijn op zichzelf staande fonemen, gekenmerkt door specifieke veranderingen in de vorm van het aanzetstuk gedurende het uitspreken van de klank. Bij de productie van de /ɛi/ bijvoorbeeld beweegt het aanzetstuk zich – geleidelijk – vanuit een positie voor de /ɛ/ naar die voor de /i/. In de tweeklanken zijn daarom de formantfrequenties niet constant. Deze verlopende formantfrequenties worden ‘verglijdingen’ of ‘formantovergangen’ genoemd. Formantovergangen spelen ook een rol in de vorming van combinaties van een klinker met een ‘halfklinker’, zoals de /e/ met de /ʋ/ in ‘eeuw’, de /u/ met de /ʋ/ in ‘uw’ en de /a/ met de /j/ in ‘aai’ en – in mindere mate – bij de vorming van de lange klinkers /e/, /ø/ (in ‘beuk’) en /o/. De verschillende vormen van formantovergangen zijn te zien in Fig.5.

Fig.5. Spectrogrammen van de tweeklanken /ɛi/ (steil), /œy/ (huis) en /ɑu/ (rauw) (bovenste rij), van de lange klinkers /e/, /ø/ (in ‘beuk’) en /o/ (middelste rij) en van de combinaties van klinkers en halfklinkers, de /e/ met de /ʋ/ in ‘eeuw’, de /u/ met de /ʋ/ in ‘uw’ en de /ɑ/ met de /j/ in ‘aai’ (onderste rij).
In de tweeklanken is er een verloop van de formantfrequenties over de gehele lengte van de klank. Voor de tweeklanken treedt een vrij abrupte formantovergang op aan het eind en voor de lange klinkers is er alleen een kleine geleidelijke overgang aan het eind.
Het feit dat tweeklanken zich niet gedragen als een stapsgewijze opeenvolging van twee ‘elementaire’ klanken, neemt niet weg dat een synthetische /ɛi/ met een /ɛ/ en een /i/ achter elkaar ‘geplakt’ wel degelijk als een /ɛi/ klinkt. Het geluid is dan echter minder natuurlijk dan dat van de /ɛi/ met de verglijding. In het algemeen geldt dat de herkenning, als tweeklank of als combinatie van klinker en halfklinker, niet afhangt van de aanwezigheid van mooie formantovergangen. Zelfs kan bij de lange klinkers de overgang geheel achterwege blijven.
Het besprokene in verband met de perceptie van de tweeklanken geeft aan dat voor de herkenning van een bepaalde foneemcombinatie een goed gedefinieerd akoestisch signaal niet vereist is. Dit is ook het geval bij de herkenning van combinaties van een beginmedeklinker en een klinker, zoals in de onzinsyllaben /bɑ/ en /dɑ/.
Fig.6 laat gestileerde spectrogrammen van de combinaties /di/ en /du/ zien. Duidelijk is dat zeer verschillende
akoestische signalen (formantovergangen) dezelfde klank /d/ kunnen opleveren. Men spreekt hier van ‘formantbuigingen’ of ‘formantovergangen’. Slechts enkele formantovergangen zijn noodzakelijk voor de herkenning. Wanneer de beginmedeklinker elektronisch onderdrukt wordt en onhoorbaar is, kan deze toch met behulp van de resterende formantovergangen geïdentificeerd worden. Hetzelfde geldt voor een eindmedeklinker.
Herkenning van klinkers in een context
In de voorafgaande paragraaf werd duidelijk gemaakt dat in een combinatie van klanken, akoestische signalen van uiteenlopende vorm tot het horen van dezelfde foneem kunnen leiden. In deze paragraaf wordt dit aspect verder uitgewerkt voor klinkers in een ‘medeklinker – klinker – medeklinker’ context (in het Engels genoteerd als /CVC/ context, Consonant – Vowel – Consonant). In deze paragraaf wordt besproken hoe de context van invloed is op de ligging van de formantfrequenties en dus bepaalt welke klinker wordt gehoord. Beïnvloeding van formantfrequenties treedt bijvoorbeeld op wanneer men een syllabe als /dud/ steeds korter maakt. Terwijl daarbij in geïsoleerd uitgesproken klinkers de ligging van de formantfrequenties vrijwel hetzelfde blijft, treedt bij aanbieding van de syllabe /dud/ in het segment van de /u/ een duidelijke verandering op in het verloop van de F2.
Fig.7 geeft gestileerde spectrogrammen van synthetische /CVC/ woorden met dezelfde klinker in verschillende medeklinkercontexten. In het linker deel van de figuur bevindt de klinker zich tussen de medeklinkers /ʋ/ (‘wiw’ of ‘wuw’) en rechts in het rechter deel in een /j/ context (‘jij’ of ‘juj’).
Om na te gaan hoe bepalend het akoestische signaal is voor de klinker die wordt gehoord heeft men voor een aantal van deze contexten, bij gelijkblijvende frequentie F1 (350 Hz), de frequentie F2 vergroot, uitgaande van een F2 van 1000 Hz, in stappen van 50 Hz tot 2000 Hz. Voor elk van deze 20 stimuli werden proefpersonen gevraagd de klinker te identificeren. Het resultaat (Fig.8, voor de klinkers /u/ en /I/) laat zien dat er een scherpe overgang bestaat tussen de identificatie van de klinker als /u/ dan wel als /I/ en dat de grens daartussen afhangt van de context.
Categoriale waarneming
Het begrip ‘categoriale waarneming’ heeft betrekking op de herkenning van klinkers of medeklinkers in een context. Voor de uitleg van dit begrip (zie Fig.9a) wordt gebruik gemaakt van een /a/ die wordt voorafgegaan door een overgang in de F2 formant, terwijl het F1 patroon (onderste spoor in Fig.9a) hetzelfde blijft. De F2 formant overgang is systematisch gewijzigd (bovenste spoor in Fig.9a, stappen 1 tot 14). Wanneer proefpersonen gevraagd wordt in elk van deze 14 condities te beoordelen welke medeklinker wordt gehoord ontstaan curven als in Fig.9b. Het gaat hier om een gedwongen keuze uit de alternatieven /b/, /d/ en /g/. Het betreft dus een identificatie. Tevens wordt de proefpersonen gevraagd stimulusparen waarin de F2 twee stappenverschilde, te beoordelen als gelijk dan wel als verschillend. Dit is een discriminatie experiment. Fig.9c laat zien dat de discriminatie alleen correct is wanneer de stimuli geïdentificeerd worden (vergelijk met Fig.9b) als afzonderlijke fonemen. De medeklinkers kunnen dus pas van elkaar onderscheiden worden wanneer ze behoren tot verschillende categorieën. Dit is categoriale waarneming.

Fig.9. a.Gestileerde spectrogrammen van de klinker /a/ voorafgegaan door verschillende formantovergangen, waarbij de beginpositie van F2 systematisch is gevarieerd. Fig.9b laat voor de 14 gevallen en de drie aangegeven categorieën het identificatiepercentage zien van de beginklinker. Fig.9c geeft het percentage waarmee paren stimuli die twee stappen op de stimulus-as uit elkaar liggen als verschillend worden beoordeeld (als functie van de stimulus met het laagste nummer).
Co-articulatie
Co-articulatie is het verschijnsel dat de articulatie zich niet houdt aan de foneemgrenzen. De opeenvolging van de fonemen in een syllabe vindt met niet terug in de volgorde van de standen van de articulatie-organen. Bij het uitspreken van de syllabe /ku/ worden de lippen al gerond vóórdat de /k/ geproduceerd wordt en in het geval van de syllabe /kɑ/ wordt geanticipeerd op de /ɑ/ vóórdat de /k/ wordt gevormd. Een mooi voorbeeld is te zien in Fig.10. Na elkaar zijn de nonsens syllaben /kəməma/ en /kəməmi/ uitgesproken (onderste spoor). De stand van de tongrug bij 11 en 14 in het bovenste spoor laat verschillen zien (anticipatie op respectievelijk de /a/ en de /i/) die in het akoestische signaal op de respectievelijke momenten niet aanwezig zijn. Het verschijnsel co-articulatie maakt duidelijk dat het akoestische signaal niet op een eenvoudige wijze gegenereerd wordt door een opeenvolging van articulatorische commando’s.

Fig.10. Positie van de tongrug tijdens het na elkaar uitspreken van de nonsens woorden /kəməma/ en /kəməmi/, (bovenste spoor). De stand van de tongrug bij 11 en 14 in het bovenste spoor laat verschillen zien (anticipatie op respectievelijk de /a/ en de /i/) die in het akoestische signaal (onderste spoor) op de respectievelijke momenten niet aanwezig zijn. De metingen van de positie van de tongrug zijn uitgevoerd met behulp van elektromagnetische articulografie.
Aan- of afwezigheid van een stembandtrilling – ‘Voice Onset Time’ (VOT)
Bij het maken van onderscheid tussen enerzijds stemloze plofklanken als in /pa/ en /da/ en anderzijds de stemhebbende plofklanken /ba/ en /da/ is het van belang te letten op het moment van steminzet. In Fig.11 is de golfvorm van de syllabe /ba/ afgebeeld. De steminzet bevindt zich aan het begin van het getinte deel in de figuur. Rechts van het getinte deel start het ontsnappen van de lucht tussen de lippen uit de mondholte. Dit heet de ‘release’. De stemgeving is dus al aanwezig vóórdat de release is ingezet.
De ‘Voice Onset Time’ (VOT) is de tijd tussen de inzet van de stembandtrilling en het begin van de release. Wanneer de steminzet eerder inzet dan de release is de VOT negatief (‘voice lead’). Een stemhebbende plofklank correspondeert dus met een negatieve VOT. Bij een stemloze plofklank, als in /pa/, is de VOT juist positief. Hier komt de steminzet ná de inzet van de release (‘voice lag’). In de praktijk ligt de VOT in een continuüm tussen ruim vóór en ruim ná de inzet van de release. De grens tussen stemhebbend en stemloos, dus de VOT waarbij 50% van de combinaties /CV/ als stemhebbend en 50% als stemloos wordt beoordeeld is taalafhankelijk.
10.2.1.5(2). Eigenschappen en perceptie van verbonden spraak
De eigenschappen van fonemen worden ook wel ‘segmentele’ eigenschappen genoemd, omdat fonemen de kleinste segmenten van de spraak zijn. Daarnaast hebben spraakuitingen ‘suprasegmentele’ of ‘prosodische’ eigenschappen. Prosodische eigenschappen zijn alle eigenschappen van spraakuitingen die niet teruggevoerd kunnen worden op een opeenvolging van klinkers en medeklinkers. Voorbeelden zijn accenten, ritmiek en toonhoogte. Prosodische eigenschappen kunnen opgesplitst worden in twee categorieën:
- Eigenschappen die bepaald worden door de veranderingen van toonhoogte (intonatie) in het spraaksignaal, dus die betrekking hebben op de melodische structuur van het signaal
- Eigenschappen die bepaald worden door vertragingen in spreektempo en door fraseringen en klemtoon, dus die betrekking hebben op de temporele structuur van het signaal
Melodische structuur
Het verloop van de toonhoogte (de belangrijkste indicator van prosodie) in een uiting komt tot stand als gevolg van variaties in de grondfrequentie van het spraaksignaal. De meest opvallende daarbij is de vraagintonatie. Intonaties kunnen accentverlenend dan wel grensmarkerend zijn. Vaak vallen verhogingen van de F0 in een uiting samen met accenten daarin. Fig.12 geeft een voorbeeld van accentuering door middel van een verhoging van de F0.
Daarentegen treedt in Fig.13, na de inzet van het woord ‘DUUR’ een daling in de F0 op. Deze daling is duidelijk het gevolg van het vragende karakter van de uiting.
In Fig.14 is een mooi voorbeeld te zien van situatie waarin het F0 contour een grens markeert. De twee zinnen zijn lexico-syntactisch identiek. De oplopende F0, in het bovenste contour na ‘zei’: en in het onderste na ‘baas’ markeren het einde van een ‘intonatiedomein’ .
Gesproken uitingen bevatten een grote variatie in intonatiecontouren. Aan het Instituut voor Perceptie Onderzoek in Eindhoven (IPO) heeft men een methode ontwikkeld waarin de F0contouren in spraakuitingen gestileerd worden tot een beperkt aantal rechte lijnstukken. Wanneer er geen verschil in intonatie gehoord wordt tussen de gestileerde contour en de geresynthetiseerde oorspronkelijke contour zijn de twee perceptief equivalent . Voor het Nederlands zijn op deze wijze tien standaardbewegingen gevonden waarmee alle intonatiecontouren beschreven kunnen worden. In feite wordt op deze wijze data reductie toegepast, leidend tot een reeks van tien, onderling niet uitwisselbare, intonatiekenmerken. Voor dit tiental geldt een grammatica, zodanig dat in gesproken uitingen bepaalde combinaties verplicht aanwezig zijn en andere verboden zijn. Verder zijn bepaalde combinaties van het tiental altijd accentverlenend en andere grensmarkerend .
Los van de besproken patronen van stijgingen en dalingen treedt in een gesproken zin een algemene daling van de toonhoogte op, als gevolg van de afname van de hoeveelheid lucht in de longen bij het uitspreken van die zin. Een gemiddeld lange zin uitgesproken door mannen begint op een F0 van 125 Hz en eindigt op een F0 van rond de 75 Hz. Naarmate de zin langer is neemt de begin F0 toe. Men noemt deze overall afname de ‘declinatie’. Losse woorden hebben altijd een toonhoogte-accent.
Temporele structuur
Prosodie komt eveneens tot stand door veranderingen in de temporele structuur van gesproken uitingen, zoals vertragingen in spreektempo en door fraseringen en klemtoon. Een belangrijke bijdrage levert de duur van een uiting. Een beklemtoonde uiting /ka:/ is ongeveer 50 % langer dan diezelfde uiting onbeklemtoond uitgesproken.
De verlenging is in alle syllaben van een woord aanwezig, ook in de onbeklemtoonde. Buiten de finale positie bedraagt de verlenging ongeveer 10%. Verder geldt dat de beginklinker in een woord steeds korter wordt wanneer het woord langer wordt.
Wanneer klinkers beklemtoond worden is het (piek)geluidsniveau rond 5 dB hoger dan in de onbeklemtoonde situatie. Dit hogere geluidsniveau speelt echter, in verhouding tot de bijdragen van intonatie en duur, geen wezenlijke rol bij het herkennen van die nadruk. Evenmin levert ‘spectrale expansie’ een bijdrage. Spectrale expansie is het oprekken van de klinkerdriehoek, wanneer de klinkers met nadruk worden uitgesproken. Wél speelt een rol dat in met nadruk uitgesproken klinkers de hogere harmonischen 5 tot 10 dB sterker aanwezig zijn dan in ‘neutraal’ uitgesproken klinkers. Deze wijziging in de spectrale samenstelling ontstaat doordat de stembanden zich in het eerste geval sneller sluiten.
Prosodie speelt ook een rol bij de markering van grenzen, zowel tussen woorden als tussen zinnen. Voorafgaand aan een ‘pauze’ is een vertraging van het spreektempo aanwezig (‘finale verlenging’). Het is het meest duidelijk aanwezig tussen zinnen. Daar zijn de pauzes het langst. Een voorbeeld van dergelijke verlengingen is te zien in Fig.14. In Het woord ‘zei’, voorafgaand aan de pauze in de golfvorm A, is langer dan datzelfde woord in de golfvorm C, waar geen pauze aanwezig is. Evenzo is ‘Daan’ in C langer dan in A.
Functie van prosodie
In het voorafgaande zal impliciet duidelijk geworden zijn dat prosodie als functie heeft het communiceren van allerlei (vooral niet-lexicale) betekenissen. Samengevat zijn deze eigenschappen:
- Frasering en grensmarkering, dus het opdelen van de gesproken taal in woorden, woordgroepen en zinnen
- Interne structurering van de informatiestroom in termen van meer en minder gewicht
- Externe structurering van de informatie met het oog op gewenste of mogelijk reacties van de omgeving
- Attitude en emotieweergave, zoals vragend, ironisch en opgewonden
De lexicale functie van prosodie is vrij beperkt. Een bekende uitzondering is het onderscheid tussen ‘kanon’ en ‘canon’. De functies van prosodie verschillen van taal tot taal.
10.2.1.6(2). Het gehoor en de waarneming van spraak
In het voorafgaande is een aantal eigenschappen van spraakklanken beschreven en is nagegaan welke functie deze eigenschappen hebben voor de overdracht van informatie naar de luisteraar. In aanvulling daarop ligt het – in het kader van dit Nederlands Leerboek Audiologie – voor de hand aandacht te geven aan de wijze waarop de eigenschappen van het gehoor, zoals beschreven in Rubriek 2, een rol spelen in het spraakverstaan, zowel door normaalhorenden als slechthorenden Het gaat hierbij zowel om de grenzen waarbinnen deze herkenning plaatsvindt (het herkennen van verschillen), als om de parameters die deze herkenning beïnvloeden. Achtereenvolgens komen aan de orde:
- Het waarnemen van verschillen in, respectievelijk, geluidsterkte (luidheid), toonhoogte (pitch), klankkleur (timbre), duur en inzet van spraakklanken; deze verschillen worden besproken voor zowel stationaire als dynamische spraakklanken
- Adaptatie en ‘forward masking’ (de rol van stiltes in spraakklanken)
- Frequentieselectiviteit en herkenning van klinkers
- De herkenning van spraakkenmerken door mensen met een perceptieve slechthorendheid
- Het waarnemen van verschillen
Geluidsterkte (‘luidheid’)
Wanneer twee geluiden met identieke spectrale samenstelling (klinkers), maar met een verschil in geluidsterkte, door luisteraars worden vergeleken, is er een verschil in luidheid zolang het verschil in intensiteit groter is dan 1 dB. Dit verschil heet het ‘Difference Limen for Intensity’ (DLI) of ‘Just Noticable Difference’ (JND, voor intensiteit). Men heeft gevonden dat voor korte spraakfragmenten aan het eind van een zin van 200, 400 en 600 ms de JND waarden respectievelijk (gemiddeld) 5, 3 en 2 dB zijn. Deze waarden zijn van belang voor de beoordeling van het gewicht van intensiteitverschillen voor de prosodie.
Toonhoogte (‘pitch’)
Twee afzonderlijke spraakklanken worden als verschillend ‘hoog’ beoordeeld wanneer hun grondfrequenties (F0) tenminste 0.3 tot 2.5% verschillen. In dit kader merken we op dat de toonhoogte (‘pitch’) van harmonische klanken en dus ook van stemhebbende spraakklanken bepaald wordt door de ligging van de hogere harmonischen. De gegeven waarden zullen dus niet direct gerelateerd zijn aan de F0. Om te horen dat twee grondtoonbewegingen (’trajecten’ van A naar B Hz) verschillend zijn moeten de trajecten 9% verschillen.
Klankkleur (‘timbre’)
Verschillen tussen klinkers kunnen, in termen van geluidwaarneming, opgevat worden als verschillen in timbre. Om te kunnen horen dat twee afzonderlijke – dezelfde – klinkers verschillen in timbre moet de frequentie van de eerste of de tweede formant tenminste 3% verschillend zijn. Wanneer beide (laagste) formantfrequenties verschillen kan al bij een lager percentage verschil in timbre worden gehoord. Verschillen in verglijdingen in formanten in tweeklanken en halfklinkers zijn veel moeilijker te beoordelen. Dit heeft zowel betrekking op de snelheid als op de richting van de verandering.
Duur
Twee afzonderlijke spraakklanken worden als verschillend van lengte beoordeeld wanneer hun duren tenminste 10% verschillen. Wanneer alle segmenten van een zin ingekort worden hoort een luisteraar een verhoging van het spreektempo. Daarvoor geldt een JND van 4.5%.
Inzet van een klank (verschillen in ‘transientkarakter’)
De ‘inzet’ van twee spraakklanken wordt als verschillend beoordeeld wanneer de stijgsnelheid tenminste 25% verschilt. Hetzelfde geldt, mutatis mutandis, voor het einde van de klank. - Adaptatie en ‘forward masking’ (de rol van ‘stiltes’ in spraakklanken)
Wanneer de aanbieding van een geluid wordt beëindigd is de ‘sensatie’ nog niet afgelopen. Dit wordt niet als zodanig waargenomen, maar is wel detecteerbaar wanneer men de drempel meet van een kort testtoontje na het einde van de stimulus. Deze waarnemingsdrempel is direct ná het einde van de stimulus verhoogd en daalt vervolgens in korte tijd. Men noemt dit voorwaartse maskering (‘forward masking’). Het is een vorm van adaptatie. De adaptatie is na 200 ms verdwenen. In woorden als ‘lappen’, ‘latten’ en ‘lakken’ bevinden zich voorafgaand aan deze plofklanken, korte stiltes. Deze stiltes zijn van belang voor de herkenning van de betreffende plofklanken. Wanneer de stiltes – kunstmatig – korter worden gemaakt zijn de verschillen tussen de /p/, /t/ en /k/ veel moeilijker te horen. Voor de herkenning van de plofklanken zijn de stiltes, althans voldoende snelle afname van de adaptatie, kennelijk noodzakelijk. Deze conclusie wordt ondersteund door het feit dat in galmende ruimten herkenning van deze plofklanken eveneens veel moeilijker is. In deze situaties lopen de pauzes vol met de echo’s van de voorafgaande klinkers. - Frequentieselectiviteit en herkenning van klinkers
De herkenning van klinkers is gebaseerd op het detecteren van de formantfrequenties. Voor een goed resultaat moeten deze formanten dan wel van elkaar onderscheiden kunnen worden. Dit betekent dat ze in verschillende ‘kritieke banden’ moeten liggen. De breedte van de ‘kritieke band’ bedraagt 100 Hz voor frequenties beneden de 1000 Hz en 15% van de centrale frequentie voor frequenties van 1000 Hz en hoger. De herkenning van de segmentele kenmerken van spraak is op deze waarden van de kritieke band gebaseerd. - Een perceptieve slechthorendheid van cochleaire aard wordt gekenmerkt door een meer of minder groot discriminatieverlies voor de medeklinkers en de klinkers, dus voor de segmentele kenmerken van de spraak. Dit discriminatieverlies kan veroorzaakt zijn door:
- Een beperking in de frequentieselectiviteit, waardoor de maxima in het spectrum van de klank die relevant zijn voor de herkenning en voor het kunnen onderscheiden van de klank van andere, niet meer in verschillende kritieke banden vallen en dus niet meer ‘opgelost’ worden
- Een verminderde temporele selectiviteit, waardoor bijvoorbeeld de pauzes die noodzakelijk zijn voor de herkenning van de plofklanken (zie hiervoor) ‘vollopen’; aanwezigheid van galm zal dan een extra probleem opleverenDe herkenning van spraakkenmerken door mensen met een perceptieve slechthorendheid
Het ligt voor de hand dat het discriminatieverlies voor de klinkers veroorzaakt wordt door de verminderde frequentieselectiviteit. Verwacht mag worden dat het discriminatieverlies voor de medeklinkers mede veroorzaakt wordt door een verminderde temporele selectiviteit.
10.2.1.7(2). Verwijzingen
Bij het schrijven van dit hoofdstuk is dankbaar gebruik gemaakt van het boek ‘Spreken en verstaan’ door Nooteboom en Cohen (1995) en van het boek ‘Algemene fonetiek’ door Rietveld & van Heuven (2001).
Auteur
Lamoré
Revisie
december 2012