2.4.1(2). Toonhoogte

2 Eigenschappen gehoor

2.4.1.1(2). Toonhoogte – Inleiding

Het begrip ‘toonhoogte’ (in het Engels ‘pitch’) karakteriseert een geluid in termen van ‘hoog’ en ‘laag’. Het is een perceptief (subjectief) kenmerk van een geluid en is verbonden met een ordening op een muzikale schaal. Het ene geluid kan hoger klinken dan het andere. Het feit dat toonhoogte een subjectieve grootheid is houdt in dat de toonhoogte van een geluid met psychofysische methodes gemeten moet worden.

Het onderzoek van de toonhoogtewaarneming heeft gedurende vele jaren, m.n. in de jaren na de Tweede Wereldoorlog, sterk in de belangstelling gestaan. Een belangrijke reden daarvoor is de rol die de resultaten van dit onderzoek konden spelen in de theorievorming. Elk geluid heeft immers zowel spectrale als temporele aspecten en de verklaring van de toonhoogtewaarneming kon dus zowel gekoppeld worden aan het spectrum van het geluid (‘plaatstheorie’) als aan de temporele structuur (‘periodiciteitstheorie’). Een tweede reden voor de belangstelling is de relatief gemakkelijke ‘demonstreerbaarheid’ en toegankelijkheid van de verschillende toonhoogtefenomenen, zeker voor geïnteresseerden in muziek.

Bij de bespreking van het onderwerp toonhoogte wordt – zoals gebruikelijk – onderscheid gemaakt tussen de toonhoogte van zuivere tonen (bestaande uit één enkele sinus) en die van ‘complexe’ geluiden. Deze laatste kunnen geluiden zijn die bestaan uit meerdere harmonische componenten zoals tonen van muziekinstrumenten en het stemgeluid, maar ook ruisachtige geluiden met een repeterend karakter zoals een reeksperiodieke impulsen. Deze zijn het meest interessant voor de experimentator en de theoreticus. Achtereenvolgens worden besproken:

  1. Het meten en schatten van de toonhoogte van zuivere tonen en het bepalen van de nauwkeurigheid van die metingen (frequentiediscriminatie) – Factoren die de toonhoogte beïnvloeden Par.2
  2. De toonhoogte van complexe harmonische geluiden – Par.3
  3. De toonhoogte van ruisachtige geluiden met een repeterend karakter – Par.4
  4. Theorieën met betrekking tot de toonhoogtewaarneming – Par.5

De eerste drie onderwerpen betreffen de fenomenen die de waarneming van toonhoogte direct karakteriseren. Het laatste onderwerp betreft de theorievorming en de meer ‘verfijnde’ fenomenen die een rol hebben gespeeld in de discussies rond de theorieën. Deze discussies zijn uitgebreid gedocumenteerd in de literatuur bij dit hoofdstuk. De bespreking van de theorieën rond de toonhoogtewaarneming is daarom gericht op de kern van deze discussies en er wordt niet te diep ingegaan op de bijbehorende experimenten.

2.4.1.2(2). Meting van toonhoogte – De toonhoogte van zuivere tonen

Voor de meting van het subjectieve kenmerk toonhoogte wordt meestal gebruikgemaakt van een vergelijking van de toonhoogte van het betreffende geluid met die van een zuivere toon (sinusvormige stimulus). De laatste heet de referentietoon. Dit is de meest toegepaste en meest praktische methode. Zuivere tonen die in frequentie verschillen kunnen echter ook onderling in hoogte vergeleken worden, zonder gebruikmaking van een referentietoon. Men ‘schat’ dan hoeveel de ene toon hoger of lager klinkt dan de andere. Deze schatting geeft inzicht in de ‘scaling’ van toonhoogte in de hersenen. Deze methode is vrij omslachtig, maar de uitkomst is wel van fundamenteel belang.

  • Bepaling van de toonhoogte door vergelijking met die van een referentietoon.
    Bij zuivere tonen wordt het subjec­tieve aspect ‘toonhoogte’ in belangrijke mate bepaald door de frequen­tie van de toon. Dit maakt zuivere tonen geschikt om als referentie te dienen bij het meten van de toonhoogte van geluiden, althans zolang er niet sprake is van een afwijkende toonhoogteperceptie. De toonhoogte van een willekeurig geluid wordt ‘gemeten’ door dit geluid afwisselend aan te bieden met een zuivere toon van gelijke luidheid terwijl de frequentie van die toon wordt gevarieerd. Wanneer de frequentie van die tweede toon zo ingesteld is dat de twee geluiden even hoog klinken, b.v. bij 200 Hz, dan is de toonhoogte van het eerste geluid gelijk aan die van een zuivere toon van 200 Hz . In deze vergelijkings­methode is de toon­hoogte dus geheel gekoppeld aan de frequen­ties van zuivere tonen en is het mogelijk een muzikale toonreeks te noteren als een reeks getallen. Bij een complex geluid waarvan de toonhoogte overeenkomt met die van een zuivere toon van 200 Hz hoeft een frequentiecomponent van 200 Hz niet in het spectrum van dat geluid voor te komen. De toonhoogte van een gezongen klank is daar een voorbeeld van.
  • Bepaling van de toonhoogte door schatting – de mel-schaal
    De toonhoogte van een (zuivere) toon kan ook geschat worden. De resulterende toonhoogteschaal heet de mel-schaal. Aan het begin van de schattingen wordt – arbitrair – vastgelegd dat een toon van 131 Hz een toonhoogte heeft van 131 mel. Een luisteraar hoort vervolgens ná elkaar deze toon van 131 Hz en een toon waarvan de frequentie geregeld kan worden. De frequentie van deze tweede toon moet nu zo ingesteld dat deze subjectief twee keer zo hoog klinkt als de eerste. Ondertussen mag de toon van 131 Hz nog wel eens klinken, maar de twee tonen mogen nooit gelijktijdig te horen zijn, omdat er dan zwevingen kunnen optreden. Dit kan het geval zijn bij een frequentie (van de tweede toon) van 262 Hz. Uitgaande van een toon van 262 Hz kan men weer een twee keer zo grote toonhoogte instellen etc.. Het verband tussen toonhoogte (mel) en frequentie (Hz) dat men zo krijgt is afgebeeld in Fig.1.

    Fig.1. Het verband tussen toonhoogte, uitgedrukt in mel, en frequentie, voor zuivere tonen. Let op de logaritmische schaal voor zowel de frequenties als de mels.

    Het opvallende in deze toonhoogteschaal is dat voor frequenties onder de 1000 Hz toonhoogte (uitgedrukt in mels) en frequentie ‘gelijk op lopen’ (helling 1). Een verhoging van 100 mel wordt dus bereikt door de toon 100 Hz in frequentie te laten toenemen. Rond de 1000 Hz treedt een overgang op naar een logaritmisch verband. Dit betekent dat, om een bepaalde constante toename van de toonhoogte te berei­ken, steeds meer frequentieverhoging geïntroduceerd moet worden. Een verhoging van 100 mel wordt boven de 1000 Hz gerealiseerd door de frequentie van de toon een factor 1.2 (20%) te laten toenemen. Dit laatste, zoals ook te zien in Fig.1, betekent dat de toonhoogte, uitgedrukt in mels, steeds minder gaat toenemen wanneer de frequentie toeneemt. Toonhoogtes hoger dan 2000 à 3000 mel bestaan niet, wél hogere frequenties. Het verschijnsel is hoorbaar, wanneer men opeenvolgende afzonderlijke tonen aan de diskant van de piano, zonder zicht op de toetsen, laat klinken.

  • Factoren die de toonhoogte beïnvloeden
    De toonhoogte van een geluid wordt enigszins beïnvloed door de sterkte van het geluid (bekend als het ‘Broca fenomeen’). Bij hoge frequenties wordt de toonhoogte hoger en bij lage frequenties wordt de toonhoogte lager, wanneer het geluidsniveau toeneemt (Cohen, 1961).Wanneer een geluid korter wordt gemaakt (de duur beperkt) neemt de geprononceerdheid van de toonhoogte af. Dit komt omdat het spectrum van het geluid bij verkorting breder wordt. Het spectrum van langdurig klinkende zuivere toon van 1000 Hz bevat alleen de frequentie 1000 Hz (Fig.2a).Wordt de lengte van de toon kleiner (een ‘toonstootje’) dan wordt het spectrum breder, zoals geïllustreerd is in Fig.2b. Uiteindelijk, bij zeer korte duur, gaat de toon klinken als een ‘klik’.

    Fig.2. Golfvorm (linker figuren) en spectrum (rechter figuren) van een zuivere toon.
    (a) Voor een langdurende toon van 1000 Hz
    (b) Voor een kortdurende toon van 3000 Hz

    Een zuivere toon klinkt in de twee oren niet even hoog. De verschillen zijn voor de middenfrequenties van de orde van grootte van 5‰. Dit verschijnsel heet ‘diplacusis’. Normaalhorenden merken niets van die verschillen, omdat de twee tonen (toonhoogtes) ‘fuseren’. In gevallen van pathologie zijn die verschillen wél hoorbaar (Hfdst.7.2.3(2)).

    Tenslotte wordt opgemerkt dat het verschil in eigenschappen van het gehoor voor frequenties kleiner dan 1000 Hz en frequenties groter dan 1000 Hz, zoals hier voor de toonhoogtewaarneming, een fundamentele eigenschap van het gehoor is.

  • De nauwkeurigheid van de toonhoogtewaarneming – Frequentiediscriminatie
    De nauwkeurigheid waarmee men de toonhoogtes van twee – na elkaar aangeboden – tonen van verschillende frequenties kan gelijkstellen heet het ‘Just Noticable Difference for Frequency’ (JNDF) of het ‘Difference Limen for Frequency’ (DLF) . Het JND (hier voor ‘frequentie’) hangt af van zowel de frequentie als de duur van de tonen, zoals te zien is in Fig.3.Het bedraagt voor frequenties beneden de 1000 Hz ongeveer 2 Hz (een vaste waarde) en boven de 1000 Hz 0.2% à 0.4% van de frequentie (een relatieve waarde), althans zolang de duur van de tonen niet veel korter is dan 200 ms en de frequenties niet hoger zijn dan 2000 Hz. Deze waarden gelden voor normaalhorenden. Bij geringe geluidsniveaus, b.v. minder dan 30 dB SPL, neemt de nauwkeurigheid af (grotere JND).Wanneer de duur van de toon afneemt wordt het lastiger om de toonhoogte goed te bepalen. Boven de 4000 Hz nemen de JND’s voor alle toonduren sterk toe. Dit hangt samen met het nauwelijks meer toenemen van de toonhoogte bij die frequenties. Het feit dat de voor langere toonduren en niet te hoge frequenties de JND’s in relatieve maat min of meer constant zijn betekent dat de wet van Weber geldt. Dit houdt in dat de verhouding:(de Weber fractie) constant is. Voor frequentie (toonhoogte) bedraagt de Weber fractie 0.003. De wet van Weber geldt algemeen voor de zintuigen, maar de Weber fractie heeft telkens een andere waarde. Zie voor de Weber fractie in verband met luidheid Hfdst.2.3.1(2). In zijn algemeenheid geldt de wet van Weber niet. Dit heeft consequenties voor de verklaring van de toonhoogtewaarneming voor zuivere tonen.

    Fig.3. JND’s voor frequentie (uitgezet als Δf /f in procenten op een logaritmische schaal) voor zuivere tonen als functie van de frequentie (horizontale as). De parameter is de duur van de tonen, uitgedrukt in ms.

2.4.1.3(2). De toonhoogte van complexe harmonische geluiden

Een complex – of ‘samengesteld’ – harmonisch geluid is een geluid dat opgebouwd is uit meerdere frequentiecomponenten, waarbij de afzonderlijke frequenties onderling een harmonische relatie (verhouding van gehele getallen) hebben. Een voorbeeld is een periodieke impuls, zoals het geluid van een sirene. Een periodieke impuls bestaat uit een reeks korte impulsen van zeer korte duur, op gelijke afstanden in de tijd (‘periodiek’), zoals geïllustreerd in de linker afbeelding in Fig.4. In dit voorbeeld is de herhalingsfrequentie 5 ms. Het spectrum bestaat dan uit een grondtoon van 200 Hz en een reeks boventonen met frequenties die veelvouden zijn van 200 Hz, dus 400 Hz, 600 Hz etc., zoals afgebeeld in de rechter afbeelding in Fig.4. Dit spectrum noemt men een ‘lijnenspectrum’.

Fig.4. Golfvorm en spectrum van een periodieke impuls met een herhalingsfrequentie van 200 impulsen per seconde.

De toonhoogte van deze periodieke impuls met een herhalingsfrequentie van 200 Hz komt overeen met die van een zuivere toon van 200 Hz. Het timbre is echter heel anders. Wanneer vervolgens de grondtoon (dus de frequentiecomponent van 200 Hz) uit het spectrum van de periodieke impuls door middel van filtering verwijderd wordt verandert de toonhoogte van het geluid niet. Het feit dat de grondtoon kennelijk niet bepalend is voor de toonhoogte van het geluid heet ‘the case of the missing fundamental’. Evenmin verandert de toonhoogte wanneer achtereenvolgens de tweede, derde, en volgende harmonische uit de reeks verwijderd wordt. Daarbij wordt de klank van het geluid wel geleidelijk minder ‘vol’ (verandering van timbre). Uiteindelijk is – binnen bepaalde grenzen – de aanwezigheid van drie opeenvolgende hogere harmonische van de afwezige grondtoon voldoende voor het produceren van de – nog steeds dezelfde, overeenkomend met die van een zuivere toon van 200 Hz – toonhoogte. Dit samengestelde geluid dat zich aan het oor voordoet als een enkele toon en waarvan de toonhoogte niet correspondeert met een van de aangeboden frequenties, wordt ‘residu’ genoemd. De bijbehorende toonhoogte heet de ‘residutoonhoogte’. Fig.5 geeft het spectrum van een geluid dat een residutoonhoogte levert. Het geluid dat bestaat uit drie opeenvolgende frequentiecomponenten, respectievelijk 1800 Hz, 2000 Hz en 2200 Hz, maar bevat geen frequentiecomponent van 200 Hz.

Fig.5. Spectrum van een geluid bestaande uit opeenvolgende frequentiecomponenten, respectievelijk van 1800 Hz, 2000 Hz en 2200 Hz. Omdat de componenten een harmonische relatie hebben (veelvouden van een grondtoon van 200 Hz) wordt dit geluid een harmonisch complex genoemd. Het hier afgebeelde geluid heeft een toonhoogte die overeenkomt met de toonhoogte van toon van 200 Hz. Het spectrum bevat echter geen frequentiecomponent van 200 Hz.

Aan het residueffect is de naam verbonden van de Nederlander Schouten (1940). In de Amerikaans-Engelse literatuur wordt de residutoonhoogte ook ‘virtual pitch’ genoemd. In een harmonisch complex met meerdere harmonischen (van de ontbrekende grondtoon) zijn de componenten, als ze voldoende ver uit elkaar liggen, ookals afzonderlijke tonen te horen.

In de veertiger en vijftiger jaren van de vorige eeuw is het bestaan van het residueffect als zelfstandig fenomeen in twijfel getrokken. Men was van mening dat in het oor niet-lineaire vervorming zou optreden. Dit zou resulteren in een ‘verschiltoon’, een vervormingcomponent met een frequentie van 200 Hz, overeenkomend met de verschil tussen de opeenvolgende primaire tonen. De verschiltoon zou verantwoordelijk zijn voor de ‘200 Hz’ toonhoogte. Deze theorie is overtuigend weerlegd. Onderzoekers die aan deze weerlegging een bijdrage gegeven hebben zijn Licklider (1954) en de Boer (1956).

Fig.6. Spectrum van een geluid bestaande uit drie opeenvolgende frequentiecomponenten, respectievelijk 1800 Hz, 2000 Hz en 2200 Hz (aangegeven met ‘res’), met daarbij het spectrum van een zuivere toon van 200 Hz (‘sin’). De toonhoogte van de twee geluiden is hetzelfde, ondanks het feit dat de twee geluiden spectraal niets gemeenschappelijks hebben. Zie verder de tekst.

Een demonstratie die daarbij een belangrijke rol heeft gespeeld is geïllustreerd in Fig.6. Fig.6a en Fig.6b laten het spectrum van het geluid uit Fig.5 zien, maar met daaraan toegevoegd het spectrum van een zuivere toon van 200 Hz. Wanneer, zoals gearceerd aangegeven in Fig.6a, het frequentiegebied rond de 200 Hz wordt gemaskeerd (‘uitgeschakeld’) blijft de toonhoogte van het residu met zijn karakteristieke timbre gelijk, maar wordt de zuivere toon van 200 Hz onhoorbaar. Wanneer echter, zoals in Fig.6b, het frequentiegebied van het residu wordt gemaskeerd verdwijnt de residutoonhoogte, maar blijft de zuivere toon van 200 Hz hoorbaar. Het is dus duidelijk dat bij een residu de toonhoogte niet bepaald wordt door de (afwezige) grondtoon .

Andere argumenten tegen de aanwezigheid van een vervormingscomponent van 200 Hz zijn de aanwezigheid van de residutoonhoogte bij zwakke residuen en het feit dat er geen zwevingen optreden wanneer het residu wordt gecombineerd met een zuivere toon waarvan de frequentie iets afwijkt van 200 Hz. Voor verdere informatie over dit onderwerp wordt verwezen naar de eerder genoemde bijdrage van Ritsma en Lopes Cardozo in het ‘Philips Technisch Tijdschrift’ uit 1962 dat in niveau 3 van dit hoofdstuk in zijn geheel is weergegeven. De theorieën van de toonhoogtewaarneming worden verder besproken in Par.5 van dit hoofdstuk.

De residutoonhoogte is niet voor elke combinatie van drie (opeenvolgende) harmonischen even goed hoorbaar.
Om de ‘grenswaarden’ te kunnen aangeven worden de geluiden niet ‘spectraal’ afgebeeld, zoals in Fig.5, maar wordt de golfvorm (het tijdpatroon ) van deze signalen weergegeven. Elektronisch kan een geluid als in Fig.5 gemaakt worden door een toon van 2000 Hz (de ‘draaggolf’, aangeduid als ‘f’) in amplitude te moduleren met een frequentie van 200 Hz (de modulatiefrequentie, aangeduid als ‘g’). De golfvorm van zo’n geluid is te zien in Fig.7. Men ziet een fijnstructuur die een ‘omhullende’ volgt (aangegeven door de stippellijn). De verhouding f/g heet het ‘harmonisch getal’ (10 in dit geval).

Fig.7. Golfvorm van een in amplitude gemoduleerde sinusgolf. De frequentie van de draaggolf bedraagt 2000 Hz en de modulatiefrequentie is 200 Hz. De tijdsintervallen tussen corresponderende toppen, 1-1′, 2-2′ en 3-3′, is 5 ms. Dit is tevens de periode van de modulatiefrequentie. Omdat deze twee gelijk zijn wordt dit geluid een harmonisch complex genoemd.

De hoogste toppen van de fijnstructuur vallen precies in de toppen van de omhullende. De periode van de omhullende, 5 ms, correspondeert met de periode van de modulatiefrequentie.

Gaat men uit van een amplitudegemoduleerd signaal zoals in Fig.7, met 100% modulatiediepte, dan is de residutoonhoogte bij draaggolffrequenties groter dan 5000 Hz niet meer hoorbaar. Een signaal met de frequentiecomponenten 4500 Hz, 5000 Hz en 5500 Hz levert dus geen toonhoogte meer overeenkomend met die van een toon van 500 Hz. Aan de laagfrequente kant is een modulatiefrequentie van 35 Hz de grens. Een signaal met de componenten 760 Hz, 800 Hz en 840 Hz levert dus nog net een ’40 Hz’ toonhoogte. Bij kleinere modulatiedieptes is dit ‘existentiegebied’ van het residu kleiner . In het algemeen geldt voor deze signalen dat de draaggolffrequentie niet hoger mag zijn dan ongeveer 5000 Hz en het harmonisch getal niet groter dan ongeveer 20.

Bij amplitudegemoduleerde signalen zijn niet alleen de drie opeenvolgende frequentiecomponenten bepalend voor de toonhoogte. Bij het luisteren naar dergelijke signalen ontstaan in het oor, ook bij lage geluidsniveaus, ‘combinatietonen’ (te bespreken in Hfdst.2.6.1(2)). In het hiervoor besproken geval van de opeenvolgende frequenties 1800 Hz, 2000 Hz en 2200 Hz, ontstaan er combinatietonen bij 1600 Hz, 1400 Hz etc., in afnemende sterkte naarmate de frequentieafstand tot de ‘primaire‘ tonen toeneemt. Deze combinatietonen bepalen samen met de primaire tonen de precieze toonhoogte .

Naarmate een harmonisch complex, zoals een periodieke impuls, binnen de hoorspan meer harmonischen op een rij bevat is de residutoonhoogte sterker (‘pregnanter’). Een periodieke impuls met een herhalingsfrequentie van 100 Hz heeft dus een sterkere residutoonhoogte dan een met herhalingsfrequentie van 800 Hz. Voor de vorming van een residutoonhoogte hoeven de harmonischen niet allemaal opeenvolgend aanwezig te zijn.

Bij een periodieke impuls speelt de grondtoon een verhoudingsgewijs kleine rol in de totstandkoming van de toonhoogte van het signaal als geheel. De grootste bijdrage komt van de hogere harmonischen met hun residutoonhoogte. Die bijdragen, van enerzijds de grondtoon alleen en anderzijds alle hogere harmonische samen kan hoorbaar gemaakt worden door in het harmonische signaal in Fig.4 de frequenties van alle componenten behalve die van de grondtoon een halve toonsafstand te verhogen en de frequentie van de grondtoon een halve toon te verlagen. Wanneer dit bewerkte signaal vervolgens vergeleken wordt met het oorspronkelijke harmonische geluid wordt een conflictsituatie gecreëerd. Klinkt het bewerkte signaal hoger of lagere dan het oorspronkelijke ? De demonstratie laat duidelijk horen dat het bewerkte signaal hoger klinkt dan het oorspronkelijke. De residutoonhoogte is dus bepalend. Het bewerkte geluid klinkt overigens wel ‘vals’, vanwege de dissonerende grondtoon.

De residutoonhoogte is – binnen zekere grenzen – ook hoorbaar wanneer één deel van de reeks harmonische in het ene oor en het andere deel in het andere oor worden aangeboden, dus bij ‘dichotische’ waarneming. Dit feit heeft consequenties voor de theorie van de toonhoogtewaarneming die verder in dit hoofdstuk aan de orde komt.

Een fraaie toepassing van het voorafgaande is de toonhoogte van een lang aangehouden klinker, b.v. een /a/. Een klinker wordt gevormd door filtering in het aanzetstuk van het door de stembanden geproduceerde basisgeluid. Dit periodieke basisgeluid is afgebeeld in Fig.2 van Hfdst.10.1.2(2) en het bijbehorende lijnenspectrum in Fig.3 van datzelfde hoofdstuk. Wanneer men via de telefoon deze klinker /a/ ten gehore brengt hoort men de natuurlijke toonhoogte, ondanks het feit dat de telefoon een groot aantal lagere harmonischen niet doorlaat.

2.4.1.4(2). De toonhoogte van ruisachtige geluiden met een repeterend karakter

Wanneer een geluid ‘gemengd’ wordt met zijn echo kan in dat geluid een toonhoogte gehoord worden. Deze toonhoogte heet de ‘herhalingstoonhoogte’ (in het Engels ‘repetition pitch’) . Wanneer τ de vertragingstijd is van het herhaalde geluid t.o.v. het primaire geluid komt de toonhoogte die men hoort overeen met 1/τ Hz. Het verschijnsel is reeds lang bekend. Christiaan Huygens ontdekte in 1693, op de trap nabij de fontein in de tuin van het kasteel Chantilly de la Cour, dat er in het geluid van de fontein een bepaalde ‘toon’ te horen was . De situatie is geschetst in Fig.8. De vertragingstijd moet wel groter zijn dan 1 ms, omdat anders het verschijnsel niet meer te horen is. Bij te grote vertragingstijden en bij kortdurende geluiden komt het vertraagde geluid ‘los’ van het directe geluid en is een ‘echte’ echo te horen.

Fig.8. De trap nabij de fontein in de tuin van het kasteel Chantilly de la Cour. Wanneer Christiaan Huygens in de richting van de trap liep, van de fontein vandaan, hoorde hij een bepaalde toon in het geruis van de fontein. Deze herhalingstoonhoogte is het gevolg van de regelmatige reflecties (slechts twee getekend in blauw) aan de treden van de trap.

De herhalingstoonhoogte is op veel plaatsen en vaak aanwezig, maar wij zijn ons er in de meeste gevallen niet van bewust. Het fenomeen valt pas echt op wanneer de vertragingstijd systematisch wordt gevarieerd. In een situatie die niet verandert heet het verschijnsel ‘kleuring’. Het geeft informatie over de akoestiek van een ruimte. Een spreker klinkt in een kleine ruimte met slechte akoestiek, dus met veel reflecties van het geluid tegen de wanden, anders dan in een grote ruimte. De waarde van τ is in het eerste geval kleiner dan in het tweede geval en de herhalingstoonhoogte (1/τ) dus groter, althans wanneer men het geluid in de twee ruimten direct met elkaar zou vergelijken.

De herhalingstoonhoogte is ook (zwak) hoorbaar wanneer het directe geluid aan het ene oor en het vertraagde geluid aan het andere oor wordt aangeboden. Dit fenomeen heet de ‘dichotische herhalingstoonhoogte’.

2.4.1.5(2). Theorieën over de toonhoogtewaarneming

Dit onderwerp wordt uitvoeriger besproken in niveau 3 van dit hoofdstuk, in Par.2.4.1.1(3).

In de theorievorming rond de waarneming van toonhoogte spelen steeds twee concepten een rol, ‘plaats’ (‘spectrum’) en ‘tijd’. Het concept ‘plaats’ manifesteert zich in theorieën waarin de waarneming van een toonhoogte teruggevoerd wordt op een neuraal (spatieel) excitatiepatroon. Het concept ‘tijd’ is aanwezig in theorieën waarin de toonhoogte van een geluid gekoppeld is aan het tijdpatroon van de neurale impulsen die door een stimulus gegenereerd worden. De met deze twee concepten verbonden theorieën hebben gedurende lange tijd tegenover elkaar gestaan.

In de opvatting van von Helmholtz, in navolging van Ohm (1843), wordt de toonhoogte van een harmonisch complex bepaald door de plaats van het maximum van het excitatiepatroon van de stimulus op het basilaire membraan. Dit excitatiepatroon en de daarmee verbonden term ‘tonotopie’ worden besproken in Hfdst.6.2.1(2). Bij een (residu)toonhoogte van ‘200 Hz’ moet er óf in het aangeboden geluid een – sterke – component van 200 Hz zitten, óf in het oor een vervormingcomponent van 200 Hz gegenereerd zijn, zodat het maximum van het excitatiepatroon op de ‘200 Hz plaats’ ontstaat. De opvatting van von Helmholtz bevat twee vooronderstellingen, n.l. de aanwezigheid van een frequentieanalyse en de vorming van het hiervoor genoemde excitatiepatroon. De eerste vooronderstelling is inmiddels een vaststaand feit (frequentieanalyse op het basilaire membraan), maar de tweede niet. In het hiervoor gegeven voorbeeld kan toonhoogte niet teruggevoerd worden op de aanwezigheid van een excitatiepatroon met een maximum op de ‘plaats’ van de 200 Hz. Het in Fig.6 van dit hoofdstuk geschetste experiment demonstreert dit. Deze uitkomst betekent overigens niet dat het concept ‘plaats’ uit beeld is .

De tweede verklaring, waaraan de naam van Seebeck (1841) verbonden is, koppelt de toonhoogte aan het regelmatige tijdpatroon van de neurale impulsen. Deze impulsen worden gegenereerd in een vaste fase (‘phaselock’, zie ook Hfdst.6.2.2(2)) van de periodieke stimulus. Deze theorie heet daarom de ‘tijdtheorie’ of ‘periodiciteitstheorie’. Een argument van Seebeck voor deze periodiciteitstheorie was de relatief sterke toonhoogte van gezongen klinkers. Hij was van mening dat deze niet voldoende verklaard kon worden op basis van de relatief zwakke grondtoon.

Op dit moment kan men de verklaringen voor het waarnemen van toonhoogte verdelen in twee klassen, het ‘patroonherkenningsmodel’ en het ‘temporele model’. Men herkent hier de eerder genoemde concepten ‘plaats’ en ‘tijd’. De twee modellen worden achtereenvolgens besproken.

  • Het patroonherkenningmodel
    Het model wordt besproken voor de toonhoogte van een complex dat bestaat uit drie opeenvolgende harmonischen, 600 Hz, 800 Hz en 1000 Hz , van een gemeenschappelijke – niet aanwezige – grondtoon van 200 Hz. Er wordt van uitgegaan dat deze drie tonen op ‘centraal’ niveau, d.w.z. nadat de bijdragen van de afzonderlijke oren zijn samengevoegd, een excitatiepatroon vormen bestaande uit de patronen van de drie componenten op een rij. Dit is geschetst in Fig.9 als de (rechter) drie pieken op een rij. Dit patroon heet het ‘Centraal Excitatie Patroon’ (CEP). De hoogte van een piek (excitatie) wordt bepaald door de sterkte van de betreffende component in de stimulus. Bij de totstandkoming van dit patroon speelt ook de frequentieanalyse door het basilaire membraan een rol. Wanneer de afzonderlijke componenten bij de frequentieanalyse niet gescheiden worden ontstaat centraal één breed excitatiegebied.De toonhoogte die gehoord wordt komt tot stand op basis van ‘patroonherkenning’. Het regelmatige patroon van drie pieken op een rij in Fig.9 wordt geïnterpreteerd als een breder gepiekt excitatiepatroon. De extra – geïnterpreteerde – pieken komen tot stand door de onderlinge afstanden van het primaire drietal te extrapoleren naar lagere frequenties, zoals in Fig.9 aangegeven door de gestippelde pieken. De ligging van het laagste – al dan niet hypothetische – maximum, in Fig.9 bij ‘200 Hz’, bepaalt de toonhoogte. Bij de extrapolatie naar de hypothetische piek bij 200 Hz spelen ook de in het binnenoor gegenereerde combinatietonen (Hfdst.2.6.1(2)) een rol, m.n. de 2f1-f2 – bij monaurale aanbieding van de stimulus. De plaats bij 400 Hz is dus niet helemaal ‘leeg’.

    Fig.9. Hypothetisch ‘centraal excitatiepatroon’ (CEP) van een stimulus bestaande uit de frequenties 600 Hz, 800 Hz en 1000 Hz (de rechter drie pieken). De pieken links daarvan (gestreept) zijn tot stand gekomen door extrapolatie van de onderlinge afstanden bij het rechtse drietal.

    Het model van het centraal excitatiepatroon geeft ook een verklaring voor het tot stand komen van de herhalingstoonhoogte. Als voorbeeld wordt een geluid genomen dat bestaat uit witte ruis, met daarbij opgeteld diezelfde witte ruis, maar over 5 ms vertraagd. Het spectrum van dit geluid, een ‘kamspectrum’, is afgebeeld in Fig.10.Het CEP van dit geluid zal volgens het model een dergelijke regelmatige structuur hebben. De toonhoogte die in het geluid gehoord wordt (‘200 Hz’) komt overeen met de laagste top in dit patroon.

    Fig.10. Spectrum van ruissignaal waaraan toegevoegd datzelfde, maar 5 ms vertraagde, signaal.

    Een fenomeen als de hoorbaarheid van een ‘dichotische toonhoogte’ wanneer de verschillende componenten van een harmonisch complex over de oren worden verdeeld is een aanwijzing voor een spectraal proces op centraal niveau, omdat in die gevallen interactie van componenten op het basilaire membraan ontbreekt.

  • Het temporele model
    In het temporele model wordt de toonhoogte van een geluid gekoppeld aan het – regelmatige – tijdpatroon van de neurale impulsen die door een stimulus gegenereerd worden. Voor de uitleg wordt gebruik gemaakt van het in Fig.5 afgebeeld tijdpatroon van een harmonisch complex, bestaande uit de frequenties 1800 Hz, 2000 Hz en 2200 Hz. De toonhoogte wordt bepaald door tijdsafstanden van prominente pieken in de fijnstructuur. Deze tijdsafstanden bedragen precies 5 ms en corresponderen dus met een frequentie van 200 Hz. De toonhoogte die men hoort komt dus overeen met een frequentie van 200 Hz
  • De waarneming van de toonhoogte van zuivere tonen – ‘plaats’ of tijd’?
    Het is voor onderzoekers altijd een raadsel geweest dat de verschuiving van een relatief breed excitatiepatroon van een zuivere toon (men rekent met een bandbreedte van ⅓ octaaf) tot een JND van enkele promillen kan leiden. Een verklaring van de toonhoogte hier op basis van ‘plaats’ is dus niet aannemelijk. Algemeen wordt aangenomen dat de waarneming van de toonhoogte van zuivere tonen tot stand komt via temporele verwerking. Bij hogere frequenties, boven de 5000 Hz, spelen plaatsmechanismen een rol. Voor verder informatie over dit onderwerp wordt verwezen naar het eerder genoemde boek van Moore (2001).

2.4.1.6(2). Samenvatting en conclusies

Op dit moment is het patroonherkenningsmodel, uitgaande van het ‘Centraal Excitatie Patroon’ (CEP) de gangbare verklaring voor de toonhoogtewaarneming van complexe geluiden. Een belangrijk argument is het feit dat een verdeling van componenten over de twee oren de toonhoogte niet aantast en een interactie van componenten in hetzelfde oor dus niet noodzakelijk is. Dit gestelde betekent niet dat de temporele verwerking geen rol meer speelt. Men denkt dat in gevallen waarin de excitatiepatronen van de afzonderlijke componenten niet meer ‘opgelost’ worden (aan de hoogfrequente randen van het existentiegebied van het residu) of wanneer de patroonherkenning een zwak resultaat geeft (bij combinaties van twee tonen) het temporele model ‘bijspringt’. Daarnaast is er een categorie van geluiden, zoals in amplitude gemoduleerde ruis, waarbij het spectrum geen ‘pieken’ bevat, maar waarin toch een toonhoogte te horen is. Hier is een strikt temporele verklaring voor de hand liggend.

Voor de verklaring van de toonhoogte van de herhalingstoonhoogte op basis van een CEP is een interactie van het directe en vertraagde geluid in hetzelfde oor wél noodzakelijk. Een verklaring van de dichotische herhalingstoonhoogte moet dus met het temporele model gegeven worden. Een argument hiervoor is het gegeven dat de vertragingen t waarvoor deze toonhoogte gehoord wordt overeenkomen met de waarden van t waarvoor binaurale faseverschillen worden gehoord (te bespreken in Hfdst.2.7.1(2).

Een nog niet beantwoorde, meer algemene, vraag bij de vergelijking van de twee modellen is welke bijdrage de temporele informatie levert aan de totstandkoming van de centrale excitatiepatronen. In een strikt spectrale benadering is dit patroon het resultaat van opeenvolgende projecties van het excitatiepatroon in de gehoorzenuw naar hogere kernen en is temporele informatie niet nodig. Echter, in Hfdst.6.2.2(2) is duidelijk gemaakt dat er een ‘tuning’ is voor modulatiefrequenties. Modulatiefrequenties zijn in verschillende kernen in het auditieve systeem ‘gemapt’ (Hfdst.6.2.2(2)). Die ‘mapping’ zou op basis van temporele verwerking tot stand kunnen komen, in neuronen met verschillende synaptische inputs waarbij vertragingen een rol spelen (coïncidentieschakelingen). Een experimenteel resultaat dat hier een aanwijzing zou kunnen geven is afkomstig van experimenten door uit een publicatie van Schreiner en Langner (1988). In de colliculus inferior bevinden zich neuronen waarbij de modulatiefrequentie waarvoor het neuron maximaal gevoelig is (‘Best Modulation Frequency’ – ‘BMF’ – zie Hfdst.6.2.2(2)) verandert wanneer in de stimulus de draaggolffrequentie wordt gewijzigd, terwijl de modulatiefrequentie hetzelfde blijft. Dit is dezelfde situatie als geïllustreerd in Fig.12. Deze uitkomst kan alleen als een temporele verwerking begrepen worden.

Conclusies

  1. De toonhoogte van complexe signalen lijkt tot stand te komen op basis van patroonherkenning, uitgaande van het CEP (‘Centraal Excitatie Patroon’).
  2. Interactie van componenten in een zelfde oor is voor de toonhoogtewaarneming niet noodzakelijk.
  3. Bij onvoldoende spectrale resolutie en bij een ‘zwakke’ patroonherkenning lijkt temporele verwerking een detecteerbare bijdrage te leveren.
  4. De mate waarin temporele verwerking bijdraagt aan de totstandkoming van het CEP is (nog) niet duidelijk.

 

Auteur

Lamoré

Revisie

2007