2.4.1.1(3). Theorieën over de toonhoogtewaarneming
In de theorievorming rond de waarneming van toonhoogte spelen steeds twee concepten een rol, ‘plaats’ (‘spectrum’) en ‘tijd’. Het concept ‘plaats’ manifesteert zich in theorieën waarin de waarneming van een toonhoogte teruggevoerd wordt op een neuraal (spatieel) excitatiepatroon. Het concept ‘tijd’ is aanwezig in theorieën waarin de toonhoogte van een geluid gekoppeld is aan het tijdpatroon van de neurale impulsen die door een stimulus gegenereerd worden. De met deze twee concepten verbonden theorieën hebben gedurende lange tijd tegenover elkaar gestaan.
In de opvatting van von Helmholtz, in navolging van Ohm (1843), wordt de toonhoogte van een harmonisch complex bepaald door de plaats van het maximum van het excitatiepatroon van de stimulus op het basilaire membraan. Dit excitatiepatroon en de daarmee verbonden term ‘tonotopie’ worden besproken in Hfdst.6.2.1(2). Bij een (residu)toonhoogte van ‘200 Hz’ moet er óf in het aangeboden geluid een – sterke – component van 200 Hz zitten, óf in het oor een vervormingcomponent van 200 Hz gegenereerd zijn, zodat het maximum van het excitatiepatroon op de ‘200 Hz plaats’ ontstaat. De opvatting van von Helmholtz bevat twee vooronderstellingen, n.l. de aanwezigheid van een frequentieanalyse en de vorming van het hiervoor genoemde excitatiepatroon. De eerste vooronderstelling is inmiddels een vaststaand feit (frequentieanalyse op het basilaire membraan), maar de tweede niet. In het hiervoor gegeven voorbeeld kan toonhoogte niet teruggevoerd worden op de aanwezigheid van een excitatiepatroon met een maximum op de ‘plaats’ van de 200 Hz. Het in Fig.6 van dit hoofdstuk geschetste experiment demonstreert dit. Deze uitkomst betekent overigens niet dat het concept ‘plaats’ uit beeld is .
De tweede verklaring, waaraan de naam van Seebeck (1841) verbonden is, koppelt de toonhoogte aan het regelmatige tijdpatroon van de neurale impulsen. Deze impulsen worden gegenereerd in een vaste fase (‘phaselock’, zie ook Hfdst.6.2.2(2)) van de periodieke stimulus. Deze theorie heet daarom de ‘tijdtheorie’ of ‘periodiciteitstheorie’. Een argument van Seebeck voor deze periodiciteitstheorie was de relatief sterke toonhoogte van gezongen klinkers. Hij was van mening dat deze niet voldoende verklaard kon worden op basis van de relatief zwakke grondtoon.
Op dit moment kan men de verklaringen voor het waarnemen van toonhoogte verdelen in twee klassen, het ‘patroonherkenningsmodel’ en het ‘temporele model’. Men herkent hier de eerder genoemde concepten ‘plaats’ en ‘tijd’. De twee modellen worden achtereenvolgens besproken.
- Het patroonherkenningmodel
Het model wordt besproken voor de toonhoogte van een complex dat bestaat uit drie opeenvolgende harmonischen, 600 Hz, 800 Hz en 1000 Hz , van een gemeenschappelijke – niet aanwezige – grondtoon van 200 Hz. Er wordt van uitgegaan dat deze drie tonen op ‘centraal’ niveau, d.w.z. nadat de bijdragen van de afzonderlijke oren zijn samengevoegd, een excitatiepatroon vormen bestaande uit de patronen van de drie componenten op een rij. Dit is geschetst in Fig.1 als de (rechter) drie pieken op een rij. Dit patroon heet het ‘Centraal Excitatie Patroon’ (CEP). De hoogte van een piek (excitatie) wordt bepaald door de sterkte van de betreffende component in de stimulus. Bij de totstandkoming van dit patroon speelt ook de frequentieanalyse door het basilaire membraan een rol. Wanneer de afzonderlijke componenten bij de frequentieanalyse niet gescheiden worden ontstaat centraal één breed excitatiegebied.
De toonhoogte die gehoord wordt komt tot stand op basis van ‘patroonherkenning’. Het regelmatige patroon van drie pieken op een rij in Fig.1 wordt geïnterpreteerd als een breder gepiekt excitatiepatroon. De extra – geïnterpreteerde – pieken komen tot stand door de onderlinge afstanden van het primaire drietal te extrapoleren naar lagere frequenties, zoals in Fig.1 aangegeven door de gestippelde pieken. De ligging van het laagste – al dan niet hypothetische – maximum, in Fig.1 bij ‘200 Hz’, bepaalt de toonhoogte. Bij de extrapolatie naar de hypothetische piek bij 200 Hz spelen ook de in het binnenoor gegenereerde combinatietonen (Hfdst.2.6.1(2)) een rol, m.n. de 2f1-f2 – bij monaurale aanbieding van de stimulus. De plaats bij 400 Hz is dus niet helemaal ‘leeg’.
Bij een complex bestaande uit de tonen 1800 Hz, 2000 Hz en 2200 Hz is een extrapolatie naar een toonhoogte ‘200 Hz’ eenvoudig. De 200 Hz is immers de laagste deeltoon van het drietal en de daarmee overeenkomende toonhoogte ligt binnen het existentiegebied van het residu. Daarbij wordt uitgegaan van een logaritmische schaal. Bij een complex echter met de componenten 1840 Hz, 2040 Hz en 2240 Hz is de laagste deeltoon 40 Hz. Een ‘40 Hz toonhoogte’ ligt echter buiten het existentiegebied van het residu. Een ‘204 Hz’ toonhoogte is echter niet geheel passend bij het complex. Toonhoogtes van ‘185 Hz’ en ‘227 Hz’ zijn ook mogelijk. Het geluid zelf klinkt niet natuurlijk en soms zijn meerdere toonhoogtes gelijktijdig hoorbaar. Verschillende onderzoekers hebben modellen ontwikkeld om deze effecten te beschrijven, dus om het concept van het centraal excitatiepatroon algemeen toepasbaar te maken. Voor een beschrijving van deze modellen wordt verwezen naar het eerder genoemde boek van Moore (2001).
Het model van het centraal excitatiepatroon geeft ook een verklaring voor het tot stand komen van de herhalingstoonhoogte. Als voorbeeld wordt een geluid genomen dat bestaat uit witte ruis, met daarbij opgeteld diezelfde witte ruis, maar over 5 ms vertraagd. Het spectrum van dit geluid, een ‘kamspectrum’, is afgebeeld in Fig.2.. Het CEP van dit geluid zal volgens het model een dergelijke regelmatige structuur hebben. De toonhoogte die in het geluid gehoord wordt (‘200 Hz’) komt overeen met de laagste top in dit patroon.
Het – spatiele – patroonherkenningsmodel is niet algemeen geldig. In stimuli die bestaan uit twee opeenvolgende harmonischen van een ontbrekende gemeenschappelijke grondtoon, zoals de frequenties 800 Hz en 1000 Hz (de ‘tweetoonscomplexen’), is een residutoonhoogte niet altijd gemakkelijk te horen terwijl men dit op basis van het model wel zou verwachten. In deze stimuli hoort men vaak voornamelijk de primaire componenten en zijn soms kunstgrepen nodig, zoals speciale experimentele condities en adaptatie, om een ‘low pitch’ op te roepen. Kennelijk neemt de sterkte van de residutoonhoogte toe naarmate er meer harmonischen in het complex aanwezig zijn. De vraag dringt zich op waarom dit het geval is. Er zijn twee mogelijkheden. De eerste is dat het oor een zuivere toon altijd wel in een harmonisch patroon hoort, maar dat meerdere harmonischen nodig zijn om dit patroon bovendrempelig te maken en een residutoonhoogte hoorbaar te maken. De tweede mogelijkheid is dat in gevallen waarin de spectrale informatie niet voldoende sterk is de temporele informatie meer bepalend is. Die speelt wel degelijk een rol, zoals in de volgende sectie zal blijken.
Een fenomeen als de hoorbaarheid van een ‘dichotische toonhoogte’ wanneer de verschillende componenten van een harmonisch complex over de oren worden verdeeld is een aanwijzing voor een spectraal proces op centraal niveau, omdat in die gevallen interactie van componenten op het basilaire membraan ontbreekt.
- Het temporele model
In het temporele model wordt de toonhoogte van een geluid gekoppeld aan het tijdpatroon van de neurale impulsen die door een stimulus gegenereerd worden. Het model wordt besproken aan de hand van een stimulus bestaande uit de frequenties 1840 Hz, 2040 Hz en 2240 Hz. De golfvorm van deze stimulus is te zien in Fig.3.. Omdat de betreffende frequenties niet precies veelvouden zijn van 200 Hz, zoals in een harmonisch complex, spreekt men van een ‘anharmonisch complex’. Het anharmonische karakter van het signaal is herkenbaar aan de asymmetrie van de fijnstructuur t.o.v. de omhullende. Piek 2 in Fig.3 ligt precies in de top van de omhullende, maar de corresponderende piek 2′ in de volgende omhullende ligt iets links van de top. In het temporele model wordt de toonhoogte bepaald door tijdsafstanden van prominente pieken in de fijnstructuur. De tijdsintervallen tussen corresponderende toppen, 1-1′, 2-2′ en 3-3′ zijn iets kleiner dan 5 ms en corresponderen met een frequentie die iets hoger is dan 200 Hz, aangeduid met fp. De toonhoogte die men hoort komt dus overeen met een frequentie van fp Hz.
Fig.3.Golfvorm van een in amplitude gemoduleerde sinusgolf. De frequentie van de draaggolf bedraagt 2040 Hz en de modulatiefrequentie (‘g’) is 200 Hz. De tijdsintervallen tussen corresponderende toppen, 1-1′, 2-2′ en 3-3′ zijn iets kleiner dan 5 ms en corresponderen dus met een frequentie die iets hoger is dan 200 Hz, aangeduid met fp. Vanwege deze discrepantie, of – zo men wil – omdat de frequentie van de draaggolf geen veelvoud is van de modulatiefrequentie heet dit geluid een ‘anharmonische complex’.
Bij verdere verhoging van de draaggolffrequentie ontstaat er op bepaald moment ambiguïteit, omdat meerdere afstanden tussen pieken in de fijnstructuur prominent aanwezig zijn, één afstand die duidelijk korter is dan de modulatieperiode en een die langer is. In Fig 3 is dat ook al te zien aan de afstanden 2-3′ en 1-2′. Wordt de draaggolffrequentie nog verder verhoogd tot 2200 Hz dan is er weer een harmonisch complex (fp = g en harmonisch getal 11) en komt de toonhoogte overeen met een frequentie van 200 Hz. Dit verloop is geïllustreerd in Fig.4. . Het zaagtandpatroon en de aanwezigheid van meerdere toonhoogtes bij bepaald stimuluscondities zijn experimenteel bevestigd. De telkens optredende verschuiving van de toonhoogte, dus het zaagtandpatroon, heet het ‘first effect of pitch shift’ . De kleine afwijkingen daarvan, dus het iets steiler lopen van de periodieke verhoging dan verwacht wordt veroorzaakt door een bijdrage van combinatietonen en heet het ‘second effect of pitch shift’ . Voor de experimentele condities wordt verwezen naar de betreffende literatuur.
Fig.4. Horizontaal staat de draaggolffrequentie f van een amplitudegemoduleerd signaal uitgezet. De modulatiefrequentie (g) is steeds 200 Hz. Wanneer f geleidelijk toeneemt wordt de tijd tussen corresponderende hoogste toppen in dat signaal korter (de afstanden 2-2′ in Fig.3). De omgekeerde waarde van deze tijd (frequentie fp) is verticaal uitgezet. De toename gaat niet voortdurend door, want telkens wanneer de modulatiefrequentie een veelvoud is van g heeft fp de waarde g (200 Hz in dit geval). De grootheid fp springt dus telkens terug. Zie verder ook de tekst.[br][br]
- Vergelijking van het patroonherkenningsmodel en het temporele model
Het in amplitude gemoduleerde harmonische complex (niveau 2, Fig.5) met draaggolffrequentie 2000 Hz en modulatiefrequentie 200 Hz en het anharmonische complex uit Fig.3 (hiervoor) met draaggolffrequentie 2040 Hz en modulatiefrequentie 200 Hz) bieden een goede mogelijkheid het patroonherkenningsmodel en het temporele model met elkaar te vergelijken. In aanvulling op de – temporele – fijnstructuur die in deze figuren wordt getoond is in Fig.5 afgebeeld hoe de twee signalen er in het spectrale domein uitzien. De getrokken verticale streepjes in deze Fig.5 hebben betrekking op het harmonische complex en de gestreepte lijnen op het anharmonische complex.
Fig.5. Spectrum van twee in amplitude gemoduleerde sinusgolven. De modulatiefrequentie is in beide gevallen 200 Hz. De drie opeenvolgende getrokken lijntjes betreffen een harmonisch complex (draaggolffrequentie 2000 Hz) en de gestreepte lijntjes een anharmonisch complex (frequentie van de draaggolf 2040 Hz.
Het temporele model, besproken in de voorafgaande sectie, geeft een tot in detail passende beschrijving van de toonhoogtes die worden gehoord. In het patroonherkenningsmodel gaat de ‘centrale processor’ aan het werk met de patronen uit Fig.5. In het harmonische geval is er een bij de excitatiepatronen van het primaire drietal goed passend ‘200 Hz patroon’ en wordt een ‘200 Hz’ toonhoogte gehoord. In het anharmonische geval zal de ‘best fittende’ extrapolatie van het drietal de toonhoogte, enigszins afwijkend van ‘200 Hz’, opleveren. De vergelijking van de twee modellen voor deze stimuli geeft goed aan dat uitkomsten van een experiment tot in detail in overeenstemming kunnen zijn met meerdere modellen en dat meerder experimenten nodig zijn om uitsluitsel te verkrijgen. Op dit moment is het patroonherkenningsmodel, uitgaande van het ‘Centraal Excitatie Patroon’ (CEP) de gangbare verklaring voor de toonhoogtewaarneming van complexe geluiden.
- De waarneming van de toonhoogte van zuivere tonen – ‘plaats’ of tijd’?
Het is voor onderzoekers altijd een raadsel geweest dat de verschuiving van een relatief breed excitatiepatroon van een zuivere toon (men rekent met een bandbreedte van ⅓ octaaf) tot een JND van enkele promillen kan leiden. Een verklaring van de toonhoogte hier op basis van ‘plaats’ is dus niet aannemelijk. Algemeen wordt aangenomen dat de waarneming van de toonhoogte van zuivere tonen tot stand komt via temporele verwerking. Bij hogere frequenties, boven de 5000 Hz, spelen plaatsmechanismen een rol. Voor verder informatie over dit onderwerp wordt verwezen naar het eerder genoemde boek van Moore (2001).
2.4.1.2(3). De toonhoogtegewaarwording – R.J Ritsma en B. Lopes Cardozo
(Overdruk Philips Technisch Tijdschrift 1962;24:341-347)
2.4.1.3(3). ‘On the interaction of a sound with its repetition’ – F. Bilsen
(‘Part I . Historical Review’ uit Proefschrift Technische Hogeschool Delft, 1968)
2.4.1.4(3). Literatuur
- Bilsen FA. On the interaction of a sound with its repetitions. Proefschrift Technische Hogeschool Delft, 1968.
- de Boer E. On the ‘residue’ in hearing. Proefschrift Universiteit van Amsterdam, 1956.
- Cohen A. Futher investigation of the effects of intensity upon the pitch of pure tones. J Acoust Soc Amer 1961;33:1363-1376.
- Goldstein JL. An optimum processor theory for the central formation of the pitch of complex tones. J Acoust Soc Amer 1973;54:1496-1516.
- Langner G, Schreiner CE. Periodicity coding in the inferior colliculus of the cat. I.Neuronal mechanisms. J Neurophysiol 1988;60:1799-1822.
- Licklider JCR. ‘Periodicity’ pitch and ‘place’ pitch. J Acoust Soc Amer 1954;26:945(A).
- Minnaert M. De natuurkunde van ’t vrije veld. WJ Thieme en Cie, Zutphen, 1941.
- Moore BCJ. An introduction to the psychology of hearing. Academic Press, San Diego etc., 2001.
- Ritsma RJ. Existence region of the tonal resudu I. J Acoust Soc Amer 1962;34:1224-1229.
- Ritsma RJ. Existence region of the tonal resudu II. J Acoust Soc Amer 1963;35:1241-1245.
- Ritsma RJ. Periodicity detection. In: Frequency analysis and periodicity detection in hearing (Plomp R, Smoorenburg GF, eds.) Sijthoff Leiden, 1970.
- Ritsma RJ, Lopes Cardozo B. De toonhoogtegewaarwording. Philips Technisch Tijdschrift 1962;24:341-347.
- Rodenburg M. Klinische audiologie. Leiden, Stafleu, 1975.
- Schouten JF. De toonhoogtegwaarwording. Philips Technisch Tijdschrift 1940;5:298-306.
- Schouten JF, Ritsma RJ, Lopes Cardozo B. Pitch of the residue. J Acoust Soc Amer 1962;34:1418-1424.
- Schwarz DWF, Tomlinson RWW. Spectral response patterns of auditory cortex neurons to harmonisch complex tones in alert monkey (macaca mulatta) J Neurophysiol 1990;64:282-298
- Smoorenburg GF. Pitch perception of two-frequency stimuli. J Acoust Soc Amer 1970;48:924-941.
- Terhardt E. Zur Tonhöhewahrnemung von Klängen I. Psychoakustische Grundlagen. Akustica 1972a;26:173-186.
- Terhardt E. Zur Tonhöhewahrnemung von Klängen II. Ein Funktionsschema. Akustica 1972b;26:173-186.
- Walliser K. Über ein Funktionsschema für die Bildung der Periodentönhohe aus dem Schallreiz. Kybernetiek 1969;6:65-72.
2.4.1.5(3). Algemene literatuur
- de Boer E. On the ‘residu’ and auditory pitch perception. In: Handbook of Sensory Physiology, Vol.3 (Keidel WD, Neff WD, eds.) Springer Berlin, 1976.
- Plomp R. Aspects of tone sensation. Academic, London, 1976.
- Moore BCJ, Glasberg BR. The role of frequency selectivity in the perception of loudness, pitch and time. In: Frequency Selectivity in Hearing (Moore BCJ ed.) Academic, London, 1986.
- Houtsma AJM. Pitch Perception in Hearing. In: Frequency Selectivity in Hearing (Moore BCJ ed.) Academic Press, Orlando, Florida, 1995.
2.4.1.6(3). CD’s
- Houtsma AJM, Rossing TD, Wagenaars WM. ‘Auditory Demonstrations’. Prepared by the Institute for Perception Reserch (IPO), Eindhoven, The Netherlands. Supported by the Acoustical Society of America.
- Plomp R. ‘Hoe wij horen’ – Over de toon die de muziek maakt. Breukelen, 1998.
Auteur
Lamoré
Revisie
2007