Audiologieboek
Home  |   NVA  |   Print deze pagina  |    |     
 Titel: 10.3.1(2). Fysische en perceptieve eigenschappen van spraak – Spraakbewerkingen
 Auteur: Lamoré, Kapteyn
 Revisie: december 2012

Inhoud:

10.3.1.1(2). Inleiding

10.3.1.2(2). Fysische en perceptieve eigenschappen van spraak

10.3.1.3(2). Bewerking van het spraaksignaal ten behoeve van de spraakherkenning door zeer ernstig slechthorenden en doven

10.3.1.4(2). Mogelijkheden van het visuele systeem voor de herkenning van spraak

10.3.1.5(2). Bewerking van het spraaksignaal ten behoeve van het spraakverstaan door slechthorenden

 

10.3.1.1(2). Inleiding

In de voorafgaande hoofdstukken van Rubriek 10 is uitgebreid aandacht besteed aan de productie van spraak en aan de bespreking van een aantal min of meer elementaire processen die een rol spelen bij het verstaan van die spraak. Voorbeelden van deze - fonetische - benadering zijn de wijze waarop klinkers in een context worden herkend en het gebruik van prosodische kenmerken bij het verstaan van spraak.


Het voorliggende hoofdstuk is gericht op het spraaksignaal als geheel en meer in het bijzonder op de relatie tussen de fysische eigenschappen ervan en het verstaan van die spraak. We betrekken daarbij ook de effecten van versterking en filtering zoals in een hoortoestel en het effect van vervorming van het spraaksignaal.


Om uit te vinden welke aspecten of kenmerken in het spraaksignaal bepalend zijn voor het verstaan wordt het spraaksignaal vaak ‘bewerkt’ en worden onderdelen eruit verwijderd of worden bepaalde kenmerken juist benadrukt (geëxtraheerd). In dit laatste geval spreekt men van ‘codering’ van spraak. Gecodeerde spraak wordt gebruikt om voor zeer ernstig slechthorenden en doven een verbetering van de spraakherkenning te bereiken. Soms wordt de gecodeerde spraak aan het gehoor aangeboden en soms wordt gebruikgemaakt van het visuele systeem. Onderzoek op dit gebied heeft - in brede zin - inzicht gegeven in de wijze waarop spraak wordt herkend en tot de ontwikkeling van een groot aantal geavanceerde codeersystemen geleid. Enkele van deze codeersystemen worden in dit hoofdstuk besproken.


De onderwerpen zijn de volgende:


  1. Fysische en perceptieve eigenschappen van spraak
  2. Bewerking van het spraaksignaal ten behoeve van spraakherkenning door zeer ernstig slechthorenden en doven
  3. Mogelijkheden van het visuele systeem voor de herkenning van spraak

 


10.3.1.2(2). Fysische en perceptieve eigenschappen van spraak

Het spectrum van spraak
Fig.1 in Hfdst.2.2.1(2) laat zien dat een normaal gehoor gevoelig is voor frequenties tussen de 20 en 20.000 Hz, bij geluidsni­veaus die kunnen liggen tussen 0 en 120 dB SPL. Het gebied tussen de absolute drempel en de pijngrens (dus de verzameling van alle hoorbare en geen pijn veroorzakende geluiden) noemt men het 'gehoorveld'. Spraak als fysisch signaal bestrijkt maar een beperkt deel van dat gehoorveld. Wanneer men de spraak van vrouwen en mannen gedurende enige tijd registreert en een frequentieanalyse uitvoert op deze registraties krijgt men het ‘lange termijn spectrum’ van (lopende) spraak. De uitkomsten voor de twee 'klassieke' onderzoeken op dit gebied zijn gestileerd weergegeven in Fig.1. De spectra zijn gemiddeld voor mannen en vrouwen, omdat die, na het uitvoeren van een niveaucorrectie, alleen in detail verschillen. De afname aan de laagfrequente kant bedraagt 3 dB per octaaf en die aan de hoogfrequente kant 10 dB per octaaf.


Fig.1. Gemiddeld spectrum van lopende spraak van vrouwen en mannen. De bovenste curve is gemeten op 30 cm afstand van de lippen en is ontleend aan Dunn en White, 1940. De onderste curve, gemeten op 1 m afstand van de lippen, is ontleend aan French en Steinberg, 1947. Het totale geluidsniveau, geïntegreerd over de frequentiebanden, bedraagt in dit laatste geval 65 dB SPL.


De bovenste curve in Fig.1 heeft betrekking op een registratie op 30 cm afstand van de mond van de spreeksters en sprekers. Registreert men verderaf, bijvoorbeeld op 1 m afstand, dan wordt de onderste curve verkregen. Deze ligt bij een lagere intensiteit, maar verschilt wat betreft vorm niet veel van de bovenste. Het gaat hier om Engelstalige spraak. De vorm van de curven is afhankelijk van de toegepaste analysemethoden zoals de breedte van filters.


Het meest opvallende in dit spectrum is de sterke aanwezigheid van frequenties beneden de 1000 Hz. Het maximum bevindt zich rond de 500 Hz. Dit is dus een relatief lage frequentie. Teneinde deze uitkomst in verband te brengen met het gehoor, dient het spectrum geplaatst te worden in het ‘gehoorveld’, dus in het frequentiegebied waarin het oor geluid kan horen, begrensd door enerzijds de absolute drempel en anderzijds de pijngrens voor de verschillende frequenties. Het resultaat is te zien in Fig.2.


Fig.2. Het gemiddelde spectrum van lopende spraak (gestreepte curve) in relatie tot enerzijds de gehoordrempel en anderzijds de pijngrens. Het spectrum is de Dunn & White curve uit Fig.1.


Het in Fig.2 getekende spectrum is een gemiddelde over alle mogelijke categorieën spraakklanken. Deze laatste verschillen in geluidsterkte en spectrale samenstelling. Voor de midddenfrequenties kan de geluidsterkte varieren van + 15 dB tot – 15 dB ten opzichte van het gemeten gemiddelde. De curve in Fig.2 ligt dus feitelijk ingebed in een band (‘range’) van intensiteiten. De gemiddelde curve én de range kunnen ingetekend worden in een ‘audiogram’ kader, door voor elke frequentie het verschil te bepalen tussen dB SPL waarde van het meetpunt en de dB SPL waarde van de absolute drempel voor die frequentie. Zo wordt in het audiogram een gebied verkregen (Fig.3) dat bekend staat als de ‘spraakbanaan’. De ‘kromming’ van de banaan en het frequentiegebied dat wordt bestreken hangen in detail af van de parameterinstellingen bij de hierboven beschreven meting van het spectrum.


Fig.3. De ‘spraakbanaan’, dat wil zeggen het gebied met de frequenties en intensiteiten van de verschillende categorieën spraakklanken, uitgezet in een audiogramkader. Ontleend aan Kapteyn et al. (1994).


De frequenties in de spraak die het meest van belang zijn voor het verstaan
Een geheel andere vraag is welke frequenties het meest van belang zijn voor het verstaan van spraak. Het is bekend dat bij het wegfilteren van de hoge frequenties het spraakverstaan veel sneller afneemt dan na het


verwijderen van de lage frequenties. De lage frequenties lijken dus minder essentieel voor het verstaan te zijn. De bijdrage van verschillende frequentiebanden aan het verstaan is voor het Nederlands onderzocht door de KNO-arts Taselaar in 1959. Als testmateriaal gebruikte Taselaar betekenisvolle spondeeën zoals ‘’potlood’ en ‘zoutzuur’. De syllaben werden gefilterd in opeenvolgende frequentiebanden van één octaaf breed en voor elk van deze frequentiebanden werd het percentage goed verstane woorden bepaald. Fig.4 geeft een overzicht van de bijdragen van de verschillende delen van het spectrum.


Fig.4. De bijdrage van verschillende frequentiebanden in betekenisvolle syllaben aan het verstaan. Gegevens ontleend aan Taselaar, 1959.


Het is duidelijk dat voor het verstaan het gebied rond 2000 Hz het meest van belang is. De frequenties die van belang zijn voor het verstaan van betekenisvolle syllaben zijn dus hoger dan de frequenties die het in het spectrum het sterkst vertegenwoordigd zijn. Het totale oppervlak onder de curve levert 100% verstaan op. Voor specifieke categorieën spraakklanken kunnen andere uitkomsten verwacht worden. Zo geldt voor lopende spraak (conversatie) een maximum van 1000 Hz. Men kan zeggen dat wanneer de redundantie van de spraak vermindert het belang van de hogere frequenties voor het verstaan toeneemt.


In dit hoofdstuk wordt steeds de nadruk gelegd op het verstaan van spraak. De lagere frequenties dragen aan dat verstaan minder bij dan de hogere. De bijdrage van de lage frequenties vindt men daarentegen terug in prosodische functies zoals fraseringen, grensmarkeringen en weergave van attitude en emotie.


De relatie tussen foneemherkenning, woordherkenning en zinsherkenning
Het verstaan van spraak, zeker in situaties waar de overdracht bemoeilijkt wordt, is afhankelijk van de aard van het testmateriaal en van de kennis van de taal bij degene die de spraak moet verstaan. De invloed van het testmateriaal op het spraakverstaan is geïllustreerd in Fig.5. Er wordt hier een vergelijking gemaakt tussen het kunnen nazeggen van getallen (0 tot 9), van eenlettergrepige woorden (CVC woorden) in zinnen en van eenlettergrepige nonsenswoorden in een omgeving met ruis. De na te zeggen items hebben alle dezelfde duur en de gebruikte frequentieband is dezelfde voor de drie testsituaties. Bij elke signaal-ruis verhouding bevatten de drie categorieën stimuli dan dezelfde hoeveelheid akoestische informatie.


Fig.5. Percentage goed nagezegde spraakklanken (‘discriminatiescore’) voor drie categorieën testmateriaal : getallen (0 tot 9), CVC woorden in zinnen en nonsenswoorden, alle in aanwezigheid van ruis, als functie van de signaal-ruis verhouding. Figuur ontleend aan Miller, Heise en Lichten, 1951 .


Bij een bepaalde signaal-ruis verhouding, dus terwijl de hoeveelheid akoestische informatie hetzelfde is, treden zeer verschillende discriminatiescores op. Dit is een gevolg van het aantal beschikbare klanken (alternatieven) wanneer de stimulus niet of slechts gedeeltelijk herkend wordt. In het geval van de getallen zijn dat er negen. Voor CVC woorden zijn momentaan rond de 2000 alternatieven beschikbaar in het geheugen (theoretisch 25x20x25 = 12500). Wanneer een deel van het woord herkend wordt neemt het aantal alternatieven af. Bij nonsenswoorden is het aantal alternatieven onbeperkt. Er geldt dus dat de helling van de discriminatiecurve afneemt naarmate het aantal alternatieven in het testmateriaal groter wordt. In verband hiermee mag men verwachten dat voor mensen die een taal niet spreken onder dezelfde omstandigheden minder steile curven (zoals in Fig.5) gevonden zullen worden dan voor mensen de betreffende taal wél beheersen of normaalhorend zijn.


Andere factoren die ertoe leiden dat de discriminatiecurven minder steil worden zijn:


  • Een tragere herkenning van de spraakklank, omdat het klankbeeld niet scherp is opgeslagen in het woordgeheugen, óf omdat de desbetreffende spraakklank niet scherp is waargenomen
  • Het gebruik van een vaste responstijd bij spraakaudiometrie. In dat geval zal, wanneer het herkennen meer tijd kost, soms zo lang worden gezocht naar het betreffend woord dat het volgende woord al komt. Dan wordt een respons gemist en wordt de discriminatiescore lager.
  • Een harder geluid legt sneller de neurologische weg naar herkenning af, zoals blijkt uit de BERA responsies waar de latentietijd afneemt als het aanbiedingsniveau van de stimuli verhoogd wordt. Vanaf een bepaald niveau neemt de snelheid van herkenning dan niet zoveel meer toe. Dit leidt ertoe dat de curve vlakker wordt.

Het hiervoor besprokene betekent ook dat in een situatie met stoorruis, bij dezelfde signaal-ruis verhouding, het reproduceren van woorden in de context van grammaticaal juiste en betekenisvolle zinnen gemakkelijker is dan het nazeggen van die woorden zonder die context. Wanneer men de respectievelijke scores bepaalt als functie van de signaal-ruis verhouding (zoals in Fig.5) zal in het geval van woorden in een context een steilere curve worden verkregen omdat het aantal alternatieven afneemt.


Bij slechthorenden spelen, behalve de taalbeheersing, ook andere factoren een rol. Bij hen wordt de helling van het spraakaudiogram mede beïnvloed worden door een lage maximale discriminatiescore. Bij een hoge tonen verlies kan ‘upward spread of masking’ optreden wat ertoe kan leiden dat de discriminatiescore - sneller dan bij een vlak gehoorverlies - afneemt.


 


10.3.1.3(2). Bewerking van het spraaksignaal ten behoeve van de spraakherkenning door zeer ernstig slechthorenden en doven

Analoge methode
Zeer ernstig slechthorenden en doven kunnen in veel gevallen slechts in beperkte mate een beroep doen op hun gehoor om spraak te herkennen. Teneinde het spraaksignaal aan te passen aan deze beperkingen wordt gebruik gemaakt van hoortoestellen. In de meeste gevallen worden in hoortoestellen op het binnenkomende geluid signaalbewerkingen toegepast, zoals versterking, filtering, ruisonderdrukking en aanpassing van de output aan het (beperkte) dynamisch bereik van het gehoor van de ernstig slechthorende. In deze benadering wordt dus volledig uitgegaan van het gehoor en wordt geen rekening gehouden met de structuur van het spraaksignaal, of met verschillen in die structuur tussen talen. 


Gebruik van geïsoleerde spraakkenmerken - Spraakbewerking - De ‘speech pattern element’ benadering
Bij de aanpassing van de spraak aan de beperkte gehoorcapaciteiten van doven kan men zich ook concentreren op kenmerken (‘features’) in het spraaksignaal die voor ernstig slechthorenden en doven meestal nog wel detecteerbaar zijn en een bijdrage leveren aan het verstaan van de spraak. Voorbeelden zijn de grondfrequentie van de spraak (de F0), de afwisseling van stemhebbend en stemloos en de combinatie van de twee laagste formantfrequenties. Deze kenmerken kunnen uit het spraaksignaal, met bepaalde technieken (hardware en software), ‘geëxtraheerd’ worden (‘feature extractie’). Er ontstaat dan een ‘versimpeld’ geluidsignaal.


Achterliggende gedachte is dat het beter is, met name voor doven die gebruik moeten maken van aanvullende (niet-auditieve) vormen van communicatie, het aangeboden signaal zo eenvoudig mogelijk te houden. Deze benadering, waarbij gebruik gemaakt wordt van fysisch goed gedefinieerde en perceptief onderscheidbare elementen uit het spraaksignaal, heet de ‘speech pattern element’ benadering. In het geval van de F0 wordt deze als een variërende zuivere toon via het hoortoestel aangeboden, terwijl de rest van het spraaksignaal ontbreekt.


Op analoge wijze kunnen de twee laagste formantfrequenties uit het spraaksignaal 'geëxtraheerd' worden en aangeboden worden als zuivere tonen. Er worden hier geen nieuwe formanten gegenereerd, maar zuivere tonen waarvan de frequenties 'meelopen' met de frequenties van de oorspronkelijke formanten. De F0 extractie en de extractie van de formantfrequenties kunnen worden gecombineerd. Het inputsignaal van het hoortoestel bestaat in dat geval uit drie zuivere tonen waarvan er twee ‘meelopen’ met de formantfrequenties en de derde met de F0.


Toepassingen van de ‘speech pattern element’ benadering
Men spreekt in het kader van de 'speech pattern element' benadering van 'spraakbewerkende' hoortoestellen ('speech processing’ of 'signal processing' hearing aids). Dit type hoortoestellen is in de meeste gevallen gebruikt als aanvulling op het spraakafzien. Enkele toepassingen worden hierna besproken.


  • Het bekendste apparaat waarin de ‘speech pattern element’ benadering wordt toegepast is het ‘SiVo’ hulpmiddel (‘Sinusoidal Voice’), ontwikkeld door Fourcin in Londen. In de SiVo wordt de - variërende - F0 geëxtraheerd uit het spraaksignaal en als zuivere toon aangeboden op het niveau van meest aangename luidheid. Indien gewenst wordt het frequentiegebied, waarover de F0 varieert, beperkt. Wanneer het spraakgeluid ‘stemloos’ is wordt ruis aangeboden.


  • In de jaren 1980-1990 heeft men, vooral ook in Nederland, onderzocht welke informatie in het (akoestische) spraaksignaal het meest adequaat is als ondersteuning bij het spraakafzien. Het gebruik van de F0, zoals hiervoor, is niet de enige mogelijkheid. Plomp en Breeuwer hebben het probleem fundamenteel aangepakt (los van slechthorendheid en doofheid) en onderzocht - in eerste instantie bij normaalhorenden - welke parameters of combinaties van parameters de meeste aanvulling bieden. Zij vonden dat de auditieve informatie van een combinatie van twee octaafbanden, één rond 500 Hz (gerelateerd aan de F1) en de andere rond 3160 Hz (gerelateerd aan de F3 en de F4), de meeste aanvulling gaven op het spraakafzien. Het spraakmateriaal betrof korte zinnen en de akoestische informatie betrof de ‘omhullende’ van het signaal in deze frequentiebanden. Het aantal correct gereproduceerde syllaben nam toe van 22.8% bij alleen liplezen tot 86.7%. De normaalhorende proefpersonen hadden geen ervaring in het spraakafzien. Wanneer, in plaats van de genoemde twee frequentiebanden, de eerste en tweede formant van de stemhebbende secties in het spraaksignaal als een complex signaal, met een grondfrequentie van 250 Hz, worden aangeboden steeg de score van 22.8% naar 82.0%. Meerdere combinaties zijn onderzocht, maar de hiervoor genoemde combinatie van twee octaafbanden bleef, althans voor de onervaren liplezers de ‘winner’. Voor de ervaren liplezers gold dit niet!


  • Een tot op zekere hoogte vergelijkbare benadering, maar dan voor CVC woorden (medeklinker-klinker-medeklinker, dus segmentele informatie), is toegepast door Smoorenburg en van Son (1993). Hierbij is, wat betreft het spraakafzien, uitgegaan van het begrip ‘viseem’. Fonemen die op basis van het lipbeeld niet of moeilijk van elkaar te onderscheiden zijn vormen samen een viseem. Zo behoren de ongeronde klinkers /i,I,e,ɛ,ɛi,a,ɑ/ tot éénzelfde viseem en de geronde klinkers /u,y,œ,ɔ/ tot een andere. Alleen fonemen die tot verschillende visemen behoren zijn goed van elkaar te onderscheiden. Bij het zoeken naar een supplementair akoestisch signaal is het dan niet zinvol contrasten die goed te zien zijn (die tussen verschillende visemen) te ondersteunen. Meer zinvol is het akoestische supplement te zoeken in het creëren van contrasten binnen visemen. Bij de toepassing van dit akoestisch supplement kan gebruikgemaakt worden van nog aanwezige frequentieselectiviteit.


    In de drie codeerschema's die bedacht zijn wordt uitgegaan van respectievelijk de frequenties van de F1, van die van de F2 of van die van een combinatie van F1 en F2 voor de verschillende klinkers. De betreffende frequenties worden ‘geprojecteerd’ op een frequentieschaal tussen 200 Hz en 1000 Hz, zó dat de afstanden tussen de klinkers even groot zijn. Bij zeer ernstig slechthorenden werd de meeste winst gevonden voor het onbewerkte spraaksignaal (gemiddeld 79% t.o.v. 58% voor alléén liplezen). De F1 conditie leverde 75% en de F1F2 combinatie 73%.


  • Behalve ondersteunende informatie bij het spraakafzien biedt geïsoleerde aanbieding van de F0 voor doven een verbetering van de controle over de eigen stem. Het feit dat doven vaak slecht intoneren en dus slecht verstaanbaar zijn is een gevolg van gebrek aan akoestische feedback. Aanbieding van de F0 draagt bij aan het herstel van deze feedback. Een toepassing is het gebruik van intonatiecontouren in spraakuitingen om de spraak van dove kinderen te verbeteren. In Hfdst.10.2.1, Par.5 is beschreven dat het verloop van de intonatie, dus van de F0, in de spraak gestileerd kan worden tot een beperkt aantal rechte lijnstukken. Lijnstukken ontleend aan correct gesproken uitingen kunnen gevisualiseerd worden op de monitor van een PC en als ‘doellijn’ fungeren voor de uitspraak van de betreffende uitingen door het dove kind. Deze toepassing maakt gestructureerde training mogelijk. De geëxtraheerde kenmerken kunnen ook via een vibrator (‘tactiele’ stimulatie) aangeboden worden.


  • Een hier en daar vooral in de beginjaren van de ontwikkeling van de ‘speech processing hearing aids’ (rond 1960) onderzocht en toegepast systeem van spraakbewerking is ‘frequentietransformatie’. Achterliggende gedachte daarbij is dat in het geval van een zeer ernstige slechthorendheid de lagere frequenties, bijvoorbeeld die beneden de 1000 Hz, het minst aangetast zijn en dus gebruikt kunnen worden voor overdracht van spraakkenmerken. De te kiezen kenmerken worden daartoe naar dit frequentiegebied getransformeerd. De resultaten van dit systeem waren zeer beperkt.


  • Een incidenteel - maar wél met enig succes - toegepast systeem is de ‘Upton bril’. In dit door Upton in 1968 ontwikkelde apparaat zijn op de glazen van een door de ernstig slechthorende te dragen bril een aantal LED's gemonteerd die oplichten op segmentele informatie in de spraak. De LED's zijn zó geplaatst dat zij samenvallen met het beeld van de lippen van de spreker of spreekster. Fig.6 illustreert schematisch de informatieoverdracht met deze bril. Bij het spreken van bijvoorbeeld het woordje sat lichten achtereenvolgens de lampjes 1, 2 en 3 op. Het apparaat is bedoeld als ondersteuning van het lipbeeld. Een voordeel is dat de patronen waarin de LED's oplichten geïntegreerd zijn in het lipbeeld. Na langdurige training konden personen een winst in spraakverstaan (met ‘connected discourse’) bereiken van 19% ten opzichte van de herkenning op basis van alleen lipbeeld. Voor literatuur wordt verwezen naar niveau 3.


    Fig.6. Overdracht van spraakkenmerken via de ‘Upton bril’. Bij de cijfers 1-5 bevinden zich LED’s. Bij het ‘passeren’ van het betreffende kenmerk lichten deze op.


  • Een veel toegepast systeem van ‘visuele’ spraakherkenning, in aanvulling op het lipbeeld, is het door Cornett in 1977 ontwikkelde ‘Cued Speech’. Hier worden supplementaire ‘cues’ aangeboden in de vorm van handstanden. De cues zijn kenmerken die niet op basis van het lipbeeld zichtbaar zijn.


De ontwikkeling van de spraakbewerkende hoortoestellen op basis van ‘feature extractie’ en het onderzoek eromheen hebben in de tachtiger jaren een grote vlucht genomen. Helaas zijn de resultaten beperkt gebleven. De resultaten (met name de ‘winst’ t.o.v. het spraakafzien) bleken van persoon tot persoon sterk te verschillen en ook te verschillen voor de afzonderlijke features. Een bijkomend nadeel was ook de ‘starheid’ van de methode bij veranderende akoestische omstandigheden, zoals omgevingsruis en galm. Tenslotte konden spraakbewerkende hoortoestellen niet concurreren met de cochleaire implantaatsystemen. In de beginperiode van de Cochleaire Implantatie is in de implantaatsystemen nog wel gebruik gemaakt van ‘feature extractie’, maar men is daar snel op andere, minder ‘starre’ systemen van spraakbewerking overgeschakeld.


Voor een overzicht van de technieken en kenmerken die gebruikt zijn wordt verwezen naar het artikel van Risberg (1969, niveau 3). Een breed overzicht, ook van de toepassingen waarbij gebruik gemaakt wordt van de tastzin (met dezelfde extractietechnieken), is te vinden in het proefschrift van Breeuwer (1985). Ook het aantal toepassingen waarbij gebruik gemaakt wordt van de tastzin is beperkt gebleven.

 


10.3.1.4(2). Mogelijkheden van het visuele systeem voor de herkenning van spraak

Het herkennen van spraak op basis van het kijken naar het gezicht en met name naar de lippen van een spreker of spreekster (‘spraakafzien’ of ‘liplezen’) is een vaardigheid die mensen, normaalhorenden en slechthorenden, enigszins beheersen. Het aantal lettergrepen uit gesproken zinnen dat door normaalhorenden op grond van visuele informatie herkend wordt bedraagt gemiddeld 25%. Doven komen op een iets hogere waarde: 33%. De spreiding tussen de individuele uitkomsten is van de orde van grootte van 15%. Het is dus niet vanzelfsprekend dat een dove beter kan spraakafzien dan een normaalhorende.


Inventarisatie van wat men van het gelaat van een spreker of spreekster wél en niet kan afzien - op segmenteel niveau en gebaseerd op de herkenning van eenlettergrepige woorden, medeklinker, klinker, medeklinker - leidde tot de definitie van de viseem zoals besproken in de voorafgaande paragraaf.


De voor het liplezen belangrijkste kenmerken zijn voor de klinkers lipronding, mate van lipopening en klinkerduur (dit laatste met name bij de ronde klinkers). De vier visemen voor de klinkers zijn:


/i,I,e,ɛ,a,ɑ/ - ongerond


/u,y,œ,ɔ/ - gerond - kort


/ø,o/ - gerond - lang


/au,œy/ - gesloten


Voor het kenmerk lipronding geldt dat het globaal gerelateerd is aan de frequentie van de tweede formant. Het kenmerk mate van lipopening is gerelateerd aan de frequentie van de eerste formant. De identificatiescore voor de mediale klinker bedraagt 44%.


De voor het liplezen van medeklinkers belangrijkste kenmerken zijn liparticulatie, verticale graad van lipopening en plaats van articulatie. De waarneming van deze kenmerken levert de volgende viseemindeling:


/p,b,m/ - bilabiale medeklinkers


/f,v,ʋ/ - labiodentale medeklinkers


/s,z,ʃ/ - nonlabiale ‘front’ fricatieven


/t,d,n,j,l/ - overige nonlabiale ‘front’ medeklinkers


/k,R,χ,ɳ,h/ - overige nonlabiale ‘achter’ medeklinkers


De identificatiescores voor de begin- en eindmedeklinker bedragen 28%.


Terwijl de visuele spraakherkenning door middel van spraakafzien op segmenteel niveau 30 á 40% en op zinsniveau (25%) redelijk is te noemen is het herkennen van spraak uit een voortdurend veranderend spectrogram, misschien op een enkele uitzondering na, niet mogelijk. Pogingen daartoe (‘visible speech’) ondernomen in het Bell Telephone Lab USA) in de veertiger jaren van de vorige eeuw hebben geen succes gehad.


 


10.3.1.5(2). Bewerking van het spraaksignaal ten behoeve van het spraakverstaan door slechthorenden

Geavanceerde signaalbewerking wordt ook toegepast om te onderzoeken of het spraakverstaan door slechthorenden verbeterd kan worden. Dit onderwerp kwam eerder aan de orde in Hfdst.2.9.1. Motivering van dit type onderzoek is het feit dat mensen met een perceptieve slechthorendheid te maken hebben met een verminderd vermogen spectrale contrasten te onderscheiden als gevolg van verbreding van de cochleaire filters. Aangenomen wordt verder dat slechthorenden minder goed fluctuaties in een geluid horen.


Teneinde de slechthorenden ‘tegemoet te komen’ worden de spectrale en/of de temporele contrasten in de spraak opgescherpt. Tot nu toe zijn geen overtuigende resultaten met deze wijze van opscherping verkregen.



Literatuur

  1. Breeuwer M. Speechreading supplemented with frequency-selective sound-pressure information. Proefschrift Vrije Universiteit Amsterdam, 1985.
  2. Cornett RO, Beadles R, Wilson B. Automatic cued speech. Paper from the Research Conference on Speech-Processing Aids for the Deaf, 1977
  3. Dunn HK, White DD. Statistical measurements on conversational speech. Journal of the Acoustical Society of America 1940;11:278-288.
  4. Faulkner A, Fourcin AJ, Moore BCJ. Psychoacoustic aspects of speech pattern coding for the deaf. Acta ORL (Stockholm) 1989; Suppl. 469:172-180.
  5. French NR, Steinberg JC. Factors governing the intelligibility of speech sounds. J Acoust Soc Am 1947;19:90-119.
  6. Kapteyn TS, Clemens A, Glazenburg BE, Joustra J. Slechthorende en hoortoestel. Uitgave Nederlandse Vereniging voor Audiologie en Nederlandse Vereniging voor KNO-Heelkunde, 1994.
  7. Miller GA. Language and communication. McGraw-Hill Book Company, Inc., New York etc, 1951.
  8. Miller GA, Heise GA, Lichten W. The intelligibility of speech as a function of the context of the test materials. J Exp Psychol 1951;41:329-335.
  9. Rietveld ACM, van Heuven VJ. Algemene fonetiek. Dick Coutinho, Bussum, 2001.
  10. Risberg A. A critical review of work on speech analyzing hearing aids. IEEE Trans. Audio Electroacoustics 1969;AU17:290-297.
  11. Spaai GWG, Derksen ES, Hermes DJ, Kaufholz PAP. Teaching intonation to young deaf children with the Intonation Meter. Folia Phoniatr Logop 1996;48:22-34.
  12. Van Son NJDMM. Speech processing strategies for the profoundly hearing impaired. Proefschrift Universiteit Utrecht, 1993.
  13. Taselaar M. Over binaurale selectieve versterking en de verstaanbaarheid van spraak. Proefschrift Universiteit Groningen, 1959.
  14. Upton HW. Wearable eyeglass speechreading aid. Am Ann Deaf 1968;113:222-229.

© NVA leerboek 2000-2017 Privacy | Disclaimer | Copyright | Statistieken | Webredactie