10.3.2.1(2) Inleiding
Parallel aan de ontwikkeling van de codeersystemen zoals besproken in Hfdst.10.3.1, ontstond door de toename van de kennis op het gebied van de fonetiek en de uitbreiding van de technische mogelijkheden het vakgebied ‘spraaktechnologie’. Dit vakgebied is een onderdeel van de fonetiek en richt zich op de – artificiële – productie en herkenning van spraak. Bij de productie van spraak moet men denken aan speciale soft- en hardware waarmee geschreven teksten omgezet kunnen worden naar spraak. Bij de herkenning van spraak gaat het om het omzetten van spraak in tekst, (automatische dicteersystemen) en om sprekerherkenning. In verband met ‘spraaktechnologie’ spreekt men ook wel over ‘manipulatie van spraak’. In dit hoofdstuk komen twee voorbeelden van spraakbewerking aan de orde. Verder worden enkele methoden besproken om het spraaksignaal of kenmerken van het spraaksignaal te meten.
10.3.2.2(2) Manipulatie van spraak
Bij ‘manipulatie van spraak’ gaat het om software waarbij de spraak wordt gecodeerd, bij voorkeur zo zuinig mogelijk, teneinde deze te kunnen opslaan en te resynthetiseren. Bij resynthetisering kunnen parameters in het spraaksignaal, zoals de F0 en de klankkleur, beïnvloed worden. We bespreken twee technieken, de ‘Linear Predictive Coding’ (LPC) en de ‘Pitch Synchronous OverLap-Add’ (PSOLA).
LPC
Bij ‘Linear Predictive Coding’ (LPC) wordt het spraaksignaal eerst bemonsterd met een ‘sample’ frequentie van 10 kHz. Het principe van LPC is het berekenen van de grootte van het spraaksignaal op een bepaald tijdstip, dus van een bepaald sample, op basis van een reeks voorafgaande samplewaarden. Die reeks ligt binnen een bepaald tijdvenster (analysevenster). Dat analysevenster heeft een breedte van 25 ms. De te berekenen waarde schuift telkens 10 ms op in de tijd. De berekening houdt een benadering in van de omhullende van het spectrum van het golfje in het analysevenster met 10 getallen, vijf getallen voor de spectrale pieken en vijf voor de breedte van die pieken. De vorm van de analysevensters is schematisch weergegeven in Fig.1. De bijdragen van de uiteinden van de vensters aan de berekeningen worden beperkt, teneinde discontinuïteiten tussen de uitkomsten van de opeenvolgende vensters te vermijden. De resultaten van de analyse gelden voor korte tijdsintervallen. Deze worden ‘frames’ genoemd en liggen in dit voorbeeld 10 ms uit elkaar. In Fig.1 springt de berekening dus van ‘top tot top’ en elke berekening gebaseerd op samplewaarden binnen een gebiedje van 25 ms daaromheen.
De frames hebben een lengte van 10 ms. Deze waarde is gekozen omdat de spraakorganen in dit interval weinig van vorm veranderen. Terwijl de bemonstering van het oorspronkelijke frame 100 getallen ‘kostte’ (10 ms bij 10 kHz) wordt het spectrum van het frame beschreven met 10 getallen. De informatiereductie bedraagt dus 90%. De verkregen spectrale omhullenden worden gebruikt om – van frame tot frame – een reeks digitale filters te dimensioneren. Wanneer die vervolgens aangestoten worden door het basisgeluid van de spraak (de stembandtrilling) wordt het oorspronkelijke spraaksignaal geregenereerd. De kwaliteit is echter minder dan die van het oorspronkelijke signaal, als gevolg van de reductie in de nauwkeurigheid van de beschrijving. Een verandering van de herhalingsfrequentie van de stembandtrilling pulsen zal een verandering van de ‘hoogte’ van de spraak tot gevolg hebben.
PSOLA
Bij ‘Pitch Synchronous OverLap-Add’ (PSOLA) wordt het spraaksignaal niet bemonsterd zoals bij LPC. De bewerking wordt rechtstreeks op de golfvorm toegepast. Uitgaande van een algoritme voor de detectie van de grondfrequentie van het spraaksignaal (zoals we ook al tegenkwamen bij de SiVo) wordt rond de tijdstippen waarop de stembanden sluiten een tijdvenster aangebracht (vandaar: ‘pitch synchronous’) dat twee keer zo lang is als de grondperiode. De opeenvolgende reeks vensters kunnen in elkaar (‘OverLap’) en uit elkaar geschoven worden, leidend tot respectievelijk verlaging en verhoging van de stemhoogte.
10.3.2.3(2) Enkele meetmethoden
Spectrografie (sonografie)
Een spectrogram, eerder besproken en geïllustreerd in Hfdst. 10.2.1(2), Par.4, geeft als functie van de tijd (horizontaal) het spectrum van het signaal weer (verticaal uitgezet). De mate van zwarting in de grafiek geeft de sterkte van het signaal op het betreffende tijdstip en in de betreffende frequentieband weer. De weergave wordt ook wel ‘sonagram’ genoemd.
Spectrografie geeft algemene informatie over ondermeer de ligging van de formanten, de formantovergangen, de meer of mindere aanwezigheid van boventonen in de stem (zoals de armoede aan boventonen bij gebruik van het falsetregister) en over de verdeling van de ruis over het frequentiegebied. Spectrografie wordt, in combinatie met de registratie van de golfvorm via de microfoon, meestal gebruikt als een eerste (basis-) registratie. Vandaar uit worden bepaalde tijdsintervallen en frequentiegebieden met andere registratiemethoden verder onderzocht.
Articulografie
Articulografie is een methode om een afbeelding te krijgen van de mond- en keelholte en van de tong tijdens het produceren van spraakklanken. De meest gebruikte techniek is de ‘Elektromagnetische Medio-Sagittale Articulografie’ (EMMA). Daarbij worden op de te onderzoeken articulatoren spoeltjes (sensoren) geplaatst. Wanneer rond de spoeltjes in de mond- en keelholte een elektromagnetisch veld wordt aangebracht kunnen de posities van de spoeltjes weer zichtbaar gemaakt worden op een scherm. In Fig.2 zijn de posities te zien van drie spoeltjes voor de klinkers /i,e,I,ɛ,a/. De gestippelde lijn markeert het verhemelte. Het gaat om een medio-sagittale doorsnede. De x-as correspondeert met voor-achter en de y-as met hoog-laag. Articulografie wordt voor wetenschappelijke doeleinden gebruikt.
10.3.2.4(2) Verwijzingen
Bij het schrijven van dit hoofdstuk is dankbaar gebruik gemaakt van het boek ‘Algemene fonetiek’ door Rietveld & van Heuven (2001).
Auteur
Lamoré
Revisie
december 2012