Spraakherkenningsalgoritmen zijn niet zo onschuldig. (Foto: Hannah Wei/Unsplash)
Spraakherkenningsalgoritmen zijn niet zo onschuldig. (Foto: Hannah Wei/Unsplash)

Voor ouderen en mensen met een regionaal of buitenlands accent zijn spraakherkenningssystemen een crime. Ze slaan de plank mis en zijn bevooroordeeld, toont Delfts onderzoek.

Read in English

We krijgen er voortdurend mee te maken; of we nu onze verzekeringsmaatschappij, telecomaanbieder of gemeente bellen, de kans is groot dat we eerst met een computer moeten praten voordat we worden doorverbonden met een telefonist van vlees en bloed.

Bedrijven gebruiken automatische spraakherkenningsalgoritmen, zogenaamde Automatic Speech Recognition algorithms (ASR's), om personeelskosten te besparen. Maar deze algoritmen zijn niet onschuldig. Ze werken discriminatie in de hand. Dat schrijven onderzoekers van de TU Delft, de Universiteit van Amsterdam en het Nederlands Kanker Instituut in hun studie Quantifying Bias in Automatic Speech Recognition, die onlangs op de wetenschapswebsite Arxiv.org is gepubliceerd.

Dit zijn verontrustende ethische kwesties

“Gesproken taal is ontzettend relevant in ons leven. ASR-systemen zouden daarom echt moeten kunnen omgaan met de grote verschillen in de manier waarop mensen spreken”, zegt Olya Kudina, assistent-professor bij de afdeling ethiek en filosofie van technologie (faculteit Techniek, Bestuur en Management) en een van de auteurs. “De bias in de datasets waarmee de algoritmen zijn getraind, zorgt ervoor dat sommige mensen buiten de boot vallen en dat bepaalde manieren van spreken schijnbaar als relevanter worden gezien dan andere. Dit zijn verontrustende ethische kwesties”, vindt ze.

“ASR's spelen een steeds belangrijkere rol in ons leven”, voegt haar collega en co-auteur Odette Scharenborg toe. Zij is expert in spraakherkenningstechnologie aan de faculteit Elektrotechniek, Wiskunde en Informatica. De beloftes van de technologie zijn groot, aldus Scharenborg. Maar ze vreest dat veel mensen langs de zijlijn blijven staan. “We moeten inclusieve automatische spraakherkenning ontwikkelen. Dat is een term die ik heb bedacht.”

“Met spraakherkenningstechnologie kunnen ouderen in principe langer zelfstandig thuis blijven wonen. Er komen steeds meer apparaten op de markt die met spraakbesturing werken. En de technologie kan de wereld ontsluiten voor mensen die laaggeletterd of analfabeet zijn, of voor mensen die door spierziekten niet kunnen typen.”

Raciale tweedeling
ASR-systemen zijn geënt op diepe neurale netwerken (DNN‘s). DNN’s worden vaak als zeer objectief beschouwd. Maar er zijn aanwijzingen dat zelfs de meest geavanceerde ASRs moeite hebben met de grote variatie in spraak die samenhangt met geslacht, leeftijd, spraakgebrek, ras, en accenten.

Recente studies uit onder meer de Verenigde Staten wijzen erop dat stemassistenten een raciale tweedeling in stand kunnen houden doordat ze de spraak van zwarte sprekers vaker verkeerd interpreteren dan die van witte sprekers. Het is ook bekend dat spraakstoornissen – denk bijvoorbeeld aan dysartrie, een gespleten lip en gehemelte of stoornissen als gevolg van een beroerte of kanker - voor veel problemen zorgen.

En ASR-systemen worden doorgaans getraind met spraak van mensen die in hun moedertaal praten. Er lijkt van elke taal een soort standaard versie te zijn. Hierdoor maken ASR’s veel fouten bij mensen die met regionale of buitenlandse accenten spreken.

Hoe slecht scoren Nederlandse spraakherkenningsalgoritmen? Om daar achter te komen, lieten de onderzoekers een ASR-systeem kauwen op gegevens uit het Corpus Gesproken Nederlands, een database van standaard Nederlands, zoals dat nu gesproken wordt in Nederland en Vlaanderen door mannen en vrouwen van tussen de 18 en 65 jaar oud. De database bevat diverse spreekstijlen uit onder meer nieuwsuitzendingen en telefoongesprekken. De onderzoekers gebruikten ongeveer 400 uur aan dergelijk oefenmateriaal. Daarnaast werkten ze ook met gegevens uit andere databases van senioren, kinderen en allochtonen met een breed scala aan moedertalen, waaronder Turks en Marokkaans-Arabisch.

Moeite met Vlaams
Uit hun experimenten blijkt dat het algoritme de spraak van vrouwen beter verwerkt dan spraak van mannen. Het systeem worstelde met de spraak van allochtonen, en van ouderen (mogelijk doordat die laatsten minder duidelijk articuleren). En het systeem had meer moeite met Vlaamse dan met Nederlandse sprekers.

Ontwikkelaars van ASR-systemen zouden de datasets waarmee ze algoritmes trainen veel meer moeten diversifiëren, concluderen de wetenschappers. Scharenborg voegt eraan toe dat de uitdagingen waarvoor zij en haar collega's staan enorm zijn. De variatie in spraak is immens, maar de inzet is ook hoog. Iedereen moet spraakherkenning kunnen gebruiken. Daarom zouden we ook moeten kijken naar slimmere manieren waarop diepe neurale netwerken de data gebruiken en we moeten nieuwe AI-architecturen ontwikkelen. Dit onderzoeksgebied staat nog in de kinderschoenen.