Computer met dovemansogen

Computers kunnen veel, maar zien: daar zijn ze niet zo goed in. Toch probeerden drie promovendi van de TU een computer te leren gebarentaal te herkennen.

Een vogel. Ha, die is makkelijk. Ik wapper met mijn handen in de lucht alsof ik vlieg, en leg ze daarna weer netjes op tafel. Op het scherm voor me lacht een vriendelijk uitziende blonde vrouw uitbundig terwijl ze haar duimen opsteekt: goed zo! Er verschijnt een nieuw plaatje op het scherm. Een koe. Ik maak een gebaar alsof ik twee grote horens heb. Weer de lach en de duimen. Hm, maar wat is dit? Een snavel. Ik wapper maar weer met mijn handen als bij de vogel. De dame op het scherm kijkt uiterst sip terwijl ze haar hoofd schudt: fout. Ze doet voor hoe het wel moet: met één hand maakt ze een puntvormig gebaar vanaf haar neus en mond.

De computerapplicatie waar ik achter zit is ontwikkeld door de TU Delft, in samenwerking met de Nederlandse Stichting voor het Dove en Slechthorende Kind (NSDSK) en de Koninklijke Auris Groep. De applicatie is bedoeld om de gebarenschat van dove en slechthorende kinderen tussen de drie en zes jaar oud te vergroten. De computer toont een plaatje, waarna het kind het bijbehorende gebaar moet maken en meteen feedback krijgt. “Jij zit nu op het niveau van een kind van vier”, zegt Gineke ten Holt, promovenda bij de faculteit Elektrotechniek, Wiskunde en Informatica. Erg knap is het niet dat ik dit niveau haal: het systeem is zo ingesteld dat de computer op dit niveau heel ruimhartig is bij het goed rekenen van een gebaar. “Het motiveert kinderen beter als ze positieve feedback krijgen dan als de computer gelijk heel streng is. Naarmate het kind meer heeft geoefend kan het niveau omhoog”, verduidelijkt Ten Holt.

PerceptieTen Holt is slechts één van de drie promovendi die zich de afgelopen jaren hebben beziggehouden met dit project. Ten Holts collega’s, Jeroen Lichtenauer en Jeroen Arendsen, promoveerden op respectievelijk 13 en 19 oktober. Ten Holt raakte iets later betrokken bij het project en is nog bezig haar laatste onderzoeken af te ronden. Dat er drie promovendi nodig waren voor het ontwikkelen van de applicatie, is omdat deze misschien simpel lijkt, maar dit beslist niet is.

Een van de moeilijkheden met een computer leren om gebaren te herkennen is dat er in sommige opzichten eigenlijk nog niet zo veel bekend is van gebarentaal. Dat is waar Jeroen Arendsen, die promoveert bij Industrieel Ontwerpen, bij komt kijken. Arendsen: “Ik heb me binnen dit project vooral bezig gehouden met de menselijke perceptie. Als je een gebaar goed wilt herkennen, moet je weten welke informatie binnen het gebaar relevant is. Ik heb daarom bestudeerd hoe mensen gebaren bekijken en waarop zij reageren binnen het gebaar. Dit deed ik door proefpersonen filmpjes van gebaren voor te schotelen en hen bijvoorbeeld te laten aangeven wanneer een gebaar begon. Daarna heb ik de filmpjes gemanipuleerd en de gebaren net iets veranderd, om te kijken wat voor effect dit zou hebben. Welke variaties op het gebaar zijn nog acceptabel, en welke niet? De computer kan al dit soort informatie vervolgens gebruiken om de gebaren van de kinderen te beoordelen.”

Jeroen Lichtenauer ging binnen het project over het technische gedeelte: het was zijn taak om ervoor te zorgen dat het computersysteem inderdaad gebaren kan herkennen. Een van de moeilijkheden hierbij was dat de applicatie het liefst in real-time moest werken. Lichtenauer: “Het is heel belangrijk dat de kinderen meteen feedback krijgen. Jonge kinderen worden snel ongeduldig. We hebben ook gezien in de praktijktests dat de kinderen het niet per se erg vinden als de computer een gebaar fout rekent dat eigenlijk goed is. Meestal hebben ze wel zo veel zelfvertrouwen dat ze dan denken ‘het systeem zit fout, niet ik’. Wat ze wel echt frustreert, is als een reactie van de computer uitblijft.”

HuidskleurBij de – zeldzame- andere computerapplicaties voor gebarenherkenning die zijn ontwikkeld, is het meestal nodig dat de persoon die erachter zit speciale handschoenen draagt of sensoren op zijn handen geplakt krijgt. Dat wilden de onderzoekers van de TU niet. “We wilden de situatie voor de kinderen zo natuurlijk mogelijk houden”, legt Lichtenauer uit. “Bovendien: als je bij kinderen met handschoenen zou werken, zou je talloze maten nodig hebben. Dat is niet handig.”

Het TU-systeem kijkt daarom zonder andere hulpmiddelen dan beeldherkenning naar de gebaren. “Een probleem hierbij is dat het herkennen van handen voor een computer heel ingewikkeld is. Het kost veel rekenkracht, en daarmee tijd”, vertelt Lichtenauer. Hij verzon hier een oplossing voor: de computer let op huidskleur, en vervolgens op de grove vorm, positie en bewegingsrichting van de huidskleurige objecten.

Het volgen van de beweging van de handen bleek het beste te gaan met een stereocamera. En natuurlijk heeft niet iedereen precies dezelfde huidskleur. Dit is opgelost door van elk kind dat een profiel aanmaakt op de oefencomputer een foto te nemen, waarna een leraar of oefenhulp moet definiëren wat het hoofd en de handen van het kind zijn. Op basis hiervan maakt de computer een model van de huidskleur van het kind.

Terwijl Arendsen zich vooral bezighield met de menselijke kanten van het project en Lichtenauer met de technische, vervulde Ten Holt een brugpositie. Het was haar taak om te proberen de inzichten van het perceptieonderzoek toe te passen in de techniek. “En dat is nog best moeilijk gebleken”, zegt Ten Holt. “Computers zijn namelijk in heel andere dingen goed dan mensen, en omgekeerd.” Ze verduidelijkt: “Uit het onderzoek van Arendsen en mijn aanvullende onderzoek blijkt bijvoorbeeld dat bij het herkennen van een gebaar voor mensen de handvorm heel informatief is. Maar voor een computer is de handvorm juist heel lastig waar te nemen. Een computer kan wel precies de positie en de bewegingsrichting bepalen. Die dingen zijn voor mensen juist lastiger en doen er voor hen juist weer minder toe.”

Speciale tentInmiddels is de applicatie ontwikkeld, in praktijk getest, en blijkt hij behoorlijk goed te werken (zie kader). Toch zijn er nog wat dingen die de drie onderzoekers graag extra of zelfs helemaal anders hadden willen doen. Ten Holt: “Wat ik graag nog had willen oplossen: een gebaar kent fases, ongeveer zoals een woord lettergrepen kent. Maar de computer kan deze fases niet zomaar lokaliseren. Voor elk gebaar moet door een mens worden aangegeven waar de grenzen tussen de fases liggen. Vervolgens kan de computer wel deze fases lokaliseren in de andere voorbeelden van dat gebaar; maar het zou mooi zijn als dit hele proces automatisch kon. Op dit moment gebruikt het systeem 75 voorbeelden van elk gebaar. Dat er zo veel nodig zijn, is om de variatie die binnen elk gebaar mogelijk is betrouwbaar te kunnen schatten. Dat is iets anders waarvan het mooi zou zijn als het automatisch zou kunnen: dat je op basis van de variatie in bekende gebaren zou kunnen voorspellen wat de variatie in een nieuw gebaar zal zijn, zodat het niet langer nodig is de computer te trainen met al die voorbeelden. Want dat kost tijd. Het heeft ons anderhalve maand gekost om van alle 120 gebaren die de computer nu kent, de machine 75 voorbeelden te geven.”

Arendsen en Lichtenauer hadden vooral graag gezien dat de applicatie robuuster zou zijn, oftewel dat hij ook onder minder gecontroleerde omstandigheden zou werken. De kinderen die de oefencomputer willen gebruiken, moeten dit nu doen in een speciale tent, die van binnen weinig kleur bevat en waarin de lichtval constant is. Want kleuren uit de omgeving kunnen het systeem afleiden, en variaties in lichtval zorgen voor variaties in de waargenomen huidskleur waardoor de computer moeite kan krijgen de handen van het kind te herkennen. Ook moeten de kinderen per se shirts met lange mouwen dragen, zodat de computer echt alleen de handen waarneemt en niet in de war raakt door stukken arm. Lichtenauer: “Als ik het helemaal opnieuw zou kunnen doen, zou ik daarom misschien toch voor iets anders dan kleur hebben gekozen als basis voor het herkenningsmechanisme.”

De testIn 2007 is het door de TU-promovendi en beide belangenorganisaties ontwikkelde oefensysteem getest op een school voor dove en slechthorende kinderen in Rotterdam. Het volledige systeem bestaat uit een touchscreen computer, een stereo-camera (om diepte waar te nemen) en drie soorten oefeningen. Bij de eerste oefening krijgen de kinderen een tekening rond een bepaald thema te zien, bijvoorbeeld ‘circus’, ‘dieren’ of ‘keuken’. Als ze een object in deze tekening aanraken, krijgen ze het bijbehorende gebaar te zien. In oefening twee krijgen de kinderen een filmpje van een gebaar te zien, waarna ze moeten aanwijzen welk plaatje bij dit gebaar hoort. Op deze manier wordt de zogenoemde passieve gebarenschat getraind. Bij de derde oefening – degene die door de TU is ontwikkeld – maken de kinderen zelf een gebaar waarna de computer dit gebaar beoordeelt; dit is de actieve woordenschat.Na een proefperiode van vier weken bleek de passieve gebarenschat van de kinderen die regelmatig oefenden met de computer niet meer toegenomen te zijn dan die van een controlegroep die niet achter de oefenmachine had gezeten. Maar de actieve woordenschat wel: hadden de kinderen voor de proefperiode nog gemiddeld 24 procent van de gevraagde gebaren goed, na het oefenen op de computer was dit 67 procent. En: de meeste kinderen vonden het werken met de computer leuk.Toch wordt er op dit moment niets met de applicatie gedaan. Volgens Jeroen Arendsen is dit om zowel organisatorische als financiële redenen: “Om zo’n systeem te implementeren binnen het onderwijs op scholen met dove kinderen, moet er veel georganiseerd worden. Er moet bijvoorbeeld altijd iemand zijn die je kunt bellen als er een probleem mee is. Dat kost geld, en ook het bouwen van de systemen zelf kost geld. Het is geen kwestie van simpelweg een webcam op een computer zetten. Je hebt bijvoorbeeld zo’n speciale tent en die speciale verlichting nodig.”

Bit by bit it goes. A common scene here in Holland, especially in student towns. At first you might think there’s something magical (or toxic) in the Dutch atmosphere that dissolves bike parts into thin air. But wait, there’s something wrong here: this looks like a crime scene! And it is. And if you live here long enough you’re likely to be victimised by this crime at least once. In Holland, your bike is either stolen in one piece, or gradually in bits and pieces. If your bike is stolen in one piece, well, there’s nothing much you can do about it but curse your bad luck and lock. But if your bike is locked in one place for a while, starts looking rusty and flat-tired, well, that’s when the mysterious ‘bike vultures’ swoop in and start ripping off chunks of parts and accessories! Who are the bike vultures? When do they descend? Nobody really knows for sure. But one look around at the other bikes you see driving around reveals a clue, as most of these bikes are mismatched hunks of junk built from the ‘spare’ parts of other bikes. But fret not, for what goes around comes around: stay here long enough and one day you too will probably end up happily riding around town on just such a motley collection of bike-vultured parts.