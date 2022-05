Hij is je redder in nood als je de taxichauffeur in het Italiaans moet uitleggen dat hij wat minder wild mag rijden. Maar hoe werkt de vertaalmachine van Google eigenlijk?

Hedendaagse vertaalmachines baseren zich grotendeels op een parallel corpus: een tekst met dezelfde inhoud, maar dan in verschillende talen. Met dank aan menselijke vertalers bestaan er veel van zulke corpora. Zo is er een online-verzameling van allerlei Bijbelvertalingen, en ook van de Harry Potter-boeken. Google Translate gebruikt als bron het grootste parallelle corpus dat er bestaat: het internet. Veel sites zijn in twee of meer talen vertaald. Bovendien zijn er veel websites met min of meer dezelfde inhoud, bijvoorbeeld Wikipedia-pagina’s met hetzelfde thema in verschillende talen.

Lees ook:

I’m decorating you

Het programma deelt al die teksten in stukjes op: in woorden, maar ook in woordgroepen. Stel dat het een Nederlandse/Engelse website over olifanten gebruikt. Dan blijkt al snel dat het woord ‘olifant’ steeds correspondeert met ‘elephant’. Aha, denkt Google, een match! Hij ziet bovendien dat dicht bij ‘olifant’ vaak het woord ‘zwaar’ voorkomt, en in het Engels op diezelfde plek ‘heavy’. Als nu iemand aan Google vraagt hoe je ‘zware olifant’ in het Engels zegt, dan voorspelt hij: ‘heavy elephant’.

Het basisprincipe is simpel, maar uiteraard zijn er problemen, bijvoorbeeld met woorden die meerdere betekenissen hebben. Je zult in parallelle corpora wel vinden dat ‘versieren’ in het Nederlands correspondeert met ‘decorate’ in het Engels. Toch klopt dat niet altijd – wie iemand versiert, zegt niet “I’m decorating you” (behalve Louis van Gaal misschien). Google probeert zoiets te voorkomen door ook de context van woorden te bekijken. Als in de buurt ook ‘flirten’ en ‘date’ voorkomen, dan is het beter om ‘hit on you’ te gebruiken.

Als je je verveelt, kun je dit principe gebruiken om Google tóch om de tuin te leiden. Voer maar eens een zin in als “Ik wil je bij de kerstboom versieren”. Wedden dat-ie de fout in gaat?

Deze vraag kon je vinden in KIJK 8/2021.

Ook een vraag voor de rubriek ‘KIJK Antwoordt’? Mail hem naar [email protected].

Tekst: Sterre Leufkens

Beeld: Robin Lubbock/WBUR