Koptelefoon laat je in verschillende talen meeluisteren

Naomi Vreeburg

21 mei 2025 09:20

koptelefoon

Hoe fijn zou het zijn om op vakantie naar een ver land meerdere mensen tegelijkertijd om je heen te verstaan? Dankzij een slimme koptelefoon wordt die droom misschien wel werkelijkheid.

Stel je voor: je gaat uit eten met een grote groep vrienden die voortdurend schakelen tussen verschillende talen die jij niet spreekt — en toch kun je alles volgen wat ze zeggen. Dit scenario vormde de inspiratie voor een nieuwe koptelefoon die met behulp van AI meerdere mensen tegelijkertijd verstaanbaar voor je maakt.

Gejatte koptelefoon-onderdelen

Er zijn al heel wat systemen die gebruik maken van kunstmatige intelligentie om een gesprek in real-time te vertalen. Denk aan de slimme Ray-Ban-bril van Meta. Maar deze diensten richten zich bijna allemaal op één spreker, en niet op meerdere mensen die tegelijkertijd in een andere taal praten. De vertalingen worden verder teruggekoppeld met een robotachtige stem.

Daar moet Spatial Speech Translation, zoals de makers aan de University of Washington hun systeem hebben genoemd, verandering in brengen. Om de speciale koptelefoon te maken, gebruikten de technici onderdelen uit een noise-cancelling koptelefoon van Sony en uit een binauraal exemplaar van Sonic Presence. Binaurale koptelefoons nemen geluid op vanuit twee verschillende richtingen.

Geen computerstem

Als het Spatial Speech Translation-systeem geluid heeft opgevangen, wordt het naar een laptop gestuurd waarmee de koptelefoon is verbonden. Deze laptop gebruikt twee AI-modellen om het gesprek te vertalen en terug te sturen naar de koptelefoon – met een vertraging van slechts 1 à 2 seconden.

Bovendien haalt een van de twee modellen de unieke kenmerken en toon van iemands stem uit het geluid, en past deze eigenschappen toe op de vertaalde woorden. Dat zorgt ervoor dat wanneer het vertaalde bericht de koptelefoon bereikt, het klinkt alsof het uit de richting van de spreker komt, en de stem sterk lijkt op die van de spreker. Geen computerstem meer dus.

Frans Duits

Het systeem is getraind met gesprekken in het Spaans, Frans en Duits, maar de onderzoekers zeggen dat het uiteindelijk ongeveer honderd talen zou kunnen herkennen. Ze werken op dit moment aan het verbeteren van de snelheid en nauwkeurigheid van het systeem. Ook hebben ze de code die het systeem aandrijft open source gemaakt, zodat anderen ermee kunnen experimenteren.

Bronnen: New Atlas, MIT Technology Review

Beeld: Shyam Gollakota/University of Washington

Cover KIJK 6-2025

Ben je geïnteresseerd in de wereld van wetenschap & technologie en wil je hier graag meer over lezen? Word dan lid van KIJK! 

PODCAST

De inhoud op deze pagina wordt momenteel geblokkeerd om jouw cookie-keuzes te respecteren. Klik hier om jouw cookie-voorkeuren aan te passen en de inhoud te bekijken.
Je kan jouw keuzes op elk moment wijzigen door onderaan de site op "Cookie-instellingen" te klikken."