Ben je geïnteresseerd in de wereld van wetenschap & technologie en wil je hier graag meer over lezen? Word dan lid van KIJK!
Hoe fijn zou het zijn om op vakantie naar een ver land meerdere mensen tegelijkertijd om je heen te verstaan? Dankzij een slimme koptelefoon wordt die droom misschien wel werkelijkheid.
Stel je voor: je gaat uit eten met een grote groep vrienden die voortdurend schakelen tussen verschillende talen die jij niet spreekt — en toch kun je alles volgen wat ze zeggen. Dit scenario vormde de inspiratie voor een nieuwe koptelefoon die met behulp van AI meerdere mensen tegelijkertijd verstaanbaar voor je maakt.
Gejatte koptelefoon-onderdelen
Er zijn al heel wat systemen die gebruik maken van kunstmatige intelligentie om een gesprek in real-time te vertalen. Denk aan de slimme Ray-Ban-bril van Meta. Maar deze diensten richten zich bijna allemaal op één spreker, en niet op meerdere mensen die tegelijkertijd in een andere taal praten. De vertalingen worden verder teruggekoppeld met een robotachtige stem.
Daar moet Spatial Speech Translation, zoals de makers aan de University of Washington hun systeem hebben genoemd, verandering in brengen. Om de speciale koptelefoon te maken, gebruikten de technici onderdelen uit een noise-cancelling koptelefoon van Sony en uit een binauraal exemplaar van Sonic Presence. Binaurale koptelefoons nemen geluid op vanuit twee verschillende richtingen.
Geen computerstem
Als het Spatial Speech Translation-systeem geluid heeft opgevangen, wordt het naar een laptop gestuurd waarmee de koptelefoon is verbonden. Deze laptop gebruikt twee AI-modellen om het gesprek te vertalen en terug te sturen naar de koptelefoon – met een vertraging van slechts 1 à 2 seconden.
Bovendien haalt een van de twee modellen de unieke kenmerken en toon van iemands stem uit het geluid, en past deze eigenschappen toe op de vertaalde woorden. Dat zorgt ervoor dat wanneer het vertaalde bericht de koptelefoon bereikt, het klinkt alsof het uit de richting van de spreker komt, en de stem sterk lijkt op die van de spreker. Geen computerstem meer dus.
Frans Duits
Het systeem is getraind met gesprekken in het Spaans, Frans en Duits, maar de onderzoekers zeggen dat het uiteindelijk ongeveer honderd talen zou kunnen herkennen. Ze werken op dit moment aan het verbeteren van de snelheid en nauwkeurigheid van het systeem. Ook hebben ze de code die het systeem aandrijft open source gemaakt, zodat anderen ermee kunnen experimenteren.
Bronnen: New Atlas, MIT Technology Review
Beeld: Shyam Gollakota/University of Washington