Google translate logo in oog van vrouw
Source Google Translate logo: Google

Google Translate: Is het AI of nie?

In de categorie ‘Is het AI of nie?’ wordt uitgelegd of een toepassing gebruikmaakt van artificial intelligence (AI) of niet. Deze keer is de hoofdrol voor Google Translate. Google Translate is de online vertalingstool van Google. Je typt, spreekt of fotografeert een tekst, en deze wordt vertaald naar een van de meer dan 100 beschikbare talen. Snel, en met een redelijke, maar zeker niet perfecte kwaliteit. Hoe werkt het?

Je hebt als kind misschien wel eens een geheimtaal gemaakt, bijvoorbeeld door elke letter één plaats op te schuiven. Zo werd ‘hallo’ bijvoorbeeld ‘ibmmp’. Om van normale taal naar je geheimtaal te gaan hoef je maar één regel te programmeren en je vertaler werkt. Wanneer het gaat om echte talen werkt dit natuurlijk niet. Je maakt van Nederlands niet ineens een andere taal door de letters anders te schrijven. Het gaat veel meer om woorden die op een andere manier worden geschreven en uitgesproken en daarnaast is ook de grammatica van andere talen anders.

Steen van Rosetta

Zouden computers een taal dan net zo leren als mensen? Mensen leren een taal door lijstjes van woorden in twee talen uit hun hoofd te leren, en ze leren de verschillende grammaticaregels. Door deze dingen te combineren kunnen ze zinnen opbouwen en gesprekken in de nieuwe taal voeren. Maar omdat voor elke taal de regels anders zijn, en er vaak weer een heleboel uitzonderingen op de regels bestaan, leidt dit tot een zeer ingewikkeld programma.

Daarom maken vertalingsprogramma’s gebruik van een andere methode, vergelijkbaar met de Steen van Rosetta. De Steen van Rosetta is een oud-Egyptisch document (op steen uitgehouwen) dat in 1799 werd ontdekt. Op deze steen staat een tweetalige tekst, geschreven in 3 verschillende schriften: Egyptische hiërogliefen, het Egyptische demotische schrift, en het Koinè-Grieks. Doordat onderzoekers het Koinè-Grieks kenden, konden zij aan de hand daarvan de hiërogliefen ontcijferen.

Je kunt de werkwijze van Google Translate hier een beetje mee vergelijken. Door te kijken naar tweetalige teksten wordt gezocht naar voorbeelden die kunnen helpen bij het vertalen van de opgevraagde zin. In het begin maakte Google Translate gebruik van ‘statistical machine translation’. Hierbij werden teksten (bijna) altijd eerst naar Engels vertaald, en dan naar de gevraagde tekst. Dit alles op basis van tweetalige documenten en statistische modellen om de juiste vertaling te voorspellen. Dit gaat niet altijd goed, bijvoorbeeld als een woord meerdere betekenissen heeft in een andere taal.

Google Translate

Als je bijvoorbeeld van het Nederlandse woord ‘jullie’ naar het Engelse woord ‘you’ gaat, dan kan dit in het Frans terugvertalen naar ‘tu’ (je) terwijl de correctie vertaling ‘vous’ is. In het begin keken dit soort algoritmes woord voor woord naar een tekst, maar dat leverde veel van dit soort fouten op. Later werd er op zinsniveau gekeken, wat de prestaties al iets verbeterde. Verder kan zo’n systeem verbeterd worden door feedback van gebruikers. Wanneer zij aangeven dat een bepaalde vertaling onjuist is, is dit voor het algoritme weer nieuwe informatie om op verder te trainen. Sommige vertalingen op Google Translate zijn verified: dit wordt gedaan door menselijke contributors (vrijwilligers die meehelpen met Google Translate).

Voor sommige talen is Google Translate overgestapt naar een ‘Neural Machine Translation’ algoritme. Hierin wordt de tekst niet langer opgeknipt in stukjes die vertaald worden, maar worden hele zinnen vertaald op basis van hun betekenis. Op basis van miljoenen voorbeelden (nog steeds tweetalige teksten) kan de context beter worden begrepen en de vertaling beter aansluiten bij die context. Je kunt je voorstellen dat dit betere vertalingen oplevert dan het eerder beschreven algoritme, omdat het beter let op context. In het voorbeeld van het vertalen van ‘jullie’ zal het nu bijvoorbeeld op basis van de werkwoordsvorm opmerken dat het gaat om meerdere mensen, en niet de fout maken om naar het enkelvoud te gaan.

AI of nie?

En… Is ’t AI of nie? Ja!

Uiteraard worden er nog steeds fouten gemaakt. Hoe minder voorbeelden van een taal beschikbaar zijn, hoe minder goed het algoritme getraind is op die talen, en hoe meer fouten er dus kunnen worden gemaakt. Zoals bij veel AI-toepassingen is de kwaliteit en diversiteit van de data bepalend voor de kwaliteit van de toepassing. Bij Google Translate komt dit bijvoorbeeld terug in stereotypes over bepaalde beroepen in vertalingen. Vertaal bijvoorbeeld ‘die Doktorin” (vrouwelijke dokter in het Duits) naar Frans en je krijgt “le docteur” (de mannelijke dokter). In langere zinnen gaat het wel goed wanneer er meer vrouwelijke woorden in de zin worden opgenomen. Een van de redenen hiervan is dat in het Engels dit soort verschillen tussen mannelijke en vrouwelijke vormen niet bestaan.

Google Translate heeft wel geprobeerd hier iets aan te doen, door bij woorden die in twee vormen vertaald kunnen worden ook zodanig uit te leggen. Neem je vervolgens dat woord op in een korte zin, dan wordt toch weer vaak de stereotype vorm gekozen. Vertaal je ‘the developer is a woman’ naar het Frans dan krijg je ‘le développeur est une femme’, terwijl ‘la développeuse’ de juiste vrouwelijke vorm is. Andersom: wanneer je ‘the nurse is a man’ vertaalt naar het Frans krijg je ‘l’infimière est un homme’ terwijl de mannelijke vorm ‘infirmier’ is. Kortom, de vooroordelen zijn de vertalingen nog niet uit!

Zeen is a next generation WordPress theme. It’s powerful, beautifully designed and comes with everything you need to engage your visitors and increase conversions.