vrijdag 23 december 2016

Deftige woorden gezocht

Pavlína Riedlová

“Neem het mij niet kwalijk, maar ik heb het hele weekend een boekje van Popovič gelezen en ik moest nu ook een paar woordjes kwijt,” heb ik me onlangs verontschuldigd nadat ik een onschuldig meisje met een woordenstroom over de vertaalwetenschap overviel. Soms is het hoofd propvol woorden en soms zijn we van alle woorden af. De beste bron van kwaliteitswoorden is dan een corpus.

Het corpus is een verzameling teksten die meestal groter dan de Harry Potter-reeks is. Het is wel mogelijk dat een speciaal Harry Potter-corpus met alle toverspreuken en fabeldieren bestaat, maar meestal wordt onder het begrip corpus de representatieve verzameling teksten met miljoenen woorden verstaan. Deze collectie laat zien hoe de taal in een bepaalde periode gebruikt wordt.

Zoals op Harry Potter-corpora getoond werd, bestaan er meer soorten corpora. Ze zijn zowel synchronisch als diachronisch. Er bestaan corpora van de gesproken taal en van de schrijftaal. Men kan daarmee de taal in de literaire met die in de journalistieke teksten vergelijken. Wat voor een student van een willekeurig taal heel geschikt is, zijn de parallelle corpora die één tekst in twee talen naast elkaar laten zien.




In Tsjechië is het Instituut voor het Tsjechische nationale corpus met de corpora bezig. Op hun pagina krijgt men na een korte registratie gratis toegang tot de corpora. Behalve het corpus van de gesproken en geschreven Tsjechisch bieden ze ook een brieven-corpus, corpus van Praagse taal of het InterCorp. 

Het InterCorp is een parallel corpora dat uit teksten bestaat die in verschillende talen beschikbaar zijn. Zo kan je gedeelten van de roman De geruchten in het Nederlands en in het Tsjechisch zien. Tsjechisch dient hier als een zogenaamde pivot, een taal waarmee alle andere taalversies verbonden zijn. In het ideale geval zal naast één zin in het Tsjechisch dezelfde zin in het Nederlands staan. Zo gemakkelijk is het niet altijd. Bij een vertaling wordt met de structuur van de zin op allerlei manieren gemanipuleerd en een machine maakt dan fouten. Toch zijn de parallelle en anderstalige corpora van het Tsjechische instituut voor taalliefhebbers nuttig. Ze helpen zowel bij het creëren van een tekst in een vreemde taal als bij de vertaling naar eigen moedertaal.



“Ik heb het via Google gevonden.” Dat zinnetje heeft bijna iedereen weleens uitgesproken. Het is meestal de laatste poging om een eigen versie van een woordgroep voor een moedertaalspreker verdedigen. Zijn reactie is daarna: “Op Google kan je alles en noch wat vinden. Dat zal ik nooit zeggen. Het moet anders zijn.” Het corpus biedt een ander argument: “Het heeft Mulisch in Aanslag gebruikt.” De literaire teksten in het corpus werden door de redacteurs gecontroleerd wat het risico dat je een fout overneemt vermindert. Je kan een woord of een combinatie van woorden zoeken en dan kijken hoe vaak ze gebruikt werden of met welke woorden worden ze vaak verbonden. In tegenstelling tot het woordenboek geeft het corpus meer voorbeelden waarvoor in meeste woordenboeken weinig plaats is.



Daarna kan men het corpus bij het vertalen naar zijn moedertaal gebruiken. Het Tsjechische instituut biedt een speciaal werktuig dat Treq genoemd wordt en op InterCorp gebaseerd is. Hier kan men een woordje invullen en daarna verschenen alle vertaalmogelijkheden. Ter illustratie kunnen we het lastige woordje gezellig nemen. Om fouten te vermijden nemen we alleen vertalingen die meer dan drie keer voorkomen in de corpora. Meestal worden de woorden útulno, příjemná en příjemné gebruikt. Uit Treq kan men naar het klassieke InterCorp doorklikken waarin hij de zinnen kan vergelijken. Vergeleken met de directe opsporing in InterCorp, kan men niet aangeven, dat hij alleen in de teksten van moedertaal sprekers wil zoeken. Eén van de varianten kwam dus uit het boek Harry Potter, dat zowel in het Tsjechisch als in het Nederlands beschikbaar is, maar in beide talen is het een vertaling. Aan de andere kant, voor een snel synoniemenoverzicht is het meer dan voldoende.

Het corpus dient natuurlijk niet alleen als een bron van mooie woorden. Het is een handig instrument voor linguïstisch onderzoek en helpt ook met het samenstellen van woordenboeken. Het heeft één ding gemeenschappelijk met het leven. Lezen daarover is onvoldoende, je moet het beleven.


Geen opmerkingen:

Een reactie posten