Deftige woorden gezocht
Pavlína Riedlová
“Neem het mij
niet kwalijk, maar ik heb het hele weekend een boekje van Popovič gelezen en ik
moest nu ook een paar woordjes kwijt,” heb ik me onlangs verontschuldigd nadat
ik een onschuldig meisje met een woordenstroom over de vertaalwetenschap
overviel. Soms is het hoofd propvol woorden en soms zijn we van alle woorden
af. De beste bron van kwaliteitswoorden is dan een corpus.
Het corpus is een
verzameling teksten die meestal groter dan de Harry Potter-reeks is. Het is wel
mogelijk dat een speciaal Harry Potter-corpus met alle toverspreuken en
fabeldieren bestaat, maar meestal wordt onder het begrip corpus de
representatieve verzameling teksten met miljoenen woorden verstaan. Deze collectie
laat zien hoe de taal in een bepaalde periode gebruikt wordt.
Zoals op Harry
Potter-corpora getoond werd, bestaan er meer soorten corpora. Ze zijn zowel
synchronisch als diachronisch. Er bestaan corpora van de gesproken taal en van
de schrijftaal. Men kan daarmee de taal in de literaire met die in de journalistieke teksten vergelijken. Wat voor een student van een willekeurig taal heel geschikt is, zijn de parallelle corpora die één tekst in twee talen naast elkaar laten zien.
In Tsjechië is het
Instituut voor het Tsjechische nationale corpus met de corpora bezig. Op hun
pagina krijgt men na een korte registratie gratis toegang tot de corpora.
Behalve het corpus van de gesproken en geschreven Tsjechisch bieden ze ook een
brieven-corpus, corpus van Praagse taal of het InterCorp.
Het InterCorp is
een parallel corpora dat uit teksten bestaat die in verschillende talen
beschikbaar zijn. Zo kan je gedeelten van de roman De geruchten in het Nederlands en in het Tsjechisch zien.
Tsjechisch dient hier als een zogenaamde pivot, een taal waarmee alle andere
taalversies verbonden zijn. In het ideale geval zal naast één zin in het
Tsjechisch dezelfde zin in het Nederlands staan. Zo gemakkelijk is het niet
altijd. Bij een vertaling wordt met de structuur van de zin op allerlei
manieren gemanipuleerd en een machine maakt dan fouten. Toch zijn de parallelle
en anderstalige corpora van het Tsjechische instituut voor taalliefhebbers
nuttig. Ze helpen zowel bij het creëren van een tekst in een vreemde taal als
bij de vertaling naar eigen moedertaal.
“Ik heb het via
Google gevonden.” Dat zinnetje heeft bijna iedereen weleens uitgesproken. Het
is meestal de laatste poging om een eigen versie van een woordgroep voor een
moedertaalspreker verdedigen. Zijn reactie is daarna: “Op Google kan je alles
en noch wat vinden. Dat zal ik nooit zeggen. Het moet anders zijn.” Het corpus
biedt een ander argument: “Het heeft Mulisch in Aanslag gebruikt.” De literaire
teksten in het corpus werden door de redacteurs gecontroleerd wat het risico
dat je een fout overneemt vermindert. Je kan een woord of een combinatie van
woorden zoeken en dan kijken hoe vaak ze gebruikt werden of met welke woorden
worden ze vaak verbonden. In tegenstelling tot het woordenboek geeft het corpus
meer voorbeelden waarvoor in meeste woordenboeken weinig plaats is.
Daarna kan men
het corpus bij het vertalen naar zijn moedertaal gebruiken. Het Tsjechische instituut
biedt een speciaal werktuig dat Treq genoemd wordt en op InterCorp gebaseerd
is. Hier kan men een woordje invullen en daarna verschenen alle
vertaalmogelijkheden. Ter illustratie kunnen we het lastige woordje gezellig
nemen. Om fouten te vermijden nemen we alleen vertalingen die meer dan drie
keer voorkomen in de corpora. Meestal worden de woorden útulno, příjemná en
příjemné gebruikt. Uit Treq kan men naar het klassieke InterCorp doorklikken
waarin hij de zinnen kan vergelijken. Vergeleken met de directe opsporing in
InterCorp, kan men niet aangeven, dat hij alleen in de teksten van moedertaal
sprekers wil zoeken. Eén van de varianten kwam dus uit het boek Harry Potter,
dat zowel in het Tsjechisch als in het Nederlands beschikbaar is, maar in beide
talen is het een vertaling. Aan de andere kant, voor een snel synoniemenoverzicht
is het meer dan voldoende.
Het corpus dient natuurlijk niet alleen als
een bron van mooie woorden. Het is een handig instrument voor
linguïstisch onderzoek en helpt ook met het samenstellen van woordenboeken. Het
heeft één ding gemeenschappelijk met het leven. Lezen daarover is onvoldoende,
je moet het beleven.
Geen opmerkingen:
Een reactie posten