vrijdag 23 december 2016

Deftige woorden gezocht

Pavlína Riedlová

“Neem het mij niet kwalijk, maar ik heb het hele weekend een boekje van Popovič gelezen en ik moest nu ook een paar woordjes kwijt,” heb ik me onlangs verontschuldigd nadat ik een onschuldig meisje met een woordenstroom over de vertaalwetenschap overviel. Soms is het hoofd propvol woorden en soms zijn we van alle woorden af. De beste bron van kwaliteitswoorden is dan een corpus.

Het corpus is een verzameling teksten die meestal groter dan de Harry Potter-reeks is. Het is wel mogelijk dat een speciaal Harry Potter-corpus met alle toverspreuken en fabeldieren bestaat, maar meestal wordt onder het begrip corpus de representatieve verzameling teksten met miljoenen woorden verstaan. Deze collectie laat zien hoe de taal in een bepaalde periode gebruikt wordt.

Zoals op Harry Potter-corpora getoond werd, bestaan er meer soorten corpora. Ze zijn zowel synchronisch als diachronisch. Er bestaan corpora van de gesproken taal en van de schrijftaal. Men kan daarmee de taal in de literaire met die in de journalistieke teksten vergelijken. Wat voor een student van een willekeurig taal heel geschikt is, zijn de parallelle corpora die één tekst in twee talen naast elkaar laten zien.




In Tsjechië is het Instituut voor het Tsjechische nationale corpus met de corpora bezig. Op hun pagina krijgt men na een korte registratie gratis toegang tot de corpora. Behalve het corpus van de gesproken en geschreven Tsjechisch bieden ze ook een brieven-corpus, corpus van Praagse taal of het InterCorp. 

Het InterCorp is een parallel corpora dat uit teksten bestaat die in verschillende talen beschikbaar zijn. Zo kan je gedeelten van de roman De geruchten in het Nederlands en in het Tsjechisch zien. Tsjechisch dient hier als een zogenaamde pivot, een taal waarmee alle andere taalversies verbonden zijn. In het ideale geval zal naast één zin in het Tsjechisch dezelfde zin in het Nederlands staan. Zo gemakkelijk is het niet altijd. Bij een vertaling wordt met de structuur van de zin op allerlei manieren gemanipuleerd en een machine maakt dan fouten. Toch zijn de parallelle en anderstalige corpora van het Tsjechische instituut voor taalliefhebbers nuttig. Ze helpen zowel bij het creëren van een tekst in een vreemde taal als bij de vertaling naar eigen moedertaal.



“Ik heb het via Google gevonden.” Dat zinnetje heeft bijna iedereen weleens uitgesproken. Het is meestal de laatste poging om een eigen versie van een woordgroep voor een moedertaalspreker verdedigen. Zijn reactie is daarna: “Op Google kan je alles en noch wat vinden. Dat zal ik nooit zeggen. Het moet anders zijn.” Het corpus biedt een ander argument: “Het heeft Mulisch in Aanslag gebruikt.” De literaire teksten in het corpus werden door de redacteurs gecontroleerd wat het risico dat je een fout overneemt vermindert. Je kan een woord of een combinatie van woorden zoeken en dan kijken hoe vaak ze gebruikt werden of met welke woorden worden ze vaak verbonden. In tegenstelling tot het woordenboek geeft het corpus meer voorbeelden waarvoor in meeste woordenboeken weinig plaats is.



Daarna kan men het corpus bij het vertalen naar zijn moedertaal gebruiken. Het Tsjechische instituut biedt een speciaal werktuig dat Treq genoemd wordt en op InterCorp gebaseerd is. Hier kan men een woordje invullen en daarna verschenen alle vertaalmogelijkheden. Ter illustratie kunnen we het lastige woordje gezellig nemen. Om fouten te vermijden nemen we alleen vertalingen die meer dan drie keer voorkomen in de corpora. Meestal worden de woorden útulno, příjemná en příjemné gebruikt. Uit Treq kan men naar het klassieke InterCorp doorklikken waarin hij de zinnen kan vergelijken. Vergeleken met de directe opsporing in InterCorp, kan men niet aangeven, dat hij alleen in de teksten van moedertaal sprekers wil zoeken. Eén van de varianten kwam dus uit het boek Harry Potter, dat zowel in het Tsjechisch als in het Nederlands beschikbaar is, maar in beide talen is het een vertaling. Aan de andere kant, voor een snel synoniemenoverzicht is het meer dan voldoende.

Het corpus dient natuurlijk niet alleen als een bron van mooie woorden. Het is een handig instrument voor linguïstisch onderzoek en helpt ook met het samenstellen van woordenboeken. Het heeft één ding gemeenschappelijk met het leven. Lezen daarover is onvoldoende, je moet het beleven.


maandag 19 december 2016

Niemand begrijpt me

Pavlína Riedlová

Iedereen is een potentiële hypochonder. De linguïst vormt op deze regel geen uitzondering. Als hij een puber ziet die tegen zijn ouders schreeuwt: “Jullie begrijpen me helemaal niet,” dan denkt hij iets over generatieverschillen en hun invloed op de woordenschat. Zal hij zelf op een dag aan eigen collegae iets zonder succes proberen uit te leggen, dan denkt hij niet aan de generatieverschillen of aan beroepsjargon. Hij ligt die avond in zijn bed, staart naar het plafond en begint met de vaststelling van zijn diagnose. Het belangrijkste symptoom: “Ze begrijpen niet wat ik zeg.”

Het aantal mogelijke stoornissen is bij onze linguïst nogal beperkt en hij is er zich ook van bewust. Tot nu toe had hij geen moeite met het uitdrukken van zijn gedachten, dus alle aangeboren taalstoornissen vallen af. Aangeboren taalstoornissen manifesteren zich meestal tijdens de eerste tien jaren van het leven en ze kunnen of primair of secundair zijn. Primaire aangeboren taalstoornissen zijn voor de taalkundige interessanter dan de secundaire. Onder primaire stoornis wordt verstaan, dat de taalontwikkeling zonder een aanwijsbare oorzaak verstoord is. Er is niets mis met de spieren en het kind heeft ook geen van de aangeboren syndromen. Nee, het kind heeft uitsluitend moeite met de productie van de taal. Eén van de problematische gebieden is bijvoorbeeld de syntaxis. Een vraag maken is voor z’n kind moeilijk. Maar onze linguïst was een normaal vervelend kind met duizenden goede vragen zoals: “Wat is de secundaire aangeboren taalstoornis?” De secundaire taalstoornissen hebben een aanwijsbare oorzaak. Die kan zowel fysiek als psychisch zijn. Met de fysieke oorzaken is het nog gemakkelijk. Als iemand niets hoort dan kan hij natuurlijk niet spreken. Tot de psychische oorzaken behoort onder ander autisme. Onze linguïst kon zich snel aan een aantal vakkundige monolooguitwisselingen met zijn collegae herinneren maar het was meer een symptoom van de vakidiotie dan van het autisme.

Aangeboren is zijn stoornis niet, dus hij moet in de groep van niet-aangeboren taalstoornissen zoeken. Die zijn meestal het resultaat van een hersenbeschadiging die het gevolg van beroerte, val of infectieziekte kan zijn. De twee basisstoornissen heten afasie van Broca en afasie van Wernicke. Broca en Wernicke zijn centra in de hersenen die verantwoordelijk voor het gebruik van de taal zijn. Broca controleert de fysieke productie van de taal. Als een mens niet vloeiend kan praten, als hij te langzaam spreekt of moeite met morfologie heeft, dan is het hoogst waarschijnlijk dat zijn Broca, die meestal links in de frontale kwab gesitueerd is, beschadigd is. De linguïst spreekt een paar zinnetjes uit, maar hij hoort geen problemen. “Mijn Broca is dus kerngezond, omdat de patiënten met de beschadiging van Broca zich ervan bewust zijn dat ze niet vloeiend kunnen spreken”, vat hij op basis van zijn snelle test samen.


Het enige wat voor hem overblijft, is de afasie van Wernicke. Die klopt als een zwerende vinger. Hij denkt dat hij de anderen begrijpt en dat hij normaal praat maar eindelijk blijkt dat hij alles verkeerd begrijpt en onzin produceert. Wernicke is een gedeelte in de hersenen dat verantwoordelijk voor het verstaan van de taal is. Het Wernicke centrum zoekt bovendien in het mentale lexicon naar woorden die men uitspreekt. Patiënten met afasie van Wernicke reageren soms onverwachts op een vraag, die ze niet goed hebben begrepen en hun vloeiende antwoord die meestal grammaticaal correct is, heeft geen zin. “Ze zijn ervan ook niet bewust,” sluit onze linguïst zijn diagnose met het laatste kenmerk van zijn afasie af.