Stichting Ilex
Laplacestraat 51-I
1098 HS AMSTERDAM
Tel. 020-693 1191
email: (secr.ilex@hccnet.nl)
Postbank: 177997
De Stichting Ilex heeft tot doel het samenstellen van woordenboeken in de Indonesische talen, met name de belangrijke streektalen zoals Javaans, Balinees, Madoerees en dergelijke. Volgens opgave van het Indonesische Ministerie van Onderwijs en Cultuur is het aantal mensen dat thuis Javaans spreekt twee maal zo hoog als het aantal dergenen die het Bahasa Indonesia (de officiële landstaal) thuis gebruiken. [(ca. 2001) Resp. 70 miljoen Javaans sprekenden tegenover 35 miljoen Indonesisch sprekenden.)]
Recente woordenboeken voor deze talen bestaan helaas niet. De Javaanse woordenboeken van Jansz en van Pigeaud dateren van 1938 en zijn verouderd en in hoge mate onvolledig. Er bestaat een goed Soendaas woordenboek van Eringa (uitgave KITLV) maar voor het Balinees beschikken we alleen over een korte woordenlijst in het leerboek van Pater Kersten (uitverkocht) en voor het Madoerees in er helemaal niets, evenals voor het Bataks.
Daarom is ons eerste en belangrijkste project het samenstellen van een Javaans woordenboek. We gaan hierbij uit van een verzameling teksten (het corpus) die door de computer "gelezen" worden en waaruit de computer automatisch woordenlijsten samenstelt, compleet met bronvermelding, paginanummer en grondwoord.
In 1996 hebben we met een subsidie van de Nederlandse Taalunie materiaal verzameld in Midden Java: voorbeelden van spreektaal in verschillende dialecten. We hebben opnamen uit Yogya, Gundhih (ten N. van Sala), Tegal, Banyumas en Banjarnegara. Daarnaast hebben we (ongesubsidieerd) in 2000 materiaal verzameld in Surabaya en Malang.
Dit materiaal bestaat uit cassettes met opnamen van gesprekken (spreektaal dus) en computerbestanden met de uitgetypte inhoud van de opnamen. Op dit moment wordt de "morphological parser" (geschreven door Rob van Albada) aangepast om de nieuwe woorden in bovengenoemde teksten te kunnen herkennen. Ander materiaal waarover wij beschikken: De proza-editie van de Babad Tanah Jawa, de Serat Centhini, de Darmagandhul (ngoko), diverse romans en korte verhalen. Van de Centhini is (vrijwel) alles gescand en met OCR ingelezen. Helaas is de druk vrij slecht, zodat het OCR-programma nogal wat fouten heeft gemaakt waarvan nog slechts een deel is gecorrigeerd.
Het spreektaalcorpus zal de primaire bron zijn voor het woordenboek.
Op dit moment bedraagt het aantal grondwoorden dat we in het corpus hebben aangetroffen ruim 18.000. Het aantal overige woordvormen dat correct door de parser geanalyseerd wordt, bedraagt momenteel ruim 24.000. Beide lijsten nemen nog geregeld in omvang toe. (April 2002)
Inmiddels
is er veel veranderd. We hebben besloten om het woordenboek niet van de grond
af op te bouwen, maar om uit te gaan van het bestaande woordenboek van Pigeaud,
dat verschenen is in 1938. 'Pigeaud' bevat ruim 43200 trefwoorden, meer dan
enig ander Javaans woordenboek.
Pigeaud hebben we gescand op 600 dpi (een hoge resolutie vanwege de kleine
letter) en vervolgens gelezen met FineReader OCR, een tekstherkenningsprogramma
van Russische makelij. (Scannen levert plaatjes op, géén tekst. OCR kan tekst
herkennen en in een tekstbestand zetten.) Helaas is zelf FineReader nog niet
foutloos; naar schatting werden er ongeveer twintigduizend tekens niet goed
herkend. Vaak werd het cijfer '1' voor de letter 'l' aangezien of andersom, de
onderpunte t werd vaak gelezen als 'fx' of zoiets, een 'e' werd gezien als 'c'
enzovoort. Er was een aantal correctierondes nodig om (bijna) alle fouten eruit
te halen. Daarna werden de Javaanse velden door de computer omgezet in de
nieuwe spelling: 'oe' werd 'u', 'dj' werd 'j', 'tj' werd 'c' enzovoort. Omdat
de spelling veranderd was, moest het woordenboek ook opnieuw gesorteerd worden.
Ook dat is gedaan met behulp van onze computer in Solo.
Inmiddels zijn ruim 3300 nieuwe woorden of woordbetekenissen ingevoerd en is de vertaling van met name muziek- en dansterminologie aanzienlijk verbeterd. Komende zomer is Rob van Albada opnieuw in Solo, en zal wederom een groot aantal nieuwe trefwoorden worden toegevoegd. 'Nieuwe' (d.w.z. niet in 'Pigeaud' voorkomende) woordjes uit diverse teksten zullen ter vertaling worden voorgelegd aan deskundigen (Lukman Aris en Endang Tri Winarni).
Eind 2006 zal de definitieve versie worden ingeleverd bij het KITLV te Leiden. Nadat de layout voltooid is, kan het begin 2007 worden gedrukt.
RvA.
Het
aantal nieuwe lemma's is toegenomen tot ongeveer 5800. (Niet hierbij gerekend
zijn woorden op het gebied van karawitan. Naar verwachting kan binnen
een maand het woordenboek worden aangeboden aan het KITLV.
Het
aantal nieuwe lemma's en sublemma's heeft de 6000 overschreden. Het woordenboek
is inmiddels ingeleverd bij het KITLV. Het zal worden uitgegeven in het zelfde
formaat als het bekende Indonesisch-Nederlandse Woordenboek van Teeuw. Het zal
ongeveer 1080 pagina's bevatten, het voorwoord niet meegerekend. We hopen dat
het ongeveer eind Mei zal uitkomen.
Er
is enige vertraging geweest, maar het woordenboek ligt nu bij de drukker, die
heeft aangegeven ongeveer vier weken nodig te hebben. Eind Juni of begin Juli
kunnen we het nieuwe woordenboek tegemoet zien!
Op 5
Juli is het woordenboek (van 1086 pagina's ongeteld de inleiding) door de
binder afgeleverd bij het KITLV. Het formaat en de kleur zijn gelijk aan die
van het Indonesisch-Nederlandse woordenboek van Prof. Teeuw. Het KITLV bereidt
een presentatie voor die naar verwachting binnenkort zal plaatshebben.
Na
de presentatie van het woordenboek op 26 October 2007 is het woordenboek nu
echt officieel uitgegeven. Het wordt verkocht door het KITLV voor de prijs van
€49,50.
Leden van het KITLV krijgen 25 procent korting.
Rob van Albada zal op 19 November a.s. opnieuw naar Solo reizen om daar
informatie te zoeken over circa 4000 nieuwe woorden die hij in de tweede druk
wil opnemen. Hierbij zijn ruim duizend woorden uit de Centhini. De
overige drieduizend woorden komen uit romans en uit interviews.
Van
Albada is inmiddels terug uit Solo. Al vrij kort naa aankomst heeft hij een
huis gehuurd voor de duur van tien jaar met de bedoeling daar elk jaar vier
maanden te verblijven om aan het woordenboek te werken. Tien dagen na zijn
verhuizing was er een grote overstroming in Solo en stond het water in zijn oude
huis 1,30 m hoog! Het nieuwe huis is gelukkig hiervan gevrijwaard gebleven.
Omdat het nieuwe huis nog ingericht en hier en daar verbouwd moest worden is er
kostbare tijd verloren gegaan. Daardoor is het aantal nieuwe woorden dat in de
computer ingevoerd is beperkt gebleven tot 2100. Er was dus bij vertrek een
achterstand op de planning (3000 nieuwe woorden minimaal) van ca. 900 woorden.
Deze achterstand zal de komende maanden worden ingelopen. Bij de ingevoerde
nieuwe woorden is het dialect van Banyumas goed vertegenwoordigd.
Inmiddels
zijn alle drieduizend nieuwe woorden ingevoerd zoals gepland. Tijdens de
komende reis zal gekeken worden naar nieuwe woorden uit de spreektaalbestanden
en uit romans van Soeparto Brata. De spreektaalbestanden betreffen teksten in
verschillende dialecten: Gundhih, Banjarnegara, Banyumas en Tegal.
Tot onze grote vreugde heeft het Prins Bernhard Cultuurfonds ons
een subsidie van €4000 toegekend. Deze zal gebruikt worden om de kosten van de
reis 2008-2009 te dekken.
Texten/Texts/Teks:
Om copyrightredenen kunnen we helaas niet alle teksten ter beschikking stellen.
-Sêrat Darmagandhul in proza (ngoko) versie (ca. 190kB).
Diversen/Sundries/Macam-Macam:
Het VA/AVMI project onder leiding van Ben Arps doet vergelijkend onderzoek
naar literatuur en theater in de moderne media. Link: VA/AVMI
-Terug/Back/Tilbake/Retour/Kembali/Wangsul
Laatste update: 2-8-2008