Stichting Ilex


Stichting Ilex
Laplacestraat 51-I
1098 HS AMSTERDAM
Tel. 020-693 1191
email: (secr.ilex@hccnet.nl)
Postbank: 177997

Bestuur:
Voorzitter: prof. dr. Ben Arps, Leiden
Secretaris: Rob van Albada, Amsterdam
Penningmeester: Jos Janssen, Arnhem

De Stichting Ilex heeft tot doel het samenstellen van woordenboeken in de Indonesische talen, met name de belangrijke streektalen zoals Javaans, Balinees, Madoerees en dergelijke. Volgens opgave van het Indonesische Ministerie van Onderwijs en Cultuur is het aantal mensen dat thuis Javaans spreekt twee maal zo hoog als het aantal dergenen die het Bahasa Indonesia (de officiële landstaal) thuis gebruiken. [(ca. 2001) Resp. 70 miljoen Javaans sprekenden tegenover 35 miljoen Indonesisch sprekenden.)]

Recente woordenboeken voor deze talen bestaan helaas niet. De Javaanse woordenboeken van Jansz en van Pigeaud dateren van 1938 en zijn verouderd en in hoge mate onvolledig. Er bestaat een goed Soendaas woordenboek van Eringa (uitgave KITLV) maar voor het Balinees beschikken we alleen over een korte woordenlijst in het leerboek van Pater Kersten (uitverkocht) en voor het Madoerees in er helemaal niets, evenals voor het Bataks.

Daarom is ons eerste en belangrijkste project het samenstellen van een Javaans woordenboek. We gaan hierbij uit van een verzameling teksten (het corpus) die door de computer "gelezen" worden en waaruit de computer automatisch woordenlijsten samenstelt, compleet met bronvermelding, paginanummer en grondwoord.

In 1996 hebben we met een subsidie van de Nederlandse Taalunie materiaal verzameld in Midden Java: voorbeelden van spreektaal in verschillende dialecten. We hebben opnamen uit Yogya, Gundhih (ten N. van Sala), Tegal, Banyumas en Banjarnegara. Daarnaast hebben we (ongesubsidieerd) in 2000 materiaal verzameld in Surabaya en Malang.

Dit materiaal bestaat uit cassettes met opnamen van gesprekken (spreektaal dus) en computerbestanden met de uitgetypte inhoud van de opnamen. Op dit moment wordt de "morphological parser" (geschreven door Rob van Albada) aangepast om de nieuwe woorden in bovengenoemde teksten te kunnen herkennen. Ander materiaal waarover wij beschikken: De proza-editie van de Babad Tanah Jawa, de Serat Centhini, de Darmagandhul (ngoko), diverse romans en korte verhalen. Van de Centhini is (vrijwel) alles gescand en met OCR ingelezen. Helaas is de druk vrij slecht, zodat het OCR-programma nogal wat fouten heeft gemaakt waarvan nog slechts een deel is gecorrigeerd.

Het spreektaalcorpus zal de primaire bron zijn voor het woordenboek.

Op dit moment bedraagt het aantal grondwoorden dat we in het corpus hebben aangetroffen ruim 18.000. Het aantal overige woordvormen dat correct door de parser geanalyseerd wordt, bedraagt momenteel ruim 24.000. Beide lijsten nemen nog geregeld in omvang toe. (April 2002)

Februari 2006:

Inmiddels is er veel veranderd. We hebben besloten om het woordenboek niet van de grond af op te bouwen, maar om uit te gaan van het bestaande woordenboek van Pigeaud, dat verschenen is in 1938. 'Pigeaud' bevat ruim 43200 trefwoorden, meer dan enig ander Javaans woordenboek.
Pigeaud hebben we gescand op 600 dpi (een hoge resolutie vanwege de kleine letter) en vervolgens gelezen met FineReader OCR, een tekstherkenningsprogramma van Russische makelij. (Scannen levert plaatjes op, géén tekst. OCR kan tekst herkennen en in een tekstbestand zetten.) Helaas is zelf FineReader nog niet foutloos; naar schatting werden er ongeveer twintigduizend tekens niet goed herkend. Vaak werd het cijfer '1' voor de letter 'l' aangezien of andersom, de onderpunte t werd vaak gelezen als 'fx' of zoiets, een 'e' werd gezien als 'c' enzovoort. Er was een aantal correctierondes nodig om (bijna) alle fouten eruit te halen. Daarna werden de Javaanse velden door de computer omgezet in de nieuwe spelling: 'oe' werd 'u', 'dj' werd 'j', 'tj' werd 'c' enzovoort. Omdat de spelling veranderd was, moest het woordenboek ook opnieuw gesorteerd worden. Ook dat is gedaan met behulp van onze computer in Solo.

Inmiddels zijn ruim 3300 nieuwe woorden of woordbetekenissen ingevoerd en is de vertaling van met name muziek- en dansterminologie aanzienlijk verbeterd. Komende zomer is Rob van Albada opnieuw in Solo, en zal wederom een groot aantal nieuwe trefwoorden worden toegevoegd. 'Nieuwe' (d.w.z. niet in 'Pigeaud' voorkomende) woordjes uit diverse teksten zullen ter vertaling worden voorgelegd aan deskundigen (Lukman Aris en Endang Tri Winarni).

Eind 2006 zal de definitieve versie worden ingeleverd bij het KITLV te Leiden. Nadat de layout voltooid is, kan het begin 2007 worden gedrukt.

RvA.

November 2006:

Het aantal nieuwe lemma's is toegenomen tot ongeveer 5800. (Niet hierbij gerekend zijn woorden op het gebied van karawitan. Naar verwachting kan binnen een maand het woordenboek worden aangeboden aan het KITLV.

Maart 2007:

Het aantal nieuwe lemma's en sublemma's heeft de 6000 overschreden. Het woordenboek is inmiddels ingeleverd bij het KITLV. Het zal worden uitgegeven in het zelfde formaat als het bekende Indonesisch-Nederlandse Woordenboek van Teeuw. Het zal ongeveer 1080 pagina's bevatten, het voorwoord niet meegerekend. We hopen dat het ongeveer eind Mei zal uitkomen.

Juni 2007:

Er is enige vertraging geweest, maar het woordenboek ligt nu bij de drukker, die heeft aangegeven ongeveer vier weken nodig te hebben. Eind Juni of begin Juli kunnen we het nieuwe woordenboek tegemoet zien!

Juli 2007

Op 5 Juli is het woordenboek (van 1086 pagina's ongeteld de inleiding) door de binder afgeleverd bij het KITLV. Het formaat en de kleur zijn gelijk aan die van het Indonesisch-Nederlandse woordenboek van Prof. Teeuw. Het KITLV bereidt een presentatie voor die naar verwachting binnenkort zal plaatshebben.

October 2007

Na de presentatie van het woordenboek op 26 October 2007 is het woordenboek nu echt officieel uitgegeven. Het wordt verkocht door het KITLV voor de prijs van €49,50.
Leden van het KITLV krijgen 25 procent korting.
Rob van Albada zal op 19 November a.s. opnieuw naar Solo reizen om daar informatie te zoeken over circa 4000 nieuwe woorden die hij in de tweede druk wil opnemen. Hierbij zijn ruim duizend woorden uit de Centhini. De overige drieduizend woorden komen uit romans en uit interviews.

April 2008

Van Albada is inmiddels terug uit Solo. Al vrij kort naa aankomst heeft hij een huis gehuurd voor de duur van tien jaar met de bedoeling daar elk jaar vier maanden te verblijven om aan het woordenboek te werken. Tien dagen na zijn verhuizing was er een grote overstroming in Solo en stond het water in zijn oude huis 1,30 m hoog! Het nieuwe huis is gelukkig hiervan gevrijwaard gebleven. Omdat het nieuwe huis nog ingericht en hier en daar verbouwd moest worden is er kostbare tijd verloren gegaan. Daardoor is het aantal nieuwe woorden dat in de computer ingevoerd is beperkt gebleven tot 2100. Er was dus bij vertrek een achterstand op de planning (3000 nieuwe woorden minimaal) van ca. 900 woorden. Deze achterstand zal de komende maanden worden ingelopen. Bij de ingevoerde nieuwe woorden is het dialect van Banyumas goed vertegenwoordigd.

Augustus 2008

Inmiddels zijn alle drieduizend nieuwe woorden ingevoerd zoals gepland. Tijdens de komende reis zal gekeken worden naar nieuwe woorden uit de spreektaalbestanden en uit romans van Soeparto Brata. De spreektaalbestanden betreffen teksten in verschillende dialecten: Gundhih, Banjarnegara, Banyumas en Tegal.

Tot onze grote vreugde heeft het Prins Bernhard Cultuurfonds ons een subsidie van €4000 toegekend. Deze zal gebruikt worden om de kosten van de reis 2008-2009 te dekken.

October 2009 – op naar de 15.000!

Het totaal aantal nieuwe woorden (nauwkeuriger: nieuwe lexicale eenheden) heeft de 12.000 overschreden. Dat wil zeggen dat er ná de druk van 2007 nog eens ruim 6.000 nieuwe lexicale eenheden aan het woordenboek zijn toegevoegd. In de komende maanden zal Van Albada daar nog eens drieduizend bij doen, zodat het grand total zal uitkomen op 15.000. Inmiddels zijn helemaal verwerkt de spreektaalteksten uit Banyumas, Gundhih en Banjarnegara. In de periode November 2009 tot en met Maart 2010 zullen woorden worden toegevoegd uit Yogya, Surabaya en Tegal. Een bescheiden begin zal worden gemaakt met woorden uit de opnames in Serang (Banten). Daarnaast zullen nog enkele honderden woorden uit de Serat Cĕnthini woden opgenomen.

Rob van Albada en Th. Pigeaud: Javaans-Nederlands woordenboek. Herziene uitgave gemoderniseerd en aangevuld. KITLV Uitgeverij Leiden 2007. Pp xxxii+1086;
ISBN 978 90 6718 208 9

Contents/Inhoud/Isi:

Texten/Texts/Teks:

Om copyrightredenen kunnen we helaas niet alle teksten ter beschikking stellen.

-Sêrat Darmagandhul in proza (ngoko) versie (ca. 190kB).

-Stuur ons een email

Diversen/Sundries/Macam-Macam:

Het VA/AVMI project onder leiding van Ben Arps doet vergelijkend onderzoek naar literatuur en theater in de moderne media. Link: VA/AVMI
-Terug/Back/Tilbake/Retour/Kembali/Wangsul




Laatste update: 2-8-2008