Professional Documents
Culture Documents
1,2,3)
Fakultas Teknologi Informasi
Jl. Let.Jend.S.Parman no. 1, Jakarta 11440 Indonesia
1)
email : dalinaga@gmail.com, 2) email : viny@untar.ac.id, 1) email : fred_lyx@yahoo.com
ABSTRACT
Almost all words in Indonesian consist of syllables. Occasionally due to certain reasons the words have to be
segmented or cut into pieces by putting hyphens between them. In Indonesian there are rules as to where in the
word the hyphens should be placed. In order that the hyphenation could be done by computer program some
rules even with their exceptions have to be introduced into the program. At this occasion we begin this
hyphenation rules at the first syllables of the words starting with letter B.
Key words
Information Retrieval, Natural Language Processing, Pemenggalan kata
1. Pendahuluan
Sejak komputer berhasil diciptakan orang, di kalangan pakar komputer timbul keinginan untuk
menggunakannya sebagai alat penerjemah bahasa. Mereka menamakannya mesin penerjemah. Ternyata
keinginan ini tidak mudah dilaksanakan karena bahasa tidak mengenal aturan yang ketat seperti halnya aturan
pada matematika atau logika. Sekalipun demikian, dari keinginan demikian muncul bidang pengetahuan baru
yang berkenaan dengan komputer dan bahasa. Di antaranya muncul bidang pengetahuan seperti linguistik
komputasional dan bahkan inteligensi buatan. Di bidang tersebut pun muncul berbagai ilmu yang berkaitan
dengan bahasa seperti Information Retrieval dan Natural Language Processing.
NLP adalah salah satu bidang ilmu dalam computer science dan linguistik yang berkonsentrasi pada interaksi
antara mesin dan bahasa alami manusia [1]. Sedangkan IR adalah ilmu yang berkaitan dengan representasi,
penyimpanan, pengelolaan, dan pengaksesan terhadap informasi [2]. Pada saat ini NLP sudah banyak digunakan
sebagai teknik dalam IR. Di dalam taksonomi computer science pada gambar 1, IR berada di bawah NLP. Dan
teknik yang terdapat di dalam NLP dapat digunakan untuk mengembangkan IR.
Computer
Semantics Parsing
Mesin penerjemah adalah salah satu aplikasi dalam NLP yang terus diteliti agar dapat dihasilkan mesin
penerjemah yang dapat menerjemahkan bahasa yang satu ke dalam bahasa yang lain. Pembangunan mesin
penerjemah haruslah melalui beberapa tahap dan salah satu di antaranya adalah pengenalan kata untuk
memperoleh makna dari sebuah kalimat. Di bidang IR dan NLP dikenal pula kajian mengenai pemrosesan
naskah (text processing). Salah satu kajian di bidang pemrosesan naksah adalah pengenalan kata oleh komputer
melalui kaidah tertentu.
Di dalam NLP dikenal beberapa tingkatan pengenalan kata yaitu fonologi, morfologi, leksikal, sintaktik,
semantik, discourse dan pragmatik [3]. Untuk dapat mencapai tingkat paling atas yaitu pragmatik diperlukan
pengetahuan mengenai fonologi, morfologi, dan seterusnya. Permasalahan yang muncul dalam NLP adalah
komputer harus dapat memodelkan morfologi dari kata untuk mengerti sebuah kalimat dan morfologi tersebut
digunakan untuk membangun kalimat yang betul. Banyak penelitian telah dilakukan untuk memperoleh hasil
pengenalan kata yang betul. Mereka dimulai dari pemotongan imbuhan untuk dapat memperoleh kata dasar
sampai ke memberikan part-of-speech tagging untuk dapat mengenali jenis kata dan pengenalan subyek,
predikat, dan obyek.
Stemmer adalah pemotongan imbuhan pada kata berimbuhan untuk mendapatkan kata dasar. Stemmer untuk
bahasa Indonesia sudah banyak diteliti. Nazief melakukan penelitian pemotongan imbuhan berdasarkan kamus
bahasa Indonesia [4]. Dalam hal ini kualitas stemmer selalu berdasarkan besarnya kamus yang digunakan.
Selain itu kelemahan dari stemmer Nazief adalah panjangnya waktu yang diperlukan dalam proses pencarian
kata di dalam kamus.
Fadillah F. Tala melakukan penelitian pemotongan imbuhan berdasarkan aturan morfologi pada bahasa
Indonesia dan mengadaptasi stemmer Porter dalam bahasa Inggris [5]. Kesalahan yang umum terjadi pada
algoritma stemmer untuk bahasa Indonesia adalah overstemming atau understemming. Kesalahan ini terjadi
karena dalam algoritma stemmer, kata langsung dipenggal mulai dari akhir atau awal kata. Contoh
overstemming adalah berbadan => bad seharusnya badan. Sedangkan contoh understemming adalah mengecek
=> ecek seharusnya cek.
Part of Speech tagging (POS-Tagging) adalah proses menandai kata-kata pada teks (korpus) berkenaan
dengan part-of-speech tertentu berdasarkan definisi maupun konteksnya [6]. Bentuk-bentuk sederhananya
adalah identifikasi kata-kata sebagai kata benda (noun), kata kerja (verb), kata sifat (adjective), kata keterangan
(adverb), dan lain-lain. Beberapa penelitian telah berhasil menemukan bagaimana cara memberikan tagging
secara otomatis untuk bahasa Inggris.
Tagger Brill adalah salah satu POS-tagging untuk bahasa Inggris berdasarkan aturan lingustik dari suatu
bahasa [7] seperti aturan leksikal penggunaan imbuhan. Tagger Brill banyak diadaptasi untuk bahasa lain seperti
untuk bahasa Indonesia namun dalam hal ini masih muncul banyak kesalahan karena pengenalan kata imbuhan
yang masih salah. Di dalam tagger Brill diperoleh aturan leksikal seperti kan hassuf 3 VB yang berarti dalam
kata terdapat akhiran –kan. Namun dalam penerapannya masih terdapat kekeliruan berupa tagger tidak dapat
mengenal pemenggalan kata yang betul. Kata makan dan perkenalkan dianggap merupakan kata yang memiliki
akhiran –kan.
Penelitian ini akan membahas pengenalan kata. Pengenalan kata demikian berguna pada olah kata
(wordprocessing) di dalam komputer. Melalui kaidah tertentu, pengenalan kata ini dapat digunakan untuk
pemeriksaan betul-tidaknya ejaan dan bahkan lebih jauh lagi sampai ke pemeriksaan betul-tidaknya tata bahasa.
Diharapkan hasil penelitian ini dapat diteruskan dan digunakan untuk penelitian lebih lanjut seperti penelitian
stemmer dengan pemenggalan kata sehingga tidak terjadi overstemming atau understemming. Pemenggalan kata
dapat memberikan informasi tempat bagian kata tersebut dipotong.
Kata di dalam bahasa Indonesia terdiri atas suku kata, baik pada kata dasar maupun pada kata berimbuhan.
Ada kata yang teridri atas satu suku kata, atas dua suku kata, dan ada pula kata yang terdiri atas tiga atau lebih
suku kata. Menurut ketentuan bahasa, pemenggalan kata bahasa Indonesia hanya boleh dilakukan pada suku
kata. Kata bendahara, misalnya, hanya boleh dipenggal menurut suku kata menjadi ben-da-ha-ra.
Pemenggalan kata ke dalam suku kata dilakukan dengan memberikan tanda suku -. Dengan sedikit
pengecualian, misalnya, do-a, hanya kata dengan empat atau lebih huruf yang menggunakan tanda suku pada
pemenggalan suku kata. Agar pemenggalan suku kata seperti ini dapat dilakukan oleh komputer, kita
memerlukan kaidah-kaidah tentang pemenggalan suku kata. Diperkirakan ada banyak model kaidah yang dapat
ditemukan orang untuk pemenggalan suku kata ini.
Di sini kita berbicara tentang salah satu model kaidah pemenggalan suku kata. Kaidah inipun masih dibatasi
pada pemenggalan suku pertama pada kata. Pemenggalan suku pertama pada kata ini ditandai dengan tanda
suku -. Sebagai contoh, pemenggalan suku pertama pada kata bendahara adalah ben-dahara. Dengan kaidah
demikian, komputer diharapkan dapat dengan tanpa keliru memenggal suku pertama pada kata dengan
memberikan tanda suku – di belakang suku kata itu.
Di sini kita menggunakan kata yang berawal dengan huruf b sebagai prototipe dalam pencarian kaidah
untuk pemenggalan suku pertama pada kata itu. Pemenggalan suku pertama ini berlaku untuk kata yang terdiri
atas empat atau lebih huruf. Diharapkan melalui kaidah pada kata berawal dengan huruf b, secara analogi, kita
dapat mencari kaidah serupa untuk kata-kata berawal dengan huruf lainnya.
Kita memerlukan beberapa ketentuan untuk mencari kaidah pemenggalan suku pertama ini. Kita membagi
huruf ke dalam dua kategori berupa kategori konsonan yang diberi notasi [k] serta kategori vokal yang diberi
notasi [v]. Kombinasi konsonan dan vokal atau vokal dan konsonan diberi notasi [kv] atau [vk]. Selanjutnya
kombinasi huruf kh, ng, ny, dan sy yang terdiri atas dua huruf tetapi memiliki satu bunyi, di sini, dianggap
sebagai satu konsonan.
Sebelum mencari kaidah yang memadai untuk pemenggalan suku pertama pada kata yang berawal dengan
huruf b, kita coba melihat kombinasi empat huruf pertama dari berbagai kata. Kombinasi empat huruf pertama
demikian tampak pada Tabel 1.
Sebagian di antara kombinasi empat huruf pertama di dalam Tabel 1 dapat diringkas menjadi kombinasi
ba[kk], be[kk], bi[kk], bo[kk], dan bu[kk]. Di antara semua kombinasi empat huruf ini, terdapat bel[v] dan
ber[v] yang perlu diperlakukan secara tersendiri. Mereka mengenal dua macam pemenggalan, misalnya, belajar
yang menjadi bel-ajar dengan tanda suku di belakang huruf l dan belakang yang menjadi be-lakang dengan
tanda suku di depan huruf l. Hal serupa terjadi pula pada ber[v].
2.2. Kaidah Pemenggalan Suku Pertama
Kita mulai dengan kaidah umum untuk hal-hal yang sudah disebut di atas. Kaidah umum pada tabel 2 berkaitan
dengan konsonan dan vokal serta ketentuan empat huruf pertama.
Kaidah Umum 1 Konsonan diberi notasi [k] dan vokal diberi notasi
[v] di dalam tanda kurung siku. Huruf kembar kh,
ng, ny, dan sy dianggap sebagai satu konsonan.
Kaidah Umum 2 Pembacaan dilakukan terhadap empat huruf pertama
berurutan pada kata yang akan dipenggal.
Kaidah Umum 3 Jika kata hanya terdiri dari 3 huruf atau kurang,
maka tidak dilakukan pemenggalan
Kaidah selanjutnya khusus berkaitan dengan kata yang berawal dengan huruf b dengan memperhatikan
kombinasi empat huruf pertama seperti tercantum di dalam Tabel 1. Untuk sementara kaidah pemenggalan suku
pertama ini dibahas secara terpisah untuk kombinasi huruf ba, be, bi, bo, dan bu dengan membuat kaidah
sementara seperti pada tabel 3.
Dua belas kaidah di atas masih dapat diringkas karena terdapat kesamaan di antara beberapa kaidah.
Ringkasan kaidah demikian dapat dilihat pada tabel 4.
3. Percobaan
Percobaan dilakukan dengan mengumpulkan kata berawalan b dari artikel berita yang diperoleh dari
internet. Percobaan pertama dilakukan terhadap koleksi berita Suara Pembaruan dan percobaan kedua dilakukan
terhadap koleksi berita Kompas. Kata yang digunakan adalah kata berawalan b yang bukan merupakan nama
orang, singkatan, atau nama lokasi. Seluruh kata berawalan b dikumpulkan dan diurutkan berdasarkan abjad.
4. Hasil Percobaan
Koleksi pertama adalah koleksi dari Suara Pembaruan bulan Februari–Maret 2005. Kata berawalan b yang
diperoleh dari koleksi pertama adalah sebanyak 463 kata. Sedangkan koleksi kedua adalah koleksi dari
Kompas 2001-2002. Kata berawalan b yang diperoleh dari koleksi kedua adalah sebanyak 4600 kata. Setelah
diteliti maka kata b yang digunakan hanya 2096 sedangkan sisanya adalah kata yang berupa singkatan seperti
bppt, bapenas, nama orang, nama lokasi, dan istilah asing. Hasil percobaan ini menggunakan 195 daftar kata
tertentu sebagai pengecualian untuk kaidah 1.
Hasil percobaan ini dapat dilihat pada tabel 5.
5. Kesimpulan
Demikianlah salah satu model untuk kaidah pemenggalan suku pertama pada kata di dalam bahasa
Indonesia. Di sini kaidah demikian masih dilakukan pada kata yang berawal dengan huruf b sebagai prototipe.
Kaidah ini belum diuji secara tuntas dengan berbagai kata yang ada di dalam bahasa Indonesia. Masih
diperlukan pengujian selanjutnya untuk menentukan apakah diperlukan kaidah tambahan ataukah model kaidah
ini terlalu rumit untuk keperluan praktis.
Melalui kaidah yang serupa dengan kaidah ini, kata yang berawal dengan huruf bukan b dapat dipenggal
melalui peletakan tanda suku. Dalam hal khusus, peletakan tanda suku itu dapat dilengkapi dengan kaidah
tambahan.
REFERENSI
Dali Santun Naga, adalah guru besar emeritus di Fakultas Teknologi Informasi, Universitas Tarumanagara, yang memiliki
minat yang besar di bidang bahasa Indonesia.
Viny Christanti Mawardi, memperoleh gelar M.Kom dari Universitas Indonesia pada tahun 2008 dengan research interest
Information Retrieval, staf pengajar program studi Teknik Informatika, Fakultas Teknologi Informasi, Universitas
Tarumanagara.
Freddy Kurniawan, mahasiswa Teknik Informatika dari Universitas Tarumanagara angkatan 2007.