You are on page 1of 9

SUATU MODEL KAIDAH PEMENGGALAN SUKU

PERTAMA PADA KATA BAHASA INDONESIA: KASUS


PADA HURUF AWAL B

Dali Santun Naga1) Viny Christanti Mawardi 2) Freddy Kurniawan 3)

1,2,3)
Fakultas Teknologi Informasi
Jl. Let.Jend.S.Parman no. 1, Jakarta 11440 Indonesia
1)
email : dalinaga@gmail.com, 2) email : viny@untar.ac.id, 1) email : fred_lyx@yahoo.com

ABSTRACT
Almost all words in Indonesian consist of syllables. Occasionally due to certain reasons the words have to be
segmented or cut into pieces by putting hyphens between them. In Indonesian there are rules as to where in the
word the hyphens should be placed. In order that the hyphenation could be done by computer program some
rules even with their exceptions have to be introduced into the program. At this occasion we begin this
hyphenation rules at the first syllables of the words starting with letter B.

Key words
Information Retrieval, Natural Language Processing, Pemenggalan kata

1. Pendahuluan

Sejak komputer berhasil diciptakan orang, di kalangan pakar komputer timbul keinginan untuk
menggunakannya sebagai alat penerjemah bahasa. Mereka menamakannya mesin penerjemah. Ternyata
keinginan ini tidak mudah dilaksanakan karena bahasa tidak mengenal aturan yang ketat seperti halnya aturan
pada matematika atau logika. Sekalipun demikian, dari keinginan demikian muncul bidang pengetahuan baru
yang berkenaan dengan komputer dan bahasa. Di antaranya muncul bidang pengetahuan seperti linguistik
komputasional dan bahkan inteligensi buatan. Di bidang tersebut pun muncul berbagai ilmu yang berkaitan
dengan bahasa seperti Information Retrieval dan Natural Language Processing.
NLP adalah salah satu bidang ilmu dalam computer science dan linguistik yang berkonsentrasi pada interaksi
antara mesin dan bahasa alami manusia [1]. Sedangkan IR adalah ilmu yang berkaitan dengan representasi,
penyimpanan, pengelolaan, dan pengaksesan terhadap informasi [2]. Pada saat ini NLP sudah banyak digunakan
sebagai teknik dalam IR. Di dalam taksonomi computer science pada gambar 1, IR berada di bawah NLP. Dan
teknik yang terdapat di dalam NLP dapat digunakan untuk mengembangkan IR.

Computer

Databases Artificial Algorithms Networking


Intelligence

Robotics Natural Search


Language
Processing

Information Machine Language


Retrieval Translation Analysis

Semantics Parsing

Gambar 1. Diagram Taksonomi Computer Science

Mesin penerjemah adalah salah satu aplikasi dalam NLP yang terus diteliti agar dapat dihasilkan mesin
penerjemah yang dapat menerjemahkan bahasa yang satu ke dalam bahasa yang lain. Pembangunan mesin
penerjemah haruslah melalui beberapa tahap dan salah satu di antaranya adalah pengenalan kata untuk
memperoleh makna dari sebuah kalimat. Di bidang IR dan NLP dikenal pula kajian mengenai pemrosesan
naskah (text processing). Salah satu kajian di bidang pemrosesan naksah adalah pengenalan kata oleh komputer
melalui kaidah tertentu.
Di dalam NLP dikenal beberapa tingkatan pengenalan kata yaitu fonologi, morfologi, leksikal, sintaktik,
semantik, discourse dan pragmatik [3]. Untuk dapat mencapai tingkat paling atas yaitu pragmatik diperlukan
pengetahuan mengenai fonologi, morfologi, dan seterusnya. Permasalahan yang muncul dalam NLP adalah
komputer harus dapat memodelkan morfologi dari kata untuk mengerti sebuah kalimat dan morfologi tersebut
digunakan untuk membangun kalimat yang betul. Banyak penelitian telah dilakukan untuk memperoleh hasil
pengenalan kata yang betul. Mereka dimulai dari pemotongan imbuhan untuk dapat memperoleh kata dasar
sampai ke memberikan part-of-speech tagging untuk dapat mengenali jenis kata dan pengenalan subyek,
predikat, dan obyek.
Stemmer adalah pemotongan imbuhan pada kata berimbuhan untuk mendapatkan kata dasar. Stemmer untuk
bahasa Indonesia sudah banyak diteliti. Nazief melakukan penelitian pemotongan imbuhan berdasarkan kamus
bahasa Indonesia [4]. Dalam hal ini kualitas stemmer selalu berdasarkan besarnya kamus yang digunakan.
Selain itu kelemahan dari stemmer Nazief adalah panjangnya waktu yang diperlukan dalam proses pencarian
kata di dalam kamus.
Fadillah F. Tala melakukan penelitian pemotongan imbuhan berdasarkan aturan morfologi pada bahasa
Indonesia dan mengadaptasi stemmer Porter dalam bahasa Inggris [5]. Kesalahan yang umum terjadi pada
algoritma stemmer untuk bahasa Indonesia adalah overstemming atau understemming. Kesalahan ini terjadi
karena dalam algoritma stemmer, kata langsung dipenggal mulai dari akhir atau awal kata. Contoh
overstemming adalah berbadan => bad seharusnya badan. Sedangkan contoh understemming adalah mengecek
=> ecek seharusnya cek.
Part of Speech tagging (POS-Tagging) adalah proses menandai kata-kata pada teks (korpus) berkenaan
dengan part-of-speech tertentu berdasarkan definisi maupun konteksnya [6]. Bentuk-bentuk sederhananya
adalah identifikasi kata-kata sebagai kata benda (noun), kata kerja (verb), kata sifat (adjective), kata keterangan
(adverb), dan lain-lain. Beberapa penelitian telah berhasil menemukan bagaimana cara memberikan tagging
secara otomatis untuk bahasa Inggris.
Tagger Brill adalah salah satu POS-tagging untuk bahasa Inggris berdasarkan aturan lingustik dari suatu
bahasa [7] seperti aturan leksikal penggunaan imbuhan. Tagger Brill banyak diadaptasi untuk bahasa lain seperti
untuk bahasa Indonesia namun dalam hal ini masih muncul banyak kesalahan karena pengenalan kata imbuhan
yang masih salah. Di dalam tagger Brill diperoleh aturan leksikal seperti kan hassuf 3 VB yang berarti dalam
kata terdapat akhiran –kan. Namun dalam penerapannya masih terdapat kekeliruan berupa tagger tidak dapat
mengenal pemenggalan kata yang betul. Kata makan dan perkenalkan dianggap merupakan kata yang memiliki
akhiran –kan.
Penelitian ini akan membahas pengenalan kata. Pengenalan kata demikian berguna pada olah kata
(wordprocessing) di dalam komputer. Melalui kaidah tertentu, pengenalan kata ini dapat digunakan untuk
pemeriksaan betul-tidaknya ejaan dan bahkan lebih jauh lagi sampai ke pemeriksaan betul-tidaknya tata bahasa.
Diharapkan hasil penelitian ini dapat diteruskan dan digunakan untuk penelitian lebih lanjut seperti penelitian
stemmer dengan pemenggalan kata sehingga tidak terjadi overstemming atau understemming. Pemenggalan kata
dapat memberikan informasi tempat bagian kata tersebut dipotong.

2. Pemenggalan Suku Kata

Kata di dalam bahasa Indonesia terdiri atas suku kata, baik pada kata dasar maupun pada kata berimbuhan.
Ada kata yang teridri atas satu suku kata, atas dua suku kata, dan ada pula kata yang terdiri atas tiga atau lebih
suku kata. Menurut ketentuan bahasa, pemenggalan kata bahasa Indonesia hanya boleh dilakukan pada suku
kata. Kata bendahara, misalnya, hanya boleh dipenggal menurut suku kata menjadi ben-da-ha-ra.
Pemenggalan kata ke dalam suku kata dilakukan dengan memberikan tanda suku -. Dengan sedikit
pengecualian, misalnya, do-a, hanya kata dengan empat atau lebih huruf yang menggunakan tanda suku pada
pemenggalan suku kata. Agar pemenggalan suku kata seperti ini dapat dilakukan oleh komputer, kita
memerlukan kaidah-kaidah tentang pemenggalan suku kata. Diperkirakan ada banyak model kaidah yang dapat
ditemukan orang untuk pemenggalan suku kata ini.
Di sini kita berbicara tentang salah satu model kaidah pemenggalan suku kata. Kaidah inipun masih dibatasi
pada pemenggalan suku pertama pada kata. Pemenggalan suku pertama pada kata ini ditandai dengan tanda
suku -. Sebagai contoh, pemenggalan suku pertama pada kata bendahara adalah ben-dahara. Dengan kaidah
demikian, komputer diharapkan dapat dengan tanpa keliru memenggal suku pertama pada kata dengan
memberikan tanda suku – di belakang suku kata itu.

2.1. Pemenggalan Suku Pertama pada Kata

Di sini kita menggunakan kata yang berawal dengan huruf b sebagai prototipe dalam pencarian kaidah
untuk pemenggalan suku pertama pada kata itu. Pemenggalan suku pertama ini berlaku untuk kata yang terdiri
atas empat atau lebih huruf. Diharapkan melalui kaidah pada kata berawal dengan huruf b, secara analogi, kita
dapat mencari kaidah serupa untuk kata-kata berawal dengan huruf lainnya.
Kita memerlukan beberapa ketentuan untuk mencari kaidah pemenggalan suku pertama ini. Kita membagi
huruf ke dalam dua kategori berupa kategori konsonan yang diberi notasi [k] serta kategori vokal yang diberi
notasi [v]. Kombinasi konsonan dan vokal atau vokal dan konsonan diberi notasi [kv] atau [vk]. Selanjutnya
kombinasi huruf kh, ng, ny, dan sy yang terdiri atas dua huruf tetapi memiliki satu bunyi, di sini, dianggap
sebagai satu konsonan.
Sebelum mencari kaidah yang memadai untuk pemenggalan suku pertama pada kata yang berawal dengan
huruf b, kita coba melihat kombinasi empat huruf pertama dari berbagai kata. Kombinasi empat huruf pertama
demikian tampak pada Tabel 1.

Tabel 1. Kombinasi empat huruf pertama kata berawal huruf b

ba[kv] be[kv] bi[kv] bo[kv] bu[kv]


ba[vk] bel[k] bi[vk] bo[vk] bu[vk]
bad[k] bel[v] bim[k] bok[k] buk[k]
bah[k] ben[k] bin[k] bol[k] bum[k]
bam[k] beng[k] bing[k] bon[k] bun[k]
ban[k] ber[k] bis[k] bong[k] bung[k]
bang[k] ber[v] bor[k] bur[k]

Sebagian di antara kombinasi empat huruf pertama di dalam Tabel 1 dapat diringkas menjadi kombinasi
ba[kk], be[kk], bi[kk], bo[kk], dan bu[kk]. Di antara semua kombinasi empat huruf ini, terdapat bel[v] dan
ber[v] yang perlu diperlakukan secara tersendiri. Mereka mengenal dua macam pemenggalan, misalnya, belajar
yang menjadi bel-ajar dengan tanda suku di belakang huruf l dan belakang yang menjadi be-lakang dengan
tanda suku di depan huruf l. Hal serupa terjadi pula pada ber[v].
2.2. Kaidah Pemenggalan Suku Pertama

Kita mulai dengan kaidah umum untuk hal-hal yang sudah disebut di atas. Kaidah umum pada tabel 2 berkaitan
dengan konsonan dan vokal serta ketentuan empat huruf pertama.

Tabel 2. Kaidah umum pemenggalan kata berwalan b

Kaidah Umum 1 Konsonan diberi notasi [k] dan vokal diberi notasi
[v] di dalam tanda kurung siku. Huruf kembar kh,
ng, ny, dan sy dianggap sebagai satu konsonan.
Kaidah Umum 2 Pembacaan dilakukan terhadap empat huruf pertama
berurutan pada kata yang akan dipenggal.
Kaidah Umum 3 Jika kata hanya terdiri dari 3 huruf atau kurang,
maka tidak dilakukan pemenggalan

Kaidah selanjutnya khusus berkaitan dengan kata yang berawal dengan huruf b dengan memperhatikan
kombinasi empat huruf pertama seperti tercantum di dalam Tabel 1. Untuk sementara kaidah pemenggalan suku
pertama ini dibahas secara terpisah untuk kombinasi huruf ba, be, bi, bo, dan bu dengan membuat kaidah
sementara seperti pada tabel 3.

Tabel 3. Kaidah sementara pemenggalan kata berawalan b

Kaidah sementara 1 Pada kelompok huruf ba[kv] dan ba[vk] tanda


suku diletakkan pada ba-[kv] dan ba-[vk]

Melalui kaidah ini, kita menemukan


pemenggalan suku pertama seperti ba-gi, ba-
ginda, ba-dan, ba-tang, ba-gaimana, ba-ik, ba-it,
ba-ur, ba-ut, dan semacam itu.
Kaidah sementara 2 Pada kelompok huruf ba[kk], tanda suku
diletakkan pada ba[k-k]. Jika kata itu hanya
terdiri atas empat huruf maka tidak ada
pemenggalan, misalnya, kata bank.

Melalui kaidah ini, kita menemukan


pemenggalan suku pertama seperti bak-ti, ban-
ting, bang-sal, ban-dar, ban-tuan, bad-minton,
dan semacam itu.
Kaidah sementara 3 Pada kelompok huruf be[kv] kecuali untuk k = l
dan k = r, tanda suku diletakkan pada be-[kv].

Melalui kaidah ini, kita menemukan


pemenggalan suku pertama seperti be-berapa,
be-canda, be-debah, be-kal, be-nang, be-tung,
dan semacam itu.
Kaidah sementara 4 Pada kelompok huruf be[kv] untuk k = l dan k =
r, pada daftar kata tertentu, tanda suku
diletakkan pada be[k-v] dan pada kata lainnya,
letak tanda suku mengikuti kaidah sementara 3.

Daftar kata perlu disusun tersendiri. Melalui


kaidah ini, kita menemukan pemenggalan suku
pertama seperti bel-ajar, ber-alamat, ber-alasan,
ber-anggapan, ber-urut, ber-ulang, dan semacam
itu.
Kaidah sementara 5 Pada kelompok huruf be[kk], tanda suku
diletakkan pada be[k-k]. Jika kata itu hanya
terdiri atas empat huruf maka tidak ada
pemenggalan, misalnya, kata belt.

Melalui kaidah ini, kita menemukan


pemenggalan suku pertama seperti beng-kak,
ber-karya, ben-dahara, ben-turan, bes-tari, dan
semacam itu.
Kaidah sementara 6 Pada kelompok huruf bi[kv] dan bi[vk] kecuali
untuk bio[k], tanda suku diletakkan pada bi-[kv]
dan bi-[vk]. Untuk bio[k], tanda suku
diletakkan pada bio-[k]

Melalui kaidah ini, kita menemukan


pemenggalan suku pertama seperti bi-dang, bi-
lang, bi-sing, bi-ang, bi-asa, bi-awak bi-us, bio-
logi, bio-fisika, dan semacam itu.
Kaidah sementara 7 Pada kelompok huruf bi[kk], tanda suku
diletakkan pada bi[k-k].
Jika kata itu hanya terdiri atas empat huruf maka
tidak ada pemenggalan.

Melalui kaidah ini, kita menemukan


pemenggalan suku pertama seperti bim-bang,
bim-bingan, bin-tang, bin-cang, bis-tik, dan
semacam itu.
Kaidah sementara 8 Pada kelompok huruf bo[kv] dan bo[vk], tanda
suku diletakkan pada bo-[kv] dan bo[v-k].

Melalui kaidah ini, kita menemukan penggalan


suku pertama seperti bo-kong, bo-la, bo-long,
bo-tak, boi-kot, dan semacam itu.
Kaidah sementara 9 Pada kelompok huruf bo[kk], tanda suku
diletakkan pada bo[k-k]. Jika kata itu hanya
terdiri atas empat huruf maka tidak ada
pemenggalan, misalnya, kata bolt.

Melalui kaidah ini, kita menemukan penggalan


suku pertama seperti bong-kok, bong-kar, bor-
gol, bom-bardir, dan semacam itu.
Kaidah sementara 10 Pada kelompok huruf bu[kv] dan bu[vk], tanda
suku diletakkan pada bu-[kv] dan bu-[vk].

Melalui kaidah ini, kita menemukan penggalan


suku pertama seperti bu-kan, bu-daya, bu-lan,
bu-nga, bu-sung, bu-al, bu-at, bu-aya, dan
semacam itu.
Kaidah sementara 11 Pada kelompok huruf bu[kk], tanda suku
diletakkan pada bu[k-k]. Jika kata itu hanya
terdiri atas empat huruf maka tidak ada
pemenggalan, misalnya, kata bulk.

Melalui kaidah ini, kita menemukan penggalan


suku pertama seperti bum-bu, bung-kam, bung-
kus, bun-tut, bur-sa, dan semacam itu.
Kaidah sementara 12 Pada kelompok kata dimulai dengan bl, br, dan
by pembacaan dilakukan sebanyak lima huruf
pertama berupa bl[vkv] dan br[vkv] yang
dipenggal menjadi bl[v-kv] dan br[v-kv] serta
bl[vkk] dan r[vkk] yang dipenggal menjadi
bl[vk-k] dan br[vk-k]

Melalui kaidah ini, kita menemukan penggalan


suku pertama seperti blo-ger, bra-ta, blang-ko,
bran-dal, byar-pet.

Ringkasan Kaidah Pemenggalan Suku Pertama

Dua belas kaidah di atas masih dapat diringkas karena terdapat kesamaan di antara beberapa kaidah.
Ringkasan kaidah demikian dapat dilihat pada tabel 4.

Tabel 4. Kaidah pemenggalan kata berwalan b

Kaidah 1 Pada kelompok huruf b[vkv] kecuali untuk bel[v] dan


ber[v], tanda suku diletakkan pada b[v-kv]. Pada bel[v] dan
ber[v], untuk daftar kata pengecualian, tanda suku
diletakkan pada bel-[v] dan ber-[v].
Kaidah 2 Pada kelompok huruf b[vvk], kecuali untuk bio[k], tanda
suku diletakkan pada b[v-vk]. Pada bio[k], tanda suku
diletakkan pada bio-[k].
Kaidah 3 Pada kelompok huruf b[vkk], tanda suku diletakkan pada
b[vk-k]. Jika kata itu hanya terdiri atas empat huruf maka
tidak ada pemenggalan.
Kaidah 4 Jika kelompok huruf diawali oleh b[k] maka pembacaan
dilakukan sebanyak lima huruf pertama berupa b[kvkv] yang
dipenggal menjadi b[kv-kv] dan b[kvkk] yang dipenggal
menjadi b[kvk-k]
Khusus untuk kelompok huruf bel[v] dan ber[v], diperlukan suatu daftar kata tersendiri untuk memisahkan
dua kemungkinan letak tanda suku. Namun pembedaan ini masih mungkin ditemukan melalui kaidah pada
pemenggalan suku kedua. Sementara belum ada kaidah suku kedua yang dapat membedakannya, kita
menggunakan daftar kata khusus untuk itu.

3. Percobaan

Percobaan dilakukan dengan mengumpulkan kata berawalan b dari artikel berita yang diperoleh dari
internet. Percobaan pertama dilakukan terhadap koleksi berita Suara Pembaruan dan percobaan kedua dilakukan
terhadap koleksi berita Kompas. Kata yang digunakan adalah kata berawalan b yang bukan merupakan nama
orang, singkatan, atau nama lokasi. Seluruh kata berawalan b dikumpulkan dan diurutkan berdasarkan abjad.

4. Hasil Percobaan

Koleksi pertama adalah koleksi dari Suara Pembaruan bulan Februari–Maret 2005. Kata berawalan b yang
diperoleh dari koleksi pertama adalah sebanyak 463 kata. Sedangkan koleksi kedua adalah koleksi dari
Kompas 2001-2002. Kata berawalan b yang diperoleh dari koleksi kedua adalah sebanyak 4600 kata. Setelah
diteliti maka kata b yang digunakan hanya 2096 sedangkan sisanya adalah kata yang berupa singkatan seperti
bppt, bapenas, nama orang, nama lokasi, dan istilah asing. Hasil percobaan ini menggunakan 195 daftar kata
tertentu sebagai pengecualian untuk kaidah 1.
Hasil percobaan ini dapat dilihat pada tabel 5.

Tabel 5 Perbandingan algoritma A dan algoritma B

Koleksi Jumlah Benar Salah %


Koleksi 1 463 kata 463 kata 0 100
Koleksi 2 2096 kata 2088 kata 8 kata 99.61

Beberapa kata yang salah dipenggal adalah kata-kata seperti:


bioskop => bio-skop seharusnya bios-kop
baunya => ba-unya seharusnya bau-nya

5. Kesimpulan

Demikianlah salah satu model untuk kaidah pemenggalan suku pertama pada kata di dalam bahasa
Indonesia. Di sini kaidah demikian masih dilakukan pada kata yang berawal dengan huruf b sebagai prototipe.
Kaidah ini belum diuji secara tuntas dengan berbagai kata yang ada di dalam bahasa Indonesia. Masih
diperlukan pengujian selanjutnya untuk menentukan apakah diperlukan kaidah tambahan ataukah model kaidah
ini terlalu rumit untuk keperluan praktis.
Melalui kaidah yang serupa dengan kaidah ini, kata yang berawal dengan huruf bukan b dapat dipenggal
melalui peletakan tanda suku. Dalam hal khusus, peletakan tanda suku itu dapat dilengkapi dengan kaidah
tambahan.

REFERENSI

[1] Wikipedia, Natural Language Processing, http://en.wikipedia.org/wiki/Natural_language_processing, 17 February


2010
[2] Baeza-Yates, R. and B. Ribiero-Neto, Modern Information Retrieval. Addison-Wesley, New York
[3] Liddy, E. D. Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel
Decker, Inc.
[4] B. Nazief and M. Adriani. Confix Stripping: Approach to Stemming Algorithm for Bahasa Indonesia. Technical report,
Faculty of Computer Science, University of Indonesia, Depok, 1996.
[5] Tala. Fadillah Z., A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Tesis. Master of Logic
Project Institute for Logic, Language and Computation Universiteit van Amsterdam the Netherlands.
[6] Wikipedia, Part-of-speech tagger, http://en.wikipedia.
org/wiki/Part-of-speech_tagger.html.
[7] Eric Brill, A Simple Rule-Based Part of Speech Tagger, http://www.aclweb.org/anthology/H/H92/H92-1022.pdf, 20
February 2010.
[8] Pusat Bahasa. Pedoman Umum Ejaan Bahasa Indonesia yang Disempurnakan. Jakarta: Balai Pustaka, 2005.
[9] Pusat Bahasa. Kamus Besar Bahasa Indonesia, edisi keempat. Jakarta: Penerbit Gramedia Pustaska Utama, 2008.

Dali Santun Naga, adalah guru besar emeritus di Fakultas Teknologi Informasi, Universitas Tarumanagara, yang memiliki
minat yang besar di bidang bahasa Indonesia.

Viny Christanti Mawardi, memperoleh gelar M.Kom dari Universitas Indonesia pada tahun 2008 dengan research interest
Information Retrieval, staf pengajar program studi Teknik Informatika, Fakultas Teknologi Informasi, Universitas
Tarumanagara.

Freddy Kurniawan, mahasiswa Teknik Informatika dari Universitas Tarumanagara angkatan 2007.

You might also like