Analisis k-means clustering untuk ekstraksi stopword list bahasa jawa / Hidayah Kariima Fithri - Repositori Universitas Negeri Malang

Analisis k-means clustering untuk ekstraksi stopword list bahasa jawa / Hidayah Kariima Fithri

Fithri, Hidayah Kariima (2019) Analisis k-means clustering untuk ekstraksi stopword list bahasa jawa / Hidayah Kariima Fithri. Diploma thesis, Universitas Negeri Malang.

Full text not available from this repository.

Abstract

RINGKASAN Fithri Hidayah Kariima. 2019. Analisis K-Means Clustering untuk Ekstraksi Stopword List Bahasa Jawa. Skripsi. Jurusan Teknik Elektro Fakultas Teknik Universitas Negeri Malang. Pembimbing. (I) Aji Prasetya Wibawa S.T. M.MT. Ph.D. (II) Ilham Ari Elbaith Zaeni S.T. M.T. Ph.D. Keywords Stopword Clustering teks K-Means Bahasa Jawa Bahasa Jawa adalah bahasa daerah yang paling banyak digunakan di Indonesia. Bahasa ini terdiri dari tingkat bahasa yaitu Ngoko Krama dan Madya. Banyak dokumen teks yang ditulis dalam bahasa Jawa seperti berita cerita hingga naskah kuno yang telah melalui proses digitalisasi yang memuat banyak informasi penting. Salah satu cara untuk mengambil informasi dalam suatu dokumen teks adalah melalui metode yang ada pada teks mining. Akan tetapi tidak semua informasi dalam dokumen teks akan digunakan karena setiap dokumen teks pasti mengandung kata yang tidak memiliki makna. Kata ini pada teks mining akan dihapus melalui proses stopword removal. Namun stopword list bahasa Jawa belum tersedia. Tahapan penelitian pada pembuatan stopword list berbahasa Jawa terdiri dari 5 tahap yaitu pengambilan data cerita pendek berbahasa Jawa preprocessing pemberian label oleh ahli bahasa Jawa penerapan clustering dengan K-Means dan evaluasi. Pengumpulan data dilakukan pada website Ki-demang.com dengan isi cerita pendek berbahasa Jawa. Tahap preprocessing dilakukan dengan cleansing case folding tokenisasi dan menghitung frekuensi kata. Pemberian label oleh ahli bahasa Jawa digunakan sebagai kata kunci untuk pengujian karena pendapat ahli bahasa Jawa dianggap paling benar. Metode K-Means clustering untuk mengelompokkan kata berdasarkan frekuensinya. Evaluasi menggunakan tabel confusion matrix dan F-measure. Pada tabel confusion matrix hasil label ahli bahasa Jawa sebagai data sebenarnya dan hasil clustering sebagai data prediksi dengan output accuracy precision dan recall. Selanjutnya precision dan recall digunakan untuk menghitung nilai F-measure. Hasil pengujian terbaik diambil berdasarkan nilai paling tinggi F-measure yaitu sebesar 82 10% dengan accuracy 84 50% yang dimiliki oleh hasil cluster K 7. Untuk memaksimalkan hasil dari penelitian ini diharapkan pada penelitian selanjutnya menambah proses stemming dan mencoba nilai K yang berbeda pada saat proses clustering.

Item Type: Thesis (Diploma)
Subjects: ?? ??
Divisions: Fakultas Teknik (FT) > Departemen Teknik Elektro (TE) > S1 Teknik Informatika
Depositing User: Users 2 not found.
Date Deposited: 13 Jan 2019 04:29
Last Modified: 09 Sep 2019 03:00
URI: http://repository.um.ac.id/id/eprint/152125

Actions (login required)

View Item View Item