Analisis kombinasi preprocessing pada klasifikasi artikel ilmiah berbahasa Indonesia menggunakan k-nearest neighbour / Hidayatul Ma'rifah

Ma'rifah, Hidayatul (2020) Analisis kombinasi preprocessing pada klasifikasi artikel ilmiah berbahasa Indonesia menggunakan k-nearest neighbour / Hidayatul Ma'rifah. Diploma thesis, Universitas Negeri Malang.

Full text not available from this repository.

Abstract

RINGKASAN Ma’rifah, Hidayatul. 2019. Analisis Kombinasi Preprocessing Pada Klasifikasi Artikel Ilmiah Berbahasa Indonesia Menggunakan K-Nearest Neighbour. Skripsi, Program Studi S1 Teknik Informatika, Jurusan Elektro, Fakultas Teknik, Universitas Negeri Malang Pembimbing: (I) Aji Prasetya Wibawa, S.T., M.MT., Ph.D., (II) Muhammad Iqbal Akbar, S.ST., M.MT Kata Kunci — Text Mining, Preprocessing, K-Nearest Neighbour, Cosine Similarity, Preprocessing merupakan bagian yang paling berpengaruh terhadap hasil klasifikasi. Untuk klasifikasi dokumen teks, preprocessing terdiri dari beberapa langkah, antara lain case folding, tokenizing, stemming, dan stopwords removal. Sejauh ini, para peneliti di bidang text mining menggunakan komposisi dan urutan preprocessing yang berbeda-beda untuk dataset yang dikelolanya. Padahal kesalahan dalam implementasi dan pengurutan teknik preprocessing yang kurang tepat akan mengacaukan hasil klasifikasi. Penelitian ini bertujuan untuk menemukan kombinasi dan urutan preprocessing dalam text mining yang paling maksimal untuk klasifikasi bidang jurnal berbahasa Indonesia berdasarkan judul dan abstraknya. 10 Skenario dirancang dengan komposisi dan urutan preprocessing yang berbeda-beda. Dengan skenario yang paling kompleks tersusun dari case folding, tokenizing, stemming, serta dua teknik stopwors removal; berbasis kamus dan berbasis document frequency. Pengamatan tiap skenario berfokus pada stemming dan dua stopwords removal yang digunakan. Sehingga dapat diketahui bagaimana implementasi stemming atau stopwords removal dan kolaborasinya memberikan perubahan dokumen serta seberapa baik pengaruhnya terhadap hasil klasifikasi. Kemudian dilakukan analisis mengenai kausal yang menyebabkan tinggi atau rendahnya hasil klasifikasi menggunakan skenario-skenario preprocessing yang diuji. Proses klasifikasi mengadopsi algoritma k-NN (K-Nearest Neighbour), yang menentukan kelas suatu data tes dengan melihat tetangga terdekatnya. Dalam penelitian ini, metrik untuk menemukan jarak tetangga terdekat adalah Cosine Similarity. Pengujian klasifikasi menggunakan 10-Fold Cross Validation untuk menghasilkan Confusion Matrix sebagai hasil akhir. Kinerja klasifikasi terbaik dicapai Skenario 10 dengan persentase accuracy, precision, dan recall masing-masing 72.92%, 73.36%, dan 72.92%. Komposisi Skenario 10 secara berurutan yaitu case folding, tokenizing, stopwords removal berbasis kamus, stemming, dan stopwords removal berbasis document frequency. Sedangkan Skenario yang kinerjannya paling buruk adalah Skenario 4, hasil klasifikasinya memberikan nilai accuracy, precision, dan recall masing-masing 68.05%, 69.98%, dan 68.05%. Komposisi preprocessing pada Skenario 4 terdiri dari case folding, tokenizing, dan stemming.

Item Type: Thesis (Diploma)
Subjects: ?? ??
Divisions: Fakultas Teknik (FT) > Jurusan Teknik Elektro (TE) > S1 Teknik Informatika
Depositing User: Users 2 not found.
Date Deposited: 13 Jan 2020 04:29
Last Modified: 09 Sep 2020 03:00
URI: http://repository.um.ac.id/id/eprint/99048

Actions (login required)

View Item View Item