Sistem pendeteksi teks ilusif pada dokumen pdf melalui ekstraksi informasi menggunakan PyMuPDF / Jaka Asa Baldan Ahmad - Repositori Universitas Negeri Malang

Sistem pendeteksi teks ilusif pada dokumen pdf melalui ekstraksi informasi menggunakan PyMuPDF / Jaka Asa Baldan Ahmad

Ahmad, Jaka Asa Baldan (2023) Sistem pendeteksi teks ilusif pada dokumen pdf melalui ekstraksi informasi menggunakan PyMuPDF / Jaka Asa Baldan Ahmad. Diploma thesis, Universitas Negeri Malang.

Full text not available from this repository.

Abstract

Plagiarisme adalah aksi mencuri ide langkah hasil atau kata-kata orang lain tanpa memberikan kredit yang merupakan pelanggaran berat di dunia akademik. Aksi plagiarism marak terjadi di masa keterbukaan informasi ini. Tindakan plagiarisme dapat ditangkal dengan alat uji plagiasi namun alat tersebut seringkali diakali dengan berbagai trik yang salah satunya ialah teks ilusif. Teks ilusif adalah teks-teks berwarna putih atau sesuai dengan warna latar belakang yang diselipkan di antara kata-kata yang ada pada dokumen yang seolah-olah terlihat seperti spasi sehingga teks yang sebenarnya merupakan hasil plagiasi menjadi tidak terdeteksi karena dianggap sebagai potongan tulisan panjang yang belum pernah ada sebelumnya. Paparan tersebut melatarbelakangi penelitian ini melakukan pendeteksian teks ilusif pada dokumen PDF sebagai format berkas yang sering digunakan. Untuk memenuhi tujuan penelitian digunakan PyMuPDF sebagai pustaka berbahasa Python yang dapat mengekstraksi karakter dan gambar yang tersemat dalam dokumen dengan berbagai format termasuk PDF. Pendeteksian oleh PyMuPDF dilakukan dengan cara menemukan teks yang memiliki properti warna putih pada level spans setelah isi dokumen diekstrak dalam format rawdict. Penelitian dirancang dengan metode Waterfall yang memiliki langkah langkah requirement analysis design system system development testing and evaluation dan service deployment. Pada tiga tahap pertama sistem dikembangkan dalam bahasa Python yang menerima masukan berupa lokasi dokumen dan menghasilkan keluaran berupa informasi keberadaan teks ilusif dalam skema json. vii Pengujian dan evaluasi terhadap sistem dilakukan dengan metode unit testing yaitu berbagai test case yang terdiri atas dokumen uji dan data teks ilusif sebenarnya akan di-generate secara acak dan otomatis kemudian dibandingkan terhadap hasil keluaran sistem. Perbandingan antara output sistem dan test case menjadi bahan evaluasi menggunakan confusion matrix. Berdasarkan hasil pengujian dan evaluasi sistem berhasil mendeteksi teks ilusif dan non-ilusif secara akurat tanpa adanya kesalahan yang dibuktikan dengan skor akurasi 100% recall 100% precision 100% dan f1-score 100%. Selain test case hasil generate acak juga digunakan test case buatan manusia sebagai sumber validasi eksternal pada sistem pendeteksi. Sebanyak 22 test case yang masing-masing berupa dokumen PDF dan lampiran huruf-huruf teks ilusif dalam dokumen dibuat oleh 11 pihak eksternal / partisipan penelitian sebagai bahan validasi. Hasil validasi menunjukkan bahwa sistem pendeteksi teks ilusif juga dapat bekerja dengan baik terhadap dokumen buatan manusia dengan skor validasi 100%. Kesempurnaan metrik pengujian dan validasi ialah karena PyMuPDF secara langsung mengurai / parsing berkas dokumen PDF menjadi struktur berisi informasi tentang setiap unsur yang terdapat di dalamnya termasuk warna setiap karakter yang terletak pada level spans bila berkas diekstraksi dalam format rawdict. Dengan demikian PyMuPDF dapat dengan mudah mengidentifikasi karakter dengan warna ilusif atau putih dengan menggunakan informasi yang telah diperoleh dari proses parsing. Selebihnya pada tahap service deployment sistem dapat diimplementasikan sebagai microservice oleh sistem lain dan akan mengembalikan skema respons berupa total karakter ilusif posisi dan ukuran halaman huruf karakter ilusif koordinat persegi tiap karakter ilusif serta keseluruhan teks yang ada dalam berkas dimana tiap karakter ilusif ditandai dalam kurung sudut ornamen. Dari berbagai tahapan yang dilakukan penelitian ini menghasilkan sebuah sistem yang dapat mendeteksi teks ilusif dari dokumen PDF melalui ekstraksi informasi menggunakan PyMuPDF serta dapat diimplementasikan dalam infrastruktur sistem eksternal yang bisa menerima request dan mengembalikan respons.

Item Type: Thesis (Diploma)
Subjects: ?? ??
Divisions: Fakultas Teknik (FT) > Departemen Teknik Elektro (TE) > S1 Teknik Informatika
Depositing User: Users 2 not found.
Date Deposited: 17 Jan 2023 04:29
Last Modified: 09 Sep 2023 03:00
URI: http://repository.um.ac.id/id/eprint/273342

Actions (login required)

View Item View Item