Halo semuanya. Bagaimana kabarnya? Semoga kita semua dalam keadaan baik. Walaupun memang terkadang kita suka ingin mengeluh, it’s okay, pastikan saja mengeluh pada tempat dan waktu yang tepat. Bagi warga Jakarta yang ingin mengeluh mengenai permasalahan Kota, bisa melalui aplikasi JAKI.
Tremendous-app JAKI (Jakarta Kini) merupakan salah satu produk dari Jakarta Good Metropolis yang memiliki banyak fitur yang dapat membantu berbagai aktivitas warga Jakarta. Salah satu fitur yang ada pada aplikasi JAKI adalah Jaklapor yang merupakan kanal pengaduan warga untuk membuat laporan permasalahan yang ada di Jakarta kepada Pemerintah Provinsi DKI Jakarta.
Terdapat lebih dari 100 kategori laporan yang bisa dilaporkan melalui JakLapor. Ketika warga membuat laporan, warga harus memilih salah satu kategori yang relevan dengan masalah yang dilaporkan. Sayangnya, saat ini aplikasi JAKI tidak memiliki fitur yang mampu memberikan suggestion kategori laporan secara otomatis. Ketiadaan fitur tersebut membuat warga harus memeriksa seluruh pilihan kategori tersebut untuk kemudian memilih salah satu kategori yang relevan. Tak jarang pula warga memilih kategori yang tidak relevan dengan laporannya.
Dari kondisi ini, salah satu Trainee dari Knowledge Science Trainee Batch 6 di Jakarta Good Metropolis yang dimentori oleh Tim Knowledge Jakarta Good Metropolis melakukan riset sederhana untuk membuat sebuah mannequin machine studying textual content classification pada knowledge teks laporan dari warga Jakarta.
Sesuai dengan namanya, textual content classification adalah salah satu tugas machine studying dan NLP (Pure Language Processing) yang bertujuan untuk mengelompokkan teks-teks berdasarkan kategori atau label tertentu. Misalnya, kita bisa mengklasifikasikan e mail menjadi spam atau tidak, atau mengklasifikasikan artikel berita menjadi berbagai topik seperti politik, olahraga, atau hiburan.
Pada riset ini mengarah kepada mengelompokkan teks laporan warga ke dalam kategori tertentu. Dengan menggunakan textual content classification, laporan warga akan lebih mudah dikelompokkan dan lebih mudah ditentukan kategorinya.
Ada berbagai metode dan algoritma yang bisa digunakan untuk textual content classification. Salah satu metode yang populer saat ini adalah dengan Deep Studying. Namun sebelum masuk ke deep studying, perlu ada beberapa proses yang dilakukan pada knowledge teks. Diantaranya ada textual content preprocessing, knowledge splitting, dan function extraction.
Knowledge yang digunakan pada riset ini adalah knowledge laporan warga yang melapor melalui aplikasi JAKI dalam jangka waktu satu tahun, tepatnya dari bulan April 2022 hingga April 2023. Secara keseluruhan, jumlah laporan yang ada mencapai 100K laporan lebih. Selain itu, jumlah laporan pada tiap kategori tidak seimbang, ada yang terlalu banyak dan ada yang terlalu sedikit.
Oleh karena itu, hanya 10 kategori dengan kategori paling populer yang digunakan pada riset ini, didapatkan kategori-kategori laporan sebagai berikut:
- Jalan
- Pohon
- Jaringan listrik
- Gangguan ketentraman dan ketertiban
- Parkir liar
- Sampah
- Pelayanan perhubungan
- Saluran air, kali/sungai
- Tata ruang dan bangunan
- Transportasi publik
Dari knowledge laporan selama satu tahun terakhir dengan sepuluh kategori ini, terdapat whole 34000 teks laporan. Jumlah knowledge ini didapatkan setelah proses cleaning, seperti menghapus laporan yang duplikat dan laporan tanpa teks.
Textual content preprocessing juga diterapkan pada knowledge, seperti pada gambar di bawah ini.
Arsitektur mannequin yang digunakan pada riset ini ada 2 macam, yaitu RNN-based dan Transformer-based. Untuk arsitektur RNN-based, dipilih LSTM dan LSTM dengan tambahan Consideration Mechanism. Sedangkan arsitektur Transformer-based dipilih IndoBERT dan DistilBERT.
Hyperparameter yang di-tuning untuk mendapatkan mannequin terbaik dari setiap arsitektur adalah sebagai berikut:
- mannequin
- glove utilization
- batch-size
- dense-lstm
- dense-layers
- dropout
- lstm-dim
- lstm-layers
- learning-rate
Proses hyperparameter tuning dilakukan dengan GridSearch menggunakan instruments dari Weights and Biases (W&B atau wandb). Dengan W&B ini proses hyperparameter menjadi lebih mudah untuk dioptimize, hingga lebih mudah untuk membuat visualisasi dari proses experiment pembuatan mannequin.
Setelah proses pelatihan mannequin dengan hyperparameter tuning, diperoleh performa akurasi dan f1-score terbaik dari masing-masing mannequin dengan menggunakan knowledge check. Mannequin LSTM dengan Consideration Mechanism mendapatkan nilai metrik akurasi dan f1-score tertinggi mencapai 85% dibandingkan mannequin lainnya.
Dalam case yang digunakan pada riset ini arsitektur RNN-based memiliki performa yang kurang lebih mirip dengan arsitektur Transformer-based. Hal ini menunjukan bahwa mannequin State of the Artwork tidak selalu lebih baik di semua kondisi. Terlebih untuk masalah textual content classification yang sederhana seperti yang dilakukan pada riset ini.
Keuntungan lain dari penggunaan mannequin yang lebih sederhana ini juga adalah proses komputasi menjadi tidak terlalu kompleks. Sehingga mannequin bisa membuat prediksi lebih cepat dan lebih hemat useful resource.
Jika kita analisis lebih lanjut dengan melihat hasil prediksi dari mannequin LSTM + Consideration, terdapat kategori laporan yang memiliki nilai f1 rating yang kecil, yaitu kategori pelayanan perhubungan. Artinya mannequin tidak cukup mengenali kategori tersebut.
Kemudian jika kita lihat dalam confussion matrix dan berfokus pada kategori pelayanan perhubungan, dari whole 240 knowledge check laporan dengan kategori pelayanan perhubungan, 56 laporan diantaranya diprediksi oleh mannequin sebagai kategori jalan, 47 laporan diprediksi sebagai parkir liar, dan 15 laporan diprediksi sebagai kategori transportasi publik.
Hal ini terjadi karena ketiga kategori tersebut memang terlihat mirip. Ketiganya berhubungan dengan transportasi dan perhubungan. Ini terbukti juga dari kata-kata yang paling sering muncul pada ketiga kategori tersebut memiliki banyak kemiripan. Diantaranya adalah kata “parkir”, “jalan”, “macet”, “mohon”, “tolong”, dan “kendaraan” (dalam gambar di bawah berubah menjadi “kendara”).
Selain itu, dari hasil perhitungan cosine similarity antara kategori pelayanan perhubungan dengan semua kategori yang ada, kategori jalan dan parkir liar memiliki nilai cosine similarity paling tinggi mencapai lebih dari 0,7 dengan kategori pelayanan perhubungan.
Sehingga dapat disimpulkan bahwa mannequin masih bias pada kategori pelayanan perhubungan karena kategori tersebut memiliki kemiripan yang cukup identik dengan kategori lain, yaitu kategori jalan dan parkir liar. Namun apabila mannequin textual content classification ini diterapkan, mungkin bisa dipilih prediksi kategori dengan threshold nilai probabilitas tertentu sehingga beberapa kategori yang memiliki karakteristik yang mirip bisa tetap dipilih. Namun meskipun begitu, mannequin sudah sangat baik untuk mengenali kategori-kategori lainnya yang memang memiliki keunikannya sendiri.
Mannequin machine studying textual content classification bisa memprediksi atau setidaknya memberikan rekomendasi kategori laporan dari teks yang ditulis oleh warga. Sehingga warga tidak perlu scroll 118 kategori yang ada di aplikasi untuk membuat laporan untuk mencari kategori yang relevan dengan laporannya.
Riset berhasil membuat mannequin dengan skor evaluasi yang cukup baik dengan akurasi dan f1-score di atas 80% dengan catatan saat ini adalah hanya bisa memprediksi 10 kategori terpopuler. Mannequin LSTM dengan tambahan Consideration Mechanism mendapatkan performa akurasi tertinggi pada riset ini. Dari hasil evaluasi juga menunjukan bahwa mannequin dengan arsitektur RNN-Primarily based dan Transformer-Primarily based bisa memiliki performa yang setara, khususnya pada case yang tidak terlalu kompleks.
Harapannya penelitian tentang textual content classification pada teks laporan JakLapor ini terus dikembangkan sehingga bisa memprediksi lebih banyak kategori laporan. Selain itu untuk membuat performa mannequin lebih baik, dapat dilakukan knowledge preprocessing yang lebih mendalam sehingga knowledge teks menjadi lebih bersih dan akurat.
Kemudian dari segi knowledge, terdapat beberapa kategori laporan yang memilki karakteristik yang mirip, dalam riset ini adalah kategori pelayanan perhubungan yang mana mannequin machine studying banyak memprediksi kategori tersebut sebagai kategori parkir liar dan kategori jalan. Hal ini juga disebabkan karena knowledge yang digunakan tidak seimbang. Sehingga diharapkan untuk penelitian selanjutnya adalah menambahkan knowledge pada kategori-kategori yang jumlah laporannya sedikit dari rentang waktu yang lebih lama, atau bisa juga dengan teknik textual content augmentation.
Itulah hasil riset yang telah dilakukan oleh Trainee dari Knowledge Science Trainee Batch 6 di Jakarta Good Metropolis. Semoga tulisan dari hasil riset ini bisa menambah wawasan pembaca dan semoga penelitian mengenai textual content classification laporan warga ini bisa terus disempurnakan hingga dapat diterapkan pada aplikasi JAKI.