Pada Januari 2024, tercatat ada 5,35 miliar pengguna web di seluruh dunia dengan rata-rata waktu akses harian antara 135 hingga 193 menit. Meskipun teknologi informasi dan komunikasi telah berkembang pesat, perilaku masyarakat di media sosial belum sepenuhnya sejalan dengan kemajuan tersebut. Pada tahun 2017, sebagian besar insiden cyberbullying dilaporkan terjadi melalui media sosial. Media sosial adalah platform digital yang digunakan untuk berinteraksi secara on-line dengan orang lain. Platform media sosial yang paling populer pada tahun 2017 meliputi Fb, YouTube, WhatsApp, Instagram, dan Twitter. Menurut information statistik dari survei tahunan The Annual Bullying, 54% dari 10000 responden melaporkan pernah mengalami cyberbullying. Penelitian ini melakukan analisis sentimen terhadap kasus cyberbullying yang terjadi di berbagai media sosial di seluruh dunia. Analisis sentimen ini bertujuan untuk menentukan apakah suatu teks mengandung unsur emosional cyberbullying atau tidak. Sebanyak 47692 teks berbeda digunakan dalam penelitian ini, dengan sekitar 8.000 teks untuk setiap kategori, yaitu cyberbullying berdasarkan usia, etnis, jenis kelamin, agama, kategori lainnya, dan teks yang tidak termasuk dalam kategori cyberbullying. Metode penelitian ini menggunakan machine studying dengan enam mannequin klasifikasi, yaitu Logistic Regression, Resolution Tree, Random Forest, Assist Vector Machine (SVM), Naive Bayes, dan Gradient Boosting.
Knowledge yang digunakan dalam penelitian ini adalah information sekunder yang diperoleh dari web site kaggle dengan tautan https://www.kaggle.com/datasets/andrewmvd/cyberbullying-classification. Knowledge ini memiliki jumlah pengamatan sebanyak 47692 sampel teks tentang cyberbullying di sosial media.
Metode yang digunakan pada penelitian ini adalah metode klasifikasi machine studying yang terdiri dari 6 metode yaitu Logistic Regression, Resolution Tree, Random Forest, Assist Vector Machine (SVM), Naive Bayes, dan Gradient Boosting. Tahapan proses dan langkah analisis information dengan menggunakan bahasa pemrograman phyton adalah sebagai berikut.
- Pengecekan Duplicate Knowledge
- Visualisasi Bar Chart (Cyberbullying Kind)
- Mendefinisikan Label Kelas
- Melakukan Vektorisasi dengan TF-IDF
Dilakukan Hyperparameter Tuning dan Cross Validation sebanyak lima. Untuk mendapatkan parameter terbaik dari masing-masing mannequin klasifikasi machine studying.
Logistic Regression adalah metode analisis yang menggunakan variabel independen kuantitatif untuk memprediksi probabilitas terjadinya suatu kejadian yang variabelnya bersifat biner.
Resolution Tree adalah metode yang digunakan dalam pemodelan dan penggambaran keputusan. Resolution Tree masuk dalam ruang lingkup information mining dan machine studying. Dalam penyajiannya, choice tree terdiri dari simpul (node) yang menjelaskan keputusan atau kejadian, serta cabang (department) yang menjelaskan peluang hasil keputusan.
Random Forest adalah algoritma ensemble studying yang terdiri dari kumpulan (hutan) pohon keputusan yang dilatih secara acak dan independen, kemudian digabungkan untuk meningkatkan akurasi dan stabilitas prediksi.
- Assist Vector Machine (SVM)
Assist Vector Machine (SVM) adalah metode machine studying yang digunakan untuk klasifikasi. SVM bekerja dengan menemukan hyperplane optimum yang memisahkan kelas-kelas dalam information dengan margin maksimum.
Naive Bayes adalah metode klasifikasi berbasis teorema Bayes dengan asumsi bahwa setiap fitur bersifat independen terhadap fitur lainnya dalam konteks kelas goal. Naive Bayes sering kali bekerja sangat baik dalam berbagai masalah klasifikasi, terutama untuk dataset dengan dimensi tinggi dan fitur diskrit.
Gradient Boosting adalah metode ensemble studying yang membangun mannequin prediktif kuat melalui penggabungan sejumlah mannequin prediktif lemah. Metode ini bekerja dengan menambahkan mannequin baru yang memperbaiki kesalahan prediksi dari mannequin sebelumnya, di mana setiap mannequin baru menyesuaikan dengan gradien dari fungsi loss yang dihitung pada mannequin sebelumnya.
Berdasarkan penelitian dan pembahasan yang dilakukan dapat diperoleh informasi sebagai berikut.
- Tipe cyberbullying terbanyak adalah yang menjurus pada agama. Ini menunjukkan bahwa dalam dataset ini, kasus cyberbullying berbasis agama lebih dominan dibandingkan dengan tipe lainnya. Tipe cyberbullying paling sedikit adalah tipe lainnya yang tidak termasuk dalam kategori agama, umur, etnis, dan gender
- Untuk kategori “not_cyberbullying,” kata-kata umum seperti “college,” “individuals,” dan “know” sering muncul. Pada kategori “gender,” istilah yang mungkin bersifat seksis atau merendahkan seperti “joke,” “homosexual,” “sexist,” dan “bitch” dominan. Untuk kategori “faith,” kata-kata seperti “Christian,” “Islam,” “terrorist,” dan “hate” sering dikaitkan dengan bullying berbasis agama. Kategori “other_cyberbullying” mencakup bentuk-bentuk cyberbullying yang tidak spesifik, dengan kata-kata seperti “fool,” “individuals,” “https,” dan “RT.” Pada kategori “age,” kata-kata seperti “highschool,” “bullied,” dan “center college” sering digunakan dalam konteks bullying berdasarkan usia. Terakhir, kategori “ethnicity” mencerminkan istilah yang sering digunakan dalam cyberbullying berbasis etnisitas seperti “nigger,” “dumb,” “ass,” dan “fuck.”
- Mannequin klasifikasi machine studying yang terbaik adalah menggunakan metode Assist Vector Machine (SVM) dengan parameter terbaik yaitu kernel linar, gamma sebesar 1, dan C sebesar 1. Dari parameter tersebut dieperoleh tingkat akurasi sebesar 0.814, presisi sebesar 0.82, recall sebesar 0.81, dan F1-Rating sebesar 0.82. Nilai tersebut paling tinggi sehingga mannequin ini mampu memberikan prediksi yang sangat akurat dan seimbang, menjadikannya pilihan terbaik di antara semua mannequin klasifikasi yang diuji.