I. INTRODUCTION
Diabetes adalah salah satu penyakit kronis yang paling umum dan berpotensi mematikan di seluruh dunia. Penyakit ini ditandai oleh tingginya kadar gula dalam darah yang disebabkan oleh gangguan produksi atau penggunaan insulin oleh tubuh. Jika tidak dikelola dengan baik, diabetes dapat menyebabkan komplikasi serius seperti penyakit jantung, kerusakan saraf, gagal ginjal, dan bahkan kematian. Oleh karena itu, deteksi dini dan manajemen yang efektif sangat penting dalam upaya mencegah atau mengurangi dampak buruk penyakit ini. Dengan perkembangan teknologi dan knowledge medis, pendekatan machine studying menawarkan solusi potensial untuk mengidentifikasi pola dan prediksi risiko diabetes berdasarkan berbagai gejala klinis dan faktor risiko.
Laporan ini bertujuan untuk menganalisis dataset risiko diabetes yang tersedia di “UCI Machine Studying Repository” dengan menggunakan berbagai metode machine studying. Tujuan utama dari analisis ini adalah untuk mengeksplorasi dan memahami dataset, melakukan eksplorasi awal untuk memahami distribusi knowledge, mengidentifikasi pola dan outlier, serta melakukan visualisasi knowledge. Selain itu, kami juga akan menerapkan berbagai algoritma machine studying untuk memprediksi risiko diabetes berdasarkan fitur-fitur yang tersedia. Evaluasi mannequin akan dilakukan untuk membandingkan performa berbagai mannequin machine studying guna menentukan mannequin yang paling akurat dan efisien dalam memprediksi risiko diabetes. Pada akhirnya, hasil mannequin akan dianalisis untuk memberikan wawasan tentang faktor-faktor yang paling mempengaruhi risiko diabetes.
Analisis ini diharapkan dapat memberikan kontribusi signifikan bagi bidang kesehatan. Mannequin prediksi yang akurat dapat digunakan oleh profesional medis sebagai alat bantu untuk diagnosa awal, yang pada gilirannya memungkinkan intervensi dini dan pengelolaan yang lebih efektif terhadap pasien. Selain itu, hasil analisis dapat memberikan wawasan yang lebih mendalam tentang faktor-faktor risiko utama yang harus diperhatikan dalam upaya pencegahan dan edukasi kesehatan masyarakat. Dengan demikian, penggunaan machine studying dalam analisis knowledge medis ini tidak hanya meningkatkan akurasi diagnosa tetapi juga berpotensi menyelamatkan banyak nyawa melalui deteksi dini dan penanganan yang tepat.
Laporan ini akan disusun dengan struktur yang mencakup pendahuluan, deskripsi knowledge, prapemrosesan knowledge, exploratory knowledge evaluation (EDA), penerapan mannequin machine studying, evaluasi dan diskusi hasil, serta kesimpulan dan rekomendasi. Melalui struktur ini, diharapkan pembaca dapat mengikuti proses analisis secara sistematis dan mendapatkan pemahaman yang komprehensif mengenai penggunaan teknik machine studying dalam prediksi risiko diabetes.
II. LITERATURE REVIEW
- DECISION TREE
Determination Tree adalah sebuah mannequin yang digunakan untuk melakukan klasifikasi dengan memetakan atribut-atribut yang ada pada suatu kasus ke dalam kelas-kelas tertentu. Mannequin ini terdiri dari simpul-simpul (nodes) yang merepresentasikan atribut atau keputusan, dan cabang-cabang (branches) yang menghubungkan simpul-simpul tersebut. Proses pembentukan pohon keputusan diawali dengan mempersiapkan sekumpulan kasus yang sudah terpecahkan. Set ini kemudian dibagi menjadi dua bagian, yaitu set pelatihan (coaching set) yang digunakan untuk membangun pohon keputusan dan set pengujian (testing set) yang digunakan untuk menguji akurasi dari pohon yang dihasilkan [5].
- RANDOM FOREST
Random Forest adalah kombinasi dari beberapa tree prediktor di mana setiap tree bergantung pada nilai vektor acak yang diambil secara independen dan memiliki distribusi yang sama untuk semua tree di dalam forest. Error generalisasi untuk forest akan konvergen ke suatu restrict seiring bertambahnya jumlah tree di dalam forest. Error generalisasi dari forest dari tree classifier bergantung pada kekuatan dari masing-masing tree dalam forest dan korelasi antara mereka. Dengan menggunakan pemilihan fitur acak untuk membagi setiap node menghasilkan tingkat error yang dibandingkan dengan Adaboost, tetapi lebih tahan terhadap noise. Estimasi inner digunakan untuk memantau error, kekuatan, dan korelasi dan ini digunakan untuk menunjukkan respons terhadap peningkatan jumlah fitur yang digunakan dalam pemisahan [2].
- SUPPORT VECTOR MACHINE
Help Vector Machine (SVM) adalah salah satu metode pembelajaran mesin yang digunakan untuk masalah klasifikasi dua kelompok. Konsep utama SVM adalah memetakan vektor enter ke ruang fitur berdimensi sangat tinggi secara non-linear, di mana di ruang fitur ini dibangun permukaan keputusan linier. Permukaan keputusan ini memiliki sifat khusus yang memastikan kemampuan generalisasi tinggi dari mesin pembelajaran. Ide dasar di balik SVM adalah menemukan hyperplane optimum yang memaksimalkan margin, yaitu jarak terdekat antara hyperplane dan titik knowledge dari kedua kelas. Dalam kasus di mana knowledge pelatihan tidak dapat dipisahkan secara linier, SVM memungkinkan adanya margin lunak yang mengizinkan beberapa kesalahan klasifikasi untuk meningkatkan kemampuan generalisasi. Proses pelatihan SVM melibatkan penyelesaian masalah optimasi kuadrat di bawah kendala sederhana. Solusi dari masalah optimasi ini diperoleh dengan menggunakan vektor dukungan, yaitu subset dari knowledge pelatihan yang menentukan margin hyperplane. Dalam prakteknya, ini berarti hanya sebagian kecil dari knowledge pelatihan yang berpengaruh pada mannequin yang dihasilkan, yang membuat SVM sangat efisien meskipun dalam ruang fitur berdimensi tinggi [3].
- Okay-NEAREST NEIGHBOR
Okay-Nearest Neighbour (k-NN) adalah salah satu algoritma pembelajaran mesin yang bersifat “lazy studying” atau “instance-based studying”. Algoritma ini tidak membangun mannequin eksplisit, melainkan melakukan prediksi berdasarkan keseluruhan dataset yang ada. Inti dari k-NN adalah menentukan output berdasarkan kedekatan jarak dengan knowledge yang sudah ada. Jarak antara knowledge dihitung menggunakan metrik seperti jarak Euclidean, Manhattan, atau Minkowski [6]. Langkah-langkah Okay-NN adalah sebagai berikut :
- Inisialisasi Parameter: Tentukan nilai okay yang merupakan jumlah tetangga terdekat.
- Hitung Jarak: Untuk setiap knowledge baru, hitung jarak antara knowledge baru dengan seluruh knowledge dalam dataset menggunakan metrik jarak yang telah ditentukan.
- Seleksi Tetangga Terdekat: Pilih okay knowledge dengan jarak terdekat sebagai tetangga terdekat.
- Klasifikasi/Pemutusan Keputusan:
- Untuk Klasifikasi: Prediksi output adalah kelas yang paling sering muncul di antara okay tetangga terdekat.
- Untuk Regresi: Prediksi output adalah rata-rata dari nilai-nilai tetangga terdekat.
- NEURAL NETWORK
Neural Community (NN) adalah sistem komputasi yang terinspirasi oleh cara kerja otak manusia dalam memproses informasi. Sistem ini terdiri dari unit-unit pemrosesan dasar yang disebut neuron atau node, yang diorganisasikan dalam lapisan-lapisan (layers). Lapisan ini umumnya terdiri dari:
- Lapisan Enter: Neuron-neuron yang menerima knowledge mentah dari luar.
- Lapisan Tersembunyi (Hidden Layers): Neuron-neuron yang melakukan sebagian besar pemrosesan komputasi, menerapkan berbagai transformasi dan ekstraksi fitur.
- Lapisan Output: Neuron-neuron yang menghasilkan hasil akhir dari pemrosesan.
Neuron-neuron ini dihubungkan oleh sinapsis buatan yang masing-masing memiliki bobot (weight) yang dapat disesuaikan selama proses pelatihan (coaching). Proses pelatihan neural community biasanya menggunakan algoritma backpropagation untuk meminimalkan kesalahan dengan cara menyesuaikan bobot sinapsis berdasarkan gradien kesalahan [1].
- METRIK EVALUASI
Evaluasi kinerja mannequin dalam machine studying sangat penting untuk menentukan seberapa baik mannequin tersebut bekerja pada knowledge baru. Berikut ini beberapa metrik evaluasi kinerja mannequin yang digunakan pada penelitian ini:
- Accuracy adalah salah satu metrik evaluasi yang paling umum digunakan dalam machine studying dan statistik untuk menilai performa mannequin klasifikasi. Metrik ini mengukur proporsi prediksi yang benar dari keseluruhan prediksi yang dibuat oleh mannequin [4]. Accuracy dapat dihitung sebagai persamaan berikut :
(1)
Di mana:
- TP (True Positives): Jumlah knowledge positif yang diklasifikasikan dengan benar sebagai positif.
- TN (True Negatives): Jumlah knowledge negatif yang diklasifikasikan dengan benar sebagai negatif.
- FP (False Positives): Jumlah knowledge negatif yang salah diklasifikasikan sebagai positif.
- FN (False Negatives): Jumlah knowledge positif yang salah diklasifikasikan sebagai negatif.
- Precision (Presisi) adalah metrik evaluasi yang digunakan dalam klasifikasi untuk mengukur akurasi dari prediksi positif yang dibuat oleh mannequin. Presisi memberikan proporsi dari prediksi positif yang benar-benar positif. Metrik ini sangat berguna ketika biaya kesalahan positif (False Constructive) tinggi, seperti dalam deteksi penipuan atau prognosis medis [4]. Presisi dapat dihitung sebagai persamaan berikut :
(2)
Di mana :
- TP (True Positives): Jumlah knowledge positif yang diklasifikasikan dengan benar sebagai positif.
- FP (False Positives): Jumlah knowledge negatif yang salah diklasifikasikan sebagai positif.
- Recall (Sensitivitas atau True Constructive Fee) adalah metrik evaluasi yang digunakan dalam klasifikasi untuk mengukur kemampuan mannequin dalam mengidentifikasi semua occasion positif yang benar. Recall memberikan proporsi dari occasion positif yang benar-benar diidentifikasi sebagai positif oleh mannequin. Metrik ini sangat penting ketika biaya kesalahan negatif (False Detrimental) tinggi, seperti dalam prognosis penyakit atau deteksi keamanan [4]. Recall dapat dihitung sebagai persamaan berikut :
(3)
Di mana :
- TP (True Positives): Jumlah knowledge positif yang diklasifikasikan dengan benar sebagai positif.
- FP (False Positives): Jumlah knowledge negatif yang salah diklasifikasikan sebagai positif.
- F1-Rating adalah metrik evaluasi yang menggabungkan precision dan recall ke dalam satu nilai tunggal. Metrik ini digunakan untuk memberikan gambaran keseimbangan antara precision dan recall, terutama dalam konteks knowledge yang tidak seimbang. F1-Rating merupakan rata-rata harmonik dari precision dan recall, dan memberikan keseimbangan yang lebih baik ketika ada trade-off antara kedua metrik tersebut [4]. F1-Rating dapat dihitung sebagai persamaan berikut :
(4)
Di mana :
- Precision: Proporsi prediksi positif yang benar dari semua prediksi positif.
- Recall: Proporsi occasion positif yang benar-benar diidentifikasi sebagai positif.
- AUC-ROC adalah metrik evaluasi yang digunakan untuk mengukur kinerja mannequin klasifikasi, terutama dalam konteks klasifikasi biner. AUC (Space Below the Curve) — ROC (Receiver Working Attribute) menggabungkan sensitivitas (recall) dan spesifisitas mannequin pada berbagai threshold klasifikasi. Metrik ini membantu dalam memahami trade-off antara True Constructive Fee (TPR) dan False Constructive Fee (FPR) [4]. TPR dan FPR dapat dihitung dengan persamaan berikut :
(5)
(6)
Di mana :
- TP (True Positives): Jumlah knowledge positif yang diklasifikasikan dengan benar sebagai positif.
- TN (True Negatives): Jumlah knowledge negatif yang diklasifikasikan dengan benar sebagai negatif.
- FP (False Positives): Jumlah knowledge negatif yang salah diklasifikasikan sebagai positif.
- FN (False Negatives): Jumlah knowledge positif yang salah diklasifikasikan sebagai negatif.
ROC Curve adalah grafik yang menampilkan TPR di sumbu y dan FPR di sumbu x pada berbagai threshold klasifikasi. ROC curve menunjukkan bagaimana TPR dan FPR berubah dengan perubahan threshold klasifikasi. AUC (Space Below the Curve) mengukur luas di bawah ROC curve. Nilai AUC berkisar antara 0 dan 1, dengan interpretasi berikut :
- AUC = 0.5: Mannequin tidak lebih baik daripada tebakan acak.
- AUC = 1: Mannequin sempurna dalam memisahkan kelas positif dan negatif.
- 0.5 < AUC < 1: Mannequin memiliki kemampuan yang lebih baik daripada tebakan acak.
III. METHODOLOGY
- SUMBER DATA
Sumber knowledge yang digunakan pada penelitian ini merupakan knowledge sekunder yang diambil melalui situs UC Irvine Machine Studying Repository.
Hyperlink: https://archive.ics.uci.edu/dataset/529/early+stage+diabetes+risk+prediction+dataset
Diakses: 14 Juni 2024 (21:23:10)
- VARIABEL PENELITIAN
variabel yang digunakan dalam penelitian ini dijelaskan pada tabel 1.
Tabel 1 Variabel Penelitian
Variabel
Skala Information
Age
Rasio
Gender
Ordinal
Polyuria
Ordinal
Polydipsia
Ordinal
Sudden_weight_loss
Ordinal
Weak point
Ordinal
Polyphagia
Ordinal
Genital_thrush
Ordinal
Visual_blurring
Ordinal
Itching
Ordinal
Irritability
Ordinal
Delayed_healing
Ordinal
Partial_paresis
Ordinal
Muscle_stiffness
Ordinal
Alopecia
Ordinal
Weight problems
Ordinal
Class
Ordinal
- LANGKAH ANALISIS
Berikut merupakan langkah-langkah analisis yang dilakukan dalam penelitian ini berdasarkan variabel yang telah ditentukan
- Melakukan pra-pemrosesan knowledge.
- Memeriksa dan menangani lacking worth dalam dataset.
- Melakukan normalisasi atau standarisasi knowledge.
- Membagi dataset menjadi subset pelatihan dan pengujian dengan proporsi tertentu.
- Menerapkan alogritma machine studying.
- Menggunakan algoritma resolution tree.
- Menggunakan algoritma random forest.
- Menggunakan algoritma Help Vector Machine (SVM).
- Menggunakan algoritma Okay-Nearest Neighbors (KNN).
- Menggunakan algoritma Neural Community (NN).
- Mengevaluasi kinerja mannequin.
- Menggunakan metrik evaluasi seperti akurasi, presisi, recall, F1-score, dan space di bawah kurva ROC (AUC-ROC).
- Menerapkan teknik cross-validarion.
- Melakukan perbandingan kinerja mannequin berdasarkan metrik evaluasi.
- Menarik kesimpulan dan saran.
IV. RESULTS AND DISCUSSIONS
- DATASET
Penelitian ini menggunakan dataset yang diakses di UC Irvine Machine Studying Repository. Dataset yang digunakan adalah knowledge yang berjudul “Diabetes Danger”. Dataset terdiri dari 520 baris dan 17 kolom. Dalam dataset dijelaskan bahwa risiko diabetes dapat dilihat melalui beberapa indikator yang dialami oleh pasien, seperti kondisi buang air kecil, kondisi rasa haus, dan kondisi-kondisi lainnya. Terdapat 17 variabel yang digunakan dalam dataset ini, deskrip variabel tersebut dijelaskan pada tabel 2.
Tabel 2 Deskripsi Variabel
Variabel
Deskripsi
Tipe Information
Nilai
Age
Usia pasien dalam satuan tahun
Numerik
16–90 tahun
Gender
Jenis kelamin pasien
Kategorik
Male atau Feminine
Polyuria
Kondisi buang air kecil yang berlebihan
Kategorik
Sure atau No
Polydipsia
Kondisi rasa haus yang berlebihan
Kategorik
Sure atau No
Sudden_weight_loss
Kehilangan berat badan secara mendadak
Kategorik
Sure atau No
Weak point
Kondisi kelemahan atau lemas
Kategorik
Sure atau No
Polyphagia
Kondisi rasa lapar yang berlebihan
Kategorik
Sure atau No
Genital_thrush
Infeksi jamur pada alat kelamin
Kategorik
Sure atau No
Visual_blurring
Pengelihatan kabur
Kategorik
Sure atau No
Itching
Kondisi gatal-gatal pada kulit
Kategorik
Sure atau No
Irritability
Kondisi mudah marah
Kategorik
Sure atau No
Delayed_healing
Proses penyembuhan luka yang lambat
Kategorik
Sure atau No
Partial_paresis
Kondisi kelemahan otot parsial
Kategorik
Sure atau No
Muscle_stiffness
Kekuatan otot
Kategorik
Sure atau No
Alopecia
Kondisi rambut rontok atau kebotakan
Kategorik
Sure atau No
Weight problems
Kondisi obesitas atau kelebihan berat badan
Kategorik
Sure atau No
Class
Hasil prognosis
Kategorik
Constructive atau Detrimental
Variabel respon pada penelitian ini adalah variabel “Class” dengan 16 variabel lainnya menjadi variabel prediktor.
- PREPROCESSING DATA
- Pemeriksaan Tipe Information
Langkah awal sebelum melakukan pengolahan knowledge yaitu memeriksa kesesuaian tipe knowledge pada masing-masing variabel. Dengan menggunakan Python, tipe knowledge yang terdeteksi pada masing-masing variabel adalah sebagai berikut
Tabel 3 Tipe Information Variabel
Nama Variabel
Tipe Information
Nama Variabel
Tipe Information
Age
int64
Itching
object
Gender
object
Irritability
object
Polyuria
object
Delayed_healing
object
Polydipsia
object
Partial_paresis
object
Sudden_weight_loss
object
Muscle_stiffness
object
Weak point
object
Alopecia
object
Polyphagia
object
Weight problems
object
Genital_thrush
object
Class
object
Visual_blurring
object
Variabel pada dataset belum memiliki tipe knowledge yang sesuai dengan seharusnya sehingga diperlukan tindakan pengubahan tipe knowledge. Variabel yang memiliki tipe knowledge “object” akan diubah menjadi numerik dengan nilai “0” dan “1”. Berikut ini adalah tipe knowledge variabel dataset yang baru
Tabel 4 Tipe Information Baru Variabel
Nama Variabel
Tipe Information
Nama Variabel
Tipe Information
Age
int32
Itching
int32
Gender
int32
Irritability
int32
Polyuria
int32
Delayed_healing
int32
Polydipsia
int32
Partial_paresis
int32
Sudden_weight_loss
int32
Muscle_stiffness
int32
Weak point
int32
Alopecia
int32
Polyphagia
int32
Weight problems
int32
Genital_thrush
int32
Class
int32
Visual_blurring
int32
Variabel pada dataset telah memiliki tipe knowledge yang sesuai dengan seharusnya.
- Pembersihan Information
Proses pembersihan knowledge dapat dilakukan dengan cara memeriksa adanya lacking worth dan kesesuaian skala knowledge. Jumlah knowledge lacking worth pada masing-masing variabel dapat dihitung menggunakan python sebagai berikut
Tabel 5 Lacking Worth Variabel
Nama Variabel
MissingValue
Nama Variabel
Lacking Worth
Age
0
Itching
0
Gender
0
Irritability
0
Polyuria
0
Delayed_healing
0
Polydipsia
0
Partial_paresis
0
Sudden_weight_loss
0
Muscle_stiffness
0
Weak point
0
Alopecia
0
Polyphagia
0
Weight problems
0
Genital_thrush
0
Class
0
Visual_blurring
0
Berdasarkan tabel 5, dapat dilihat bahwa seluruh variabel memiliki jumlah ‘NA’ atau lacking worth sebanyak 0. Artinya tidak terdeteksi adanya lacking worth dalam dataset dan tidak memerlukan imputasi knowledge.
Variabel “Class” akan menjadi variabel respon atau goal dan variabel lainnya akan menjadi variabel prediktor. Variabel goal akan diubah menjadi biner untuk mengklasifikasikan pasien yang menderita diabetes. Klasifikasi dibagi menjadi dua, yaitu pasien yang menderita diabetes ketika “Class” sama dengan “Constructive” dan pasien yang tidak menderita diabetes ketika “Class” sama dengan “Detrimental” Variabel “Class” akan disimpan ke dalam variabel y dimana nilai y akan sama dengan 1 ketika pasien menderita diabetes dan nilai 0 ketika pasien tidak menderita diabetes. Sebelum melakukan standarisasi knowledge, dilakukan pengecekan terhadap persebaran knowledge yang dijelaskan pada gambar 1.
Gambar 1 Persebaran Information Variabel
Gambar di atas menunjukkan bahwa skala knowledge pada variabel yang menjadi variabel prediktor memiliki seberan yang berbeda. Terdapat nilai yang mengumpul di sisi kiri dan sisi kanan, serta terdapat variabel yang memiliki vary worth yang besar sehingga perlu dilakukan normalisasi agar variabel prediktor memiliki rentang yang sama. Setelah dilakukan normalisasi, selanjutnya knowledge dibagi menjadi set coaching dan tesing dengan menggunakan Python train_test_split dengan ukuran testing 20% dari complete knowledge.
- METODE DECISION TREE
Mannequin Determination Tree dibuat menggunakan DecisionTreeClassifier dari sklearn, dengan kedalaman maksimal atau panjang tangkai sama dengan 3. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut
Tabel 5 Metrik Evaluasi Determination Tree
Metrik Evaluasi
Rating
Akurasi Coaching
90.13%
Akurasi
92.31%
Presisi
92.25%
Recall
92.31%
F1-Rating
92.24%
ROC-AUC
94.37%
Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 90.13%, dan akurasi pada set pengujian adalah sekitar 92.31%. Metrik evaluasi menunjukkan presisi sebesar 92.25%, recall sebesar 92.31%, F1 rating sebesar 92.24%, dan ROC AUC sebesar 94.37%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 0.94.
Gambar 2 Kurva ROC Determination Tree
Berikut merupakan visualisasi dari Determination Tree yang menunjukkan bagaimana mannequin membuat keputusan berdasarkan variabel-variabel pada dataset. Visualisasi tersebut menunjukkan pembagian berdasarkan atribut penderita diabetes seperti usia dan jenis kelamin.
Gambar 3 Visualisasi Determination Tree
- METODE RANDOM FOREST
Mannequin Random Forest dibuat menggunakan RandomForestClassifier dari sklearn. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut
Tabel 6 Metrik Evaluasi Random Forest
Metrik Evaluasi
Rating
Akurasi Coaching
97.17%
Akurasi
99.04%
Presisi
99.07%
Recall
99.04%
F1-Rating
99.04%
ROC-AUC
100%
Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 97.17%, dan akurasi pada set pengujian adalah sekitar 99.04%. Metrik evaluasi menunjukkan presisi sebesar 99.07%, recall sebesar 99.04%, F1 rating sebesar 99.04%, dan ROC AUC sebesar 100%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 1.
Gambar 4 Kurva ROC Random Forest
- METODE SUPPORT VECTOR MACHINE
Mannequin Help Vector Machine dibuat menggunakan Help Vector Classification dari sklearn. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut
Tabel 7 Metrik Evaluasi Help Vector Machine
Metrik Evaluasi
Rating
Akurasi Coaching
94.71%
Akurasi
99.04%
Presisi
99.05%
Recall
99.03%
F1-Rating
99.03%
ROC-AUC
99.61%
Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 94.71%, dan akurasi pada set pengujian adalah sekitar 99.04%. Metrik evaluasi menunjukkan presisi sebesar 99.05%, recall sebesar 99.03%, F1 rating sebesar 99,03%, dan ROC AUC sebesar 99.61%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 1. Kurva ROC ini membantu dalam memahami performa mannequin dalam membedakan antara kelas yang berbeda.
Gambar 5 Kurva ROC Help Vector Machine
- METODE Okay-NEAREST NEIGHBOR
Mannequin Okay-Nearest Neighbour (KNN) dibuat menggunakan KNeighborsClassifier dari sklearn. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut
Tabel 8 Metrik Evaluasi Okay-Nearest Neighbour
Metrik Evaluasi
Rating
Akurasi Coaching
92.07%
Akurasi
89.42%
Presisi
90.21%
Recall
89.42%
F1-Rating
89.60%
ROC-AUC
97.99%
Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 92.07%, dan akurasi pada set pengujian adalah sekitar 89.42%. Metrik evaluasi menunjukkan presisi sebesar 90.21%, recall sebesar 89.42%, F1 rating sebesar 89.60%, dan ROC AUC sebesar 97.99%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 0.98. Kurva ROC ini membantu dalam memahami performa mannequin dalam membedakan antara kelas yang berbeda.
Gambar 6 Kurva ROC Okay-Nearest Neighbour
- METODE NEURAL NETWORK
Mannequin Neural Community dibuat menggunakan MLPClassifier dari sklearn, dengan parameter max_iter=1000 untuk memastikan bahwa mannequin dapat berkonvergensi. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut
Tabel 9 Metrik Evaluasi Neural Community
Metrik Evaluasi
Rating
Akurasi Coaching
95.91%
Akurasi
99.03%
Presisi
99.05%
Recall
99.04%
F1-Rating
99.03%
ROC-AUC
99.91%
Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 95.91%, dan akurasi pada set pengujian adalah sekitar 99.03%. Metrik evaluasi menunjukkan presisi sebesar 99.05%, recall sebesar 99.04%, F1 rating sebesar 99.03%, dan ROC AUC sebesar 99.91%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 1. Kurva ROC ini membantu dalam memahami performa mannequin dalam membedakan antara kelas yang berbeda.
Gambar 6 Kurva ROC Neural Community
- KOMPARASI MODEL
Hasil penelitian menunjukkan bahwa mannequin Random Forest memiliki performa terbaik di antara semua mannequin yang diuji. Dengan akurasi pengujian sebesar 99.04%, mannequin ini menunjukkan tingkat keakuratan yang tinggi dalam memprediksi risiko diabetes. Presisi sebesar 99.07% mengindikasikan bahwa sebagian besar prediksi positif yang dibuat oleh mannequin ini benar, sementara recall sebesar 99.04% menunjukkan bahwa mannequin ini berhasil mengidentifikasi sebagian besar dari semua occasion positif yang ada. Kombinasi dari presisi dan recall yang tinggi menghasilkan F1-Rating sebesar 99.04%, yang mencerminkan keseimbangan yang baik antara presisi dan recall. Selain itu, nilai ROC-AUC sebesar 100% menunjukkan bahwa mannequin ini memiliki kemampuan yang sangat baik dalam membedakan antara kelas positif dan negatif, menandakan bahwa mannequin ini sangat efektif dalam menangani klasifikasi pada dataset risiko diabetes.
Tabel 10 Komparasi Mannequin
Metrik Evaluasi
Determination Tree
Random Forest
Help Vector Machine
Okay-Nearest Neighbour
Neural Community
Akurasi Coaching
90.13%
97.17%
94.71%
92.07%
95.91%
Akurasi
92.31%
99.04%
99.04%
89.42%
99.03%
Presisi
92.25%
99.07%
99.05%
90.21%
99.05%
Recall
92.31%
99.04%
99.03%
89.42%
99.04%
F1-Rating
92.24%
99.04%
99.03%
89.60%
99.03%
ROC-AUC
94.37%
100%
99.61%
97.99%
99.91%
Mannequin Neural Community juga menunjukkan performa yang baik, meskipun sedikit lebih rendah dibandingkan Random Forest. Dengan akurasi pengujian sebesar 99.03%, mannequin ini cukup akurat dalam memprediksi risiko diabetes. Presisi sebesar 99.05% menunjukkan tingkat keakuratan yang baik dalam prediksi positif, dan recall sebesar 99.04% menunjukkan efektivitas dalam mengidentifikasi occasion positif. F1-Rating sebesar 99.03% mengindikasikan keseimbangan yang baik antara presisi dan recall. Nilai ROC-AUC sebesar 99.91% menunjukkan bahwa mannequin ini cukup efektif dalam membedakan antara kelas positif dan negatif, meskipun tidak sebaik Random Forest.
Mannequin Help Vector Machine dan Determination Tree menunjukkan performa yang cukup baik, namun masih lebih rendah dibandingkan Random Forest dan Neural Community. Help Vector Machine memiliki akurasi pengujian sebesar 99.04%, presisi 99.05%, recall 99.03%, F1-Rating 99.03%, dan ROC-AUC 99.61%. Meskipun performanya baik, Help Vector Machine tidak mampu mengungguli Random Forest dan Neural Community. Determination Tree memiliki akurasi pengujian sebesar 92.31%, presisi 92.25%, recall 92.31%, F1-Rating 92.24%, dan ROC-AUC 94.37%. Determination Tree menunjukkan performa yang stabil, namun juga tidak mampu mengungguli Random Forest. Okay-Nearest Neighbour memiliki performa paling rendah di antara mannequin yang dibandingkan, dengan akurasi pengujian sebesar 89.42%, presisi 90.21%, recall 89.42%, F1-Rating 89.60%, dan ROC-AUC 97.99%. Meskipun Okay-Nearest Neighbour masih memberikan hasil yang cukup baik, mannequin ini lebih rentan terhadap overfitting dan memiliki kemampuan prediktif yang lebih rendah dibandingkan mannequin lainnya.
Secara keseluruhan, Random Forest menunjukkan performa paling baik dengan antara presisi dan recall. Neural Community juga memberikan hasil yang baik, sementara Help Vector Machine dan Determination Tree cukup kompeten meskipun tidak sebaik Random Forest. Okay-Nearest Neighbour, meskipun memiliki performa menengah, kurang optimum dibandingkan dengan mannequin lainnya dalam penelitian ini.
V. CONCLUSIONS AND SUGGESTIONS
Penelitian ini berfokus pada analisis dataset risiko diabetes yang diakses dari UC Irvine Machine Studying Repository. Tujuan utama dari analisis ini adalah untuk mengeksplorasi dan memahami dataset, serta menerapkan berbagai algoritma machine studying untuk memprediksi risiko diabetes. Metode machine studying yang digunakan meliputi resolution tree, random forest, Help Vector Machine (SVM), Okay-Nearest Neighbors (KNN), dan Neural Community (NN). Evaluasi mannequin dilakukan menggunakan metrik seperti akurasi, presisi, recall, F1-score, dan AUC-ROC, serta menerapkan teknik cross-validation.
Hasil penelitian menunjukkan bahwa mannequin machine studying dapat memberikan wawasan yang signifikan tentang faktor-faktor yang mempengaruhi risiko diabetes. Mannequin yang paling bagus adalah random forest dengan nilai presisi dan recall yang lebih baik dibanding mannequin lainnya. Mannequin prediksi yang akurat ini dapat digunakan oleh tenaga medis mengenai aplikasi praktis pembelajaran mesin dalam klasifikasi risiko diabetes sebagai alat bantu untuk diagnosa awal, memungkinkan intervensi dini dan pengelolaan yang lebih efektif terhadap pasien. Selain itu, hasil analisis memberikan wawasan yang lebih mendalam tentang faktor-faktor risiko utama yang harus diperhatikan dalam upaya pencegahan dan edukasi kesehatan masyarakat. Dengan demikian, penggunaan machine studying dalam analisis knowledge medis ini berpotensi meningkatkan akurasi diagnosa dan menyelamatkan banyak nyawa melalui deteksi dini dan penanganan yang tepat.
REFERENCES
[1] Abdi, Hervé, Dominique Valentin, and Betty Edelman. “Neural networks,” №124. Sage, 1999.
[2] Breiman. Leo, “Random forests,” Machine studying 45: 5–32, 2001.
[3] Cortes, Corinna, and Vladimir Vapnik, “Help-vector networks.” Machine studying 20: 273–297, 1995.
[4] Müller, Andreas C., and Sarah Guido. Introduction to machine studying with Python: a information for knowledge scientists. “ O’Reilly Media, Inc.”, 2016.
[5] Podgorelec. Vili. et al, “Determination bushes: an summary and their use in drugs,” Journal of medical methods 26: 445–463, 2002.
[6] Tune. Yunsheng. et al, “An environment friendly occasion choice algorithm for okay nearest neighbor regression,” Neurocomputing 251:26–34, 2017.