ANALISIS KLASIFIKASI DENGAN METODE MACHINE LEARNING PADA DIABETES RISK DATASET | by Mtaufiqhidayat

I. INTRODUCTION

Diabetes adalah salah satu penyakit kronis yang paling umum dan berpotensi mematikan di seluruh dunia. Penyakit ini ditandai oleh tingginya kadar gula dalam darah yang disebabkan oleh gangguan produksi atau penggunaan insulin oleh tubuh. Jika tidak dikelola dengan baik, diabetes dapat menyebabkan komplikasi serius seperti penyakit jantung, kerusakan saraf, gagal ginjal, dan bahkan kematian. Oleh karena itu, deteksi dini dan manajemen yang efektif sangat penting dalam upaya mencegah atau mengurangi dampak buruk penyakit ini. Dengan perkembangan teknologi dan knowledge medis, pendekatan machine studying menawarkan solusi potensial untuk mengidentifikasi pola dan prediksi risiko diabetes berdasarkan berbagai gejala klinis dan faktor risiko.

Laporan ini bertujuan untuk menganalisis dataset risiko diabetes yang tersedia di “UCI Machine Studying Repository” dengan menggunakan berbagai metode machine studying. Tujuan utama dari analisis ini adalah untuk mengeksplorasi dan memahami dataset, melakukan eksplorasi awal untuk memahami distribusi knowledge, mengidentifikasi pola dan outlier, serta melakukan visualisasi knowledge. Selain itu, kami juga akan menerapkan berbagai algoritma machine studying untuk memprediksi risiko diabetes berdasarkan fitur-fitur yang tersedia. Evaluasi mannequin akan dilakukan untuk membandingkan performa berbagai mannequin machine studying guna menentukan mannequin yang paling akurat dan efisien dalam memprediksi risiko diabetes. Pada akhirnya, hasil mannequin akan dianalisis untuk memberikan wawasan tentang faktor-faktor yang paling mempengaruhi risiko diabetes.

Analisis ini diharapkan dapat memberikan kontribusi signifikan bagi bidang kesehatan. Mannequin prediksi yang akurat dapat digunakan oleh profesional medis sebagai alat bantu untuk diagnosa awal, yang pada gilirannya memungkinkan intervensi dini dan pengelolaan yang lebih efektif terhadap pasien. Selain itu, hasil analisis dapat memberikan wawasan yang lebih mendalam tentang faktor-faktor risiko utama yang harus diperhatikan dalam upaya pencegahan dan edukasi kesehatan masyarakat. Dengan demikian, penggunaan machine studying dalam analisis knowledge medis ini tidak hanya meningkatkan akurasi diagnosa tetapi juga berpotensi menyelamatkan banyak nyawa melalui deteksi dini dan penanganan yang tepat.

Laporan ini akan disusun dengan struktur yang mencakup pendahuluan, deskripsi knowledge, prapemrosesan knowledge, exploratory knowledge evaluation (EDA), penerapan mannequin machine studying, evaluasi dan diskusi hasil, serta kesimpulan dan rekomendasi. Melalui struktur ini, diharapkan pembaca dapat mengikuti proses analisis secara sistematis dan mendapatkan pemahaman yang komprehensif mengenai penggunaan teknik machine studying dalam prediksi risiko diabetes.

II. LITERATURE REVIEW

DECISION TREE

Determination Tree adalah sebuah mannequin yang digunakan untuk melakukan klasifikasi dengan memetakan atribut-atribut yang ada pada suatu kasus ke dalam kelas-kelas tertentu. Mannequin ini terdiri dari simpul-simpul (nodes) yang merepresentasikan atribut atau keputusan, dan cabang-cabang (branches) yang menghubungkan simpul-simpul tersebut. Proses pembentukan pohon keputusan diawali dengan mempersiapkan sekumpulan kasus yang sudah terpecahkan. Set ini kemudian dibagi menjadi dua bagian, yaitu set pelatihan (coaching set) yang digunakan untuk membangun pohon keputusan dan set pengujian (testing set) yang digunakan untuk menguji akurasi dari pohon yang dihasilkan [5].

RANDOM FOREST

Random Forest adalah kombinasi dari beberapa tree prediktor di mana setiap tree bergantung pada nilai vektor acak yang diambil secara independen dan memiliki distribusi yang sama untuk semua tree di dalam forest. Error generalisasi untuk forest akan konvergen ke suatu restrict seiring bertambahnya jumlah tree di dalam forest. Error generalisasi dari forest dari tree classifier bergantung pada kekuatan dari masing-masing tree dalam forest dan korelasi antara mereka. Dengan menggunakan pemilihan fitur acak untuk membagi setiap node menghasilkan tingkat error yang dibandingkan dengan Adaboost, tetapi lebih tahan terhadap noise. Estimasi inner digunakan untuk memantau error, kekuatan, dan korelasi dan ini digunakan untuk menunjukkan respons terhadap peningkatan jumlah fitur yang digunakan dalam pemisahan [2].

SUPPORT VECTOR MACHINE

Help Vector Machine (SVM) adalah salah satu metode pembelajaran mesin yang digunakan untuk masalah klasifikasi dua kelompok. Konsep utama SVM adalah memetakan vektor enter ke ruang fitur berdimensi sangat tinggi secara non-linear, di mana di ruang fitur ini dibangun permukaan keputusan linier. Permukaan keputusan ini memiliki sifat khusus yang memastikan kemampuan generalisasi tinggi dari mesin pembelajaran. Ide dasar di balik SVM adalah menemukan hyperplane optimum yang memaksimalkan margin, yaitu jarak terdekat antara hyperplane dan titik knowledge dari kedua kelas. Dalam kasus di mana knowledge pelatihan tidak dapat dipisahkan secara linier, SVM memungkinkan adanya margin lunak yang mengizinkan beberapa kesalahan klasifikasi untuk meningkatkan kemampuan generalisasi. Proses pelatihan SVM melibatkan penyelesaian masalah optimasi kuadrat di bawah kendala sederhana. Solusi dari masalah optimasi ini diperoleh dengan menggunakan vektor dukungan, yaitu subset dari knowledge pelatihan yang menentukan margin hyperplane. Dalam prakteknya, ini berarti hanya sebagian kecil dari knowledge pelatihan yang berpengaruh pada mannequin yang dihasilkan, yang membuat SVM sangat efisien meskipun dalam ruang fitur berdimensi tinggi [3].

Okay-NEAREST NEIGHBOR

Okay-Nearest Neighbour (k-NN) adalah salah satu algoritma pembelajaran mesin yang bersifat “lazy studying” atau “instance-based studying”. Algoritma ini tidak membangun mannequin eksplisit, melainkan melakukan prediksi berdasarkan keseluruhan dataset yang ada. Inti dari k-NN adalah menentukan output berdasarkan kedekatan jarak dengan knowledge yang sudah ada. Jarak antara knowledge dihitung menggunakan metrik seperti jarak Euclidean, Manhattan, atau Minkowski [6]. Langkah-langkah Okay-NN adalah sebagai berikut :

Inisialisasi Parameter: Tentukan nilai okay yang merupakan jumlah tetangga terdekat.
Hitung Jarak: Untuk setiap knowledge baru, hitung jarak antara knowledge baru dengan seluruh knowledge dalam dataset menggunakan metrik jarak yang telah ditentukan.
Seleksi Tetangga Terdekat: Pilih okay knowledge dengan jarak terdekat sebagai tetangga terdekat.
Klasifikasi/Pemutusan Keputusan:
Untuk Klasifikasi: Prediksi output adalah kelas yang paling sering muncul di antara okay tetangga terdekat.
Untuk Regresi: Prediksi output adalah rata-rata dari nilai-nilai tetangga terdekat.
NEURAL NETWORK

Neural Community (NN) adalah sistem komputasi yang terinspirasi oleh cara kerja otak manusia dalam memproses informasi. Sistem ini terdiri dari unit-unit pemrosesan dasar yang disebut neuron atau node, yang diorganisasikan dalam lapisan-lapisan (layers). Lapisan ini umumnya terdiri dari:

Lapisan Enter: Neuron-neuron yang menerima knowledge mentah dari luar.
Lapisan Tersembunyi (Hidden Layers): Neuron-neuron yang melakukan sebagian besar pemrosesan komputasi, menerapkan berbagai transformasi dan ekstraksi fitur.
Lapisan Output: Neuron-neuron yang menghasilkan hasil akhir dari pemrosesan.

Neuron-neuron ini dihubungkan oleh sinapsis buatan yang masing-masing memiliki bobot (weight) yang dapat disesuaikan selama proses pelatihan (coaching). Proses pelatihan neural community biasanya menggunakan algoritma backpropagation untuk meminimalkan kesalahan dengan cara menyesuaikan bobot sinapsis berdasarkan gradien kesalahan [1].

METRIK EVALUASI

Evaluasi kinerja mannequin dalam machine studying sangat penting untuk menentukan seberapa baik mannequin tersebut bekerja pada knowledge baru. Berikut ini beberapa metrik evaluasi kinerja mannequin yang digunakan pada penelitian ini:

Accuracy adalah salah satu metrik evaluasi yang paling umum digunakan dalam machine studying dan statistik untuk menilai performa mannequin klasifikasi. Metrik ini mengukur proporsi prediksi yang benar dari keseluruhan prediksi yang dibuat oleh mannequin [4]. Accuracy dapat dihitung sebagai persamaan berikut :

(1)

Di mana:

TP (True Positives): Jumlah knowledge positif yang diklasifikasikan dengan benar sebagai positif.
TN (True Negatives): Jumlah knowledge negatif yang diklasifikasikan dengan benar sebagai negatif.
FP (False Positives): Jumlah knowledge negatif yang salah diklasifikasikan sebagai positif.
FN (False Negatives): Jumlah knowledge positif yang salah diklasifikasikan sebagai negatif.

Precision (Presisi) adalah metrik evaluasi yang digunakan dalam klasifikasi untuk mengukur akurasi dari prediksi positif yang dibuat oleh mannequin. Presisi memberikan proporsi dari prediksi positif yang benar-benar positif. Metrik ini sangat berguna ketika biaya kesalahan positif (False Constructive) tinggi, seperti dalam deteksi penipuan atau prognosis medis [4]. Presisi dapat dihitung sebagai persamaan berikut :

(2)

Di mana :

TP (True Positives): Jumlah knowledge positif yang diklasifikasikan dengan benar sebagai positif.
FP (False Positives): Jumlah knowledge negatif yang salah diklasifikasikan sebagai positif.

Recall (Sensitivitas atau True Constructive Fee) adalah metrik evaluasi yang digunakan dalam klasifikasi untuk mengukur kemampuan mannequin dalam mengidentifikasi semua occasion positif yang benar. Recall memberikan proporsi dari occasion positif yang benar-benar diidentifikasi sebagai positif oleh mannequin. Metrik ini sangat penting ketika biaya kesalahan negatif (False Detrimental) tinggi, seperti dalam prognosis penyakit atau deteksi keamanan [4]. Recall dapat dihitung sebagai persamaan berikut :

(3)

Di mana :

TP (True Positives): Jumlah knowledge positif yang diklasifikasikan dengan benar sebagai positif.
FP (False Positives): Jumlah knowledge negatif yang salah diklasifikasikan sebagai positif.

F1-Rating adalah metrik evaluasi yang menggabungkan precision dan recall ke dalam satu nilai tunggal. Metrik ini digunakan untuk memberikan gambaran keseimbangan antara precision dan recall, terutama dalam konteks knowledge yang tidak seimbang. F1-Rating merupakan rata-rata harmonik dari precision dan recall, dan memberikan keseimbangan yang lebih baik ketika ada trade-off antara kedua metrik tersebut [4]. F1-Rating dapat dihitung sebagai persamaan berikut :

(4)

Di mana :

Precision: Proporsi prediksi positif yang benar dari semua prediksi positif.
Recall: Proporsi occasion positif yang benar-benar diidentifikasi sebagai positif.

AUC-ROC adalah metrik evaluasi yang digunakan untuk mengukur kinerja mannequin klasifikasi, terutama dalam konteks klasifikasi biner. AUC (Space Below the Curve) — ROC (Receiver Working Attribute) menggabungkan sensitivitas (recall) dan spesifisitas mannequin pada berbagai threshold klasifikasi. Metrik ini membantu dalam memahami trade-off antara True Constructive Fee (TPR) dan False Constructive Fee (FPR) [4]. TPR dan FPR dapat dihitung dengan persamaan berikut :

(5)

(6)

Di mana :

TP (True Positives): Jumlah knowledge positif yang diklasifikasikan dengan benar sebagai positif.
TN (True Negatives): Jumlah knowledge negatif yang diklasifikasikan dengan benar sebagai negatif.
FP (False Positives): Jumlah knowledge negatif yang salah diklasifikasikan sebagai positif.
FN (False Negatives): Jumlah knowledge positif yang salah diklasifikasikan sebagai negatif.

ROC Curve adalah grafik yang menampilkan TPR di sumbu y dan FPR di sumbu x pada berbagai threshold klasifikasi. ROC curve menunjukkan bagaimana TPR dan FPR berubah dengan perubahan threshold klasifikasi. AUC (Space Below the Curve) mengukur luas di bawah ROC curve. Nilai AUC berkisar antara 0 dan 1, dengan interpretasi berikut :

AUC = 0.5: Mannequin tidak lebih baik daripada tebakan acak.
AUC = 1: Mannequin sempurna dalam memisahkan kelas positif dan negatif.
0.5 < AUC < 1: Mannequin memiliki kemampuan yang lebih baik daripada tebakan acak.

III. METHODOLOGY

SUMBER DATA

Sumber knowledge yang digunakan pada penelitian ini merupakan knowledge sekunder yang diambil melalui situs UC Irvine Machine Studying Repository.

Hyperlink: https://archive.ics.uci.edu/dataset/529/early+stage+diabetes+risk+prediction+dataset

Diakses: 14 Juni 2024 (21:23:10)

VARIABEL PENELITIAN

variabel yang digunakan dalam penelitian ini dijelaskan pada tabel 1.

Tabel 1 Variabel Penelitian

Variabel

Skala Information

Age

Rasio

Gender

Ordinal

Polyuria

Ordinal

Polydipsia

Ordinal

Sudden_weight_loss

Ordinal

Weak point

Ordinal

Polyphagia

Ordinal

Genital_thrush

Ordinal

Visual_blurring

Ordinal

Itching

Ordinal

Irritability

Ordinal

Delayed_healing

Ordinal

Partial_paresis

Ordinal

Muscle_stiffness

Ordinal

Alopecia

Ordinal

Weight problems

Ordinal

Class

Ordinal

LANGKAH ANALISIS

Berikut merupakan langkah-langkah analisis yang dilakukan dalam penelitian ini berdasarkan variabel yang telah ditentukan

Melakukan pra-pemrosesan knowledge.
Memeriksa dan menangani lacking worth dalam dataset.
Melakukan normalisasi atau standarisasi knowledge.
Membagi dataset menjadi subset pelatihan dan pengujian dengan proporsi tertentu.
Menerapkan alogritma machine studying.
Menggunakan algoritma resolution tree.
Menggunakan algoritma random forest.
Menggunakan algoritma Help Vector Machine (SVM).
Menggunakan algoritma Okay-Nearest Neighbors (KNN).
Menggunakan algoritma Neural Community (NN).
Mengevaluasi kinerja mannequin.
Menggunakan metrik evaluasi seperti akurasi, presisi, recall, F1-score, dan space di bawah kurva ROC (AUC-ROC).
Menerapkan teknik cross-validarion.
Melakukan perbandingan kinerja mannequin berdasarkan metrik evaluasi.
Menarik kesimpulan dan saran.

IV. RESULTS AND DISCUSSIONS

DATASET

Penelitian ini menggunakan dataset yang diakses di UC Irvine Machine Studying Repository. Dataset yang digunakan adalah knowledge yang berjudul “Diabetes Danger”. Dataset terdiri dari 520 baris dan 17 kolom. Dalam dataset dijelaskan bahwa risiko diabetes dapat dilihat melalui beberapa indikator yang dialami oleh pasien, seperti kondisi buang air kecil, kondisi rasa haus, dan kondisi-kondisi lainnya. Terdapat 17 variabel yang digunakan dalam dataset ini, deskrip variabel tersebut dijelaskan pada tabel 2.

Tabel 2 Deskripsi Variabel

Variabel

Deskripsi

Tipe Information

Nilai

Age

Usia pasien dalam satuan tahun

Numerik

16–90 tahun

Gender

Jenis kelamin pasien

Kategorik

Male atau Feminine

Polyuria

Kondisi buang air kecil yang berlebihan

Kategorik

Sure atau No

Polydipsia

Kondisi rasa haus yang berlebihan

Kategorik

Sure atau No

Sudden_weight_loss

Kehilangan berat badan secara mendadak

Kategorik

Sure atau No

Weak point

Kondisi kelemahan atau lemas

Kategorik

Sure atau No

Polyphagia

Kondisi rasa lapar yang berlebihan

Kategorik

Sure atau No

Genital_thrush

Infeksi jamur pada alat kelamin

Kategorik

Sure atau No

Visual_blurring

Pengelihatan kabur

Kategorik

Sure atau No

Itching

Kondisi gatal-gatal pada kulit

Kategorik

Sure atau No

Irritability

Kondisi mudah marah

Kategorik

Sure atau No

Delayed_healing

Proses penyembuhan luka yang lambat

Kategorik

Sure atau No

Partial_paresis

Kondisi kelemahan otot parsial

Kategorik

Sure atau No

Muscle_stiffness

Kekuatan otot

Kategorik

Sure atau No

Alopecia

Kondisi rambut rontok atau kebotakan

Kategorik

Sure atau No

Weight problems

Kondisi obesitas atau kelebihan berat badan

Kategorik

Sure atau No

Class

Hasil prognosis

Kategorik

Constructive atau Detrimental

Variabel respon pada penelitian ini adalah variabel “Class” dengan 16 variabel lainnya menjadi variabel prediktor.

PREPROCESSING DATA
Pemeriksaan Tipe Information

Langkah awal sebelum melakukan pengolahan knowledge yaitu memeriksa kesesuaian tipe knowledge pada masing-masing variabel. Dengan menggunakan Python, tipe knowledge yang terdeteksi pada masing-masing variabel adalah sebagai berikut

Tabel 3 Tipe Information Variabel

Nama Variabel

Tipe Information

Nama Variabel

Tipe Information

Age

int64

Itching

object

Gender

object

Irritability

object

Polyuria

object

Delayed_healing

object

Polydipsia

object

Partial_paresis

object

Sudden_weight_loss

object

Muscle_stiffness

object

Weak point

object

Alopecia

object

Polyphagia

object

Weight problems

object

Genital_thrush

object

Class

object

Visual_blurring

object

Variabel pada dataset belum memiliki tipe knowledge yang sesuai dengan seharusnya sehingga diperlukan tindakan pengubahan tipe knowledge. Variabel yang memiliki tipe knowledge “object” akan diubah menjadi numerik dengan nilai “0” dan “1”. Berikut ini adalah tipe knowledge variabel dataset yang baru

Tabel 4 Tipe Information Baru Variabel

Nama Variabel

Tipe Information

Nama Variabel

Tipe Information

Age

int32

Itching

int32

Gender

int32

Irritability

int32

Polyuria

int32

Delayed_healing

int32

Polydipsia

int32

Partial_paresis

int32

Sudden_weight_loss

int32

Muscle_stiffness

int32

Weak point

int32

Alopecia

int32

Polyphagia

int32

Weight problems

int32

Genital_thrush

int32

Class

int32

Visual_blurring

int32

Variabel pada dataset telah memiliki tipe knowledge yang sesuai dengan seharusnya.

Pembersihan Information

Proses pembersihan knowledge dapat dilakukan dengan cara memeriksa adanya lacking worth dan kesesuaian skala knowledge. Jumlah knowledge lacking worth pada masing-masing variabel dapat dihitung menggunakan python sebagai berikut

Tabel 5 Lacking Worth Variabel

Nama Variabel

MissingValue

Nama Variabel

Lacking Worth

Age

Itching

Gender

Irritability

Polyuria

Delayed_healing

Polydipsia

Partial_paresis

Sudden_weight_loss

Muscle_stiffness

Weak point

Alopecia

Polyphagia

Weight problems

Genital_thrush

Class

Visual_blurring

Berdasarkan tabel 5, dapat dilihat bahwa seluruh variabel memiliki jumlah ‘NA’ atau lacking worth sebanyak 0. Artinya tidak terdeteksi adanya lacking worth dalam dataset dan tidak memerlukan imputasi knowledge.

Variabel “Class” akan menjadi variabel respon atau goal dan variabel lainnya akan menjadi variabel prediktor. Variabel goal akan diubah menjadi biner untuk mengklasifikasikan pasien yang menderita diabetes. Klasifikasi dibagi menjadi dua, yaitu pasien yang menderita diabetes ketika “Class” sama dengan “Constructive” dan pasien yang tidak menderita diabetes ketika “Class” sama dengan “Detrimental” Variabel “Class” akan disimpan ke dalam variabel y dimana nilai y akan sama dengan 1 ketika pasien menderita diabetes dan nilai 0 ketika pasien tidak menderita diabetes. Sebelum melakukan standarisasi knowledge, dilakukan pengecekan terhadap persebaran knowledge yang dijelaskan pada gambar 1.

Gambar 1 Persebaran Information Variabel

Gambar di atas menunjukkan bahwa skala knowledge pada variabel yang menjadi variabel prediktor memiliki seberan yang berbeda. Terdapat nilai yang mengumpul di sisi kiri dan sisi kanan, serta terdapat variabel yang memiliki vary worth yang besar sehingga perlu dilakukan normalisasi agar variabel prediktor memiliki rentang yang sama. Setelah dilakukan normalisasi, selanjutnya knowledge dibagi menjadi set coaching dan tesing dengan menggunakan Python train_test_split dengan ukuran testing 20% dari complete knowledge.

METODE DECISION TREE

Mannequin Determination Tree dibuat menggunakan DecisionTreeClassifier dari sklearn, dengan kedalaman maksimal atau panjang tangkai sama dengan 3. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut

Tabel 5 Metrik Evaluasi Determination Tree

Metrik Evaluasi

Rating

Akurasi Coaching

90.13%

Akurasi

92.31%

Presisi

92.25%

Recall

92.31%

F1-Rating

92.24%

ROC-AUC

94.37%

Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 90.13%, dan akurasi pada set pengujian adalah sekitar 92.31%. Metrik evaluasi menunjukkan presisi sebesar 92.25%, recall sebesar 92.31%, F1 rating sebesar 92.24%, dan ROC AUC sebesar 94.37%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 0.94.

Gambar 2 Kurva ROC Determination Tree

Berikut merupakan visualisasi dari Determination Tree yang menunjukkan bagaimana mannequin membuat keputusan berdasarkan variabel-variabel pada dataset. Visualisasi tersebut menunjukkan pembagian berdasarkan atribut penderita diabetes seperti usia dan jenis kelamin.

Gambar 3 Visualisasi Determination Tree

METODE RANDOM FOREST

Mannequin Random Forest dibuat menggunakan RandomForestClassifier dari sklearn. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut

Tabel 6 Metrik Evaluasi Random Forest

Metrik Evaluasi

Rating

Akurasi Coaching

97.17%

Akurasi

99.04%

Presisi

99.07%

Recall

99.04%

F1-Rating

99.04%

ROC-AUC

100%

Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 97.17%, dan akurasi pada set pengujian adalah sekitar 99.04%. Metrik evaluasi menunjukkan presisi sebesar 99.07%, recall sebesar 99.04%, F1 rating sebesar 99.04%, dan ROC AUC sebesar 100%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 1.

Gambar 4 Kurva ROC Random Forest

METODE SUPPORT VECTOR MACHINE

Mannequin Help Vector Machine dibuat menggunakan Help Vector Classification dari sklearn. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut

Tabel 7 Metrik Evaluasi Help Vector Machine

Metrik Evaluasi

Rating

Akurasi Coaching

94.71%

Akurasi

99.04%

Presisi

99.05%

Recall

99.03%

F1-Rating

99.03%

ROC-AUC

99.61%

Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 94.71%, dan akurasi pada set pengujian adalah sekitar 99.04%. Metrik evaluasi menunjukkan presisi sebesar 99.05%, recall sebesar 99.03%, F1 rating sebesar 99,03%, dan ROC AUC sebesar 99.61%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 1. Kurva ROC ini membantu dalam memahami performa mannequin dalam membedakan antara kelas yang berbeda.

Gambar 5 Kurva ROC Help Vector Machine

METODE Okay-NEAREST NEIGHBOR

Mannequin Okay-Nearest Neighbour (KNN) dibuat menggunakan KNeighborsClassifier dari sklearn. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut

Tabel 8 Metrik Evaluasi Okay-Nearest Neighbour

Metrik Evaluasi

Rating

Akurasi Coaching

92.07%

Akurasi

89.42%

Presisi

90.21%

Recall

89.42%

F1-Rating

89.60%

ROC-AUC

97.99%

Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 92.07%, dan akurasi pada set pengujian adalah sekitar 89.42%. Metrik evaluasi menunjukkan presisi sebesar 90.21%, recall sebesar 89.42%, F1 rating sebesar 89.60%, dan ROC AUC sebesar 97.99%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 0.98. Kurva ROC ini membantu dalam memahami performa mannequin dalam membedakan antara kelas yang berbeda.

Gambar 6 Kurva ROC Okay-Nearest Neighbour

METODE NEURAL NETWORK

Mannequin Neural Community dibuat menggunakan MLPClassifier dari sklearn, dengan parameter max_iter=1000 untuk memastikan bahwa mannequin dapat berkonvergensi. Cross-validation dilakukan pada set pelatihan untuk mengevaluasi mannequin menggunakan 5-fold cross-validation. Mannequin kemudian dilatih pada set pelatihan dan dievaluasi pada set pengujian, menghasilkan metrik akurasi, recall, F1-Rating, dan ROC AUC sebagai berikut

Tabel 9 Metrik Evaluasi Neural Community

Metrik Evaluasi

Rating

Akurasi Coaching

95.91%

Akurasi

99.03%

Presisi

99.05%

Recall

99.04%

F1-Rating

99.03%

ROC-AUC

99.91%

Hasil penelitian menunjukkan bahwa akurasi rata-rata dari 5-fold cross-validation adalah sekitar 95.91%, dan akurasi pada set pengujian adalah sekitar 99.03%. Metrik evaluasi menunjukkan presisi sebesar 99.05%, recall sebesar 99.04%, F1 rating sebesar 99.03%, dan ROC AUC sebesar 99.91%. Kurva ROC menunjukkan bahwa mannequin memiliki kemampuan prediktif yang moderat dengan space di bawah kurva (AUC) sekitar 1. Kurva ROC ini membantu dalam memahami performa mannequin dalam membedakan antara kelas yang berbeda.

Gambar 6 Kurva ROC Neural Community

KOMPARASI MODEL

Hasil penelitian menunjukkan bahwa mannequin Random Forest memiliki performa terbaik di antara semua mannequin yang diuji. Dengan akurasi pengujian sebesar 99.04%, mannequin ini menunjukkan tingkat keakuratan yang tinggi dalam memprediksi risiko diabetes. Presisi sebesar 99.07% mengindikasikan bahwa sebagian besar prediksi positif yang dibuat oleh mannequin ini benar, sementara recall sebesar 99.04% menunjukkan bahwa mannequin ini berhasil mengidentifikasi sebagian besar dari semua occasion positif yang ada. Kombinasi dari presisi dan recall yang tinggi menghasilkan F1-Rating sebesar 99.04%, yang mencerminkan keseimbangan yang baik antara presisi dan recall. Selain itu, nilai ROC-AUC sebesar 100% menunjukkan bahwa mannequin ini memiliki kemampuan yang sangat baik dalam membedakan antara kelas positif dan negatif, menandakan bahwa mannequin ini sangat efektif dalam menangani klasifikasi pada dataset risiko diabetes.

Tabel 10 Komparasi Mannequin

Metrik Evaluasi

Determination Tree

Random Forest

Help Vector Machine

Okay-Nearest Neighbour

Neural Community

Akurasi Coaching

90.13%

97.17%

94.71%

92.07%

95.91%

Akurasi

92.31%

99.04%

89.42%

99.03%

Presisi

92.25%

99.07%

99.05%

90.21%

99.05%

Recall

92.31%

99.04%

99.03%

89.42%

99.04%

F1-Rating

92.24%

99.04%

99.03%

89.60%

99.03%

ROC-AUC

94.37%

100%

99.61%

97.99%

99.91%

Mannequin Neural Community juga menunjukkan performa yang baik, meskipun sedikit lebih rendah dibandingkan Random Forest. Dengan akurasi pengujian sebesar 99.03%, mannequin ini cukup akurat dalam memprediksi risiko diabetes. Presisi sebesar 99.05% menunjukkan tingkat keakuratan yang baik dalam prediksi positif, dan recall sebesar 99.04% menunjukkan efektivitas dalam mengidentifikasi occasion positif. F1-Rating sebesar 99.03% mengindikasikan keseimbangan yang baik antara presisi dan recall. Nilai ROC-AUC sebesar 99.91% menunjukkan bahwa mannequin ini cukup efektif dalam membedakan antara kelas positif dan negatif, meskipun tidak sebaik Random Forest.

Mannequin Help Vector Machine dan Determination Tree menunjukkan performa yang cukup baik, namun masih lebih rendah dibandingkan Random Forest dan Neural Community. Help Vector Machine memiliki akurasi pengujian sebesar 99.04%, presisi 99.05%, recall 99.03%, F1-Rating 99.03%, dan ROC-AUC 99.61%. Meskipun performanya baik, Help Vector Machine tidak mampu mengungguli Random Forest dan Neural Community. Determination Tree memiliki akurasi pengujian sebesar 92.31%, presisi 92.25%, recall 92.31%, F1-Rating 92.24%, dan ROC-AUC 94.37%. Determination Tree menunjukkan performa yang stabil, namun juga tidak mampu mengungguli Random Forest. Okay-Nearest Neighbour memiliki performa paling rendah di antara mannequin yang dibandingkan, dengan akurasi pengujian sebesar 89.42%, presisi 90.21%, recall 89.42%, F1-Rating 89.60%, dan ROC-AUC 97.99%. Meskipun Okay-Nearest Neighbour masih memberikan hasil yang cukup baik, mannequin ini lebih rentan terhadap overfitting dan memiliki kemampuan prediktif yang lebih rendah dibandingkan mannequin lainnya.

Secara keseluruhan, Random Forest menunjukkan performa paling baik dengan antara presisi dan recall. Neural Community juga memberikan hasil yang baik, sementara Help Vector Machine dan Determination Tree cukup kompeten meskipun tidak sebaik Random Forest. Okay-Nearest Neighbour, meskipun memiliki performa menengah, kurang optimum dibandingkan dengan mannequin lainnya dalam penelitian ini.

V. CONCLUSIONS AND SUGGESTIONS

Penelitian ini berfokus pada analisis dataset risiko diabetes yang diakses dari UC Irvine Machine Studying Repository. Tujuan utama dari analisis ini adalah untuk mengeksplorasi dan memahami dataset, serta menerapkan berbagai algoritma machine studying untuk memprediksi risiko diabetes. Metode machine studying yang digunakan meliputi resolution tree, random forest, Help Vector Machine (SVM), Okay-Nearest Neighbors (KNN), dan Neural Community (NN). Evaluasi mannequin dilakukan menggunakan metrik seperti akurasi, presisi, recall, F1-score, dan AUC-ROC, serta menerapkan teknik cross-validation.

Hasil penelitian menunjukkan bahwa mannequin machine studying dapat memberikan wawasan yang signifikan tentang faktor-faktor yang mempengaruhi risiko diabetes. Mannequin yang paling bagus adalah random forest dengan nilai presisi dan recall yang lebih baik dibanding mannequin lainnya. Mannequin prediksi yang akurat ini dapat digunakan oleh tenaga medis mengenai aplikasi praktis pembelajaran mesin dalam klasifikasi risiko diabetes sebagai alat bantu untuk diagnosa awal, memungkinkan intervensi dini dan pengelolaan yang lebih efektif terhadap pasien. Selain itu, hasil analisis memberikan wawasan yang lebih mendalam tentang faktor-faktor risiko utama yang harus diperhatikan dalam upaya pencegahan dan edukasi kesehatan masyarakat. Dengan demikian, penggunaan machine studying dalam analisis knowledge medis ini berpotensi meningkatkan akurasi diagnosa dan menyelamatkan banyak nyawa melalui deteksi dini dan penanganan yang tepat.

REFERENCES

[1] Abdi, Hervé, Dominique Valentin, and Betty Edelman. “Neural networks,” №124. Sage, 1999.

[2] Breiman. Leo, “Random forests,” Machine studying 45: 5–32, 2001.

[3] Cortes, Corinna, and Vladimir Vapnik, “Help-vector networks.” Machine studying 20: 273–297, 1995.

[4] Müller, Andreas C., and Sarah Guido. Introduction to machine studying with Python: a information for knowledge scientists. “ O’Reilly Media, Inc.”, 2016.

[5] Podgorelec. Vili. et al, “Determination bushes: an summary and their use in drugs,” Journal of medical methods 26: 445–463, 2002.

[6] Tune. Yunsheng. et al, “An environment friendly occasion choice algorithm for okay nearest neighbor regression,” Neurocomputing 251:26–34, 2017.

Source link

Exploring Unsupervised Learning Algorithms | by Himanshu Yadav | Jul, 2024

An Introduction to Machine Learning: Understanding the Basics | by Himanshu Yadav | Jul, 2024

Research on Monotone Games part3(Machine Learning 2024) – Monodeep Mukherjee

Leave A Reply Cancel Reply

Exploring Unsupervised Learning Algorithms | by Himanshu Yadav | Jul, 2024

The best early Prime Day Samsung deals

An Introduction to Machine Learning: Understanding the Basics | by Himanshu Yadav | Jul, 2024

Buy Microsoft Office 2021 for Windows for $45 – a new low price

Research on Monotone Games part3(Machine Learning 2024) – Monodeep Mukherjee

Most Popular

The Hamas Threat of Hostage Execution Videos Looms Large Over Social Media

Revolutionizing the Way We Find Love

Federal Investigators Widen Tesla Inquiry, Company Says

Our Picks

Exploring Unsupervised Learning Algorithms | by Himanshu Yadav | Jul, 2024

The best early Prime Day Samsung deals

An Introduction to Machine Learning: Understanding the Basics | by Himanshu Yadav | Jul, 2024

ANALISIS KLASIFIKASI DENGAN METODE MACHINE LEARNING PADA DIABETES RISK DATASET | by Mtaufiqhidayat | Jul, 2024

Related Posts

Leave A Reply Cancel Reply