DATA MINING: PERTEMUAN 9 SUPERVISE LEARNING (KALSIFIKASI) DAN ALGORITMA YANG ADA DI DALAMNYA MINIMAL 30 ALGORITMA KLASIFIKASI

SUPERVISED LEARNING (KALSIFIKASI) DAN ALGORITMA YANG ADA DI DALAMNYA MINIMAL 30 ALGORITMA KLASIFIKASI

Supervised Learning

Supervised-learning merupakan jenis yang populer untuk melakukan operasi machine learning dan banyak digunakan untuk data di mana ada pemetaan yang tepat antara data input-output. Kumpulan data, dalam hal ini, diberi label, artinya algoritma mengidentifikasi fitur secara eksplisit dan melakukan prediksi atau klasifikasi yang sesuai.

Kata “supervised” menunjukkan bahwa “kontrol” terhadap algoritma sangat berpengaruh pada pembentukan model. Kontrol algoritma dilakukan dengan cara memberikan data set (D) yang didefinisikan sebagai:

D={(x0,y0),(x1,y1),…(xn,yn)}

Atau

{(x(1),y(1)),(x(2),y(2)),(x(3),y(3)),…,(x(m),y(m))}

Atau

{xi,yi}binomni=1

Dimana x adalah input dan y adalah output. Setiap x akan mengendalikan y. Data semacam ini disebut dengan data berlabel (labeled data). Input dan output ini disebut juga input variabel dan output variabel. Relasi keduanya dapat dirumuskan menjadi:

y(i)=f(x(i))

Data set yang tersedia dapat bersifat kuantitatif (quantitative) maupun kualitatif (qualitative). Berikut ini beberapa contoh data kuantitatif dan kualitatif:

Algoritma Supervised Learning

Seiring dengan berjalannya periode pelatihan, algoritma dapat mengidentifikasi hubungan antara dua variabel sehingga supervised learning dapat memprediksi hasil yang baru. Algoritma supervised learning digunakan untuk menyelesaikan berbagai persoalan yang terkait dengan:

Classification (klasifikasi)
Regression (regresi)
Ensemble (gabungan)

Algoritma supervised learning berorientasi pada tugas. Dengan semakin banyaknya sampel data set yang berikan, ia dapat belajar dengan lebih baik sehingga dapat melaksanakan komputasi dan menghasilkan output yang lebih akurat. Beberapa algoritma yang termasuk kategori supervised learning adalah:

1. Logistic Regression:

Deskripsi: Memodelkan probabilitas kejadian suatu kelas menggunakan fungsi logistik (sigmoid). Ideal untuk masalah klasifikasi biner.
Keunggulan: Sederhana, cepat, dan memberikan probabilitas prediksi.
Kelemahan: Kurang efektif untuk masalah non-linear kecuali jika diperluas dengan teknik lain.

K 2. Nearest Neighbors (KNN):

Deskripsi: Mengklasifikasikan data baru berdasarkan mayoritas label dari K tetangga terdekatnya berdasarkan suatu metrik jarak, seperti Euclidean.
Keunggulan: Mudah dipahami dan diimplementasikan, tidak memerlukan pelatihan.
Kelemahan: Lambat untuk dataset besar karena perhitungan jarak untuk setiap data.

3. 3. Support Vector Machines (SVM):

Deskripsi: Mencari hyperplane optimal yang memaksimalkan margin antara kelas.
Keunggulan: Efektif dalam ruang berdimensi tinggi dan ketika jumlah dimensi lebih besar dari jumlah sampel.
Kelemahan: Pemilihan kernel dan parameter yang tepat sangat penting, lambat untuk dataset besar.

4. 4. Decision Trees:

Deskripsi: Membagi data menjadi cabang berdasarkan fitur yang memberikan informasi maksimal sampai mencapai daun (kelas prediksi).
Keunggulan: Mudah diinterpretasi, tidak memerlukan normalisasi fitur.
Kelemahan: Rentan terhadap overfitting, terutama pada data pelatihan kecil.

5. 5. Random Forest:

Deskripsi: Kombinasi dari banyak decision tree yang dilatih pada subset data dan fitur yang berbeda untuk meningkatkan akurasi dan mengurangi overfitting.
Keunggulan: Mengurangi overfitting, robust terhadap outliers.
Kelemahan: Kurang interpretasi dibandingkan dengan decision tree tunggal.

6. 6. Gradient Boosting:

Deskripsi: Membangun model secara bertahap dengan mengoptimalkan fungsi loss, setiap model baru mencoba memperbaiki kesalahan dari model sebelumnya.
Keunggulan: Sangat akurat untuk banyak masalah klasifikasi.
Kelemahan: Rentan terhadap overfitting, lambat untuk dilatih.

7. 7. AdaBoost:

Deskripsi: Algoritma boosting yang menggabungkan beberapa model lemah menjadi model kuat dengan menyesuaikan bobot pada data yang salah diklasifikasikan.
Keunggulan: Meningkatkan kinerja model sederhana.
Kelemahan: Sensitif terhadap data outliers dan noise.

8. 8. Naive Bayes:

Deskripsi: Berdasarkan teorema Bayes dengan asumsi independensi antar fitur.
Keunggulan: Cepat, mudah diimplementasikan, cocok untuk klasifikasi teks.
Kelemahan: Asumsi independensi seringkali tidak realistis.

9. 9. Linear Discriminant Analysis (LDA):

Deskripsi: Mencari kombinasi linear dari fitur yang memaksimalkan separasi antar kelas.
Keunggulan: Efektif untuk data yang memiliki distribusi Gaussian dengan kovarians yang sama.
Kelemahan: Kurang fleksibel untuk distribusi yang tidak normal atau kovarians yang berbeda.

1010. Quadratic Discriminant Analysis (QDA):

Deskripsi: Mirip dengan LDA tetapi tidak mengasumsikan kesamaan matriks kovarians antar kelas.
Keunggulan: Lebih fleksibel dibandingkan LDA.
Kelemahan: Memerlukan lebih banyak data untuk estimasi parameter.

1111. Multilayer Perceptron (MLP):

Deskripsi: Jaringan saraf tiruan dengan satu atau lebih lapisan tersembunyi yang mampu mempelajari hubungan non-linear.
Keunggulan: Mampu memodelkan hubungan kompleks.
Kelemahan: Dapat memerlukan banyak waktu untuk pelatihan, rentan terhadap overfitting.

1212. Convolutional Neural Networks (CNN):

Deskripsi: Jaringan saraf yang dirancang khusus untuk pemrosesan data gambar, menggunakan lapisan konvolusi untuk mendeteksi fitur lokal.
Keunggulan: Sangat efektif untuk data gambar.
Kelemahan: Memerlukan banyak data dan sumber daya komputasi.

1313. Recurrent Neural Networks (RNN):

Deskripsi: Jaringan saraf yang cocok untuk data urutan atau waktu dengan koneksi yang memungkinkan informasi untuk diteruskan antar waktu.
Keunggulan: Efektif untuk data sekuensial seperti teks dan time series.
Kelemahan: Masalah gradien lenyap, lambat untuk dilatih.

1414. Long Short-Term Memory (LSTM):

Deskripsi: Varian dari RNN yang mengatasi masalah gradien lenyap dengan menggunakan memori sel yang lebih kompleks.
Keunggulan: Mempertahankan informasi jangka panjang.
Kelemahan: Kompleksitas yang lebih tinggi, memerlukan lebih banyak waktu pelatihan.

1515. Extreme Gradient Boosting (XGBoost):

Deskripsi: Implementasi dari gradient boosting yang dioptimalkan untuk kinerja dan efisiensi.
Keunggulan: Sangat populer dan akurat, banyak digunakan dalam kompetisi machine learning.
Kelemahan: Dapat memerlukan waktu dan sumber daya komputasi yang signifikan.

1616. LightGBM:

Deskripsi: Algoritma gradient boosting yang lebih efisien dan cepat dengan menggunakan teknik histogram.
Keunggulan: Cepat dan efisien untuk dataset besar.
Kelemahan: Pemahaman yang lebih kompleks diperlukan untuk tuning parameter.

1717. CatBoost:

Deskripsi: Gradient boosting yang dirancang khusus untuk menangani data kategori dengan efisien.
Keunggulan: Mengurangi kebutuhan pra-pemrosesan data kategori, kinerja tinggi.
Kelemahan: Kurang umum digunakan dibandingkan XGBoost dan LightGBM.

1818. Bayesian Network Classifiers:

Deskripsi: Menggunakan jaringan probabilistik untuk memodelkan hubungan antar variabel dan melakukan klasifikasi.
Keunggulan: Memodelkan ketidakpastian dengan baik, memberikan probabilitas yang jelas.
Kelemahan: Kompleksitas dalam struktur jaringan dan estimasi parameter.

1919. Stochastic Gradient Descent (SGD):

Deskripsi: Teknik optimasi yang dapat digunakan untuk berbagai jenis model klasifikasi dengan memperbarui model untuk setiap sampel.
Keunggulan: Efisien untuk dataset besar dan online learning.
Kelemahan: Memerlukan tuning parameter yang cermat, dapat konvergen lambat.

2020. Perceptron:

Deskripsi: Algoritma dasar dalam jaringan saraf yang digunakan untuk masalah klasifikasi linear.
Keunggulan: Sederhana dan cepat.
Kelemahan: Hanya bekerja pada data yang dapat dipisahkan secara linear.

2121. Ridge Classifier:

Deskripsi: Versi regularized dari regresi logistik menggunakan L2 regularization untuk mencegah overfitting.
Keunggulan: Mengurangi overfitting, sederhana dalam implementasi.
Kelemahan: Kurang efektif jika fitur tidak independen.

2222. Lasso Classifier:

Deskripsi: Menggunakan L1 regularization untuk seleksi fitur, menghasilkan model yang lebih sederhana.
Keunggulan: Menghasilkan model yang lebih sederhana dan sparsi.
Kelemahan: Dapat mengabaikan fitur penting jika korelasi tinggi.

2323. ElasticNet Classifier:

Deskripsi: Kombinasi dari L1 dan L2 regularization untuk menggabungkan keuntungan dari Ridge dan Lasso.
Keunggulan: Fleksibel dalam regularisasi, cocok untuk data dengan banyak fitur.
Kelemahan: Memerlukan tuning parameter regularisasi.

2424. Nearest Centroid Classifier:

Deskripsi: Mengklasifikasikan data berdasarkan kedekatan dengan centroid dari masing-masing kelas.
Keunggulan: Sederhana dan cepat.
Kelemahan: Kurang efektif jika data tidak terdistribusi secara normal di sekitar centroid.

2525. Gaussian Processes:

Deskripsi: Metode non-parametrik yang menggunakan proses Gaussian untuk memodelkan distribusi probabilitas dan membuat prediksi.
Keunggulan: Memberikan estimasi probabilistik dan ketidakpastian prediksi.
Kelemahan: Kompleksitas komputasi tinggi, terutama untuk dataset besar.

2626. Bernoulli Naive Bayes:

Deskripsi: Versi dari Naive Bayes untuk fitur biner (contoh: kehadiran atau ketiadaan kata dalam teks).
Keunggulan: Cocok untuk klasifikasi teks dengan fitur biner.
Kelemahan: Asumsi independensi yang tidak selalu realistis.

2727. Multinomial Naive Bayes:

Deskripsi: Digunakan untuk data diskrit seperti teks, di mana fitur adalah frekuensi kata.
Keunggulan: Sangat efektif untuk klasifikasi dokumen dan analisis teks.
Kelemahan: Asumsi independensi antar fitur.

2828. Complement Naive Bayes:

Deskripsi: Versi dari Naive Bayes yang lebih cocok untuk data yang tidak seimbang, memperbaiki kelemahan dari Multinomial Naive Bayes.
Keunggulan: Mengurangi bias dalam kelas minoritas.
Kelemahan: Kompleksitas lebih tinggi dibandingkan dengan Multinomial Naive Bayes.

2929. Passive Aggressive Classifier:

Deskripsi: Algoritma online yang dapat menangani data yang masuk secara bertahap, memperbarui model hanya jika terdapat kesalahan klasifikasi.
Keunggulan: Efisien untuk masalah klasifikasi besar dengan pembaruan model yang cepat.
Kelemahan: Kurang akurat dibandingkan model batch untuk beberapa masalah.

3030. C4.5:

Deskripsi: Algoritma pembentukan decision tree yang merupakan perbaikan dari ID3, menggunakan entropy untuk pemilihan atribut dan pruning untuk mengurangi overfitting.
Keunggulan: Lebih akurat dibandingkan ID3, mengurangi overfitting.
Kelemahan: Kompleksitas lebih tinggi dibandingkan ID3, memerlukan penyesuaian parameter.

DATA MINING

Sabtu, 01 Juni 2024

PERTEMUAN 9 SUPERVISE LEARNING (KALSIFIKASI) DAN ALGORITMA YANG ADA DI DALAMNYA MINIMAL 30 ALGORITMA KLASIFIKASI

Tidak ada komentar:

Posting Komentar

PERTEMUAN 10(prediksi) dan algoritma yang ada didalamnya (minimal 30 algoritma prediksi) berikan penjelasanannya

Laporkan Penyalahgunaan