DATA MINING

Sabtu, 08 Juni 2024

PERTEMUAN 10(prediksi) dan algoritma yang ada didalamnya (minimal 30 algoritma prediksi) berikan penjelasanannya

Supervised learning adalah jenis pembelajaran mesin di mana model dilatih menggunakan data yang telah diberi label. Artinya, setiap contoh dalam data pelatihan terdiri dari pasangan input-output, di mana input adalah data yang digunakan untuk membuat prediksi dan output adalah nilai yang ingin diprediksi. Tujuan dari supervised learning adalah untuk mempelajari sebuah fungsi yang memetakan input ke output berdasarkan data pelatihan, sehingga model tersebut dapat membuat prediksi yang akurat pada data baru.

Berikut adalah penjelasan tentang 30 algoritma prediksi yang digunakan dalam supervised learning:

1. Linear Regression

Digunakan untuk memprediksi nilai kontinu. Mengasumsikan hubungan linear antara input dan output.

2. Logistic Regression

Digunakan untuk klasifikasi biner. Menghasilkan probabilitas yang menunjukkan kelas mana yang lebih mungkin untuk setiap contoh input.

3. Decision Trees

Struktur pohon yang membagi data berdasarkan fitur-fitur sampai ke simpul daun yang mewakili kelas atau nilai prediksi.

4. Random Forest

Ensemble dari banyak pohon keputusan yang dilatih dengan sampel data yang berbeda dan hasil akhirnya didasarkan pada mayoritas suara atau rata-rata dari pohon-pohon tersebut.

5. Support Vector Machines (SVM)

Menemukan hyperplane yang memaksimalkan margin antara kelas-kelas dalam data untuk klasifikasi. Dapat juga digunakan untuk regresi.

6. K-Nearest Neighbors (KNN)

Algoritma non-parametrik yang memprediksi kelas berdasarkan mayoritas kelas dari K tetangga terdekat dalam ruang fitur.

7. Naive Bayes

Berdasarkan Teorema Bayes, mengasumsikan bahwa fitur-fitur bersifat independen satu sama lain. Efektif untuk klasifikasi teks dan masalah lainnya.

8. Gradient Boosting Machines (GBM)

Ensemble dari pohon keputusan yang dilatih secara berurutan, di mana setiap pohon mencoba mengoreksi kesalahan dari pohon sebelumnya.

9. AdaBoost

Algoritma boosting yang menggabungkan beberapa model "lemah" untuk membentuk model yang "kuat". Model lemah dilatih secara sekuensial, masing-masing fokus pada kesalahan dari model sebelumnya.

10. XGBoost

Implementasi efisien dari gradient boosting yang sering kali lebih cepat dan lebih akurat daripada algoritma boosting lainnya.

11. CatBoost

Algoritma gradient boosting yang dioptimalkan untuk data kategorikal.

12. LightGBM

Algoritma gradient boosting yang sangat cepat dan efisien, dioptimalkan untuk skala besar.

13. Artificial Neural Networks (ANN)

Model yang terinspirasi oleh jaringan saraf biologis, terdiri dari lapisan-lapisan neuron yang saling terhubung.

14. Convolutional Neural Networks (CNN)

Variasi dari ANN yang sangat efektif untuk data gambar. Menggunakan lapisan konvolusi untuk mengekstrak fitur-fitur dari gambar.

15. Recurrent Neural Networks (RNN)

ANN yang dirancang untuk data sekuensial, seperti teks atau urutan waktu, dengan koneksi antar node yang membentuk graf berarah sepanjang urutan.

16. Long Short-Term Memory (LSTM)

Varian dari RNN yang mampu belajar dari data sekuensial dengan dependensi jangka panjang.

17. Gated Recurrent Unit (GRU)

Jenis lain dari RNN yang mirip dengan LSTM tapi lebih sederhana dan lebih cepat.

18. Elastic Net

Regresi linier yang menggabungkan penalti L1 dan L2 untuk regulasi.

19. Ridge Regression

Regresi linier dengan penalti L2 untuk mengurangi kompleksitas model.

20. Lasso Regression

Regresi linier dengan penalti L1 yang dapat menghasilkan model yang lebih spars dengan beberapa koefisien yang benar-benar nol.

21. Bayesian Regression

Pendekatan probabilistik untuk regresi linier yang menggabungkan informasi prior dengan data observasi.

22. Partial Least Squares Regression (PLSR)

Digunakan untuk regresi ketika prediktor sangat berkorelasi atau jumlah prediktor lebih besar daripada jumlah observasi.

23. Principal Component Regression (PCR)

Menggunakan analisis komponen utama untuk mengurangi dimensi data sebelum melakukan regresi linier.

24. Kernel Ridge Regression

Menggabungkan ridge regression dengan kernel trick untuk menangani data non-linear.

25. Multi-Layer Perceptron (MLP)

ANN yang terdiri dari beberapa lapisan perseptron, yang dapat digunakan untuk tugas klasifikasi maupun regresi.

26. Extreme Learning Machine (ELM)

Varian dari MLP dengan pelatihan yang sangat cepat, di mana bobot input-hidden dipilih secara acak.

27. Quadratic Discriminant Analysis (QDA)

Metode diskriminan yang mengasumsikan distribusi Gauss untuk setiap kelas dengan matriks kovarian yang berbeda.

28. Linear Discriminant Analysis (LDA)

Metode diskriminan yang mengasumsikan distribusi Gauss untuk setiap kelas dengan matriks kovarian yang sama.

29. Perceptron

Algoritma pembelajaran sederhana untuk klasifikasi biner yang berdasarkan pada jaringan saraf satu lapis.

30. Stochastic Gradient Descent (SGD)

Metode optimasi yang sangat efisien untuk model regresi dan klasifikasi, terutama bila ukuran data sangat besar.

Sabtu, 01 Juni 2024

PERTEMUAN 9 SUPERVISE LEARNING (KALSIFIKASI) DAN ALGORITMA YANG ADA DI DALAMNYA MINIMAL 30 ALGORITMA KLASIFIKASI

SUPERVISED LEARNING (KALSIFIKASI) DAN ALGORITMA YANG ADA DI DALAMNYA MINIMAL 30 ALGORITMA KLASIFIKASI

Supervised Learning

Supervised-learning merupakan jenis yang populer untuk melakukan operasi machine learning dan banyak digunakan untuk data di mana ada pemetaan yang tepat antara data input-output. Kumpulan data, dalam hal ini, diberi label, artinya algoritma mengidentifikasi fitur secara eksplisit dan melakukan prediksi atau klasifikasi yang sesuai.

Kata “supervised” menunjukkan bahwa “kontrol” terhadap algoritma sangat berpengaruh pada pembentukan model. Kontrol algoritma dilakukan dengan cara memberikan data set (D) yang didefinisikan sebagai:

D={(x0,y0),(x1,y1),…(xn,yn)}

Atau

{(x(1),y(1)),(x(2),y(2)),(x(3),y(3)),…,(x(m),y(m))}

Atau

{xi,yi}binomni=1

Dimana x adalah input dan y adalah output. Setiap x akan mengendalikan y. Data semacam ini disebut dengan data berlabel (labeled data). Input dan output ini disebut juga input variabel dan output variabel. Relasi keduanya dapat dirumuskan menjadi:

y(i)=f(x(i))

Data set yang tersedia dapat bersifat kuantitatif (quantitative) maupun kualitatif (qualitative). Berikut ini beberapa contoh data kuantitatif dan kualitatif:

Algoritma Supervised Learning

Seiring dengan berjalannya periode pelatihan, algoritma dapat mengidentifikasi hubungan antara dua variabel sehingga supervised learning dapat memprediksi hasil yang baru. Algoritma supervised learning digunakan untuk menyelesaikan berbagai persoalan yang terkait dengan:

Classification (klasifikasi)
Regression (regresi)
Ensemble (gabungan)

Algoritma supervised learning berorientasi pada tugas. Dengan semakin banyaknya sampel data set yang berikan, ia dapat belajar dengan lebih baik sehingga dapat melaksanakan komputasi dan menghasilkan output yang lebih akurat. Beberapa algoritma yang termasuk kategori supervised learning adalah:

1. Logistic Regression:

Deskripsi: Memodelkan probabilitas kejadian suatu kelas menggunakan fungsi logistik (sigmoid). Ideal untuk masalah klasifikasi biner.
Keunggulan: Sederhana, cepat, dan memberikan probabilitas prediksi.
Kelemahan: Kurang efektif untuk masalah non-linear kecuali jika diperluas dengan teknik lain.

K 2. Nearest Neighbors (KNN):

Deskripsi: Mengklasifikasikan data baru berdasarkan mayoritas label dari K tetangga terdekatnya berdasarkan suatu metrik jarak, seperti Euclidean.
Keunggulan: Mudah dipahami dan diimplementasikan, tidak memerlukan pelatihan.
Kelemahan: Lambat untuk dataset besar karena perhitungan jarak untuk setiap data.

3. 3. Support Vector Machines (SVM):

Deskripsi: Mencari hyperplane optimal yang memaksimalkan margin antara kelas.
Keunggulan: Efektif dalam ruang berdimensi tinggi dan ketika jumlah dimensi lebih besar dari jumlah sampel.
Kelemahan: Pemilihan kernel dan parameter yang tepat sangat penting, lambat untuk dataset besar.

4. 4. Decision Trees:

Deskripsi: Membagi data menjadi cabang berdasarkan fitur yang memberikan informasi maksimal sampai mencapai daun (kelas prediksi).
Keunggulan: Mudah diinterpretasi, tidak memerlukan normalisasi fitur.
Kelemahan: Rentan terhadap overfitting, terutama pada data pelatihan kecil.

5. 5. Random Forest:

Deskripsi: Kombinasi dari banyak decision tree yang dilatih pada subset data dan fitur yang berbeda untuk meningkatkan akurasi dan mengurangi overfitting.
Keunggulan: Mengurangi overfitting, robust terhadap outliers.
Kelemahan: Kurang interpretasi dibandingkan dengan decision tree tunggal.

6. 6. Gradient Boosting:

Deskripsi: Membangun model secara bertahap dengan mengoptimalkan fungsi loss, setiap model baru mencoba memperbaiki kesalahan dari model sebelumnya.
Keunggulan: Sangat akurat untuk banyak masalah klasifikasi.
Kelemahan: Rentan terhadap overfitting, lambat untuk dilatih.

7. 7. AdaBoost:

Deskripsi: Algoritma boosting yang menggabungkan beberapa model lemah menjadi model kuat dengan menyesuaikan bobot pada data yang salah diklasifikasikan.
Keunggulan: Meningkatkan kinerja model sederhana.
Kelemahan: Sensitif terhadap data outliers dan noise.

8. 8. Naive Bayes:

Deskripsi: Berdasarkan teorema Bayes dengan asumsi independensi antar fitur.
Keunggulan: Cepat, mudah diimplementasikan, cocok untuk klasifikasi teks.
Kelemahan: Asumsi independensi seringkali tidak realistis.

9. 9. Linear Discriminant Analysis (LDA):

Deskripsi: Mencari kombinasi linear dari fitur yang memaksimalkan separasi antar kelas.
Keunggulan: Efektif untuk data yang memiliki distribusi Gaussian dengan kovarians yang sama.
Kelemahan: Kurang fleksibel untuk distribusi yang tidak normal atau kovarians yang berbeda.

1010. Quadratic Discriminant Analysis (QDA):

Deskripsi: Mirip dengan LDA tetapi tidak mengasumsikan kesamaan matriks kovarians antar kelas.
Keunggulan: Lebih fleksibel dibandingkan LDA.
Kelemahan: Memerlukan lebih banyak data untuk estimasi parameter.

1111. Multilayer Perceptron (MLP):

Deskripsi: Jaringan saraf tiruan dengan satu atau lebih lapisan tersembunyi yang mampu mempelajari hubungan non-linear.
Keunggulan: Mampu memodelkan hubungan kompleks.
Kelemahan: Dapat memerlukan banyak waktu untuk pelatihan, rentan terhadap overfitting.

1212. Convolutional Neural Networks (CNN):

Deskripsi: Jaringan saraf yang dirancang khusus untuk pemrosesan data gambar, menggunakan lapisan konvolusi untuk mendeteksi fitur lokal.
Keunggulan: Sangat efektif untuk data gambar.
Kelemahan: Memerlukan banyak data dan sumber daya komputasi.

1313. Recurrent Neural Networks (RNN):

Deskripsi: Jaringan saraf yang cocok untuk data urutan atau waktu dengan koneksi yang memungkinkan informasi untuk diteruskan antar waktu.
Keunggulan: Efektif untuk data sekuensial seperti teks dan time series.
Kelemahan: Masalah gradien lenyap, lambat untuk dilatih.

1414. Long Short-Term Memory (LSTM):

Deskripsi: Varian dari RNN yang mengatasi masalah gradien lenyap dengan menggunakan memori sel yang lebih kompleks.
Keunggulan: Mempertahankan informasi jangka panjang.
Kelemahan: Kompleksitas yang lebih tinggi, memerlukan lebih banyak waktu pelatihan.

1515. Extreme Gradient Boosting (XGBoost):

Deskripsi: Implementasi dari gradient boosting yang dioptimalkan untuk kinerja dan efisiensi.
Keunggulan: Sangat populer dan akurat, banyak digunakan dalam kompetisi machine learning.
Kelemahan: Dapat memerlukan waktu dan sumber daya komputasi yang signifikan.

1616. LightGBM:

Deskripsi: Algoritma gradient boosting yang lebih efisien dan cepat dengan menggunakan teknik histogram.
Keunggulan: Cepat dan efisien untuk dataset besar.
Kelemahan: Pemahaman yang lebih kompleks diperlukan untuk tuning parameter.

1717. CatBoost:

Deskripsi: Gradient boosting yang dirancang khusus untuk menangani data kategori dengan efisien.
Keunggulan: Mengurangi kebutuhan pra-pemrosesan data kategori, kinerja tinggi.
Kelemahan: Kurang umum digunakan dibandingkan XGBoost dan LightGBM.

1818. Bayesian Network Classifiers:

Deskripsi: Menggunakan jaringan probabilistik untuk memodelkan hubungan antar variabel dan melakukan klasifikasi.
Keunggulan: Memodelkan ketidakpastian dengan baik, memberikan probabilitas yang jelas.
Kelemahan: Kompleksitas dalam struktur jaringan dan estimasi parameter.

1919. Stochastic Gradient Descent (SGD):

Deskripsi: Teknik optimasi yang dapat digunakan untuk berbagai jenis model klasifikasi dengan memperbarui model untuk setiap sampel.
Keunggulan: Efisien untuk dataset besar dan online learning.
Kelemahan: Memerlukan tuning parameter yang cermat, dapat konvergen lambat.

2020. Perceptron:

Deskripsi: Algoritma dasar dalam jaringan saraf yang digunakan untuk masalah klasifikasi linear.
Keunggulan: Sederhana dan cepat.
Kelemahan: Hanya bekerja pada data yang dapat dipisahkan secara linear.

2121. Ridge Classifier:

Deskripsi: Versi regularized dari regresi logistik menggunakan L2 regularization untuk mencegah overfitting.
Keunggulan: Mengurangi overfitting, sederhana dalam implementasi.
Kelemahan: Kurang efektif jika fitur tidak independen.

2222. Lasso Classifier:

Deskripsi: Menggunakan L1 regularization untuk seleksi fitur, menghasilkan model yang lebih sederhana.
Keunggulan: Menghasilkan model yang lebih sederhana dan sparsi.
Kelemahan: Dapat mengabaikan fitur penting jika korelasi tinggi.

2323. ElasticNet Classifier:

Deskripsi: Kombinasi dari L1 dan L2 regularization untuk menggabungkan keuntungan dari Ridge dan Lasso.
Keunggulan: Fleksibel dalam regularisasi, cocok untuk data dengan banyak fitur.
Kelemahan: Memerlukan tuning parameter regularisasi.

2424. Nearest Centroid Classifier:

Deskripsi: Mengklasifikasikan data berdasarkan kedekatan dengan centroid dari masing-masing kelas.
Keunggulan: Sederhana dan cepat.
Kelemahan: Kurang efektif jika data tidak terdistribusi secara normal di sekitar centroid.

2525. Gaussian Processes:

Deskripsi: Metode non-parametrik yang menggunakan proses Gaussian untuk memodelkan distribusi probabilitas dan membuat prediksi.
Keunggulan: Memberikan estimasi probabilistik dan ketidakpastian prediksi.
Kelemahan: Kompleksitas komputasi tinggi, terutama untuk dataset besar.

2626. Bernoulli Naive Bayes:

Deskripsi: Versi dari Naive Bayes untuk fitur biner (contoh: kehadiran atau ketiadaan kata dalam teks).
Keunggulan: Cocok untuk klasifikasi teks dengan fitur biner.
Kelemahan: Asumsi independensi yang tidak selalu realistis.

2727. Multinomial Naive Bayes:

Deskripsi: Digunakan untuk data diskrit seperti teks, di mana fitur adalah frekuensi kata.
Keunggulan: Sangat efektif untuk klasifikasi dokumen dan analisis teks.
Kelemahan: Asumsi independensi antar fitur.

2828. Complement Naive Bayes:

Deskripsi: Versi dari Naive Bayes yang lebih cocok untuk data yang tidak seimbang, memperbaiki kelemahan dari Multinomial Naive Bayes.
Keunggulan: Mengurangi bias dalam kelas minoritas.
Kelemahan: Kompleksitas lebih tinggi dibandingkan dengan Multinomial Naive Bayes.

2929. Passive Aggressive Classifier:

Deskripsi: Algoritma online yang dapat menangani data yang masuk secara bertahap, memperbarui model hanya jika terdapat kesalahan klasifikasi.
Keunggulan: Efisien untuk masalah klasifikasi besar dengan pembaruan model yang cepat.
Kelemahan: Kurang akurat dibandingkan model batch untuk beberapa masalah.

3030. C4.5:

Deskripsi: Algoritma pembentukan decision tree yang merupakan perbaikan dari ID3, menggunakan entropy untuk pemilihan atribut dan pruning untuk mengurangi overfitting.
Keunggulan: Lebih akurat dibandingkan ID3, mengurangi overfitting.
Kelemahan: Kompleksitas lebih tinggi dibandingkan ID3, memerlukan penyesuaian parameter.