Supervised learning adalah
jenis pembelajaran mesin di mana model dilatih menggunakan data yang telah
diberi label. Artinya, setiap contoh dalam data pelatihan terdiri dari pasangan
input-output, di mana input adalah data yang digunakan untuk membuat prediksi
dan output adalah nilai yang ingin diprediksi. Tujuan dari supervised learning
adalah untuk mempelajari sebuah fungsi yang memetakan input ke output
berdasarkan data pelatihan, sehingga model tersebut dapat membuat prediksi yang
akurat pada data baru.
Berikut adalah penjelasan tentang 30 algoritma prediksi yang digunakan
dalam supervised learning:
1.
Linear
Regression
Digunakan untuk memprediksi nilai kontinu. Mengasumsikan
hubungan linear antara input dan output.
2.
Logistic
Regression
Digunakan untuk
klasifikasi biner. Menghasilkan probabilitas yang menunjukkan kelas mana yang
lebih mungkin untuk setiap contoh input.
3.
Decision
Trees
Struktur
pohon yang membagi data berdasarkan fitur-fitur sampai ke simpul daun yang
mewakili kelas atau nilai prediksi.
4.
Random
Forest
Ensemble dari banyak pohon
keputusan yang dilatih dengan sampel data yang berbeda dan hasil akhirnya
didasarkan pada mayoritas suara atau rata-rata dari pohon-pohon tersebut.
5.
Support
Vector Machines (SVM)
Menemukan hyperplane yang
memaksimalkan margin antara kelas-kelas dalam data untuk klasifikasi. Dapat
juga digunakan untuk regresi.
6.
K-Nearest
Neighbors (KNN)
Algoritma
non-parametrik yang memprediksi kelas berdasarkan mayoritas kelas dari K
tetangga terdekat dalam ruang fitur.
7.
Naive
Bayes
Berdasarkan Teorema Bayes,
mengasumsikan bahwa fitur-fitur bersifat independen satu sama lain. Efektif
untuk klasifikasi teks dan masalah lainnya.
8.
Gradient
Boosting Machines (GBM)
Ensemble dari pohon
keputusan yang dilatih secara berurutan, di mana setiap pohon mencoba
mengoreksi kesalahan dari pohon sebelumnya.
9.
AdaBoost
Algoritma
boosting yang menggabungkan beberapa model "lemah" untuk membentuk
model yang "kuat". Model lemah dilatih secara sekuensial,
masing-masing fokus pada kesalahan dari model sebelumnya.
10. XGBoost
Implementasi
efisien dari gradient boosting yang sering kali lebih cepat dan lebih akurat
daripada algoritma boosting lainnya.
11. CatBoost
Algoritma gradient boosting yang dioptimalkan untuk data
kategorikal.
12. LightGBM
Algoritma gradient
boosting yang sangat cepat dan efisien, dioptimalkan untuk skala besar.
13. Artificial Neural Networks (ANN)
Model yang terinspirasi
oleh jaringan saraf biologis, terdiri dari lapisan-lapisan neuron yang saling
terhubung.
14. Convolutional Neural Networks (CNN)
Variasi dari ANN yang
sangat efektif untuk data gambar. Menggunakan lapisan konvolusi untuk
mengekstrak fitur-fitur dari gambar.
15. Recurrent Neural Networks (RNN)
ANN yang dirancang untuk
data sekuensial, seperti teks atau urutan waktu, dengan koneksi antar node yang
membentuk graf berarah sepanjang urutan.
16. Long Short-Term Memory (LSTM)
Varian dari RNN yang mampu belajar
dari data sekuensial dengan dependensi jangka panjang.
17. Gated Recurrent Unit (GRU)
Jenis lain dari RNN yang
mirip dengan LSTM tapi lebih sederhana dan lebih cepat.
18. Elastic Net
Regresi linier yang menggabungkan penalti L1 dan L2 untuk
regulasi.
19. Ridge Regression
Regresi linier dengan penalti L2 untuk mengurangi
kompleksitas model.
20. Lasso Regression
Regresi linier dengan
penalti L1 yang dapat menghasilkan model yang lebih spars dengan beberapa
koefisien yang benar-benar nol.
21. Bayesian Regression
Pendekatan probabilistik
untuk regresi linier yang menggabungkan informasi prior dengan data observasi.
22. Partial Least Squares Regression (PLSR)
Digunakan untuk regresi
ketika prediktor sangat berkorelasi atau jumlah prediktor lebih besar daripada
jumlah observasi.
23. Principal Component Regression (PCR)
Menggunakan analisis
komponen utama untuk mengurangi dimensi data sebelum melakukan regresi linier.
24. Kernel Ridge Regression
Menggabungkan ridge
regression dengan kernel trick untuk menangani data non-linear.
25. Multi-Layer Perceptron (MLP)
ANN
yang terdiri dari beberapa lapisan perseptron, yang dapat digunakan untuk tugas
klasifikasi maupun regresi.
26. Extreme Learning Machine (ELM)
Varian dari MLP dengan
pelatihan yang sangat cepat, di mana bobot input-hidden dipilih secara acak.
27. Quadratic Discriminant Analysis (QDA)
Metode diskriminan yang
mengasumsikan distribusi Gauss untuk setiap kelas dengan matriks kovarian yang
berbeda.
28. Linear Discriminant Analysis (LDA)
Metode diskriminan yang
mengasumsikan distribusi Gauss untuk setiap kelas dengan matriks kovarian yang
sama.
29. Perceptron
Algoritma pembelajaran
sederhana untuk klasifikasi biner yang berdasarkan pada jaringan saraf satu
lapis.
30. Stochastic Gradient Descent (SGD)
Metode optimasi yang
sangat efisien untuk model regresi dan klasifikasi, terutama bila ukuran data
sangat besar.