Apa itu Bagging (Bootstrap Aggregation)?

Pembelajaran mesin ensemble dapat dikategorikan menjadi bagging dan boosting. Teknik bagging berguna untuk regresi dan klasifikasi statistik. Bagging digunakan dengan pohon keputusan, yang secara signifikan meningkatkan stabilitas model dalam pengurangan varian dan meningkatkan akurasi, yang menghilangkan tantangan overfitting.

Mengantongi

Gambar 1. Alur Bagging (Bootstrap Aggregation). Sumber

Mengantongi pembelajaran mesin ensemble membutuhkan beberapa model yang lemah, menggabungkan prediksi untuk memilih prediksi terbaik. Model yang lemah mengkhususkan diri pada bagian berbeda dari ruang fitur, yang memungkinkan prediksi leverage yang berasal dari setiap model untuk mencapai tujuan maksimal.

Cepat Su mmary

  • Bagging dan boosting adalah dua metode utama pembelajaran mesin ensemble.
  • Bagging adalah metode ensembel yang dapat digunakan dalam regresi dan klasifikasi.
  • Ia juga dikenal sebagai agregasi bootstrap, yang membentuk dua klasifikasi bagging.

Apa itu Bootstrap?

Bagging terdiri dari dua bagian: agregasi dan bootstrap. Bootstrap adalah metode pengambilan sampel, di mana sampel dipilih dari satu set, menggunakan metode penggantian. Algoritma pembelajaran kemudian dijalankan pada sampel yang dipilih.

Teknik bootstrap menggunakan sampling dengan penggantian untuk membuat prosedur pemilihan benar-benar acak. Ketika sampel dipilih tanpa penggantian, pilihan variabel berikutnya selalu bergantung pada pilihan sebelumnya, sehingga membuat kriteria tidak acak.

Apa itu Agregasi?

Prediksi model menjalani agregasi untuk menggabungkannya untuk prediksi akhir guna mempertimbangkan semua hasil yang mungkin. Agregasi dapat dilakukan berdasarkan jumlah total hasil atau probabilitas prediksi yang diturunkan dari bootstrap setiap model dalam prosedur.

Apa itu Metode Ensemble?

Baik bagging maupun boosting merupakan teknik ansambel yang paling menonjol. Metode ensembel adalah platform pembelajaran mesin yang membantu banyak model dalam pelatihan melalui penggunaan algoritme pembelajaran yang sama. Metode ensembel adalah peserta dari kelompok multi-pengklasifikasi yang lebih besar.

Multi-pengklasifikasi adalah grup yang terdiri dari banyak pelajar, berjumlah ribuan, dengan tujuan bersama yang dapat memadukan dan memecahkan masalah umum. Kategori multi-pengklasifikasi lainnya adalah metode hybrid. Metode hibrida menggunakan sekumpulan pelajar, tetapi tidak seperti multi-pengklasifikasi, mereka dapat menggunakan metode pembelajaran yang berbeda.

Pembelajaran menghadapi banyak tantangan, seperti kesalahan yang terutama disebabkan oleh bias, noise, dan varians. Keakuratan dan stabilitas pembelajaran mesin dijamin oleh metode ensembel seperti bagging dan boosting. Kombinasi beberapa pengklasifikasi mengurangi varians, terutama jika pengklasifikasi tidak stabil, dan pengklasifikasi penting dalam menyajikan hasil yang lebih andal daripada pengklasifikasi tunggal.

Penerapan bagging atau boosting membutuhkan pemilihan algoritma dasar pelajar terlebih dahulu. Misalnya, jika seseorang memilih pohon klasifikasi, maka boosting dan bagging akan menjadi kumpulan pohon dengan ukuran yang sama dengan preferensi pengguna.

Keuntungan dan Kerugian dari Bagging

Hutan Acak Hutan Acak Hutan acak adalah teknik yang digunakan dalam prediksi pemodelan dan analisis perilaku dan dibangun di atas pohon keputusan. Sebuah hutan acak berisi banyak pohon keputusan adalah salah satu algoritma pengantongan yang paling populer. Bagging menawarkan keuntungan karena memungkinkan banyak pelajar yang lemah untuk menggabungkan upaya untuk mengalahkan seorang pelajar yang kuat. Ini juga membantu dalam pengurangan varians, oleh karena itu menghilangkan overfitting Overfitting Overfitting adalah istilah yang digunakan dalam statistik yang mengacu pada kesalahan pemodelan yang terjadi ketika suatu fungsi terlalu dekat dengan satu set data model dalam prosedur.

Satu kelemahan dari bagging adalah hal itu menyebabkan hilangnya interpretabilitas model. Model yang dihasilkan dapat mengalami banyak bias jika prosedur yang tepat diabaikan. Meskipun bagging sangat akurat, namun secara komputasi mahal dan hal ini dapat menghambat penggunaannya dalam kasus tertentu.

Mengantongi vs. Meningkatkan

Teknik terbaik untuk digunakan antara bagging dan boosting bergantung pada data yang tersedia, simulasi, dan keadaan apa pun yang ada pada saat itu. Varians perkiraan dikurangi secara signifikan dengan teknik bagging dan boosting selama prosedur kombinasi, sehingga meningkatkan akurasi. Oleh karena itu, hasil yang diperoleh menunjukkan stabilitas yang lebih tinggi daripada hasil individu.

Ketika sebuah acara menghadirkan tantangan kinerja rendah, teknik mengantongi tidak akan menghasilkan bias yang lebih baik. Namun, teknik boosting menghasilkan model terpadu dengan kesalahan yang lebih rendah karena teknik ini berkonsentrasi pada optimalisasi keuntungan dan pengurangan kekurangan dalam satu model.

Ketika tantangan dalam satu model overfitting, metode bagging berkinerja lebih baik daripada teknik boosting. Boosting menghadapi tantangan menangani over-fitting karena memiliki kelebihan fitting itu sendiri.

Bacaan Terkait

Finance menawarkan Financial Modeling & Valuation Analyst (FMVA) ™ Sertifikasi FMVA®. Bergabunglah dengan 350.600+ siswa yang bekerja untuk perusahaan seperti Amazon, JP Morgan, dan program sertifikasi Ferrari bagi mereka yang ingin meningkatkan karir mereka ke level berikutnya. Untuk terus mempelajari dan mengembangkan basis pengetahuan Anda, harap jelajahi sumber daya Keuangan tambahan yang relevan di bawah ini:

  • Cluster Sampling Cluster Sampling Dalam statistik, cluster sampling adalah metode pengambilan sampel di mana seluruh populasi penelitian dibagi menjadi homogen eksternal tetapi internal
  • Bias Overconfidence Bias Overconfidence Bias overconfidence adalah penilaian yang salah dan menyesatkan atas keterampilan, kecerdasan, atau bakat kita. Singkatnya, ini adalah keyakinan egois bahwa kita lebih baik dari yang sebenarnya. Ini bisa menjadi bias yang berbahaya dan sangat produktif dalam perilaku keuangan dan pasar modal.
  • Analisis Regresi Analisis Regresi Analisis regresi adalah sekumpulan metode statistik yang digunakan untuk memperkirakan hubungan antara variabel dependen dan satu atau lebih variabel independen. Ini dapat digunakan untuk menilai kekuatan hubungan antara variabel dan untuk memodelkan hubungan masa depan di antara mereka.
  • Analisis Data Deret Waktu Analisis Data Deret Waktu Analisis data deret waktu adalah analisis kumpulan data yang berubah selama periode waktu tertentu. Kumpulan data deret waktu merekam observasi terhadap variabel yang sama pada berbagai titik waktu. Analis keuangan menggunakan data deret waktu seperti pergerakan harga saham, atau penjualan perusahaan dari waktu ke waktu

Direkomendasikan

Apakah Margin Kontribusi?
Apa itu Eksternalitas Negatif?
Apakah Model Tiga Faktor Fama-Prancis itu?