Apa itu Random Forest?

Hutan acak adalah teknik yang digunakan dalam prediksi pemodelan dan analisis perilaku dan dibangun di atas pohon keputusan. Ini berisi banyak pohon keputusan yang mewakili contoh berbeda dari klasifikasi input data ke dalam hutan acak. Teknik hutan acak mempertimbangkan contoh secara individual, mengambil satu dengan mayoritas suara sebagai prediksi yang dipilih.

Random Forest Gambar 1. Struktur Hutan Acak (Sumber)

Setiap pohon dalam klasifikasi mengambil masukan dari sampel di set data awal. Fitur kemudian dipilih secara acak, yang digunakan untuk menumbuhkan pohon di setiap node. Setiap pohon di hutan tidak boleh dipangkas hingga akhir latihan saat prediksi tercapai dengan pasti. Dengan cara demikian, hutan acak memungkinkan pengklasifikasi apa pun dengan korelasi lemah untuk membuat pengklasifikasi yang kuat.

Ringkasan Cepat

  • Hutan acak adalah kombinasi pohon keputusan yang dapat dimodelkan untuk prediksi dan analisis perilaku.
  • Pohon keputusan di hutan tidak dapat dipangkas untuk pengambilan sampel dan karenanya, pemilihan prediksi.
  • Teknik hutan acak dapat menangani kumpulan data besar karena kemampuannya untuk bekerja dengan banyak variabel yang jumlahnya mencapai ribuan.

Prediksi Pemodelan

Metode hutan acak dapat membangun model prediksi menggunakan pohon regresi hutan acak, yang biasanya tidak dilindungi untuk memberikan prediksi yang kuat. Metode pengambilan sampel bootstrap digunakan pada pohon regresi, yang tidak boleh dipangkas. Node optimal diambil sampelnya dari total node di pohon untuk membentuk fitur pemisahan yang optimal.

Teknik pengambilan sampel acak yang digunakan dalam pemilihan fitur pemisahan optimal menurunkan korelasi dan dengan demikian, varians pohon regresi. Ini meningkatkan kemampuan prediksi berbagai pohon di hutan. Pengambilan sampel menggunakan bootstrap juga meningkatkan kemandirian antar individu pohon.

Kepentingan Variabel

Variabel (fitur) penting untuk random forest karena interpretasi model merupakan tantangan, terutama dari sudut pandang biologis. Pendekatan naif menunjukkan pentingnya variabel dengan menetapkan kepentingan variabel berdasarkan frekuensi penyertaannya dalam sampel oleh semua pohon. Ini dapat dicapai dengan mudah tetapi menghadirkan tantangan karena efek pada pengurangan biaya dan peningkatan akurasi berlebihan.

Kepentingan permutasi adalah ukuran yang melacak keakuratan prediksi di mana variabel-variabel diubah secara acak dari sampel yang sudah di luar kantong. Pendekatan kepentingan permutasi bekerja lebih baik daripada pendekatan naif tetapi cenderung lebih mahal.

Karena tantangan dari hutan acak yang tidak mampu menafsirkan prediksi dengan cukup baik dari perspektif biologis, teknik ini mengandalkan pendekatan naif, pengurangan pengotor rata-rata, dan permutasi untuk memberi mereka interpretabilitas langsung terhadap tantangan. Ketiga pendekatan tersebut mendukung variabel prediktor dengan beberapa kategori.

Dalam kasus variabel prediktor kontinu dengan jumlah kategori yang sama, bagaimanapun, baik permutasi pentingnya dan penurunan rata-rata pendekatan pengotor tidak menunjukkan bias Bias Data-Mining Bias data-mining mengacu pada asumsi pentingnya pedagang menetapkan suatu kejadian di pasar yang sebenarnya merupakan hasil kebetulan atau tak terduga. Pemilihan variabel sering kali menimbulkan bias. Untuk menghindarinya, seseorang harus melakukan subsampling tanpa penggantian, dan jika inferensi bersyarat digunakan, teknik hutan acak harus diterapkan.

Hutan Acak Miring

Hutan acak miring bersifat unik karena mereka menggunakan pemisahan miring untuk pengambilan keputusan menggantikan pengambilan keputusan konvensional di simpul. Hutan miring menunjukkan banyak keunggulan dengan menunjukkan kualitas berikut.

Pertama, mereka dapat memisahkan distribusi pada sumbu koordinat dengan menggunakan pemisahan multivariat tunggal yang akan mencakup pemisahan selaras sumbu dalam yang diperlukan secara konvensional. Kedua, mereka memungkinkan penurunan bias dari pohon keputusan untuk batasan yang dipetakan. Pemisahan sejajar sumbu konvensional akan membutuhkan dua tingkat lebih dari penumpukan saat memisahkan kelas yang serupa dengan pemisahan miring sehingga lebih mudah dan efisien untuk digunakan.

Pengklasifikasi Hutan Acak

Pengklasifikasi hutan acak adalah kumpulan pohon prediksi, di mana setiap pohon bergantung pada vektor acak yang diambil sampelnya secara independen, dengan distribusi serupa dengan setiap pohon lain di hutan acak. Awalnya dirancang untuk pembelajaran mesin, pengklasifikasi telah mendapatkan popularitas di komunitas penginderaan jauh, yang diterapkan dalam klasifikasi citra penginderaan jauh karena akurasinya yang tinggi. Ini juga mencapai kecepatan yang diperlukan dan parameterisasi yang efisien dalam proses. Pengklasifikasi hutan acak mem-bootstrap sampel acak di mana prediksi dengan suara tertinggi dari semua pohon dipilih.

Individualitas pohon penting dalam keseluruhan proses. Individualitas setiap pohon dijamin karena kualitas berikut. Pertama, setiap pelatihan pohon dalam sampel menggunakan subset acak dari sampel pelatihan awal. Kedua, pemisahan optimal dipilih dari fitur yang dipilih secara acak dari node pohon yang tidak dipangkas. Ketiga, setiap pohon tumbuh tanpa batas dan tidak boleh dipangkas sama sekali.

Keuntungan dari Random Forests

Hutan acak menyajikan perkiraan untuk kepentingan variabel, yaitu jaringan saraf. Mereka juga menawarkan metode superior untuk bekerja dengan data yang hilang. Nilai yang hilang diganti dengan variabel yang paling banyak muncul di node tertentu. Di antara semua metode klasifikasi yang tersedia, hutan acak memberikan akurasi tertinggi.

Teknik hutan acak juga dapat menangani data besar dengan banyak variabel yang mencapai ribuan. Ini dapat secara otomatis menyeimbangkan kumpulan data ketika kelas lebih jarang daripada kelas lain dalam data. Metode ini juga menangani variabel dengan cepat, sehingga cocok untuk tugas yang rumit.

Sumber Daya Lainnya

Finance menawarkan Financial Modeling & Valuation Analyst (FMVA) ™ Sertifikasi FMVA®. Bergabunglah dengan 350.600+ siswa yang bekerja untuk perusahaan seperti Amazon, JP Morgan, dan program sertifikasi Ferrari bagi mereka yang ingin meningkatkan karir mereka ke level berikutnya. Untuk terus mempelajari dan mengembangkan basis pengetahuan Anda, harap jelajahi sumber daya Keuangan tambahan yang relevan di bawah ini:

  • Analisis Data Cross-Sectional Analisis Data Cross-Sectional Analisis data cross-sectional adalah analisis cross-sectional dataset. Survei dan catatan pemerintah adalah beberapa sumber data cross-sectional yang umum
  • Cluster Sampling Cluster Sampling Dalam statistik, cluster sampling adalah metode pengambilan sampel di mana seluruh populasi penelitian dibagi menjadi homogen eksternal tetapi internal
  • Distribusi Normal Distribusi Normal Distribusi normal juga disebut sebagai distribusi Gaussian atau Gauss. Jenis distribusi ini banyak digunakan dalam ilmu alam dan sosial. Itu
  • Kriteria Roy Keselamatan-Pertama Kriteria Roy Keselamatan-pertama Kriteria Roy keselamatan-pertama adalah teknik manajemen risiko yang digunakan oleh investor untuk membandingkan dan memilih portofolio berdasarkan kriteria bahwa probabilitas

Direkomendasikan

Apakah Crackstreams dimatikan?
2022
Apakah pusat komando MC aman?
2022
Apakah Taliesin meninggalkan peran penting?
2022