Apa itu Overfitting?

Overfitting adalah istilah yang digunakan dalam statistik yang mengacu pada kesalahan pemodelan yang terjadi ketika suatu fungsi terlalu dekat dengan kumpulan data tertentu. Akibatnya, overfitting mungkin gagal untuk menyesuaikan data tambahan, dan ini dapat memengaruhi akurasi prediksi observasi di masa mendatang.

Overfitting

Overfitting dapat diidentifikasi dengan memeriksa metrik validasi seperti akurasi dan kerugian. Metrik validasi biasanya meningkat hingga titik di mana mereka stagnan atau mulai menurun saat model dipengaruhi oleh overfitting. Selama tren naik, model mencari kesesuaian, yang, jika tercapai, menyebabkan tren mulai menurun atau stagnan.

Ringkasan Cepat

  • Overfitting adalah kesalahan pemodelan yang menimbulkan bias pada model karena terlalu dekat hubungannya dengan kumpulan data.
  • Overfitting membuat model hanya relevan dengan kumpulan datanya, dan tidak relevan dengan kumpulan data lainnya.
  • Beberapa metode yang digunakan untuk mencegah overfitting termasuk ensembling, augmentasi data, penyederhanaan data, dan validasi silang.

Bagaimana Cara Mendeteksi Overfitting?

Mendeteksi overfitting hampir tidak mungkin dilakukan sebelum Anda menguji data. Ini dapat membantu mengatasi karakteristik bawaan dari overfitting, yaitu ketidakmampuan untuk menggeneralisasi kumpulan data. Oleh karena itu, data dapat dipisahkan menjadi beberapa subset yang berbeda untuk memudahkan pelatihan dan pengujian. Data tersebut dibagi menjadi dua bagian utama, yaitu set tes dan set pelatihan.

Set pelatihan mewakili sebagian besar data yang tersedia (sekitar 80%), dan melatih model. Set pengujian mewakili sebagian kecil dari kumpulan data (sekitar 20%), dan digunakan untuk menguji keakuratan data yang tidak pernah berinteraksi dengannya sebelumnya. Dengan menyegmentasikan kumpulan data, kita dapat memeriksa performa model pada setiap kumpulan data untuk melihat overfitting saat terjadi, serta melihat cara kerja proses pelatihan.

Performa dapat diukur menggunakan persentase akurasi yang diamati di kedua kumpulan data untuk menyimpulkan adanya overfitting. Jika model berperforma lebih baik di set pelatihan daripada di set pengujian, itu berarti model tersebut kemungkinan overfitting.

Bagaimana Mencegah Overfitting?

Di bawah ini adalah beberapa cara untuk mencegah overfitting:

1. Pelatihan dengan lebih banyak data

Salah satu cara untuk mencegah overfitting adalah dengan melatih dengan lebih banyak data. Opsi seperti itu memudahkan algoritma Algoritma (Algos) Algoritma (Algos) adalah sekumpulan instruksi yang diperkenalkan untuk melakukan suatu tugas. lebih baik untuk meminimalkan kesalahan. Saat pengguna memasukkan lebih banyak data pelatihan ke dalam model, itu tidak akan dapat memenuhi semua sampel dan akan dipaksa untuk menggeneralisasi untuk mendapatkan hasil.

Pengguna harus terus mengumpulkan lebih banyak data sebagai cara untuk meningkatkan akurasi model. Namun, metode ini dianggap mahal, oleh karena itu, pengguna harus memastikan bahwa data yang digunakan relevan dan bersih.

2. Augmentasi data

Alternatif untuk melatih dengan lebih banyak data adalah augmentasi data, yang lebih murah dibandingkan sebelumnya. Jika Anda tidak dapat terus mengumpulkan lebih banyak data, Anda dapat membuat kumpulan data yang tersedia tampak beragam. Augmentasi data membuat data sampel terlihat sedikit berbeda setiap kali diproses oleh model. Proses tersebut membuat setiap kumpulan data tampak unik untuk model dan mencegah model mempelajari karakteristik kumpulan data.

Opsi lain yang bekerja dengan cara yang sama seperti augmentasi data adalah menambahkan noise ke data input dan output. Menambahkan derau ke masukan membuat model menjadi stabil, tanpa memengaruhi kualitas data dan privasi, sementara menambahkan derau ke keluaran membuat data lebih beragam. Namun penambahan noise sebaiknya dilakukan secara moderat agar luasnya noise tidak terlalu banyak sehingga membuat datanya salah atau terlalu berbeda.

3. Penyederhanaan Data

Overfitting dapat terjadi karena kompleksitas model, sehingga, meskipun dengan volume data yang besar, model tersebut masih berhasil menyesuaikan set data pelatihan secara berlebihan. Metode penyederhanaan data digunakan untuk mengurangi overfitting dengan cara mengurangi kompleksitas model agar cukup sederhana sehingga tidak overfitting.

Beberapa tindakan yang dapat diimplementasikan antara lain pemangkasan pohon keputusan, pengurangan jumlah parameter Parameter A parameter adalah komponen yang berguna dalam analisis statistik. Ini mengacu pada karakteristik yang digunakan untuk menentukan populasi tertentu. Ini digunakan untuk di jaringan saraf, dan menggunakan putus sekolah di jaringan netral. Menyederhanakan model juga dapat membuat model lebih ringan dan bekerja lebih cepat.

4. Ensembling

Ensembling adalah teknik pembelajaran mesin yang bekerja dengan menggabungkan prediksi dari dua atau lebih model terpisah. Metode ensembling paling populer termasuk boosting dan bagging. Meningkatkan pekerjaan dengan menggunakan model dasar sederhana untuk meningkatkan kompleksitas agregatnya. Ini melatih sejumlah besar pelajar lemah yang diatur dalam urutan, sehingga setiap pelajar dalam urutan tersebut belajar dari kesalahan pelajar sebelumnya.

Boosting menggabungkan semua pelajar yang lemah secara berurutan untuk menghasilkan satu pelajar yang kuat. Metode ensembling lainnya adalah bagging, yang merupakan kebalikan dari boosting. Bagging bekerja dengan melatih sejumlah besar pelajar kuat yang diatur dalam pola paralel dan kemudian menggabungkan mereka untuk mengoptimalkan prediksi mereka.

Sumber Daya Lainnya

Finance adalah penyedia resmi Financial Modeling & Valuation Analyst (FMVA) ™ FMVA® Certification. Bergabunglah dengan 350.600+ siswa yang bekerja untuk perusahaan seperti Amazon, JP Morgan, dan program sertifikasi Ferrari, yang dirancang untuk membantu siapa saja menjadi analis keuangan kelas dunia . Untuk terus memajukan karier Anda, sumber daya Keuangan tambahan di bawah ini akan berguna:

  • Konsep Statistik Dasar dalam Keuangan Konsep Statistik Dasar untuk Keuangan Pemahaman yang kuat tentang statistik sangat penting dalam membantu kita lebih memahami keuangan. Selain itu, konsep statistik dapat membantu memonitor investor
  • Bias Data-Mining Bias Data-Mining Bias data-mining mengacu pada asumsi pentingnya yang ditetapkan oleh pedagang untuk suatu kejadian di pasar yang sebenarnya merupakan hasil dari kebetulan atau tidak terduga
  • Random Forest Random Forest Random forest adalah teknik yang digunakan dalam prediksi pemodelan dan analisis perilaku dan dibangun di atas pohon keputusan. Hutan acak berisi banyak pohon keputusan
  • Probabilitas Tak Bersyarat Probabilitas Tak Bersyarat Probabilitas tak bersyarat, juga dikenal sebagai probabilitas marjinal, mengacu pada probabilitas yang tidak terpengaruh oleh peristiwa sebelumnya atau masa depan. Dengan kata lain,

Direkomendasikan

Apakah Crackstreams dimatikan?
2022
Apakah pusat komando MC aman?
2022
Apakah Taliesin meninggalkan peran penting?
2022