Pembelajaran mendalam telah memberikan kontribusi yang sangat besar terhadap kemajuan dan peningkatan kecerdasan buatan yang kita lihat di seluruh dunia saat ini. Tugas-tugas yang sekarang ditangani oleh kecerdasan buatan, seperti klasifikasi teks dan gambar, segmentasi contoh, menjawab pertanyaan berdasarkan data teks, pemahaman bacaan, dan banyak lagi, adalah fiksi ilmiah di masa lalu, tetapi sekarang menjadi lebih berguna dan semakin banyak ditiru. manusia karena penggunaan jaringan saraf yang dalam.
Bagaimana jaringan saraf mengatasi tugas kompleks ini? Apa yang terjadi di bawah lapisan bit tak berujung dari operasi matematika yang mengisi jaringan ini?

Jaringan Neural Sederhana
Mari kita gali lebih dalam dan memahami secara konseptual dasar-dasar jaringan saraf dalam.
Pertama, mari kita bicara tentang algoritme yang digunakan oleh sebagian besar (jika tidak semua) jaringan neural untuk belajar dari data pelatihan. Data pelatihan tidak lebih dari data beranotasi manusia, yaitu gambar yang diberi tag dalam kasus klasifikasi gambar, atau sentimen yang diberi tag dalam analisis sentimen.
Dan itu disebut algoritma error backpropagation.
Di bawah ini adalah gambaran singkat tentang struktur jaringan saraf:
Jaringan saraf mengubah data masukan menjadi keluaran dengan cara tertentu. Data masukan dapat berupa gambar, fragmen teks, dll. Data input diubah menjadi representasi numeriknya: misalnya, dalam gambar, setiap piksel dikodekan dengan nilai numerik tergantung pada posisinya, dan dalam teks, setiap kata adalah vektor angka, yang merupakan representasi vektor dari sebuah kata (dalam vektor seperti itu, setiap angka adalah perkiraan karakteristik tertentu dari sebuah kata) atau vektor satu dimensi (vektor berdimensi- n yang terdiri dari n-1 nol dan satu, di mana posisi satu akan menunjuk ke kata yang dipilih).
Masukan numerik ini kemudian dilewatkan melalui jaringan saraf (menggunakan teknik yang disebut backpropagation of an error), yang di balik kap mesin memiliki beberapa langkah untuk mengalikan bobot dalam jaringan, menambahkan offset, dan melewati fungsi aktivasi nonlinier. Langkah propagasi maju ini dilakukan untuk setiap input dalam data pelatihan berlabel, dan keakuratan jaringan dihitung menggunakan fungsi yang dikenal sebagai fungsi kerugian atau fungsi biaya. Tujuan jaringan adalah meminimalkan fungsi kerugian, yaitu memaksimalkan akurasinya. Awalnya, jaringan mulai bekerja dengan nilai parameter acak (bobot dan bias), kemudian secara bertahap meningkatkan keakuratannya dan meminimalkan kerugian, terus meningkatkan parameter ini di setiap iterasi dengan propagasi langsung pada data pelatihan.Memperbarui bobot dan bias (besaran dan arah positif atau negatif) ditentukan oleh algoritma propagasi balik. Mari kita lihat algoritme propagasi mundur dan pahami cara algoritme membantu jaringan saraf "belajar" dan meminimalkan hilangnya data pelatihan.

Propagasi maju dalam jaringan neural dalam
Inti dari error backpropagation adalah untuk mengetahui bagaimana setiap parameter harus berubah agar lebih sesuai dengan data pelatihan (yaitu, meminimalkan kerugian dan memaksimalkan akurasi prediksi). Metode untuk menentukan nilai-nilai ini cukup sederhana:

Pada gambar di atas, sumbu Y merupakan fungsi kerugian, dan sumbu X merupakan beberapa parameter (bobot) dalam jaringan. Nilai awal bobot harus dikurangi untuk mencapai minimum lokal. Tetapi bagaimana jaringan memahami bahwa bobot perlu dikurangi untuk melakukan ini? Jaringan akan mengandalkan kemiringan fungsi di titik awal.
Bagaimana Anda mendapatkan kemiringannya? Jika Anda pernah mempelajari matematika, Anda tahu bahwa kemiringan suatu fungsi pada suatu titik ditentukan oleh turunannya. Voila! Sekarang kita dapat menghitung kemiringan, dan oleh karena itu arah perubahan (positif atau negatif) bobot. Nilai bobot diperbarui secara berulang dan kami berakhir dengan nilai minimum.
Kesulitan muncul ketika bobot tidak terkait langsung dengan fungsi kerugian, seperti halnya dengan jaringan neural dalam. Di sinilah aturan rantai yang sudah dikenal masuk.

Sebagai contoh, pada gambar di atas menunjukkan bahwa hasil Y tidak tergantung langsung pada nilai input X , tapi X melewati F , dan kemudian melalui G sebelum memberikan nilai output Y . Dengan menggunakan aturan rantai, Anda dapat menuliskan turunan G terhadap X , menunjukkan ketergantungan G pada F , di mana F bergantung pada X... Aturan ini dapat diterapkan untuk jaringan dengan panjang berapa pun dengan turunan yang dihasilkan dan, oleh karena itu, kemiringan untuk nilai output apa pun sehubungan dengan input, diperoleh sebagai produk turunan dari semua langkah yang dilalui oleh nilai input. Ini adalah inti dari backpropagation error, di mana turunan / kemiringan nilai output terhadap setiap parameter diperoleh dengan mengalikan turunannya selama backward pass melalui jaringan hingga ditemukan turunan langsung dari parameter, itulah sebabnya metode ini disebut backpropagation.
Itu saja. Untuk mempelajari lebih lanjut tentang kursus ini, kami mengundang Anda untuk mendaftar pada hari terbuka melalui tautan di bawah ini:
