😷 🤷🏿 💫 Pembelajaran mesin. Neural Networks (Bagian 1): Proses Pembelajaran Perceptron 🎬 ⏯️ 🍎

Saya ingin mencatat sebelumnya bahwa mereka yang tahu bagaimana perceptron belajar tidak akan menemukan sesuatu yang baru dalam artikel ini. Anda dapat melewatinya dengan aman. Mengapa saya memutuskan untuk menulis ini - Saya ingin menulis serangkaian artikel yang berkaitan dengan jaringan saraf dan penggunaan TensorFlow.js, oleh karena itu saya tidak dapat menghilangkan kutipan teoretis umum. Oleh karena itu, saya meminta Anda untuk menangani gagasan akhir dengan kesabaran dan pengertian yang tinggi.

Dalam pemrograman klasik, pengembang menjelaskan dalam bahasa pemrograman tertentu seperangkat aturan tertentu yang ditentukan secara kaku, yang ditentukan berdasarkan pengetahuannya dalam bidang subjek tertentu dan yang, sebagai perkiraan pertama, menggambarkan proses yang terjadi di otak manusia ketika memecahkan masalah serupa.

Misalnya, strategi untuk bermain tic-tac-toe, catur, dan lainnya dapat diprogram (Gambar 1).

Gambar 1 - Pendekatan klasik untuk menyelesaikan masalah

Sedangkan algoritma pembelajaran mesin dapat mendefinisikan seperangkat aturan untuk menyelesaikan masalah tanpa partisipasi pengembang, tetapi hanya berdasarkan ketersediaan set data pelatihan.

Satu set pelatihan adalah sekumpulan masukan yang terkait dengan serangkaian hasil yang diharapkan (tanggapan, keluaran). Pada setiap langkah pelatihan, model, dengan mengubah keadaan internal, akan mengoptimalkan dan mengurangi kesalahan antara keluaran aktual model dan hasil yang diharapkan (Gambar 2).

Gambar 2 - Pembelajaran mesin

Jaringan saraf

Untuk waktu yang lama, para ilmuwan, yang terinspirasi oleh proses yang terjadi di otak kita, mencoba merekayasa balik sistem saraf pusat dan mencoba meniru kerja otak manusia. Berkat ini, seluruh arah dalam pembelajaran mesin lahir - jaringan saraf.

Pada Gambar 3, Anda dapat melihat persamaan antara desain neuron biologis dan representasi matematis dari neuron yang digunakan dalam pembelajaran mesin.

Gambar 3 - Representasi matematis neuron

Dalam neuron biologis, neuron menerima sinyal listrik dari dendrit, memodulasi sinyal listrik dengan kekuatan berbeda, yang dapat menggairahkan neuron ketika nilai ambang tertentu tercapai, yang pada gilirannya akan mengarah pada transmisi sinyal listrik ke neuron lain melalui sinapsis.

Perceptron

Model matematika jaringan saraf, terdiri dari satu neuron, yang melakukan dua operasi berurutan (Gambar 4):

menghitung jumlah sinyal input dengan mempertimbangkan bobotnya (konduktansi atau resistansi) koneksi
${s u m = \vec{X}}^{T} \vec{W} + \vec{B} = \sum_{i = 1}^{n} x_{i} w_{i} + b$
${sum=\ \vec{X}}^T\vec{W}+\vec{B}=\sum_{i=1}^{n}{x_iw_i}+b$
menerapkan fungsi aktivasi ke jumlah total sinyal input.
$o u t = φ (s u m)$
$out=\varphi(sum)$

Gambar 4 - Model matematika perceptron

Setiap fungsi yang dapat dibedakan dapat digunakan sebagai fungsi aktivasi, yang paling umum digunakan ditunjukkan pada Tabel 1. Pilihan fungsi aktivasi terletak di pundak insinyur, dan biasanya pilihan ini didasarkan pada pengalaman yang ada dalam memecahkan masalah serupa, baik, atau hanya dengan metode pilihan.

Catatan

Namun, ada rekomendasi bahwa jika nonlinier diperlukan dalam jaringan saraf, maka fungsi ULT paling cocok sebagai fungsi aktivasi, yang memiliki tingkat konvergensi model terbaik selama proses pelatihan.

Tabel 1 - Fungsi aktivasi umum


Linear function	$φ (x) = x$ $\varphi\left(x\right)=x$	.
Sigmoid function	$φ (x) = \frac{1}{1 + e^{- x}}$ $\varphi\left(x\right)=\frac{1}{1+e^{-x}}$
Softmax function	$φ (x_{j}) = \frac{e^{x_{j}}}{\sum_{i} e^{x_{i}}}$ $\varphi\left(x_j\right)=\frac{e^{x_j}}{\sum_{i} e^{x_i}}$	$φ ([\begin{matrix} 1.2 \\ 0.9 \\ 0.4 \end{matrix}]) = [\begin{matrix} 0.46 \\ 0.34 \\ 0.20 \end{matrix}]$ $\varphi \left ( \begin{bmatrix} 1.2\\ 0.9\\ 0.4 \end{bmatrix} \right ) = \begin{bmatrix} 0.46\\ 0.34\\ 0.20 \end{bmatrix}$ ( 2)
Hyperbolic Tangent function	$φ (x) = \frac{e^{x} - e^{- x}}{e^{x} - e^{- x}}$ $\varphi\left(x\right)=\frac{e^x-e^{-x}}{e^x-e^{-x}}$	[-1, 1]. , ,
Rectified Linear Unit (ReLU)	$φ (x) = max (0, x)$ $\varphi\left(x\right)=\max(0,x)$	, , sigmoid tanh
Leaky ReLU	$φ (x) = max (0.01 x, x)$ $\varphi\left(x\right)=\max(0.01x,x)$	ReLU , 0

Proses pembelajaran Perceptron

Proses pembelajaran terdiri dari beberapa tahap. Untuk lebih jelasnya, kami akan mempertimbangkan masalah fiksi tertentu yang akan kami selesaikan dengan jaringan saraf yang terdiri dari satu neuron dengan fungsi aktivasi linier (ini pada dasarnya adalah perceptron tanpa fungsi aktivasi sama sekali), dan untuk menyederhanakan tugas, kami akan mengecualikan node perpindahan b di neuron (Gambar 5) ...

Gambar 5 - Dataset pelatihan dan keadaan jaringan saraf pada langkah pelatihan sebelumnya

Pada tahap ini, kita memiliki jaringan saraf dalam keadaan tertentu dengan bobot koneksi tertentu yang dihitung pada tahap pelatihan model sebelumnya, atau jika ini adalah iterasi pelatihan pertama, maka nilai bobot koneksi dipilih di pesanan acak.

Jadi, mari kita bayangkan bahwa kita memiliki beberapa set data latih, nilai setiap elemen dari himpunan tersebut diwakili oleh vektor data masukan (data masukan), yang berisi 2 parameter (fitur)

x_{1}, x_{2}

$x_1,x_2$ ... Dibawah

x_{1}, x_{2}

$x_1,x_2$ dalam model, tergantung pada domain yang bersangkutan, apa pun dapat tersirat: jumlah kamar di rumah, jarak rumah dari laut, baik, atau kami hanya mencoba untuk melatih jaringan saraf operasi logis AND, atau OR.

Setiap vektor masukan dalam set pelatihan dipetakan ke vektor keluaran yang diharapkan. Dalam hal ini, vektor data keluaran hanya berisi satu parameter, yang, sekali lagi, bergantung pada area subjek yang dipilih, dapat berarti apa saja - harga rumah, hasil dari melakukan operasi logika AND atau OR.

LANGKAH 1 - Proses penerusan umpan

Pada langkah ini, kami menghitung jumlah sinyal input dengan mempertimbangkan bobot setiap ikatan dan menerapkan fungsi aktivasi (dalam kasus kami, tidak ada fungsi aktivasi). Mari kita lakukan kalkulasi untuk elemen pertama dalam set pelatihan:

y_{p r e d i c t e d} = \sum_{i = 1}^{n} x_{i} w_{i} = 1 \cdot 0.1 + 0.5 \cdot 0.2 = 0.2

$y_{predicted}=\sum_{i=1}^{n}{x_iw_i}=1\cdot0.1+0.5\cdot0.2=0.2$

Gambar 6 - Perambatan maju kesalahan

Perhatikan bahwa rumus di atas adalah persamaan matematika yang disederhanakan untuk kasus khusus operasi tensor.

Tensor pada dasarnya adalah wadah data yang dapat memiliki sumbu N dan jumlah elemen yang berubah-ubah di sepanjang masing-masing sumbu. Kebanyakan tensor akrab dengan matematika - vektor (tensor dengan satu sumbu), matriks (tensor dengan dua sumbu - baris, kolom).

Rumusnya dapat dituliskan dalam bentuk berikut, di mana Anda akan melihat matriks familiar (tensor) dan perkaliannya, dan juga memahami jenis penyederhanaan yang dibahas di atas:

{\vec{Y}}_{p r e d i c t e d} = {\vec{X}}^{T} \vec{W} = {[\begin{matrix} x_{1} \\ x_{2} \end{matrix}]}^{T} \cdot [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] = [\begin{matrix} x_{1} & x_{2} \end{matrix}] \cdot [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] = [x_{1} w_{1} + x_{2} w_{2}]

${\vec{Y}}_{predicted}=\ {\vec{X}}^T\vec{W}=\left[\begin{matrix}x_1\\x_2\\\end{matrix}\right]^T\cdot \left [ \begin{matrix} w_1\\ w_2 \end{matrix} \right ]=\left [ \begin{matrix} x_1 & x_2 \end{matrix} \right ] \cdot \left [ \begin{matrix} w_1\\ w_2 \end{matrix} \right ] =\left [ x_1w_1+x_2w_2 \right ]$

LANGKAH 2 - Hitung

fungsi kesalahan Fungsi kesalahan adalah metrik yang mencerminkan perbedaan antara keluaran yang diharapkan dan yang diterima. Fungsi kesalahan berikut biasanya digunakan:

- Mean Squared Error (MSE) - fungsi kesalahan ini sangat sensitif terhadap pencilan dalam set pelatihan, karena ini menggunakan kuadrat selisih antara nilai aktual dan yang diharapkan (pencilan adalah nilai yang jauh dari nilai lain di kumpulan data, yang terkadang muncul karena kesalahan data, seperti mencampurkan data dengan unit ukuran yang berbeda atau pembacaan sensor yang buruk):

L = \frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2}

$L=\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2$

- root mean square deviation (Root MSE) - sebenarnya, ini sama dengan root mean square error dalam konteks jaringan saraf, tetapi dapat mencerminkan unit pengukuran fisik yang sebenarnya, misalnya, jika dalam jaringan saraf parameter keluaran jaringan saraf adalah harga rumah dalam dolar, maka satuan pengukuran kesalahan kuadrat rata-rata adalah dolar persegi (

$^{2}

$$^2$ ), dan untuk deviasi standar adalah dolar ($), yang secara alami sedikit menyederhanakan tugas analisis manusia:

L = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2}}

$L=\sqrt{\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2}$

- deviasi rata - rata (Mean Absolute Error, MAE) - berbeda dengan dua nilai di atas, tidak begitu sensitif terhadap emisi:

L = \frac{1}{N} \sum_{i = 1}^{N} | y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)} |

$L=\frac{1}{N}\sum_{i=1}^{N}\left|y_{predicted(i)}-y_{expected(i)}\right|$

- entropi silang - penggunaan untuk tugas klasifikasi:

L = - \sum_{i = 1}^{N} \sum_{j = 1}^{M} y_{e x p e c t e d (i j)} \log (y_{p r e d i c t e d (i j)})

$L=-\sum_{i=1}^{N}\sum_{j=1}^{M}{y_{expected(ij)}\log(y_{predicted(ij)})}$

Dimana

N

$N$ - jumlah salinan di set pelatihan

M

$M$ - jumlah kelas saat menyelesaikan masalah klasifikasi

y_{e x p e c t e d}

$y_{expected}$ - nilai keluaran yang diharapkan

y_{p r e d i c t e d}

$y_{predicted}$ - nilai keluaran aktual dari model yang dilatih

Untuk kasus khusus kami, kami akan menggunakan MSE:

L = \frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2} = {(0.2 - 1)}^{2} = 0.64

$L=\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2={(0.2-1)}^2=0.64$

LANGKAH 3 - Propagasi mundur

Tujuan pelatihan jaringan saraf sederhana - ini untuk meminimalkan fungsi kesalahan:

L \to m i n

$L\rightarrow min$

Salah satu cara untuk menemukan nilai minimum suatu fungsi adalah dengan mengubah bobot koneksi ke arah yang berlawanan dengan vektor gradien pada setiap langkah pembelajaran berikutnya - metode penurunan gradien, dan secara matematis akan terlihat seperti ini:

{\vec{w}}^{(k + 1)} = {\vec{w}}^{k} - μ \nabla L ({\vec{w}}^{k})

${\vec{w}}^{(k+1)}={\vec{w}}^k-\mu\nabla L({\vec{w}}^k)$

Dimana

k

$k$ - iterasi ke-k pelatihan jaringan saraf;

μ

$\mu$ - kecepatan pembelajaran ditetapkan oleh teknisi, biasanya dapat 0,1; 0.01 (tentang bagaimana langkah pembelajaran mempengaruhi proses konvergensi pembelajaran, perhatikan sedikit kemudian)

\nabla L

$\nabla L$ - gradien dari fungsi kesalahan

Untuk menemukan gradien, kami menggunakan turunan parsial sehubungan dengan argumen khusus

w_{1}, w_{2}

$w_1,w_2$ :

\nabla L (\vec{w}) = [\begin{matrix} \frac{\partial L}{\partial w_{1}} \\ ⋮ \\ \frac{\partial L}{\partial w_{N}} \end{matrix}]

$\nabla L\left(\vec{w}\right)=\left[\begin{matrix}\frac{\partial L}{\partial w_1}\\\vdots\\\frac{\partial L}{\partial w_N}\\\end{matrix}\right]$

Dalam kasus khusus kami, dengan mempertimbangkan semua penyederhanaan, fungsi kesalahan mengambil bentuk:

L (w_{1}, w_{2}) = {(y_{p r e d i c t e d} - y_{e x p e c t e d})}^{2} = {(x_{1} w_{1} + x_{2} w_{2} - y_{e x p e c t e d})}^{2} =

$L\left(w_1,w_2\right)={(y_{predicted}-y_{expected})}^2={(x_1w_1+x_2w_2-y_{expected})}^2=$

= {(1 \cdot w_{1} + 0.5 \cdot w_{2} - 1)}^{2}

$={(1\cdot w_1+0.5\cdot w_2-1)}^2$

Memo rumus turunan

,

$\frac{d}{d x} c = 0; c = c o n s t$
$\frac{d}{dx}c=0;c=const$
$\frac{d}{d x} [c f (x)] = c f^{'} (x); c = c o n s t$
$\frac{d}{dx}\left[cf\left(x\right)\right]=cf^\prime\left(x\right);\ c=const$
$\frac{d}{d x} x^{n} = n x^{n - 1}$
$\frac{d}{dx}x^n=nx^{n-1}$

$\frac{d}{d x} [f (x) \pm g (x)] = f^{'} (x) \pm g^{'} (x)$
$\frac{d}{dx}\left[f\left(x\right)\pm g(x)\right]=f^\prime\left(x\right)\pm g^\prime(x)$
$\frac{d}{d x} [f (x) g (x)] = f^{'} (x) g (x) + g^{'} (x) f (x)$
$\frac{d}{dx}\left[f\left(x\right)g\left(x\right)\right]=f^\prime\left(x\right)g\left(x\right)+g^\prime\left(x\right)f\left(x\right)$
$\frac{d}{d x} f (g (x)) = f^{'} (g (x)) g^{'} (x)$
$\frac{d}{dx}f\left(g\left(x\right)\right)=f^\prime(g(x))g^\prime(x)$

Mari cari turunan parsial berikut ini:

\frac{\partial}{\partial w_{1}} {(w_{1} + 0.5 w_{2} - 1)}^{2} = 2 \cdot (w_{1} + 0.5 w_{2} - 1) \frac{\partial}{\partial w_{1}} (w_{1} + 0.5 w_{2} - 1) =

$\frac{\partial}{\partial w_1}{(w_1+0.5w_2-1)}^2=2\cdot\left(w_1+0.5w_2-1\right)\frac{\partial}{\partial w_1}\left(w_1+0.5w_2-1\right)=$

= 2 \cdot (w_{1} + 0.5 w_{2} - 1) \cdot 1 = 2 (0.1 + 0.5 \cdot 0.2 - 1) = - 1.6

$=2\cdot\left(w_1+0.5w_2-1\right)\cdot1=2\left(0.1+0.5\cdot0.2-1\right)=-1.6$

\frac{\partial}{\partial w_{2}} {(w_{1} + 0.5 w_{2} - 1)}^{2} = 2 \cdot (w_{1} + 0.5 w_{2} - 1) \frac{\partial}{\partial w_{2}} (w_{1} + 0.5 w_{2} - 1) =

$\frac{\partial}{\partial w_2}{(w_1+0.5w_2-1)}^2=2\cdot\left(w_1+0.5w_2-1\right)\frac{\partial}{\partial w_2}\left(w_1+0.5w_2-1\right)=$

= 2 \cdot (w_{1} + 0.5 w_{2} - 1) \cdot 0.5 = 2 (0.1 + 0.5 \cdot 0.2 - 1) \cdot 0.5 = - 0.8

$=2\cdot\left(w_1+0.5w_2-1\right)\cdot0.5=2\left(0.1+0.5\cdot0.2-1\right)\cdot0.5=-0.8$

Kemudian proses perambatan balik yang error adalah pergerakan sepanjang model dari keluaran menuju masukan dengan modifikasi bobot model ke arah yang berlawanan dengan vektor gradien. Setting langkah pembelajaran 0.1 (learning rate) yang kita miliki (Gambar 7):

w_{1}^{(k + 1)} = w_{1}^{(k)} - μ \frac{\partial L (w_{1}, w_{2})}{\partial w_{1}} = 0.1 - 0.1 \cdot (- 1.6) = 0.26

$w_1^{(k+1)}=w_1^{(k)}-\mu\frac{\partial L\left(w_1,w_2\right)}{\partial w_1}=0.1-0.1\cdot\left(-1.6\right)=0.26$

w_{2}^{(k + 1)} = w_{2}^{(k)} - μ \frac{\partial L (w_{1}, w_{2})}{\partial w_{2}} = 0.2 - 0.1 \cdot (- 0.8) = 0.28

$w_2^{(k+1)}=w_2^{(k)}-\mu\frac{\partial L\left(w_1,w_2\right)}{\partial w_2}=0.2-0.1\cdot\left(-0.8\right)=0.28$

Gambar 7 - Backpropagation of the error

Jadi, kami telah menyelesaikan langkah-langkah pelatihan k + 1 untuk memastikan bahwa kesalahan telah berkurang, dan output dari model dengan bobot baru menjadi lebih dekat dengan yang diharapkan, kami akan melakukan proses propagasi maju kesalahan sepanjang model dengan bobot baru (lihat LANGKAH 1) :

y_{p r e d i c t e d} = x_{1} w_{1} + x_{2} w_{2} = 1 \cdot 0.26 + 0.5 \cdot 0.28 = 0.4

$y_{predicted}=x_1w_1+x_2w_2=1\cdot0.26+0.5\cdot0.28=0.4$

Seperti yang Anda lihat, nilai output meningkat 0,2 unit ke arah yang benar menuju hasil yang diharapkan - satu (1). Kesalahannya kemudian akan menjadi:

L = {(0.4 - 1)}^{2} = 0.36

$L={(0.4-1)}^2=0.36$

Seperti yang Anda lihat, pada langkah pelatihan sebelumnya, kesalahannya adalah 0,64, dan dengan bobot baru - 0,36, oleh karena itu, kami menyesuaikan model ke arah yang benar.

Bagian selanjutnya dari artikel:

Pembelajaran Mesin. Jaringan saraf (bagian 2): ATAU pemodelan; XOR dengan Machine Learning TensorFlow.js

. Jaringan Saraf (Bagian 3) - Jaringan Konvolusional di bawah mikroskop. Menjelajahi API Tensorflow.js

Pembelajaran mesin. Neural Networks (Bagian 1): Proses Pembelajaran Perceptron

Jaringan saraf

Perceptron

Catatan

Proses pembelajaran Perceptron

More articles: