TabNet. Sedikit detail

Jaringan saraf performa tinggi yang dalam untuk data tabular TabNet   

pengantar 

Jaringan saraf dalam (GNN) telah menjadi salah satu alat yang paling menarik untuk membuat sistem kecerdasan buatan (SRI), misalnya, pengenalan suara, komunikasi alami, penglihatan komputer [2-3], dll. Secara khusus, karena pemilihan otomatis GNS penting, mendefinisikan fitur, koneksi dari data. Arsitektur jaringan saraf (neokognitronik, konvolusional, kepercayaan mendalam, dll.), Model dan algoritme untuk mempelajari GNS (pembuat kode otomatis, mesin Boltzmann, pengulangan terkontrol, dll.) Sedang berkembang. GNS sulit untuk dilatih, terutama karena masalah gradien yang menghilang.  





Artikel ini membahas arsitektur kanonik GNS baru untuk data tabular (TabNet), yang dirancang untuk menampilkan "pohon keputusan". Tujuannya adalah untuk mewarisi keuntungan dari metode hierarki (interpretabilitas, pemilihan fitur yang jarang) dan metode berbasis GNS (pembelajaran langkah demi langkah dan ujung ke ujung). Secara khusus, TabNet menangani dua kebutuhan utama - kinerja tinggi dan interpretabilitas. Performa tinggi seringkali tidak cukup - GNS harus menafsirkan, mengganti metode seperti pohon. 





TabNet adalah jaringan neural dari lapisan yang sepenuhnya terhubung dengan mekanisme perhatian sekuensial yang: 





  • menggunakan pilihan objek yang jarang oleh instance, yang diperoleh dari set data pelatihan; 





  • membuat arsitektur multistage sekuensial di mana setiap langkah keputusan dapat berkontribusi pada bagian keputusan yang didasarkan pada fungsi yang dipilih;





  • meningkatkan kemampuan belajar melalui transformasi non-linier dari fungsi yang dipilih;





  • mensimulasikan ansambel, yang melibatkan pengukuran yang lebih akurat dan lebih banyak langkah peningkatan.  









Setiap lapisan dari arsitektur tertentu (Gbr. 1) adalah langkah solusi yang berisi blok dengan lapisan yang sepenuhnya terhubung untuk mengubah karakteristik - Transformator Fitur dan mekanisme perhatian untuk menentukan pentingnya karakteristik asli masukan. 





Gambar 1. Arsitektur TabNet
Gambar 1. Arsitektur TabNet





1. Pengubah fungsi 

1.1. Normalisasi batch 

    -   . . , (,   ), , . (covariate shift).  





. , — . ( ) , . , , , .  





. , — , . ,   , (   ,   – )   . .    - (batch normalization), 2015  [4]. 









 - .  





1. d: x = (x1, . . . , xd). kx ( ): 









2. . , . ,  , (   





σ (x) = \ frac {1} {1 + exp (−x)}

[−1, 1] ).  





, :  





γ, β .  









3. , ,  -,  





dimana \;  B = \ {{x ^ k_ 1, ..., _ m} \} - saat ini \;  batch mini \;  untuk \;  k-th \;  neuron, di mana B = {x_1 ^ k, ..., m} - \;  \ text {mini-batch for} \;  k-th \; neuron.

4.





 -:  





  • , , ;  





  • , ;  





  • ,      ;  





  •    . 





1.2. GLU

 [5]   Gated Linear Unit,       , , LSTM-.  





GLU  





, , , .     H = [h0 ,..., hN]   w0, ... ,wN,  P (wi |hi).   f  H   hi = f(hi - 1 , wi - 1) , i ( ,  ). 





f   H = f * w , , , , , . . , ,  [5] , , . 





. 2 . ,  D |V| x e,  |V| - ( ),  e - .  w0, … , wN, E = [Dw0, … , DwN].  h0 , …hL 





m, n – , ,  k - , X ∈ R N×m -  hl( , ), 





, σ -  ⊗  . 





 ,  hi  . , . , k-1, , - , ,  k - . 









Gambar 2. Arsitektur jaringan konvolusional tertutup untuk pemodelan bahasa
2.

 X * W + b,   σ(X * V + c). LSTM,  X * W + b  , . (GLU). E  H = hL◦. . .◦h0 (E). 





(GLU) ,      . 





3.3  LSTM 

LSTM (long short-term memory,  –  ) — ,   . LSTM    , ,  [5]. 





LSTM . — , ! 





.   , ,  tanh





LSTM  





LSTM . 





 





LSTM , . , « ».  h  x  0 1  C. 1  « »,  0 — « ». 





. , . , . , . 





   





, . .   , « », ,  .  tanh   - C, . . 





, . 





 





C. , . 





f, ,   .  i*C. , , . 





,   . 





 , , . .  , , .  tanh ( [-1, 1]) . 





, , , . ,   , ( ) . 





   TabNet 





 





Gambar 3.3 Deskripsi Operasi GLU
3.3 GLU

3.4.  Split:  

 Feature Transformer  , .  ,      ,  Attentive Transformer  ,   .     (backpropagation) , «» ,    ( ). , .   ,  Attentive Transformer  . , "" , , . 





SPLIT 





:  (. . 1) . 





,  , ( ), , . 





. 3       . FC BN (GLU) ,   . √0.5 , , . . BN, , , BN BV  mB.      , , BN. , , . 3,  









.  softmax  ( argmax  ). 





Gambar 3. Blok SPLIT
3. SPLIT

4.   

.   (), ( )  Softmax, ,   , :  ,  -  ,   —  . 





   





, ,  ht, t=1 …m,  d  ,  . 





Riunok.  4. Lapisan perhatian
. 4.

C  d     di−1





 s —  hi  « ». 





,   s  softmax.  e=softmax(s) 





softmax : 





:





 cc ,  hi   ei. 





   .  , , , ,    , .  Softmax,  Sparsemax. ,  , - , Softmax  ,  . «»  «» ,    - .  





5.   SPARSEMAX 

, z z, . : 





τ(z) S(z), p. softmax  , , ,  softmax .  





, .  softmax   ,  sparsemax  : 





, : 





Gambar 5. Perbedaan antara softmax dan sparsemax
5. softmax sparsemax

,  sparsemax   ,  , : 





|S(z)| - S(z)





, , , ,  Sparsemax.  





,   





Gambar 6. Representasi mekanisme pengaruh
6.

6.   

,   , ,   , -  . . , ,      .  ( ),      () , , , . 





:   





.   ,  , , ,   . : M[i] · f. (. . 1) , , a[i − 1]





 Sparsemax [6] , . 





,    





h[i] - , . 4., FC, BN, P[i] - , , : 





γ - : γ = 1, γ, . P[0]





- . ( ),  P[0]  , .  : 





ϵ -    .    λ,     , . 





 

   , ,   . ,    ,  , -   .    ,  [5]  , . 





TabNet - . TabNet . , () ,   .  





, , , .









  1. .. //  . : . 2017. .6, №3. .28–59. DOI: 10.14529/cmse170303 





  2. LeCun Y., Bengio Y., Hinton G. Deep Learning // Nature. 2015. Vol.521. Pp.436–444. DOI: 10.1038/nature14539. 





  3. Rav`ı D., Wong Ch., Deligianni F., et al. Deep Learning for Health Informatics // IEEE Journal of Biomedical and Health Informatics. 2017. Vol.21, No.1. PP.4–21. DOI: 10.1109/JBHI.2016.2636665. 





  4. Sergey Ioffe, Christian Szegedy. Batch Normalization: Accelerating Deep Network Training by Reducing Internal // Proceedings of The 32nd International Conference on Machine Learning (2015), pp.448-456. 





  5. Sercan O. Arik, Tomas Pfister. TabNet: Attentive Interpretable Tabular Learning // ICLR 2020 Conference Blind Submission 25 Sept 2019 (modified: 24 Dec 2019). URL:https://drive.google.com/file/d/1oLQRgKygAEVRRmqCZTPwno7gyTq22wbb/view?usp=sharing 





  6. Andre F. T. Martins and Ram´on Fern´andez Astudillo. 2016. From Softmax´ to Sparsemax: A Sparse Model of Attention and Multi-Label Classification. arXiv:1602.02068. 
















All Articles