Review Artikel - AdderNet: Apakah Kita Benar-benar Membutuhkan Perkalian dalam Pembelajaran Mendalam? (Klasifikasi gambar)

Menggunakan penambahan, bukan perkalian untuk hasil konvolusi dalam latensi yang lebih sedikit daripada CNN standar

Konvolusi AdderNet menggunakan penjumlahan, tanpa perkalian
Konvolusi AdderNet menggunakan penjumlahan, tanpa perkalian

AdderNet: ?, (AdderNet), , Huawei Noah's Ark Lab .





?





  1. AdderNet





  2. : BN, ,









1. AdderNet

1.1.

  • , Y :





  • S - .





1.2.

Konvolusi standar menggunakan perkalian
  • , . .





1.3. AdderNet

Konvolusi AdderNet menggunakan penjumlahan, tanpa perkalian
AdderNet ,
  • , l1- :





  • l1- .





, .





, , - , .





2. : BN, ,

2.1. (Batch Normalization - BN)

  • , (BN) Y , , CNN, AdderNets.





  • BN , , , .





  • ( - BN, ?)





2.2.

  • l1- . , l2-:





  • .





  • , X [-1,1].





  • Y X :





  • HT - HardTanh:





2.3.

l2-ukuran gradien di LeNet-5-BN
l2- LeNet-5-BN
  • , AdderNets , CNN, AdderNets.





  • AdderNets :





  • γ - (, BN ), ΔL(Fl) - l, αl - .





  • ,





  • k Fl, η - .





3.

3.1. MNIST

  • LeNet-5-BN .





  • CNN 99,4% 435K 435K .





  • , AdderNet 99,4%, CNN, 870K .





  • , .





  • , VIA Nano 2000 4 2 . AdderNet LeNet-5 1.7M, CNN 2.6M CPU.





3.2. CIFAR

Hasil klasifikasi pada dataset CIFAR-10 dan CIFAR-100
CIFAR-10 CIFAR-100
BNN: konvolusi XNORNet menggunakan operasi boolean XNOR
BNN: XNORNet, XNOR
  • (Binary neural networks - BNN): XNOR , .





  • VGG-small, AdderNets (93,72% CIFAR-10 72,64% CIFAR-100) CNNs (93,80% CIFAR-10 72,73% CIFAR-100).





  • BNN , AdderNet CNN, (89,80% CIFAR-10 65,41% CIFAR-100).





  • ResNet-20, CNN (.. 92,25% CIFAR-10 68,14% CIFAR-100), (41,17M).





  • AdderNets 91,84% CIFAR-10 67,60% CIFAR-100 , CNN.





  • , BNN 84,87% 54,14% CIFAR-10 CIFAR-100.





  • ResNet-32 , AdderNets CNN.





3.3. ImageNet

Hasil Klasifikasi pada Kumpulan Data ImageNet 
ImageNet 
  • CNN 69,8% top-1 89,1% top-5 RESNET-18. , 1.8G .





  • AdderNet 66,8% top-1 87,4% top-5 ResNet-18, , .





  • , BNN , 51,2% top-1 73,2% top-5 ResNet-18.





  • ResNet-50.





3.4.

Visualisasi fitur di AdderNets dan CNN.  Tag CNN dari kelas yang berbeda dibagi menurut sudutnya.
AdderNets CNN. CNN .
  •  LeNet++ MNIST, 3D .





  • 32, 32, 64, 64, 128, 128 2 .





  • AdderNets l1- . .





  • , AdderNets CNN.





Visualisasi filter di lapisan pertama LeNet-5-BN di MNIST
LeNet-5-BN MNIST
  • adderNets - .





  • , AdderNets .





Histogram berat dengan AdderNet (kiri) dan CNN (kanan).
AdderNet () CNN ().
  • AdderNets , CNN . , l1- .





3.5.  

Kurva Pembelajaran AdderNets Menggunakan Berbagai Skema Pengoptimalan
AdderNets
  • AdderNets, (adaptive learning rate - ALR) (increased learning rate - ILR), 97,99% 97,72% , , CNN (99,40%) .





  • AdderNets.





  • AdderNet ILR 98,99% . (ALR), AdderNet 99,40%, .





[2020 CVPR] [AdderNet]





AdderNet: Do We Really Need Multiplications in Deep Learning?





1989–1998: [LeNet]





2012–2014: [AlexNet & CaffeNet] [Dropout] [Maxout] [NIN] [ZFNet] [SPPNet] [Distillation]





2015: [VGGNet] [Highway] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2]





2016: [SqueezeNet] [Inception-v3] [ResNet] [Pre-Activation ResNet] [RiR] [Stochastic Depth] [WRN] [Trimps-Soushen]





2017: [Inception-v4] [Xception] [MobileNetV1] [Shake-Shake] [Cutout] [FractalNet] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [Residual Attention Network] [IGCNet / IGCV1] [Deep Roots]





2018: [RoR] [DMRNet / DFN-MR] [MSDNet] [ShuffleNet V1] [SENet] [NASNet] [MobileNetV2] [CondenseNet] [IGCV2] [IGCV3] [FishNet] [SqueezeNext] [ENAS] [PNASNet] [ShuffleNet V2] [BAM] [CBAM] [MorphNet] [NetAdapt] [mixup] [DropBlock] [Group Norm (GN)]





2019: [ResNet-38] [AmoebaNet] [ESPNetv2] [MnasNet] [Single-Path NAS] [DARTS] [ProxylessNAS] [MobileNetV3] [FBNet] [ShakeDrop] [CutMix] [MixConv] [EfficientNet] [ABN] [SKNet] [CB Loss]





2020: [Random Erasing (RE)] [SAOL] [AdderNet]






"Deep Learning. Basic".





- : "Knowledge distillation: ".





-





- -








All Articles