Reformator - Transformator Efektif



Memahami data yang diatur secara berurutan - baik itu bahasa, musik, atau video - sulit dilakukan, terutama jika sangat bergantung pada konteks yang mengelilinginya. Misalnya, jika seseorang atau objek apa pun menghilang dari bidang pandang pada video dan muncul kembali setelah jangka waktu yang signifikan, banyak model akan melupakan penampilannya. Dalam bidang pemrosesan bahasa, jaringan saraf memori jangka pendek (LSTM ) menyediakan konteks yang cukup untuk berhasil menerjemahkan kalimat demi kalimat . Dalam hal ini, jendela konteks (yaitu, cakupan data yang diperhitungkan model saat menerjemahkan) dapat berisi sepuluh hingga seratus kata. Model Transformer yang lebih barutidak hanya meningkatkan kualitas terjemahan berturut-turut, tetapi juga dapat digunakan untuk menghasilkan seluruh artikel Wikipedia dengan merangkum banyak dokumen. Ini dimungkinkan karena fakta bahwa Transformer memperbesar jendela konteks menjadi seribu kata. Selain itu, konteks yang dianggap luas memungkinkan penggunaan Transformer untuk memproses tidak hanya teks, tetapi juga piksel atau not musik, berdasarkan gambar atau musik yang dapat dihasilkan .



. , . , 100 , 100 100 , 10 , . . , , ( – ). , , , .



Reformer – , 1 16 . Reformer , : (locality-sensitive-hashing, LSH), , (reversible residual layers) .





, – ? LSH : , , -, . , , ( ), . , . , , , , – (chunks), . ( ) , .



gambar3



: Reformer , ( , ), . LSH , . .





LSH , . GPU, , , . , . , .



, Reformer', : , , . , , . , . , , . , , ; . , , , .



image4



: (a) . (b) , . () , .



Reformer'



Reformer' , 1 16 . , Reformer , . , Reformer' .



, – . Colab- Reformer' . , , Reformer (. ).



gambar5



: , Reformer'. : «» . Imagenet64.



Reformer' , . Reformer . , Colab- Β« Β». , , , Reformer, .





, Reformer , . , , Reformer', . , . , Reformer'. Colab– , .





  • β€” Nikita Kitaev, Łukasz Kaiser
  • β€”
  • β€”



All Articles