✋🏾 🍋 ™️ Memikirkan Kembali Mekanisme Perhatian dengan Pelaku 👋🏾 🖇️ 🚴🏾

Model berbasis transformator telah mencapai hasil yang luar biasa dalam berbagai disiplin ilmu, termasuk percakapan AI , pemrosesan bahasa alami , pemrosesan gambar , dan bahkan musik . Komponen utama dari arsitektur apa pun adalah modul perhatian Transformers (modul perhatian), yang menghitung kesamaan untuk semua pasangan dalam urutan masukan. Namun, itu tidak berskala baik dengan peningkatan panjang urutan input, membutuhkan peningkatan kuadrat dalam waktu komputasi untuk mendapatkan semua perkiraan kesamaan, serta peningkatan kuadrat dalam jumlah memori yang digunakan untuk membuat matriks untuk menyimpan perkiraan ini.

Untuk aplikasi yang memerlukan perhatian lebih, beberapa proxy yang lebih cepat dan lebih ringkas telah diusulkan, seperti teknik cache memori , tetapi solusi yang lebih umum adalah menggunakan perhatian yang jarang . Perhatian renggang mengurangi waktu komputasi dan persyaratan memori untuk mekanisme perhatian dengan menghitung hanya sejumlah skor kesamaan yang terbatas dari suatu urutan daripada semua pasangan yang mungkin, menghasilkan matriks renggang daripada matriks lengkap. Kejadian jarang ini dapat disarankan secara manual, ditemukan menggunakan teknik pengoptimalan, dipelajari, atau bahkan diacak, seperti yang ditunjukkan oleh teknik seperti Sparse Transformers , Longformers, Routing Transformers , Reformers dan Big Bird . Karena matriks renggang juga dapat direpresentasikan oleh grafik dan tepi , metode renggang juga dimotivasi oleh literatur jaringan saraf tiruan grafik , terutama mengenai mekanisme perhatian yang diuraikan dalam Graph Attention Networks. Arsitektur ketersebaran seperti itu biasanya memerlukan lapisan tambahan untuk secara implisit membuat mekanisme perhatian penuh.