Mario Miskullo adalah Asisten Profesor di Departemen Teknik Listrik dan Komputer di Universitas George Washington. Mario adalah pemimpin subkelompok dari tim komputasi neuromorfik Lab OPEN yang dipimpin oleh Prof. Dr. Volcker J. Sorger. Mario memperoleh gelar MSc di bidang Teknik Elektro dan Komputer dari Turin Polytechnic saat bekerja sebagai peneliti di Harvard / MIT. Dia mempertahankan disertasi doktoralnya di bidang optoelektronik di Universitas Genoa di Institut Teknologi Italia, saat bekerja sebagai asisten peneliti di Molecular Foundry di National Laboratory. Lawrence di Berkeley. Minatnya meluas ke sains dan teknik, termasuk nano-optik dan interaksi materi cahaya, metasurfaces, optik Fourier, dan komputasi neuromorfik fotonik.
Penulis menyarankan bahwa sebagai hasil dari pendekatan ini, kinerja pemrosesan aliran data optik bisa 2-3 kali lipat lebih tinggi daripada GPU. Penulis juga percaya bahwa prosesor fotonik dapat bekerja dengan sangat baik pada periferal di jaringan 5G.
β , (OPEN) . , .
, , - . β , , PMAC/s . , (PECASE), AFOSR , . - , OSA , OSA , SPIE . - IEEE, OSA SPIE.
Dalam pendekatan yang diselidiki, inti tensor foton melakukan perkalian matriks secara paralel, sehingga meningkatkan kecepatan dan efisiensi pembelajaran mendalam. Jaringan neural mempelajari cara mempelajari cara menjalankan keputusan yang tidak terkontrol dan membuat klasifikasi data yang tidak terlihat. Setelah jaringan neural dilatih untuk bekerja dengan data, ia dapat menyimpulkan untuk mengenali dan mengklasifikasikan objek, pola, dan menemukan tanda tangan dalam data.
Prosesor Fotonik TPU menyimpan dan memproses data secara paralel menggunakan koneksi elektro-optik yang dapat membaca dan menulis memori optik secara efisien, sementara TPU Fotonik berinteraksi dengan arsitektur lain.
βKami menemukan bahwa platform fotonik dengan memori optik internal dapat melakukan operasi yang sama seperti prosesor tensor. Pada saat yang sama, mereka mengkonsumsi lebih sedikit energi dan jauh lebih produktif. Mereka bisa digunakan untuk melakukan kalkulasi dengan kecepatan cahaya, βkata Mario Miskullo, salah satu pengembang.
Sebagian besar jaringan saraf mengurai beberapa lapisan neuron yang saling berhubungan untuk meniru cara kerja otak manusia. Cara yang efisien untuk merepresentasikan jaringan ini adalah fungsi gabungan yang mengalikan matriks dan vektor bersama-sama. Tampilan ini memungkinkan operasi paralel dilakukan melalui arsitektur yang berspesialisasi dalam operasi vektor, seperti perkalian matriks.
Sumber: Artikel oleh Mario Miskullo dan Volker Sorger.
(a) Inti Sensor Fotonik (PTC) terdiri dari 16 serat, yang menurut sifatnya dan secara independen melakukan perkalian baris demi baris dan akumulasi titik demi titik.
(b) . WDM, (, -) . J- . , , (MRR), ( ), , , MAC.
Semakin sulit tugasnya dan semakin tinggi persyaratan untuk keakuratan prakiraan, semakin kompleks jaringannya. Jaringan semacam itu membutuhkan data dalam jumlah besar untuk dihitung dan lebih banyak daya untuk memproses data itu. Prosesor digital modern yang cocok untuk pembelajaran mendalam, seperti unit pemrosesan grafis (GPU) atau unit pemrosesan tensor (TPU), terbatas dalam melakukan operasi yang rumit dan presisi tinggi karena daya yang diperlukan untuk melakukannya. Dan juga karena lambatnya transfer data elektronik antara prosesor dan memori.
Pengembang dan penulis artikel telah menunjukkan bahwa kinerja TPU bisa 2-3 kali lipat lebih tinggi daripada TPU listrik. Foton ideal untuk komputasi jaringan dan operasi node-to-node yang melakukan tugas-tugas cerdas berkapasitas tinggi di tepi jaringan seperti 5G. Sinyal data dari kamera pengintai, sensor optik, dan sumber lain mungkin sudah berbentuk foton.
"Prosesor khusus fotonik dapat menghemat energi dalam jumlah besar dengan mengurangi waktu respons dan pemrosesan," Miskullo menambahkan. Bagi pengguna akhir, ini berarti dalam hal ini, data diproses lebih cepat karena sebagian besar telah diproses sebelumnya, yang berarti hanya sebagian data yang dapat dikirim ke cloud atau pusat data.
Pendekatan baru untuk transmisi data optik dan listrik
Artikel ini menyajikan contoh pemilihan rute optik untuk melakukan tugas pembelajaran mesin. Di sebagian besar jaringan saraf (NN), yang mengekspos beberapa lapisan neuron / node yang saling berhubungan, setiap neuron dan lapisan, serta koneksi jaringan itu sendiri, penting untuk tugas di mana jaringan dilatih. Pada lapisan terhubung yang dipertimbangkan, jaringan saraf sangat bergantung pada operasi matematika dari matriks vektor, di mana matriks besar dari data masukan dan bobot dikalikan sesuai dengan proses pembelajaran. Jaringan neural dalam multilayer yang kompleks memerlukan bandwidth yang signifikan dan latensi rendah untuk memenuhi operasi yang diperlukan untuk melakukan penggandaan matriks yang besar tanpa mengorbankan efisiensi dan kecepatan.
Bagaimana Anda mengalikan matriks ini secara efisien? Dalam prosesor tujuan umum, operasi matriks dilakukan secara berurutan, membutuhkan akses konstan ke memori cache, yang menciptakan hambatan dalam arsitektur von Neumann. Arsitektur khusus seperti GPU dan TPU membantu mengurangi hambatan ini dengan mengaktifkan beberapa model pembelajaran mesin yang andal.
GPU dan TPU sangat berguna dibandingkan CPU. Namun, jika digunakan untuk melatih jaringan neural dalam, melakukan inferensi untuk kumpulan data dua dimensi yang besar seperti gambar, data tersebut dapat menghabiskan banyak energi dan memerlukan waktu komputasi yang lebih lama (lebih dari puluhan milidetik). Perkalian matriks untuk tugas-tugas inferensi yang kurang kompleks masih mengalami masalah latensi, terutama karena pembatasan akses ke berbagai hierarki memori dan latensi untuk setiap instruksi di GPU.
Penulis artikel menyarankan bahwa mengingat konteks ini, perlu untuk mempelajari dan menemukan kembali paradigma operasional platform komputasi logis modern di mana aljabar matriks bergantung pada akses memori yang persisten. Dalam hal ini, sifat gelombang cahaya dan operasi inheren terkait seperti interferensi dan difraksi dapat memainkan peran penting dalam meningkatkan throughput komputasi sekaligus mengurangi konsumsi daya platform neuromorfik.
Pengembang mengantisipasi bahwa teknologi masa depan harus melakukan tugas komputasi dalam domain input yang berubah-ubah waktu menggunakan operasi fisik mereka sendiri. Dari sudut pandang ini, foton ideal untuk komputasi jaringan terdistribusi, melakukan tugas cerdas pada data besar di tepi jaringan (misalnya, 5G), di mana sinyal data sudah bisa ada dalam bentuk foton (misalnya, kamera pengintai video, sensor optik, dll.) .), sehingga melakukan pra-penyaringan dan secara cerdas menyesuaikan jumlah lalu lintas data yang diizinkan untuk diarahkan ke pusat data dan sistem cloud.
Di sinilah mereka memecah pendekatan baru menggunakan Kernel Tensor Fotonik (PTC) yang mampu melakukan perkalian dan akumulasi matriks 4x4 dengan kernel yang dilatih dalam satu langkah (yaitu tidak berulang); dengan kata lain, setelah pelatihan, bobot jaringan saraf disimpan dalam memori fotonik multilevel 4-bit, langsung diimplementasikan pada chip, tanpa memerlukan rangkaian elektro-optik tambahan atau memori akses acak dinamis (DRAM). Memori fotonik memiliki sirkuit nanofotonik dengan kehilangan fase yang rendah dan perubahan fase berdasarkan konduktor G2Sb2Se5 yang disimpan pada pandu gelombang terencana yang dapat diperbarui dengan sakelar elektrotermal, sehingga dapat membaca sepenuhnya secara optik.Sakelar elektrotermal dilakukan dengan menggunakan elektroda pemanas tungsten yang berinteraksi dengan sensor memori perubahan fase (PCM).
Meja. Perbandingan kinerja kernel tensor.
Sumber: Artikel oleh Mario Miskullo dan Volker Sorger.
Photonic Tensor Core (PTC) (kolom kiri) yang diumpankan secara elektronik memberikan peningkatan 2-8x dalam throughput dibandingkan dengan T4 dan A100 Nvidia, dan untuk data optik (seperti kamera), pembesarannya sekitar 60x (area sirkuit mikro terbatas pada satu kristal (~ 800 mm2).
Pengujian telah menunjukkan bahwa kinerja chip fotonik dua hingga tiga kali lebih tinggi daripada yang ada di pasaran saat ini. Kecepatan pemrosesan data di dalamnya bisa mencapai dua petaflops per detik, sementara mereka mengonsumsi sekitar 80 watt energi, 95% di antaranya akan dihabiskan untuk memelihara chip, dan hanya 5% untuk perhitungan.
Penulis artikel menekankan bahwa pekerjaan ini merupakan pendekatan pertama untuk implementasi prosesor tensor foton yang menyimpan data dan memprosesnya secara paralel. Prosesor semacam itu dapat menskalakan jumlah operasi multiply-akumulasi (MAC) dengan beberapa kali lipat, sementara pada saat yang sama secara signifikan mengurangi konsumsi daya dan latensi dibandingkan dengan akselerator perangkat keras yang ada, serta menyediakan analitik real-time.
Tidak seperti elektronika digital, yang mengandalkan gerbang logika, dalam fotonik terintegrasi, akumulasi berlipat dan banyak operasi aljabar linier lainnya dapat dilakukan secara non-iteratif, memanfaatkan paralelisme inheren yang disediakan oleh sifat elektromagnetik sinyal materi cahaya. Dalam hal ini, fotonik terintegrasi adalah platform yang ideal untuk menampilkan operasi kompleks tertentu dalam perangkat keras.