Ini semua tentang "wortel" virtual: Uber telah menciptakan algoritme yang dapat mengalahkan seseorang di game Atari



Di lab AI, Uber AI Labs telah membuat keluarga baru algoritme Go-Explore. Algoritma ini didasarkan pada pembelajaran penguatan. Go-Explore mengungguli sebagian besar desain yang ada saat diuji pada game Atari klasik tahun 1980-an.



AI Uber dimainkan melalui 11 game terberat secara total, termasuk Montezuma's Revenge dan Pitfall . Dalam hal jumlah poin yang dicetak, dia berjalan mengelilingi orang-orang. Algoritme tidak dikembangkan untuk kepentingan permainan: dalam waktu dekat, algoritme tersebut dapat digunakan untuk mengajar di bidang robotika, memproses bahasa alami, membuat obat baru, dll. Apa dasar dari algoritme?



Pembelajaran penguatan



Mari kita mulai dengan mengingat apa itu pembelajaran penguatan dan mengapa hal itu berpotensi tinggi.



Ini adalah bentuk pelatihan jaringan saraf yang terkenal. Keunggulan teknologi ini ada pada elemen yang disebut agen . Ia tidak bekerja sendiri-sendiri, tetapi belajar berinteraksi dengan lingkungan. Lingkungan bereaksi terhadap tindakan agen, menciptakan efek yang menguntungkan.



AI mencoba mendapatkan wortel virtual, jadi AI bekerja berdasarkan kemungkinan menerima hadiah. Jika ini tidak membawa, maka operasi lain kali dianggap kurang diinginkan.



Dalam konteks kegunaan yang diberikan, pelatihan penghargaan akan memaksimalkan hasil.



Algoritme apa yang dibuat Uber?



Fitur pembeda utama dari algoritma Uber adalah mengingat keadaan perspektif sebelumnya. Selain itu, algoritme tidak hanya dapat mereproduksinya, tetapi juga melakukan pengintaian . Seolah menanyakan pertanyaan berulang-ulang: "Bagaimana jika?" Dan mencari jawaban baru yang lebih baik. Berkat rantai seperti itu, efisiensi algoritme pembelajaran dapat ditingkatkan.



Keluarga algoritme dari AI Uber Labs memiliki kemampuan penting untuk mengingat status prospektif sebelumnya. Dalam iterasi kecil, algoritme membangun arsip status. Dan mereka, pada gilirannya, dikelompokkan ke dalam sel.



Alur kerja Go-Explore, eksplorasi, dan fase pengukuhan dari



Go-Explore memecahkan dua masalah penting dalam pembelajaran reward.



Masalah pertama. Algoritme kehilangan minat pada status yang dilalui sebelumnya. Selain itu, beberapa kondisi ini mungkin menjanjikan, tetapi algoritme mulai mengabaikannya.



Masalah kedua. Proses penelitian mencegah rollback ke status awal algoritme. Alih-alih mundur, AI melangkah terlalu jauh dari titik awal dan secara acak menskalakan tindakan acak.



Menguji algoritme pada game



Uber beralih ke game Altari klasik untuk memastikan pengembangannya efektif. Mereka mengambil game yang paling sulit, yang paling sulit untuk ditangani komputer. Kesulitan muncul karena hadiah yang terlalu langka. Dalam kasus seperti itu, ratusan operasi melewati tindakan algoritme dan hasil yang berhasil. Menjadi sulit untuk menentukan dengan tepat tindakan apa yang membantu menerima hadiah virtual.





Jadi, bagaimana algoritma Uber menangani hal ini? Ini mengirimkan status serupa ke satu sel. Siklus dimulai dengan memilih status dari sel, di mana mereka diurutkan berdasarkan beratnya. Dalam hal ini, preferensi diberikan kepada negara bagian yang baru ditemukan, dari mana area baru dieksplorasi. Kemudian arsip diperbarui. Karenanya, Go-Explore memproses jumlah opsi maksimum yang tersedia dan, yang terpenting, tidak melewatkan status yang paling menarik.



Selanjutnya, algoritme memiliki opsi untuk membuat pengukuhanmenemukan solusi dan mengecualikan eksternal atau gangguan. Opsi ini mengurangi tingkat kebisingan di lintasan yang ditemukan. Mengapa ini dibutuhkan? Di Atari, lingkungan dan tindakan didefinisikan dengan baik: gerakan spesifik mengarah pada hasil yang diharapkan. Untuk mengurangi determinisme, penundaan buatan dimasukkan ke dalam permainan. Sehingga algoritme tidak hanya melakukan tindakan yang telah diverifikasi sebelumnya, tetapi juga belajar dalam kondisi yang mendekati kondisi nyata.



Hasilnya, Go-Explore menunjukkan hasil yang baik dalam dua situasi:



  1. Jika tidak diketahui, saat algoritme kekurangan informasi utama.
  2. Jika ada informasi: algoritma mengetahui input (koordinat, tombol, dll.).


Dalam kasus kedua, seperti yang diharapkan, hasilnya lebih tinggi. Jadi, Go-Explore dalam Montezuma's Revenge mengalahkan hasil pemain manusia sebesar 42,5%, memperoleh 1,73 juta poin.



Go-Explore untuk robot





Selain game Atari, keluarga algoritme diuji pada lengan robotik. Go-Explore berhasil melakukan gerakan lengan robot di simulator, di mana ia diminta untuk mengatur ulang item di rak. Selain itu, lengan robot tidak hanya dapat mengatur ulang, tetapi juga mendapatkannya dari balik pintu dengan kunci.






All Articles