
Beberapa tahun lalu, pengembang dari Boston Dynamics merekam beberapa video yang menunjukkan bagaimana orang mendorong robot dengan tongkat hoki dan objek lainnya. Video tersebut dengan cepat menjadi viral, dan banyak pengguna yang menontonnya meramalkan pemberontakan robot yang akan segera terjadi melawan penyiksa mereka.
Tapi, tentu saja, semua ini bukan untuk apa-apa - robot diajari untuk merespons faktor eksternal yang tidak terduga. Dan ini sangat sulit, karena ada sejumlah besar skenario berbeda yang dapat diramalkan. Para peneliti dari universitas Zhejiang (China) dan Edinburgh (Inggris) kini telah mengikuti jejak Boston Dynamics. Tim peneliti berkembangprogram kompleks untuk mengajarkan robot jatuh, tersentak, melayang, dll. Sejauh yang Anda tahu, program ini sangat efektif.

Tugas utamanya adalah mengajari robot untuk segera pulih setelah benar-benar dijatuhkan. Untuk apa? Dalam kehidupan nyata, jika robot perlu melakukan beberapa tugas di luar laboratorium, tetapi di dunia biasa, robot harus jatuh berulang kali. Di suatu tempat mobil akan tergelincir, mungkin seseorang akan mendorongnya - misalnya, di jalan, pada jam-jam sibuk, saat robot kurir akan mengantarkan parsel. Belum lagi skenario saat robot tersebut berprofesi sebagai penyelamat / pengintai area tersebut.
Terlepas dari profesi apa yang didapat robot, robot membutuhkan keterampilan khusus. Untuk kurir - satu set keterampilan, untuk penyelamat - yang kedua, untuk asisten ahli geologi - yang ketiga. Bagaimanapun, akan ada beberapa keterampilan unik, ditambah yang universal - kemampuan untuk bangkit dengan cepat setelah jatuh, sebagai contoh.
Sekelompok ahli dari China dan Inggris sedang dalam proses membuat platform perangkat lunak untuk melatih robot - dalam kasus kami, ini adalah robot anjing. Para ahli telah mengembangkan sistem belajar mandiri dengan delapan algoritme dasar yang memungkinkan anjing mekanik belajar berinteraksi dengan dunia nyata. Untuk pelatihan, jaringan saraf khusus yang didasarkan pada pembelajaran penguatan digunakan. Pertama, jaringan saraf melatih robot virtual, yaitu model mereka, mengembangkan skenario yang berbeda untuk menanggapi faktor eksternal. Setelah tahap ini berakhir, hasil belajar berupa sekumpulan algoritma "dituangkan" ke dalam robot nyata. Dan kami mendapatkan sistem yang sudah terlatih. Semua ini dapat dibandingkan dengan program yang diterima Neo di The Matrix. Satu - dan dia tahu kung fu, dua - dia tahu cara menerbangkan helikopter,keahlian senjata tiga keuntungan.
Ini hampir sama dengan robot. Program yang sudah selesai diisi - dan mobil yang sampai sekarang tidak bisa digerakkan sudah tahu bagaimana bangun setelah jatuh, membungkuk di sekitar rintangan, berjalan di atas es, dll.
Sistem pelatihan seperti ini jauh lebih efektif daripada metode trial and error dengan robot sungguhan. Untuk mempelajari cara bertindak dengan benar dalam situasi sulit, jaringan saraf melakukan ribuan atau bahkan jutaan simulasi. Robot sungguhan, jika melalui semua tes ini, akan pecah setelah jatuh kesepuluh atau keseratus. Dan dalam simulasi, Anda dapat melakukan apa saja, bahkan menjatuhkan sistem dari gedung pencakar langit, jika Anda membutuhkannya untuk pelatihan.
Ciri lain dari pelatihan ini adalah pada awalnya keterampilan dasar robot dilatih secara terpisah. Seperti disebutkan di atas, ada delapan keterampilan algoritme semacam itu. Jika sebelumnya kita membandingkan skema pelatihan dengan "Matrix", maka di sini skrip tim sepak bola datang untuk menyelamatkan. Setiap keterampilan dapat dibandingkan dengan anggota individu tim - kiper atau gelandang. Masing-masing dilatih dengan keahlian khusus, dan bersama-sama, setelah mencapai hasil tertentu, mereka semua menjadi tim yang efektif. Ini kira-kira bagaimana semuanya bekerja dengan robot - diajarkan untuk berdiri secara terpisah, secara terpisah - untuk membungkuk di sekitar rintangan, dll. Dan kemudian semua keterampilan ini bersatu. Hal utama adalah mengubah semua keterampilan yang diperoleh menjadi satu sistem fleksibel, di mana tidak ada yang bertentangan dan tidak mengganggu satu sama lain.

Gambar di atas menunjukkan bagaimana robot diajari berjalan di atas medan yang kasar dengan banyak batu. Ia mengikuti targetnya, bola hijau virtual, dan kadang-kadang jatuh. Setelah setiap musim gugur, ia mendapatkan pengalaman tertentu, yang memungkinkannya menghindari situasi serupa di lain waktu. Setelah ribuan jatuh secara virtual, robot belajar berjalan di atas medan yang kasar tanpa kesalahan - dan tidak jatuh. Dan jika demikian, itu dengan cepat bangkit.
Semua ini kemudian dibuat lebih rumit dengan menambahkan faktor eksternal - robot didorong ke berbagai arah, batu dilempar, dll. Hasilnya, mesin beradaptasi dan mulai beroperasi dengan sangat cepat setelah terpapar faktor eksternal yang tidak terduga. Para pengembang mengatakan bahwa anak-anak belajar dengan cara yang sama - bagaimanapun, seorang anak tidak dapat menaiki tangga, menghindari rintangan, menghindari bahaya dalam bentuk genangan air, dll. Semua ini harus dipelajari dengan coba-coba.

Pengembang tidak dapat meramalkan semua yang ada di dunia, jelas bahwa robot harus bereaksi terhadap masalah yang tidak terduga. Tetapi keterampilan dasar yang diperoleh melalui pelatihan semacam itu akan membantu Anda mengatasi tugas yang paling sulit. Nah, satu robot akan dapat mentransfer pengalaman yang diperoleh ke yang kedua, itu - ke yang ketiga, dll. Semuanya, seperti yang dijelaskan Sheckley di The Guardian Bird, hanya
