Bulan terakhir tahun ini tidak bisa disebut sebagai momen yang baik untuk pengumuman berskala besar, karena sebagian besar beralih ke mode "ayo kita pergi setelah liburan", tetapi menilai dari koleksi yang kaya di bidang pembelajaran mesin ini, pekerjaan berjalan lancar di bulan Desember. Oleh karena itu, dengan sedikit penundaan, harap penuhi intisari edisi kedua belas, di mana kami akan memberi tahu Anda tentang hal terpenting yang terjadi di ML pada akhir tahun 2020.
MuZero
DeepMind secara tidak terduga menerbitkan artikel tentang MuZero , algoritme yang dapat memainkan game papan logika populer seperti catur, Shogi dan Go, dan video game Atari seperti Pac-Man.
MuZero mencoba untuk tidak memodelkan seluruh lingkungan, tetapi hanya aspek tertentu yang penting untuk proses pengambilan keputusan strategis agen. Algoritme terus mengumpulkan informasi tentang keadaan game saat ini dan sebelumnya - mempelajari larangan dan penghargaan. Jadi, misalnya, sang model memahami bahwa dalam catur tujuan permainannya adalah untuk sekakmat, dan di pakman itu adalah memakan titik kuning.
Ada keuntungan penting lainnya: MuZero menggunakan kembali model yang dipelajari untuk meningkatkan perencanaan, daripada mengumpulkan data baru tentang lingkungan. Misalnya, dalam game Atari dengan lingkungan perubahan yang kompleks, algoritme menggunakan 90% model yang dipelajari untuk menjadwalkan ulang apa yang seharusnya dilakukan dalam sesi game sebelumnya.
Mengapa ini penting. Pada dasarnya, MuZero adalah model tujuan umum yang dapat digunakan untuk memecahkan masalah dunia nyata yang kompleks yang sulit direduksi menjadi aturan sederhana. DeepMind menawarkan analogi seperti itu - pendekatan baru ini serupa dengan bagaimana seseorang dalam cuaca mendung memutuskan untuk membawa payung agar tetap kering, sementara pendekatan sebelumnya akan mencoba mensimulasikan urutan tetesan hujan akan turun.
Sifat tak terbatas
Setiap orang setidaknya pernah melihat rekaman drone yang spektakuler terbang di sepanjang garis pantai yang indah. Algoritme yang dilatih pada video serupa dari youtube mensintesis video dari satu gambar statis.
Tugasnya sangat sulit, karena gambar baru harus dibuat, yang bisa sangat berbeda dari data masukan - foto sering kali berisi pepohonan dan bebatuan yang mengaburkan fragmen lanskap yang terletak di belakangnya.
Kebaruan dari pendekatan ini adalah bahwa ia mampu mensintesis gambar dengan mempertimbangkan geometri pemandangan, yang mencakup jarak yang jauh lebih dari ratusan bingkai. Dataset sudah tersedia , tetapi kode sumber harus menunggu.
Rephotography Perjalanan Waktu
Jaringan saraf untuk pemulihan dan pewarnaan foto lama, mengingatkan pada DeOldify. Tidak seperti filter pemulihan gambar konvensional, yang menerapkan operasi independen seperti pengurangan noise, pewarnaan, dan peningkatan skala, StyleGAN2 digunakan di sini untuk mensintesis wajah yang mirip dengan aslinya. Hasilnya, foto potret segera diperoleh dalam warna dan resolusi yang baik. Kode tersebut juga dijanjikan akan diluncurkan nanti.
pi-GAN
Model GAN ββlain yang menghasilkan representasi 3D dari suatu objek dari beberapa gambar 2D yang tidak terisi. Demo menunjukkan bagaimana model dapat digunakan untuk memutar kepala, mirip dengan yang ditunjukkan Nvidia sebelumnya di Maxine.
Bidang Aliran Pemandangan Neural
Metode NeRf baru yang membangun representasi pemandangan dinamis dari video yang diambil dengan kamera konvensional. Ini memungkinkan, misalnya, untuk membekukan bingkai dan menggerakkan kamera, atau sebaliknya untuk memperbaiki kamera, tetapi seolah-olah memundurkan waktu. Algoritme menggambar lingkungan dengan struktur yang kompleks, misalnya, dengan benda tipis seperti kisi, dan benda bergerak seperti gelembung sabun.
YolactEdge
Metode segmentasi gambar instan pertama yang bekerja secara real time pada perangkat yang lemah. Kode sumber sudah tersedia .
ModNet
Teknologi yang memungkinkan Anda tidak hanya menghapus latar belakang secara kualitatif dari potret, tetapi juga mengganti latar belakang dengan video. Nyatanya, ini bisa menjadi pengganti yang bagus untuk kunci kroma. Berbeda dengan remove.bg berbayar, ada juga kode sumber , kolaborasi, dan bahkan aplikasi web dengan antarmuka sederhana, di mana Anda hanya dapat menguji bekerja dengan foto.
Svoice
Facebook akhirnya menerbitkan kode sumber untuk algoritme yang mendeteksi suara beberapa orang yang berbicara di rekaman audio.
Hypersim
Apple telah menerbitkan kumpulan data dengan topeng segmentasi untuk adegan palsu. Hampir dua terabyte ruangan beresolusi sangat tinggi menghasilkan. Penandaan data di sini berada pada tingkat piksel individu.
ArtLine
Model terbuka yang mengubah potret fotografis menjadi sketsa pensil. Sejauh ini, itu tidak mengatasi tekstur pakaian dan bayangan dengan baik, tetapi secara umum memberikan hasil yang layak. Ini didasarkan pada arsitektur DeOldify, yang memungkinkan pengenalan wajah yang baik.
Itu saja, Desember ternyata sangat intens. Awal tahun juga menjanjikan banyak hal menarik. Kami tidak sabar untuk melihat apa yang akan datang pada bulan Januari berdasarkan OpenAI's Dall-E. Seperti yang mereka katakan, nantikan terus!