Artikel Pilihan tentang Machine Learning: Studi Kasus, Panduan, dan Riset September 2020





Kami akan memulai seleksi bulan September kami dengan studi kasus. Kali ini dia hanya satu, tapi apa!



Kami tidak pernah berhenti mengagumi kemungkinan GPT-3 dan berbicara tentang area penerapannya, tetapi banyak juga yang melihat algoritme sebagai ancaman bagi profesi mereka.

Dan VMO, yang terlibat dalam pengujian A / B, memutuskan untuk mengadakan kompetisi - copywriter profesional melawan GPT-3 .



Mereka telah mengintegrasikan algoritme ke dalam editor visual mereka sehingga pengguna dapat memilih antara teks yang dibuat dan dibuat. Sejauh ini, layanan tersebut hanya memungkinkan Anda membuat judul, deskripsi produk dan layanan, serta tombol ajakan bertindak.



Mengapa ini sangat menarik?Faktanya adalah bahwa dalam manajemen produk dan pemasaran, banyak sumber daya dihabiskan untuk menguji hipotesis. Judul mana yang paling baik untuk meningkatkan keterlibatan, atau warna dan bentuk tombol apa yang harus digunakan klien untuk mengambil tindakan yang ditargetkan. Jawaban atas pertanyaan-pertanyaan ini memungkinkan produk menjadi sukses.



Hasil dari konfrontasi khusus ini belum akan menyelesaikan apa pun, tetapi bayangkan jika algoritme tidak hanya dapat menghasilkan teks, tetapi juga melacak perilaku pengguna dan memodifikasi antarmuka. Sekarang ingat bahwa GPT-3 dapat mengeset dan membuat komponen react. Itulah mengapa sangat menarik untuk mengikuti eksperimen ini. Pada saat tulisan ini dibuat, GPT-3 sedang memimpin dengan selisih kecil, mari kita lihat bagaimana semuanya berakhir.



Dan sekarang ke sisa temuan bulan lalu:



Wav2Lip



Model tersebut menghasilkan gerakan bibir untuk ucapan, sehingga menyinkronkan aliran audio dan video. Ini dapat digunakan untuk siaran online, konferensi pers, dan sulih suara film. Di demo, Anda dapat melihat bagaimana bibir Tony Stark menyesuaikan dengan sulih suara dalam berbagai bahasa. Selain itu, jika koneksi memburuk selama panggilan skype, model dapat menghasilkan bingkai yang hilang karena kegagalan sinyal, dan menggambarnya berdasarkan aliran audio. Pembuatnya juga menyarankan untuk menganimasikan bibir karakter meme untuk lebih personalisasi konten. Layaknya speaker digital, model ini mampu menyesuaikan gerakan bibir dengan ucapan yang dihasilkan dari teks.



Patut dicatat bahwa pada bulan Mei para penulis menerbitkan model Lip2Wav, yang sebaliknya "membaca bibir" dan menghasilkan teks dan suara. Jaringan saraf konvolusional mengekstrak karakteristik visual, setelah itu decoder ucapan menghasilkan spektogram kapur berdasarkan karakteristik tersebut, dan suara disintesis menggunakan vocoder.







Penyelesaian Video Berpanduan Tepi Aliran



Algoritme augmentasi video baru yang menghilangkan tanda air dan seluruh objek bergerak, dan juga memperluas bidang pandang video, dengan mempertimbangkan pergerakan bingkai. Seperti algoritme serupa lainnya, algoritme ini pertama-tama mendeteksi dan mengembalikan tepi objek bergerak. Dalam kasus ini, garis batas yang digambar tidak terlihat alami dalam pemandangan. Keunikan metode ini adalah ia melacak lima jenis piksel yang tidak bersebelahan secara lokal, yang terletak di bingkai yang berbeda, kemudian menentukan yang mana yang dapat dipercaya, dan menggunakan data ini untuk memulihkan area yang hilang. Hasilnya adalah video yang lebih halus. Anda sudah dapat memeriksa kode sumbernya , kolaborasi akan segera ditambahkan.







X-Fields



Jaringan saraf dilatih pada serangkaian gambar dari satu adegan dengan koordinat yang ditandai dari sudut pandang, stempel waktu, dan parameter pencahayaan. Jadi dia belajar menginterpolasi parameter ini dan menampilkan gambar perantara. Artinya, setelah menerima beberapa gambar dengan es batu yang mencair secara bertahap atau kaca kosong di pintu masuk, model secara real time dapat menghasilkan gambar dengan mempertimbangkan semua kemungkinan kombinasi parameter. Agar lebih mudah memahami tentang apa ini, kami menyarankan Anda untuk menonton demo video saja . Kode sumbernya dijanjikan akan segera dipublikasikan.







Generative Image Inpainting



Alat lain untuk menghapus objek dari foto berdasarkan jaringan saraf generatif. Kali ini adalah kerangka kerja sumber terbuka penuh danAPI publik . Ini bekerja dengan sangat sederhana - memuat gambar dan menggambar topeng dari objek yang ingin Anda hapus, dan - selesai, tidak ada pemrosesan pasca tambahan. Proyek ini diterapkan di server web , sehingga Anda dapat dengan mudah mengujinya langsung di browser. Ada, tentu saja, artefak, tetapi berfungsi dengan baik dengan gambar sederhana.







Manipulasi Bayangan



Potret Foto potret sering kali mengalami pencahayaan yang tidak tepat. Posisi dan kelembutan bayangan serta sebaran cahaya merupakan kendala lingkungan yang mempengaruhi kualitas estetika citra. Editor foto tidak lagi diperlukan untuk menghapus bayangan yang tidak diinginkan - peneliti Berkeley mengungkap algoritma open sourceyang secara realistis menghilangkan bayangan dari foto dan memungkinkan Anda mengontrol pencahayaan.



PSFR-GAN



Tugas umum yang sama ketika bekerja dengan foto adalah pemulihan dan peningkatan kualitasnya. Alat open source ini melakukan pekerjaan yang cukup baik untuk meningkatkan bidikan potret.







FrankMocap



Beberapa alat pemodelan 3D yang menarik keluar bulan ini. Setiap orang yang pernah bekerja dengan 3D tahu bahwa untuk membuat model berkualitas tinggi, Anda memerlukan berbagai peralatan fotografi yang mahal dan kemampuan untuk menggunakan perangkat lunak yang kompleks. Namun algoritme pembelajaran mesin secara aktif digunakan untuk memudahkan seniman di bidang ini.



AI Facebook memperkenalkan sistem untuk membuat mockup 3D dari tangan dan tubuh berdasarkan analisis video bermata. Tangkapan gerak bekerja hampir secara real-time (9,5 bingkai per detik) dan membuat gambar 3D tubuh dan tangan dalam bentuk model parametrik terpadu. Tidak seperti pendekatan lain yang sudah ada, yang satu ini memungkinkan Anda untuk secara bersamaan menangkap gerakan tangan dan seluruh tubuh. Kode sumber sudah tersedia.



3DDFA



Alat lain, yang juga muncul bulan ini, mampu menandai wajah seseorang dari video untuk membuat topeng 3D.







PSOHA



Teknologi lain dari AI Facebook, yang juga dirancang untuk menyederhanakan proses pemodelan 3D - jaringan saraf mengekstraksi banyak koneksi antara orang dalam gambar dan objek lain dan menghasilkan maket tiga dimensi. Jadi, hanya berdasarkan satu foto, yang menggambarkan seseorang dengan beberapa objek sehari-hari, model 3D dibuat. Algoritme menentukan bentuk orang dan objek, serta lokasi spasial mereka dalam kondisi alam, di lingkungan yang tidak terkontrol. Pembuatnya berjanji untuk segera merilis kode sumber, jadi untuk saat ini tetap percaya contoh dari demo, yang, jangan licik, sangat mengesankan.







Monster mash



Kerangka kerja baru ini memungkinkan Anda membuat dan menganimasikan objek 3D hanya menggunakan satu sketsa. Ini sangat menyederhanakan proses animasi objek, karena Anda tidak perlu bekerja dengan bingkai utama, jaring multi-sudut, dan animasi kerangka. Model tersebut membuat model tiga dimensi, yang langsung siap untuk membuat animasi tanpa pengaturan awal yang panjang untuk berbagai parameter, yang, misalnya, tidak mengizinkan objek untuk melewati satu sama lain.







ShapeAssembly



Algoritme tersebut membuat model furnitur tiga dimensi dari tiang paralel persegi panjang. Pendekatan ShapeAssembly memanfaatkan kekuatan model prosedural dan generatif yang dalam: model pertama menangkap subset dari variabilitas bentuk yang dapat diinterpretasikan dan diedit, dan yang terakhir menangkap variabilitas dan korelasi antara bentuk yang sulit untuk diekspresikan secara prosedural. Jaringan sudah bercanda bahwa langkah selanjutnya adalah melatih embedder berdasarkan instruksi IKEA.



Ini mengakhiri topik dengan pemodelan 3D - untuk area ini bulannya ternyata sangat intens. Terima kasih atas perhatian Anda!



All Articles