Bagaimana Sistem AI Bertujuan untuk Menyederhanakan Rekayasa Suara

Akhir pekan ini, kami memutuskan untuk membicarakan perkembangan dua universitas Amerika, yang membantu menghasilkan skala suara yang cukup dipercaya untuk video bisu.





Foto Gratis Untuk Menggunakan Suara / Unsplash



Tugas sulit pembuat kebisingan



Suara untuk film dan acara TV - misalnya, gemerisik hujan - sangat sulit direkam dengan cara yang benar tepat di lokasi syuting pada saat pengambilan gambar fragmen tertentu. Akan ada banyak kebisingan asing, konflik dengan suara aktor dan peralatan lain mungkin terjadi. Untuk alasan ini, hampir semua suara direkam secara terpisah dan dicampur selama pengeditan. Pembuat kebisingan melakukan ini .



Jika sebuah film perlu mereproduksi suara jendela yang pecah, maka desainer suara pergi ke studio dan mulai memecahkan kaca dalam kondisi akustik yang terkendali. Rekaman dilakukan hingga suaranya sesuai dengan apa yang terjadi di layar. Dalam kasus yang sangat sulit, ini mungkin memerlukan lusinan pengulangan, yang memperumit dan meningkatkan biaya pembuatan film.



Insinyur Universitas Texas menyarankanOpsi alternatif. Mereka mengembangkan sistem AI yang mendeteksi apa yang terjadi dalam bingkai dan secara otomatis menyarankan skala.



Bagaimana itu bekerja



Insinyur menjelaskan bagaimana sistem bekerja dalam pekerjaan mereka untuk IEEE ( PDF ). Mereka merancang dua model pembelajaran mesin. Yang pertama mengekstrak fitur gambar dari footage - misalnya, warna. Model kedua menganalisis pergerakan suatu objek dalam bingkai yang berbeda dan menentukan sifatnya untuk memilih suara yang sesuai.



Para insinyur mengembangkan program AutoFoley untuk membentuk susunan akustik . Ini menghasilkan suara baru berdasarkan ribuan sampel audio pendek - dengan suara hujan, detak jam, kuda yang berlari kencang. Hasil pekerjaannya cukup meyakinkan:





Sayangnya, sejauh ini sistem tersebut memiliki sejumlah keterbatasan yang serius. Ini cocok untuk memproses rekaman yang suaranya tidak harus cocok dengan video dengan sempurna. Jika tidak, desinkronisasi akan terlihat - seperti dalam video ini . Selain itu, objek harus selalu ada dalam bingkai sehingga model MO dapat mengenalinya. Sekarang para pengembang terlibat dalam pendaftaran paten, tetapi kemudian mereka berencana untuk memperbaiki kekurangannya.



Siapa lagi yang terlibat dalam proyek semacam itu



Pada tahun 2016, para ahli dari MIT dan Stanford memperkenalkan model pembelajaran mesin yang mampu menyuarakan video senyap. Ini memprediksi suara berdasarkan properti suatu objek dalam bingkai - misalnya, materialnya. Sebagai percobaan, insinyur mengunggah video ke sistem di mana seseorang memukul tongkat drum di berbagai permukaan: logam, tanah, rumput, dan lainnya.





Pengembang menilai keefektifan algoritme menggunakan survei online. Yang paling realistis adalah suara dedaunan dan tanah (disebut nyata oleh 62% responden), dan yang paling tidak - kayu dan logam. Metal terdengar natural hanya 18%.



Sistem ini juga perlu ditingkatkan. Ini menghasilkan suara yang terjadi saat objek bertabrakan, tetapi tidak dapat membuat ulang susunan akustik untuk kebisingan angin. Selain itu, algoritme gagal jika objek bergerak terlalu cepat. Terlepas dari kenyataan ini, solusi semacam itu memiliki potensi - solusi tersebut dapat menyederhanakan pekerjaan pembuat kebisingan dan mengubah industri film.






« Hi-Fi»:



:

?

«, , »: ,

, :

«»:







All Articles