Mengenali melodi dengan mempelajari bahasa tubuh sang musisi

Terjemahan artikel disiapkan pada malam dimulainya perekrutan baru untuk kursus "Computer vision" .










Alat pengenalan gerakan musik berbasis kecerdasan buatan yang dikembangkan di MIT-IBM Watson AI Lab menggunakan gerakan tubuh untuk membedakan suara dari masing-masing alat musik.







Gambar milik para peneliti.



Peneliti menggunakan data titik kunci kerangka untuk menghubungkan gerakan musisi dengan tempo bagian mereka, memungkinkan pendengar mengisolasi instrumen yang bersuara sama.



Gambar milik para peneliti.




Kami menikmati musik tidak hanya dengan telinga kami, tetapi juga dengan mata kami, menyaksikan dengan rasa syukur bagaimana jari-jari pianis terbang di atas tuts, dan busur pemain biola bergoyang di atas senar. Ketika telinga tidak dapat memisahkan dua alat musik, mata kita membantu kita dengan mencocokkan gerakan masing-masing musisi dengan ritme setiap bagian.



Alat Kecerdasan Buatan Baru Dikembangkan oleh MIT-IBM Watson AI Labmenggunakan mata virtual dan telinga komputer untuk memisahkan suara yang sangat mirip sehingga sulit bagi seseorang untuk membedakannya. Instrumen telah ditingkatkan dari iterasi sebelumnya dengan menyelaraskan gerakan masing-masing musisi menggunakan titik-titik kunci kerangka mereka dengan tempo bagian individu, yang memungkinkan pendengar mengisolasi suara seruling atau biola individu di antara beberapa instrumen yang sama.



Kemungkinan penggunaan untuk rentang pekerjaan mulai dari mencampur suara dan meningkatkan volume instrumen dalam rekaman, hingga mengurangi kebingungan yang menyebabkan orang-orang saling mengganggu selama konferensi video. Karya tersebut akan dipresentasikan pada konferensi Pengenalan Pola Visi Komputer bulan ini.



"Poin-poin kunci dalam tubuh memberikan informasi struktural yang kuat," kata penulis utama Chuang Gang , seorang peneliti di lab IBM. "Kami menggunakannya di sini untuk meningkatkan kemampuan AI untuk mendengarkan dan memisahkan suara."



Dalam proyek ini dan proyek serupa lainnya, para peneliti menggunakan trek audio-video yang disinkronkan untuk menciptakan kembali cara orang belajar. Sistem kecerdasan buatan yang belajar dengan berbagai modalitas sensorik dapat belajar lebih cepat, dengan lebih sedikit data, dan tanpa harus menambahkan pintasan yang mengganggu ke setiap tampilan dunia nyata secara manual. “Kami belajar dari semua indra kami,” kata Antonio Torralba, seorang profesor MIT dan salah satu penulis studi tersebut. "Pemrosesan multisensori adalah cikal bakal kecerdasan yang diwujudkan dan sistem kecerdasan buatan yang dapat melakukan tugas yang lebih kompleks."



Alat ini, yang menggunakan bahasa tubuh untuk memisahkan suara, dibangun di atas karya sebelumnya yang menggunakan isyarat gerak dalam urutan gambar. Inkarnasi paling awal, PixelPlayer, memungkinkan mengklik instrumen dalam video langsung untuk membuatnya lebih nyaring atau lebih pelan . Pembaruan PixelPlayer memungkinkan Anda membedakan dua biola dalam duet dengan mencocokkan gerakan tiap musisi dengan tempo bagiannya. Versi terbaru ini menambahkan data titik kunci (yang digunakan analis olahraga untuk melacak performa atlet, untuk mengekstrak data gerakan yang lebih terperinci) untuk membedakan suara yang hampir identik.



Karya ini menyoroti pentingnya isyarat visual dalam mengajar komputer sehingga mereka dapat mendengar dengan lebih baik, dan penggunaan isyarat audio untuk memberi mereka penglihatan yang lebih tajam. Sama seperti studi saat ini yang menggunakan informasi visual tentang gerakan musisi untuk memisahkan bagian dari alat musik yang terdengar serupa, karya sebelumnya menggunakan suara untuk memisahkan objek dan hewan serupa dari spesies yang sama.



Torralba dan rekannya telah menunjukkan bahwa model pembelajaran mendalam yang dilatih pada data audio-video berpasangan dapat belajar mengenali suara alam , seperti kicau burung atau ombak yang menghantam pantai. Mereka juga dapat menentukan koordinat geografis kendaraan yang bergerak dengan suara mesin dan rodanya yang bergerak menuju atau menjauhi mikrofon.



Penelitian terbaru menunjukkan bahwa alat pelacak audio bisa menjadi tambahan yang berguna untuk mobil tanpa pengemudi, membantu kamera mereka dalam kondisi jarak pandang yang buruk. "Pelacak suara bisa sangat berguna pada malam hari atau dalam cuaca buruk, membantu menandai kendaraan yang mungkin terlewat," kata Hang Zhao, Ph.D. '19, yang terlibat dalam penelitian tentang gerak dan pelacakan suara.



Penulis lain dari studi CVPR tentang gerakan musik adalah Deng Huang dan Joshua Tenenbaum dari MIT.



Itu saja. Untuk mempelajari lebih lanjut tentang kursus ini, kami mengundang Anda untuk mendaftar pada hari terbuka melalui tautan di bawah ini:



Baca lebih banyak:



Bagaimana saya mengajari komputer saya bermain Doble menggunakan OpenCV dan Deep Learning



All Articles