Merekam percakapan dengan tanda bintang dan pengakuannya di Yandex.Speech

Proyek kecil. Implementasinya sederhana. Catatan tentang dialplan asterisk, perintah konsol, dan API pengenalan Yandex. Anda akan membaca dan tidak menginjak penggaruk saya, saya akan membacanya dalam enam bulan atau satu tahun dan mengingat apa yang saya lakukan.





Tujuan: mendapatkan representasi tekstual dari percakapan yang direkam dengan tanda bintang.





Rekam percakapan terlebih dahulu

MixMonitor merekam percakapan. Biasanya MixMonitor merekam kedua lawan bicara dalam satu saluran. Kita perlu mendapatkan setiap saluran dalam file terpisah. Oleh karena itu, ada dua opsi r dan t, di mana kita dapat menentukan file untuk merekam saluran yang berbeda.





Parameter b juga digunakan - untuk mulai merekam pada saat percakapan dimulai.





Dari tanda bintang 16 ada opsi S - untuk menyinkronkan file t dan r, (diam ditambahkan ke awal file di salah satu yang mulai direkam nanti). Opsi S telah dihapus dari tanda bintang ke-18, karena ini menjadi perilaku default dan opsi-kontra ditambahkan. Tapi saya menggunakan b, jadi saya tidak membutuhkan tarian tambahan ini.





MixMonitor (record-o.wav, br (record-r.wav) t (record-t.wav), perintah)





Kemudian, juga di perintah MixMonitor, kami akan menentukan perintah yang akan dijalankan setelah merekam. Sebagai bagian dari perintah ini, kita akan menormalkan setiap record - level itu dan kemudian menodai dua record menjadi satu file dua saluran.





sox --norm record-t.wav record-t-norm.wav // menormalkan rekaman satu sisi percakapan









sox --norm record-r.wav record-r-norm.wav // menormalkan rekaman sisi kedua percakapan









sox record-r-norm.wav record-t-norm.wav --channels 2 --combine merge record.wav //





- , - . , , .





record-o.wav - MixMonitor', , .





wav . mp3 .













https://howto.a17.su/asterisk/call-recording.html





https://voxlink.ru/kb/asterisk-configuration/integraciya-asterisk-so-speech-analytics/





.





API : , . - 30 , API .





- wav ogg . wav , API wav-, ogg. , ogg





/usr/bin/ffmpeg -i record.wav -acodec libopus record.ogg // ogg





-, ( ) , .





S3-, S3- . buckets.





.Storage





, , id. id ( , , , ).





.





.





, 2020, - . - 2 .





.. . , , . . , . , . . .





: - . - . . .





, .. ( ).





( SpeechKit)





Kunci akses. Hal utama di sini adalah jangan bingung, karena Anda akan memiliki kunci dari layanan pengenalan (kunci API) dan dari penyimpanan S3 (kunci statis). Kedua jenis kunci tersebut ada di akun layanan.









Semoga posting ini akan menghemat beberapa menit dan Anda akan segera mengimplementasikan proyek Anda sesuai kebutuhan.








All Articles