"Sasha berjalan di sepanjang jalan raya", "Katakan: rrrrryba", "Cuckoo cuckoo ..." - tahukah Anda, ya, ungkapan-ungkapan ini yang membuat kita trauma di masa kanak-kanak? Itu adalah semacam eksperimen tanpa akhir dari orang tua dengan hasil yang diinginkan dan yang paling penting, ketakutan bahwa anak mereka tumbuh dengan gangguan bicara.
Hei! Nama saya Dima Pukhov, saya direktur teknis di Cleverbots. Saya ingin memberi tahu Anda bagaimana kami mengajarkan chatbot untuk mengenali cacat bicara dan mencapai akurasi 80% dalam diagnosis terapis bicara AI.
Masalah
Setiap siswa kedua memiliki masalah dengan pengucapan, kata terapis wicara. Mereka dapat dihilangkan pada tahap awal, tetapi seringkali kesulitan dikaitkan dengan masa kanak-kanak, dan ketika cacat bicara menjadi jelas, sulit untuk memperbaikinya. Oleh karena itu, spektogram, sebagai layanan untuk diagnosis primer jarak jauh, akan dapat mencegah perkembangan dan peningkatan masalah dan sinyal jika diperlukan intervensi spesialis.
Tahun lalu, perusahaan farmasi Geropharm, untuk melawan ketakutan dan stereotip tentang perkembangan kognitif, meluncurkan portal PRO.MOZG, di mana Anda dapat membaca banyak materi yang berguna dan dapat diakses tentang bagaimana otak bekerja, bagaimana penyakit βbekerjaβ dan perubahan tubuh. Selain itu, situs tersebut memiliki spektogram - layanan yang membantu orang tua menguji anak mereka dalam format permainan dan menentukan apakah ia memiliki cacat bicara.
Secara singkat tentang layanan
Untuk pengguna, antarmuka Spectrogram diimplementasikan dalam bentuk bot obrolan dan dibangun sebagai widget di situs web. Pengujian dilakukan dengan cara yang menyenangkan: di bawah bimbingan orang tua, anak harus mengucapkan frasa yang diusulkan, yang kemudian perlu dikirim ke bot dalam format pesan audio, dan model ML akan secara otomatis menentukan apakah frasa tersebut diucapkan dengan cacat.
Penting untuk mundur sedikit dan mengingat bagaimana awalnya.
Pada tahap pertama memperkenalkan layanan serupa, semua kuesioner dikirim ke ahli terapi wicara, masing-masing harus didengarkan dan dievaluasi jika keterampilan bicara anak sesuai dengan usianya, pendapat ahli diberikan dan tanda yang sesuai dalam sistem harus set. Dan ini lebih dari 10 entri per kuesioner.
, , , , .
β . . .
β . , , . .
β
:
, - (MFCC). feature engineering;
;
Deep Learning, , speech2text. , , , ;
. , Yandex, Google, AWS , speech2text , , .
, , β .
, :
;
( );
;
.
, β , .
. , , / .
(, ) 3Sigma - . , , / .
.
spectral & rhythm features librosa , . PCA , 0.99 ROC_AUC.
, speech2text. : Yandex, Google, Amazon. , , : , speech2text , .
... , , , . , , , . ( ). , β timestamp .
β spectral & rhythm features librosa, tsfresh PCA ( ). : ROC_AUC 0.85, β , .
( 52 ; <100 ). β , .
β . onset_detection, , . balanced_accuracy_score, 0.80, .
, , . β DTW Audio Fingerprinting. , , , , .
production
Python;
Kafka β ;
Django .
, , . , , .
. , , : , . , , , , .
( , , ~10 ) , «» , β . , , . , . , .
, , , , -, β 80% . -, : .
Di masa depan, transisi lengkap direncanakan dari model human-in-the-loop, ketika partisipasi seseorang dalam diagnostik diperlukan, ke otomatisasi proses yang lengkap berkat model yang dilatih ulang.