
Kami akhirnya menerbitkan rangkaian model pengenalan suara terlatih kami yang berkualitas tinggi (yaitu, kualitasnya sebanding dengan model premium Google ) untuk bahasa berikut:
- Inggris;
- Jerman;
- Orang Spanyol;
Anda dapat menemukan model kami di repositori kami bersama dengan contoh dan metrik untuk kualitas dan kecepatan. Kami juga mencoba untuk memulai model kami sesederhana mungkin - kami memposting contoh di Collab dan checkpoint untuk PyTorch, ONNX, dan TensorFlow. Model juga dapat diunggah melalui TorchHub.
| PyTorch | ONNX | TensorFlow | Kualitas | Colab | |
|---|---|---|---|---|---|
| Inggris (en_v1) | ✓ | ✓ | ✓ | tautan | |
| Jerman (de_v1) | ✓ | ✓ | ✓ | tautan | |
| Spanyol (es_v1) | ✓ | ✓ | ✓ | tautan |
Mengapa ini penting
Pengenalan ucapan secara tradisional memiliki hambatan yang tinggi untuk masuk karena sejumlah alasan:
- Data sulit dikumpulkan;
- Markup untuk unit data yang sebanding jauh lebih mahal daripada di computer vision;
- Persyaratan tinggi untuk daya komputasi dan teknologi usang;
Berikut adalah daftar masalah umum yang dihadapi oleh solusi pengenalan suara yang sudah ada sebelum rilis kami:
- Penelitian di bidang ini biasanya dilakukan dengan daya komputasi yang sangat besar;
- - , " ", ;
- , - ;
- - ;
- ;
- ;
- - ;
- , , ;
—
, . :
- ;
- . , , ;
- ("1 ");
, — 50 .
— 10-20 .
.