Kami telah menerbitkan model STT modern yang kualitasnya sebanding dengan Google



Kami akhirnya menerbitkan rangkaian model pengenalan suara terlatih kami yang berkualitas tinggi (yaitu, kualitasnya sebanding dengan model premium Google ) untuk bahasa berikut:



  • Inggris;
  • Jerman;
  • Orang Spanyol;


Anda dapat menemukan model kami di repositori kami bersama dengan contoh dan metrik untuk kualitas dan kecepatan. Kami juga mencoba untuk memulai model kami sesederhana mungkin - kami memposting contoh di Collab dan checkpoint untuk PyTorch, ONNX, dan TensorFlow. Model juga dapat diunggah melalui TorchHub.



PyTorch ONNX TensorFlow Kualitas Colab
Inggris (en_v1) tautan Buka di Colab
Jerman (de_v1) tautan Buka di Colab
Spanyol (es_v1) tautan Buka di Colab


Mengapa ini penting



Pengenalan ucapan secara tradisional memiliki hambatan yang tinggi untuk masuk karena sejumlah alasan:



  • Data sulit dikumpulkan;
  • Markup untuk unit data yang sebanding jauh lebih mahal daripada di computer vision;
  • Persyaratan tinggi untuk daya komputasi dan teknologi usang;


Berikut adalah daftar masalah umum yang dihadapi oleh solusi pengenalan suara yang sudah ada sebelum rilis kami:



  • Penelitian di bidang ini biasanya dilakukan dengan daya komputasi yang sangat besar;
  • - , " ", ;
  • , - ;


- , ( ). :



  • - ;
  • ;
  • ;
  • - ;
  • , , ;




, . :



  • ;
  • . , , ;
  • ("1 ");




, — 50 .

— 10-20 .

.








All Articles