Kami akhirnya menerbitkan rangkaian model pengenalan suara terlatih kami yang berkualitas tinggi (yaitu, kualitasnya sebanding dengan model premium Google ) untuk bahasa berikut:

Inggris;
Jerman;
Orang Spanyol;

Anda dapat menemukan model kami di repositori kami bersama dengan contoh dan metrik untuk kualitas dan kecepatan. Kami juga mencoba untuk memulai model kami sesederhana mungkin - kami memposting contoh di Collab dan checkpoint untuk PyTorch, ONNX, dan TensorFlow. Model juga dapat diunggah melalui TorchHub.

	PyTorch	ONNX	TensorFlow	Kualitas
Inggris (en_v1)	✓	✓	✓	tautan
Jerman (de_v1)	✓	✓	✓	tautan
Spanyol (es_v1)	✓	✓	✓	tautan

Mengapa ini penting

Pengenalan ucapan secara tradisional memiliki hambatan yang tinggi untuk masuk karena sejumlah alasan:

Data sulit dikumpulkan;
Markup untuk unit data yang sebanding jauh lebih mahal daripada di computer vision;
Persyaratan tinggi untuk daya komputasi dan teknologi usang;

Berikut adalah daftar masalah umum yang dihadapi oleh solusi pengenalan suara yang sudah ada sebelum rilis kami:

Penelitian di bidang ini biasanya dilakukan dengan daya komputasi yang sangat besar;
- , " ", ;
, - ;

- , ( ). :

- ;
;
;
- ;
, , ;

—

, . :

;
. , , ;
("1 ");

, — 50 .

— 10-20 .

.

Kami telah menerbitkan model STT modern yang kualitasnya sebanding dengan Google

Mengapa ini penting

—

More articles: