🈲 🤳 ♓️ Set Data SOVA Sumber Terbuka: Audio untuk Pengenalan Ucapan dan Sintesis 👨‍👨‍👧‍👦 🕵🏽 ♨️

Halo semuanya! Kami adalah tim Nanosemantics, dan baru-baru ini kami meluncurkan proyek SOVA, tempat kami mengumpulkan kumpulan data untuk digunakan dalam melatih jaringan saraf dan membuat asisten virtual berdasarkan kecerdasan buatan.

Kami telah menyiapkan kumpulan data yang besar untuk melatih mesin pengenalan suara dan kami ingin membagikannya agar perusahaan dapat menerapkannya di negara mereka sendiri untuk menyelesaikan berbagai masalah bisnis. Data adalah pelumas baru, dan salah satu alasan terpenting untuk kemajuan sistem pengenalan pembelajaran mesin adalah adanya kumpulan data yang diberi tag. Jika Anda tertarik pada penelitian dan pengembangan di bidang analitik ucapan, pergilah ke bawah cat.

Pada tahun 2019, Nanosemantics menerima hibah dari RVC Foundation, yang dengannya diperlukan untuk menyiapkan salah satu kumpulan data terbuka terbesar di Rusia pada akhir tahun 2022. Ini adalah kesempatan besar bagi kami untuk membuat kumpulan data yang sangat berguna. Ini akan mencakup 30.000 jam rekaman audio dengan lirik, 3 bahasa (Rusia, Inggris dan Cina) dan sejumlah besar penutur, audio yang akan digunakan dalam kumpulan data. Kumpulan data akan tersedia untuk publik secara bertahap (gratis) sehingga developer dari seluruh dunia dapat menggunakannya untuk melatih jaringan saraf, membuat asisten virtual mereka sendiri dengan kecerdasan buatan, dan melatih sistem pengenalan suara.

, , : .

, , . , — . .
. , , - , . . . , . , , .
.
. , .

, , — .

, : - , - . , , , .

( ) – , - . , , , , , , , . . () Wikipedia

: , , , , .

« »: , . , , , 70 . , . , . , .

, , . , . , , .

, (, , . .), , , . , , , , . , " / ", " " . ., .

, ?

-
Creative Commons Attribution – CC BY ( , )
Creative Commons Zero – CC0
WTFPL – Do What The Fuck You Want To Public License

, .

( )?

, .

5.1. 1235 , .

( )?

, - . .

, , , .

. , . 20 . , – - .

, , . . , , , . , .

, : , , , .

– .

. , .

, – . : , , . , , , . , , : , , , , . .

. , 20 . - , - . , , ; , , ? . .

.
.
, , .
, — .
( ), , .
, , .
, .

, .

, , , , .

VoicyBot, «» . , , . , , .

. , , — , . Open Source : . : , , , . , , , . .

Youtube

. Youtube (), . , , .

. , (FEFU) , .

, , Creative Commons – CC BY. .

YouTube “ Creative Commons”. API Youtube.

EngAudiobooksOriginal — , , .

EngAudiobooksNoisy — .

RuAudiobooksDevices — , , .

RuDevices — , .

SOVA set data Sumber Terbuka — Open Source SOVA

— , . .

CER — Char Error Rate. . , .

CER — 5.

, , 95% - — .

, :

Pengaturan standar untuk semua rekaman audio

, , : -, .

: . , Youtube ( ), — . .

, , .

— forced alignment «» , . , , , . , , , . «» . : NLab Speech «» . -.

, «», . , - .

, — , . Voice Activity Detector — , . : 30 100 . - , 100 10 . — , : .

: , , .

«», . , : , , .

/

. .

Common Voice. , . 7 335 60

Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .

CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.

M-AILABS Speech Dataset. 46 , LibriVox. .

Russian LibriSpeech (RuLS). , LibriVox. 98 .

Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).

, :

, OpenSTT, , ,
OpenSTT , . , .
OpenSTT : + .

, . , SOVA . , SOVA .

, , .

2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .

Open Source CC-BY 4.0. , , .

SOVA Dataset GitHub.

, . .

2021 . 10000 , . , , Youtube .

, 2022 30000 .

SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .

. , SOVA Dataset , .

, . , , , partnership@sova.ai.

Set Data SOVA Sumber Terbuka: Audio untuk Pengenalan Ucapan dan Sintesis

/

More articles: