DVC vs GIT. Mengapa GIT tidak cukup untuk proyek pembelajaran mesin

Kandungan





pengantar



Terlepas dari semua manfaat DVC , hanya ada sedikit pengembang yang tahu tentang alat ini. Oleh karena itu, menurut saya tidak akan berlebihan untuk memperkenalkan Anda terlebih dahulu. DVC adalah sistem kontrol versi data open source yang bagus untuk pembelajaran mesin. Dan perbedaan utama antara DVC dan Git adalah: pertama, ia memiliki perangkat yang lebih luas dan nyaman untuk proyek-proyek ML ; kedua, ini dirancang untuk kontrol versi data, bukan kode. Dan untuk sebagian besar, di sinilah perbedaan utama mereka berakhir. Dan kemudian saya akan mencoba menjelaskan mengapa DVC sangat bagus, dan mengapa Git tidak cukup untuk ML.









Krisis reproduktifitas



«Reproducibility crisis» ( . – « »), , , , , .







? , 98.5%, ?







, . . , . – , , , , , .







, – . , / . , .











Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS







Git-LFS [] Git , Git. – / , . . . . , :







  • Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
  • , .
  • Git-LFS . LFS .
  • Git-LFS .




Data Version Control



DVC Git. , (, Git). DVC + Git :











Github’ - . ( ) , . .







DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .







DVC:







  • ;
  • ;
  • Pembuatan pipeline untuk memproses set data dan visualisasinya di konsol;
  • Menyimpan dan melacak semua metrik;
  • Beralih di antara versi file;
  • Reproduksi model pada pipeline yang dibuat.









All Articles