R vs Python dalam loop produktif

Trik elegan dalam sebuah notebook di komputer pribadi (laptop) yang baik dan menarik. Tetapi segera setelah menjalankan kode dalam loop produktif, banyak batasan segera muncul dalam bentuk:







  • jumlah zat besi yang tersedia;
  • persyaratan kinerja;
  • stabilitas;
  • kepatuhan dengan persyaratan IS;
  • … (Tambahkan bumbu secukupnya).


Saat ini di Rusia terdapat fase sedemikian rupa sehingga bahasa python diposisikan sebagai "peluru perak" untuk tugas-tugas ilmu data. Tampaknya tesis seperti itu dikemukakan oleh mereka yang menjual kursus tentang DS dengan python. Dan kemudian roda gila itu pergi. Secara umum, ini cukup normal - hampir semua proses di dunia fisik berosilasi.







Namun, bagaimanapun, dalam hype ini mereka sedikit dibicarakan. Ada sejumlah momen yang mengganggu di python, bahkan dalam tugas-tugas DS dasar, yang sangat mempersulit penggunaannya di sirkuit yang produktif.







Masalah 1



Nama masalah ini adalah BlockManager



. Inilah salah satu pilar arsitektur pandas



. Secara lahiriah terwujud dalam fakta bahwa:







  • memori mengkonsumsi "seolah-olah tidak menjadi dirinya sendiri";
  • waktu eksekusi kode tergantung pada status penerjemah sebelumnya dan urutan operasi dan dapat bervariasi dengan beberapa urutan besarnya.


, . .







, , :









2



pandas



+ sql



/spark



( — ) data.table



+ Clickhouse



( data.frame



). Database-like ops benchmark. , .







3



Story-telling . Literate Programming. . python



, , Rmarkdown



.









Jelas bahwa tren kami dibentuk oleh kursus dan persyaratan untuk lowongan di hh.ru. Tetapi jika kita berbicara tentang memecahkan masalah praktis di suatu perusahaan, maka menggunakan R



+ bundle Clickhouse



ternyata jauh lebih menguntungkan. Anda juga dapat menambahkan klip ini golang



, juga alat yang hebat.







Fin, keluarkan napalmmu.







bingkai dari kartun anak-anak







Publikasi sebelumnya - "R, Monte Carlo dan Masalah Perusahaan, Bagian 2" .








All Articles