Trik elegan dalam sebuah notebook di komputer pribadi (laptop) yang baik dan menarik. Tetapi segera setelah menjalankan kode dalam loop produktif, banyak batasan segera muncul dalam bentuk:
- jumlah zat besi yang tersedia;
- persyaratan kinerja;
- stabilitas;
- kepatuhan dengan persyaratan IS;
- … (Tambahkan bumbu secukupnya).
Saat ini di Rusia terdapat fase sedemikian rupa sehingga bahasa python diposisikan sebagai "peluru perak" untuk tugas-tugas ilmu data. Tampaknya tesis seperti itu dikemukakan oleh mereka yang menjual kursus tentang DS dengan python. Dan kemudian roda gila itu pergi. Secara umum, ini cukup normal - hampir semua proses di dunia fisik berosilasi.
Namun, bagaimanapun, dalam hype ini mereka sedikit dibicarakan. Ada sejumlah momen yang mengganggu di python, bahkan dalam tugas-tugas DS dasar, yang sangat mempersulit penggunaannya di sirkuit yang produktif.
Masalah 1
Nama masalah ini adalah BlockManager
. Inilah salah satu pilar arsitektur pandas
. Secara lahiriah terwujud dalam fakta bahwa:
- memori mengkonsumsi "seolah-olah tidak menjadi dirinya sendiri";
- waktu eksekusi kode tergantung pada status penerjemah sebelumnya dan urutan operasi dan dapat bervariasi dengan beberapa urutan besarnya.
, . .
, , :
- 'The one pandas internal I teach all my new colleagues: the BlockManager';
-
BlockManager
pandas
Wes McKinney 'What is BlockManager and why does it exist?'; - Wes McKinney 'Apache Arrow and the "10 Things I Hate About pandas"'.
2
pandas
+ sql
/spark
( — ) data.table
+ Clickhouse
( data.frame
). Database-like ops benchmark. , .
3
Story-telling . Literate Programming. . python
, , Rmarkdown
.
Jelas bahwa tren kami dibentuk oleh kursus dan persyaratan untuk lowongan di hh.ru. Tetapi jika kita berbicara tentang memecahkan masalah praktis di suatu perusahaan, maka menggunakan R
+ bundle Clickhouse
ternyata jauh lebih menguntungkan. Anda juga dapat menambahkan klip ini golang
, juga alat yang hebat.
Fin, keluarkan napalmmu.

Publikasi sebelumnya - "R, Monte Carlo dan Masalah Perusahaan, Bagian 2" .