Hai, saya Ildar Raimanov dan saya kepala departemen di BARS Group, yang bertanggung jawab atas pengembangan solusi BI di perusahaan. Memiliki pengalaman luas dalam bekerja dengan data, serta memiliki keahlian industri, kami memutuskan untuk mencoba membentuk pusat kompetensi, yang memungkinkan kami untuk memproses data dalam jumlah besar, akan dapat memberikan layanan untuk pembentukan pengetahuan untuk subjek permintaan pelanggan tertentu.
Data-Officemencakup beberapa komponen sekaligus - ini adalah penyimpanan yang dikembangkan dengan baik yang mencakup "danau data besar" dan pasar yang disiapkan, proses untuk mengisi data dari sistem sumber, mekanisme untuk memeriksa kualitas data; tim ahli metodologi yang memahami apa yang dibicarakan oleh angka-angka ini atau angka-angka itu menurut spesifikasi industri, dan tentu saja seperangkat alat perangkat lunak, yang utamanya adalah platform intelijen bisnis Alpha BI yang dikembangkan oleh BARS Group.
Untuk membuat informasi lebih bisa dimengerti, saya akan mencoba mengungkapkan dalam bahasa sederhana istilah-istilah kunci yang ditekankan dalam teks.
Jika kita berbicara lebih rinci tentang pendekatan dan langkah-langkah, maka dalam kerangka Data-Office kita telah menetapkan urutan berikut:
1. Analisis bidang subjek - disorot Tim metodologi , yang menjelaskan bidang subjek, entitas utama, menyiapkan model data logis untuk penyimpanan utama .
Siapa Metodolog ? Mereka pada dasarnya adalah pakar industri yang memahami esensi data. Jika, misalnya, kita berbicara tentang keuangan, maka ini bisa menjadi akuntan dan pemberi dana, tetapi jika kita berbicara tentang kedokteran, maka ini adalah dokter dan pekerja medis lain yang memenuhi syarat. Pemahaman merekalah yang memungkinkan Anda membangun model data logisYaitu, sekumpulan entitas yang akan dianalisis bersama dengan relasi - relasi apa yang dapat dimiliki entitas dalam relasi dengan entitas lain.
2. Berdasarkan model data logis , model fisik yang dinormalisasi disiapkan , arsitek data terhubung . Di sini, tentu saja, spesialis TI diperlukan, karena merekalah yang menerjemahkan sekumpulan entitas ke dalam tabel, membuat kunci asing, atribut, indeks yang diperlukan - artinya, mereka hanya membangun apa yang disebut model fisik .
3. Model aliran data sedang dikerjakan , sumber dan opsi integrasi ditetapkan. Model aliran dataMerupakan sekumpulan data yang ditransmisikan dengan aturan yang dijelaskan: dari mana dan dimana, dalam kondisi apa, dengan frekuensi berapa.
4. Sebagai aturan, karena kita berbicara tentang sejumlah besar data, awalnya data dari sumber termasuk dalam format "sebagaimana adanya" ke dalam buffer data - lapisan pertama "data mentah" . Di sini, tujuannya adalah untuk mengurangi waktu pemuatan data, dan tujuannya adalah memiliki sekumpulan data primer untuk menjaga kemampuan, jika perlu, untuk melepaskan rantai analisis ke nilai pertama.
5. Masalah transformasi data sedang dikerjakandari buffer ke lapisan kedua - penyimpanan dinormalisasi, serta pertanyaan tentang frekuensi memperbarui dan menyimpan informasi dalam buffer, masalah pembaruan tambahan segera diselesaikan. Masalah kualitas data , metode, dan alat juga sedang dikerjakan . Di bawah kualitas data berarti kepatuhan dengan informasi yang diperlukan untuk konten logis. Semuanya dimulai dengan validasi kontrol format-logis sederhana dan diakhiri dengan pola metodologis yang lebih kompleks.
6. Metodologi menganalisis kasus konsumen, dan berdasarkan ini, data mart yang mungkin dijelaskan ., yaitu, kumpulan data yang disiapkan secara khusus yang akan membantu menjawab pertanyaan-pertanyaan tertentu.
Tim pengembang BI sudah secara langsung membentuk satu set data mart, yang merupakan data warehouse analitik - lapisan ketiga.
7. Perlu dicatat bahwa secara paralel, pekerjaan sedang dilakukan untuk pembentukan Glosarium Data (deskripsi metodologis terperinci) dan pembaruan terus-menerus dari hubungan antara entitas-entitas repositori dengan deskripsi metodologis paling rinci ini.
8. Kit alatproses yang dijelaskan di atas mungkin berbeda tergantung pada tugas. Platform kecerdasan bisnis Alpha BI terutama digunakan, atas dasar lapisan penyimpanan yang dibangun di atas PostgreSQL dan tugas-tugas ETL diselesaikan menggunakan platform itu sendiri.
9. Kerja langsung dengan showcase yang disiapkan juga melalui Alpha BI. Menerima kebutuhan untuk memperoleh pengetahuan - awalnya, tim metodologi menganalisis tugas dan menerapkannya pada model logis yang ada, kemudian tim pengembang BI , setelah menerima pengaturan berorientasi subjek, mengimplementasikan pilihan yang diperlukan, OLAP-Cubes, dasbor, laporan berdasarkan pajangan. Kebetulan showcase agak diubah, atau yang baru dibuat, jika situasinya membutuhkannya.
, Β« BigDataΒ» Hadoop β .
Dari sudut pandang teknis, Alpha BI berinteraksi dengan Hadoop melalui lapisan yang dibangun atas dasar analisis paralel besar-besaran DBMS Greenplum menggunakan protokol PXF (Platform Extension Framework).
Demikian pula, menggunakan Greenplum, kemungkinan analisis online dan bekerja dengan data panas diterapkan, yang, misalnya, diperbarui setiap 10 detik. Dalam kasus data panas, interaksi melalui Greenplum dibangun dengan database Apache Ignite dalam memori yang juga menggunakan protokol PXF.
Pada akhirnya, data dari tabel Ignite ditransfer ke HDFS dan dihapus dari Ignite.
Sebagai kesimpulan, saya ingin meringkas sekali lagi - data harus berfungsi dan berguna. Untuk mengekstrak pengetahuan dari mereka sebanyak mungkin, perhatian harus diberikan pada semua aspek di atas: untuk mendekati pembangunan penyimpanan secara kompeten, untuk menentukan aliran data yang optimal, untuk memahami bidang subjek "angka", untuk memilih alat untuk tugas tersebut.
Pada saat yang sama, tentu saja, perlu memberi perhatian khusus pada pembentukan Tim dan segmentasinya menjadi berbagai jenis tugas, di mana masing-masing profesional yang berpikiran sama harus bekerja.
Dan kemudian data Anda, dengan jutaan dan milyaran baris dan terabyte memori, akan benar-benar mulai bekerja, memberi pengetahuan, dan karenanya berguna!
Saya akan dengan senang hati menjawab pertanyaan Anda di komentar!)