Mengidentifikasi Anomali dalam Arsitektur Layanan Mikro - Gambaran Umum tentang Alat DevOps dan SRE

Halo. Hari ini kami ingin berbicara tentang mendeteksi anomali di lingkungan layanan mikro. Posting ini adalah ringkasan singkat dari pembicaraan 40 menit kami yang kami lakukan di konferensi online DevOps Live 2020 dan, agar tidak menulis panjang lebar, kami memutuskan untuk fokus pada ikhtisar alat untuk mendeteksi anomali dalam distribusi nilai metrik untuk mengotomatiskan pemantauan layanan mikro, yang dapat dengan cepat digunakan oleh tim mana pun ...







Topik mendeteksi anomali sekarang sangat relevan, karena dengan transisi ke layanan mikro untuk SRE dan DevOps, prioritas tugas yang terkait dengan mengubah peringatan menjadi sinyal yang berarti, mengurangi MTTD dan menyederhanakan konfigurasi peringatan dalam memantau lingkungan terdistribusi telah meningkat secara signifikan.













, , , .

"" .







, , .







?

?







, :







  • latency ;
  • ;
  • .


"" , - , .







, :







  • ;
  • , ;
  • ยซยป , .


, , , ?







:







  • c ;
  • APM ;
  • as a Service.


.









, Python R.







Prometheus , time series .

recording rules, , .







, , , ( " ").







, , z- (z-score) โ€” , , .







http_requests_total, :







#    
- record: job:http_requests:rate5m
  expr: sum by (app) (rate(http_requests_total[5m]))

      
      





:







# average -   
- record: job:http_requests:rate5m:avg_over_time_1w
expr: avg_over_time(job:http_requests:rate5m[1w])

# stddev -  
- record: job:http_requests:rate5m:stddev_over_time_1w
expr: stddev_over_time(job:http_requests:rate5m[1w])

# z-
(job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w
) /  job:http_requests:rate5m:stddev_over_time_1w
      
      





Anomali sederhana







( , latency) โ€” , , .







โ€” .







, .







.







, โ€” z-.







Prediksi musiman







recording rules Prometheus .







Prometheus โ€” PAD



Prometheus Anomaly Detector (PAD), Red Hat, , .







PAD Prometeheus , PAD recording rules, , , Prophet, .







Arsitektur PAD







PAD Grafana .







Arsitektur PAD







, proof of concept.







APM



(Application Performance Monitoring) AIOps โ€” , , .







, .







New Relic



New Relic baseline ( ) โ€” , EUM, .







โ€” baseline, ( , , ).

, , , , baseline.







, .







New Relic - mengatur kebijakan untuk waspada pada deviasi dari baseline







2020 โ€” New Relic Applied Intelligence (AI).







New Relic AI KPI .







/ .







New Relic Applied Intelligence - Mendeteksi anomali dalam metrik di beberapa aplikasi







AppDynamics



AppDynamics APM baseline KPI- .







baseline , , (, ) , baseline.







AppDynamics - pengaturan baseline







, , health rule .







, baseline health rule.







AppDynamics - menetapkan kebijakan untuk waspada terhadap deviasi dari baseline







Dynatrace



Dynatrace " " , .







Dynatrace - sinyal penurunan lalu lintas







:







  • KPI


.







Dynatrace - penyiapan







Dynatrace - penyiapan







Instana



Instana " " 230 "" , KPI .







latecy, error rate, traffic ( ).







Instana - daftar aturan yang menggunakan algoritma EDM untuk mendeteksi anomali







E-Divisive with Medians (EDM).







Instana - aturan telah mendeteksi anomali dalam metrik







, , baseline.

"" "" , .







baseline โ€” .







EUM.







Instana - Pembuat kebijakan peringatan berdasarkan metrik dasar EUM







as a Service



APM , Prometheus , , SaaS .







Azure Metric Advisor



Microsoft โ€” Azure Metric Advisor .







, , e-commerce.

(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .







Antarmuka Azure Metric Advisor







Anodot



โ€” Prometheues -.







-, SRE .







e-commerce, gaming .







Anodot







AnomalyIO



, , , , InfluxDB.







, InfluxDB, , .







Anodot









  • .
  • โ€“ , .
  • Prometheus โ€” .
  • APM AIOps, .


.








All Articles