Halo. Hari ini kami ingin berbicara tentang mendeteksi anomali di lingkungan layanan mikro. Posting ini adalah ringkasan singkat dari pembicaraan 40 menit kami yang kami lakukan di konferensi online DevOps Live 2020 dan, agar tidak menulis panjang lebar, kami memutuskan untuk fokus pada ikhtisar alat untuk mendeteksi anomali dalam distribusi nilai metrik untuk mengotomatiskan pemantauan layanan mikro, yang dapat dengan cepat digunakan oleh tim mana pun ...
Topik mendeteksi anomali sekarang sangat relevan, karena dengan transisi ke layanan mikro untuk SRE dan DevOps, prioritas tugas yang terkait dengan mengubah peringatan menjadi sinyal yang berarti, mengurangi MTTD dan menyederhanakan konfigurasi peringatan dalam memantau lingkungan terdistribusi telah meningkat secara signifikan.

, , , .
"" .
, , .
?
?
, :
- latency ;
- ;
- .
"" , - , .
, :
- ;
- , ;
- ยซยป , .
, , , ?
:
- c ;
- APM ;
- as a Service.
.
Prometheus , time series .
recording rules, , .
, , , ( " ").
, , z- (z-score) โ , , .
http_requests_total, :
# - record: job:http_requests:rate5m expr: sum by (app) (rate(http_requests_total[5m]))
:
# average - - record: job:http_requests:rate5m:avg_over_time_1w expr: avg_over_time(job:http_requests:rate5m[1w]) # stddev - - record: job:http_requests:rate5m:stddev_over_time_1w expr: stddev_over_time(job:http_requests:rate5m[1w]) # z- (job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w ) / job:http_requests:rate5m:stddev_over_time_1w

( , latency) โ , , .
โ .
, .
.
, โ z-.

Prometheus โ PAD
Prometheus Anomaly Detector (PAD), Red Hat, , .
PAD Prometeheus , PAD recording rules, , , Prophet, .

PAD Grafana .

, proof of concept.
APM
(Application Performance Monitoring) AIOps โ , , .
, .
New Relic
New Relic baseline ( ) โ , EUM, .
โ baseline, ( , , ).
, , , , baseline.
, .

2020 โ New Relic Applied Intelligence (AI).
New Relic AI KPI .
/ .

AppDynamics
AppDynamics APM baseline KPI- .
baseline , , (, ) , baseline.

, , health rule .
, baseline health rule.

Dynatrace
Dynatrace " " , .

:
- KPI
.


Instana
Instana " " 230 "" , KPI .
latecy, error rate, traffic ( ).

E-Divisive with Medians (EDM).

, , baseline.
"" "" , .
baseline โ .
EUM.

as a Service
APM , Prometheus , , SaaS .
Azure Metric Advisor
Microsoft โ Azure Metric Advisor .
, , e-commerce.
(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .

Anodot
โ Prometheues -.
-, SRE .
e-commerce, gaming .

AnomalyIO
, , , , InfluxDB.
, InfluxDB, , .

- .
- โ , .
- Prometheus โ .
- APM AIOps, .
.