Site Reliability Engineering (SRE) adalah salah satu bentuk implementasi DevOps. Pendekatan SRE berasal dari Google dan menjadi populer di kalangan perusahaan IT grosir setelah penerbitan buku dengan nama yang sama pada tahun 2016.
Dalam artikel ini, kami akan menjelaskan bagaimana pendekatan SRE berkaitan dengan DevOps, tugas apa yang dipecahkan oleh insinyur SRE dan metrik apa yang dia tangani.

Dari DevOps hingga SRE
Di banyak perusahaan TI, tim yang berbeda terlibat dalam pengembangan dan operasi dengan tujuan berbeda. Tujuan tim pengembangan adalah meluncurkan fitur baru. Sasaran tim operasi adalah untuk menjaga fitur lama dan baru tetap berfungsi dalam produksi. Pengembang berusaha untuk mengirimkan kode sebanyak mungkin, administrator sistem berusaha untuk menjaga sistem tetap dapat diandalkan.
Tujuan tim saling bertentangan. Untuk mengatasi kontradiksi ini, metodologi DevOps telah dibuat. Ini melibatkan pengurangan silo, menerima kesalahan, mengandalkan otomatisasi dan prinsip lainnya.
, , DevOps . Β« DevOps?Β». , , .
2016 , Google Β«Site Reliability EngineeringΒ». DevOps. SRE-, IT-.
DevOps β . SRE β . DevOps β , SRE β , DevOps.
SRE-
SRE , DevOps .
, , SRE . , - . , SRE .
SRE β . , , β .
, SRE , , . - : Β« β Β». , . SRE . , , . , .
. , , . , .
SRE . , SRE : Β«OK, , , Β». , , , .
- β , .
- β , . , .
SRE , -, . SRE ( , ).
SRE , - .
, SRE . , -. β .
: SLA, SLI, SLO
. β , .
SRE , . , (, . .) , .
- β Service-Level Objective (SLO). , .
SRE , . Β« , . , , SLOΒ», Google. β , , .
, β Service Level Indicator (SLI). , , , β .
SLO SLI β , . Service Level Agreement (SLA). .
SLA: 99,95% ; 99 ; 85% 1,5 .
100%
SRE , . , .
, «»:
- β 99%,
- β 99,9%,
- β 99,99%,
- β 99,999%.
β 5 , β 3,5 .

, 100%, . - ROI β .
, . ! 47 . . .
. 99,99% 99,999%, 99%. , 10 8 . , .
β MTBF MTTR
, SRE : MTBF MTTR.
MTBF (Mean Time Between Failures) β .
MTBF . SRE Β«!Β». , SRE - , , .
MTTR (Mean Time To Recovery)β ( ).
MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .
13 β , . 7-8 , β . MTTR , .
SRE , MTTR, SLO , , .
, . , , :

, SRE. , SRE , , , , . , , .
, 100% , , , β , - «» .
SLO. SLO (Error budget).

SRE.
43 , 40 , : SLO, . , -.
, . SRE Error budget :
- , ,
- ,
- ,
- .
, Error budget . .

«» : SRE, . , , . SRE .
β SRE . Netflix Chaos Engineering.
Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , β , . , .
Chaos Engineering :
- , , ( ).
- , . β : , .
- , , , CI/CD- .
Post mortem
SRE blameless postmortem, , .
, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .
, , SLO. SRE β . , , .
:
- β (Β« !Β»);
- β (Β« - , , Β»);
- β , (Β«, , , Β»).
SRE , , , , . .
(Observability). , , , .
: , , . : , - Kubernetes, , .
Observability MTTR. Observability , , , MTTR.
SRE
SRE , , , . SRE , . , . , .
SRE , , . . β (, ). , , , .
SRE : SLO, SLI, SLA . , SLA SLO. . , , .
, , β , . Error budget, , .
SRE. , .
SRE Google:
Site Reliability Engineering
The Site Reliability Workbook
Building Secure & Reliable Systems
:
SRE
SLA, SLI, SLO
Chaos Engineering Chaos Community Netflix
200 SRE
SRE ():
Keys to SRE
SRE
SRE
SRE
, β . , - SRE . 11β13 2020.
SLO, SLI, SLA, , , .
SLO: , , , DoS-. , Error budget, , .