Какво научих като системен администратор, IT PM и Head of IT—практични принципи за надеждност, сигурност и спокойни нощи.
Започнах като системен администратор в среда, където „документацията“ беше устна традиция, а бекъпът — надежда. Първият урок беше брутално прост: системите падат там, където няма план Б. С годините минах през роли като Senior System Administrator, IT Project Manager и днес — Head of IT Department. Общият знаменател: устойчиви системи под натоварване и контролирани реакции при инциденти.
Още в първите години ми стана ясно, че „работи ми на моята машина“ е антипатърн. Започнах да въвеждам стандарти — именуване, версии, процедури за промяна, минимални права, ясни ролеви разделения. Това премахна излишните „героизми“ и превърна хаоса в предвидим процес.
Паралелно изградихме навици за наблюдаемост: измерими SLO, аларми с праг и действие, трасета и метрики, както и регулярни post-mortem срещи без търсене на виновни — само причини и подобрения. Малките автоматизации (backup проверки, health-checks, ротация на логове, базови плейбукове) намалиха MTTR и донесоха тишина в 3 сутринта.
Постепенно заменихме „еднократни хитрости“ със платформа: сегментирани мрежи, високодостъпни услуги, репетирани DR сценарии и редовни тестове за възстановяване. От тогава принципът ми е същият: просто, видимо, възпроизводимо.
Защото е възможно ИТ да е тихо: без нощни събуждания, с ясни процеси и предвидимо възстановяване. Удовлетворението идва от екип, който работи уверено по план, а не героично „на пожар“.
Надеждност → Сигурност → Скорост → Цена. В този ред. Проектът е успешен, ако:
Мярката ми за резултат е MTTR и спокойствието на дежурния, не броят тикети.
Моята мантра: „Надеждността се проектира, сигурността се изгражда ежедневно, а спокойствието на екипа е най-добрата метрика.“
Кратък разговор и приоритизиран план. Без риск за продукцията.