> services / operate

Дежурство SRE 24/7 для Web3 и AI инфраструктуры

Берём пейджер. PagerDuty-ротации, подписанный SLA, постмортем после каждого Sev-1. MTTA: минуты. Алерты идут инженерам, а не на автоответчик.

> что входит в OPERATE

Эксплуатация начинается после передачи из деплоя или при подключении месячного контракта на существующую инфру.

Scope На нас На вас
Дежурство 24/7, PagerDuty-ротации, эскалации ✓ Owned -
Triage инцидентов и runbook-driven response ✓ Owned -
Версионирование и обновление раннбуков ✓ Owned -
Патчинг ОС, security updates, certificate rotation ✓ Owned -
Постмортемы по Sev-1, отчёты с трендами ✓ Owned -
Релизы новых версий ваших приложений / контрактов - (выполняем по вашему cue) ✓ Owned
Решения по архитектурным изменениям - (рекомендуем) ✓ Owned
Биллинг с провайдером и стейкхолдерами - ✓ Owned

> как реагируем на инциденты

Каждый алерт попадает в severity-классификацию до того, как поднимет дежурного. Sev-1: деньги или ключи под угрозой (пропуск блоков валидатором, double-sign risk, GPU OOM на проде, прерванный proof-job под дедлайн). Sev-2: деградация SLO без немедленных потерь. Sev-3: баг, ждущий рабочего дня.

Под каждый Sev-1 у нас есть раннбук с шагами восстановления, кем эскалировать, и какие side-effects учитывать. Раннбуки версионируются в Git вместе с IaC: каждое изменение проходит ревью, ничего «по памяти». Сейчас в библиотеке: 147 раннбуков по 4 ICP.

MTTA на Sev-1: <15 минут p95. MTTR зависит от характера сбоя, но мы фиксируем оба числа в ежемесячных SLA-отчётах. После каждого Sev-1: разбор инцидента в течение 24 часов, без поиска виноватых, со списком исправлений и владельцами.

Observability-стек по умолчанию: Prometheus + Grafana + Loki + OpenTelemetry. PagerDuty для on-call. Если у вас уже стоит Datadog, Honeycomb или своя сборка, работаем поверх.

> стек, с которым приходим

Web3: Cosmos SDK Geth Reth OP Stack Arbitrum Orbit Polygon CDK EigenDA Celestia
AI / LLM: vLLM Triton TensorRT-LLM NVIDIA H100 / A100 Ray Kubeflow
ZK: SP1 RISC Zero Boundless Brevis Jolt Halo2
DePIN: Filecoin Akash Render io.net Gensyn
Platform: Kubernetes Terraform Ansible Prometheus Grafana Loki OpenTelemetry PagerDuty

> engagement models

Operate: длительный engagement по природе. Подбираем модель под зрелость инфры и критичность.

> severity matrix

Что считается каким Sev и какие targets применяются по умолчанию.

Severity Примеры Ack (p95) Разбор
Sev-1 Пропуск блоков валидатором, double-sign risk, потеря инференса, prover offline под дедлайн <15 мин 24/7 В течение 24ч
Sev-2 Деградация SLO без потерь, single-node failure при наличии redundancy, p95 latency drift <1ч business hours, <2ч ночью В течение 5 рабочих дней
Sev-3 Бэклог-баг, ожидающее обновление, плановое окно Next business day -

> что соберём

Реальные примеры покрытия под каждый из четырёх ICP.

Web3 / Validators

Мониторинг валидаторов 24/7 с авто-фейловером и эскалацией пропущенных блоков. Алерты на double-sign signals, slashing watch, рекомендации по апгрейдам сети.

AI / LLM Inference

Контроль GPU, авто-восстановление после OOM, плейбук отката моделей. p95 latency SLO, мониторинг cost-per-token, capacity planning под пики.

ZK / Prover Farms

Liveness-проверки prover'ов под дедлайны сети. Мониторинг очереди proof-job'ов, GPU utilization, эскалация при риске пропустить блок.

DePIN / Distributed Networks

Трекинг аптайма по нодам со сверкой выплат. Авто-перезапуски, региональный мониторинг, weekly reward reconciliation против сетевых дашбордов.

> SLA tiers

Три уровня покрытия. Выбираете под критичность и бюджет.

Tier Response p95 (Sev-1) Coverage Incident report Engineer hours / мес
Bronze 30 мин Business hours, 5×8 В течение 48ч 40
Silver 15 мин 24/7 on-call ротация В течение 24ч 80
Gold 5 мин 24/7 с выделенным инженером В течение 12ч 160+

> смежные услуги

> FAQ

Да. Сначала проводим operate readiness audit (48ч): проверяем мониторинг, раннбуки, SLO, эскалационные пути. Если есть пробелы, закрываем перед подписанием SLA.

Тиры: Bronze (5×8, 30 мин), Silver (24/7, 15 мин), Gold (24/7 выделенный инженер, 5 мин). Цели по реакции, срокам разбора и часам в месяц фиксируются в контракте. Компенсация при срыве SLA обсуждается отдельно по проекту.

Дежурство 24/7 значит 24/7. Holiday и weekends включены в Silver и Gold. Никаких «попробуем дозвониться»: есть PagerDuty-ротация и эскалационная цепочка.

Общие. Хранятся в вашем Git, мы их пишем и поддерживаем. После окончания engagement остаются у вас: никакой блокировки на наш инструментарий.

Retainer ре-квотируется при значимом изменении scope (например, +50% нод или новый ICP). Мелкие изменения внутри Silver/Gold tier'а покрыты engineer hours включёнными в тариф.

> готовы передать пейджер?

Опишите задачу: ответим в течение 24 часов.