> solutions / web3

DevOps на контракте для Web3, валидаторов и роллапов

Запуск тестнета в следующем квартале. Найти SRE с Cosmos SDK: 4 месяца поиска, опционы в придачу. Мы поднимем валидаторов в 3 регионах за 5 дней с алертами на slashing и подписанным SLA по аптайму.

Приходим с готовым стеком: Cosmos SDK, Geth, Reth, OP Stack, Arbitrum Orbit, Polygon CDK, EigenDA, Celestia. Под каждый клиентский протокол собираем наблюдаемость подписей, distributed lock для double-sign, HSM/KMS workflow и runbook'и под Sev-1 (slashing trigger, peer drop, fork choice mismatch).

Whitespace, на котором стоим: эксплуатация L2 после развёртывания. Conduit, Caldera и Altlayer владеют ramp-up'ом sequencer'а; ops после запуска (мониторинг, ребут, миграции, hard-fork cutovers) остаётся открытой позицией. Мы её занимаем.

> стек, которым оперируем

Подсет под Web3. Платформенный слой везде одинаковый.

Web3: Cosmos SDK Geth Reth OP Stack Arbitrum Orbit Polygon CDK EigenDA Celestia
Platform: Kubernetes Terraform Ansible Prometheus Grafana Loki OpenTelemetry PagerDuty

> что разворачиваем

Конкретные deliverables под Web3-команды. Каждый - под ключ, с репозиторием, IaC и раннбуками.

[ Валидатор-сет в 3 регионах ]

Cosmos SDK / Geth / Reth, key isolation на HSM/KMS, distributed lock против double-sign, slashing-алерты, миссед-блок дашборды, плейбук фейловера.

[ RPC-фронт + load-balancer ]

Geth / Reth read-replicas с per-method rate-limit'ом, кеш горячих запросов, p95 latency SLO, гео-роутинг для глобального трафика.

[ Sequencer для L2 (OP Stack / Orbit) ]

Sequencer + batcher + proposer как отдельные процессы, наблюдение L1 finality, плейбук переключения, hot-standby в другом регионе.

[ Incentivized testnet: 100 нод за 72ч ]

Burst-поставка под программу incentives: сорсинг bare-metal, авто-онбординг, equal-load распределение по регионам, дашборд позиции в leaderboard.

[ DA-слой: EigenDA / Celestia ]

Light node-ы с подписанным аптаймом, retrieval-латенси, плейбук на пропущенный header, синхронизация с консенсус-слоем.

> что держим 24/7

После hand-off pager уходит к нам. Покрытие, настроенное под валидаторов и роллапы:

  • Мониторинг подписей: каждый missed block триггерит Sev-2, два подряд - Sev-1.
  • Авто-фейловер на hot-standby в другом регионе при peer drop >30s или disk pressure.
  • Эскалация на on-call инженера: p95 first response 15 мин для Sev-1.
  • Slashing-trigger watchdog: если distributed lock не отвечает, signing key уходит в read-only за <500ms.
  • Версионированные runbook'и для каждого протокола: hard-fork cutover, chain halt, fork choice mismatch, mempool flood.
  • Ежемесячный ops-ревью: что ломалось, что починили, что меняем в SLO.

> сценарии миграции

Что переносим без даунтайма и без потери ключевого материала.

testnet → mainnet

Cutover validator-сета на mainnet с key-церемонией, синхронизацией стейта, контрольной точкой и rollback-планом.

cloud → bare-metal

Перенос валидаторов с AWS/GCP на Latitude.sh / OpenMetal: -40% costs на ноду в типовом сценарии, latency не страдает.

hard-fork cutover

Координированный апгрейд клиента под known fork height: pre-flight checks, canary-нода, rolling restart по регионам.

sequencer cross-region

Перенос L2 sequencer'а на другую юрисдикцию или провайдера без drop'а блоков: hot-standby promote + DNS-cutover.

RPC сплит на гео-кластеры

Разнос RPC по регионам под рост трафика: anycast / гео-DNS, cache warm-up, per-region rate-limit'ы.

смена клиента (Geth → Reth)

Параллельная синхронизация, контроль чек-сумм по блокам, плавный switch без missed slot'ов.

> кейсы

Анонимизированные. По NDA не раскрываем имена; цифры реальные.

ZK rollup · 6 мес · validator ops + RPC · slashing: 0 · аптайм: 99.97% за 90д
Cosmos L1 · 12 мес · 7 валидаторов в 4 регионах · missed blocks: <0.02% · governance-голоса: 100%
OP Stack L2 · 4 мес · sequencer + batcher + RPC · 0 пропущенных batch'ей с момента запуска
Incentivized testnet · 8 недель · 50 нод burst · top-5 оператор по аптайму

> SLA tiers

Три уровня покрытия. Для валидаторов и sequencer'ов рекомендуем Silver и выше: slashing-риски не терпят 5×8.

Tier Response p95 (Sev-1) Coverage Incident report Engineer hours / мес
Bronze 30 мин Business hours, 5×8 В течение 48ч 40
Silver 15 мин 24/7 on-call ротация В течение 24ч 80
Gold 5 мин 24/7 с выделенным инженером В течение 12ч 160+

> FAQ

Вы. HSM/KMS workflow, где ключи не покидают ваш контроль. Мы подписываем процессом через signer-демон с distributed lock, материал не кастодируем. Опционально: MPC-сетап (CGGMP-21 / FROST), если протокол поддерживает.

Архитектурно исключаем double-sign через distributed lock: signing key уходит в read-only, если consensus с другим инстансом не достигнут. Финансовая ответственность зависит от тира: в Gold обсуждается slashing-страховка, в Bronze/Silver - shared model. За 3 года ops в текущей команде: 0 slashing-инцидентов.

Supply window: 72ч от подписи до первой ноды live. Регионально-распределённое поднятие закрываем за 5-7 дней. Пришлите спецификацию протокола + регионы, ответим с конкретным окном за 24ч.

Да. Это один из основных стеков, с которым работаем. Включает кастомные модули, IBC-релэи, governance-голоса, миграции upgrade-handler'ов между major-версиями. CometBFT, CosmWasm, IBC v2 - в работе.

Да. Onboarding: 1 неделя на инвентаризацию, импорт IaC (если есть) или peregenерацию через Terraform, перенос ключей через ceremony, передачу pager'а. Если что-то критично сломано до старта - сначала фиксим, потом подписываем SLA.

> готовы развернуть инфру?

Опишите задачу: ответим в течение 24 часов.