[ vLLM инференс-кластер ] →
H100 / A100 с continuous batching, paged attention, автоскейл по queue depth и p95 TTFT, request tracing через OpenTelemetry.
> solutions / ai-llm
Раунд закрыт, GPU куплены, счёт растёт. ML-команда умеет обучать, но не хочет нянчить vLLM, OOM и Triton в 3 ночи. Мы держим инференс-слой: автоскейл, трейсинг, cost-per-token. Ваши ресёрчеры перестают дежурить.
Стек, который приносим: vLLM и TensorRT-LLM для serving, Triton для мульти-модельных эндпоинтов, NVIDIA H100 / A100 как baseline, Ray и Kubeflow для distributed-фазы файнтюна. Под каждый workload собираем batched-инференс с continuous batching, kv-cache offload на NVMe, tensor parallelism под конкретную модель.
Привозим железо со своих контрактов с поставщиками H100/H200/B200, либо работаем поверх вашего облака. Supply window под выделенный GPU-пул: 7-14 дней в зависимости от региона и модели карты.
Подсет под AI / LLM. Платформенный слой везде одинаковый.
Конкретные deliverables под AI / LLM команды. Каждый - под ключ, с репозиторием, IaC и раннбуками.
H100 / A100 с continuous batching, paged attention, автоскейл по queue depth и p95 TTFT, request tracing через OpenTelemetry.
Несколько моделей за одним endpoint'ом: dynamic batching, model-mesh для холодного старта <5s, A/B-роутинг по header'у.
Компиляция модели под конкретную GPU (FP8, FP16, AWQ-quant), per-кейс бенчмарки latency и throughput, артефакт-кеш в S3.
Multi-node DDP / FSDP / DeepSpeed-ZeRO, чекпоинт-стор, авто-retry на preempt, GPU-utilization дашборды.
Per-model, per-tenant, per-region breakdown. Алерты на budget burn, savings recommendations по spot/on-demand миксу.
После hand-off pager уходит к нам. Покрытие, настроенное под LLM workload:
Что переносим без даунтайма для production-инференса.
Перевод инференса со спот-нод на dedicated H100/H200: cost-per-token -60% в типовом сценарии, p99 latency стабилизируется.
Off-loading трафика с managed-API на ваш кластер: shadow-режим, gradual cutover по тенантам, fallback на проксю при инциденте.
Перенос GPU-фермы с AWS p4d/p5 на bare-metal у Latitude.sh / DataPacket: -40% costs, контрольная синхронизация артефактов модели.
Пересборка модели под FP8 или AWQ: -2x VRAM footprint, бенчмарк качества (perplexity, harness-метрики) на каждом шаге.
Разнос инференса на 3+ региона под latency и failover: гео-роутинг, репликация моделей, sticky-session по tenant.
Параллельный shadow-инференс, контроль качества по матчингу выходов, постепенный cutover трафика по cohort.
Анонимизированные. По NDA не раскрываем имена; цифры реальные.
Три уровня покрытия. Для production-инференса с пользовательским трафиком рекомендуем Silver и выше: OOM в 3 ночи не подождёт до утра.
| Tier | Response p95 (Sev-1) | Coverage | Incident report | Engineer hours / мес |
|---|---|---|---|---|
| Bronze | 30 мин | Business hours, 5×8 | В течение 48ч | 40 |
| Silver | 15 мин | 24/7 on-call ротация | В течение 24ч | 80 |
| Gold | 5 мин | 24/7 с выделенным инженером | В течение 12ч | 160+ |
Заходим поверх вашего железа как DevOps-команда. Поднимаем Kubernetes под GPU, MIG-партиции, scheduling, observability. Через 2-3 недели у вас inference-кластер, через 4 - signed SLA с 24/7 покрытием. Биллинг с провайдером остаётся на вас.
Да. У нас открытые отношения с Latitude.sh, DataPacket, OpenMetal, региональными bare-metal операторами. Supply window под H100 / H200: 7-14 дней. Спот-доступ к A100 - чаще всего в течение 72ч. Пришлите спецификацию, ответим с конкретным окном за 24ч.
Любые open-weight трансформеры через vLLM или TensorRT-LLM: Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, Gemma. Custom-архитектуры через Triton Python backend. Audio / vision модели через Triton с ensemble-конфигом.
Тренируем инфраструктуру под файнтюн, не сам файнтюн. То есть: distributed-кластер на Ray / Kubeflow, чекпоинт-стор, retry-механика, GPU-utilization. Сама ML-работа - на вашей стороне (LoRA / SFT / DPO рецепты). Если нужен ML-эксперт - подключаем партнёра.
Не подписываем фиксированную цифру (зависит от модели, контекста, batching). Подписываем: дашборд per-tenant cost, ежемесячный perf-ревью с конкретными оптимизациями, alert на дрифт >10%. Типовая экономика: -40-60% costs в первые 2 месяца через batching, квантизацию и mix spot/on-demand.