> solutions / ai-llm

Инфраструктура под LLM инференс и файнтюн на аутсорсе

Раунд закрыт, GPU куплены, счёт растёт. ML-команда умеет обучать, но не хочет нянчить vLLM, OOM и Triton в 3 ночи. Мы держим инференс-слой: автоскейл, трейсинг, cost-per-token. Ваши ресёрчеры перестают дежурить.

Стек, который приносим: vLLM и TensorRT-LLM для serving, Triton для мульти-модельных эндпоинтов, NVIDIA H100 / A100 как baseline, Ray и Kubeflow для distributed-фазы файнтюна. Под каждый workload собираем batched-инференс с continuous batching, kv-cache offload на NVMe, tensor parallelism под конкретную модель.

Привозим железо со своих контрактов с поставщиками H100/H200/B200, либо работаем поверх вашего облака. Supply window под выделенный GPU-пул: 7-14 дней в зависимости от региона и модели карты.

> стек, которым оперируем

Подсет под AI / LLM. Платформенный слой везде одинаковый.

AI / LLM: vLLM Triton TensorRT-LLM NVIDIA H100 / A100 Ray Kubeflow

Platform: Kubernetes Terraform Ansible Prometheus Grafana Loki OpenTelemetry PagerDuty

> что разворачиваем

Конкретные deliverables под AI / LLM команды. Каждый - под ключ, с репозиторием, IaC и раннбуками.

[ vLLM инференс-кластер ] →

H100 / A100 с continuous batching, paged attention, автоскейл по queue depth и p95 TTFT, request tracing через OpenTelemetry.

[ Multi-model serving на Triton ] →

Несколько моделей за одним endpoint'ом: dynamic batching, model-mesh для холодного старта <5s, A/B-роутинг по header'у.

[ TensorRT-LLM build pipeline ] →

Компиляция модели под конкретную GPU (FP8, FP16, AWQ-quant), per-кейс бенчмарки latency и throughput, артефакт-кеш в S3.

[ Distributed fine-tuning на Ray + Kubeflow ] →

Multi-node DDP / FSDP / DeepSpeed-ZeRO, чекпоинт-стор, авто-retry на preempt, GPU-utilization дашборды.

[ Cost-per-token дашборд ] →

Per-model, per-tenant, per-region breakdown. Алерты на budget burn, savings recommendations по spot/on-demand миксу.

> что держим 24/7

После hand-off pager уходит к нам. Покрытие, настроенное под LLM workload:

GPU health watchdog: ECC errors, thermal throttling, xid-сигналы драйвера триггерят preempt и переезд load'а.
Авто-восстановление после OOM: уменьшение batch size, eviction kv-cache, плейбук отката версии модели.
p95 / p99 latency SLO per-endpoint: alert при дрифте >15% от baseline за 5 мин.
Cost-per-token алерты: если фактический cost растёт >10% за сутки, инженер на смене разбирается до закрытия.
Версионированные runbook'и: rollback модели, перенос трафика между регионами, deflake флапающего endpoint'а.
Ежемесячный perf-ревью: новые бенчмарки, обновлённый mix спот/on-demand, рекомендации по batching.

> сценарии миграции

Что переносим без даунтайма для production-инференса.

spot-fleet → выделенный H100

Перевод инференса со спот-нод на dedicated H100/H200: cost-per-token -60% в типовом сценарии, p99 latency стабилизируется.

OpenAI proxy → собственный инференс

Off-loading трафика с managed-API на ваш кластер: shadow-режим, gradual cutover по тенантам, fallback на проксю при инциденте.

cloud → bare-metal

Перенос GPU-фермы с AWS p4d/p5 на bare-metal у Latitude.sh / DataPacket: -40% costs, контрольная синхронизация артефактов модели.

FP16 → FP8 / квантизация

Пересборка модели под FP8 или AWQ: -2x VRAM footprint, бенчмарк качества (perplexity, harness-метрики) на каждом шаге.

single-region → multi-region

Разнос инференса на 3+ региона под latency и failover: гео-роутинг, репликация моделей, sticky-session по tenant.

смена движка (TGI → vLLM)

Параллельный shadow-инференс, контроль качества по матчингу выходов, постепенный cutover трафика по cohort.

> кейсы

Анонимизированные. По NDA не раскрываем имена; цифры реальные.

LLM-стартап · 4 мес · vLLM-кластер в 3 регионах · cost / token: -60% · p95 TTFT: 180 мс

Voice-AI продукт · 8 мес · 24 H100, multi-model Triton · аптайм 99.96% · автоскейл x10 в пик

B2B copilot · 6 мес · файнтюн pipeline + serving · time-to-experiment с 3 дней до 4 часов

Research-лаба · 3 мес · spot-fleet на 64 A100 · 0 потерянных чекпоинтов за квартал

> SLA tiers

Три уровня покрытия. Для production-инференса с пользовательским трафиком рекомендуем Silver и выше: OOM в 3 ночи не подождёт до утра.

Tier	Response p95 (Sev-1)	Coverage	Incident report	Engineer hours / мес
Bronze	30 мин	Business hours, 5×8	В течение 48ч	40
Silver	15 мин	24/7 on-call ротация	В течение 24ч	80
Gold	5 мин	24/7 с выделенным инженером	В течение 12ч	160+

> FAQ

У нас уже куплены H100. Что вы делаете?

Заходим поверх вашего железа как DevOps-команда. Поднимаем Kubernetes под GPU, MIG-партиции, scheduling, observability. Через 2-3 недели у вас inference-кластер, через 4 - signed SLA с 24/7 покрытием. Биллинг с провайдером остаётся на вас.

Поможете найти GPU? Спрос огромный.

Да. У нас открытые отношения с Latitude.sh, DataPacket, OpenMetal, региональными bare-metal операторами. Supply window под H100 / H200: 7-14 дней. Спот-доступ к A100 - чаще всего в течение 72ч. Пришлите спецификацию, ответим с конкретным окном за 24ч.

Какие модели поддерживаете в serving?

Любые open-weight трансформеры через vLLM или TensorRT-LLM: Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, Gemma. Custom-архитектуры через Triton Python backend. Audio / vision модели через Triton с ensemble-конфигом.

А файнтюн? Тренируете под клиента?

Тренируем инфраструктуру под файнтюн, не сам файнтюн. То есть: distributed-кластер на Ray / Kubeflow, чекпоинт-стор, retry-механика, GPU-utilization. Сама ML-работа - на вашей стороне (LoRA / SFT / DPO рецепты). Если нужен ML-эксперт - подключаем партнёра.

Какие гарантии по cost-per-token?

Не подписываем фиксированную цифру (зависит от модели, контекста, batching). Подписываем: дашборд per-tenant cost, ежемесячный perf-ревью с конкретными оптимизациями, alert на дрифт >10%. Типовая экономика: -40-60% costs в первые 2 месяца через batching, квантизацию и mix spot/on-demand.