Skip to content

Autopilot Ramp‑up — умная автопилот‑раскатка

Autopilot ramp‑up — чтобы раскатка была не на “чуйке”, а по понятным правилам и с автоматической безопасностью. Ручная раскатка по доля трафика эксперимента медленная и рискованная. Нужен автопилот, который:

  • ускоряет получение данных,
  • автоматически повышает трафик, когда всё хорошо,
  • автоматически тормозит/останавливает, когда плохо,
  • делает процесс прозрачным (понятно почему шагнули/поставили на паузу).

В истории: команда заранее решает: 1% → 5% → 25% → 50% → 100%, и что должно быть “окей” на каждом шаге. Ramp‑plan — конфигурация, прикреплённая к эксперименту, которая определяет:

  • ступени трафика (например, 1% → 5% → 10% → 25% → 50% → 100%);
  • условия перехода на следующую ступень (gates);
  • условия экстренной реакции (safety actions);
  • минимальные требования к данным (data sufficiency);
  • окна наблюдения для проверки.

10.3 Gates: “когда можно увеличивать”

Section titled “10.3 Gates: “когда можно увеличивать””

В истории: если DQ зелёный и guardrails не горят — можно увеличить. Если горят — стоп. Для каждого шага автопилот должен проверять, что:

Примеры критериев (настраиваемые):

  • общее число показов >= X за окно,
  • число показов на вариант >= Y (для A/B/n),
  • прошло минимум T минут на текущей ступени.
  • guardrails не сработали;
  • доля ошибок и latency (avg/p95) находятся в пределах порогов (могут быть отдельные “ramp‑пороги”, мягче/жёстче, чем guardrails).
  • нет критических предупреждений Data Quality (например, SRM/перекос, массовые rejected events).

Если gates выполнены — переход на следующую ступень.

10.4 Safety actions: “что делать, если плохо”

Section titled “10.4 Safety actions: “что делать, если плохо””

В истории: это как аварийная кнопка: что именно делаем автоматически, чтобы не ждать, пока кто-то заметит. Автопилот должен уметь действовать по политике:

  • автоматическая пауза — поставить эксперимент на паузу и уведомить.
  • автоматический откат к контролю — откатить к контролю (если такой режим поддержан).
  • шаг назад по трафику — откатиться на предыдущую ступень traffic (например, с 25% обратно на 10%) и дать время стабилизироваться.

Выбор действия задаётся в ramp‑plan и может отличаться по уровню критичности.

10.5 Прозрачность и управляемость

Section titled “10.5 Прозрачность и управляемость”

В истории: продакт и инженер должны понимать, на каком шаге раскатка сейчас, почему остановилась и кто это сделал.

10.5.1 Автопилот не должен быть “чёрным ящиком”

Section titled “10.5.1 Автопилот не должен быть “чёрным ящиком””

Система обязана фиксировать историю “решений автопилота”:

  • текущая ступень,
  • когда и почему перешли,
  • какие метрики/пороги проверяли,
  • что именно нарушилось при остановке.

10.5.2 Ручное вмешательство

Section titled “10.5.2 Ручное вмешательство”

Админ/владелец (при наличии прав) может:

  • временно остановить автопилот (manual mode),
  • перезапустить автопилот,
  • пропустить ступень (override) — опционально, под аудит.