Files
portal/tools
Дмитрий 365d1a0a93 feat(ops): мониторинг + pre-flight + WAF +/api threshold (incident 2026-05-22)
Инцидент 22.05.2026: liderra.ru 500 Server Error. Корень — повреждённый
APP_KEY в .env (24 строки с CRLF + дубль ключа от key:generate). Каскад:
Laravel не парсил .env → fallback на default sqlite/database cache →
sqlite-файла нет → 500 на каждом HTTP-запросе; liderra-queue в
бесконечном activating-loop'е (Restart=always без лимитов).

Файлы (все LF через локальный .gitattributes — защита от CRLF-инцидента):

  liderra-precheck.sh — pre-flight гейт (15 проверок: CRLF в .env, длина
    APP_KEY, decrypt(encrypt) round-trip, PG/Redis ping, config-cache
    свежее .env, pending migrations, HTTP smoke). exit 1 при любом провале.

  liderra-healthcheck.sh + cron */2 — проверка портала каждые 2 минуты;
    2 подряд провала (~4 мин downtime) → email DOWN; первый 200 после
    DOWN → email RECOVERED.

  liderra-queue.service — Restart=on-failure, StartLimitBurst=5/5min,
    OnFailure=liderra-queue-alert.service. Очередь больше не крутится в
    бесконечном крэше — после 5 крашей systemd останавливает + шлёт email.

  liderra-queue-alert.service + liderra-systemd-alert.sh — отправка email
    при окончательном fail системного юнита (status + journalctl tail).

  msmtprc.template — шаблон для /etc/msmtprc (placeholder
    __MAIL_PASSWORD__ подставляется из app/.env MAIL_PASSWORD).

Установлено на /var/www/liderra/app (тест-сервер YC):
  /etc/msmtprc, /usr/local/bin/liderra-*.sh,
  /etc/cron.d/liderra-healthcheck, /etc/systemd/system/liderra-queue*.service.
  Тестовое письмо на kdv1@bk.ru доставлено (smtpstatus=250).

WAF (ModSecurity OWASP CRS 3.3.5) уже было правило 1900200 от A8 infosec
(разрешает PUT/PATCH/DELETE — добавлено в 06:00). Дополнительно:
  /etc/nginx/modsec/liderra-exclusions.conf id:1900300 — для /api/*
  поднят порог inbound_anomaly_score_threshold с 5 до 10 (чтобы edge-case
  JSON-payloads не давали false-positive: PATCH/DELETE и так дают +5 в CRS).

Verification: 9/9 GREEN.
  Smoke: liderra.ru → 200, PATCH/DELETE /api/* → 419 (Laravel CSRF, не 403 WAF).
  Services: php-fpm/queue/nginx/postgres/redis — все active.
  Pre-flight: 15/15 ✓ (был бы DOWN-сигнализатор сегодня за 5 секунд).
  Laravel production.ERROR за последние 10 минут: 0.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-22 11:10:31 +03:00
..