Vulnerability harness и LLM-валидация

Автоматизация security research часто ломается не на генерации идей, а на управлении состоянием. Модель забывает контекст, повторяет проверки, смешивает наблюдение и вывод, а затем уверенно описывает неподтверждённый риск. Cloudflare делает акцент на multi-stage pipeline, контроле state и отдельном цикле triage.

Архитектура качественной проверки

Discovery формирует ограниченную гипотезу и перечисляет необходимые факты.
Policy engine проверяет scope, допустимую технику и лимиты.
Runner выполняет воспроизводимое read-only действие в изоляции.
Validator независимо оценивает фактический результат.
Adversarial reviewer пытается опровергнуть finding и найти альтернативное объяснение.
Только после этого система формирует evidence bundle и remediation.

STATEкаждый шаг имеет вход и результат

REVIEWгипотезу намеренно пытаются опровергнуть

EVIDENCEотчёт строится из фактов, не из уверенности

Как снижать false positives

Полезно отделить confidence от самооценки модели. Он должен зависеть от воспроизводимости, независимых validators, качества request/response trace и отсутствия противоречащих фактов. Повторная генерация тем же prompt не считается независимой проверкой.

Что делать с ограничением контекста

Вместо передачи всей истории каждому агенту хранится структурированная память: asset, endpoint, hypothesis, evidence references и decision records. Это уменьшает шум и делает расследование аудируемым. Raw secrets и PII редактируются до отправки внешней модели.

Продуктовый вывод: коммерческий AI-пентест выигрывает не количеством агентов, а доказуемостью результата. Клиенту нужен воспроизводимый finding, понятный impact и критерий ретеста — не поток рассуждений модели.

Где остаётся человек

Human reviewer нужен для оценки бизнес-контекста, спорных цепочек атаки и финальной публикации. Автоматизация уменьшает стоимость сбора evidence и повторных проверок, но ответственность за клиентский вывод остаётся у специалиста.

Первоисточник: Cloudflare — Build your own vulnerability harness. Архитектурные выводы и терминология адаптированы редакцией Virusologia.