Предложите подходы для оценки устойчивости нейронной сети к adversarial‑атакам: методы генерации атак, метрики оценки деградации, техники защиты (отсечение, обучение с шумом, сертифицированная робастность) и их ограничения.
Предыдущий
вопрос Следующий
вопрос

Question

Предложите подходы для оценки устойчивости нейронной сети к adversarial‑атакам: методы генерации атак, метрики оценки деградации, техники защиты (отсечение, обучение с шумом, сертифицированная робастность) и их ограничения.
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Предложите подходы д...

eva

12 Ноя в 10:27

6 +6

0

Helper · Answer 1

Ниже — сжатая, но содержательная сводка подходов к оценке устойчивости НС к adversarial‑атакам. Формулы и числовые выражения в KaTeX.
1) Методы генерации атак (категории и примеры)
- Белый ящик (полный доступ к градиентам):
- FGSM:

sign(∇xL(x,y))\delta = \epsilon \, \text{sign}(\nabla_x L(x,y))

.
- PGD (iterative FGSM):

sign(∇xL(xt,y)))x_{t+1} = \Pi_{B_p(x,\epsilon)}\!\big(x_t + \alpha \, \text{sign}(\nabla_x L(x_t,y))\big)

.
- CW (оптимизационная):

min⁡δ∥δ∥p+c⋅f(x+δ)\min_\delta \|\delta\|_p + c\cdot f(x+\delta)

(слабая‑точность функция

f

для направления атаки).
- Чёрный ящик:
- Transfer‑атаки: генерировать на substitute модели.
- Score‑based (NES, SPSA): аппроксимация градиента через стохастические оценки.
- Decision‑based (Boundary, HopSkipJump): только решения классов, итеративно искать границу.
- Целевые/нецелевые: целевая — подделать в конкретный класс; нецелевая — любой неверный.
- Нормы:

ℓ∞\ell_\infty

,

ℓ2\ell_2

,

ℓ1\ell_1

— указывайте threat model через

∥δ∥p≤ϵ\|\delta\|_p \le \epsilon

.
2) Метрики оценки деградации
- Clean accuracy:

Accclean=1N∑i=1N1{f^(xi)=yi}\text{Acc}_{\text{clean}} = \frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\hat f(x_i)=y_i\}

.
- Empirical robust accuracy при атаке

A

и радиусе

ϵ\epsilon

:

RAA(ϵ)=1N∑i=1N1{f^(A(xi,ϵ))=yi}\text{RA}_{A}(\epsilon)=\frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\hat f(A(x_i,\epsilon))=y_i\}

.
- Worst‑case (adversarial) accuracy / certified accuracy:

CertRA(ϵ)=1N∑i=1N1{∀∥δ∥p≤ϵ:f^(xi+δ)=yi}\text{CertRA}(\epsilon)=\frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\forall\|\delta\|_p\le\epsilon:\hat f(x_i+\delta)=y_i\}

.
- Attack success rate (ASR): доля образцов, для которых атака добилась неправильного вывода.
- Средняя/медианная минимальная норма недопустимого искажения: для каждого

x_i

оценить

min⁡{∥δ∥p:f^(xi+δ)≠yi}\min\{\|\delta\|_p : \hat f(x_i+\delta)\ne y_i\}

и взять среднее/медиану.
- Кривые «Accuracy vs

ϵ\epsilon

» и площадь под ними; ROC‑подобные метрики для методов обнаружения.
- Локальные оценки робастности: CLEVER (оценка локального липшицева константа через EVT).
- Время/число запросов и итераций атаки (важно для чёрного ящика).
3) Техники защиты (короткое описание)
- Отсечение/предобработка входа:
- Clipping / input quantization / JPEG‑компрессия / feature denoising.
- Плюсы: просты; Минусы: часто воспринимаются adaptive‑атаками, дают «обфускацию» градиентов.
- Обучение с шумом (randomized smoothing, Gaussian augmentation):
- Randomized smoothing дает сертифицированную

ℓ2\ell_2

‑робастность: если вероятности топ‑класса и второго

p_A,p_B

, то сертифицированный радиус

R=σ2(Φ−1(pA)−Φ−1(pB)).R=\frac{\sigma}{2}\big(\Phi^{-1}(p_A)-\Phi^{-1}(p_B)\big).

- Минусы: только для

ℓ2\ell_2

(для Gaussian smoothing), требуется много выборок, качество зависит от

σ\sigma

.
- Adversarial training (PGD‑training, TRADES):
- Модель обучается на примерах

x~=A(x,ϵ)\tilde x=A(x,\epsilon)

; TRADES оптимизирует баланс чистой/робастной ошибки.
- Минусы: дорого по вычислению; часто trade‑off между

Accclean\text{Acc}_{\text{clean}}

и

RA\text{RA}

; зависит от выбранного

ϵ\epsilon

и атак во время тренировки.
- Сертифицированные методы (IBP, CROWN, SDP/LP‑релаксации):
- Даёт гарантии (нижние оценки робастности) для всех

δ\delta

в сфере; пример — interval bound propagation даёт сертификаты радиуса.
- Минусы: консервативны (часто дают малые радиусы), тяжёлые для больших сетей, ограничены архитектурами/типами слоёв.
- Детекторы и внешние механизмы: классификаторы‑детекторы отклонений; минусы — легко обходятся adaptive‑атаками.
4) Ограничения и типичные ошибки оценки
- Obfuscated gradients / gradient masking: многие «защиты» лишь затрудняют градиенты, но не улучшают истинную робастность; нужно проверять градиент‑свободными и адаптивными атаками.
- Неполная threat model: оценка только при одном

ϵ\epsilon

или одной норме даёт неполную картину.
- Неадаптивные атаки: при оценке защиты всегда использовать adaptive attack, который знает защиту и её параметры.
- Trade‑off чистой/робастной точности: улучшение робастности часто снижает чистую точность.
- Сертифицированная робастность дорогая и консервативная; эмпирические атаки не дают доказательств отсутствия уязвимости.
- Высокая размерность: маленькие

ϵ\epsilon

в

ℓ∞\ell_\infty

могут уже быть визуально заметны, в

ℓ2\ell_2

— маскируются; сравнивайте по соответствующим нормам.
- Переоценка из‑за недостаточных перезапусков/итераций: для PGD/CW используйте много перезапусков и сетку по шагам/learning rate.
5) Рекомендованный протокол оценки (кратко)
- Укажите threat model: норма

ℓp\ell_p

,

ϵ\epsilon

, доступ атакующего (white/black).
- Протестировать широкий набор атак: FGSM, PGD (много итераций и random restarts), CW, плюс black‑box (NES/SPSA) и decision‑based.
- Для каждой защиты — выполнить adaptive attack, градиент‑свободные проверки и проверки на transfer‑атаки.
- Отчёт:

Accclean\text{Acc}_{\text{clean}}

,

RAA(ϵ)\text{RA}_A(\epsilon)

для множества

ϵ\epsilon

, ASR, средняя минимальная норма и время/запросы.
- При заявлениях о «сертифицированной» робастности — приводите используемый метод сертификации и долю примеров с ненулевым радиусом.
Короткий итог: комбинируйте сильные эмпирические (adaptive white‑box + black‑box) и сертифицированные методы; используйте полноценный протокол с кривыми «accuracy vs

ϵ\epsilon

» и отчётностью по ресурсам и параметрам атак.

Другие вопросы eva

Другие вопросы
eva