Предложите подходы для оценки устойчивости нейронной сети к adversarial‑атакам: методы генерации атак, метрики оценки деградации, техники защиты (отсечение, обучение с шумом, сертифицированная робастность) и их ограничения.

12 Ноя в 10:27
6 +6
0
Ответы
1
Ниже — сжатая, но содержательная сводка подходов к оценке устойчивости НС к adversarial‑атакам. Формулы и числовые выражения в KaTeX.
1) Методы генерации атак (категории и примеры)
- Белый ящик (полный доступ к градиентам):
- FGSM: δ=ϵ sign(∇xL(x,y))\delta = \epsilon \, \text{sign}(\nabla_x L(x,y))δ=ϵsign(x L(x,y)).
- PGD (iterative FGSM): xt+1=ΠBp(x,ϵ) ⁣(xt+α sign(∇xL(xt,y)))x_{t+1} = \Pi_{B_p(x,\epsilon)}\!\big(x_t + \alpha \, \text{sign}(\nabla_x L(x_t,y))\big)xt+1 =ΠBp (x,ϵ) (xt +αsign(x L(xt ,y))).
- CW (оптимизационная): min⁡δ∥δ∥p+c⋅f(x+δ)\min_\delta \|\delta\|_p + c\cdot f(x+\delta)minδ δp +cf(x+δ) (слабая‑точность функция fff для направления атаки).
- Чёрный ящик:
- Transfer‑атаки: генерировать на substitute модели.
- Score‑based (NES, SPSA): аппроксимация градиента через стохастические оценки.
- Decision‑based (Boundary, HopSkipJump): только решения классов, итеративно искать границу.
- Целевые/нецелевые: целевая — подделать в конкретный класс; нецелевая — любой неверный.
- Нормы: ℓ∞\ell_\infty , ℓ2\ell_22 , ℓ1\ell_11 — указывайте threat model через ∥δ∥p≤ϵ\|\delta\|_p \le \epsilonδp ϵ.
2) Метрики оценки деградации
- Clean accuracy: Accclean=1N∑i=1N1{f^(xi)=yi}\text{Acc}_{\text{clean}} = \frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\hat f(x_i)=y_i\}Accclean =N1 i=1N 1{f^ (xi )=yi }.
- Empirical robust accuracy при атаке AAA и радиусе ϵ\epsilonϵ:
RAA(ϵ)=1N∑i=1N1{f^(A(xi,ϵ))=yi}\text{RA}_{A}(\epsilon)=\frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\hat f(A(x_i,\epsilon))=y_i\}RAA (ϵ)=N1 i=1N 1{f^ (A(xi ,ϵ))=yi }.
- Worst‑case (adversarial) accuracy / certified accuracy:
CertRA(ϵ)=1N∑i=1N1{∀∥δ∥p≤ϵ:f^(xi+δ)=yi}\text{CertRA}(\epsilon)=\frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\forall\|\delta\|_p\le\epsilon:\hat f(x_i+\delta)=y_i\}CertRA(ϵ)=N1 i=1N 1{∀∥δp ϵ:f^ (xi +δ)=yi }.
- Attack success rate (ASR): доля образцов, для которых атака добилась неправильного вывода.
- Средняя/медианная минимальная норма недопустимого искажения: для каждого xix_ixi оценить min⁡{∥δ∥p:f^(xi+δ)≠yi}\min\{\|\delta\|_p : \hat f(x_i+\delta)\ne y_i\}min{δp :f^ (xi +δ)=yi } и взять среднее/медиану.
- Кривые «Accuracy vs ϵ\epsilonϵ» и площадь под ними; ROC‑подобные метрики для методов обнаружения.
- Локальные оценки робастности: CLEVER (оценка локального липшицева константа через EVT).
- Время/число запросов и итераций атаки (важно для чёрного ящика).
3) Техники защиты (короткое описание)
- Отсечение/предобработка входа:
- Clipping / input quantization / JPEG‑компрессия / feature denoising.
- Плюсы: просты; Минусы: часто воспринимаются adaptive‑атаками, дают «обфускацию» градиентов.
- Обучение с шумом (randomized smoothing, Gaussian augmentation):
- Randomized smoothing дает сертифицированную ℓ2\ell_22 ‑робастность: если вероятности топ‑класса и второго pA,pBp_A,p_BpA ,pB , то сертифицированный радиус
R=σ2(Φ−1(pA)−Φ−1(pB)).R=\frac{\sigma}{2}\big(\Phi^{-1}(p_A)-\Phi^{-1}(p_B)\big).R=2σ (Φ1(pA )Φ1(pB )). - Минусы: только для ℓ2\ell_22 (для Gaussian smoothing), требуется много выборок, качество зависит от σ\sigmaσ.
- Adversarial training (PGD‑training, TRADES):
- Модель обучается на примерах x~=A(x,ϵ)\tilde x=A(x,\epsilon)x~=A(x,ϵ); TRADES оптимизирует баланс чистой/робастной ошибки.
- Минусы: дорого по вычислению; часто trade‑off между Accclean\text{Acc}_{\text{clean}}Accclean и RA\text{RA}RA; зависит от выбранного ϵ\epsilonϵ и атак во время тренировки.
- Сертифицированные методы (IBP, CROWN, SDP/LP‑релаксации):
- Даёт гарантии (нижние оценки робастности) для всех δ\deltaδ в сфере; пример — interval bound propagation даёт сертификаты радиуса.
- Минусы: консервативны (часто дают малые радиусы), тяжёлые для больших сетей, ограничены архитектурами/типами слоёв.
- Детекторы и внешние механизмы: классификаторы‑детекторы отклонений; минусы — легко обходятся adaptive‑атаками.
4) Ограничения и типичные ошибки оценки
- Obfuscated gradients / gradient masking: многие «защиты» лишь затрудняют градиенты, но не улучшают истинную робастность; нужно проверять градиент‑свободными и адаптивными атаками.
- Неполная threat model: оценка только при одном ϵ\epsilonϵ или одной норме даёт неполную картину.
- Неадаптивные атаки: при оценке защиты всегда использовать adaptive attack, который знает защиту и её параметры.
- Trade‑off чистой/робастной точности: улучшение робастности часто снижает чистую точность.
- Сертифицированная робастность дорогая и консервативная; эмпирические атаки не дают доказательств отсутствия уязвимости.
- Высокая размерность: маленькие ϵ\epsilonϵ в ℓ∞\ell_\infty могут уже быть визуально заметны, в ℓ2\ell_22 — маскируются; сравнивайте по соответствующим нормам.
- Переоценка из‑за недостаточных перезапусков/итераций: для PGD/CW используйте много перезапусков и сетку по шагам/learning rate.
5) Рекомендованный протокол оценки (кратко)
- Укажите threat model: норма ℓp\ell_pp , ϵ\epsilonϵ, доступ атакующего (white/black).
- Протестировать широкий набор атак: FGSM, PGD (много итераций и random restarts), CW, плюс black‑box (NES/SPSA) и decision‑based.
- Для каждой защиты — выполнить adaptive attack, градиент‑свободные проверки и проверки на transfer‑атаки.
- Отчёт: Accclean\text{Acc}_{\text{clean}}Accclean , RAA(ϵ)\text{RA}_A(\epsilon)RAA (ϵ) для множества ϵ\epsilonϵ, ASR, средняя минимальная норма и время/запросы.
- При заявлениях о «сертифицированной» робастности — приводите используемый метод сертификации и долю примеров с ненулевым радиусом.
Короткий итог: комбинируйте сильные эмпирические (adaptive white‑box + black‑box) и сертифицированные методы; используйте полноценный протокол с кривыми «accuracy vs ϵ\epsilonϵ» и отчётностью по ресурсам и параметрам атак.
12 Ноя в 11:22
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир