Предложите подходы для оценки устойчивости нейронной сети к adversarial‑атакам: методы генерации атак, метрики оценки деградации, техники защиты (отсечение, обучение с шумом, сертифицированная робастность) и их ограничения.
Ниже — сжатая, но содержательная сводка подходов к оценке устойчивости НС к adversarial‑атакам. Формулы и числовые выражения в KaTeX. 1) Методы генерации атак (категории и примеры) - Белый ящик (полный доступ к градиентам): - FGSM: δ=ϵ sign(∇xL(x,y))\delta = \epsilon \, \text{sign}(\nabla_x L(x,y))δ=ϵsign(∇xL(x,y)). - PGD (iterative FGSM): xt+1=ΠBp(x,ϵ) (xt+α sign(∇xL(xt,y)))x_{t+1} = \Pi_{B_p(x,\epsilon)}\!\big(x_t + \alpha \, \text{sign}(\nabla_x L(x_t,y))\big)xt+1=ΠBp(x,ϵ)(xt+αsign(∇xL(xt,y))). - CW (оптимизационная): minδ∥δ∥p+c⋅f(x+δ)\min_\delta \|\delta\|_p + c\cdot f(x+\delta)minδ∥δ∥p+c⋅f(x+δ) (слабая‑точность функция fff для направления атаки). - Чёрный ящик: - Transfer‑атаки: генерировать на substitute модели. - Score‑based (NES, SPSA): аппроксимация градиента через стохастические оценки. - Decision‑based (Boundary, HopSkipJump): только решения классов, итеративно искать границу. - Целевые/нецелевые: целевая — подделать в конкретный класс; нецелевая — любой неверный. - Нормы: ℓ∞\ell_\inftyℓ∞, ℓ2\ell_2ℓ2, ℓ1\ell_1ℓ1 — указывайте threat model через ∥δ∥p≤ϵ\|\delta\|_p \le \epsilon∥δ∥p≤ϵ. 2) Метрики оценки деградации - Clean accuracy: Accclean=1N∑i=1N1{f^(xi)=yi}\text{Acc}_{\text{clean}} = \frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\hat f(x_i)=y_i\}Accclean=N1∑i=1N1{f^(xi)=yi}. - Empirical robust accuracy при атаке AAA и радиусе ϵ\epsilonϵ: RAA(ϵ)=1N∑i=1N1{f^(A(xi,ϵ))=yi}\text{RA}_{A}(\epsilon)=\frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\hat f(A(x_i,\epsilon))=y_i\}RAA(ϵ)=N1∑i=1N1{f^(A(xi,ϵ))=yi}. - Worst‑case (adversarial) accuracy / certified accuracy: CertRA(ϵ)=1N∑i=1N1{∀∥δ∥p≤ϵ:f^(xi+δ)=yi}\text{CertRA}(\epsilon)=\frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\forall\|\delta\|_p\le\epsilon:\hat f(x_i+\delta)=y_i\}CertRA(ϵ)=N1∑i=1N1{∀∥δ∥p≤ϵ:f^(xi+δ)=yi}. - Attack success rate (ASR): доля образцов, для которых атака добилась неправильного вывода. - Средняя/медианная минимальная норма недопустимого искажения: для каждого xix_ixi оценить min{∥δ∥p:f^(xi+δ)≠yi}\min\{\|\delta\|_p : \hat f(x_i+\delta)\ne y_i\}min{∥δ∥p:f^(xi+δ)=yi} и взять среднее/медиану. - Кривые «Accuracy vs ϵ\epsilonϵ» и площадь под ними; ROC‑подобные метрики для методов обнаружения. - Локальные оценки робастности: CLEVER (оценка локального липшицева константа через EVT). - Время/число запросов и итераций атаки (важно для чёрного ящика). 3) Техники защиты (короткое описание) - Отсечение/предобработка входа: - Clipping / input quantization / JPEG‑компрессия / feature denoising. - Плюсы: просты; Минусы: часто воспринимаются adaptive‑атаками, дают «обфускацию» градиентов. - Обучение с шумом (randomized smoothing, Gaussian augmentation): - Randomized smoothing дает сертифицированную ℓ2\ell_2ℓ2‑робастность: если вероятности топ‑класса и второго pA,pBp_A,p_BpA,pB, то сертифицированный радиус R=σ2(Φ−1(pA)−Φ−1(pB)).R=\frac{\sigma}{2}\big(\Phi^{-1}(p_A)-\Phi^{-1}(p_B)\big).R=2σ(Φ−1(pA)−Φ−1(pB)).
- Минусы: только для ℓ2\ell_2ℓ2 (для Gaussian smoothing), требуется много выборок, качество зависит от σ\sigmaσ. - Adversarial training (PGD‑training, TRADES): - Модель обучается на примерах x~=A(x,ϵ)\tilde x=A(x,\epsilon)x~=A(x,ϵ); TRADES оптимизирует баланс чистой/робастной ошибки. - Минусы: дорого по вычислению; часто trade‑off между Accclean\text{Acc}_{\text{clean}}Accclean и RA\text{RA}RA; зависит от выбранного ϵ\epsilonϵ и атак во время тренировки. - Сертифицированные методы (IBP, CROWN, SDP/LP‑релаксации): - Даёт гарантии (нижние оценки робастности) для всех δ\deltaδ в сфере; пример — interval bound propagation даёт сертификаты радиуса. - Минусы: консервативны (часто дают малые радиусы), тяжёлые для больших сетей, ограничены архитектурами/типами слоёв. - Детекторы и внешние механизмы: классификаторы‑детекторы отклонений; минусы — легко обходятся adaptive‑атаками. 4) Ограничения и типичные ошибки оценки - Obfuscated gradients / gradient masking: многие «защиты» лишь затрудняют градиенты, но не улучшают истинную робастность; нужно проверять градиент‑свободными и адаптивными атаками. - Неполная threat model: оценка только при одном ϵ\epsilonϵ или одной норме даёт неполную картину. - Неадаптивные атаки: при оценке защиты всегда использовать adaptive attack, который знает защиту и её параметры. - Trade‑off чистой/робастной точности: улучшение робастности часто снижает чистую точность. - Сертифицированная робастность дорогая и консервативная; эмпирические атаки не дают доказательств отсутствия уязвимости. - Высокая размерность: маленькие ϵ\epsilonϵ в ℓ∞\ell_\inftyℓ∞ могут уже быть визуально заметны, в ℓ2\ell_2ℓ2 — маскируются; сравнивайте по соответствующим нормам. - Переоценка из‑за недостаточных перезапусков/итераций: для PGD/CW используйте много перезапусков и сетку по шагам/learning rate. 5) Рекомендованный протокол оценки (кратко) - Укажите threat model: норма ℓp\ell_pℓp, ϵ\epsilonϵ, доступ атакующего (white/black). - Протестировать широкий набор атак: FGSM, PGD (много итераций и random restarts), CW, плюс black‑box (NES/SPSA) и decision‑based. - Для каждой защиты — выполнить adaptive attack, градиент‑свободные проверки и проверки на transfer‑атаки. - Отчёт: Accclean\text{Acc}_{\text{clean}}Accclean, RAA(ϵ)\text{RA}_A(\epsilon)RAA(ϵ) для множества ϵ\epsilonϵ, ASR, средняя минимальная норма и время/запросы. - При заявлениях о «сертифицированной» робастности — приводите используемый метод сертификации и долю примеров с ненулевым радиусом. Короткий итог: комбинируйте сильные эмпирические (adaptive white‑box + black‑box) и сертифицированные методы; используйте полноценный протокол с кривыми «accuracy vs ϵ\epsilonϵ» и отчётностью по ресурсам и параметрам атак.
1) Методы генерации атак (категории и примеры)
- Белый ящик (полный доступ к градиентам):
- FGSM: δ=ϵ sign(∇xL(x,y))\delta = \epsilon \, \text{sign}(\nabla_x L(x,y))δ=ϵsign(∇x L(x,y)).
- PGD (iterative FGSM): xt+1=ΠBp(x,ϵ) (xt+α sign(∇xL(xt,y)))x_{t+1} = \Pi_{B_p(x,\epsilon)}\!\big(x_t + \alpha \, \text{sign}(\nabla_x L(x_t,y))\big)xt+1 =ΠBp (x,ϵ) (xt +αsign(∇x L(xt ,y))).
- CW (оптимизационная): minδ∥δ∥p+c⋅f(x+δ)\min_\delta \|\delta\|_p + c\cdot f(x+\delta)minδ ∥δ∥p +c⋅f(x+δ) (слабая‑точность функция fff для направления атаки).
- Чёрный ящик:
- Transfer‑атаки: генерировать на substitute модели.
- Score‑based (NES, SPSA): аппроксимация градиента через стохастические оценки.
- Decision‑based (Boundary, HopSkipJump): только решения классов, итеративно искать границу.
- Целевые/нецелевые: целевая — подделать в конкретный класс; нецелевая — любой неверный.
- Нормы: ℓ∞\ell_\inftyℓ∞ , ℓ2\ell_2ℓ2 , ℓ1\ell_1ℓ1 — указывайте threat model через ∥δ∥p≤ϵ\|\delta\|_p \le \epsilon∥δ∥p ≤ϵ.
2) Метрики оценки деградации
- Clean accuracy: Accclean=1N∑i=1N1{f^(xi)=yi}\text{Acc}_{\text{clean}} = \frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\hat f(x_i)=y_i\}Accclean =N1 ∑i=1N 1{f^ (xi )=yi }.
- Empirical robust accuracy при атаке AAA и радиусе ϵ\epsilonϵ:
RAA(ϵ)=1N∑i=1N1{f^(A(xi,ϵ))=yi}\text{RA}_{A}(\epsilon)=\frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\hat f(A(x_i,\epsilon))=y_i\}RAA (ϵ)=N1 ∑i=1N 1{f^ (A(xi ,ϵ))=yi }.
- Worst‑case (adversarial) accuracy / certified accuracy:
CertRA(ϵ)=1N∑i=1N1{∀∥δ∥p≤ϵ:f^(xi+δ)=yi}\text{CertRA}(\epsilon)=\frac{1}{N}\sum_{i=1}^N \mathbf{1}\{\forall\|\delta\|_p\le\epsilon:\hat f(x_i+\delta)=y_i\}CertRA(ϵ)=N1 ∑i=1N 1{∀∥δ∥p ≤ϵ:f^ (xi +δ)=yi }.
- Attack success rate (ASR): доля образцов, для которых атака добилась неправильного вывода.
- Средняя/медианная минимальная норма недопустимого искажения: для каждого xix_ixi оценить min{∥δ∥p:f^(xi+δ)≠yi}\min\{\|\delta\|_p : \hat f(x_i+\delta)\ne y_i\}min{∥δ∥p :f^ (xi +δ)=yi } и взять среднее/медиану.
- Кривые «Accuracy vs ϵ\epsilonϵ» и площадь под ними; ROC‑подобные метрики для методов обнаружения.
- Локальные оценки робастности: CLEVER (оценка локального липшицева константа через EVT).
- Время/число запросов и итераций атаки (важно для чёрного ящика).
3) Техники защиты (короткое описание)
- Отсечение/предобработка входа:
- Clipping / input quantization / JPEG‑компрессия / feature denoising.
- Плюсы: просты; Минусы: часто воспринимаются adaptive‑атаками, дают «обфускацию» градиентов.
- Обучение с шумом (randomized smoothing, Gaussian augmentation):
- Randomized smoothing дает сертифицированную ℓ2\ell_2ℓ2 ‑робастность: если вероятности топ‑класса и второго pA,pBp_A,p_BpA ,pB , то сертифицированный радиус
R=σ2(Φ−1(pA)−Φ−1(pB)).R=\frac{\sigma}{2}\big(\Phi^{-1}(p_A)-\Phi^{-1}(p_B)\big).R=2σ (Φ−1(pA )−Φ−1(pB )). - Минусы: только для ℓ2\ell_2ℓ2 (для Gaussian smoothing), требуется много выборок, качество зависит от σ\sigmaσ.
- Adversarial training (PGD‑training, TRADES):
- Модель обучается на примерах x~=A(x,ϵ)\tilde x=A(x,\epsilon)x~=A(x,ϵ); TRADES оптимизирует баланс чистой/робастной ошибки.
- Минусы: дорого по вычислению; часто trade‑off между Accclean\text{Acc}_{\text{clean}}Accclean и RA\text{RA}RA; зависит от выбранного ϵ\epsilonϵ и атак во время тренировки.
- Сертифицированные методы (IBP, CROWN, SDP/LP‑релаксации):
- Даёт гарантии (нижние оценки робастности) для всех δ\deltaδ в сфере; пример — interval bound propagation даёт сертификаты радиуса.
- Минусы: консервативны (часто дают малые радиусы), тяжёлые для больших сетей, ограничены архитектурами/типами слоёв.
- Детекторы и внешние механизмы: классификаторы‑детекторы отклонений; минусы — легко обходятся adaptive‑атаками.
4) Ограничения и типичные ошибки оценки
- Obfuscated gradients / gradient masking: многие «защиты» лишь затрудняют градиенты, но не улучшают истинную робастность; нужно проверять градиент‑свободными и адаптивными атаками.
- Неполная threat model: оценка только при одном ϵ\epsilonϵ или одной норме даёт неполную картину.
- Неадаптивные атаки: при оценке защиты всегда использовать adaptive attack, который знает защиту и её параметры.
- Trade‑off чистой/робастной точности: улучшение робастности часто снижает чистую точность.
- Сертифицированная робастность дорогая и консервативная; эмпирические атаки не дают доказательств отсутствия уязвимости.
- Высокая размерность: маленькие ϵ\epsilonϵ в ℓ∞\ell_\inftyℓ∞ могут уже быть визуально заметны, в ℓ2\ell_2ℓ2 — маскируются; сравнивайте по соответствующим нормам.
- Переоценка из‑за недостаточных перезапусков/итераций: для PGD/CW используйте много перезапусков и сетку по шагам/learning rate.
5) Рекомендованный протокол оценки (кратко)
- Укажите threat model: норма ℓp\ell_pℓp , ϵ\epsilonϵ, доступ атакующего (white/black).
- Протестировать широкий набор атак: FGSM, PGD (много итераций и random restarts), CW, плюс black‑box (NES/SPSA) и decision‑based.
- Для каждой защиты — выполнить adaptive attack, градиент‑свободные проверки и проверки на transfer‑атаки.
- Отчёт: Accclean\text{Acc}_{\text{clean}}Accclean , RAA(ϵ)\text{RA}_A(\epsilon)RAA (ϵ) для множества ϵ\epsilonϵ, ASR, средняя минимальная норма и время/запросы.
- При заявлениях о «сертифицированной» робастности — приводите используемый метод сертификации и долю примеров с ненулевым радиусом.
Короткий итог: комбинируйте сильные эмпирические (adaptive white‑box + black‑box) и сертифицированные методы; используйте полноценный протокол с кривыми «accuracy vs ϵ\epsilonϵ» и отчётностью по ресурсам и параметрам атак.