다양한 AI 보안 방어 기법의 효과 비교
FGSM, PGD 등을 통한 이미지 분류 모델 공격
블랙박스 API를 통한 모델 복제 시도
훈련 데이터에 악의적 샘플 주입
훈련 데이터 멤버십 정보 추론
특정 트리거에 반응하는 숨겨진 기능 삽입
적대적 예제를 포함하여 모델 훈련
훈련 과정에 노이즈 추가
입력 데이터 정규화 및 필터링
여러 모델의 예측 결합
비정상적인 입력이나 쿼리 패턴 탐지
큰 모델의 지식을 작은 모델로 전이
모델 출력에 무작위성 추가
수학적으로 보장된 방어 메커니즘