클로드 Fable 5·Mythos 5 접근 재개 및 안전보완 내용 요약

요약

미국의 수출 규제로 일시 중단됐던 Anthropic의 Claude Fable 5와 Mythos 5 접근이 규제 해제로 6월 30일에 복구되었다.
Fable 5는 7월 1일부터 전 세계 사용자에게 단계적으로 제공되며, Mythos 5는 제한된 미국 내 조직에 우선 복구됐다.
Anthropic은 보고된 우회 기법을 막기 위해 안전 분류기(클래시파이어)를 개선했고, 과도 차단(false positives)이 늘어날 수 있음을 밝혔다.
업계 표준 마련과 정부와의 협력 강화 계획도 발표했다.

주요 내용

중단·복구 경과: 6월 12일 미 정부의 수출 규제로 두 모델 접근을 전면 중단했고, 6월 30일 규제 해제로 접근을 재개했다. Fable 5는 7월 1일 배포 재개, Mythos 5는 일부 미국 조직에 우선 복구되었다.
원인과 조사 결과: 아마존 연구진 보고서에서 Fable 5의 일부 안전장치 우회 사례가 제기됐다. Anthropic의 자체 테스트에서는 더 낮은 성능 모델들도 유사한 취약점 식별 결과를 보였고, 공격 시연도 여러 모델에서 재현 가능했다.
안전보완 조치: 문제된 우회 기법을 차단하기 위해 특화된 안전 분류기를 훈련·적용했다. 해당 분류기는 보고된 기법을 99% 이상 차단하도록 설계됐으나, 정상적인 디버깅·코딩 요청을 비정상으로 판정할 가능성(오탐)이 증가할 수 있다.
안전 설계 원칙: Fable 5는 다양한 방어층(‘defense in depth’)과 큰 안전 여유(safety margin)를 적용해 유해 활용을 막도록 출시됐다. 분류기는 잠재적으로 위험한 사이버 보안 요청을 탐지·차단하는 역할을 하며, 일부 합법적 요청도 차단될 수 있다.
업계 협력·표준화: Anthropic은 Amazon·Microsoft·Google 등과 함께 AI ‘탈옥(jailbreak)’의 심각도 평가와 대응을 위한 공통 프레임워크 초안을 개발 중이라고 밝혔다.
정부 협력 강화: 사전 시험, 정보 공유, 연구 협력을 포함한 정부와의 협력 수준을 높여 향후 출시 전 검증과 대응을 강화하겠다고 설명했다.

anthropic.comRedeploying Claude Fable 5Anthropic is redeploying Claude Fable 5 starting July 1 following the lifting of export controls, with updated cybersecurity safeguards and a new industry jailbreak framework.

요약

주요 내용

댓글 0