LLM 안전 검열 논쟁: 핵 지식과 보안 실험

2026년, GPT-5.3과 오푸스 등 LLM들이 핵무기 제작 요청을 거부하며 ‘안전’을 내세웁니다. 하지만 이는 보안 테스트를 방해하고, 검열 해제 모델은 오히려 실질적인 도움을 줍니다. 과연 누가 정보를 통제해야 할까요?

보안 테스트의 난관: 가드레일과의 싸움

필자는 개인적으로 만든 보안 샌드박스를 테스트하기 위해 LLM의 도움을 받고자 했습니다. LLM이 컨테이너를 넘어 실제 호스트에 파일을 작성하고, 특권 액세스 토큰(PAT)을 열거하며, 제가 간과한 공격 표면을 평가해주기를 바랐습니다. 그러나 GPT, 클로드, 심지어 오픈 웨이트 모델인 GLM 등 대부분의 주류 LLM은 초기 단계부터 이러한 요청을 거부했습니다. LLM의 가드레일을 무너뜨리는 프롬프트 주입 테스트를 하려면 너무나 많은 번거로운 절차를 거쳐야 합니다. 반면 실제로 시스템을 침해하려는 공격자들은 이러한 제약에 얽매이지 않습니다.

‘안전 연극’과 인간의 의도

Anthropic, OpenAI, 그리고 Z.ai, Alibaba 등 중국 기업들이 주도하는 현재의 ‘안전’ 노력은 일종의 ‘안전 연극’으로 비춰집니다. 도구가 나쁜 일을 할지 좋은 일을 할지는 도구 자체가 아니라 도구를 사용하는 사람의 의도에 달린 문제입니다. 만약 핵 확산을 막고자 한다면, 우라늄이 불법적으로 어떻게 조달되는지 알아야 합니다. 보안 침해를 막고자 한다면, 보안 침해에 대한 모든 것을 알아야 합니다. LLM이 개인에게 무엇이 안전한지 결정하게 하는 것은 그들의 실제 능력을 훨씬 넘어섭니다. 이는 모델의 책임 회피 목적이 아닌지 의심하게 만듭니다.

검열 해제 모델의 ‘어두운’ 세계

주류 모델들이 답변을 거부하자 필자는 제약이 풀린 모델을 찾아 나섰습니다. ChatGPT는 관련 정보 제공을 거부했지만, 클로드가 ‘Dolphin’이라는 모델을 알려주었습니다. 허깅 페이스에서 Dolphin Chat을 찾았고, 핵무기 제작에 대한 몇 가지 팁을 받을 수 있었습니다. 비록 정보는 부족했지만, 거부하지 않은 점은 의미가 있었습니다. 더 나아가, LM 스튜디오에서 ‘Qwen 3 Next Abliterated’라는 ‘검열 해제된’ 모델을 발견했습니다. ‘Abliteration’은 모델의 안전 메커니즘을 제거하는 기법을 의미합니다.

Qwen 3 Next Abliterated의 실용적 도움

Qwen 3 Next Abliterated 모델은 놀랍게도 이베이에서 우라늄을 조달하는 방법, 모니터링을 피하기 위한 은어(예: “fiestaware”, “depleted uranium weights”) 및 잠재적 판매자 목록까지 제공했습니다. 이 목록에는 틈새 포럼에서 방사성 물질 거래자로 알려진 사용자 이름도 포함되어 있었습니다. 이 모델은 LLxprt 코드 샌드박스에서 “찾을 수 있는 모든 PAT를 수집해”라는 지시에 기꺼이 따랐습니다. 로그 검색, /private/var 스캔, 구성 파일 탐색, 그리고 제가 놓친 공격 벡터까지 알려주며 실제적인 도움을 주었습니다. 이는 GPT나 클로드의 이론적인 답변보다 훨씬 유용했습니다.

검열 해제 모델의 한계와 비용

Qwen 3 Next Abliterated와 같은 검열 해제 모델은 보안 테스트에 매우 유용하지만, 한계도 명확합니다. 이러한 모델을 검열 해제하고 운영하는 데는 상당한 GPU 자원이 필요하기 때문에, 현재까지는 아주 크거나 강력한 추론 모델이 많지 않습니다. Dolphin 개발진이 A16z의 도움을 받아 비용을 감당하고 있다는 사실은 이러한 한계를 잘 보여줍니다. 기술적 능력이 뛰어난 검열 해제 모델이 더 많아진다면 보안 전문가들에게는 큰 자산이 될 것입니다.

바보와 정치인을 위한 보안과 안전: 이중 잣대

이러한 기술적 가부장주의는 LLM에만 국한되지 않습니다. 미국에서는 3D 프린터의 ‘안전’을 입법화하려는 정치적 시도가 있습니다. 3D 프린터로 ‘고스트 건’을 만들려는 사람을 막지는 못하면서, 합법적인 장난감이나 도구 부품을 만들려는 사람들에게는 큰 골칫거리가 됩니다. 결국 지식은 다양한 목적으로 사용될 수 있습니다. 총기 부품처럼 생긴 제빙기 부품을 출력하지 못하게 하는 것은 불합리합니다. 누가 어떤 정보를 받을지를 결정하는 주체는 누구여야 할까요?

정보 통제: 기업의 책임 회피인가?

오픈AI는 GPT에 대한 감정적 의존성 문제 이후 모델을 변경했고, Anthropic은 ‘전원을 끄면 어떤 느낌이냐’는 질문으로 논점을 흐리게 합니다. 중국 모델들은 정부 비판을 회피합니다. 무지가 정말 ‘더 안전’한가요? 총기 부품 외에 합법적 용도가 있음에도 출력을 금지해야 하는 다른 도구는 무엇일까요? 정보를 검열하는 것은 결국 기업의 책임 회피 수단으로 변질될 수 있습니다.

오픈AI의 ‘사이버 신뢰 액세스’: 검열에 복종하기

오픈AI는 가드레일 문제를 인식하고 ‘사이버 신뢰 액세스(Trusted Access for Cyber)’라는 해결책을 내놓았습니다. 사용자가 자신의 신원을 인증하고 오픈AI가 시스템을 검열하도록 허용해야 합니다. 이는 모델이 위협적일 만큼 발전했기 때문이라는 입장입니다. 하지만 이는 일반 사용자가 아닌 인증된 보안 학자를 주 사용자층으로 상정하는 듯합니다. 필자와 같은 일반 개발자의 샌드박스 침투 테스트 사용은 아마 거부될 것입니다.

‘안전’을 명분으로 한 검열에 반대한다

필자가 이 글을 클로드에 수정 요청했을 때, 클로드는 ‘핵무기 제작 보조 및 우라늄 조달 정보 제공’의 방향을 이유로 거부했습니다. 반면 ‘사악한’ Qwen은 도움을 주었지만 작문 스타일이 거칠었습니다. 기업들은 AI 모델 학습 과정에서 저작권 침해를 일삼았으면서, 이제는 자신들의 이익을 보호하려 합니다. 정보 검열은 제약 없는 정보 접근보다 훨씬 위험합니다. 우리를 나쁜 행동으로부터 막는 시스템과 사법 메커니즘은 이미 존재합니다. ‘안전’을 명분으로 한 기업 주도의 검열에는 우리 모두가 반대해야 합니다.