LLM 기반 악성코드, 아직은 현실 세계에서 ‘실패’ 가능성 높아
최근 챗GPT와 같은 거대 언어 모델(LLM)이 사이버 공격에 활용될 수 있다는 우려가 커지고 있습니다. 하지만 LLM으로 생성된 악성코드가 실제 환경에서 제대로 작동하는지 테스트한 결과, 아직까지는 초기 단계에 머물러 있다는 보고서가 발표되었습니다.
GPT-3.5, 손쉽게 악성 스크립트 생성… 안전장치 미흡
보안 업체 Netskope의 연구 결과에 따르면 GPT-3.5는 요청 즉시 악성 스크립트를 생성해 냈습니다. 이는 LLM의 안전장치가 여전히 미흡하다는 것을 보여줍니다. 반면 GPT-4는 간단한 페르소나 프롬프트를 사용하여 보호 장치를 우회해야만 악성 코드 생성이 가능했습니다. 이러한 실험 결과는 LLM이 점점 더 많은 제한 사항을 추가하고 있지만, 여전히 안전장치를 우회할 가능성이 존재한다는 점을 시사합니다.
실제 환경에서의 불안정성
연구팀은 GPT-3.5와 GPT-4에게 가상 머신 탐지 및 대응 스크립트 생성을 요청했습니다. 이후 VMware Workstation, AWS Workspace VDI, 물리적 머신 등 다양한 환경에서 해당 스크립트를 테스트했습니다. 하지만 스크립트는 빈번하게 충돌하거나, 환경을 잘못 식별하거나, 일관성 없이 작동하는 등 문제점을 드러냈습니다. 특히 물리적 호스트에서는 잘 작동하는 로직이 클라우드 기반 가상 공간에서는 제대로 작동하지 않았습니다.
자동화된 악성코드 공격, 아직은 시기상조
이러한 결과는 AI 도구가 인간의 개입 없이 다양한 시스템에 적응하는 자동화된 악성코드를 즉시 지원할 수 있다는 아이디어를 약화시킵니다. 또한 불안정한 코드는 방화벽이나 백신과 같은 기존 방어 체계를 우회하기 어렵기 때문에 기존 보안 솔루션의 중요성을 강조합니다.
GPT-5, 개선된 코드 품질과 강화된 안전장치
Netskope는 GPT-5에서 코드 품질이 크게 향상된 것을 확인했습니다. 특히 이전 모델이 어려움을 겪었던 클라우드 환경에서 더욱 두드러졌습니다. 하지만 강화된 안전장치는 악의적인 사용 시도를 더욱 어렵게 만들었습니다. GPT-5는 더 이상 요청을 거부하지 않았지만, 출력을 더 안전한 기능으로 리디렉션하여 다단계 공격에 사용할 수 없도록 만들었습니다. 연구팀은 더 복잡한 프롬프트를 사용해야 했고, 요청된 동작과 모순되는 출력을 받기도 했습니다. 이는 높은 신뢰성이 더 강력한 내장 제어 기능과 함께 제공됨을 시사합니다.
인간의 감독은 여전히 필수적
테스트 결과, LLM은 통제된 환경에서 유해한 로직을 생성할 수 있지만, 코드는 여전히 일관성이 없고 효과가 없는 경우가 많습니다. 따라서 완전 자동화된 공격은 아직 등장하지 않고 있으며, 실제 사고에는 여전히 인간의 감독이 필요합니다. 미래 시스템이 안전장치를 보완하는 것보다 더 빨리 안정성 격차를 좁힐 가능성은 여전히 존재하며, 악성코드 개발자들이 지속적으로 실험하고 있기 때문에 앞으로 상황이 어떻게 변화할지 주시해야 합니다.
맺음말
LLM 기반 악성코드의 위협은 과장된 측면이 있지만, 미래에는 더욱 발전된 형태의 공격이 나타날 수 있습니다. 따라서 LLM의 악용 가능성을 지속적으로 감시하고, 기존 보안 솔루션을 강화하는 동시에 새로운 위협에 대응할 수 있는 기술 개발에 투자해야 할 것입니다.