LLM 데이터 유출 경고 기업 정보 보안 비상

Share

대규모 언어 모델(LLM)의 데이터 수집 및 공유 실태: 기업과 개인의 정보 보안에 대한 경고

최근 발표된 연구 결과에 따르면 Meta, Google, Microsoft와 같은 주요 기업들이 대규모 언어 모델(LLM)을 운영하면서 민감한 데이터를 수집하고 이를 알 수 없는 제3자와 공유하고 있는 것으로 나타났습니다. 개인 정보 제거 서비스 및 데이터 프라이버시 회사인 Incogni의 조사 결과는 개인 사용자뿐만 아니라 기업 또한 심각한 위험에 직면할 수 있음을 시사합니다.

LLM의 위험성: 데이터 유출과 기업 정보의 악용 가능성

직원들이 업무 보고서나 커뮤니케이션 초안 작성에 생성형 AI 도구를 사용하는 과정에서 기업의 독점적인 데이터가 LLM 학습 데이터 세트에 포함될 수 있습니다. 이러한 보호 장치의 부재는 개인 정보 침해뿐만 아니라 민감한 기업 정보가 경쟁사 또는 외국 정부와의 상호 작용에서 재사용될 수 있는 위험을 초래합니다. 이는 기업의 경쟁력과 규정 준수에도 심각한 위협이 될 수 있습니다.

기업의 보안 노력과 LLM의 위협

기업들은 이메일 보안, 장비 잠금, SOC 2 프로토콜 준수 등 정보 보호를 위해 많은 노력을 기울이고 있습니다. 하지만 직원들이 LLM에 정보를 제공함으로써 기업들은 자신도 모르게 정보를 처리하고 잠재적으로 경쟁자나 외국 정부에 제공할 수 있는 엔진에 문을 열어준 셈이 됩니다.

Incogni의 LLM 평가 기준 및 결과

Incogni는 LLM의 개인 정보 위험을 평가하기 위해 11가지 기준을 개발하여 각 프로그램의 학습 방식, 투명성, 데이터 수집 및 공유 측면을 분석했습니다. 그 결과, Mistral AI의 Le Chat이 개인 정보 침해 위험이 가장 낮은 플랫폼으로 평가되었고, ChatGPT와 Grok이 그 뒤를 이었습니다. 반면, Meta AI, Gemini(Google), Copilot(Microsoft)과 같은 대형 기술 기업의 LLM 플랫폼은 개인 정보 침해 위험이 가장 높은 것으로 나타났습니다. 특히 Gemini, DeepSeek, Pi AI, Meta AI는 프롬프트가 모델 학습에 사용되는 것을 사용자가 거부할 수 있는 옵션을 제공하지 않는 것으로 밝혀졌습니다.

기업의 대응 전략: 직원 교육과 안전한 LLM 활용

Info-Tech Research Group의 Justin St-Maurice는 기업 관점에서 직원들이 ChatGPT, Gemini, Meta AI와 같은 도구에 어떤 정보를 입력하면 안 되는지에 대한 교육이 중요하다고 강조합니다. 직원들은 생성형 AI 도구를 사용할 때 소셜 미디어에 개인 정보나 민감한 정보를 게시하지 않도록 교육받는 것과 유사한 인식을 가져야 합니다. 이러한 플랫폼은 개인적인 공간이 아닌 공공의 영역으로 간주해야 하며, 개인 식별 정보(PII) 또는 독점적인 회사 데이터를 입력하는 것은 블로그에 게시하는 것과 다를 바 없습니다.

LLM의 가치 활용과 데이터 보안 유지

개인 정보 보호 문제는 중요하지만, 그렇다고 해서 기업이 대규모 언어 모델을 완전히 피해야 한다는 의미는 아닙니다. Amazon Bedrock과 같은 보안 클라우드 서비스를 통해 자체적으로 모델을 호스팅하면 모델에 데이터가 보존되지 않도록 할 수 있습니다. 이러한 시나리오에서 LLM은 랩톱의 CPU와 같이 프로세서 역할을 수행하며, 사용자가 저장하고 다시 입력하지 않는 한 아무것도 "기억"하지 않습니다.

맺음말

대규모 언어 모델의 데이터 수집 및 공유 실태는 기업과 개인 모두에게 심각한 경고를 보내고 있습니다. 기업은 직원 교육을 강화하고 안전한 LLM 활용 방안을 모색하여 데이터 유출 위험을 최소화해야 합니다. 자체 모델 호스팅과 같은 대안을 통해 제3자 데이터 노출 위험을 완전히 제거할 수도 있습니다. 정보가 단순히 수집되는 것이 아니라 재사용되고 공개될 수 있다는 점을 인지하고 데이터 보안에 대한 경각심을 높여야 할 것입니다.

이것도 좋아하실 수 있습니다...