2026년, 마이크로소프트 연구진의 최신 연구는 LLM이 복잡한 다단계 작업을 수행할 때 심각한 오류를 일으켜 문서 내용을 손상시킬 수 있음을 경고합니다. 기업의 AI 활용에 중요한 시사점을 던집니다.
2026년 LLM 신뢰성 논란: 마이크로소프트 경고
2026년 현재, 거대 언어 모델(LLM)은 디지털 전환의 핵심 동력으로 자리매김하고 있습니다. 그러나 마이크로소프트 연구진 필립 라반, 토비아스 슈나벨, 제니퍼 네빌이 발표한 사전 공개 논문 "LLMs Corrupt Your Documents When You Delegate"는 LLM의 치명적인 한계를 경고합니다. 이 연구는 LLM이 복잡한 다단계 작업을 수행할 때 오류에 매우 취약하며, 심지어 중요한 문서를 조용히 손상시킬 수 있음을 보여줍니다. 이는 기업이 AI 기반 자동화를 확장하려는 계획에 중요한 제동을 걸 수 있는 결과입니다.
DELEGATE-52 벤치마크의 충격적 결과
연구진은 지식 노동자의 실제 업무 흐름을 시뮬레이션하기 위해 DELEGATE-52라는 독자적인 벤치마크를 만들었습니다. 이 벤치마크는 코딩, 결정학, 족보학, 악보 표기법 등 총 52개 전문 도메인에 걸쳐 310개의 실제 작업 환경을 포함합니다. 각 환경은 약 15,000개 토큰 길이의 실존 문서와 LLM에게 위임될 5~10가지의 복잡한 편집 작업으로 구성됩니다. 분석 결과, 현재 LLM은 신뢰할 수 없는 대리인으로, 미미하지만 심각한 오류를 조용히 주입하여 장기적인 상호작용에서 문서가 점차 손상된다는 사실이 밝혀졌습니다.
첨단 LLM, 문서 내용 25% 손실
연구 결과는 현재 LLM이 작업 문서 편집 시 상당한 오류를 유발함을 명확히 보여줍니다. 최첨단 모델인 Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4는 20번의 위임된 상호작용 후 평균 25%의 문서 내용을 손실하는 것으로 나타났습니다. 이는 전체 테스트 모델의 평균 문서 손상률 50%라는 수치와 함께 LLM의 신뢰성에 대한 심각한 우려를 제기합니다. 이러한 오류는 단순한 오타가 아닌, 문서의 핵심 정보가 사라지거나 왜곡되는 형태로 나타나 기업 업무에 치명적인 영향을 미칠 수 있습니다.
전문가들, "진지한 경고"로 받아들여야
Info-Tech Research Group의 브라이언 잭슨 연구 이사는 다양한 업무 영역에서 LLM을 테스트한 이번 벤치마크가 매우 유용한 통찰력을 제공한다고 평가했습니다. 그는 "이러한 유형의 벤치마크는 에이전트 AI를 활용하여 특정 워크플로우를 자동화하려는 기업 개발자들에게 달성 가능한 한계를 이해하는 데 도움이 될 것"이라고 언급했습니다. 그러나 잭슨은 20번의 편집 후 문서 손상이 발생했다고 해서 LLM이 특정 분야에서 자동화에 사용될 수 없다고 결론내려서는 안 된다고 덧붙였습니다.
AI 신뢰성, "결과물 무결성"에 달려있다
Greyhound Research의 산치트 비르 고기아 최고 분석가는 이 논문이 "위임된 AI에 대한 진지한 경고"로 읽혀야 하며, "기업 AI가 실패했다는 주장이 아니다"라고 강조했습니다. 그는 이 연구가 단순히 영리한 단편적 답변이 아니라 실제 작업 결과물의 무결성을 테스트한다는 점에서 기존 벤치마크보다 강력하다고 평가했습니다. "환각 현상에 대한 문제가 아니라, 아티팩트(결과물)의 무결성에 관한 문제"라는 고기아의 설명은 LLM 오류의 본질을 꿰뚫습니다.
오류 축적의 심각성
고기아 분석가는 이 연구가 오류가 어떻게 누적되는지를 보여주는 특히 유용한 자료라고 강조했습니다. 더 큰 문서, 더 긴 상호작용, 방해 파일의 존재 등은 모두 LLM의 작업 결과물을 악화시킵니다. 짧은 테스트는 시스템 성능을 과장하는 경향이 있지만, 장기적인 워크플로우는 그 취약성을 여실히 드러냅니다. 현재 대부분의 모델이 ‘준비’ 상태인 도메인은 파이썬이 유일하며, 최고의 모델도 52개 도메인 중 11개에서만 해당 임계값을 충족할 정도로 LLM의 보존 능력은 아직 미흡합니다.
기업 환경에서의 AI 활용 전략
브라이언 잭슨은 기업 환경에서 정확한 결과물이 중요하므로, LLM을 활용할 때는 오류를 방지하기 위한 강력한 안전장치와 함께 자동화 흐름을 설계해야 한다고 제안했습니다. 이는 편집 역할을 하는 에이전트와 오류를 검사하고 수정하는 다른 에이전트 등 여러 에이전트를 함께 사용하는 다중 에이전트 시스템으로 구현될 수 있습니다. AI가 모든 작업을 처리하게 두는 대신, 인간의 감독과 정교한 시스템 설계를 통해 위험을 효과적으로 관리해야 합니다.
오류 완화를 위한 맞춤형 학습
오류 피해를 막기 위해 기업은 모델을 특정 워크플로우에 더 잘 맞게 추가 학습하고 미세 조정할 수 있습니다. 잭슨은 "이러한 파운데이션 모델은 다양한 작업을 잘하지만, 하나의 특정 작업을 아주 잘하는 데는 부족하다"고 설명했습니다. 또한, 일부 기업 플랫폼은 수학적 검증을 통해 출력의 정확성을 확정적으로 검증하는 방법을 도입했습니다. 개발자는 단일 LLM에 더 어려운 도메인을 파악하고, 해당 프로세스에 추가 검증 단계를 계획하여 모델의 신뢰도를 높일 수 있습니다.
AI 시대, 인간의 역할은 ‘감독’으로 전환
고기아 분석가는 이번 연구가 ‘AI가 여전히 사람이 필요하다’는 점을 넘어, 인간의 역할이 생산에서 감독, 검증, 책임으로 변화한다는 것을 보여준다고 말합니다. 이는 많은 기업이 인력 감축을 목표로 하는 것과 다른 운영 모델입니다. AI 오류를 가장 잘 발견할 수 있는 사람들은 종종 기업이 대체하거나 줄이려고 하는 도메인 전문가들입니다. 워크플로우에서 너무 많은 도메인 전문성을 제거하면, AI가 작업을 손상시켰을 때 이를 인지할 사람이 사라지게 됩니다.
전문성, 더욱 중요해지는 이유
전문가들의 역할은 AI가 고도화될수록 더욱 중요해집니다. 고기아는 "강력한 모델들은 단순히 콘텐츠를 삭제하는 것이 아니라 종종 그것을 손상시킨다"고 지적합니다. 약한 모델은 자료를 눈에 띄게 떨어뜨릴 때 쉽게 발견되지만, 최첨단 모델은 내용이 남아있지만 잘못되거나 왜곡되거나 미묘하게 변경되어 파악하기 더 어렵습니다. 이는 단순한 검사가 아닌 지식에 기반한 심층적인 검토를 요구합니다. 계약서, 장부, 정책 등 중요한 문서의 AI 편집 시 발생하는 손상에 대한 책임은 여전히 기업에 있습니다.

