by Wizard

검색 증강 생성(RAG)의 그림자와 빛: 인공지능의 정확성과 안전성 확보

최근 몇 년간 생성형 인공지능(GenAI) 기술은 눈부신 발전을 거듭하며 다양한 분야에서 혁신을 주도하고 있습니다. 그 중심에는 검색 증강 생성(Retrieval-Augmented Generation, RAG)이라는 방법론이 자리 잡고 있습니다. RAG는 OpenAI의 ChatGPT와 같은 GenAI 도구가 더 정확하고 풍부한 정보를 바탕으로 답변을 제공할 수 있도록 돕는 핵심 기술로 주목받고 있습니다. 하지만 RAG가 항상 효과적인 것은 아니며, 오히려 GenAI 모델의 안전성과 신뢰성을 저해할 수 있다는 연구 결과가 발표되면서 논란이 일고 있습니다.

RAG, 만능 해결책이 될 수 없는 이유

RAG는 GenAI 모델이 단순히 기억에 의존하는 대신 정보를 검색하여 활용하도록 함으로써 답변의 정확성을 높이는 데 기여합니다. Gartner Research의 최근 연구에 따르면 2028년까지 GenAI 비즈니스 앱의 80%가 기존 데이터 관리 플랫폼을 기반으로 개발될 예정이며, RAG는 미래 배포의 핵심 요소가 될 것으로 예상됩니다. 하지만 일각에서는 RAG가 "단순한 유행어"에 불과하며, 과장된 측면이 있다고 비판합니다. 실제로 Bloomberg와 The Association for Computational Linguistics (ACL)의 연구에 따르면 RAG를 대규모 언어 모델(LLM)과 함께 사용할 경우 LLM과 문서 모두 안전하더라도 안전성이 저하될 수 있습니다. 이러한 연구 결과는 RAG 환경에 특화된 안전 연구와 레드팀(red-teaming)의 필요성을 강조합니다.

RAG의 작동 방식과 잠재적 보안 위험

RAG는 GenAI 모델이 질문에 답변할 때 교과서나 노트를 참고하는 학생과 유사하게 작동합니다. 모델은 외부 지식이 필요한 경우 관련 문서를 검색하고, 검색된 정보를 바탕으로 답변을 생성합니다. 데이터 통합 서비스 제공업체 K2view의 CEO인 Iris Zarecki는 대부분의 기업이 RAG를 사용하여 매뉴얼, 지식 베이스, 웹사이트 등 내부 비정형 데이터로 GenAI 모델을 보강한다고 밝혔습니다. 하지만 RAG의 잠재력을 최대한 활용하려면 고객 정보와 같은 조각화된 정형 데이터도 포함해야 합니다. RAG는 검증되지 않은 정보 및 프롬프트 주입과 관련된 보안 위험을 증가시킬 수 있으므로 기업은 소스 검증, 문서 정리, 검색 제한 시행, 출력 유효성 검사와 같은 조치를 취해야 합니다. 또한 RAG는 방화벽을 통해 데이터 유출을 초래할 수 있으므로 보안 및 데이터 거버넌스에 대한 철저한 관리가 필요합니다.

대규모 추론 모델(LRM)의 한계

Apple은 최근 연구 논문에서 Gemini flash thinking, Claude 3.7 Sonnet thinking, OpenAI의 o3-mini와 같은 대규모 추론 모델(LRM)을 다양한 난이도의 논리 퍼즐을 사용하여 평가했습니다. RAG와 마찬가지로 LRM은 단계별 추론을 통해 더 나은 응답을 제공하도록 설계되었습니다. 하지만 Apple의 "사고의 환상(Illusion of Thinking)" 연구에 따르면 작업의 복잡성이 증가함에 따라 표준 LLM과 LRM 모두 정확도가 크게 감소하여 결국 거의 0에 가까운 성능을 보였습니다. 특히 LRM은 작업이 어려워질수록 추론 노력을 줄이는 경향을 보였으며, 이는 어려움을 극복하기보다는 "포기"하는 경향을 나타냅니다. 이러한 결과는 LRM이 진정한 이해보다는 패턴 인식을 기반으로 작동한다는 점을 시사하며, 인공지능의 "진정한 지능"으로의 경로에 대한 가정을 재고하게 만듭니다.

Reverse RAG(RRAG)를 통한 정확성 향상

Gartner의 수석 이사 분석가 Prasad Pore는 새로운 접근 방식인 Reverse RAG(RRAG)가 검증 및 향상된 문서 처리를 통해 정확성을 향상시키는 것을 목표로 한다고 밝혔습니다. 일반적인 RAG가 데이터를 검색한 다음 응답을 생성하는 워크플로를 사용하는 것과 달리 Reverse RAG는 응답을 생성하고, 해당 응답을 검증하기 위해 데이터를 검색한 다음, 사용자에게 전달할 응답을 다시 생성합니다. 이 모델은 먼저 잠재적인 사실이나 쿼리를 초안한 다음, 지원 문서를 가져와 각 주장을 해당 소스에 대해 엄격하게 확인합니다. Reverse RAG는 사실 수준의 검증과 추적 가능성을 강조하여 출력을 더욱 신뢰할 수 있고 감사 가능하게 만듭니다. RRAG는 LLM이 정보에 접근하고, 검증하고, 생성하는 방식에 있어 중요한 진화를 나타냅니다.

GenAI 출력 품질 개선을 위한 추가 방법

Zarecki에 따르면 RAG와 LRM만으로는 만능 해결책이 될 수 없습니다. GenAI 출력 품질을 개선하기 위한 추가 방법에는 다음과 같은 것들이 있습니다.

구조화된 근거: RAG에서 고객 정보와 같은 조각화된 구조화된 데이터를 활용합니다.
미세 조정된 가드레일: 제약 조건이 있는 제로샷 또는 퓨샷 프롬프트, 제어 토큰 또는 명령 조정 사용
휴먼-인-더-루프 감독: 특히 의료, 금융 또는 법률과 같은 고위험 영역에서 중요합니다.
다단계 추론: 검색 → 추론 → 생성으로 작업을 나누면 특히 도구 사용 또는 함수 호출과 결합할 때 사실성이 향상되고 오류가 줄어듭니다.

기업은 또한 개인 정보 보호, 실시간 액세스, 품질, 확장성 및 챗봇 대기 시간 요구 사항을 충족하기 위해 즉각적인 가용성을 보장함으로써 GenAI 및 RAG를 위한 엔터프라이즈 데이터를 구성해야 합니다.

맺음말

결론적으로 RAG는 GenAI의 발전에 중요한 역할을 하지만, 그 한계와 잠재적인 위험을 간과해서는 안 됩니다. 보안 및 윤리적 문제를 해결하고, 다양한 접근 방식을 결합하여 GenAI의 정확성과 안전성을 확보하는 노력이 필요합니다. 기술 발전과 더불어 규제 및 표준에 대한 지속적인 논의와 발전이 이루어져야 할 것입니다.