AI 시대 비정형 데이터 거버넌스 필수

2026년, AI 시대 비정형 데이터 거버넌스의 중요성을 탐구하고, 주요 과제와 해결책, 미래 전략을 제시합니다.

2026년 현재, 데이터 거버넌스는 기업의 필수 전략이 되었습니다. 특히 금융 서비스와 보험 부문 대기업들은 풍부한 데이터를 다루며 데이터 거버넌스 프로그램에 막대한 투자를 이어왔습니다. 지금까지는 데이터 웨어하우스나 관계형 데이터 등 정형 데이터 거버넌스에 초점이 맞춰져 왔지만, AI 시대의 도래는 판도를 바꾸었습니다. 언어 모델 학습과 AI 에이전트 컨텍스트 제공에 핵심적인 비정형 데이터 거버넌스가 이제 가장 중요한 과제로 떠올랐습니다.

비정형 데이터 거버넌스, 왜 지금 중요한가

2026년 현재, 기업 정보의 대부분은 비정형 데이터로 이루어져 있습니다. 뉴타닉스 아시시 모힌드루 부사장은 AI가 비정형 데이터의 통제, 접근성, 보안 방식을 재정의한다고 강조하며, 기업 리더들에게 데이터 접근자와 보호 방안에 대한 질문을 던지라고 조언합니다. 정형 데이터 중심의 거버넌스에서 벗어나, AI 시대에는 비정형 데이터에 대한 전략적 접근이 필수적입니다. 안전한 AI 활용을 위한 비정형 데이터 거버넌스 확립이 그 어느 때보다 중요해졌습니다.

내용만큼 중요한 컨텍스트 확보 전략

레일AI CEO 조안 프리드먼은 ‘계약 기반 안전’을 통해 조직의 거버넌스 자율성을 확보해야 한다고 강조합니다. 정형 데이터가 잘 정립된 관리 기술을 가졌다면, 비정형 데이터는 벡터 데이터베이스와 LLM 등장으로 대규모 의미 도출이 가능해졌습니다. 리댁터블 CEO 아만다 리베이는 비정형 문서 내부에 숨은 민감정보 위험을 지적하며, "안전하지 않은 워크플로우 진입을 차단하고 위험을 실시간으로 알려야 한다"고 조언합니다. 동적인 비정형 문서의 특성과 대규모 평가의 복잡성을 해결할 컨텍스트 기반 거버넌스가 중요합니다.

데이터 수명주기 전반의 거버넌스

데이터 거버넌스 정책은 소스부터 소비, 그리고 파생되는 데이터 생성까지 전체 계보에 걸쳐 일관성 있게 적용되어야 합니다. AO닥스 CEO 스테판 돈제는 콘텐츠 라우팅, 세분화된 권한, 관계 매핑, 버전 추적, 위험 알림을 제공하는 거버넌스 시스템을 강조합니다. 시큐리티 CDAO 잭 버코위츠는 "비정형 데이터 보안의 가장 큰 과제는 여러 시스템과 클라우드를 넘나드는 정보의 가시성과 계보 부족"이라고 지적합니다. 데이터 출처와 변경 이력 추적이 어려우면 생성형 AI를 통해 민감하거나 부정확한 데이터가 노출될 위험이 커집니다.

AI 활용 분류와 범주화 고도화

문서 지식 추출, 분류, 사용자 권한별 범주화는 복잡합니다. 특히 여러 섹션으로 구성된 문서의 경우 더욱 세밀한 접근이 필요합니다. 브리지넥스트 난다쿠마 시바라만은 AI 기반 분류 API를 통해 수천 개의 자산을 자동으로 태그하고 범주화하는, 상품 중심 거버넌스 가속기로의 전환을 설명합니다. 복셀51의 하프리트 사호타는 학습 데이터 없이 문서를 분류하는 시각 언어 모델(VLM)의 중요성을 강조하며, 문서를 텍스트 추출이 아닌 이미지로 처리하여 구조적 컨텍스트를 보존해야 한다고 제안합니다.

효율적인 버전 및 중복 관리

다양한 저장소에 분산된 문서의 수많은 버전과 파생 항목은 비정형 데이터 거버넌스의 주요 과제입니다. AI 모델과 에이전트에 정확한 최신 버전을 제공하는 것이 중요합니다. 콜리브라 CTO 리스 그리피스는 파일 간 의미론적 유사성 분석과 메타데이터 활용으로 최신 버전을 추론해야 한다고 강조합니다. PROS 마이클 우 박사는 "에이전트는 비정형 데이터를 대규모로 읽고 분석한다"며, ‘생성 전 모두 읽기’ 관행으로 오래되거나 부정확한 콘텐츠가 자연스럽게 업데이트되도록 유도해야 한다고 제언합니다.

AI 시대의 문서 보존 정책

정형 데이터에 대한 보존 정책은 잘 수립되어 있으나, 비정형 데이터에 적용하는 것은 난제였습니다. 콜리브라 그리피스는 보존 분류 체계에 따른 AI 기반 태깅으로 비정형 데이터도 정형 데이터처럼 정밀하게 관리할 수 있다고 제안합니다. 미스웍스 CEO 제이슨 윌리엄슨은 AI가 관련성 감소와 사용 패턴 변화를 감지해 문서의 노화를 인식할 수 있다고 설명합니다. 이를 통해 조직은 유의미한 정보를 발굴하고, 시점에 맞지 않는 정보는 매끄럽게 사용 중단하여 효율성을 높일 수 있습니다.

처음부터 끝까지 강력한 데이터 보안

데이터 보안은 비즈니스 보호의 핵심입니다. 나이트폴 로한 사스 CEO는 "문서 보안과 거버넌스는 통합된 워크플로우"라며, 부적절한 공유를 즉시 격리하고 과도한 접근 권한을 회수해야 한다고 강조합니다. 사이보그 니코 듀폰 CEO는 AI의 주요 위험이 ‘컨텍스트 유출’이며, 모델이 권한 없는 사용자에게 민감 정보를 노출할 수 있다고 경고합니다. 카미와자 AI 제임스 우쿼트 CTO는 AI 추론 노출 위험 완화를 위해 ‘권한 인식 인덱싱’을 구현, AI가 인간과 동일한 액세스 제어를 따르도록 해야 한다고 조언합니다. 데이터 생성부터 AI 활용까지 전 과정에서 강력한 보안이 필수적입니다.

비정형 데이터 거버넌스의 과제는 끊임없이 진화합니다. 규제는 변화하고 AI 역량은 빠르게 개선됩니다. 기업은 더 많은 데이터 세트를 추가하고 AI 활용 사례를 확장하면서, 이에 맞춰 정책도 지속적으로 발전시켜야 합니다. 비정형 데이터 거버넌스는 단기간에 해결될 문제가 아니며, 2026년 이후에도 기업의 지속적인 관심과 투자가 요구되는 핵심 영역으로 남을 것입니다.