무단 크롤링, 끝나지 않는 데이터 전쟁: 기업은 무한대의 비용을 감당해야 하는가?
AI 모델 학습을 위한 무분별한 크롤링, 기업의 고통
생성형 AI(GenAI) 모델 학습을 위해 웹 콘텐츠를 긁어모으는 온라인 스크래퍼 봇들의 활동은 이제 놀라운 일이 아닙니다. 기업들은 자신들의 사이트를 크롤링하지 말라고 경고했지만, 봇들은 아랑곳하지 않고 막대한 대역폭 사용료를 발생시키고 있습니다. 더욱 놀라운 것은 대규모 언어 모델(LLM) 제작사들이 책임 회피를 위해 출처를 밝히지 않은 브라우저와 기타 수단을 사용한다는 점입니다.
웹 초기부터 존재했던 불평등, 대역폭 비용 문제
이러한 상황은 웹 초기부터 존재했던 불평등 문제와 맞닿아 있습니다. 바로 호스팅 회사들이 대역폭 사용량을 기준으로 기업에게 요금을 부과하는 방식입니다. 얼핏 보면 합리적으로 보이지만, 기업들은 자신들의 대역폭 사용량을 제한적으로만 통제할 수 있으며, 예산 또한 한정되어 있다는 맹점이 있습니다. 기업의 대역폭 예산은 일반적인 활동을 기준으로 책정되지만, 소셜 미디어에서 특정 게시물이 바이럴 되거나 예상치 못한 트래픽 급증이 발생하면 대역폭 비용은 천정부지로 치솟게 됩니다.
트래픽 증가를 기대하며 감수했던 과거, 현재는?
과거에는 트래픽 급증이 수익 증대로 이어질 것이라는 기대감 때문에 기업들은 대역폭 비용 증가를 묵인했습니다. 검색 엔진 스파이더(봇) 역시 대역폭을 소모했지만, 검색 트래픽이 고객 유치에 도움이 된다는 믿음이 있었습니다. 대부분의 검색 엔진 스파이더는 robots.txt 지침을 준수하며 사이트 방문 및 페이지 크롤링을 제한했습니다. 검색 엔진 제공업체들은 대부분의 사이트가 자신들의 방문을 환영한다는 것을 알았기 때문에 이러한 제한을 존중했습니다.
LLM 기업의 무단 크롤링, 그들은 누구인가?
하지만 오늘날, LLM 개발사들은 다양한 교묘한 메커니즘을 통해 '출입 금지' 표지판을 무시하고 있습니다. 그들의 크롤러는 인간 방문객이나 검색 엔진 스파이더와 같은 가치를 제공하지 않습니다. 기업 사이트에 새로운 잠재 고객을 데려오는 대신 데이터를 훔쳐 자신의 애플리케이션에 사용하고, 다른 사람에게 판매합니다. 웹사이트 소유자는 대역폭 사용량 증가로 인한 비용 상승만 감수할 뿐, 실질적인 이익은 얻지 못합니다.
가려진 진실, 그리고 충돌하는 이해관계
대부분의 주요 모델 제작사들은 이러한 행위를 부인하지만, 이는 그들이 미신고 크롤러를 사용하여 '더러운 일'을 수행하기 때문입니다. 이들은 법적 책임을 교묘하게 회피하도록 설계된 방식으로 데이터를 수집합니다. 클라우드플레어(Cloudflare)와 같은 기업들은 허가받지 않은 크롤러를 막기 위한 '유인책'을 제공하지만, 근본적인 문제는 기업들이 통제할 수 없는 대역폭에 대해 무한정 비용을 지불하는 데 동의했다는 점입니다. 만약 허가받지 않은 크롤러에게 이러한 비용을 지불하도록 강제한다면, 상황은 빠르게 해결될 것입니다. 또는 클라우드 공급업체가 대역폭에 대한 요금을 부과할 수도 있습니다. 아마존, 구글, 마이크로소프트와 같은 대규모 클라우드 기업들은 '무법자' 크롤러를 운영하고 있다는 사실은 매우 흥미로운 지점입니다. 이는 거대한 이해 상충을 야기합니다.
해결책은 어디에? 복잡한 문제, 어려운 해결
이 문제를 해결하기는 쉽지 않습니다. 예를 들어, 사이트가 대역폭에 대해 특정 금액 이상을 지출하지 않겠다고 선언할 수 있지만, 그 금액을 초과하면 어떻게 될까요? 월마트나 체이스 은행이 정말로 "다음 달까지 대역폭 공급을 중단하라"고 말할 수 있을까요? 물론 불가능합니다. 특정 대역폭 증가를 특정 방문자와 연결하는 것 또한 어렵습니다. 대부분의 사이트 분석 도구는 특정 방문자에게 특정 대역폭 증가를 귀속시키는 데 어려움을 겪고 있습니다. 그리고 가장 큰 위반자들은 신고되지 않은 봇이거나 특정 회사와 쉽게 연결되지 않는 봇일 것입니다. 때로는 봇이 미국 법률을 잘 따르지 않는 중국, 러시아, 북한과 같은 국가에서 유입되기도 합니다. 여전히 기업 IT 부서는 호스팅 공급업체 또는 이러한 계약을 처리하는 비즈니스 파트너와 허가받지 않은 대역폭 요금을 통제하는 것에 대해 심각하게 논의해야 합니다. 봇이 인간보다 더 많은 트래픽을 차지한다는 보고서를 감안할 때, 이러한 논의는 시급히 이루어져야 합니다.
결론
무단 크롤링 문제는 기업에게 막대한 비용 부담을 안겨주는 심각한 문제입니다. LLM 개발사들의 책임 회피와 불투명한 데이터 수집 방식은 더욱 큰 우려를 낳고 있습니다. 기업들은 호스팅 업체와의 계약 조건을 재검토하고, 무단 크롤링을 방지하기 위한 기술적 솔루션을 적극적으로 도입해야 합니다. 동시에, 정부와 관련 기관은 데이터 수집 및 활용에 대한 명확한 규제를 마련하여 공정한 경쟁 환경을 조성해야 할 것입니다.