인공지능 웹 스크래퍼, 이제 돈 내고 긁어가세요: Cloudflare의 ‘페이 퍼 크롤(Pay Per Crawl)’ 도입
웹 콘텐츠 창작자들에게 희소식이 들려왔습니다. Cloudflare가 인공지능(AI) 웹 스크래퍼로부터 콘텐츠를 보호하고, 심지어 수익까지 창출할 수 있는 새로운 방법을 제시했습니다. 바로 ‘페이 퍼 크롤(Pay Per Crawl)’이라는 기능입니다. 그동안 콘텐츠 무단 사용에 속앓이를 했던 창작자들에게 단비 같은 소식이 아닐 수 없습니다.
웹 스크래핑, 빛과 그림자
웹 스크래핑은 웹 페이지에서 데이터를 추출하는 기술입니다. 유용한 정보를 얻기 위해 사용되기도 하지만, 무분별한 스크래핑은 서버에 과부하를 일으키고, 저작권 침해, 데이터 유출 등 다양한 문제를 야기할 수 있습니다. 특히 AI 모델 학습을 위한 데이터 수집 과정에서 웹 스크래핑이 빈번하게 사용되면서, 콘텐츠 창작자들은 자신의 콘텐츠가 동의 없이 사용되는 것에 대한 우려를 표해왔습니다.
Cloudflare, 새로운 해결책 제시
Cloudflare는 이러한 문제점을 해결하기 위해 HTTP 응답 코드 402 (Payment Required)를 활용한 '페이 퍼 크롤' 기능을 도입했습니다. 이를 통해 콘텐츠 창작자는 특정 크롤러에게 무료 접근을 허용하거나, 유료 접근을 설정하거나, 아예 접근을 차단할 수 있습니다. 즉, 콘텐츠에 대한 통제권을 강화하고, 필요에 따라 수익을 창출할 수 있게 된 것입니다.
402 응답 코드의 부활
HTTP 402 응답 코드는 본래 결제가 필요한 콘텐츠에 대한 접근을 제한하는 데 사용될 예정이었으나, 실제로는 널리 사용되지 않았습니다. Cloudflare는 이 코드를 부활시켜 AI 크롤러에게 콘텐츠 접근에 대한 대가를 요구하는 방식으로 활용합니다. 크롤러는 402 응답을 받으면 결제 의사를 밝히거나, 접근을 포기해야 합니다. 또한, 콘텐츠 차단 상태에서도 향후 결제 가능성을 알릴 수 있습니다.
위조 크롤러 방지 기술
가짜 크롤러가 합법적인 크롤러로 위장하여 접근하는 것을 막기 위해, Cloudflare는 'signature-agent', 'signature-input', 'signature' 헤더를 사용한 인증 시스템을 구축했습니다. 정식 크롤러는 Ed25519 키 쌍을 사용하여 Cloudflare에 인증을 요청하고, Cloudflare는 등록된 URL, 사용자 에이전트 정보 등을 비교하여 진위 여부를 판단합니다.
크롤러의 예산 관리 기능
크롤러는 'crawler-exact-price' 헤더를 사용하여 웹사이트가 제시하는 가격을 수락하거나, 'crawler-max-price' 헤더를 사용하여 접근 가격이 예산 범위 내에 있을 경우에만 접근하도록 설정할 수 있습니다. 이는 크롤러가 효율적으로 예산을 관리하고, 불필요한 지출을 줄이는 데 도움이 됩니다.
미래 가능성: AI 에이전트의 정보 접근
Cloudflare는 '페이 퍼 크롤'이 미래에 AI 에이전트가 프롬프트에 대한 응답으로 웹을 크롤링할 때, 사용자에게 고품질의 관련성 높은 콘텐츠를 제공하는 데 활용될 수 있다고 전망합니다. AI 에이전트에게 예산을 할당하여 웹을 탐색하고, 유료 콘텐츠에 접근할 수 있도록 하는 것입니다.
현재는 비공개 베타 테스트 중
'페이 퍼 크롤' 기능은 현재 비공개 베타 테스트 중이며, 관심 있는 사용자는 Cloudflare에 문의하여 참여할 수 있습니다. 앞으로 '페이 퍼 크롤'이 웹 콘텐츠 생태계에 어떤 변화를 가져올지 귀추가 주목됩니다.
맺음말
Cloudflare의 ‘페이 퍼 크롤’은 AI 시대에 콘텐츠 창작자의 권리를 보호하고, 새로운 수익 창출 모델을 제시하는 혁신적인 시도입니다. 앞으로 이 기능이 더욱 발전하고 널리 활용되어, 건강한 웹 콘텐츠 생태계를 구축하는 데 기여할 수 있기를 기대합니다.