OpenAI GPT-5.2 출시: 전문가 수준의 업무 능력 향상?
OpenAI가 GPT-5.1 출시 후 얼마 지나지 않아 GPT-5.2를 발표하며 AI 모델 개발 속도를 가속화하고 있습니다. GPT-5.2는 실제 비즈니스 업무 수행 능력이 "전문가 수준"으로 향상되었다고 주장하며, 다양한 벤치마크에서 이전 모델보다 개선된 성능을 보여주고 있습니다. 이번 블로그 글에서는 GPT-5.2의 주요 특징과 함께 전문가들의 의견을 종합하여 냉철하게 분석해 보겠습니다.
GPT-5.2, 비즈니스 업무 능력 대폭 향상
OpenAI는 자체 개발한 GDPval 벤치마크를 통해 GPT-5.2가 44가지 비즈니스 업무에서 인간 전문가와 동등하거나 능가하는 수준으로 발전했다고 밝혔습니다. GPT-5.1이 38.8%의 성공률을 보인 반면, GPT-5.2는 70.9%의 성공률을 기록하며 눈에 띄는 성과를 나타냈습니다. 예를 들어, GPT-5.2는 인력 계획 스프레드시트를 완벽하게 포맷할 수 있는 반면, GPT-5.1은 스프레드시트를 올바르게 작성하지만 포맷이 부족한 기본 상태로 출력했습니다. OpenAI는 GPT-5.2가 스프레드시트 작성, 프레젠테이션 제작, 코드 작성, 이미지 인식, 긴 문맥 이해, 도구 활용, 복잡한 다단계 프로젝트 처리 등 다양한 분야에서 더욱 뛰어난 능력을 발휘한다고 강조했습니다.
벤치마크 결과: 일반 문제 해결 및 소프트웨어 작업 능력 향상
GPT-5.2는 ARC-AGI-1/ARC-AGI-2 (일반 문제 해결) 및 SWE-Bench Pro/SWE-Bench Verified (실제 소프트웨어 작업)와 같은 다른 중요한 벤치마크에서도 개선된 모습을 보였습니다. OpenAI는 이를 통해 GPT-5.2가 프로덕션 코드 디버깅, 기능 요청 구현, 대규모 코드베이스 리팩토링, 최종 수정 사항 배포 등 실제 소프트웨어 개발 작업에서 더욱 안정적인 성능을 제공할 수 있다고 설명했습니다. 이는 기업이 AI 모델을 활용하여 개발 프로세스를 효율화하고 생산성을 향상시키는 데 기여할 수 있음을 시사합니다.
GPT-5.2 가격 정책 및 접근성
GPT-5.2는 ChatGPT 유료 플랜 사용자부터 순차적으로 제공될 예정이며, 구독 가격은 변동이 없습니다. API 접근 비용은 입력 토큰 100만 개당 1.75달러, 출력 토큰 100만 개당 14달러로 책정되었습니다. 이는 GPT-5.1보다 다소 비싸지만, OpenAI는 GPT-5.2의 향상된 효율성 덕분에 "특정 수준의 품질을 달성하는 데 드는 비용은 GPT-5.2의 토큰 효율성 덕분에 오히려 저렴해졌다"고 주장합니다.
OpenAI의 ‘코드 레드’ 비상 사태와 Gemini 3 경쟁
OpenAI가 GPT-5.1 출시 후 빠르게 GPT-5.2를 선보인 것은 GPT-5 모델 개발 속도를 가속화하려는 의지를 보여줍니다. 이는 구글의 Gemini 3 모델과의 경쟁에서 뒤처지지 않기 위한 노력의 일환으로 해석될 수 있습니다. 실제로 OpenAI CEO 샘 알트만은 한때 GPT-5 개발이 늦어질 경우 회사 존립에 위기가 올 수 있다는 ‘코드 레드’ 비상 메모를 직원들에게 보낸 것으로 알려졌습니다. 하지만 최근에는 Gemini 3의 발전이 예상보다 크지 않아 상황이 안정화되었다고 밝혔습니다.
벤치마크 결과에 대한 비판적 시각
GPT-5.2의 벤치마크 결과에 대한 비판적인 시각도 존재합니다. 지멘스의 AI 분석가 마리아 수하레바는 OpenAI가 자체 개발한 GDPval 벤치마크를 사용하여 GPT-5.2의 성능을 평가하는 것에 대해 의문을 제기했습니다. 그녀는 OpenAI가 특정 벤치마크에 모델을 맞춤화하는 것이 가능하며, 다른 영역에서는 성능이 저하될 수 있다고 지적했습니다. 또한, 벤치마크 결과가 모델 훈련 데이터에 따라 달라질 수 있다는 점을 강조하며, 공개되지 않은 훈련 데이터에 대한 우려를 표명했습니다.
실제 사용자의 평가: 실질적인 개선 vs. 여전한 과제
이커머스 플랫폼 Sell The Trend의 CEO 라시드 웨비는 실제 환경에서 GPT-5.2를 테스트한 결과, GPT-5.2가 복잡한 맥락을 더 오랫동안 유지하고 일관성을 유지하는 데 개선된 모습을 보였다고 평가했습니다. AI Literacy 회사 Human Voice Media의 창립자 밥 허친스는 GPT-5.2가 포맷, 제약 조건, 핸드오프 등 AI 사용에 대한 기업들의 불만 사항을 일부 해소하는 데 기여했다고 언급했습니다. 하지만 Vectara의 Hallucination Evaluation Model 벤치마크 결과에 따르면, GPT-5.2는 환각 현상 감소 측면에서 여전히 경쟁 모델에 비해 뒤쳐지는 것으로 나타났습니다.
결론: 긍정적인 발전, 냉철한 검증 필요
GPT-5.2는 분명 이전 모델에 비해 향상된 성능을 보여주지만, 벤치마크 결과에 대한 비판적인 시각과 실제 사용자들의 평가를 종합해 볼 때, 기업 AI는 여전히 발전 단계에 있음을 알 수 있습니다. GPT-5.2의 출시 소식에 현혹되지 않고, 기업들은 자체적인 테스트를 통해 GPT-5.2가 실제 업무 환경에서 어떤 가치를 제공할 수 있는지 냉철하게 검증해야 할 것입니다.