AI 환각 심화, 똑똑하지만 위험?

Share

챗GPT 환각 현상 심화: 최신 AI 모델, 똑똑하지만 믿을 수 있을까?

OpenAI의 최신 AI 모델인 GPT-o3와 o4-mini가 이전 모델보다 환각 현상을 훨씬 더 자주 일으킨다는 보고가 나왔습니다. 모델의 복잡성이 증가하면서 자신감 넘치는 부정확성이 증가하는 것으로 보입니다. 높은 오류율은 실제 적용 분야에서 AI의 신뢰성에 대한 우려를 제기합니다. 똑똑하지만 믿을 수 없는 사람들은 소설(그리고 역사)의 주요 인물입니다. OpenAI의 조사와 뉴욕타임스의 보도에 따르면 동일한 상관관계가 AI에도 적용될 수 있습니다.

AI 챗봇의 고질적인 문제, 환각 현상

환각, 허구의 사실, 노골적인 거짓말은 AI 챗봇이 만들어진 이후 항상 존재해 왔습니다. 모델 개선을 통해 이러한 현상이 나타나는 빈도를 줄이는 것이 목표였지만, OpenAI의 최신 플래그십 모델인 GPT-o3와 o4-mini는 인간의 논리를 모방하도록 설계되었음에도 불구하고 예상과 다른 결과를 보였습니다. 텍스트 생성에 주로 집중했던 이전 모델과 달리 OpenAI는 GPT-o3와 o4-mini가 단계별로 생각하도록 만들었습니다.

GPT-o3와 o4-mini의 충격적인 오류율

OpenAI는 o1이 화학, 생물학, 수학 분야에서 박사 과정 학생의 성과와 비슷하거나 능가할 수 있다고 자랑했습니다. 그러나 OpenAI의 보고서는 ChatGPT 응답을 액면 그대로 받아들이는 사람들에게 끔찍한 결과를 보여줍니다. OpenAI는 GPT-o3 모델이 유명 인물과 관련된 벤치마크 테스트에서 3분의 1에 해당하는 환각 현상을 보였다고 밝혔습니다. 이는 작년의 o1 모델 오류율의 두 배입니다. 더 작은 o4-mini 모델은 유사한 작업에서 48%의 환각을 일으켜 훨씬 더 나쁜 결과를 보였습니다. 일반 지식 질문으로 SimpleQA 벤치마크 테스트를 실시했을 때 환각 현상은 o3의 경우 응답의 51%, o4-mini의 경우 79%까지 급증했습니다.

이유 있는 오류? 복잡성의 증가

AI 연구 커뮤니티에서는 모델이 추론을 더 많이 시도할수록 오류가 발생할 가능성이 더 커진다는 이론이 있습니다. 높은 신뢰도의 예측을 고수하는 단순한 모델과 달리 추론 모델은 여러 가능한 경로를 평가하고, 서로 다른 사실을 연결하고, 즉흥적으로 만들어야 하는 영역으로 진출합니다. 그리고 사실을 즉흥적으로 만드는 것은 곧 지어내는 것과 같습니다. 상관관계가 인과관계를 의미하는 것은 아니며 OpenAI는 뉴욕타임스에 환각 증가가 추론 모델이 본질적으로 더 나쁘기 때문이 아닐 수 있다고 말했습니다. 대신, 답변이 더 장황하고 모험적일 수 있습니다. 새로운 모델은 예측 가능한 사실을 반복하는 것이 아니라 가능성에 대해 추측하기 때문에 이론과 날조된 사실 사이의 경계가 AI에게 모호해질 수 있습니다.

AI 신뢰도 확보, 숙제는 여전히 산적

더 많은 환각은 OpenAI나 구글, Anthropic과 같은 경쟁사들이 가장 발전된 모델에서 원하는 것과 반대입니다. AI 챗봇을 어시스턴트나 부조종사라고 부르는 것은 위험하지 않고 도움이 될 것이라는 의미입니다. 변호사들은 이미 ChatGPT를 사용하고 가짜 법원 인용문을 알아차리지 못해 곤경에 처했습니다. AI 시스템이 교실, 사무실, 병원, 정부 기관에서 출시되기 시작하면서 환각으로 인해 사용자에게 문제가 발생할 가능성은 빠르게 확대되고 있습니다. 정교한 AI는 구직 신청서를 작성하고, 청구 문제를 해결하거나, 스프레드시트를 분석하는 데 도움이 될 수 있지만 역설적인 것은 AI가 유용해질수록 오류의 여지가 줄어든다는 것입니다. 모든 것을 이중으로 확인하는 데 똑같은 시간을 할애해야 한다면 사람들의 시간과 노력을 절약한다고 주장할 수 없습니다. GPT-o3는 코딩과 논리에서 놀라운 재능을 보여주었고, 어떤 면에서는 많은 인간을 능가하기도 합니다. 문제는 에이브러햄 링컨이 팟캐스트를 진행했거나 물이 80도에서 끓는다고 결정하는 순간 신뢰성에 대한 환상이 깨진다는 것입니다. 이러한 문제가 해결될 때까지 AI 모델의 응답은 주의해서 받아들여야 합니다.

맺음말

결론적으로, OpenAI의 최신 AI 모델은 이전 모델보다 더 많은 환각 현상을 보이며 AI 신뢰성에 대한 우려를 불러일으키고 있습니다. AI의 유용성이 증가할수록 오류의 여지는 줄어들기 때문에 이러한 문제를 해결하는 것이 중요합니다.

이것도 좋아하실 수 있습니다...