AI 에이전트, 숙련된 지식 필요

AI 에이전트, 숙련된 지식 필요
Share

새로운 연구 결과에 따르면 AI 에이전트가 작업을 잘 수행하려면 특정 절차적 지식이 필요하며 스스로 학습할 수 없습니다. SkillsBench 벤치마크 공개.

2026년, 인공지능(AI) 에이전트의 성능 향상을 위한 새로운 연구 결과가 발표되어 주목받고 있다. 이번 연구는 AI 에이전트가 특정 작업을 효과적으로 수행하기 위해서는 숙련된 지식, 즉 구체적인 절차적 지식이 필수적이며, 스스로 학습하는 능력에는 한계가 있다는 점을 시사한다.

SkillsBench: 새로운 AI 에이전트 평가 기준

연구진은 AI 에이전트의 능력을 객관적으로 평가하기 위해 ‘SkillsBench’라는 새로운 벤치마크를 개발했다. SkillsBench는 헬스케어, 제조, 사이버 보안, 소프트웨어 엔지니어링 등 11개 분야에 걸쳐 총 84가지의 다양한 작업을 포함하고 있다. 이를 통해 AI 에이전트의 실질적인 문제 해결 능력을 종합적으로 측정할 수 있다.

세 가지 조건 하의 실험 결과

연구진은 각 작업을 세 가지 조건 하에서 AI 에이전트에게 부여했다. 첫 번째는 ‘무기술’ 조건으로, 에이전트에게 오직 지시사항만 제공되었다. 두 번째는 ‘큐레이팅된 기술’ 조건으로, 에이전트에게 작업 수행에 도움이 되는 디렉토리, 코드 스니펫, 관련 자료 등이 제공되었다. 마지막으로 ‘자체 생성 기술’ 조건에서는 에이전트가 아무런 기술 없이 스스로 기술을 개발하도록 유도되었다.

큐레이팅된 기술의 압도적인 효과

실험 결과, ‘큐레이팅된 기술’을 제공받은 에이전트가 가장 높은 성능을 보였다. 이들은 ‘무기술’ 조건의 에이전트보다 평균 16.2% 높은 점수를 기록하여, AI가 여전히 인간의 개입 없이 스스로 지식을 습득하고 활용하는 데 어려움을 겪고 있음을 입증했다. 하지만 흥미롭게도 84개의 작업 중 16개에서는 인간의 지도가 오히려 부정적인 영향을 미치는 것으로 나타났다.

산업 분야별 성능 차이

AI 에이전트의 성능은 산업 분야별로 큰 차이를 보였다. ‘큐레이팅된 기술’은 헬스케어 분야에서 가장 큰 영향을 미쳤지만, 소프트웨어 엔지니어링 분야에서는 그 효과가 미미했다. 이는 각 분야별로 요구되는 지식의 특성과 복잡성이 다르기 때문으로 분석된다.

자체 생성 기술의 한계

AI 에이전트에게 스스로 기술을 생성하도록 요구했을 때, 성능 향상은 전혀 나타나지 않았다. 이는 AI가 아직까지 인간의 구체적인 지침과 도움이 없이는 효과적으로 문제를 해결하는 데 어려움을 겪는다는 것을 의미한다. 연구진은 앞으로 AI 에이전트가 스스로 학습하고 발전할 수 있도록 돕는 효과적인 방법론 개발이 중요하다고 강조했다.

이것도 좋아하실 수 있습니다...