Rho-alpha: 로봇, 예측불가 환경 적응 도전

Share

로봇, 예측 불가능한 환경에 적응하는 날이 올까? 마이크로소프트 Rho-alpha의 도전

로봇은 오랫동안 통제된 공장 환경에서 안정적인 성능을 보여왔지만, 환경 변화에 취약하다는 한계가 있었습니다. 이러한 문제를 해결하기 위해 마이크로소프트는 Phi 비전-언어 시리즈에서 파생된 로봇 모델 Rho-alpha를 발표했습니다. Rho-alpha는 로봇이 더 나은 방식으로 지시를 이해하고 변화하는 조건에 대응하여 조립 라인 밖에서도 작동할 수 있도록 설계되었습니다.

물리적 AI의 등장: 로봇의 새로운 가능성

마이크로소프트는 Rho-alpha를 통해 소프트웨어 모델이 덜 구조화된 상황에서 기계를 안내하는 '물리적 AI'의 가능성을 제시합니다. Rho-alpha는 언어, 인식, 행동을 결합하여 고정된 생산 라인이나 지침에 대한 의존도를 줄입니다. 자연어 명령을 로봇 제어 신호로 변환하고, 두 로봇 팔 사이의 협응과 미세한 제어가 필요한 양손 조작 작업에 집중합니다.

Rho-alpha: 시각, 촉각, 그리고 힘

Rho-alpha는 시각뿐만 아니라 촉각 센서와 힘과 같은 추가적인 감지 방식을 통합합니다. 이는 시뮬레이션된 지능과 물리적 상호 작용 간의 격차를 좁히려는 시도로 해석됩니다. 마이크로소프트는 대규모 로봇 데이터, 특히 촉각 관련 데이터의 부족을 해결하기 위해 시뮬레이션에 크게 의존합니다. Nvidia Isaac Sim 내에서 강화 학습을 통해 합성 궤적을 생성하고, 이를 상업용 및 공개 데이터 세트의 물리적 데모와 결합합니다.

Nvidia Isaac Sim과의 협력: 데이터 부족 극복

Nvidia의 Robotics and Edge AI 담당 부사장 Deepu Talla는 "추론하고 행동할 수 있는 기초 모델을 훈련하려면 다양하고 실제 데이터의 부족을 극복해야 합니다."라며, "Azure의 NVIDIA Isaac Sim을 활용하여 물리적으로 정확한 합성 데이터 세트를 생성함으로써 Microsoft Research는 복잡한 조작 작업을 마스터할 수 있는 Rho-alpha와 같은 다재다능한 모델 개발을 가속화하고 있습니다."라고 밝혔습니다.

인간 개입을 통한 학습: 지속적인 개선

마이크로소프트는 또한 배포 중 인간의 교정 입력을 강조하여 운영자가 원격 조작 장치를 사용하여 개입하고 시스템이 시간이 지남에 따라 학습할 수 있는 피드백을 제공하도록 합니다. 이 훈련 루프는 시뮬레이션, 실제 데이터 및 인간 교정을 결합하여 희소한 구현 데이터 세트를 보완하기 위한 AI 도구에 대한 의존도가 높아지고 있음을 반영합니다.

현실과 가상의 조화: 데이터 확보의 새로운 방법

워싱턴 대학의 Abhishek Gupta 조교수는 "로봇 시스템을 원격으로 조작하여 훈련 데이터를 생성하는 것이 일반적인 방법이 되었지만, 원격 조작이 비현실적이거나 불가능한 설정이 많습니다."라며, "우리는 시뮬레이션과 강화 학습의 조합을 사용하여 다양한 합성 데모를 통해 물리적 로봇에서 수집한 사전 훈련 데이터 세트를 풍부하게 만들기 위해 Microsoft Research와 협력하고 있습니다."라고 밝혔습니다.

맺음말

Rho-alpha는 로봇이 예측 불가능한 환경에 적응할 수 있도록 하는 중요한 진전입니다. 시뮬레이션, 실제 데이터, 인간의 피드백을 결합한 학습 방식을 통해 로봇은 더욱 복잡하고 다양한 작업을 수행할 수 있게 될 것입니다. 앞으로 Rho-alpha가 로봇 산업에 어떤 혁신을 가져올지 기대됩니다.

이것도 좋아하실 수 있습니다...