AI논문
[논문리뷰] Learning to Act Anywhere with Task-centric Latent Actions
해애241
2025. 5. 12. 21:43
반응형
SMALL
🔗 https://arxiv.org/pdf/2505.06111.pdf
UniVLA: 어떤 로봇이든 어떤 영상이든 보고 배우는 범용 로봇 정책
로봇이 다양한 환경에서 여러 작업을 잘 하려면 엄청난 양의 데이터가 필요해요. 특히 로봇이 어떤 움직임을 해야 하는지 일일이 알려주는 데이터는 모으기 정말 어렵죠. 게다가 로봇마다 팔 모양이나 움직이는 방식이 달라서 다른 로봇이 배운 걸 가져와 쓰기도 힘들었어요. 이 논문은 이런 문제를 해결하기 위해 나왔습니다.
- 어떤 로봇이든, 심지어 사람이 움직이는 영상까지도 보고 배울 수 있도록 로봇의 움직임을 종류에 상관없이 표현하는 통일된 방법을 제안해요.
- 덕분에 로봇 학습에 필요한 데이터 양을 획기적으로 줄이고, 로봇이 전에 보지 못한 환경에서도 잘 작동하게 만들 수 있어요.
- 이는 미래의 범용 로봇(Generalist Robot) 개발에 중요한 발걸음을 내딛게 해줍니다.
서론
- 최근 로봇 제어 연구에서 영상과 언어를 이해하는 VLA(Vision-Language-Action) 모델이 주목받고 있습니다.
- 하지만 대부분의 VLA 모델은 로봇이 어떤 행동을 했는지 정확히 알려주는 데이터(행동 라벨)가 꼭 필요하다는 한계가 있어요.
- 이런 데이터는 모으기 어렵고, 로봇 종류마다 움직이는 방식이 달라서 다른 로봇에게 배운 것을 넘겨주기 힘들어요.
- 이 논문은 이러한 문제점을 해결하고, 어떤 로봇에게도 적용 가능한 통일된 움직임 표현을 배워 다양한 영상 데이터를 활용하는 UniVLA 프레임워크를 제안합니다.
기존 연구
- VLA 모델: 이미지와 언어 지시를 받아 로봇 움직임을 생성해요 (RT-2, OpenVLA 등). 하지만 주로 행동 라벨 데이터에 의존해요.
- 크로스-로봇 학습: 로봇 종류가 달라도 학습된 지식을 공유하려고 시도해요. 하지만 수동으로 움직임을 정렬하거나, 데이터셋이 모든 종류를 다 커버해야 했어요.
- 숨겨진 움직임(Latent Action) 학습: 복잡한 로봇 움직임을 압축된 코드로 표현해서 학습 효율을 높여요.
- 하지만 기존의 숨겨진 움직임 학습 방법들은 행동 라벨이 필요하거나, 영상의 모든 픽셀 변화를 다 학습해서 과제와 상관없는 노이즈(카메라 흔들림, 배경 변화)까지 담아내는 문제가 있었어요.
방법론
UniVLA는 로봇의 움직임을 과제 중심의 통일된 잠재 행동(Latent Action) 코드로 표현하고 학습하는 3단계 과정을 거쳐요.
-
- 과제 중심 잠재 행동 학습: 로봇의 이전-이후 영상과 언어 지시를 보고, 다음에 일어날 영상 변화 중 '과제 수행'에 필수적인 움직임만 나타내는 숨겨진 코드를 배워요. (언어 지시를 활용하여 불필요한 배경 변화 등은 무시하도록 학습해요.) 이 코드는 행동 라벨 없이 영상만으로 학습 가능해요.
-
- 잠재 행동 예측 모델 학습: 이미지와 언어 지시를 받아서, 앞에서 배운 잠재 행동 코드 시퀀스를 예측하는 큰 모델(미리 학습된 Vision-Language 모델인 Prismatic-7B 기반)을 학습해요. 이 모델은 로봇 종류에 상관없이 작동하는 범용 정책이 됩니다.
-
- 잠재 행동 디코딩: 예측된 잠재 행동 코드를 실제 로봇이 이해하고 실행할 수 있는 특정 로봇의 움직임으로 변환해주는 작은 모델(디코더)을 추가로 학습해요. 로봇 종류나 작업에 따라 이 디코더만 새로 학습하거나 조정하면 돼요.
실험 및 결과
- 다양한 로봇 조작 작업 (LIBERO, CALVIN, SimplerEnv), 실내 길찾기 (R2R), 그리고 실제 로봇 실험에서 UniVLA의 성능을 평가했어요.
- UniVLA는 여러 벤치마크와 실제 로봇 실험에서 기존 최고 성능 모델(OpenVLA, LAPA 등)들을 크게 앞질렀어요.
- 특히 학습 데이터 효율성이 뛰어나서, 다른 모델들이 전체 데이터로 달성한 성능을 UniVLA는 훨씬 적은 데이터(예: 10~50%)만으로도 달성했어요.
- 다양한 종류의 로봇 데이터는 물론, 행동 라벨이 없는 사람 움직임 영상까지 활용해서 사전 학습해도 성능이 계속 향상되는 것을 확인했어요. 이는 데이터 확장에 무한한 잠재력을 보여줍니다.
- 실제 로봇 테스트에서는 처음 보는 상황(조명 변화, 방해물, 새로운 물체)에서도 높은 성공률을 보여 뛰어난 일반화 능력을 입증했습니다.
결론 및 한계
- UniVLA는 통일된 과제 중심 잠재 행동 공간을 사용하여, 다양한 로봇과 환경에 효율적으로 적용될 수 있는 범용 로봇 정책 학습 방법을 제안합니다.
- 다양한 벤치마크와 실제 로봇 실험에서 뛰어난 성능과 효율성을 보여주며, 이질적인 데이터 소스(로봇, 사람 영상)의 활용 가능성을 열었어요.
- 하지만 잠재 행동 코드가 표현하는 움직임의 세밀함이나 코드북 크기가 고정되어 있어, 아주 복잡하거나 정교한 작업에는 한계가 있을 수 있어요.
- 언어 지시의 세밀함에 따라 학습된 잠재 행동의 특성이 달라질 수도 있습니다.
- 미래 연구로는 양팔 로봇 같은 더 복잡한 시스템 적용, 환경 변화 예측 모델과의 통합, 사람 시범 영상 활용을 통한 제로샷 학습 등이 가능할 것으로 보입니다.
한 줄 요약
이 논문은 로봇 종류나 영상 출처에 상관없이 움직임의 '핵심'만 뽑아 배우는 혁신적인 방법(UniVLA)으로, 데이터 부족 문제와 로봇 범용성 한계를 동시에 극복하는 미래 로봇 학습의 청사진을 제시합니다!
반응형
LIST