AI논문

[논문리뷰] Learning to Act Anywhere with Task-centric Latent Actions

해애241 2025. 5. 12. 21:43
반응형
SMALL

🔗 https://arxiv.org/pdf/2505.06111.pdf

UniVLA: 어떤 로봇이든 어떤 영상이든 보고 배우는 범용 로봇 정책

로봇이 다양한 환경에서 여러 작업을 잘 하려면 엄청난 양의 데이터가 필요해요. 특히 로봇이 어떤 움직임을 해야 하는지 일일이 알려주는 데이터는 모으기 정말 어렵죠. 게다가 로봇마다 팔 모양이나 움직이는 방식이 달라서 다른 로봇이 배운 걸 가져와 쓰기도 힘들었어요. 이 논문은 이런 문제를 해결하기 위해 나왔습니다.

  • 어떤 로봇이든, 심지어 사람이 움직이는 영상까지도 보고 배울 수 있도록 로봇의 움직임을 종류에 상관없이 표현하는 통일된 방법을 제안해요.
  • 덕분에 로봇 학습에 필요한 데이터 양을 획기적으로 줄이고, 로봇이 전에 보지 못한 환경에서도 잘 작동하게 만들 수 있어요.
  • 이는 미래의 범용 로봇(Generalist Robot) 개발에 중요한 발걸음을 내딛게 해줍니다.

서론

  • 최근 로봇 제어 연구에서 영상과 언어를 이해하는 VLA(Vision-Language-Action) 모델이 주목받고 있습니다.
  • 하지만 대부분의 VLA 모델은 로봇이 어떤 행동을 했는지 정확히 알려주는 데이터(행동 라벨)가 꼭 필요하다는 한계가 있어요.
  • 이런 데이터는 모으기 어렵고, 로봇 종류마다 움직이는 방식이 달라서 다른 로봇에게 배운 것을 넘겨주기 힘들어요.
  • 이 논문은 이러한 문제점을 해결하고, 어떤 로봇에게도 적용 가능한 통일된 움직임 표현을 배워 다양한 영상 데이터를 활용하는 UniVLA 프레임워크를 제안합니다.

기존 연구

  • VLA 모델: 이미지와 언어 지시를 받아 로봇 움직임을 생성해요 (RT-2, OpenVLA 등). 하지만 주로 행동 라벨 데이터에 의존해요.
  • 크로스-로봇 학습: 로봇 종류가 달라도 학습된 지식을 공유하려고 시도해요. 하지만 수동으로 움직임을 정렬하거나, 데이터셋이 모든 종류를 다 커버해야 했어요.
  • 숨겨진 움직임(Latent Action) 학습: 복잡한 로봇 움직임을 압축된 코드로 표현해서 학습 효율을 높여요.
  • 하지만 기존의 숨겨진 움직임 학습 방법들은 행동 라벨이 필요하거나, 영상의 모든 픽셀 변화를 다 학습해서 과제와 상관없는 노이즈(카메라 흔들림, 배경 변화)까지 담아내는 문제가 있었어요.

방법론

UniVLA는 로봇의 움직임을 과제 중심의 통일된 잠재 행동(Latent Action) 코드로 표현하고 학습하는 3단계 과정을 거쳐요.

    1. 과제 중심 잠재 행동 학습: 로봇의 이전-이후 영상과 언어 지시를 보고, 다음에 일어날 영상 변화 중 '과제 수행'에 필수적인 움직임만 나타내는 숨겨진 코드를 배워요. (언어 지시를 활용하여 불필요한 배경 변화 등은 무시하도록 학습해요.) 이 코드는 행동 라벨 없이 영상만으로 학습 가능해요.
    1. 잠재 행동 예측 모델 학습: 이미지와 언어 지시를 받아서, 앞에서 배운 잠재 행동 코드 시퀀스를 예측하는 큰 모델(미리 학습된 Vision-Language 모델인 Prismatic-7B 기반)을 학습해요. 이 모델은 로봇 종류에 상관없이 작동하는 범용 정책이 됩니다.
    1. 잠재 행동 디코딩: 예측된 잠재 행동 코드를 실제 로봇이 이해하고 실행할 수 있는 특정 로봇의 움직임으로 변환해주는 작은 모델(디코더)을 추가로 학습해요. 로봇 종류나 작업에 따라 이 디코더만 새로 학습하거나 조정하면 돼요.

실험 및 결과

  • 다양한 로봇 조작 작업 (LIBERO, CALVIN, SimplerEnv), 실내 길찾기 (R2R), 그리고 실제 로봇 실험에서 UniVLA의 성능을 평가했어요.
  • UniVLA는 여러 벤치마크와 실제 로봇 실험에서 기존 최고 성능 모델(OpenVLA, LAPA 등)들을 크게 앞질렀어요.
  • 특히 학습 데이터 효율성이 뛰어나서, 다른 모델들이 전체 데이터로 달성한 성능을 UniVLA는 훨씬 적은 데이터(예: 10~50%)만으로도 달성했어요.
  • 다양한 종류의 로봇 데이터는 물론, 행동 라벨이 없는 사람 움직임 영상까지 활용해서 사전 학습해도 성능이 계속 향상되는 것을 확인했어요. 이는 데이터 확장에 무한한 잠재력을 보여줍니다.
  • 실제 로봇 테스트에서는 처음 보는 상황(조명 변화, 방해물, 새로운 물체)에서도 높은 성공률을 보여 뛰어난 일반화 능력을 입증했습니다.

결론 및 한계

  • UniVLA는 통일된 과제 중심 잠재 행동 공간을 사용하여, 다양한 로봇과 환경에 효율적으로 적용될 수 있는 범용 로봇 정책 학습 방법을 제안합니다.
  • 다양한 벤치마크와 실제 로봇 실험에서 뛰어난 성능과 효율성을 보여주며, 이질적인 데이터 소스(로봇, 사람 영상)의 활용 가능성을 열었어요.
  • 하지만 잠재 행동 코드가 표현하는 움직임의 세밀함이나 코드북 크기가 고정되어 있어, 아주 복잡하거나 정교한 작업에는 한계가 있을 수 있어요.
  • 언어 지시의 세밀함에 따라 학습된 잠재 행동의 특성이 달라질 수도 있습니다.
  • 미래 연구로는 양팔 로봇 같은 더 복잡한 시스템 적용, 환경 변화 예측 모델과의 통합, 사람 시범 영상 활용을 통한 제로샷 학습 등이 가능할 것으로 보입니다.

한 줄 요약

이 논문은 로봇 종류나 영상 출처에 상관없이 움직임의 '핵심'만 뽑아 배우는 혁신적인 방법(UniVLA)으로, 데이터 부족 문제와 로봇 범용성 한계를 동시에 극복하는 미래 로봇 학습의 청사진을 제시합니다!

반응형
LIST