[원본] https://youtu.be/8V2a8Ty5-yk?list=TLGGUVLggHnrlyQyMjEyMjAyNQ
NotebookLM으로 정리된 내용입니다.
12편의 논문으로 총정리한 피지컬 AI의 2년: 로봇은 어떻게 생각하고 움직이게 되었나?
서론: '피지컬 AI'라는 거대한 흐름 따라잡기
'피지컬 AI(Physical AI)'라는 용어가 기술계의 화두로 떠올랐습니다. 로봇이 단순히 프로그래밍된 동작을 넘어 스스로 생각하고 물리적 세계와 상호작용하는 시대가 성큼 다가왔기 때문입니다. 하지만 이 기술적 흐름은 너무나 빠르고 복잡해서 어디서부터 시작해야 할지 막막하게 느껴지기도 합니다.
이 글은 지난 2년간 피지컬 AI 분야의 핵심적인 기술적 이정표가 된 논문들을 훑어보며, 로봇 AI가 어디에서 시작해 어디까지 왔는지 명확하게 정리하기 위해 작성되었습니다. 격변의 시간이었던 지난 2년의 흐름을 한눈에 파악하고, 로봇 지능의 미래를 조망하는 통찰을 얻으시길 바랍니다.
--------------------------------------------------------------------------------
1. 패러다임의 빅뱅: 언어 모델, 로봇을 만나다 (2022-2023)
현재 우리가 목격하는 피지컬 AI의 발전은 2022년 말 구글이 발표한 두 편의 기념비적인 연구에서 시작되었습니다. 그전까지 로봇 제어는 보스턴 다이나믹스의 이름에서도 알 수 있듯, 정교한 수식과 제어 이론의 영역이었습니다. 이 두 논문은 그 패러다임을 근본적으로 바꾸었습니다.
1.1. RT-1: "로봇의 행동도 언어처럼 예측하면 어떨까?"
구글의 RT-1(Robotics Transformer 1)은 단순하면서도 강력한 아이디어를 제시했습니다. 카메라 영상, 로봇의 관절 움직임, 언어 명령 등 모든 데이터를 '단어(token)'처럼 취급하여 거대 언어 모델의 아키텍처인 트랜스포머에 입력하는 방식이었습니다. 마치 GPT가 다음 단어를 예측하듯, RT-1은 로봇의 다음 행동을 예측하게 만들었습니다.
13만 개의 데이터를 학습한 결과, 로봇은 100가지가 넘는 작업을 성공적으로 수행했습니다. 이 연구는 **"데이터만 충분하면 언어 모델 아키텍처가 로봇 제어에도 통한다"**는 가설을 증명하며 이후 모든 연구의 출발점이 되었습니다.
1.2. RT-2: "로봇에게 인터넷의 지식을 연결하다"
RT-2(Robotics Transformer 2)는 RT-1에서 한 단계 더 나아가, 이미 인터넷의 방대한 지식을 학습한 거대 시각 언어 모델(VLM, Vision-Language Model)에 로봇을 직접 연결했습니다. 결과는 놀라웠습니다.
로봇에게 "그림 속 바나나와 같은 색깔의 물건을 집어라"라고 명령했을 때, RT-2는 과거의 로봇처럼 멈추지 않았습니다. 대신 VLM이 가진 방대한 세계 지식을 동원해 '노란색' 물건을 스스로 찾아 집어 올렸습니다. 이 순간부터 로봇 제어는 단순히 주어진 동작(skill)을 수행하는 것을 넘어, 맥락과 의미(semantic)를 이해하는 단계로 진입했습니다.
--------------------------------------------------------------------------------
2. 하나에서 모두로: 범용 로봇 모델의 등장 (2024)
RT 시리즈가 언어 모델의 가능성을 증명했지만, 이 모델들은 특정 로봇 하나에 묶여 있었습니다. 2024년의 핵심 과제는 이 한계를 넘어 여러 로봇의 경험을 통합하는 '범용 정책(General-Purpose Policy)'을 만드는 것이었습니다. 개별 로봇을 따로 학습시키던 시대에서, 수십 종의 로봇 데이터를 통합해 하나의 모델로 여러 로봇을 제어하는 시대로의 전환이 시작된 것입니다.
2.1. Octo: "서로 다른 로봇들의 경험을 하나로 묶다"
Octo는 수십 종의 로봇에서 수집된 방대한 데이터셋인 'Open X-Embodiment'를 기반으로 탄생했습니다. 팔 달린 로봇, 바퀴 달린 로봇 등 구조와 형태가 제각각인 로봇들의 시각 정보, 관절 움직임, 행동 결과 등 이질적인 데이터를 하나의 거대한 모델로 학습시켰습니다.
Octo는 이처럼 다양한 로봇의 경험을 통합한 범용 정책 모델이 실제로 작동 가능하다는 것을 증명했습니다. 이는 특정 로봇에 종속되지 않는 범용 모델의 가능성을 연 최초의 신호탄이었습니다.
2.2. Open-VLA: "행동을 토큰으로 만들어 언어 모델과 통합하다"
Open-VLA의 핵심 기여는 '행동 토큰화(Action Tokenization)' 개념을 오픈소스 모델에 성공적으로 이식한 점입니다. 로봇의 연속적인 팔 움직임이나 관절 값을 언어 모델이 이해할 수 있는 이산적인 '행동 토큰'으로 변환하는 이 방식은, 이후 VLA 모델의 사실상 표준 기술로 자리 잡았습니다.
특히 Open-VLA는 단 70억(7B) 파라미터 모델로 5500억(550B) 규모의 거대 모델인 RT-2-X의 성능을 추월하는 놀라운 결과를 보여주었습니다. 이는 로봇 AI의 발전이 모델의 크기가 아닌, 아키텍처와 데이터 표현 방식에 의해 좌우된다는 결정적 증거입니다.
이는 단순히 모델을 크게 만드는 것이 아니라 로봇의 행동을 어떻게 표현하고 어떤 방식으로 LM과 결합하는 것이 최적인가를 보여준 사례라고 할 수 있습니다.
--------------------------------------------------------------------------------
3. 스케일을 넘어 아키텍처로: 더 정교하고 안정적인 제어를 향하여 (2025 상반기)
옥토와 오픈 VLA가 '범용성'의 문을 열었지만, 실제 로봇에 필요한 정밀한 연속 제어와 실시간 반응성이라는 과제를 남겼습니다. 2025년의 연구들은 이 한계를 돌파하기 위해 모델의 크기가 아닌 '아키텍처' 자체에 주목하기 시작합니다.
3.1. Φ-zero (파이제로): "흐름을 설계하여 연속적인 행동을 만들다"
파이제로는 기존 디퓨전(Diffusion) 방식과 다른 '플로우 매칭(Flow Matching)' 기술을 기반으로 합니다. 디퓨전이 노이즈를 점진적으로 제거하며 행동을 생성하는 확률적 방식이라면, 플로우 매칭은 노이즈 상태에서 목표 행동까지의 '흐름(벡터장)'을 직접 학습하여 결정론적으로 행동을 생성합니다. 기술적으로 디퓨전이 여러 단계에 걸친 '확률적 노이즈 제거(Stochastic Denoising)'에 가깝다면, 플로우 매칭은 목표까지의 경로를 '결정론적 벡터장(Deterministic Vector Field)'으로 한 번에 설계하는 방식이라는 근본적 차이가 있습니다.
이 방식은 훨씬 안정적이고 부드러운 연속 행동을 만들어내, 고주파 연속 제어의 품질을 한 단계 끌어올린 연구로 평가받습니다.
여기서 주목할 점은, 이러한 생성 모델의 혁신과 별개로 '액션 청킹(Action Chunking)'이라는 제어 전략이 함께 발전했다는 사실입니다. 이는 매 순간 하나의 행동만 예측하는 대신, 앞으로의 N스텝 분량 행동 묶음(chunk)을 한 번에 생성하는 방식입니다. 이를 통해 정책 모델의 호출 빈도를 줄여, 실시간 제어의 효율성을 크게 높일 수 있습니다.
3.2. CogAct (코그액트): "로봇에게 '생각하는 뇌'와 '움직이는 몸'을 분리해주다"
CogAct는 인간의 사고 구조처럼 '고차원 인지' 모듈과 '저차원 행동' 모듈을 분리하는 독창적인 아키텍처를 제안했습니다.
- 고차원 인지 (뇌): 언어 모델을 기반으로 목표를 분석하고, "문을 열고, 컵을 집어, 밖으로 나온다"와 같은 고수준 계획을 수립합니다.
- 저차원 행동 (몸): 수립된 계획을 받아 실제 로봇 관절을 움직이는 안정적인 제어 신호를 생성합니다.
복잡한 추론과 정밀한 제어를 분리한 이 구조 덕분에, CogAct는 여러 단계를 거쳐야 하는 롱 호라이즌(long-horizon) 작업에서 기존 모델들보다 월등히 높은 성공률을 보였습니다. 이는 아키텍처를 바꾸는 것만으로 성능을 극적으로 향상시킬 수 있음을 증명한 사례입니다.
3.3. RoboVLM-s: "최적의 로봇 VLA를 위한 설계 가이드라인"
RoboVLM-s는 새로운 모델을 제안하기보다, 어떤 설계 요소가 로봇 제어에 실제로 중요한지 분석한 '메타 연구'입니다. 연구팀은 비전 백본의 종류, 행동 표현 방식 등 수백 개의 설계 조합을 실험하여 각 요소가 성능에 미치는 영향을 정량적으로 분석했습니다.
그동안 연구자들이 경험적으로만 알고 있던 VLA 설계 노하우를 데이터 기반의 '설계 가이드라인'으로 정리했다는 점에서 큰 가치를 갖습니다.
--------------------------------------------------------------------------------
4. 거인들의 전쟁: 인프라와 추론 능력을 결합하다
피지컬 AI 경쟁은 두 거인의 철학적 대결로 요약됩니다. 구글은 데이터와 언어 모델의 '상징적 추론 능력'을 로봇에 이식하는 반면, 엔비디아는 시뮬레이션과 월드 모델을 통해 '물리적 상상력'을 부여하는 길을 택했습니다. 이제 경쟁은 개별 모델의 성능을 넘어, 이를 뒷받침할 거대 인프라와 고차원적 추론 능력의 대결로 확장되고 있습니다.
4.1. Google Gemini Robotics: "데이터와 추론 능력으로 생각하는 로봇"
구글의 전략은 자사의 강점인 TPU 인프라와 방대한 데이터를 기반으로, 제미나이(Gemini) 모델의 강력한 '상징적 추론 능력'을 로봇에 이식하는 것입니다. 구글은 인터넷 영상, 시뮬레이션 데이터, 실제 로봇의 움직임 데이터 등을 모두 흡수하는 '거대한 로봇 학습 공장'을 구축했습니다. 이제 로봇은 '사과를 집어라'라는 명령을 수행하는 것을 넘어, '이 사과는 물렁하니 살살 쥐어야 한다' 또는 '사람이 지나가니 잠시 멈춰야 한다'와 같이 왜, 어떻게 행동해야 하는지 판단하는 고차원적 지능을 갖추게 되었습니다.
4.2. NVIDIA Project GR00T: "시뮬레이션과 물리 예측으로 감각을 지닌 로봇"
엔비디아는 GPU와 물리 시뮬레이션 플랫폼(Isaac Sim)을 통해 로봇에게 '물리적 상상력'을 부여하는 방식으로 접근합니다. 이 전략의 핵심에는 '월드 파운데이션 모델(WFM, World Foundation Model)'이 있습니다. WFM은 로봇이 특정 행동을 하기 전에, 그 행동이 물리 세계에서 어떤 결과를 낳을지 머릿속으로 시뮬레이션하는 '물리적 상상력의 엔진' 역할을 합니다.
AI가 텍스트의 다음 단어를 예측했다면 엔비디아의 WFM은 물리 세계의 다음 장면을 예측합니다.
이 능력 덕분에 로봇은 위험한 행동을 스스로 피하고, 성공 확률이 가장 높은 행동을 선택할 수 있게 됩니다.
--------------------------------------------------------------------------------
5. 거인의 뇌를 작은 몸에 담다: 온디바이스 최적화 전쟁
제미나이와 GR00T가 보여준 거대한 비전도, 실제 로봇의 제한된 하드웨어(온디바이스)에서 작동하지 않으면 의미가 없습니다. 여기서부터는 완전히 다른 종류의 전쟁, 즉 거대한 AI의 뇌를 작은 칩 안에 어떻게 담을 것인가 하는 최적화 경쟁이 시작됩니다.
5.1. Bit-VLA (BVLA): "모델을 1비트까지 압축하다"
BVLA는 모델의 파라미터를 -1, 0, 1 단 세 개의 값만 사용하도록 극단적으로 양자화(quantization)하는 기술입니다. 이를 통해 모델의 크기와 메모리 사용량을 획기적으로 줄이면서도, 성능 저하는 최소화했습니다. 이 연구는 고성능 VLA 모델을 온디바이스 환경에서 구동할 수 있다는 가능성을 처음으로 제시했습니다.
5.2. Parallel Decoding VLA (PD-VLA): "행동 생성 속도를 높이다"
모델 크기와는 별개로, 행동을 생성하는 데 걸리는 시간(latency) 역시 중요한 문제입니다. PD-VLA는 기존의 순차적인(오토리그레시브) 디코딩 방식을 병렬적으로 처리하도록 알고리즘을 개선했습니다. 모델 구조를 바꾸지 않고도 행동 생성 속도만 크게 향상시켜, 로봇이 더 빠르고 민첩하게 반응할 수 있게 만들었습니다.
5.3. Real-Time Chunking (RTC): "행동을 매끄럽게 이어 붙이다"
RTC는 이미 학습된 모델 위에서 작동하는 실행 시간 알고리즘입니다. 로봇이 현재 실행 중인 행동 덩어리(chunk)의 끝부분과 다음에 실행할 행동 덩어리의 시작 부분을 실시간으로 자연스럽게 이어 붙이는(inpainting) 기술입니다. 이를 통해 로봇의 움직임이 중간에 끊기거나 튀지 않고, 인간처럼 부드럽게 이어지도록 만듭니다.
--------------------------------------------------------------------------------
결론: 물리적 지능의 탄생, 그리고 우리 앞에 놓인 미래
지난 2년간의 기술적 흐름을 종합하면, 모든 노력은 하나의 목표를 향해 수렴하고 있음을 알 수 있습니다. 바로 로봇을 '시키는 일을 하는 기계'에서 '스스로 상황을 이해하고 판단하는 물리적 지능체'로 진화시키는 것입니다.
이 미래를 지탱할 핵심 축은 두 가지입니다.
- 예측하는 지능 (상상력): 이는 엔비디아의 월드 파운데이션 모델(WFM)이 물리 세계의 다음 장면을 예측하는 능력에서 가장 명확하게 드러납니다. 로봇은 이제 눈앞의 현실을 넘어 행동의 결과를 미리 시뮬레이션하는 물리적 상상력을 갖게 되었습니다.
- 사고와 행동의 동기화: CogAct의 인지-행동 분리 아키텍처부터 PD-VLA와 RTC의 실시간 최적화 기술에 이르기까지, 이 모든 노력은 로봇의 고차원적 판단과 물리적 실행 사이의 간극을 메우는 과정이었습니다. 로봇은 인간의 의도를 실시간으로 파악하고 지체 없이 매끄러운 행동으로 옮길 수 있게 되었습니다.
우리는 지금 데이터, 인프라, 아키텍처, 그리고 실용성까지 모두 갖춰진 거대한 패러다임 전환의 시점에 서 있습니다. 이 기술들이 하나로 결합되는 순간, 로봇은 진정한 파트너로 우리 곁에 다가올 것입니다.
2025년 피지컬 AI 시대의 개막, 이 거대한 변화의 물결을 목격하는 여러분의 생각은 어떠신가요?
'테크 이야기' 카테고리의 다른 글
| [블로그] NVIDIA CUDA 13.1: Tile Programming and Performance Gains (0) | 2025.12.22 |
|---|---|
| [YouTube] Implementing New Algorithm with CUDA Kernels (0) | 2025.12.05 |
| [YouTube] Asynchrony and CUDA Streams (0) | 2025.12.05 |
| [YouTube] Accelerating Applications with Parallel Algorithms (0) | 2025.12.05 |
| [YouTube] CUDA 13.0—새로운 기능 및 그 이상 (0) | 2025.12.05 |