눈치로 방을 정리한 로봇이 있다, 그런데 그 방은 피규어 AI의 방이 아니었다
휴머노이드 두 대가 2분 만에 협업에 성공했다 — 진짜 질문은 '언제 실패했는가'이다
TL;DR: 피규어 AI의 휴머노이드 두 대가 말 한마디 없이 침실을 정리하는 데 성공했다. 이 시연은 로봇 협업의 기술적 성취를 보여주지만, 정작 이 사건이 중요한 이유는 따로 있다. 로봇이 '말'을 배우는 것보다 '눈치'를 배우는 것이 먼저였다는 사실 — 그리고 그 전환점에는 수십 번의 실패가 조용히 쌓여 있었다.
로봇 공학 업계에는 잘 알려지지 않은 규칙이 하나 있다.
로봇을 더 똑똑하게 만드는 가장 빠른 방법은, 로봇에게 더 많은 말을 가르치는 것이 아니라는 것이다.
보스턴 다이내믹스는 수십 년간 로봇의 운동 능력에 집중했다. 구글의 딥마인드는 로봇에게 자연어 명령을 이해시키려 했다. 테슬라는 옵티머스에게 인간의 언어로 지시를 내리는 파이프라인을 설계했다. 그런데 2026년 5월, 서울이 아닌 샌프란시스코의 한 로봇 스타트업이 전혀 다른 방향에서 조용히 문을 열었다. 피규어 AI의 휴머노이드 두 대는 아무 말도 하지 않았다. 서로 지시를 주고받지 않았다. 그냥 — 눈치를 봤다. 그리고 2분 만에 침실을 정리했다.
이것이 왜 중요한지, 지금부터 차근차근 풀어보겠다.
먼저, 로봇이 '말'을 배우는 데 얼마나 걸렸는가
로봇과 언어의 관계는 생각보다 오래됐다. 1960년대 MIT의 SHRDLU 프로젝트는 로봇에게 자연어로 명령을 내리는 실험을 시도했다. "파란 블록을 빨간 블록 위에 올려라." 이 단순한 문장을 이해하는 데만 당시 기준으로 엄청난 컴퓨팅 자원이 필요했다. 반세기가 지난 지금, 대형 언어 모델은 그 수준을 아득히 넘어섰다.
그러나 여기서 역설이 하나 생긴다. 언어 능력이 뛰어나질수록, 로봇은 오히려 더 말에 의존하게 됐다. "이것을 저기에 놓아라." "다음엔 저걸 집어라." 로봇이 협업하는 방식은 사람이 사람에게 지시를 내리는 방식과 유사하게 설계됐다. 명확한 명령, 명확한 수신, 명확한 실행. 군대식 커뮤니케이션 구조다.
문제는, 현실의 협업이 그렇게 작동하지 않는다는 점이다. 경험 많은 주방장 두 명이 좁은 주방에서 일할 때, 그들은 서로에게 "지금 소스 냄비를 왼쪽으로 옮겨"라고 말하지 않는다. 한 명이 냄비 쪽으로 손을 뻗으면, 다른 한 명은 이미 비켜서 있다. 이것이 '눈치'다. 그리고 이 눈치는 언어로 전달되는 정보가 아니다. 맥락, 위치, 타이밍, 상대방의 의도 추론으로 만들어지는 비언어적 조율이다.
피규어 AI가 이번에 보여준 것은, 바로 이 주방장들의 협업이었다.
2분이라는 숫자 앞에서, 먼저 물어야 할 것
"2분 만에 침실 정리." 이 숫자를 처음 접하면 놀랍다. 하지만 잠깐 멈춰야 한다.
2분이 빠른 것인가, 느린 것인가. 사람이라면 같은 일을 몇 분 만에 할 수 있는가. 침실 정리의 범위는 어디까지인가. 어지럽혀진 정도는 어느 수준이었는가. 이 질문들에 답하지 않으면 2분은 그냥 숫자다.
그러나 이 맥락에서 2분이 중요한 이유는 따로 있다. 속도가 아니라 완성도의 문제다. 두 로봇이 서로 충돌하지 않았다. 같은 물건을 동시에 집으려 하지 않았다. 한 로봇이 어떤 공간을 사용하는 동안, 다른 로봇은 그 공간을 피했다. 이것이 기술적으로 얼마나 어려운 일인지는, 자율주행차 두 대가 좁은 골목에서 교행하는 장면을 상상하면 바로 느낄 수 있다.
자율주행 분야에서 차량 간 통신, 즉 V2V(Vehicle-to-Vehicle) 기술이 등장한 이유가 바로 이것이다. 두 대의 자율주행차가 충돌 없이 협력하려면, 서로의 의도를 공유해야 했다. 그리고 그 공유는 오랫동안 명시적 통신, 즉 '말'에 의존했다. 피규어 AI가 이번에 시도한 것은, 그 명시적 통신 없이 묵시적 협조를 가능하게 하는 것이었다.
거인들은 이 문제를 통신 프로토콜로 풀었다. 피규어 AI는 이 문제를 맥락 추론으로 풀었다.
눈치란 무엇인가 — 기술적으로 번역하면
'눈치'라는 단어를 기술 용어로 번역하면 무엇이 될까.
가장 가까운 개념은 암묵적 상태 추정(implicit state estimation)이다. 나는 지금 상대방의 행동 데이터를 보고, 상대방이 다음에 무엇을 할지를 예측한다. 그리고 내 행동을 그 예측에 맞게 조율한다. 상대방이 나에게 아무것도 말하지 않아도.
이것은 놀랍도록 어려운 문제다. 왜냐하면 상대방의 '다음 행동'은 확정된 것이 아니기 때문이다. 상대방 역시 내 행동을 보고 자신의 계획을 수정하고 있다. 즉, A는 B의 미래를 예측하고, B는 A의 미래를 예측하고, 그 예측들이 서로를 수정하면서 최종적으로 두 행동이 조화롭게 맞아떨어지는 균형점을 찾아야 한다. 게임 이론에서는 이것을 내시 균형(Nash Equilibrium)이라 부른다.
체스나 바둑 같은 명확한 규칙 하에서의 게임이라면, AI는 이미 인간을 뛰어넘은 지 오래다. 그러나 물리적 공간에서 몸을 가진 두 에이전트가 이 균형을 실시간으로 찾아내는 것은 전혀 다른 차원의 문제다. 테이블 위에 놓인 셔츠 한 장, 바닥에 흩어진 책 몇 권, 침대 위의 베개. 이 물체들의 위치, 두 로봇의 현재 자세, 각 로봇의 그립 상태, 걸어야 할 동선. 이 모든 변수가 실시간으로 계산되고 상호 조율되어야 한다.
피규어 AI가 이것을 어떻게 풀었는지의 세부 기술은 아직 공개되지 않았다. 하지만 결과는 공개됐다. 그리고 결과는, 두 로봇이 서로 부딪히지 않고 방을 정리했다는 것이다. 이 단순한 사실이 지금 로봇 공학 커뮤니티에 상당한 파문을 일으키고 있는 이유는, 그것이 얼마나 오래 걸렸는가를 알기 때문이다.
거인들은 왜 이 문제를 먼저 풀지 못했나
보스턴 다이내믹스의 아틀라스는 세상에서 가장 유연하게 움직이는 로봇 중 하나다. 계단을 뛰어오르고, 공중제비를 넘고, 무너진 지형에서도 균형을 잡는다. 그러나 아틀라스 두 대가 함께 방을 정리하는 시연은 아직 없다. 테슬라의 옵티머스는 배터리 셀을 옮기는 작업을 단독으로 수행하는 영상을 공개했다. 그러나 두 대가 동시에 같은 공간에서 협력하는 영상은 공개되지 않았다.
왜일까.
거인들이 이 문제에 무관심해서가 아니다. 오히려 정반대다. 이 문제의 난이도를 너무 잘 알고 있기 때문에, 단계적으로 접근하는 것이다. 우선 한 대가 잘 움직여야 한다. 그다음에 한 대가 지시를 이해해야 한다. 그다음에 한 대가 자율적으로 판단해야 한다. 그리고 그 다음에야 두 대가 협력할 수 있다.
이 접근법은 논리적이다. 그러나 선형적이다.
피규어 AI가 택한 길은 달랐다. 그들은 협력 자체를 처음부터 훈련의 목표로 삼았다. 개별 퍼포먼스를 극대화한 다음 협력을 붙이는 것이 아니라, 협력하는 상황 자체를 훈련 환경으로 만든 것이다. 이것은 마치 수영을 가르치는 두 가지 방법의 차이와 같다. 물 밖에서 팔 동작을 완벽하게 익힌 다음 물에 들어가는 방법과, 처음부터 물에 들어가 익사하지 않는 법을 배우는 방법. 전자가 안전하다. 후자가 빠르다.
물론 후자에는 리스크가 있다. 그리고 피규어 AI는 그 리스크를 실제로 경험했을 것이다.
그리고 한 번의, 혹은 수백 번의 실패들
로봇 협업 연구에는 잘 공개되지 않는 실패의 역사가 있다.
두 로봇이 같은 물건을 동시에 집으려다 서로의 팔이 충돌하는 상황. 한 로봇이 이동하는 경로에 다른 로봇이 멈춰 서 있어 전체 작업이 정지되는 상황. 한 로봇이 물건을 내려놓으려는 바로 그 위치에 다른 로봇의 발이 놓여 있는 상황. 이런 실패들은 영상으로 공개되지 않는다. 언론에 보도되지 않는다. 그러나 오늘 우리가 보는 '2분 만에 침실 정리'라는 결과의 뒤에는, 이 실패들이 쌓여 있다.
이것은 피규어 AI만의 이야기가 아니다. 모든 로봇 스타트업의 이야기다. 그리고 이 실패들이 중요한 이유는, 실패 데이터가 곧 학습 데이터이기 때문이다. 두 로봇이 충돌한 순간의 센서 데이터. 작업이 멈춘 순간의 상태 로그. 한 로봇이 다른 로봇의 경로를 예측하지 못한 케이스. 이 모든 실패 케이스들이 훈련 데이터로 들어가면서, 모델은 점점 더 정교하게 상대방의 의도를 추론하는 법을 배웠을 것이다.
"그런데 이 방식은 실패했다."
그리고 다시 시도했다. 그리고 또 실패했다. 그리고 2분짜리 영상이 완성됐다.
이 영상이 보여주지 않는 것들
하지만 여기서 한 가지를 분명히 해야 한다.
2분짜리 침실 정리 시연은 통제된 환경에서의 결과다. 침실의 레이아웃이 미리 설계됐을 가능성이 높다. 사용된 물건들의 종류와 위치가 훈련 데이터와 유사했을 가능성이 있다. 두 로봇이 처리해야 할 물건의 수와 복잡도가 실제 가정환경보다 제한됐을 수 있다.
이것이 아직은 완성된 제품이라는 뜻은 아니다.
실제 가정집에는 예상치 못한 변수가 수없이 많다. 바닥에 고양이가 누워 있을 수 있다. 아이가 갑자기 방 안으로 뛰어들어올 수 있다. 정리해야 할 물건이 이전에 훈련한 적 없는 새로운 형태일 수 있다. 이런 상황에서 두 로봇이 충돌 없이 안전하게 작동한다는 보장은 아직 없다.
그러나 그것이 이 시연의 가치를 낮추지는 않는다. 중요한 것은 '완성'이 아니라 '방향'이기 때문이다. 피규어 AI는 로봇 협업의 방향을 언어 기반 명시적 통신에서 맥락 기반 암묵적 조율로 전환하는 데 성공했다. 이 전환점을 만들었다는 것이 2026년 5월에 이 시연이 갖는 진짜 의미다.
그래서, 이것이 우리 삶에 언제 닿는가
현실적인 질문을 해보자.
이 기술이 실제 가정에 들어오려면 얼마나 걸릴까. 단독 작동 휴머노이드조차 아직 대부분의 가정에 없다. 두 대가 협력하는 시스템이 상용화되려면 훨씬 더 많은 시간이 필요하다. 안전 검증, 비용 문제, 실제 환경 다양성에 대한 적응. 이 모든 장벽이 있다.
그러나 이 기술의 파급력은 가정용 로봇에 그치지 않는다. 물류 창고에서 두 대의 로봇이 협력해 무거운 화물을 옮기는 장면을 상상해보라. 건설 현장에서 여러 대의 로봇이 서로 방해하지 않으면서 각자의 작업을 동시에 진행하는 장면을 상상해보라. 병원에서 로봇이 의사나 간호사의 동선을 방해하지 않고 물품을 운반하는 장면을 상상해보라.
이 시나리오들에서 공통점은 하나다. '말'이 필요 없다. 명시적 지시가 없어도 조율이 가능하다는 것. 그것이 이 기술의 산업적 가치다.
아마존 물류 창고에는 현재 수만 대의 이동 로봇이 작동한다. 그러나 그 로봇들은 중앙 제어 시스템의 지시를 받는다. 각 로봇이 독립적으로 서로의 의도를 읽고 조율하지 않는다. 피규어 AI가 보여준 것은, 그 중앙 제어 시스템 없이도 협력이 가능하다는 가능성이다. 이것이 실현되면, 로봇 협업의 확장성은 완전히 다른 차원으로 넘어간다.
눈치를 배운 로봇이 다음에 배울 것
마지막으로, 이 기술의 궤적을 생각해보자.
로봇은 지금까지 순서대로 배웠다. 움직이는 법, 물건을 잡는 법, 지시를 이해하는 법, 스스로 판단하는 법. 그리고 이제 — 눈치 보는 법.
흥미로운 것은, 이 순서가 인간 아이의 발달 순서와 닮아 있다는 점이다. 아이는 먼저 몸을 움직이는 법을 배운다. 그다음 물건을 집는 법을 배운다. 그다음 말을 배운다. 그리고 학교에 들어가 여러 아이들과 함께 생활하면서 — 눈치를 배운다. 누가 지금 무엇을 하려 하는지, 내가 어디에 있어야 방해가 되지 않는지, 어떤 타이밍에 도움을 주면 좋은지.
이 눈치가 사회적 존재로서의 첫 번째 역량이다.
피규어 AI의 휴머노이드 두 대는, 그 첫 번째 역량을 2분짜리 침실 정리로 증명했다. 아직 갈 길이 멀다. 그러나 방향은 정해졌다.
'말'을 빼고 '눈치'를 넣었을 때, 로봇은 비로소 동료가 될 준비를 시작했다. 말 한마디 없이 침실을 정리한 두 기계의 이야기치고는, 꽤 흥미로운 출발점이다.
더 많은 AI 인사이트는 비드래프트에서 확인하세요.
자주 묻는 질문
Q. 피규어 AI의 로봇이 말 없이 협업한다는 게 구체적으로 무엇을 의미하는가?
A. 두 로봇이 사전에 정해진 역할 분담이나 실시간 언어 명령 없이, 서로의 위치와 행동을 관찰하며 작업을 분배하고 충돌을 피한다는 의미다. 이는 중앙 제어 시스템 없이 각 로봇이 독립적으로 상대방의 의도를 추론하는 방식으로 작동한다.
Q. 이번 시연이 실제 상용화로 이어지기까지 어떤 과제가 남아 있나?
A. 통제된 환경을 넘어 예측 불가능한 실제 공간에서의 안전성 검증, 훈련 데이터에 없는 새로운 물체와 상황 적응력 확보, 그리고 두 대 이상 다수 로봇 협업으로의 확장이 주요 과제다. 상용화까지는 수년 이상의 추가 개발이 필요할 것으로 보인다.
Q. 기존의 아마존 물류 로봇과 이번 기술의 차이는 무엇인가?
A. 아마존 물류 창고의 로봇들은 중앙 제어 시스템이 각 로봇의 경로와 타이밍을 일괄 관리한다. 피규어 AI가 시도한 방식은 각 로봇이 상대 로봇의 상태를 직접 추론해 스스로 조율하는 분산형 협업이다. 이 차이는 확장성과 유연성 면에서 근본적으로 다른 가능성을 열어준다.
Q. '눈치'를 로봇에게 학습시키는 것이 왜 기술적으로 어려운가?
A. 눈치는 상대방의 현재 행동뿐 아니라 미래 의도를 예측하고, 그 예측에 근거해 자신의 행동을 사전에 조율하는 과정이다. 이때 상대방도 동시에 나의 의도를 예측하며 행동을 바꾸기 때문에, 두 에이전트가 실시간으로 상호 예측을 수정하는 복잡한 계산이 필요하다. 명확한 규칙이 없는 물리적 공간에서 이를 실시간으로 처리하는 것이 핵심 난관이다.
Top comments (0)