DEV Community

ww-w.ai
ww-w.ai

Posted on

Google I/O Review (3/5) — Gemini Omni Is a Learned Physics Engine

Gemini Omni Is a Learned Physics Engine — Like Unity, But the Rules Aren't Coded

Google I/O 2026 Review — Part 3 of 5


Most video generation models fake physics. They learn what gravity looks like — a ball falls, a cloth drapes — and reproduce the visual pattern. Push the scene past what the training data covered and things break. A marble doesn't bounce right. Shadows point the wrong way after a lighting edit. Swap a background and the character morphs into someone else.

Gemini Omni does something different. It maintains physics and identity across frames — not because someone coded gravity = 9.8 into the system, but because the model built an internal representation of how the physical world works.

That distinction matters more than the demo reel suggests.


The Demos That Stopped the Room

Three demos at I/O 2026 showed what Omni can do.

Hand-drawn character to animation. Someone sketched a character on paper, uploaded it, and Omni turned it into a 10-second animated story. Not a static image with parallax — an actual animation with movement, expression changes, and a coherent scene.

Marble physics. A marble bouncing down a chain-reaction track. Gravity pulled it at the right rate. Bounce trajectories matched the angle of impact. Each bounce produced a distinct sound, including a bell ring at the end. The physics weren't approximate. They looked simulated.

Claymation protein folding. A single prompt generated an educational video showing protein folding in claymation style. The clay texture stayed consistent across the sequence. The folding motion followed biologically plausible mechanics. One prompt. No keyframes. No rigging.

One reviewer at ChatPRD called it "the most impressive demo of the day." Having watched the full keynote and the hands-on sessions, I think that's fair.


What Makes This Different from Sora

Every video generation model can produce impressive isolated clips. The test is what happens when you edit.

Change the background in a Sora-generated scene, and the character often drifts — subtle changes to face shape, clothing color, body proportions. The model doesn't know the character is supposed to stay the same. It's generating each frame based on visual similarity to the previous frame, not based on an understanding that this is the same entity.

Omni maintains identity after edits. Swap the background from a forest to a kitchen. Change the lighting from warm to cold. Replace a prop. The character stays the same — same face, same proportions, same clothing. Google's claim is that the model maintains a persistent representation of objects and their properties, independent of the scene context.

This is the hardest problem in video generation and the reason most generated videos feel uncanny. They look right for 3 seconds. Then something shifts.


The Unity Analogy — And Why It Matters

Here is the mental model I keep coming back to.

In Unity or Unreal, physics works because engineers wrote the rules. Rigidbody.AddForce() applies Newtonian mechanics. Collision detection uses mathematical bounding volumes. Gravity is a constant. The engine simulates a world by executing code.

Omni does something conceptually similar — it maintains physics across frames — but through a different mechanism. The rules aren't coded. They're learned. The model internalized how gravity, light, momentum, and material properties behave by processing enormous amounts of video data. It built what researchers call a world model: an internal representation of physical laws that it applies when generating new frames.

Think of it this way:

Game engine (Unity) Learned physics (Omni)
Physics rules Explicitly coded (F = ma) Implicitly learned from data
Object identity Tracked via object IDs Maintained via internal representation
Edit behavior Deterministic — same input, same output Probabilistic — but consistent within a generation
Novel scenarios Only what the code handles Generalizes from training data patterns
Failure mode Crashes or glitches visibly Degrades subtly (uncanny valley)

The game engine approach has known limits and known strengths. You can trust the physics because you wrote the physics. The learned approach trades that certainty for generality — it can handle scenarios nobody anticipated, because it doesn't need someone to write the collision handler first.

The phrase I wrote in my full I/O review keeps sticking: "Like Unity, but the rules aren't coded. They're understood."


Practical Impact: Who Cares Beyond the Demo Reel

Three concrete use cases where this changes cost structures.

YouTube thumbnails and short-form video. A solo creator who currently pays $200-500 for a 30-second product animation can describe the scene in a prompt. If Omni delivers even 70% of the quality at near-zero marginal cost, the economics of content production shift for every small creator and indie team.

Product walkthrough videos. SaaS companies spend $5,000-15,000 per explainer video (script, motion graphics, voiceover, revisions). A world model that understands object permanence means you can generate a walkthrough, swap the UI screenshots for the next version, and the video stays coherent. The revision cycle collapses.

Educational content. The claymation protein-folding demo is not a party trick. If a biology teacher can prompt "show me mitosis in stop-motion clay style, 30 seconds" and get something accurate enough for a classroom, that's a production studio in a text box.

The common thread: Omni reduces the cost of visual storytelling from "hire a team" to "write a paragraph." Not for Hollywood. Not for AAA games. For the long tail of content that nobody could afford to produce before.


What It Can't Do Yet

This section matters more than the demo reel.

It's still in preview. Google showed curated demos on stage. We have not seen the failure cases — the weird hand, the physics glitch, the moment where identity drifts on frame 87. Every generative model looks incredible in a keynote. The question is what happens on the 50th generation you run on your own.

Long-form is unproven. The demos were 10 seconds. What happens at one minute? Two minutes? Five? World models degrade over time — small errors in frame N compound by frame N+100. Whether Omni maintains coherence over longer durations is an open question. Omni Flash clips are capped at 10 seconds; Sora supports up to 60.

Production-grade quality is not validated. "Impressive demo" and "I can ship this to customers" are different bars. Color accuracy, resolution consistency, artifact rates under varied prompts — none of these have been tested at scale by external users.

The pricing is unknown. A world model that generates physically consistent video is computationally expensive. If Omni pricing follows the Flash trajectory — where prices have climbed steeply across Flash generations — the cost math could limit adoption to enterprises.


Where This Fits in the Bigger Picture

Omni is not a video editor. It's not a motion graphics tool. It's a world simulator that outputs video. That framing changes what you compare it to.

Sora and Runway are video generators — they turn text into pixels. Omni is closer to a physics engine that happens to render its output as video frames. The difference is whether the system understands the scene or merely paints it.

If that understanding holds up outside curated demos — and that's a genuine if — the implications go beyond content creation. Robotics simulation, architectural visualization, scientific modeling, game prototyping. Any field that needs "show me what would happen if..." becomes a potential use case.

For now, it's a preview. An impressive one. But a preview.


What I'm watching for next: Public API access, pricing, and the first independent benchmarks on identity persistence across 60+ second clips. The demo set a bar. The product needs to clear it.

If you're tracking Gemini Omni or have tested other world-model approaches, I'd like to hear what you've seen. Comments or GitHub.


Sources:


한국어 번역

Gemini Omni는 학습된 물리 엔진이다 — Unity처럼, 하지만 규칙이 코딩된 게 아니다

Google I/O 2026 리뷰 — 5부작 중 3편


대부분의 영상 생성 모델은 물리를 흉내 낸다. 중력이 어떻게 보이는지 학습한다 — 공이 떨어지고, 천이 늘어지고 — 그 시각 패턴을 재현한다. 훈련 데이터가 커버하지 못한 장면을 밀어붙이면 무너진다. 구슬이 제대로 튕기지 않는다. 조명을 바꾸면 그림자가 엉뚱한 방향을 가리킨다. 배경을 바꾸면 캐릭터가 다른 사람으로 변한다.

Gemini Omni는 다른 걸 한다. 프레임 간에 물리와 정체성을 유지한다 — 누군가가 시스템에 gravity = 9.8을 코딩했기 때문이 아니라, 모델이 물리 세계가 어떻게 작동하는지의 내부 표현을 구축했기 때문이다.

그 차이가 데모 릴이 보여주는 것보다 훨씬 중요하다.


방을 멈춘 데모 세 가지

I/O 2026에서 Omni가 보여준 데모 세 가지.

손그림에서 애니메이션으로. 누군가 종이에 캐릭터를 그리고, 업로드하면, Omni가 10초짜리 애니메이션 이야기로 만들었다. 패럴랙스가 걸린 정지 이미지가 아니라 — 움직임, 표정 변화, 일관된 장면이 있는 실제 애니메이션이다.

구슬 물리. 체인리액션 트랙을 굴러내려가는 구슬. 중력이 정확한 속도로 끌어당겼다. 바운스 궤적이 충돌 각도와 맞았다. 각 바운스마다 다른 소리가 났고, 끝에 벨 소리가 울렸다. 물리가 대충이 아니었다. 시뮬레이션처럼 보였다.

클레이메이션 단백질 접힘. 프롬프트 하나가 클레이메이션 스타일로 단백질 접힘을 보여주는 교육 영상을 생성했다. 점토 질감이 시퀀스 전체에서 일관됐다. 접힘 동작이 생물학적으로 그럴듯한 역학을 따랐다. 프롬프트 하나. 키프레임 없음. 리깅 없음.

ChatPRD 리뷰어는 이걸 "그날 가장 인상적인 데모"라고 불렀다. 키노트 전체와 핸즈온 세션을 다 본 입장에서, 동의한다.


Sora와 뭐가 다른가

모든 영상 생성 모델이 인상적인 단편 클립을 만들 수 있다. 테스트는 편집할 때 일어난다.

Sora 생성 장면에서 배경을 바꾸면, 캐릭터가 종종 흔들린다 — 미세한 얼굴 형태 변화, 옷 색상 변경, 체형 비율 변동. 모델이 캐릭터가 같은 사람이어야 한다는 걸 모르기 때문이다. 이전 프레임과의 시각적 유사성을 기반으로 각 프레임을 생성하지, 이것이 같은 개체라는 이해에 기반하는 게 아니다.

Omni는 편집 후에도 정체성을 유지한다. 배경을 숲에서 주방으로 바꿔라. 조명을 따뜻한 것에서 차가운 것으로 바꿔라. 소품을 교체하라. 캐릭터가 그대로다 — 같은 얼굴, 같은 비율, 같은 옷. 구글의 주장은 모델이 장면 맥락과 무관하게 객체와 속성의 지속적 표현을 유지한다는 것이다.

이것이 영상 생성에서 가장 어려운 문제이고, 생성 영상이 불쾌한 골짜기에 빠지는 이유다. 3초 동안은 맞아 보인다. 그 다음 뭔가 변한다.


Unity 비유 — 왜 중요한가

계속 돌아오게 되는 멘탈 모델이 이거다.

Unity나 Unreal에서 물리가 작동하는 건 엔지니어가 규칙을 코딩했기 때문이다. Rigidbody.AddForce()가 뉴턴 역학을 적용한다. 충돌 감지가 수학적 바운딩 볼륨을 쓴다. 중력은 상수다. 엔진이 코드를 실행해서 세계를 시뮬레이션한다.

Omni는 개념적으로 비슷한 일을 한다 — 프레임 간 물리를 유지 — 하지만 다른 메커니즘으로. 규칙이 코딩된 게 아니다. 학습된 것이다. 모델이 엄청난 양의 영상 데이터를 처리하며 중력, 빛, 운동량, 재질 속성이 어떻게 행동하는지를 내면화했다. 연구자들이 세계 모델(world model)이라 부르는 것 — 새 프레임을 생성할 때 적용하는 물리 법칙의 내부 표현 — 을 구축한 것이다.

게임 엔진 (Unity) 학습된 물리 (Omni)
물리 규칙 명시적 코딩 (F = ma) 데이터에서 암시적 학습
객체 정체성 객체 ID로 추적 내부 표현으로 유지
편집 동작 결정론적 — 같은 입력, 같은 출력 확률적 — 하지만 생성 내에서 일관
새 시나리오 코드가 처리하는 것만 훈련 데이터 패턴에서 일반화
실패 모드 눈에 보이게 충돌하거나 글리치 미묘하게 퇴화 (불쾌한 골짜기)

게임 엔진 방식은 한계와 강점이 알려져 있다. 물리를 신뢰할 수 있는 이유는 물리를 직접 썼기 때문이다. 학습된 방식은 그 확실성을 일반성과 교환한다 — 아무도 예상 못한 시나리오도 처리 가능한데, 충돌 핸들러를 먼저 짜야 할 필요가 없으니까.

풀 I/O 리뷰에서 내가 쓴 문장이 계속 맴돈다: "Unity처럼, 하지만 규칙이 코딩된 게 아니라 이해된 것이다."


실용적 임팩트: 데모 릴 너머로 누가 신경 쓰는가

비용 구조를 바꾸는 구체적 사용 사례 세 가지.

유튜브 썸네일과 숏폼 영상. 현재 30초 제품 애니메이션에 $200-500을 지불하는 솔로 크리에이터가 프롬프트로 장면을 설명할 수 있다. Omni가 거의 제로 한계비용에 70% 품질만 내줘도, 모든 소규모 크리에이터와 인디 팀의 콘텐츠 제작 경제학이 바뀐다.

제품 워크스루 영상. SaaS 회사가 설명 영상 하나에 $5,000-15,000을 쓴다 (스크립트, 모션 그래픽, 나레이션, 수정). 객체 영속성을 이해하는 세계 모델이면, 워크스루를 생성하고, 다음 버전 UI 스크린샷으로 교체해도, 영상이 일관성을 유지한다. 수정 사이클이 무너진다.

교육 콘텐츠. 클레이메이션 단백질 접힘 데모는 파티 트릭이 아니다. 생물 선생님이 "유사분열을 스톱모션 점토 스타일로, 30초"를 프롬프트하고 교실에 쓸 만큼 정확한 결과를 얻으면, 텍스트 박스 하나가 제작 스튜디오인 셈이다.

공통점: Omni가 시각 스토리텔링 비용을 "팀을 고용하라"에서 "문단 하나를 써라"로 줄인다. 할리우드용이 아니다. AAA 게임용이 아니다. 이전에는 아무도 만들 여유가 없었던 롱테일 콘텐츠용이다.


아직 못하는 것

이 섹션이 데모 릴보다 중요하다.

아직 프리뷰 단계다. 구글이 무대에서 큐레이션된 데모를 보여줬다. 실패 사례는 못 봤다 — 이상한 손, 물리 글리치, 87번째 프레임에서 정체성이 흔들리는 순간. 모든 생성 모델이 키노트에서는 대단해 보인다. 문제는 직접 돌린 50번째 생성에서 무슨 일이 일어나느냐다.

장편은 미검증이다. 데모가 10초였다. 1분이면? 2분이면? 5분이면? 세계 모델은 시간이 지나며 퇴화한다 — N번째 프레임의 작은 오류가 N+100 프레임이면 누적된다. Omni가 더 긴 영상에서 일관성을 유지하는지는 열린 질문이다. Omni Flash 클립은 10초 한도; Sora는 최대 60초.

프로덕션 품질은 검증되지 않았다. "인상적인 데모"와 "고객에게 보낼 수 있다"는 다른 기준이다. 색 정확도, 해상도 일관성, 다양한 프롬프트에서의 아티팩트 발생률 — 외부 사용자가 대규모로 테스트한 적이 없다.

가격이 미정이다. 물리적으로 일관된 영상을 생성하는 세계 모델은 연산 비용이 비싸다. Omni 가격이 Flash 궤적을 따라간다면 — Flash 세대를 거듭하며 가격이 급격히 올라간 — 비용이 기업 고객으로 채택을 한정할 수 있다.


큰 그림에서의 위치

Omni는 영상 편집기가 아니다. 모션 그래픽 도구가 아니다. 영상을 출력하는 세계 시뮬레이터다. 그 프레이밍이 비교 대상을 바꾼다.

Sora와 Runway는 영상 생성기다 — 텍스트를 픽셀로 바꾼다. Omni는 결과물을 영상 프레임으로 렌더링하는 물리 엔진에 더 가깝다. 시스템이 장면을 이해하느냐 아니면 단순히 그리느냐의 차이다.

그 이해가 큐레이션된 데모 바깥에서도 통한다면 — 진짜 "만약"이지만 — 함의가 콘텐츠 제작을 넘어간다. 로봇 시뮬레이션, 건축 시각화, 과학 모델링, 게임 프로토타이핑. "만약...하면 어떻게 되지?"가 필요한 모든 분야가 잠재적 사용 사례가 된다.

지금은 프리뷰다. 인상적인 프리뷰. 하지만 프리뷰.


앞으로 지켜볼 것: 공개 API 접근, 가격, 그리고 60초 이상 클립에서 정체성 유지에 대한 첫 독립 벤치마크. 데모가 기준을 세웠다. 제품이 그걸 넘어야 한다.

Gemini Omni를 추적 중이거나 다른 세계 모델 접근법을 테스트해봤다면, 뭘 보셨는지 듣고 싶습니다. 댓글이나 GitHub에서 찾아주세요.

Top comments (0)