Gemini 3.5 "Flash" Costs 15x More Than Flash 2.0 — It's Pro in Disguise
Google I/O 2026 Review — Part 1 of 5
The keynote crowd cheered. Sundar Pichai announced that Gemini 3.5 Flash outperforms Gemini 3.1 Pro on multiple benchmarks. The narrative was clean: the lightweight, cheap model just beat the flagship. The start of "the agentic Gemini era."
Then I opened the pricing page.
Flash and Pro Are Neighbors Now
| Model | Input (per 1M tokens) | Output (per 1M tokens) |
|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 |
| Gemini 3.1 Pro | $2.00 | $12.00 |
Source: Google AI pricing, accessed 2026-05-19.
Flash at $1.50/$9.00. Pro at $2.00/$12.00. That is a 25% gap on input, 25% on output. These are not different tiers. They are neighbors. Two years ago, Flash cost a fraction of Pro. Now they share the same block.
If someone showed you these two price points without labels, you would guess they are variants of the same model class. You would be right.
How Flash Got Here: Three Generations of Price Creep
| Model | Input (per 1M tokens) | Output (per 1M tokens) | vs 2.0 Flash (Input) | vs 2.0 Flash (Output) |
|---|---|---|---|---|
| 1.5 Flash | $0.075 | $0.30 | 0.75x | 0.75x |
| 2.0 Flash | $0.10 | $0.40 | 1x (baseline) | 1x (baseline) |
| 2.5 Flash | $0.30 | $2.50 | 3x | 6.25x |
| 3.0 Flash | $0.50 | $3.00 | 5x | 7.5x |
| 3.5 Flash | $1.50 | $9.00 | 15x | 22.5x |
Source: Google AI pricing. All prices are standard (non-batch) per 1M tokens.
From 2.0 Flash to 3.5 Flash: input price rose 15x ($0.10 to $1.50). Output price rose 22.5x ($0.40 to $9.00). A model called "Flash" now costs fifteen times what Flash cost three generations ago.
The trajectory is clear. Flash did not stay in the lightweight lane. It grew into the price range that Pro used to occupy.
The Name Didn't Change. The Economics Did.
Here is what I think actually happened: Google shipped Pro-level performance and put the Flash label on it.
The benchmarks are real. Flash 3.5 does outperform Pro 3.1 on the metrics Google showed. But outperforming Pro while costing nearly the same as Pro is not "the cheap model won." It is "the expensive model got a new name."
Think about it from Google's side. If they had called it Pro 3.5 at $1.50/$9.00, the story would be: "Google cut Pro pricing by 25%." Accurate, useful, but not a keynote moment. By calling it Flash, the story becomes: "Flash beat Pro!" That is a keynote moment. Same product economics, different narrative.
Pichai himself leaned into the framing. He used the word "tokenmaxxing" during the keynote — more tokens, more context, more throughput. Some out there might call this tokenmaxxing, he said. The naming is part of that narrative. Flash sounds lightweight and affordable. The pricing page tells a different story.
So Is This Bad? Not Exactly.
I want to be fair. The absolute price matters more than the brand name.
Pro-level performance at $1.50/$9.00 is genuinely useful. Consider an agent workload — a customer support bot handling 50,000 conversations per day. At legacy Pro pricing ($2.00/$12.00), the daily output token cost for, say, 500 tokens per response is:
50,000 conversations x 500 output tokens = 25M output tokens/day
At Pro 3.1: 25 x $12.00 = $300/day
At Flash 3.5: 25 x $9.00 = $225/day
That is $75/day saved, or roughly $2,250/month — with the same or better benchmark performance. For agent-heavy workloads running at scale, this price point opens real economic headroom.
The win is not that "Flash beat Pro." The win is that Pro-grade inference got 25% cheaper. That is a quieter story, but a more honest one.
Benchmarks vs. Production: The Usual Caveat
One thing the keynote did not cover: benchmark performance and production performance are different conversations. Benchmarks test isolated capabilities — reasoning, coding, knowledge retrieval — under controlled conditions. Production workloads add latency variance, context window pressure, tool-call chains, and failure modes that benchmarks do not measure.
I have not tested Flash 3.5 in production yet. Nobody outside Google has had enough time to. If you are making infrastructure decisions based on the keynote benchmarks alone, you are making them on incomplete data. Wait for the community benchmarks. Wait for your own evals.
Gemma 4: A Quick Note from Local Testing
On a related note — I have been running Gemma 4 (2.3B) locally for on-device-llm-wiki, a zero-cost, fully offline knowledge engine. In our internal reasoning benchmark across on-device and cloud models, Gemma 4 scored 66/85 — outperforming Granite 3.4B (52), Qwen3 4B (28), and SmolLM2 1.7B (35). For reference, Claude Haiku 4.5 scored 76. A free, local 2B model reaching 87% of a commercial cloud model's reasoning score — while beating a 4B competitor by more than 2x — is not incremental. It is a generational leap.
If Flash 3.5 carries the same generational improvement at cloud scale, the performance claims are plausible. Gemma is the open-weight sibling of the Gemini family, and quality gains in one tend to reflect in the other. But plausible is not confirmed — that requires production testing, not keynote slides.
What I Think You Should Do
Read the pricing page, not the keynote. The pricing page is the source of truth. Marketing narratives are not.
Run your own evals. If you are considering Flash 3.5 for production, test it on your workloads. Benchmark suites test what benchmark suites test.
Compare to the actual competition. Flash 3.5 at $1.50/$9.00 competes with Claude Sonnet 4 ($3/$15), GPT-4.1 ($2/$8), and other mid-to-high tier models. Compare apples to apples at the price point, not at the brand name.
Track the trajectory. Flash went from $0.10/$0.40 to $1.50/$9.00 in three generations. If the pattern holds, Flash 4.0 will cost what Pro costs today. Plan accordingly.
The Bottom Line
Google told a story about the cheap model beating the expensive one. The pricing page tells a story about the expensive model getting a cheaper name. Both stories have truth in them. The benchmarks are real. The price convergence is real. Which story matters more depends on what you are building.
For me, the useful takeaway is simpler: Pro-level performance is now available at $1.50/$9.00. That is good for anyone running agents at scale. Just do not call it cheap — it is 15x more expensive than the Flash you remember.
This is Part 1 of a 5-part Google I/O 2026 review series. Next up: Managed Agents API — serverless agents arrive, but so does GCP lock-in.
If you have tested Flash 3.5 against Pro on your own workloads, I would like to hear the numbers. Drop a comment or find me on GitHub.
Sources:
한국어 번역
Gemini 3.5 "Flash"는 Flash 2.0보다 15배 비싸다 — 사실 Pro의 변장이다
Google I/O 2026 리뷰 — Part 1 of 5
키노트 객석이 환호했다. 순다르 피차이가 Gemini 3.5 Flash가 여러 벤치마크에서 3.1 Pro를 능가한다고 발표했다. 서사는 깔끔했다: 가볍고 저렴한 모델이 플래그십을 이겼다. "에이전틱 Gemini 시대"의 시작.
그런데 가격표를 열어봤다.
Flash와 Pro가 이제 이웃이다
| 모델 | 입력 (1M 토큰당) | 출력 (1M 토큰당) |
|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 |
| Gemini 3.1 Pro | $2.00 | $12.00 |
출처: Google AI 가격 페이지, 2026-05-19 확인.
Flash $1.50/$9.00. Pro $2.00/$12.00. 입력 차이 25%, 출력 차이 25%. 다른 티어가 아니다. 이웃이다. 2년 전만 해도 Flash는 Pro의 몇 분의 1이었다. 이제 같은 블록에 산다.
라벨 없이 이 두 가격만 보여주면, 같은 모델 클래스의 변형이라고 추측할 것이다. 맞는 추측이다.
Flash가 여기까지 온 과정: 3세대 가격 상승
| 모델 | 입력 (1M 토큰당) | 출력 (1M 토큰당) | 2.0 대비 입력 | 2.0 대비 출력 |
|---|---|---|---|---|
| 1.5 Flash | $0.075 | $0.30 | 0.75배 | 0.75배 |
| 2.0 Flash | $0.10 | $0.40 | 1배 (기준) | 1배 (기준) |
| 2.5 Flash | $0.30 | $2.50 | 3배 | 6.25배 |
| 3.0 Flash | $0.50 | $3.00 | 5배 | 7.5배 |
| 3.5 Flash | $1.50 | $9.00 | 15배 | 22.5배 |
출처: Google AI 가격 페이지. 모든 가격은 표준(비배치) 1M 토큰 기준.
2.0 Flash에서 3.5 Flash까지: 입력 가격 15배 상승 ($0.10 → $1.50). 출력 가격 22.5배 상승 ($0.40 → $9.00). "Flash"라는 이름을 달고 가격이 3세대 만에 15배 올랐다.
궤적이 명확하다. Flash는 경량 레인에 머물지 않았다. Pro가 차지하던 가격대로 올라왔다.
이름은 안 바뀌었다. 경제학이 바뀌었다.
실제로 일어난 일은 이렇다고 본다: 구글이 Pro급 성능을 만들어서 Flash 라벨을 붙였다.
벤치마크는 진짜다. Flash 3.5가 구글이 보여준 지표에서 Pro 3.1을 실제로 능가한다. 하지만 Pro를 능가하면서 가격이 Pro와 거의 같다면, 그건 "싼 모델이 이겼다"가 아니다. "비싼 모델이 새 이름을 얻었다"이다.
구글 입장에서 생각해보자. 이걸 Pro 3.5라고 부르고 $1.50/$9.00에 내놨다면, 스토리는 "구글이 Pro 가격을 25% 내렸다"가 된다. 정확하고, 유용하지만, 키노트 순간은 아니다. Flash라고 부르면 "Flash가 Pro를 이겼다!"가 된다. 이건 키노트 순간이다. 같은 제품 경제, 다른 서사.
피차이 본인이 이 프레이밍을 밀었다. 키노트에서 "tokenmaxxing"이라는 단어를 썼다 — 토큰 더, 컨텍스트 더, 처리량 더. "some out there might call this tokenmaxxing"이라고 했다. 네이밍도 그 서사의 일부다. Flash는 가볍고 저렴하게 들린다. 가격표는 다른 이야기를 한다.
그래서 나쁜 건가? 꼭 그렇진 않다.
공정하게 말하고 싶다. 브랜드 이름보다 절대 가격이 중요하다.
Pro급 성능이 $1.50/$9.00에 나온다는 건 진짜 유용하다. 에이전트 워크로드를 생각해보자 — 하루 5만 건 대화를 처리하는 고객지원 봇. 레거시 Pro 가격 ($2.00/$12.00)에서 응답당 500 토큰 출력이라면:
5만 대화 x 500 출력 토큰 = 일 2,500만 출력 토큰
Pro 3.1: 25 x $12.00 = 일 $300
Flash 3.5: 25 x $9.00 = 일 $225
일 $75 절감, 월 약 $2,250 — 같거나 더 나은 벤치마크 성능으로. 대규모 에이전트 워크로드에서 이 가격대는 실질적 경제적 여유를 만든다.
이긴 건 "Flash가 Pro를 이겼다"가 아니다. 이긴 건 Pro급 추론이 25% 싸졌다는 것이다. 더 조용한 이야기지만, 더 정직한 이야기다.
벤치마크 vs 프로덕션: 늘 있는 주의사항
키노트가 다루지 않은 것: 벤치마크 성능과 프로덕션 성능은 다른 대화다. 벤치마크는 통제된 조건에서 격리된 능력을 테스트한다 — 추론, 코딩, 지식 검색. 프로덕션 워크로드는 레이턴시 분산, 컨텍스트 윈도우 압박, 도구 호출 체인, 벤치마크가 측정하지 않는 실패 모드를 더한다.
나는 아직 Flash 3.5를 프로덕션에서 테스트하지 못했다. 구글 외부에서 충분한 시간을 가진 사람은 아무도 없다. 키노트 벤치마크만으로 인프라 결정을 내린다면, 불완전한 데이터로 결정하는 것이다. 커뮤니티 벤치마크를 기다려라. 자체 평가를 기다려라.
Gemma 4: 로컬 테스트 짧은 메모
관련해서 — 나는 Gemma 4 (2.3B)를 on-device-llm-wiki(https://github.com/ww-w-ai/on-device-llm-wiki)에서 로컬로 돌리고 있다. 비용 제로, 완전 오프라인 지식 엔진이다. 자체 온디바이스 + 클라우드 모델 대상 추론 벤치마크에서 Gemma 4는 85점 만점에 66점 — Granite 3.4B (52), Qwen3 4B (28), SmolLM2 1.7B (35)를 압도했다. 참고로 Claude Haiku 4.5는 76점이다. 무료 로컬 2B 모델이 상용 클라우드 모델 추론 점수의 87%에 도달하면서 — 4B 경쟁 모델을 2배 이상 이기는 건 점진적 개선이 아니다. 세대적 도약이다.
Flash 3.5가 같은 세대적 개선을 클라우드 스케일로 가져온다면, 성능 주장은 타당하다. Gemma는 Gemini 패밀리의 오픈 웨이트 형제이고, 한쪽의 품질 향상은 다른 쪽에 반영되는 경향이 있다. 하지만 타당하다와 확인됐다는 다르다 — 그건 프로덕션 테스트가 필요하지, 키노트 슬라이드가 아니다.
내가 생각하는 해야 할 것
키노트가 아니라 가격표를 읽어라. 가격 페이지가 진실의 원천이다. 마케팅 서사는 아니다.
자체 평가를 돌려라. Flash 3.5를 프로덕션에 고려 중이라면, 본인 워크로드에서 테스트하라. 벤치마크 스위트는 벤치마크 스위트가 테스트하는 것을 테스트한다.
실제 경쟁 제품과 비교하라. Flash 3.5 $1.50/$9.00은 Claude Sonnet 4 ($3/$15), GPT-4.1 ($2/$8) 등 중~상위 티어 모델과 경쟁한다. 브랜드 이름이 아니라 가격대에서 같은 것끼리 비교하라.
궤적을 추적하라. Flash가 3세대 만에 $0.10/$0.40에서 $1.50/$9.00으로 갔다. 패턴이 유지되면, Flash 4.0은 오늘의 Pro 가격이 될 것이다. 그에 맞게 계획하라.
결론
구글은 싼 모델이 비싼 모델을 이겼다는 이야기를 했다. 가격표는 비싼 모델이 싼 이름을 얻었다는 이야기를 한다. 두 이야기 모두 진실이 있다. 벤치마크는 진짜다. 가격 수렴도 진짜다. 어떤 이야기가 더 중요한지는 무엇을 만들고 있느냐에 달렸다.
나에게 유용한 결론은 더 단순하다: Pro급 성능이 이제 $1.50/$9.00에 있다. 대규모 에이전트 운영에 좋은 일이다. 다만 싸다고 부르지는 마라 — 당신이 기억하는 Flash보다 15배 비싸다.
이것은 Google I/O 2026 리뷰 5편 시리즈의 Part 1입니다. 다음: Managed Agents API — 서버리스 에이전트가 도착했다, GCP 락인과 함께.
Flash 3.5를 본인 워크로드에서 Pro와 비교 테스트해보셨다면, 수치를 듣고 싶습니다. 댓글이나 GitHub에서 찾아주세요.
Top comments (0)