Gemini 3.5 Flash ra mắt vào ngày 19 tháng 5 năm 2026 và Google vẫn duy trì tầng truy cập miễn phí. Bạn có thể gọi Flash bằng khóa API miễn phí ngay hôm nay; phiên bản Pro dự kiến ra mắt vào tháng 6. Nếu muốn dùng Flash mà không trả phí, dưới đây là các cách thực tế nhất để bắt đầu.
Hướng dẫn này tập trung vào thiết lập thực tế: lấy khóa miễn phí, chạy thử bằng code, kiểm tra giới hạn và chọn đúng đường dẫn cho từng nhu cầu.
Tóm tắt nhanh
| Đường dẫn | Bạn nhận được gì | Giới hạn |
|---|---|---|
| Ứng dụng Gemini | Trò chuyện đầy đủ + nhập ảnh trên Flash | Giới hạn tin nhắn hằng ngày trên tầng miễn phí |
| Google AI Studio | Giao diện web để thử Flash và chỉnh tham số | Không có hạn ngạch cứng trong UI |
| Khóa API AI Studio | Truy cập REST/SDK tới gemini-3.5-flash
|
Khoảng 1.500 yêu cầu/ngày |
| Tín dụng tài khoản mới Vertex AI | Truy cập Flash theo kiểu production | 300 USD tín dụng, 90 ngày |
| Gemini CLI | Dùng Flash từ terminal bằng tài khoản Google | 1.000 yêu cầu/ngày |
| OpenRouter/cổng bên thứ ba | Truy cập Flash qua dịch vụ trung gian | Phụ thuộc từng nhà cung cấp |
Mỗi cách phù hợp với một trường hợp khác nhau: thử nhanh, thiết kế prompt, xây dựng app, test tải hoặc chạy script từ terminal.
Cách 1: Dùng ứng dụng Gemini nếu chỉ cần chat
Nếu bạn chỉ muốn trò chuyện với Gemini 3.5 Flash, đây là cách nhanh nhất.
- Mở gemini.google.com
- Đăng nhập bằng tài khoản Google
- Trong bộ chọn model, chọn 3.5 Flash
- Nhập prompt và bắt đầu dùng
Ứng dụng Gemini hỗ trợ văn bản, ảnh, tải tệp và chỉnh sửa tài liệu kiểu Canvas. Người dùng miễn phí có giới hạn tin nhắn hằng ngày và giới hạn này được đặt lại mỗi ngày.
Phù hợp cho:
- Nghiên cứu, viết nội dung, brainstorming
- Phân tích hình ảnh không cần API
- So sánh nhanh với các mô hình chat miễn phí khác
Không phù hợp cho:
- Tích hợp vào ứng dụng
- Xử lý hàng loạt
- Workflow cần response có thể lập trình được
Cách 2: Dùng Google AI Studio để thiết kế prompt
Google AI Studio là sân chơi dành cho developer. Nó chạy trên trình duyệt, miễn phí và cho phép bạn chỉnh các tham số của Flash trước khi đưa vào code.
Cách chạy thử:
- Mở aistudio.google.com
- Đăng nhập
- Chọn Create new prompt hoặc dùng template có sẵn
- Trong dropdown model, chọn
gemini-3.5-flash - Nhập prompt và bấm Run
AI Studio hữu ích hơn app Gemini khi bạn cần:
- Điều chỉnh temperature, top-K, top-P
- Đặt system instruction
- Kiểm tra JSON structured output
- Chạy prompt đa phương thức với nhiều ảnh
- Lấy code Python/Node tương ứng
- Xuất prompt thành một lời gọi API Flash
Nếu bạn đang xây tính năng AI, hãy dùng AI Studio để tinh chỉnh prompt trước, sau đó mới chuyển sang API.
Cách 3: Lấy khóa API Gemini 3.5 Flash miễn phí
Đây là cách phù hợp nhất nếu bạn muốn tích hợp Flash vào ứng dụng. Cùng tài khoản AI Studio có thể tạo khóa API miễn phí dùng với gemini-3.5-flash.
Lấy khóa API
- Mở AI Studio
- Nhấp Get API key ở thanh điều hướng bên trái
- Chọn project hiện có hoặc tạo project mới
- Nhấp Create API key
- Sao chép khóa và lưu vào biến môi trường
Không cần thẻ tín dụng. Khóa có thể dùng ngay với Flash. Nếu cần hướng dẫn chi tiết hơn, xem hướng dẫn lấy khóa API Gemini miễn phí.
Hạn ngạch miễn phí của Flash
Tính đến tháng 5 năm 2026, tầng miễn phí cho gemini-3.5-flash khoảng:
- 1.500 yêu cầu/ngày
- 1 triệu token/phút
- 15 yêu cầu/phút
Các con số này có thể thay đổi. Trước khi build production, hãy kiểm tra trang giá chính thức của Google. Nếu cần phân tích chi phí khi vượt tầng miễn phí, xem phân tích giá Gemini 3.5 Flash.
Chạy thử bằng Python
Cài SDK:
pip install google-genai
Đặt biến môi trường:
export GEMINI_API_KEY="your-api-key"
Gọi model:
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Give me three startup ideas for API tooling in 2026."
)
print(response.text)
Chạy thử bằng Node.js
Cài SDK:
npm install @google/genai
Code mẫu:
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({
apiKey: process.env.GEMINI_API_KEY,
});
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Give me three startup ideas for API tooling in 2026.",
});
console.log(response.text);
Chạy thử bằng curl
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [
{
"parts": [
{
"text": "Hello Gemini 3.5 Flash"
}
]
}
]
}'
Để triển khai đầy đủ hơn với streaming và tool calls, xem hướng dẫn API Gemini 3.5 Flash.
Kiểm tra request Flash miễn phí trong Apidog
Khi chỉ có khoảng 1.500 request/ngày, bạn nên tránh lãng phí hạn ngạch vào các request sai format hoặc prompt chưa ổn định. Apidog giúp lưu endpoint Flash, quản lý API key bằng biến môi trường và chạy lại request mà không cần viết curl nhiều lần.
Quy trình đề xuất:
- Tải Apidog
- Tạo request mới
- Dán curl Gemini Flash ở trên
- Chuyển API key sang biến môi trường
- Lưu request
- Thêm assertion cho response
- Chạy lại request khi bạn thay đổi prompt
Cách này giúp bạn kiểm tra prompt có kiểm soát hơn và tránh gọi API lặp lại không cần thiết.
Cách 4: Dùng tín dụng tài khoản mới của Vertex AI
Nếu tạo tài khoản Google Cloud mới, bạn có thể nhận 300 USD tín dụng trong 90 ngày. Khoản tín dụng này dùng được cho endpoint Gemini 3.5 Flash trên Vertex AI.
Cách thiết lập:
- Đăng ký tại cloud.google.com và nhận tín dụng 300 USD
- Bật Vertex AI API
- Tạo service account
- Gán quyền
aiplatform.user - Tải file credential JSON
- Gọi Flash bằng Vertex AI SDK
Ví dụ Python:
import vertexai
from vertexai.generative_models import GenerativeModel
vertexai.init(
project="your-project-id",
location="us-central1"
)
model = GenerativeModel("gemini-3.5-flash")
response = model.generate_content("Explain CAP theorem.")
print(response.text)
Vertex AI không dùng cùng giới hạn request/ngày như tầng miễn phí của AI Studio. Bạn bị giới hạn bởi lượng tín dụng còn lại. Với mức giá Flash khoảng 1,50 USD/9 USD cho mỗi 1 triệu token, 300 USD có thể đủ cho vài tuần sử dụng vừa phải.
Lưu ý:
- Tín dụng hết hạn sau 90 ngày
- Tín dụng không dùng sẽ mất
- Hãy kiểm tra cài đặt thanh toán để tránh bị tính phí ngoài ý muốn
- Vertex AI phức tạp hơn AI Studio, nhưng phù hợp hơn cho môi trường production
Cách 5: Dùng Gemini CLI từ terminal
Gemini CLI là client terminal mã nguồn mở của Google. Nó xác thực bằng tài khoản Google và cung cấp hạn ngạch miễn phí khoảng 1.000 request/ngày, không cần API key.
Cài đặt và chạy:
# Cài đặt
npm install -g @google/gemini-cli
# Chạy CLI
gemini
# Trong CLI, chọn gemini-3.5-flash
CLI phù hợp khi bạn muốn dùng Flash trực tiếp trong terminal, ví dụ:
- Tóm tắt file hoặc thư mục code
- Viết script nhanh
- Kết hợp với grep, cat, jq hoặc các tool shell khác
- Dùng như một giải pháp thay thế Claude Code miễn phí
Không nên dùng CLI cho:
- Tích hợp production
- Workflow cần kiểm soát HTTP streaming thô
- Service backend cần auth và retry logic rõ ràng
Với production, hãy dùng API key hoặc Vertex AI.
Cách 6: Dùng OpenRouter và các cổng bên thứ ba
Một số cổng bên thứ ba tổng hợp quyền truy cập model AI và có thể định tuyến request Flash miễn phí hoặc gần miễn phí. Cách này được đề cập trong bài Lấy API Gemini không giới hạn miễn phí.
Cần lưu ý:
- Chất lượng và tốc độ phụ thuộc từng dịch vụ
- Một số cổng throttle rất mạnh
- Prompt của bạn đi qua bên thứ ba
- Không nên gửi dữ liệu nhạy cảm
- Chính sách thanh toán và giới hạn có thể thay đổi
Hãy xem đây là phương án dự phòng. Nếu đang xây sản phẩm nghiêm túc, AI Studio hoặc Vertex AI vẫn là lựa chọn ổn định hơn.
Nên chọn cách nào?
Một cây quyết định ngắn:
- Chỉ muốn chat: dùng ứng dụng Gemini
- Muốn thiết kế prompt: dùng Google AI Studio
- Muốn build app: dùng khóa API AI Studio
- Cần test với hạn ngạch cao hơn: dùng tín dụng Vertex AI
- Muốn chạy từ terminal: dùng Gemini CLI
- Chấp nhận dịch vụ trung gian: thử OpenRouter hoặc cổng tương tự
Với đa số developer, cấu hình thực tế nhất là:
- Dùng AI Studio để thiết kế prompt
- Dùng API key miễn phí để build prototype
- Dùng Apidog để kiểm tra request/response
- Chuyển sang Vertex hoặc tài khoản trả phí khi cần production
Khi nào nên nâng cấp từ Flash miễn phí sang trả phí?
Tầng miễn phí đủ cho nhiều prototype và side project. Bạn nên nâng cấp khi gặp một trong ba trường hợp sau:
Bạn chạm giới hạn 1.500 request/ngày nhiều ngày liên tiếp
Lúc này chi phí xử lý workaround hạn ngạch có thể cao hơn chi phí trả phí.Bạn cần throughput mỗi phút cao hơn
Tầng miễn phí bị giới hạn khoảng 15 RPM. Nếu app có nhiều user đồng thời, giới hạn này sẽ nhanh chóng trở thành bottleneck.Bạn cần logging, kiểm soát dữ liệu hoặc audit tốt hơn
Với yêu cầu production, Vertex AI trên tài khoản thanh toán thường phù hợp hơn.
Để tính chi phí theo token, batch discount và các kịch bản thực tế, xem hướng dẫn định giá Gemini 3.5 Flash.
Bạn cũng nên so sánh với các model khác. GPT-5.5 và Claude Opus 4.7 có các đường miễn phí riêng. Nếu cần chọn model theo workload, xem bài so sánh Gemini 3.5, GPT-5.5 và Opus 4.7.
Mẹo kéo dài tầng miễn phí của Flash
Một vài thói quen giúp 1.500 request/ngày dùng được lâu hơn:
Cache response
Với truy vấn lặp lại, hãy trả kết quả từ cache thay vì gọi API lại.Validate input trước khi gọi model
Kiểm tra URL, JSON schema, độ dài input và field bắt buộc trước khi gửi request.Dùng structured output
Nếu cần JSON, hãy yêu cầu model trả về JSON theo schema ngay từ đầu. Điều này giảm số lần retry và parse lỗi.Dùng batch mode cho tác vụ không realtime
Batch mode của Gemini API có thể giúp giảm chi phí cho workload không cần phản hồi tức thì.Kiểm tra request trong Apidog trước khi đưa vào code
Assertion của Apidog giúp bắt lỗi response sớm, tránh tiêu tốn hạn ngạch vào request sai.Ưu tiên Flash cho tác vụ thường ngày
Khi Pro ra mắt, hãy chỉ dùng Pro cho tác vụ thật sự cần chất lượng cao hơn. Các workflow thông thường nên tiếp tục dùng Flash.
FAQ
Gemini 3.5 Flash có thật sự miễn phí không?
Có, nhưng có giới hạn. Ứng dụng Gemini, AI Studio và khóa API AI Studio đều cho phép dùng Flash miễn phí với hạn ngạch hằng ngày.
Tôi có cần thẻ tín dụng để lấy khóa API Flash miễn phí không?
Không. Tầng miễn phí của AI Studio không yêu cầu thẻ tín dụng. Vertex AI cần thẻ để nhận tín dụng 300 USD, nhưng bạn không bị tính phí nếu chưa nâng cấp hoặc vượt điều kiện thanh toán.
Có thể dùng khóa Flash miễn phí trong production không?
Về mặt kỹ thuật là có, nhưng không nên phụ thuộc lâu dài vào hạn ngạch miễn phí. Giới hạn 1.500 request/ngày và 15 RPM có thể không đủ cho production.
Gemini 3.5 Pro có miễn phí không?
Google trước đây thường mở quyền truy cập miễn phí cho các model Pro khi GA, nhưng hạn ngạch thường chặt hơn. Với thông tin hiện tại, Pro dự kiến ra mắt sau Flash.
Có thể dùng Flash miễn phí trong Cursor hoặc VS Code không?
Có, nếu công cụ đó hỗ trợ API key tùy chỉnh. Cách làm tương tự hướng dẫn Gemini 3.0 Pro với Cursor, chỉ cần đổi model thành gemini-3.5-flash.
Có xem được usage log không?
Có. Trong AI Studio, mở project của bạn và kiểm tra tab Activity.
Có rủi ro gì khi dùng tầng miễn phí không?
Có hai điểm cần chú ý:
- Prompt trên tầng miễn phí có thể được dùng để cải thiện model của Google, tùy cài đặt.
- Rate limit của tầng miễn phí có thể thay đổi mà không báo trước.
Không nên đặt deadline production phụ thuộc hoàn toàn vào hạn ngạch miễn phí.
Dự án khởi đầu: API tóm tắt URL bằng Flash
Một bài tập thực tế: viết một script nhận URL, tải nội dung trang và dùng Flash để tóm tắt.
import os
import requests
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
def summarize_url(url):
html = requests.get(url).text
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=f"Summarize this webpage in 3 bullets:\n\n{html[:50000]}"
)
return response.text
print(summarize_url("https://blog.google/"))
Sau đó, bạn có thể đưa endpoint này vào Apidog để kiểm tra request/response, thêm assertion và chạy regression test mỗi khi chỉnh prompt. Khi workflow ổn định, triển khai lên Cloud Run hoặc nền tảng hosting bạn đang dùng.





Top comments (0)