DEV Community

Cover image for Cách Sử Dụng Gemini 3.5 Flash Miễn Phí
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

Cách Sử Dụng Gemini 3.5 Flash Miễn Phí

Gemini 3.5 Flash ra mắt vào ngày 19 tháng 5 năm 2026 và Google vẫn duy trì tầng truy cập miễn phí. Bạn có thể gọi Flash bằng khóa API miễn phí ngay hôm nay; phiên bản Pro dự kiến ra mắt vào tháng 6. Nếu muốn dùng Flash mà không trả phí, dưới đây là các cách thực tế nhất để bắt đầu.

Dùng thử Apidog ngay hôm nay

Hướng dẫn này tập trung vào thiết lập thực tế: lấy khóa miễn phí, chạy thử bằng code, kiểm tra giới hạn và chọn đúng đường dẫn cho từng nhu cầu.

Gemini 3.5 Flash

Tóm tắt nhanh

Đường dẫn Bạn nhận được gì Giới hạn
Ứng dụng Gemini Trò chuyện đầy đủ + nhập ảnh trên Flash Giới hạn tin nhắn hằng ngày trên tầng miễn phí
Google AI Studio Giao diện web để thử Flash và chỉnh tham số Không có hạn ngạch cứng trong UI
Khóa API AI Studio Truy cập REST/SDK tới gemini-3.5-flash Khoảng 1.500 yêu cầu/ngày
Tín dụng tài khoản mới Vertex AI Truy cập Flash theo kiểu production 300 USD tín dụng, 90 ngày
Gemini CLI Dùng Flash từ terminal bằng tài khoản Google 1.000 yêu cầu/ngày
OpenRouter/cổng bên thứ ba Truy cập Flash qua dịch vụ trung gian Phụ thuộc từng nhà cung cấp

Mỗi cách phù hợp với một trường hợp khác nhau: thử nhanh, thiết kế prompt, xây dựng app, test tải hoặc chạy script từ terminal.

Cách 1: Dùng ứng dụng Gemini nếu chỉ cần chat

Nếu bạn chỉ muốn trò chuyện với Gemini 3.5 Flash, đây là cách nhanh nhất.

  1. Mở gemini.google.com
  2. Đăng nhập bằng tài khoản Google
  3. Trong bộ chọn model, chọn 3.5 Flash
  4. Nhập prompt và bắt đầu dùng

Ứng dụng Gemini

Ứng dụng Gemini hỗ trợ văn bản, ảnh, tải tệp và chỉnh sửa tài liệu kiểu Canvas. Người dùng miễn phí có giới hạn tin nhắn hằng ngày và giới hạn này được đặt lại mỗi ngày.

Phù hợp cho:

Không phù hợp cho:

  • Tích hợp vào ứng dụng
  • Xử lý hàng loạt
  • Workflow cần response có thể lập trình được

Cách 2: Dùng Google AI Studio để thiết kế prompt

Google AI Studio là sân chơi dành cho developer. Nó chạy trên trình duyệt, miễn phí và cho phép bạn chỉnh các tham số của Flash trước khi đưa vào code.

Cách chạy thử:

  1. Mở aistudio.google.com
  2. Đăng nhập
  3. Chọn Create new prompt hoặc dùng template có sẵn
  4. Trong dropdown model, chọn gemini-3.5-flash
  5. Nhập prompt và bấm Run

Google AI Studio

AI Studio hữu ích hơn app Gemini khi bạn cần:

  • Điều chỉnh temperature, top-K, top-P
  • Đặt system instruction
  • Kiểm tra JSON structured output
  • Chạy prompt đa phương thức với nhiều ảnh
  • Lấy code Python/Node tương ứng
  • Xuất prompt thành một lời gọi API Flash

Nếu bạn đang xây tính năng AI, hãy dùng AI Studio để tinh chỉnh prompt trước, sau đó mới chuyển sang API.

Cách 3: Lấy khóa API Gemini 3.5 Flash miễn phí

Đây là cách phù hợp nhất nếu bạn muốn tích hợp Flash vào ứng dụng. Cùng tài khoản AI Studio có thể tạo khóa API miễn phí dùng với gemini-3.5-flash.

Lấy khóa API

  1. Mở AI Studio
  2. Nhấp Get API key ở thanh điều hướng bên trái
  3. Chọn project hiện có hoặc tạo project mới
  4. Nhấp Create API key
  5. Sao chép khóa và lưu vào biến môi trường

Tạo khóa API Gemini

Không cần thẻ tín dụng. Khóa có thể dùng ngay với Flash. Nếu cần hướng dẫn chi tiết hơn, xem hướng dẫn lấy khóa API Gemini miễn phí.

Hạn ngạch miễn phí của Flash

Tính đến tháng 5 năm 2026, tầng miễn phí cho gemini-3.5-flash khoảng:

  • 1.500 yêu cầu/ngày
  • 1 triệu token/phút
  • 15 yêu cầu/phút

Các con số này có thể thay đổi. Trước khi build production, hãy kiểm tra trang giá chính thức của Google. Nếu cần phân tích chi phí khi vượt tầng miễn phí, xem phân tích giá Gemini 3.5 Flash.

Chạy thử bằng Python

Cài SDK:

pip install google-genai
Enter fullscreen mode Exit fullscreen mode

Đặt biến môi trường:

export GEMINI_API_KEY="your-api-key"
Enter fullscreen mode Exit fullscreen mode

Gọi model:

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Give me three startup ideas for API tooling in 2026."
)

print(response.text)
Enter fullscreen mode Exit fullscreen mode

Chạy thử bằng Node.js

Cài SDK:

npm install @google/genai
Enter fullscreen mode Exit fullscreen mode

Code mẫu:

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({
  apiKey: process.env.GEMINI_API_KEY,
});

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Give me three startup ideas for API tooling in 2026.",
});

console.log(response.text);
Enter fullscreen mode Exit fullscreen mode

Chạy thử bằng curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Hello Gemini 3.5 Flash"
          }
        ]
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Để triển khai đầy đủ hơn với streaming và tool calls, xem hướng dẫn API Gemini 3.5 Flash.

Kiểm tra request Flash miễn phí trong Apidog

Khi chỉ có khoảng 1.500 request/ngày, bạn nên tránh lãng phí hạn ngạch vào các request sai format hoặc prompt chưa ổn định. Apidog giúp lưu endpoint Flash, quản lý API key bằng biến môi trường và chạy lại request mà không cần viết curl nhiều lần.

Kiểm tra Gemini API trong Apidog

Quy trình đề xuất:

  1. Tải Apidog
  2. Tạo request mới
  3. Dán curl Gemini Flash ở trên
  4. Chuyển API key sang biến môi trường
  5. Lưu request
  6. Thêm assertion cho response
  7. Chạy lại request khi bạn thay đổi prompt

Cách này giúp bạn kiểm tra prompt có kiểm soát hơn và tránh gọi API lặp lại không cần thiết.

Cách 4: Dùng tín dụng tài khoản mới của Vertex AI

Nếu tạo tài khoản Google Cloud mới, bạn có thể nhận 300 USD tín dụng trong 90 ngày. Khoản tín dụng này dùng được cho endpoint Gemini 3.5 Flash trên Vertex AI.

Cách thiết lập:

  1. Đăng ký tại cloud.google.com và nhận tín dụng 300 USD
  2. Bật Vertex AI API
  3. Tạo service account
  4. Gán quyền aiplatform.user
  5. Tải file credential JSON
  6. Gọi Flash bằng Vertex AI SDK

Ví dụ Python:

import vertexai
from vertexai.generative_models import GenerativeModel

vertexai.init(
    project="your-project-id",
    location="us-central1"
)

model = GenerativeModel("gemini-3.5-flash")

response = model.generate_content("Explain CAP theorem.")
print(response.text)
Enter fullscreen mode Exit fullscreen mode

Vertex AI không dùng cùng giới hạn request/ngày như tầng miễn phí của AI Studio. Bạn bị giới hạn bởi lượng tín dụng còn lại. Với mức giá Flash khoảng 1,50 USD/9 USD cho mỗi 1 triệu token, 300 USD có thể đủ cho vài tuần sử dụng vừa phải.

Lưu ý:

  • Tín dụng hết hạn sau 90 ngày
  • Tín dụng không dùng sẽ mất
  • Hãy kiểm tra cài đặt thanh toán để tránh bị tính phí ngoài ý muốn
  • Vertex AI phức tạp hơn AI Studio, nhưng phù hợp hơn cho môi trường production

Cách 5: Dùng Gemini CLI từ terminal

Gemini CLI là client terminal mã nguồn mở của Google. Nó xác thực bằng tài khoản Google và cung cấp hạn ngạch miễn phí khoảng 1.000 request/ngày, không cần API key.

Cài đặt và chạy:

# Cài đặt
npm install -g @google/gemini-cli

# Chạy CLI
gemini

# Trong CLI, chọn gemini-3.5-flash
Enter fullscreen mode Exit fullscreen mode

CLI phù hợp khi bạn muốn dùng Flash trực tiếp trong terminal, ví dụ:

Không nên dùng CLI cho:

  • Tích hợp production
  • Workflow cần kiểm soát HTTP streaming thô
  • Service backend cần auth và retry logic rõ ràng

Với production, hãy dùng API key hoặc Vertex AI.

Cách 6: Dùng OpenRouter và các cổng bên thứ ba

Một số cổng bên thứ ba tổng hợp quyền truy cập model AI và có thể định tuyến request Flash miễn phí hoặc gần miễn phí. Cách này được đề cập trong bài Lấy API Gemini không giới hạn miễn phí.

Cần lưu ý:

  • Chất lượng và tốc độ phụ thuộc từng dịch vụ
  • Một số cổng throttle rất mạnh
  • Prompt của bạn đi qua bên thứ ba
  • Không nên gửi dữ liệu nhạy cảm
  • Chính sách thanh toán và giới hạn có thể thay đổi

Hãy xem đây là phương án dự phòng. Nếu đang xây sản phẩm nghiêm túc, AI Studio hoặc Vertex AI vẫn là lựa chọn ổn định hơn.

Nên chọn cách nào?

Một cây quyết định ngắn:

  • Chỉ muốn chat: dùng ứng dụng Gemini
  • Muốn thiết kế prompt: dùng Google AI Studio
  • Muốn build app: dùng khóa API AI Studio
  • Cần test với hạn ngạch cao hơn: dùng tín dụng Vertex AI
  • Muốn chạy từ terminal: dùng Gemini CLI
  • Chấp nhận dịch vụ trung gian: thử OpenRouter hoặc cổng tương tự

Với đa số developer, cấu hình thực tế nhất là:

  1. Dùng AI Studio để thiết kế prompt
  2. Dùng API key miễn phí để build prototype
  3. Dùng Apidog để kiểm tra request/response
  4. Chuyển sang Vertex hoặc tài khoản trả phí khi cần production

Khi nào nên nâng cấp từ Flash miễn phí sang trả phí?

Tầng miễn phí đủ cho nhiều prototype và side project. Bạn nên nâng cấp khi gặp một trong ba trường hợp sau:

  1. Bạn chạm giới hạn 1.500 request/ngày nhiều ngày liên tiếp

    Lúc này chi phí xử lý workaround hạn ngạch có thể cao hơn chi phí trả phí.

  2. Bạn cần throughput mỗi phút cao hơn

    Tầng miễn phí bị giới hạn khoảng 15 RPM. Nếu app có nhiều user đồng thời, giới hạn này sẽ nhanh chóng trở thành bottleneck.

  3. Bạn cần logging, kiểm soát dữ liệu hoặc audit tốt hơn

    Với yêu cầu production, Vertex AI trên tài khoản thanh toán thường phù hợp hơn.

Để tính chi phí theo token, batch discount và các kịch bản thực tế, xem hướng dẫn định giá Gemini 3.5 Flash.

Bạn cũng nên so sánh với các model khác. GPT-5.5Claude Opus 4.7 có các đường miễn phí riêng. Nếu cần chọn model theo workload, xem bài so sánh Gemini 3.5, GPT-5.5 và Opus 4.7.

Mẹo kéo dài tầng miễn phí của Flash

Một vài thói quen giúp 1.500 request/ngày dùng được lâu hơn:

  • Cache response

    Với truy vấn lặp lại, hãy trả kết quả từ cache thay vì gọi API lại.

  • Validate input trước khi gọi model

    Kiểm tra URL, JSON schema, độ dài input và field bắt buộc trước khi gửi request.

  • Dùng structured output

    Nếu cần JSON, hãy yêu cầu model trả về JSON theo schema ngay từ đầu. Điều này giảm số lần retry và parse lỗi.

  • Dùng batch mode cho tác vụ không realtime

    Batch mode của Gemini API có thể giúp giảm chi phí cho workload không cần phản hồi tức thì.

  • Kiểm tra request trong Apidog trước khi đưa vào code

    Assertion của Apidog giúp bắt lỗi response sớm, tránh tiêu tốn hạn ngạch vào request sai.

  • Ưu tiên Flash cho tác vụ thường ngày

    Khi Pro ra mắt, hãy chỉ dùng Pro cho tác vụ thật sự cần chất lượng cao hơn. Các workflow thông thường nên tiếp tục dùng Flash.

FAQ

Gemini 3.5 Flash có thật sự miễn phí không?

Có, nhưng có giới hạn. Ứng dụng Gemini, AI Studio và khóa API AI Studio đều cho phép dùng Flash miễn phí với hạn ngạch hằng ngày.

Tôi có cần thẻ tín dụng để lấy khóa API Flash miễn phí không?

Không. Tầng miễn phí của AI Studio không yêu cầu thẻ tín dụng. Vertex AI cần thẻ để nhận tín dụng 300 USD, nhưng bạn không bị tính phí nếu chưa nâng cấp hoặc vượt điều kiện thanh toán.

Có thể dùng khóa Flash miễn phí trong production không?

Về mặt kỹ thuật là có, nhưng không nên phụ thuộc lâu dài vào hạn ngạch miễn phí. Giới hạn 1.500 request/ngày và 15 RPM có thể không đủ cho production.

Gemini 3.5 Pro có miễn phí không?

Google trước đây thường mở quyền truy cập miễn phí cho các model Pro khi GA, nhưng hạn ngạch thường chặt hơn. Với thông tin hiện tại, Pro dự kiến ra mắt sau Flash.

Có thể dùng Flash miễn phí trong Cursor hoặc VS Code không?

Có, nếu công cụ đó hỗ trợ API key tùy chỉnh. Cách làm tương tự hướng dẫn Gemini 3.0 Pro với Cursor, chỉ cần đổi model thành gemini-3.5-flash.

Có xem được usage log không?

Có. Trong AI Studio, mở project của bạn và kiểm tra tab Activity.

Có rủi ro gì khi dùng tầng miễn phí không?

Có hai điểm cần chú ý:

  1. Prompt trên tầng miễn phí có thể được dùng để cải thiện model của Google, tùy cài đặt.
  2. Rate limit của tầng miễn phí có thể thay đổi mà không báo trước.

Không nên đặt deadline production phụ thuộc hoàn toàn vào hạn ngạch miễn phí.

Dự án khởi đầu: API tóm tắt URL bằng Flash

Một bài tập thực tế: viết một script nhận URL, tải nội dung trang và dùng Flash để tóm tắt.

import os
import requests
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

def summarize_url(url):
    html = requests.get(url).text

    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=f"Summarize this webpage in 3 bullets:\n\n{html[:50000]}"
    )

    return response.text

print(summarize_url("https://blog.google/"))
Enter fullscreen mode Exit fullscreen mode

Sau đó, bạn có thể đưa endpoint này vào Apidog để kiểm tra request/response, thêm assertion và chạy regression test mỗi khi chỉnh prompt. Khi workflow ổn định, triển khai lên Cloud Run hoặc nền tảng hosting bạn đang dùng.

Top comments (0)