DEV Community

Cover image for GPT-5.5 Pro So Sánh Instant: Khi Nào Chi Phí Gấp 6 Lần Đáng Giá?
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

GPT-5.5 Pro So Sánh Instant: Khi Nào Chi Phí Gấp 6 Lần Đáng Giá?

OpenAI cung cấp hai phiên bản GPT-5.5: Instant với giá 5 USD/triệu token đầu vào và 30 USD/triệu token đầu ra; Pro với giá 30 USD/triệu token đầu vào và 180 USD/triệu token đầu ra. Pro đắt hơn 6 lần. Câu hỏi kỹ thuật cần trả lời: khi nào khoản chênh lệch này tự hoàn vốn, và khi nào bạn chỉ đang đốt ngân sách?

Dùng thử Apidog ngay hôm nay

Bài viết này đưa ra cách ra quyết định theo dữ liệu: tính chi phí trên workload thật, đo độ chính xác theo loại tác vụ, lượng hóa chi phí độ trễ, và thiết lập bộ kiểm thử trong Apidog để so sánh GPT-5.5 Instant với GPT-5.5 Pro trước khi đưa vào production.

TL;DR

Mặc định dùng GPT-5.5 Instant cho chat, tóm tắt, phân loại, truy xuất QA, FAQ, routing intent và các tác vụ mà một câu trả lời sai tốn ít hơn 0,50 USD để phát hiện hoặc sửa.

Chỉ nâng cấp lên GPT-5.5 Pro khi chi phí của một đầu ra sai lớn hơn ít nhất 6 lần phần phí token tăng thêm của toàn bộ cuộc hội thoại. Thường là các trường hợp như:

  • soạn thảo hoặc rà soát pháp lý;
  • phân loại y tế;
  • phân tích tài chính;
  • lập kế hoạch agent nhiều bước;
  • refactor hoặc review code nhiều file.

Nếu bạn chưa gán được chi phí bằng USD cho một câu trả lời sai của một feature cụ thể, bạn chưa nên mặc định dùng Pro cho feature đó.

Giới thiệu

Trước GPT-5.5, việc chọn model thường dựa nhiều vào benchmark và cảm giác. Với mức giá mới, bài toán rõ hơn: bạn có thể tính theo từng feature, từng API call, từng nhóm người dùng.

Ví dụ: một đội xử lý 100.000 tin nhắn hỗ trợ khách hàng mỗi ngày có thể trả khoảng 4.500 USD/tháng với Instant hoặc 27.000 USD/tháng với Pro trong cùng điều kiện. Chênh lệch 22.500 USD/tháng cho một feature cần được biện minh bằng số liệu, không phải cảm nhận.

Bài viết này cung cấp framework thực tế:

  1. tính chi phí token;
  2. đo chất lượng trên prompt thật;
  3. so sánh độ trễ;
  4. tạo bộ regression test trong Apidog;
  5. đưa ra rule routing Instant/Pro theo feature.

Nếu bạn mới làm quen với dòng 5.5, đọc thêm hướng dẫn truy cập và API GPT-5.5 Instant, sách hướng dẫn theo dõi chi tiêu API OpenAI theo tính năng, và hướng dẫn toàn diện về API GPT-5.5.

Hai model đằng sau GPT-5.5

Instant và Pro cùng thuộc một họ model, dùng chung API shape, cùng cửa sổ ngữ cảnh và cùng giao diện Responses API. Khác biệt chính nằm ở:

  • model ID;
  • ngân sách suy luận mặc định;
  • giá mỗi token;
  • độ trễ thực tế.

So sánh chi phí GPT-5.5 Instant vs Pro

Model ID:

gpt-5.5      # Instant
gpt-5.5-pro  # Pro
Enter fullscreen mode Exit fullscreen mode

Cả hai đều hỗ trợ:

  • context input: 272.000 token;
  • output: 128.000 token;
  • tham số reasoning_effort: minimal, low, medium, high;
  • streaming qua Responses API.

Điểm quan trọng: bạn có thể thay model ID mà không đổi cấu trúc request.

Độ trễ và chi phí GPT-5.5

Bảng giá cần dùng trong tính toán

Model Input Output
GPT-5.5 Instant 5 USD / 1M token 30 USD / 1M token
GPT-5.5 Pro 30 USD / 1M token 180 USD / 1M token

Batch tier giảm một nửa:

Model Batch input Batch output
Instant 2,50 USD / 1M token 15 USD / 1M token
Pro 15 USD / 1M token 90 USD / 1M token

Prompt caching giảm input token đã cache xuống:

  • Instant: 0,50 USD / 1M token;
  • Pro: 3 USD / 1M token.

Nếu workload của bạn có prompt hệ thống dài và lặp lại, nhưng không dùng caching, bạn đang trả nhiều hơn cần thiết.

Độ trễ là một phần của chi phí

Instant với reasoning_effort=minimal có thể trả token đầu tiên trong khoảng 200–400 ms với prompt ngắn. Pro với reasoning_effort=high có thể mất 8–30 giây trước token đầu tiên vì model chạy vòng suy luận nội bộ lâu hơn. Bài viết của TechCrunch về ghi chú phát hành GPT-5.5 Pro cũng nhấn mạnh khoảng cách này.

Rule thực tế:

  • UI chat realtime: ưu tiên Instant, chỉ escalate khi cần.
  • Workflow async: có thể dùng Pro nếu độ chính xác đáng giá.
  • Batch job: dùng Batch tier để giảm 50% chi phí.

reasoning_effort nên được xem như một phần của quyết định chọn model. Pro ở low có thể gần với Instant ở high hơn là Pro ở high.

Chênh lệch độ chính xác: Pro mạnh ở đâu?

Theo các số liệu đánh giá được OpenAI công bố, Pro vượt trội trong tác vụ nhiều bước, nơi lỗi có thể tích lũy. Instant thường đủ tốt cho tác vụ một lượt, nơi model chủ yếu truy xuất, định dạng hoặc tóm tắt.

Một số điểm đáng chú ý:

  • GPQA Diamond: Pro khoảng 87%, Instant khoảng 71%.
  • SWE-bench Verified: Pro khoảng 78%, Instant khoảng 61%.
  • MMLU và HellaSwag: cả hai trên 90%, khoảng cách nhỏ.
  • Với prompt y tế/pháp lý có tính đối nghịch, Pro tạo câu trả lời sai nhưng tự tin ít hơn khoảng 40% so với Instant theo thước đo nội bộ được OpenAI dùng.

Nên dùng Pro cho

  • soạn thảo và review hợp đồng;
  • chẩn đoán phân biệt hoặc phân loại y tế;
  • phân tích tài liệu tài chính;
  • agent planning nhiều bước;
  • code task liên quan nhiều file;
  • tác vụ cần giữ nhiều ràng buộc cùng lúc.

Nên dùng Instant cho

  • customer support chat;
  • FAQ retrieval;
  • content summarization;
  • sentiment classification;
  • simple intent routing;
  • function calling với tool rõ ràng;
  • autocomplete hoặc review code trong một file.

So sánh hai model bằng cùng một prompt

Dưới đây là request tối thiểu để so sánh Instant và Pro. Cấu trúc API giống nhau; chỉ đổi modelreasoning.effort.

from openai import OpenAI

client = OpenAI()

prompt = """Analyze this contract clause for unilateral termination risk:
'Either party may terminate this agreement for convenience upon
thirty (30) days written notice, provided that the terminating party
shall pay any amounts then due.'"""

# Instant: cấu hình nhanh nhất
instant = client.responses.create(
    model="gpt-5.5",
    reasoning={"effort": "minimal"},
    input=prompt,
)

# Pro: cấu hình suy luận sâu
pro = client.responses.create(
    model="gpt-5.5-pro",
    reasoning={"effort": "high"},
    input=prompt,
)

print("INSTANT:", instant.output_text)
print("PRO:", pro.output_text)
Enter fullscreen mode Exit fullscreen mode

Trong test thực tế với prompt này, Instant có thể trả lời nhanh và nêu rủi ro cơ bản. Pro thường tạo phân tích dài hơn, nhận diện nhiều khoảng trống hơn, đề xuất chỉnh sửa cụ thể hơn và phù hợp hơn cho legal review. Nhưng đổi lại, bạn trả thêm chi phí token và độ trễ.

Đừng chọn model bằng một prompt mẫu. Hãy chạy benchmark trên prompt thật.

Script benchmark nhỏ cho workload của bạn

Tạo file eval_prompts.txt, mỗi prompt ngăn cách bằng:

---
Enter fullscreen mode Exit fullscreen mode

Sau đó chạy script:

import time
import csv
from openai import OpenAI

client = OpenAI()

PROMPTS = open("eval_prompts.txt").read().split("\n---\n")

CONFIGS = [
    ("gpt-5.5", "minimal"),
    ("gpt-5.5", "high"),
    ("gpt-5.5-pro", "minimal"),
    ("gpt-5.5-pro", "high"),
]

def token_cost_usd(model, input_tokens, output_tokens):
    if model == "gpt-5.5":
        rate_in = 5
        rate_out = 30
    else:
        rate_in = 30
        rate_out = 180

    return (input_tokens * rate_in + output_tokens * rate_out) / 1_000_000

with open("results.csv", "w", newline="") as f:
    writer = csv.writer(f)
    writer.writerow([
        "model",
        "effort",
        "prompt_id",
        "latency_s",
        "input_tokens",
        "output_tokens",
        "cost_usd",
        "output_preview",
    ])

    for prompt_id, prompt in enumerate(PROMPTS):
        for model, effort in CONFIGS:
            t0 = time.time()

            response = client.responses.create(
                model=model,
                reasoning={"effort": effort},
                input=prompt,
            )

            latency = time.time() - t0
            input_tokens = response.usage.input_tokens
            output_tokens = response.usage.output_tokens

            cost = token_cost_usd(model, input_tokens, output_tokens)

            writer.writerow([
                model,
                effort,
                prompt_id,
                round(latency, 2),
                input_tokens,
                output_tokens,
                round(cost, 6),
                response.output_text[:500],
            ])
Enter fullscreen mode Exit fullscreen mode

Chạy với 50–200 prompt giống traffic thật. Sau đó:

  1. nhờ reviewer chấm output theo rubric;
  2. tính chi phí mỗi prompt;
  3. tính latency p50/p95;
  4. xác định prompt nào Pro thực sự tốt hơn;
  5. tạo rule routing theo feature.

Đọc thêm hướng dẫn kiểm thử API tác nhân AItạo kiểm thử dựa trên AI nếu bạn muốn xây bộ eval từ production trace.

Tính chi phí: khi nào mức 6 lần đáng giá?

Công thức cơ bản:

cost = (input_tokens * input_rate + output_tokens * output_rate) / 1_000_000
Enter fullscreen mode Exit fullscreen mode

Với Pro, cả input và output đều đắt hơn 6 lần. Vì vậy, bạn chỉ nên dùng Pro khi giá trị giảm lỗi lớn hơn chi phí tăng thêm.

Feature 1: bot hỗ trợ khách hàng

Giả định:

  • 100.000 tin nhắn/ngày;
  • prompt trung bình: 800 token;
  • response trung bình: 250 token.

Token/ngày:

  • input: 80 triệu;
  • output: 25 triệu.

Chi phí Instant:

80M * 5 / 1M + 25M * 30 / 1M
= 400 + 750
= 1.150 USD/ngày
≈ 34.500 USD/tháng
Enter fullscreen mode Exit fullscreen mode

Chi phí Pro:

80M * 30 / 1M + 25M * 180 / 1M
= 2.400 + 4.500
= 6.900 USD/ngày
≈ 207.000 USD/tháng
Enter fullscreen mode Exit fullscreen mode

Chênh lệch: khoảng 172.500 USD/tháng.

Kết luận: dùng Instant. Đầu tư phần tiết kiệm vào retrieval tốt hơn, prompt hệ thống rõ hơn và bộ kiểm thử regression.

Độ chính xác GPT-5.5 Instant vs Pro

Feature 2: trợ lý review code

Giả định:

  • 5.000 comment review/ngày;
  • prompt trung bình: 8.000 token;
  • response trung bình: 1.200 token.

Token/ngày:

  • input: 40 triệu;
  • output: 6 triệu.

Chi phí Instant:

40M * 5 / 1M + 6M * 30 / 1M
= 200 + 180
= 380 USD/ngày
≈ 11.400 USD/tháng
Enter fullscreen mode Exit fullscreen mode

Chi phí Pro:

40M * 30 / 1M + 6M * 180 / 1M
= 1.200 + 1.080
= 2.280 USD/ngày
≈ 68.400 USD/tháng
Enter fullscreen mode Exit fullscreen mode

Chênh lệch: khoảng 57.000 USD/tháng.

Nếu Pro bắt thêm 5 lỗi thật trên mỗi 1.000 review mà Instant bỏ lỡ, và mỗi lỗi tiết kiệm 1 giờ senior engineer ở mức 150 USD/giờ:

5 lỗi / 1.000 review
5.000 review/ngày => 25 lỗi/ngày
25 * 150 = 3.750 USD/ngày
≈ 112.500 USD/tháng
Enter fullscreen mode Exit fullscreen mode

Trong trường hợp này, Pro có thể đáng tiền. Nhưng bạn phải đo tỷ lệ phát hiện thật, không giả định.

Feature 3: tóm tắt tài liệu pháp lý

Giả định:

  • 500 tài liệu/ngày;
  • prompt trung bình: 40.000 token;
  • response trung bình: 3.000 token.

Token/ngày:

  • input: 20 triệu;
  • output: 1,5 triệu.

Chi phí Instant:

20M * 5 / 1M + 1.5M * 30 / 1M
= 100 + 45
= 145 USD/ngày
≈ 4.350 USD/tháng
Enter fullscreen mode Exit fullscreen mode

Chi phí Pro:

20M * 30 / 1M + 1.5M * 180 / 1M
= 600 + 270
= 870 USD/ngày
≈ 26.100 USD/tháng
Enter fullscreen mode Exit fullscreen mode

Chênh lệch: khoảng 21.750 USD/tháng.

Một điều khoản bồi thường bị bỏ sót có thể tốn nhiều hơn toàn bộ phần chênh lệch này. Kết luận: dùng Pro. Nếu không cần realtime, dùng Batch để giảm 50% hóa đơn Pro.

Rule hòa vốn

Dùng Pro khi:

giá trị lỗi được ngăn chặn > chi phí tăng thêm khi dùng Pro
Enter fullscreen mode Exit fullscreen mode

Hay thực tế hơn:

expected_savings = error_cost * error_rate_reduction
pro_premium = pro_cost - instant_cost

Dùng Pro nếu expected_savings > pro_premium
Enter fullscreen mode Exit fullscreen mode

Ví dụ:

  • Chi phí một lỗi: 50 USD.
  • Pro giảm lỗi thêm 1%.
  • Expected saving mỗi call: 0,50 USD.

Nếu phần chênh lệch Pro cho mỗi call nhỏ hơn 0,50 USD, Pro có thể đáng dùng.

Ngược lại, nếu lỗi chỉ tốn vài cent để phát hiện và sửa, Instant gần như luôn hợp lý hơn.

Kiểm tra Pro/Instant bằng Apidog

Bạn không nên chọn model chỉ dựa trên benchmark công khai. Hãy tạo một bộ regression test nhỏ trong Apidog và chạy lại mỗi khi đổi prompt hoặc OpenAI ra model mới.

Đánh giá GPT-5.5 Instant vs Pro trong Apidog

Bước 1: tạo project và request

Trong Apidog, tạo project mới và thêm hai request đến:

https://api.openai.com/v1/responses
Enter fullscreen mode Exit fullscreen mode

Request 1:

gpt55-instant-minimal
Enter fullscreen mode Exit fullscreen mode

Request 2:

gpt55-pro-high
Enter fullscreen mode Exit fullscreen mode

Cả hai dùng chung header:

Authorization: Bearer {{OPENAI_KEY}}
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

Đặt OPENAI_KEY là environment variable. Không hard-code API key vào request body.

Bước 2: cấu hình body

Body cho Instant:

{
  "model": "gpt-5.5",
  "reasoning": {
    "effort": "minimal"
  },
  "input": "{{prompt}}"
}
Enter fullscreen mode Exit fullscreen mode

Body cho Pro:

{
  "model": "gpt-5.5-pro",
  "reasoning": {
    "effort": "high"
  },
  "input": "{{prompt}}"
}
Enter fullscreen mode Exit fullscreen mode

Liên kết {{prompt}} với data file gồm 50–200 prompt test, mỗi prompt một dòng hoặc một record.

Bước 3: ghi lại token và latency

Thêm test script để lưu:

  • response.usage.input_tokens;
  • response.usage.output_tokens;
  • latency;
  • output body.

Apidog tự lưu response body và timing, giúp bạn so sánh từng prompt giữa Instant và Pro.

Bước 4: chạy batch và export CSV

Chạy cả hai request trên cùng dataset. Sau đó:

  1. dùng diff view để so sánh output;
  2. đánh dấu prompt nào Pro tốt hơn rõ ràng;
  3. export CSV;
  4. tính cost theo bảng giá;
  5. tạo rule routing theo feature.

Ví dụ rule:

Nếu feature = legal_summary => gpt-5.5-pro + high
Nếu feature = support_chat => gpt-5.5 + minimal
Nếu feature = code_review và changed_files > 3 => gpt-5.5-pro + medium/high
Nếu structured_output_validation_failed => retry bằng Pro
Enter fullscreen mode Exit fullscreen mode

Lưu project Apidog này thành regression suite. Mỗi lần đổi prompt hệ thống, đổi retrieval pipeline hoặc có model mới, chạy lại suite.

Không gian làm việc của Apidog lưu lịch sử để bạn đối chiếu khi chất lượng giảm. Bạn có thể tải Apidog và đọc thêm quy trình kiểm thử API cho kỹ sư QA.

Kỹ thuật triển khai nên dùng

1. Route theo feature, không theo user

Đừng dùng chính sách kiểu:

paid user => Pro
free user => Instant
Enter fullscreen mode Exit fullscreen mode

Cách này thường lãng phí.

Thay vào đó, gắn metadata cho từng call:

{
  "feature": "contract_review",
  "risk_class": "high",
  "latency_tolerance": "async",
  "requires_structured_output": true
}
Enter fullscreen mode Exit fullscreen mode

Sau đó route theo feature và risk.

Ví dụ:

def choose_model(feature, risk_class, latency_tolerance):
    if feature in {"legal_review", "medical_triage", "financial_analysis"}:
        return "gpt-5.5-pro", "high"

    if risk_class == "high" and latency_tolerance != "realtime":
        return "gpt-5.5-pro", "medium"

    return "gpt-5.5", "minimal"
Enter fullscreen mode Exit fullscreen mode

2. Dùng Pro cho escalation path

Pattern thường hiệu quả:

  1. gửi request đầu tiên đến Instant;
  2. kiểm tra output;
  3. chỉ retry bằng Pro nếu output fail.

Các điều kiện escalation phổ biến:

  • schema validation fail;
  • confidence thấp;
  • missing required fields;
  • tool call downstream fail;
  • prompt thuộc nhóm rủi ro cao;
  • output bị reviewer hoặc rule-based checker đánh dấu.

Ví dụ:

def should_escalate(response):
    if not response_is_valid_json(response.output_text):
        return True

    if missing_required_fields(response.output_text):
        return True

    if contains_high_risk_topic(response.output_text):
        return True

    return False
Enter fullscreen mode Exit fullscreen mode

Pattern này giúp bạn trả chi phí Pro cho 5–15% request thật sự cần, thay vì 100%.

3. Cache prompt hệ thống

Nếu system prompt dài hơn 1.000 token và ổn định, caching gần như bắt buộc.

Theo dõi:

response.usage.cached_tokens
Enter fullscreen mode Exit fullscreen mode

Cảnh báo khi cache hit rate giảm. Nếu prefix prompt thay đổi liên tục do bạn chèn timestamp, request ID hoặc nội dung động vào đầu prompt, cache sẽ kém hiệu quả.

4. Dùng Batch cho workload không realtime

Các job nên dùng Batch:

  • tạo nội dung hàng đêm;
  • tóm tắt tuần;
  • phân loại log cũ;
  • xử lý tài liệu hàng loạt;
  • đánh giá offline;
  • tạo test case từ trace.

Batch không đổi model. Nó chỉ đổi thời gian giao hàng để lấy giá thấp hơn.

5. Đừng nhồi toàn bộ 272K token nếu không cần

Cả Instant và Pro hỗ trợ input context 272.000 token. Nhưng chi phí tăng tuyến tính theo token, và trên các tác vụ retrieval dài, độ chính xác có thể giảm khi context quá lớn.

Ưu tiên:

  • chunking;
  • retrieval;
  • reranking;
  • chỉ đưa phần liên quan vào prompt;
  • summary cascade nếu cần xử lý tài liệu rất dài.

Những lỗi thường gặp

  • Chọn model trực tiếp trong application code thay vì qua routing layer.
  • So sánh model bằng benchmark công khai, không dùng prompt thật.
  • Dùng reasoning_effort=high cho mọi request Pro.
  • Không đặt max_output_tokens.
  • Quên tính output token, trong khi output Pro rất đắt.
  • Không theo dõi cached_tokens.
  • Không dùng Batch cho job async.
  • Không export cost theo feature.
  • Không chạy regression test sau khi đổi prompt.

Để so sánh model rộng hơn, xem thêm hướng dẫn API Gemini 3 Flash Previewcác tùy chọn truy cập API GPT-5.5 miễn phí.

Use case thực tế

Phân loại yêu cầu bồi thường bảo hiểm

Một công ty bảo hiểm cỡ trung route tóm tắt tiếp nhận ban đầu qua Instant, sau đó chỉ chuyển câu hỏi chính sách phức tạp lên Pro.

Kết quả:

  • khoảng 12% claim dùng Pro;
  • tổng chi phí giảm khoảng 60% so với chính sách dùng model cao cấp cho tất cả;
  • độ chính xác trên bộ audit tăng vì Pro được dùng đúng nơi cần suy luận sâu.

Trợ lý review code

Một công ty developer tooling chạy mọi PR qua Instant để bắt lỗi rõ ràng và vấn đề style. PR nào chạm hơn ba file hoặc khớp path rủi ro cao sẽ được gửi lên Pro.

Kết quả:

  • Pro bắt thêm khoảng 3,8% lỗi;
  • chi phí API tăng khoảng 40.000 USD/năm;
  • tiết kiệm ước tính khoảng 300.000 USD/năm nhờ phát hiện lỗi sớm hơn.

Tóm tắt hồ sơ bệnh viện

Mọi tóm tắt bệnh nhân được xử lý bằng Pro với reasoning_effort=high vì chi phí sai sót quá cao. Với 80% tóm tắt không cần realtime, nhóm dùng Batch qua đêm để giảm 50% hóa đơn.

Kết luận

Mức giá Pro cao gấp 6 lần không phải vấn đề; nó buộc bạn định lượng giá trị của độ chính xác. Với đa số sản phẩm, chỉ khoảng 5–25% API call thật sự xứng đáng dùng Pro. Phần còn lại nên ở Instant, kèm routing và escalation hợp lý.

Checklist triển khai:

  • Chọn model theo feature, không theo user tier.
  • Mặc định dùng Instant.
  • Chỉ dùng Pro khi bạn định lượng được chi phí sai sót.
  • Xem reasoning_effort là một trục tối ưu riêng.
  • Dùng prompt caching cho system prompt ổn định.
  • Dùng Batch cho workload async.
  • Xây regression suite trong Apidog.
  • Theo dõi chi phí theo feature hằng tháng.
  • Chạy lại benchmark sau mỗi lần đổi model, đổi prompt hoặc đổi retrieval pipeline.

Để chuẩn bị trước chu kỳ lập kế hoạch tiếp theo, hãy chạy so sánh chi phí và độ chính xác trên prompt thật của bạn. Đọc thêm hướng dẫn truy cập GPT-5.5 Instantsách hướng dẫn phân bổ chi tiêu OpenAI theo tính năng.

FAQ

Hỏi: GPT-5.5 Pro có tốt hơn Instant 6 lần không?

Không. Pro đắt hơn 6 lần mỗi token. Nó chỉ tốt hơn rõ rệt trên một nhóm tác vụ hẹp: nhiều bước, rủi ro cao, chi phí sai sót lớn.

Hỏi: Tôi có thể dùng cùng code API cho cả hai model không?

Có. Cả hai dùng Responses API với cùng cấu trúc request. Chỉ đổi model: "gpt-5.5" thành model: "gpt-5.5-pro". Xem thêm hướng dẫn API GPT-5.5.

Hỏi: reasoning_effort có giống nhau trên cả hai model không?

Tham số nhận cùng giá trị: minimal, low, medium, high. Nhưng tác động thường lớn hơn trên Pro vì Pro có nhiều khả năng suy luận hơn để phân bổ.

Hỏi: Prompt caching tiết kiệm bao nhiêu?

Input token đã cache giảm từ 30 USD xuống 3 USD/triệu token trên Pro, và từ 5 USD xuống 0,50 USD/triệu token trên Instant.

Hỏi: Nên mặc định dùng Pro rồi hạ cấp, hay mặc định Instant rồi nâng cấp?

Mặc định Instant rồi nâng cấp. Escalation path thường rẻ hơn vì chỉ một phần nhỏ request cần Pro.

Hỏi: Độ trễ của Pro ở reasoning_effort=high là bao nhiêu?

Token đầu tiên có thể mất 8–30 giây, so với 200–400 ms trên Instant ở minimal. Với response dài, end-to-end latency có thể là 20–60 giây.

Hỏi: Batch có cho output khác realtime không?

Không. Batch là ưu đãi về thời gian giao hàng, không phải model khác. Cùng model, cùng API shape, giá thấp hơn, nhưng thời gian hoàn thành có thể lâu hơn.

Hỏi: Khi nào nên đánh giá lại lựa chọn model?

Mỗi khi OpenAI ra model mới, đổi giá, hoặc bạn thay prompt/retrieval pipeline. Dùng regression suite để so sánh lại. Xem quy trình bộ kiểm thử regression.

Top comments (0)