Если в 2024 году рынок LLM-API ещё можно было назвать «дуополией OpenAI + Anthropic с догоняющим Google», то к маю 2026 ландшафт расщепился на четыре чёткие лиги: премиум-reasoning (Claude Opus 4.7, GPT-5.5), value-tier с длинным контекстом (Claude Sonnet 4.6, Gemini 3 Pro), agentic-coding (Qwen 3.6 Plus, Claude Sonnet 4.6), и сверхдешёвый chat-layer (DeepSeek V3.2, GLM-5.1). Между этими лигами разрыв по цене за миллион токенов — двадцатикратный. Между лучшим и худшим SWE-Bench Verified — 35 процентных пунктов. Выбор модели «по умолчанию» в 2026 — это технический долг, который копится молча и больно вылезает в счёте на оплату.
В этом обзоре мы прошлись по восьми моделям, актуальным на конец мая 2026, сверили цены с публичными pricing-страницами провайдеров (на 28.05.2026), собрали бенчмарки из vals.ai, llm-stats и независимых апрельских отчётов, и построили decision tree — на каком сценарии какая модель окупается. В рублях считаем по официальному курсу ЦБ РФ на 28.05.2026 (1 USD = 70.9012 ₽).
Что изменилось в Q1-Q2 2026 (3 ключевых релиза)
Claude Sonnet 4.6 — релиз 17.02.2026. Anthropic выкатила обновление средней модели семейства Claude 4, которое стало тем самым «sweet spot» по соотношению цена/качество в коде. Sonnet 4.6 показал 79.6% на SWE-Bench Verified — это в пределах 8 пунктов от Opus 4.7 (87.6%), но при цене 3$/15$ за миллион input/output токенов против 5$/25$ у Opus. Для большинства production-задач Sonnet 4.6 заменил Opus в качестве дефолтной модели. Параллельно Anthropic расширила контекстное окно до полноценного 1M токенов на public API (раньше — только enterprise tier). Подробнее — актуальные тарифы LLM в рублях по моделям.
GPT-5.5 — релиз 24.04.2026. OpenAI вернула флагман в гонку после промежуточных GPT-5.2, GPT-5.3, GPT-5.4. Ключевые отличия: расширенный контекст 1.05M токенов (раньше — 1M), SWE-Bench Verified 88.7% (топ-2 после Claude Mythos Preview), нативная мультимодальность (image + audio + video tokens в одном тарифе). Цена выросла до 5$/30$ — это премиум-tier, но для агентских coding-задач, где правильный ответ с первой попытки экономит десятки итераций, OpenAI оправдывает наценку. Точную дату подтверждает официальная documentation OpenAI.
Qwen 3.6 Plus — релиз 02.04.2026. Alibaba выкатила открытую модель, которая всерьёз дотянулась до проприетарных конкурентов. На OmniDocBench 91.2 (документы + vision) Qwen 3.6 Plus обходит Gemini 3 Pro. На Terminal-Bench (агентское выполнение задач в shell) — лидер с 61.6%. Цена через официальный API — 0.325$/1.95$, в десять раз дешевле GPT-5.5. Контекст — 1M токенов. Это первая модель, которую серьёзные инженеры начали ставить в production не как «дешёвую альтернативу», а как первичный выбор для определённых workload — особенно для агентов, работающих с документами.
Общий контекст рынка на 2026: три тренда задают форму индустрии. (1) Длинный контекст становится коммодити — 1M токенов уже у Claude Opus, Claude Sonnet, GPT-5.5, Gemini 3 Pro, Qwen 3.6 Plus. (2) Prompt caching снижает реальную стоимость в 4-10 раз для типовых RAG-сценариев (90% дисконт на cache hits у Anthropic, 75% у OpenAI, до 90% у Gemini). (3) Бенчмарки агентских задач (SWE-Bench Verified, Terminal-Bench, TAU-Bench) стали важнее статичных MMLU — потому что они отражают то, что бизнес реально покупает: модель, которая делает работу, а не отвечает на викторину.
Цена за 1M токенов — таблица 8 моделей
Цены — с публичных pricing-страниц провайдеров, актуально на 28.05.2026. Для моделей с tier-pricing (Gemini 3 Pro) указаны обе цифры — стандартный и long-context tier.
| Модель | Input $/1M | Output $/1M | Context | Источник |
|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | 1.05M | openai.com/api/pricing |
| GPT-5.4 | $2.50 | $15.00 | 200K (1M beta) | openai.com/api/pricing |
| Claude Opus 4.7 | $5.00 | $25.00 | 1M | platform.claude.com/pricing |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1M | platform.claude.com/pricing |
| Gemini 3 Pro | $2.00 / $4.00* | $12.00 / $18.00* | 1M | ai.google.dev/gemini-api/pricing |
| DeepSeek V3.2 | $0.28 | $0.42 | 128K | api-docs.deepseek.com/pricing |
| Qwen 3.6 Plus | $0.325 | $1.95 | 1M | llm-stats.com/qwen3.6-plus |
| GLM-5.1 | $0.50 (приблиз.) | $2.00 (приблиз.) | 256K | Z.AI public docs |
*Gemini 3 Pro — вторая цифра применяется при контексте свыше 200K токенов.
Те же цены в рублях по курсу ЦБ РФ на 28.05.2026 (1 USD = 70.9012 ₽):
| Модель | Input ₽/1M | Output ₽/1M |
|---|---|---|
| GPT-5.5 | 354.51 ₽ | 2 127.04 ₽ |
| GPT-5.4 | 177.25 ₽ | 1 063.52 ₽ |
| Claude Opus 4.7 | 354.51 ₽ | 1 772.53 ₽ |
| Claude Sonnet 4.6 | 212.70 ₽ | 1 063.52 ₽ |
| Gemini 3 Pro | 141.80 ₽ | 850.81 ₽ |
| DeepSeek V3.2 | 19.85 ₽ | 29.78 ₽ |
| Qwen 3.6 Plus | 23.04 ₽ | 138.26 ₽ |
| GLM-5.1 | 35.45 ₽ | 141.80 ₽ |
Главное, что бросается в глаза при сортировке по output-цене: DeepSeek V3.2 в 71 раз дешевле GPT-5.5 за output-токены. Между Qwen 3.6 Plus и Claude Sonnet 4.6 — разница в 7.7 раз на output при сопоставимом контекстном окне. Это значит, что задачи, в которых вы платите в основном за output (генерация контента, длинные ответы chat-бота, code-generation в режиме «выдай мне функцию полностью»), могут стоить дешевле на порядок при правильном выборе модели.
Важный нюанс с GPT-5.4 vs GPT-5.5: OpenAI продолжает поддерживать GPT-5.4 как «efficient» tier по цене 2.50$/15$ — это в два раза дешевле GPT-5.5 при сохранении почти всех способностей в reasoning. Разница — в SWE-Bench (88.7% vs 84.1%), в нативной видео-мультимодальности (только в 5.5) и в максимальном контексте. Для большинства типовых задач (RAG, классификация, рерайт, отладка кода) GPT-5.4 — рациональный выбор, и пользователи, которые на старте подсели на 5.5, в апреле массово переписали fallback в 5.4.
Отдельно про Gemini 3 Pro: tier-pricing с переключением на 200K — это удобно для одних и ловушка для других. Если у вас типичный запрос — 5-15K input + короткий output, вы заметите Gemini как «самую дешёвую премиум-модель». Если же вы пихаете в неё 500K context на каждый запрос (типичный RAG с большим корпусом), Gemini внезапно становится не сильно дешевле Claude Sonnet. Считайте под свой реальный размер запроса.
Бенчмарки 2026: что показывают цифры
Бенчмарки — это политический инструмент, в котором каждый провайдер выбирает удобную для себя метрику. Поэтому ниже мы берём пять независимых benchmark suites, агрегированные результаты из vals.ai и Aimagicx Benchmark Comparison April 2026 с фиксированной методологией.
SWE-Bench Verified — агентское кодирование (модель получает реальные issues из открытых репозиториев на GitHub и должна их закрыть pull-request'ом). Источник: vals.ai/benchmarks/swebench.
| Модель | SWE-Bench Verified |
|---|---|
| Claude Mythos Preview (beta) | 93.9% |
| GPT-5.5 | 88.7% |
| Claude Opus 4.7 | 87.6% |
| GPT-5.4 | 84.1% |
| Claude Sonnet 4.6 | 79.6% |
| Gemini 3 Pro | 73.4% |
| Qwen 3.6 Plus | 71.8% |
| DeepSeek V3.2 | 51.2% |
MMLU — массивный multitask language understanding, общие знания через 57 предметов от истории до медицины и юриспруденции.
| Модель | MMLU |
|---|---|
| Gemini 3.1 Pro | 94.1% |
| GPT-5.2 | 91.4% |
| Claude Opus 4.6 | 90.5% |
| Claude Sonnet 4.6 | 88.7% |
| DeepSeek V3.2 | 87.1% |
| Qwen 3.6 Plus | 86.4% |
GPQA Diamond — PhD-level вопросы по физике, биологии, химии. Здесь не помогает запоминание учебника, только цепочки рассуждений.
| Модель | GPQA Diamond |
|---|---|
| Gemini 3.1 Pro | 94.3% |
| Claude Opus 4.6 | 91.3% |
| GPT-5.5 | 87.2% |
| GPT-5.4 | 83.9% |
| Claude Sonnet 4.6 | 79.1% |
| Qwen 3.6 Plus | 71.4% |
HumanEval — Python coding-задачи (классический бенчмарк, но в 2026 уже слегка saturated — все топ-модели за 90%).
| Модель | HumanEval |
|---|---|
| GPT-5.4 | 93.1% |
| Claude Opus 4.6 | 90.4% |
| Gemini 3 Pro | 89.7% |
| Claude Sonnet 4.6 | 89.1% |
| Qwen 3.6 Plus | 87.3% |
| DeepSeek V3.2 | 84.6% |
Terminal-Bench — модель управляет терминалом и решает задачи (компиляция, debugging, развёртывание). Сильный agentic-бенчмарк, который коррелирует с реальной полезностью в DevOps.
| Модель | Terminal-Bench |
|---|---|
| Qwen 3.6 Plus | 61.6% |
| Claude Sonnet 4.6 | 58.3% |
| Claude Opus 4.7 | 56.9% |
| GPT-5.5 | 54.2% |
| Gemini 3 Pro | 47.1% |
Дисклеймер. Все цифры выше — самооценка провайдеров либо результаты, опубликованные в независимых benchmark-аггрегаторах. На других benchmark suites (RULER, AIDER, KAGI Eval) ранжирование может выглядеть иначе. Бенчмарки полезны для отсечения явно неподходящих моделей, но финальное решение всегда — A/B-тест на ваших реальных задачах. Дополнительный источник методологии: localaimaster.com/swe-bench-explained.
Сводный профиль: лидер по каждой дисциплине
| Дисциплина | Лидер | Второе место | Когда брать лидера |
|---|---|---|---|
| Агентский код (SWE-Bench) | GPT-5.5 (88.7%) | Claude Opus 4.7 (87.6%) | Закрыть сложный GitHub-issue с первой попытки |
| Общие знания (MMLU) | Gemini 3.1 Pro (94.1%) | GPT-5.2 (91.4%) | Research, data analysis, широта дисциплин |
| PhD-reasoning (GPQA Diamond) | Gemini 3.1 Pro (94.3%) | Claude Opus 4.6 (91.3%) | Наука, finance/legal/medical |
| Python-кодинг (HumanEval) | GPT-5.4 (93.1%) | Claude Opus 4.6 (90.4%) | Алгоритмический код, чистые функции |
| Terminal-агент (DevOps) | Qwen 3.6 Plus (61.6%) | Claude Sonnet 4.6 (58.3%) | Управление shell, deploy-пайплайны |
| Документы + vision (OmniDocBench) | Qwen 3.6 Plus (91.2) | Gemini 3 Pro | OCR + классификация PDF, таблиц, графиков |
| Стабильность во всех 5 бенчах | Claude Opus 4.7 | Claude Sonnet 4.6 | Когда не знаешь, какая метрика важнее |
Что бросается в глаза: Claude Opus 4.7 не лидирует ни в одном из top-line бенчмарков — но он стабильно в топ-3 во всех пяти. Это и есть профиль «надёжной премиум-модели»: ноль провалов, никаких сюрпризов. GPT-5.5, наоборот, выигрывает в SWE-Bench и проседает в GPQA Diamond относительно Gemini. Gemini 3.1 Pro — чемпион в reasoning и общих знаниях, но в агентских задачах за пределами своего «зоны комфорта» отстаёт.
Decision tree: какую модель под какую задачу
Прежде чем разбирать сценарии, важный мета-комментарий: нет одной модели, которая выигрывает везде. Архитектурное решение, которое мы видим у всех зрелых production-команд в 2026, — это mixture-of-models routing, где разные подзадачи внутри одного приложения уходят к разным моделям. Promptra как раз и нужен для такой архитектуры — один API key, восемь моделей.
Дешёвый chat / суммаризация. Если задача — простой Q&A, классификация, рерайт, краткое содержание статьи — берите DeepSeek V3.2 или GLM-5.1. На 80% запросов их качество неотличимо от Claude Sonnet, при цене в 10 раз ниже. Промежуточный апгрейд — Qwen 3.6 Plus, если нужен длинный контекст или мультимодальность.
Длинный контекст (>200K токенов). Тут реальный выбор — Claude Sonnet 4.6 vs Gemini 3 Pro. Sonnet 4.6 дороже (3$/15$ vs Gemini 2$/12$ ниже 200K), но качество в long-context retrieval (Needle In A Haystack) у Sonnet традиционно стабильнее. Gemini — выгодный выбор, если ваш контекст обычно укладывается в 200K, и редкие 500K-запросы вы готовы переплатить. Не путайте: контекст 1M ≠ способность модели одинаково хорошо использовать всю эту длину.
Сложный reasoning (математика, наука, многоступенчатый анализ). Claude Opus 4.7 или Gemini 3.1 Pro. Opus — стабильнее в цепочках рассуждений, особенно если задача требует «думать долго». Gemini — лидер по GPQA Diamond (94.3%) и MMLU. На практике мы рекомендуем Claude Opus для finance/legal/medical (где цена ошибки высокая), Gemini — для research и data analysis (где важнее широта знаний).
Код и SWE-задачи. Здесь чёткая трёхступенчатая лестница. (1) GPT-5.5 — топ по SWE-Bench, лучший выбор если задача — «закрыть сложный GitHub issue в большом legacy-проекте». (2) Claude Opus 4.7 — почти тот же уровень, более стабильный в больших codebase (>1M строк), лучше держит контекст. (3) Claude Sonnet 4.6 — best value: 79.6% SWE-Bench при цене в три раза ниже Opus и в пять раз ниже GPT-5.5. Для большинства типовых задач Sonnet справится; Opus и GPT-5.5 нужны на «edge cases».
Vision и работа с документами. Qwen 3.6 Plus (OmniDocBench 91.2) — лидер на документной обработке, особенно с таблицами, графиками, мультимодальным PDF. Gemini 3 Pro — второй выбор, особенно если нужна интеграция с Google Workspace ecosystem. GPT-5.5 — хорош в общем vision (фото, скриншоты), но в документах уступает Qwen.
Agentic workflows (tool use, function calling, многошаговое планирование). Claude Sonnet 4.6 — лидер по TAU-Bench и стабильности function calling. Qwen 3.6 Plus — топ по Terminal-Bench (61.6%), лучший выбор для DevOps-агентов. GPT-5.5 — сильный третий, особенно если уже инвестированы в OpenAI Assistants API.
Экономика: реальный TCO на 1M запросов в месяц
Бенчмарки — это полдела. Вторая половина — реальная стоимость на вашем профиле использования. Ниже — пять типовых сценариев с конкретными расчётами. Все цифры USD, для рублей — умножаем на 70.9012.
Сценарий 1: Customer support chatbot
Профиль запроса: 1 000 input токенов (контекст диалога + system prompt) + 500 output токенов (ответ). Объём: 1 миллион запросов в месяц.
| Модель | Cost/req | Cost/мес (USD) | Cost/мес (₽) |
|---|---|---|---|
| GPT-5.4 | $0.0100 | $10 000 | 709 012 ₽ |
| Claude Sonnet 4.6 | $0.0105 | $10 500 | 744 463 ₽ |
| Gemini 3 Pro | $0.0080 | $8 000 | 567 210 ₽ |
| DeepSeek V3.2 | $0.00049 | $490 | 34 742 ₽ |
| Qwen 3.6 Plus | $0.00131 | $1 310 | 92 881 ₽ |
Вывод: разница между DeepSeek и GPT-5.4 — в 20 раз. При 1M запросов в месяц это $9 510 экономии. Если качество DeepSeek для вашего use case достаточное (а для FAQ-чатбота со средним вопросом — обычно да), это бюджет, который можно перенаправить на разработку или маркетинг.
Сценарий 2: Code-агент (continuous coding assistant)
Профиль: 8 000 input (контекст файлов + diff) + 2 000 output (написанный код). Объём: 100 000 запросов в месяц (типичная команда из 10 разработчиков, каждый делает ~30 запросов в день).
| Модель | Cost/req | Cost/мес (USD) | Cost/мес (₽) |
|---|---|---|---|
| GPT-5.5 | $0.1000 | $10 000 | 709 012 ₽ |
| Claude Opus 4.7 | $0.0900 | $9 000 | 638 111 ₽ |
| Claude Sonnet 4.6 | $0.0540 | $5 400 | 382 867 ₽ |
| GPT-5.4 | $0.0500 | $5 000 | 354 506 ₽ |
| Qwen 3.6 Plus | $0.0065 | $650 | 46 086 ₽ |
Вывод: Sonnet 4.6 — sweet spot для команд, которым важно качество, но 10K$ в месяц — это уже заметная статья расходов. Если использовать Sonnet как «дефолт» и Opus только на сложных задачах (через явный fallback при low confidence), цена сокращается ещё на 30-40%.
Сценарий 3: RAG-приложение с большим корпусом
Профиль: 50 000 input (корпус документов в контексте) + 800 output (ответ). Объём: 200 000 запросов в месяц.
| Модель | Cost/req | Cost/мес (USD) | Cost/мес (₽) |
|---|---|---|---|
| Claude Sonnet 4.6 | $0.162 | $32 400 | 2 297 199 ₽ |
| Gemini 3 Pro (>200K tier) | $0.214 | $42 800 | 3 034 571 ₽ |
| Gemini 3 Pro (до 200K tier) | $0.110 | $21 919 | 1 553 957 ₽ |
| Claude Sonnet 4.6 + Prompt Cache (90% hit) | $0.024 | $4 802 | 340 379 ₽ |
| Qwen 3.6 Plus | $0.0179 | $3 575 | 253 423 ₽ |
Вывод: в RAG-сценарии prompt caching становится главным экономическим фактором. Anthropic даёт 90% дисконт на cache hits — это значит, что если ваш корпус документов стабильный и переиспользуется между запросами, реальная стоимость падает в 7 раз. Qwen 3.6 Plus здесь даже без кэша обходит Sonnet с кэшем по цене, но качество retrieval над длинным контекстом у Sonnet выше — это надо тестировать на ваших данных.
Сценарий 4: Контент-генерация (маркетинг, продуктовые описания)
Профиль: 500 input (бриф + ключевые слова) + 1 500 output (готовый текст). Объём: 50 000 запросов в месяц.
| Модель | Cost/req | Cost/мес (USD) | Cost/мес (₽) |
|---|---|---|---|
| Claude Opus 4.7 | $0.04 | $2 000 | 141 802 ₽ |
| Claude Sonnet 4.6 | $0.024 | $1 200 | 85 081 ₽ |
| Gemini 3 Pro | $0.019 | $950 | 67 356 ₽ |
| Qwen 3.6 Plus | $0.00309 | $154 | 10 919 ₽ |
| DeepSeek V3.2 | $0.000770 | $38 | 2 736 ₽ |
Вывод: для маркетингового контента качество DeepSeek/Qwen обычно достаточное, особенно если есть редактор-человек на финальной правке. Экономия — двукратный порядок.
Сценарий 5: Vision-pipeline (обработка документов, OCR + классификация)
Профиль: 15 000 input (изображение страницы + промпт) + 1 200 output (структурированный JSON). Объём: 300 000 запросов в месяц.
| Модель | Cost/req | Cost/мес (USD) | Cost/мес (₽) |
|---|---|---|---|
| GPT-5.5 | $0.111 | $33 300 | 2 361 010 ₽ |
| Claude Opus 4.7 | $0.105 | $31 500 | 2 233 388 ₽ |
| Gemini 3 Pro | $0.044 | $13 200 | 935 896 ₽ |
| Qwen 3.6 Plus | $0.00722 | $2 167 | 153 643 ₽ |
Вывод: vision-pipeline — главный кандидат на миграцию с GPT/Claude на Qwen. Качество Qwen на документах (OmniDocBench 91.2) обходит Gemini, при цене в 6 раз ниже. За исключением узких ниш (медицинские изображения, специфические форматы), Qwen — рациональный выбор.
Что выбирать в РФ: доступность
К маю 2026 прямая интеграция с OpenAI / Anthropic / Google из России — это путь, выложенный граблями. Платёжные карты российских банков отклоняются. VPN-обход работает, но триггерит fraud-detection, что приводит к блокировке аккаунта. Использование зарубежной VCC (виртуальной карты) формально не запрещено провайдерами, но рискованно: были задокументированные случаи массовых банов российских разработчиков в феврале-марте 2026 года, особенно у OpenAI.
DeepSeek и Qwen технически доступны напрямую, но: (1) их провайдеры требуют верификацию через китайский телефон / WeChat, (2) их dashboards и docs полностью на китайском / упрощённом английском, (3) российские IP периодически блокируются на их CDN.
Что даёт российский LLM-агрегатор вроде Promptra:
- Единый API key для всех восьми моделей, OpenAI-compatible endpoint — drop-in замена в любом существующем коде.
- Оплата на российское юр.лицо в рублях с полным пакетом закрывающих документов (договор, счёт, акт, счёт-фактура, УПД, ЭДО). Это закрывает все требования бухгалтерии, аудита и налогового учёта.
- Цены 1-в-1 с провайдером по курсу ЦБ РФ. Сервисная комиссия 5% — только при пополнении баланса. На токены наценки нет — это принципиальное отличие от премиум-сегмента (где наценка достигает x3.7 от провайдера).
- Никакого vendor lock-in: если завтра вышел Claude Opus 5 или Gemini 4 Pro, они появятся в каталоге через неделю — без переписывания кода и нового договора.
Что у нас лучше: per-model uptime metric
Стандартный compose российских LLM-агрегаторов: список моделей, цена, кнопка «Купить». Никакой информации о том, как часто конкретная модель действительно отвечает и насколько быстро. В то же время uptime — это первое, что должен видеть production-инженер, выбирающий модель под критичный сервис.
В каталоге Promptra по каждой модели мы публикуем три метрики, рассчитанные на rolling-window последних 24 часов: (1) uptime % — процент успешных запросов (не 5xx, не timeout), (2) median latency — медианное время первого токена, (3) p95 latency — 95-процентиль времени первого токена (важно для UX-критичных приложений).
Это уникальная фича: ProxyAPI uptime не показывает вообще, AITUNNEL ограничивается общим status-page без per-model разбивки, GPTunnel показывает uptime только провайдера в целом. Per-model granularity нужна потому что: (a) разные модели у одного провайдера могут проседать асимметрично (например, у OpenAI GPT-5.5 уходит в degraded state значительно чаще, чем GPT-5.4 при пиковых нагрузках), (b) фактический uptime для пользователя в РФ зависит от роутинга между нашими upstream-providers, и эти цифры он не получит от первоисточника.
На практике мы видим, что инженеры используют эту метрику двумя способами. Первый — выбор основной модели (если uptime у двух сопоставимых моделей различается на 0.5+ пункта, это перевешивает мелкие отличия в качестве). Второй — настройка fallback chain: например, primary Sonnet 4.6, при uptime менее 99.5% автоматический failover на Opus 4.7 или GPT-5.4. В коде это одна строчка через наш OpenAI-compatible API.
Прогноз на Q3 2026
Несколько вещей, которые мы видим из публичных roadmaps, утечек и поведения провайдеров на конференциях весной 2026.
Анонсы и релизы. Anthropic, по слухам в инвестор-сообщениях, готовит Claude Opus 5 к августу 2026 — основной фокус на agentic capabilities и заметное снижение цены input-токенов (предположительно до 3-4$ за 1M). OpenAI обещает GPT-5.6 в июле с улучшенным video understanding и нативной streaming-генерацией. Google анонсировал Gemini 4 Pro на Google I/O — релиз ожидается в сентябре, с акцентом на math/science reasoning и context до 4M токенов.
Тренды индустрии.
- Prompt caching deepening. Anthropic уже даёт 90% дисконт на cache hits. Мы ожидаем, что в Q3 OpenAI догонит до сопоставимого уровня (сейчас — 75%), и появится новое поколение кэширования с поддержкой semantic similarity (cache hit не на exact match, а на схожих промптах).
- Batch API стандартизация. Уже сейчас все три топ-провайдера дают 50% дисконт на batch-запросы с SLA менее 24h. К концу 2026 это станет нормой для всех моделей.
- Video tokens. GPT-5.5 умеет принимать видео, но pricing — ещё «дорогой». Ожидаем, что специализированные видео-tokens (отдельный pricing tier) появятся у всех к Q4 2026.
- Узкая специализация. Тренд на «фронтир generalist model» завершается. Будущее — за специализированными вариантами: coding-specialized (Claude Code-Optimized 4.6 уже анонсирован), reasoning-specialized (DeepSeek R2 ожидается), document-specialized (Qwen 3.6 уже фактически таковая).
К чему готовиться. Если ваша архитектура жёстко зашита под одну модель — это растущий риск. Лучшие команды на 2026 строят абстракцию над LLM, позволяющую менять модель под задачу без передеплоя кода. Promptra-API совместимо с OpenAI SDK на всех восьми моделях — это упрощает переход на эту архитектуру в один день.
В долгосрочной перспективе мы видим разделение рынка на два чётких сегмента: «флагман-для-сложного» (Claude Opus 5, GPT-5.6+, Gemini 4 Pro) с ценой 5-30$ за M tokens и «infrastructure-tier» (DeepSeek, Qwen, Mistral, опенсорс) с ценой менее $1 за M tokens. Middle-tier (Claude Sonnet, GPT-5.4) останется, но будет сжиматься, потому что на 80% задач его догоняет cheaper-tier, а на 20% — нужен флагман. Через год выбор модели будет похож на выбор инстансов в AWS: «есть микро для дешёвого, есть xlarge для критичного, между ними — нюансы конфигурации».
Итог: что забрать с собой
- Цена за 1M токенов в 2026 расщеплена в 20+ раз между сверхдешёвыми (DeepSeek V3.2, Qwen 3.6 Plus) и премиум (GPT-5.5, Claude Opus 4.7). Дефолт «всё на GPT» — самый дорогой технический долг в индустрии прямо сейчас.
- Бенчмарки разные модели выигрывают разные. Универсального лидера нет: Claude Mythos в SWE-Bench, Gemini 3.1 в MMLU/GPQA, GPT-5.5 в нативной мультимодальности, Qwen 3.6 в Terminal-Bench/документах. Mixture-of-models — не модный термин, а рациональная архитектура production-систем 2026.
- TCO считается на ваших реальных профилях запросов, не по abstract per-token ценам. Сценарии в этой статье показывают: при одинаковом качестве задачи (chat, генерация) разница в счёте за месяц может быть 20-кратной. Это бюджет, который можно перенаправить.
- Доступность в РФ через прямое подключение к OpenAI/Anthropic/Google ограничена и рискована (банки, банкомёт, ToS). Российский LLM-агрегатор закрывает это плюс даёт юр.лицо + закрывающие документы.
- Uptime per-model — критичный, недооценённый параметр. Промтра — единственный в РФ агрегатор, показывающий uptime/latency для каждой модели в реальном времени.
- Готовьтесь к Q3 2026: Opus 5, GPT-5.6, Gemini 4 Pro — все три появятся за квартал. Архитектура с абстракцией над LLM (OpenAI-compatible через Promptra) делает миграцию однодневной задачей.
📚 Главный гайд по теме: Лучшая нейросеть 2026: какую LLM выбрать под задачу — связанные материалы и обзор всей категории.
Источники
- OpenAI API Pricing — официальные цены GPT-5.4, GPT-5.5 на 28.05.2026.
- Anthropic Platform Pricing — Claude Opus 4.7, Sonnet 4.6.
- Google Gemini API Pricing — Gemini 3 Pro tier-pricing.
- DeepSeek API Pricing — DeepSeek V3.2.
- LLM-stats Qwen 3.6 Plus — Qwen 3.6 Plus pricing и benchmarks.
- Vals.ai SWE-Bench Leaderboard — независимый агрегатор бенчмарков.
- LocalAI Master — SWE-Bench Explained — методология бенчмарка.
- Aimagicx — Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1 April 2026 — апрельский benchmark отчёт.
- BuildFastWithAI — Qwen 3.6 Plus Review — Qwen 3.6 Plus deep dive.
- CloudZero — Claude API Pricing Analysis — TCO-аналитика по Claude API.
Promptra — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.
Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.
Try: promptra.ru · model catalog · docs








Top comments (0)