Promptra Team for Promptra

Posted on Jun 1 • Edited on Jun 16

Цены LLM API в 2026: точные тарифы Claude, GPT, Gemini в рублях

#claude #gpt #gemini #deepseek

К концу 2026 года рынок LLM API устаканился: каждая большая модель имеет публичный прайс, цены деноминируются в долларах за миллион токенов, и разница между самой дешёвой и самой дорогой моделью каталога — около 60-кратная (от Qwen 3.6 Plus с 20 ₽ за 1M input до Claude Opus 4.7 fast mode с 2150 ₽ за тот же объём). Через Promptra все эти модели доступны за рубли по курсу ЦБ 71,668 ₽/$ на 2026-05-27, без наценки на токены, с оплатой на юр.лицо российское юр.лицо и пакетом закрывающих документов через ЭДО.

В этом материале — таблица цен на 8 ключевых моделей с округлением до 10 ₽ вниз, разбор того, почему output дороже input, как считать «настоящую» стоимость с учётом нюансов токенайзера и контекста, и три практических сценария бюджетирования (чат-бот, code copilot, RAG-агент) с реальным месячным счётом.

TL;DR: точные тарифы на 2026-05-31

Цены за 1M токенов в рублях по курсу ЦБ 71,668 ₽/$, без наценки:

Модель	Input ₽/1M	Output ₽/1M	Контекст	Профиль
Claude Opus 4.7	350 ₽	1790 ₽	1M	флагман, сложный код, агенты
Claude Sonnet 4.6	210 ₽	1070 ₽	1M	универсал, дефолт по цене/качеству
GPT-5.5	350 ₽	2150 ₽	1,05M	флагман OpenAI, multimodal
GPT-5.4	170 ₽	1070 ₽	1,05M	универсал OpenAI
Gemini 3.1 Pro	140 ₽	860 ₽	2M	длинный контекст, дешёвый универсал
Gemini 3.5 Flash	100 ₽	640 ₽	1M	быстрый, дешёвый Google
DeepSeek V4 Pro	30 ₽	60 ₽	128K	массовая генерация
Qwen 3.6 Plus	20 ₽	130 ₽	1M	максимально дешёвый базовый

Разница на одном миллионе output: между Qwen 3.6 Plus и Claude Opus 4.7 — почти 14-кратная. Между самой дешёвой и стандартом Sonnet — 8-кратная. Это значит, что правильный выбор модели под задачу может снизить ваш месячный счёт в разы.

Как читать таблицу: input против output

Главное, что нужно понять про цены LLM — input и output тарифицируются отдельно, и output почти всегда в 5–10 раз дороже. Это потому что генерация одного токена требует значительно больше вычислений (полный проход через модель), чем чтение токена из промта.

Что это значит на практике:

Задача с длинным промтом и коротким ответом (RAG, классификация, извлечение полей): основная стоимость — на входе. Выбирайте модель с дешёвым input — например, Gemini 3.5 Flash (100 ₽) или DeepSeek V4 Pro (30 ₽).
Задача с коротким промтом и длинным ответом (генерация статей, кода, переводов): основная стоимость — на выходе. Здесь output-цена решает: разница между 640 ₽ (Gemini Flash) и 2150 ₽ (GPT-5.5) на одном миллионе output — это +1510 ₽ за миллион сгенерированных токенов.
Сбалансированная задача (чат, диалог, агенты): смотрите общую стоимость на типовом входе и выходе. Сравнение делается так: посчитайте среднее prompt_tokens и completion_tokens на ваших реальных запросах, умножьте на ставку каждой модели.

Формула фактической стоимости одного запроса:

стоимость = (prompt_tokens × input_price + completion_tokens × output_price) / 1 000 000

Эта формула работает для любой модели и любого профиля нагрузки. Поле usage в ответе API возвращает точные числа prompt_tokens и completion_tokens — никаких прикидок не нужно.

Флагманы: Claude Opus 4.7, GPT-5.5

Два главных флагмана 2026 года — Claude Opus 4.7 и GPT-5.5. Они близки по input (оба 350 ₽), но различаются на выходе: 1790 ₽ против 2150 ₽ за 1M output. На длинных генерациях это даёт ощутимую разницу.

Claude Opus 4.7 — 350 / 1790 ₽. Официальный прайс Anthropic — $5/$25 по странице цен Anthropic. Контекст 1M токенов, максимальный ответ 128K. Профиль: сильнейший в сложном коде, длинных агентных циклах, многошаговом reasoning. Нюанс: новый токенайзер может расходовать до ~35% больше токенов на том же тексте — закладывайте множитель 1,2–1,35 в бюджет. Полный разбор — в гайде по Claude Opus 4.7.

GPT-5.5 — 350 / 2150 ₽. Официальный прайс OpenAI — $5/$30, см. цены OpenAI. Контекст 1,05M, максимальный ответ 128K. Профиль: универсальный флагман, сильный multimodal, нативные tools. Нюанс цены: при входе свыше 272K токенов вся сессия пересчитывается по удвоенной входной и полуторной выходной ставке — это съедает экономию на очень длинных контекстах.

Когда какой брать. Opus 4.7 — на сложном коде, агентах с длинными циклами, нетривиальной отладке. GPT-5.5 — когда нужен multimodal (картинки, диаграммы) или часть стека уже на OpenAI. Если задача укладывается в средний класс — берите Sonnet 4.6 (210/1070 ₽) и сэкономите примерно в 1,7–2 раза. Детальное сравнение этих двух флагманов — в материале «GPT-5.5 против Claude Opus 4.7».

Стоимость одного типового запроса (8K вход, 4K выход — типовой code copilot):

Модель	На запрос	На 1000 запросов в день	За месяц (30 дней)
Claude Opus 4.7	≈ 9,96 ₽	9 960 ₽/день	≈ 299 000 ₽/мес
GPT-5.5	≈ 11,40 ₽	11 400 ₽/день	≈ 342 000 ₽/мес
Claude Sonnet 4.6	≈ 5,96 ₽	5 960 ₽/день	≈ 179 000 ₽/мес

Цифры округлены. Если 1000 запросов в день у вас закрывает Sonnet 4.6 — вы экономите 120 000–163 000 ₽/мес против флагманов. Поднимайтесь до Opus или GPT-5.5 только там, где видите, что среднего класса не хватает.

Рабочие модели: Claude Sonnet 4.6, GPT-5.4

Это самый практически важный класс — модели, которые закрывают 80% реальных задач при цене в 1,5–2 раза ниже флагманов.

Claude Sonnet 4.6 — 210 / 1070 ₽. Контекст 1M, ответ 128K. Универсальный дефолт для чата, RAG, типового кода, агентов средней сложности. Хороший русский, естественный стиль, длинный контекст без штрафов. Подробный разбор с кодом и расчётами — в гайде «Claude Sonnet API за рубли».

GPT-5.4 — 170 / 1070 ₽. Контекст 1,05M, ответ 128K. Дешевле Sonnet на входе (170 против 210 ₽), сопоставимо на выходе. Хорош для multimodal и нативного tool calling. Если в коде уже OpenAI SDK — это самый простой апгрейд через смену имени модели.

На большинстве типовых задач разница между Sonnet 4.6 и GPT-5.4 в качестве — в пределах погрешности. Решает удобство экосистемы и привычки команды. На задачах с акцентом на русском языке Sonnet чаще выигрывает; на multimodal — GPT-5.4.

Дешёвый универсал: Gemini 3.1 Pro и 3.5 Flash

Google в 2026 году держит самую агрессивную ценовую политику среди крупных провайдеров. Gemini 3.1 Pro стоит 140/860 ₽ — это в 2,5 раза дешевле Opus 4.7 на входе и почти в 2 раза дешевле на выходе при сопоставимом качестве на типовых задачах. Gemini 3.5 Flash — 100/640 ₽, ещё дешевле, при сохранении приличного reasoning.

Gemini 3.1 Pro — 140 / 860 ₽. Официальный прайс Google — $2/$12, см. страницу цен Gemini API. Контекст 2M токенов — самый длинный в каталоге. Профиль: длинный контекст, multimodal (картинки, видео), хороший русский. Когда брать: задачи с очень длинным контекстом (анализ больших документов, multi-source RAG), multimodal-сценарии, бюджетный аналитический пайплайн.

Gemini 3.5 Flash — 100 / 640 ₽. Официальный прайс $1.4/$9. Контекст 1M, скорость выше Pro. Профиль: быстрая модель для интерактивных сценариев, классификация, простая суммаризация, чат на масштабе. Когда брать: чат-боты с тысячами одновременных сессий, ночные batch-пайплайны, быстрая прелюдия для маршрутизации в более тяжёлую модель.

На сценарии «классификация 100 000 запросов в день» (1K вход, 0,2K выход — короткие классификации):

Модель	На запрос	За день	За месяц
GPT-5.5	≈ 0,78 ₽	78 000 ₽	≈ 2 340 000 ₽
Claude Sonnet 4.6	≈ 0,42 ₽	42 000 ₽	≈ 1 260 000 ₽
Gemini 3.5 Flash	≈ 0,23 ₽	23 000 ₽	≈ 690 000 ₽
DeepSeek V4 Pro	≈ 0,04 ₽	4 200 ₽	≈ 126 000 ₽

Разница огромная. Если задача — действительно классификация (а не «классификация с нюансами» или «классификация с reasoning»), вы экономите 2 миллиона рублей в месяц, выбрав DeepSeek V4 Pro вместо GPT-5.5. Правильная маршрутизация по задачам — главный рычаг экономии.

Бюджетные: DeepSeek V4 Pro и Qwen 3.6 Plus

Это нижний ценовой ярус каталога — модели по 20–60 ₽ за миллион токенов. Их роль — закрывать массовые задачи, где качество флагмана не нужно, но объём огромный.

DeepSeek V4 Pro — 30 / 60 ₽. Контекст 128K. Профиль: массовая генерация, простой код, классификация, перевод. Tool calling работает ограниченно — не везде, где у Claude/GPT, но базовые сценарии тянет. Когда брать: ночной batch-пайплайн, массовая разметка данных, генерация шаблонного текста. Полный разбор — в материале «DeepSeek V4 Pro API за рубли».

Qwen 3.6 Plus — 20 / 130 ₽. Контекст 1M. Профиль: ещё дешевле на входе, отличный русский, длинный контекст. На многих задачах показывает достойное качество за свою цену. Когда брать: суммаризация больших документов, поиск по корпусу, базовый чат без сложного reasoning.

Здесь главный совет — не пытайтесь сэкономить «на всём». Reasoning, агенты, сложный код на этих моделях вас разочаруют. Но на простых массовых задачах они дают 10–20-кратную экономию против Sonnet/GPT-4.5, и это огромные деньги при больших объёмах.

Три практических сценария бюджетирования

Покажем, как складывается реальный месячный счёт на трёх типовых пайплайнах.

Сценарий 1: B2C чат-бот первой линии — 50 000 диалогов в день

Профиль: средний диалог 5 ходов по 200 токенов вход и 150 выход = 1K вход, 750 выход на диалог. 50 000 диалогов в день, 30 дней.

Модель	На диалог	В день	В месяц
GPT-5.5	≈ 1,96 ₽	98 000 ₽	≈ 2 940 000 ₽
Claude Sonnet 4.6	≈ 1,01 ₽	50 500 ₽	≈ 1 515 000 ₽
Gemini 3.5 Flash	≈ 0,58 ₽	29 000 ₽	≈ 870 000 ₽
DeepSeek V4 Pro	≈ 0,08 ₽	4 000 ₽	≈ 120 000 ₽

Решение: пилотируйте на Sonnet 4.6, замерьте качество, потом переключайте на Gemini Flash или DeepSeek для массы. Если важна сложность ответа — оставьте Sonnet. Экономия от правильного выбора — до 2,8 млн ₽/мес.

Сценарий 2: Code copilot для команды разработки — 200 запросов в день

Профиль: один запрос copilot — это 8K контекста файла + 2K промта = 10K вход, 4K выход. 200 запросов в день на разработчика, 30 дней, команда из 10 человек = 2000 запросов/день.

Модель	На запрос	В день (2000 запросов)	В месяц
Claude Opus 4.7	≈ 10,66 ₽	21 320 ₽	≈ 639 600 ₽
GPT-5.5	≈ 12,10 ₽	24 200 ₽	≈ 726 000 ₽
Claude Sonnet 4.6	≈ 6,38 ₽	12 760 ₽	≈ 382 800 ₽

Решение: команды, которые серьёзно работают с агентами и сложными рефакторингами, берут Opus 4.7. Команды, которым нужен дешёвый универсал — Sonnet 4.6. Разница в месяц — 250 000 ₽ при сопоставимом качестве на типовых задачах. Подробнее про подключение моделей в IDE — в гайде «Claude Code в России».

Сценарий 3: RAG-сервис по корпусу документов — 5000 запросов в день

Профиль: RAG-запрос — это 50K вход (длинный контекст из retrieval) + 1,5K выход. 5000 запросов/день, 30 дней.

Модель	На запрос	В день	В месяц
Gemini 3.1 Pro	≈ 8,29 ₽	41 450 ₽	≈ 1 243 500 ₽
Claude Sonnet 4.6	≈ 12,11 ₽	60 550 ₽	≈ 1 816 500 ₽
GPT-5.4	≈ 10,11 ₽	50 550 ₽	≈ 1 516 500 ₽

Решение: для RAG с длинным контекстом Gemini 3.1 Pro даёт лучшее соотношение цена/контекст/качество. Если важна точность рассуждения на длинной выборке — Sonnet 4.6 или Opus 4.7. Подробнее про RAG-сценарии — в материале «Что такое API».

Скрытые расходы: что НЕ входит в табличную цену

Цены в каталоге — это ставки за токены провайдера, пересчитанные по курсу ЦБ. Есть три источника дополнительных расходов, которые надо закладывать в бюджет.

Сервисная комиссия 5%. Берётся один раз при пополнении баланса (за эквайринг, биллинг и поддержку). На запросы не влияет. При пополнении 100 000 ₽ — на баланс зачисляется 95 000 ₽. Это фиксированный платёж, он не зависит от объёма потребления.

Колебания курса ЦБ. После пополнения вы тратите рубли по уже зафиксированной ставке, и колебания курса вам не страшны до следующего пополнения. Но если курс серьёзно сдвинется между двумя пополнениями — следующая партия токенов будет тарифицироваться по новому курсу. Для крупных расходов это аргумент в пользу более редких больших пополнений вместо частых мелких.

Новый токенайзер. Claude Opus 4.7 использует новый токенайзер, который может расходовать до ~35% больше токенов на том же тексте. Цена за токен не меняется, но количество токенов растёт. Закладывайте множитель 1,2–1,35 на бюджет для Opus 4.7 и обязательно замерьте на своих промтах через поле usage.

Чего НЕ будет. Никаких ежемесячных подписок, минимальных платежей, наценки на токены, скрытых сборов за документы или поддержку. Лимиты по ключам, мониторинг расхода, дашборд, ЭДО — бесплатно. Это принципиальное отличие от реселлеров с фиксированной маржой 30–300% поверх цены провайдера.

Оплата и закрывающие документы

Юрлицо-исполнитель — российское юр.лицо , резидент РФ. Полный пакет закрывающих документов через ЭДО (Диадок, СБИС, Контур): договор-оферта, счёт, акт оказанных услуг, счёт-фактура, УПД. Это договор с российским контрагентом, валютный контроль не требуется. Расходы на API ложатся в учёт целиком.

Подробнее про оплату — на странице цен Promptra и в материале про легальность AI API для юрлиц.

Что дальше

Если коротко: в 2026 году каталог Promptra покрывает все основные классы LLM от 20 ₽ за 1M (Qwen 3.6 Plus) до 1790 ₽ (Claude Opus 4.7) — разница 90-кратная. Правильный выбор модели под задачу даёт экономию в разы. Все цены — по курсу ЦБ 71,668 ₽/$, без наценки на токены, с оплатой на юр.лицо.

Полезные следующие шаги: разбор флагманов лоб-в-лоб — «GPT-5.5 против Claude Opus 4.7»; выбор модели под задачу — «Лучшая нейросеть 2026»; миграция со стандартного OpenAI — «Миграция с OpenAI на Promptra на Python». А если нужно прикинуть стоимость на вашем трафике, подобрать модель под пайплайн или оформить договор на юр.лицо — [свяжитесь через promptra.ru.ru).

📚 Главный гайд по теме: Лучшая нейросеть 2026: какую LLM выбрать под задачу — связанные материалы и обзор всей категории.

Promptra — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.

Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.

Try: promptra.ru · model catalog · docs