<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Promptra Team</title>
    <description>The latest articles on DEV Community by Promptra Team (@promptra).</description>
    <link>https://dev.to/promptra</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3961303%2Fd46f3f94-ecdf-4996-a07e-c1db4fdc4479.png</url>
      <title>DEV Community: Promptra Team</title>
      <link>https://dev.to/promptra</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/promptra"/>
    <language>en</language>
    <item>
      <title>Нейросеть для транскрибации: расшифровка аудио в текст</title>
      <dc:creator>Promptra Team</dc:creator>
      <pubDate>Mon, 01 Jun 2026 19:22:12 +0000</pubDate>
      <link>https://dev.to/promptra-team/nieirosiet-dlia-transkribatsii-rasshifrovka-audio-v-tiekst-4igi</link>
      <guid>https://dev.to/promptra-team/nieirosiet-dlia-transkribatsii-rasshifrovka-audio-v-tiekst-4igi</guid>
      <description>&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F5mtjg5zex6t583dme2aq.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F5mtjg5zex6t583dme2aq.png" alt="Конвейер расшифровки: запись аудио поступает в Gemini 3.1 Pro, на выходе текст, затем LLM формирует саммари и тезисы — всё через один API в рублях" width="800" height="533"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Нейросеть для транскрибации — это модель, которой вы отправляете аудио- или видеозапись, а она возвращает текстовую расшифровку речи. &lt;strong&gt;По состоянию на 2026-05-29 в нашем каталоге звук на вход принимает Gemini 3.1 Pro Preview от Google — то есть запись можно отправить прямо в модель и получить готовую расшифровку в одном запросе.&lt;/strong&gt; Дальше за дело берётся любая текстовая LLM: она чистит расшифровку от слов-паразитов, делает краткое содержание, выделяет тезисы и собирает протокол встречи с задачами и решениями. Всё это работает через один OpenAI-совместимый API, оплачивается в рублях по курсу ЦБ, без наценки на токены.&lt;/p&gt;

&lt;p&gt;Этот гайд — про то, чем расшифровать аудио в текст нейросетью, какая модель что делает (важно не путать распознавание речи и постобработку), сколько транскрибация ИИ стоит в рублях и как вызвать её парой строк кода. Тон — инженерный, на цифрах. Цены — ровно те, что клиент видит на странице тарифов: 1-в-1 с провайдером по курсу ЦБ (71.668 ₽/$ на 2026-05-27).&lt;/p&gt;

&lt;h2&gt;
  
  
  Что такое транскрибация нейросетью
&lt;/h2&gt;

&lt;p&gt;Транскрибация — это перевод устной речи в письменный текст. Расшифровывают совещания, интервью, подкасты, лекции, голосовые сообщения, записи звонков колл-центра, дорожку звука из видео. Раньше это делали вручную (час записи — 4-6 часов работы расшифровщика) или через узкоспециализированные сервисы распознавания речи. Сегодня задачу закрывает нейросеть, и закрывает в два логически разных шага, которые важно не смешивать.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Шаг первый — распознавание речи (ASR / speech-to-text).&lt;/strong&gt; Модель слушает звук и превращает его в поток слов. Это техническая задача: разобрать произношение, расставить границы слов, по возможности — пунктуацию. Здесь нужна модель, которая физически принимает аудио на вход.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Шаг второй — постобработка текстом (LLM).&lt;/strong&gt; Сырая расшифровка почти всегда требует доработки: убрать «эээ», «ну», повторы и оговорки; разбить сплошной поток на абзацы и реплики; сделать выжимку; выделить решения и задачи. Это уже работа обычной текстовой языковой модели — ей на вход идёт не звук, а готовый текст расшифровки.&lt;/p&gt;

&lt;p&gt;Разница принципиальна для выбора модели и для счёта. Принять аудио умеет не каждая модель — это отдельная мультимодальная способность. А вот постобработку текста тянет любая LLM, и тут можно взять модель подешевле. Дальше разберём оба шага по очереди и честно скажем, что из этого делает наш API напрямую, а что — через дополнительные инструменты.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frl5t86heufks5aegqugb.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frl5t86heufks5aegqugb.png" alt="Схема двух шагов транскрибации: слева блок «Распознавание речи (ASR): аудио в текст», справа блок «Постобработка LLM: чистка, саммари, тезисы, протокол», между ними стрелка с подписью «сырой текст»" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Чем расшифровать аудио в текст: модели с аудио-входом
&lt;/h2&gt;

&lt;p&gt;Чтобы отправить запись прямо в модель и получить расшифровку, нужна модель с аудио во входных модальностях. В нашем каталоге такая способность есть у флагмана Google.&lt;/p&gt;

&lt;h3&gt;
  
  
  Gemini 3.1 Pro Preview — принимает звук на вход
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Gemini 3.1 Pro Preview&lt;/strong&gt; (&lt;code&gt;google/gemini-3.1-pro-preview&lt;/code&gt;) — единственная в нашем каталоге крупная reasoning-модель, у которой во входных модальностях указан &lt;code&gt;audio&lt;/code&gt; наряду с изображением и текстом. На практике это значит, что вы отправляете в модель аудиофайл вместе с инструкцией «расшифруй эту запись» — и получаете текст. Не нужен отдельный сервис распознавания: звук и задание идут одним запросом.&lt;/p&gt;

&lt;p&gt;Что важно для транскрибации:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Звук на вход.&lt;/strong&gt; Можно отправить запись разговора, голосовое сообщение, дорожку из видео.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Контекст 1 048 576 токенов&lt;/strong&gt; (округлённо 1M). Длинная запись и инструкция целиком помещаются в один запрос, а расшифровку сразу можно попросить структурировать.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Reasoning.&lt;/strong&gt; Та же модель в том же запросе способна не просто расшифровать, но и сразу выделить ключевые мысли, потому что понимает смысл сказанного, а не только слова.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Цена по каталогу: &lt;strong&gt;$2 / $12 за 1М токенов (вход / выход) — это 140 / 860 ₽&lt;/strong&gt;. Аудио на входе тарифицируется в токенах, как и текст: примерно 32 токена на секунду звука (ориентир Google; точный расход зависит от записи). Час разговора — это порядка 115 тысяч входных токенов, то есть около 16 ₽ за вход на расшифровку часовой встречи. Подробный разбор флагмана — в материале про &lt;a href="https://promptra.ru/api/gemini" rel="noopener noreferrer"&gt;Gemini 3.1 Pro API в России&lt;/a&gt;, а как вообще получить доступ к Gemini из РФ — в гайде &lt;a href="https://promptra.ru/blog/gemini-v-rossii" rel="noopener noreferrer"&gt;Gemini в России&lt;/a&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Чего в каталоге нет: специализированные STT-сервисы
&lt;/h3&gt;

&lt;p&gt;Честно обозначим границу. Помимо мультимодальных LLM, существует отдельный класс инструментов — узкоспециализированные сервисы распознавания речи (например, модели семейства Whisper и подобные STT-движки). Они заточены строго под одну задачу — превратить звук в текст — и на больших объёмах однотипных записей могут быть дешевле и быстрее, чем гонять аудио через большую LLM. Многие из них дают точные тайм-коды по каждому слову и аккуратную диаризацию (разметку «кто говорит»).&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;В нашем каталоге на 2026-05-29 выделенного speech-to-text сервиса нет&lt;/strong&gt; — мы не предлагаем отдельный Whisper-endpoint и не выставляем на него цену. Поэтому если ваш сценарий — это поток из тысяч часов записей с требованием к посекундным тайм-кодам, имеет смысл смотреть и в сторону специализированного STT. А вот связка «Gemini принимает аудио и расшифровывает → текстовая LLM приводит расшифровку в порядок и делает саммари» закрывается через наш API целиком и для большинства задач (встречи, интервью, подкасты) её достаточно.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnlrsts8h3drdchp17cso.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnlrsts8h3drdchp17cso.png" alt="Сравнительная схема двух подходов к распознаванию речи: слева карточка «Gemini 3.1 Pro — аудио на вход, 140/860 ₽, расшифровка плюс смысл в одном запросе», справа карточка «Специализированный STT — узкая задача, тайм-коды, диаризация; в каталоге Promptra нет»" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Как сделать расшифровку по API: аудио в текст
&lt;/h2&gt;

&lt;p&gt;Главное удобство — всё работает через один OpenAI-совместимый endpoint. Если у вас уже есть код на официальном SDK OpenAI, меняется только &lt;code&gt;base_url&lt;/code&gt; и идентификатор модели. Endpoint Promptra: &lt;code&gt;https://api.promptra.ru/v1&lt;/code&gt;.&lt;/p&gt;

&lt;p&gt;Аудио передаётся в запрос как часть мультимодального сообщения: файл кодируется в base64 и кладётся в &lt;code&gt;content&lt;/code&gt; рядом с текстовой инструкцией. Ниже — расшифровка локального аудиофайла через Gemini 3.1 Pro на Python.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;base64&lt;/span&gt;
&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
 &lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;prm-xxxxxxxxxxxx&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="n"&gt;base_url&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;https://api.promptra.ru/v1&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="k"&gt;with&lt;/span&gt; &lt;span class="nf"&gt;open&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;meeting.mp3&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;rb&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;f&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
 &lt;span class="n"&gt;audio_b64&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;base64&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;b64encode&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;f&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;read&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="nf"&gt;decode&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;utf-8&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;system&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="p"&gt;(&lt;/span&gt;
 &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Ты расшифровщик. Точно перенеси речь в текст на русском языке. &lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;
 &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Расставь пунктуацию и абзацы. Реплики разных говорящих оформляй &lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;
 &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;с новой строки. Не добавляй ничего от себя, не пересказывай.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
 &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;google/gemini-3.1-pro-preview&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;system&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;system&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt;
 &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;text&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;text&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Расшифруй эту запись.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt;
 &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;input_audio&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;input_audio&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;data&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;audio_b64&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;format&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;mp3&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;],&lt;/span&gt;
 &lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;],&lt;/span&gt;
 &lt;span class="n"&gt;temperature&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mf"&gt;0.2&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Практические детали именно для расшифровки:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;&lt;code&gt;temperature&lt;/code&gt; 0.0-0.2.&lt;/strong&gt; Транскрибация — задача с «правильным» ответом. Низкая температура снижает риск, что модель начнёт перефразировать вместо точного переноса речи.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Инструкция «не добавляй от себя».&lt;/strong&gt; Без неё модель иногда подытоживает или дополняет — лишнее, когда нужна дословная расшифровка.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Формат файла.&lt;/strong&gt; Указывайте реальный формат записи (&lt;code&gt;mp3&lt;/code&gt;, &lt;code&gt;wav&lt;/code&gt;, &lt;code&gt;m4a&lt;/code&gt; и т. п.). Длинные записи перед отправкой имеет смысл сжать в моно — на качество расшифровки это почти не влияет, а входной объём уменьшает.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Длинные записи.&lt;/strong&gt; Совещание на несколько часов лучше резать на куски по 20-30 минут и расшифровывать по частям — так проще обрабатывать ошибки и не упереться в лимиты одного запроса.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Node.js / TypeScript
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight javascript"&gt;&lt;code&gt;&lt;span class="k"&gt;import&lt;/span&gt; &lt;span class="nx"&gt;fs&lt;/span&gt; &lt;span class="k"&gt;from&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;node:fs&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;;&lt;/span&gt;
&lt;span class="k"&gt;import&lt;/span&gt; &lt;span class="nx"&gt;OpenAI&lt;/span&gt; &lt;span class="k"&gt;from&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;openai&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;;&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="k"&gt;new&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
 &lt;span class="na"&gt;apiKey&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nx"&gt;process&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;env&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;PROMPTRA_API_KEY&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="na"&gt;baseURL&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;https://api.promptra.ru/v1&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;});&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;audioB64&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nx"&gt;fs&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;readFileSync&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;interview.mp3&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;).&lt;/span&gt;&lt;span class="nf"&gt;toString&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;base64&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;res&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="k"&gt;await&lt;/span&gt; &lt;span class="nx"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
 &lt;span class="na"&gt;model&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;google/gemini-3.1-pro-preview&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="na"&gt;messages&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="na"&gt;role&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;system&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="na"&gt;content&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;Точно расшифруй речь на русском, с пунктуацией.&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt; &lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt;
 &lt;span class="na"&gt;role&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;user&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="na"&gt;content&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="na"&gt;type&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;text&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="na"&gt;text&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;Расшифруй запись интервью.&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt; &lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="na"&gt;type&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;input_audio&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="na"&gt;input_audio&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="na"&gt;data&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nx"&gt;audioB64&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="na"&gt;format&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;mp3&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt; &lt;span class="p"&gt;}&lt;/span&gt; &lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;],&lt;/span&gt;
 &lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;],&lt;/span&gt;
 &lt;span class="na"&gt;temperature&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mf"&gt;0.2&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;});&lt;/span&gt;

&lt;span class="nx"&gt;console&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;log&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="nx"&gt;res&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="nx"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;content&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Идентификатор модели берётся из каталога: &lt;code&gt;google/gemini-3.1-pro-preview&lt;/code&gt;. Чтобы расшифровать видео, отдельный шаг не нужен — достаточно вытащить из ролика звуковую дорожку (например, утилитой &lt;code&gt;ffmpeg&lt;/code&gt;) и отправить её тем же запросом. Картинка-кадр модели не нужна: для транскрибации работает только звук.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ftpphko6alayvhpgwmeu2.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ftpphko6alayvhpgwmeu2.png" alt="Блок-схема расшифровки через API: слева прямоугольник «Ваш код: аудиофайл base64 плюс инструкция», стрелка к терракотовому блоку «Promptra · api.promptra.ru/v1», от него к блоку «Gemini 3.1 Pro (аудио на вход)», стрелка назад «текст расшифровки»" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Постобработка LLM: саммари, тезисы, протокол встречи
&lt;/h2&gt;

&lt;p&gt;Сырая расшифровка — это ещё не готовый документ. Живая речь полна слов-паразитов, повторов, оборванных фраз и «воды». Здесь начинается второй шаг, и это уже чистая работа текстовой LLM: на вход идёт текст расшифровки, на выход — то, что вам реально нужно. Для постобработки звук не требуется, поэтому можно взять модель подешевле — например, GPT-5.4, Gemini 3.5 Flash или DeepSeek V4 Pro.&lt;/p&gt;

&lt;p&gt;Что обычно делают с расшифровкой:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Чистка.&lt;/strong&gt; Убрать «эээ», «ну», «как бы», повторы и оговорки; превратить поток в читаемый текст. «Очисти расшифровку от слов-паразитов и повторов, сохрани смысл и все факты дословно».&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Краткое содержание (саммари).&lt;/strong&gt; Сжать часовую встречу в абзац-два. Это одна из самых дешёвых операций: вход большой, выход короткий, платите в основном за вход.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Тезисы.&lt;/strong&gt; Маркированный список ключевых мыслей — для тех, кто на встрече не был.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Протокол встречи.&lt;/strong&gt; Структура «обсудили / решили / задачи». Самый ценный для бизнеса формат.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Пример промпта для протокола встречи из готовой расшифровки:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;transcript&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;...&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt; &lt;span class="c1"&gt;# текст расшифровки из предыдущего шага
&lt;/span&gt;
&lt;span class="n"&gt;system&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="sh"&gt;"""&lt;/span&gt;&lt;span class="s"&gt;Ты ассистент, который оформляет протоколы встреч.
На входе — расшифровка совещания. Верни структурированный протокол:
1. Краткое содержание (3-5 предложений).
2. Ключевые решения (маркированный список).
3. Задачи: что, кто ответственный, срок (если назван).
4. Открытые вопросы.
Опирайся только на текст расшифровки, ничего не выдумывай.&lt;/span&gt;&lt;span class="sh"&gt;"""&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
 &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;openai/gpt-5.4&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;system&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;system&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;transcript&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
 &lt;span class="p"&gt;],&lt;/span&gt;
 &lt;span class="n"&gt;temperature&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mf"&gt;0.3&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Эти два шага удобно объединять в один конвейер: Gemini расшифровывает запись, результат сразу уходит в текстовую модель за протоколом. А можно сделать всё в один запрос к Gemini 3.1 Pro — попросить и расшифровать, и сразу выдать саммари с задачами, раз модель всё равно понимает смысл сказанного. Для коротких записей это удобно; для длинных совещаний разбивка на два шага надёжнее и обычно дешевле, потому что постобработку делает модель дешевле флагмана. Тот же приём двухуровневой обработки разбираем в гайде по &lt;a href="https://promptra.ru/blog/neyroset-dlya-generacii-teksta" rel="noopener noreferrer"&gt;генерации текста нейросетью&lt;/a&gt;, а если запись на иностранном языке — её можно сразу &lt;a href="https://promptra.ru/blog/neyroset-dlya-perevoda" rel="noopener noreferrer"&gt;перевести нейросетью&lt;/a&gt; на том же API.&lt;/p&gt;

&lt;h2&gt;
  
  
  Цена транскрибации в рублях
&lt;/h2&gt;

&lt;p&gt;Считаем по нашему каталогу. Цены — вербатим, 1-в-1 с провайдером по курсу ЦБ 71.668 ₽/$, вход/выход за 1 млн токенов.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Роль в расшифровке&lt;/th&gt;
&lt;th&gt;Вход, ₽&lt;/th&gt;
&lt;th&gt;Выход, ₽&lt;/th&gt;
&lt;th&gt;Аудио на входе&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.1 Pro Preview&lt;/td&gt;
&lt;td&gt;распознавание речи (аудио в текст)&lt;/td&gt;
&lt;td&gt;140&lt;/td&gt;
&lt;td&gt;860&lt;/td&gt;
&lt;td&gt;да&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;постобработка: протокол, чистка&lt;/td&gt;
&lt;td&gt;170&lt;/td&gt;
&lt;td&gt;1070&lt;/td&gt;
&lt;td&gt;нет&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.5 Flash&lt;/td&gt;
&lt;td&gt;дешёвая постобработка&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;td&gt;нет&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V4 Pro&lt;/td&gt;
&lt;td&gt;массовая постобработка, саммари&lt;/td&gt;
&lt;td&gt;30&lt;/td&gt;
&lt;td&gt;60&lt;/td&gt;
&lt;td&gt;нет&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Несколько уточнений к таблице:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Распознавание делает только Gemini 3.1 Pro&lt;/strong&gt; — у остальных моделей в каталоге аудио нет во входных модальностях. Постобработку текста может делать любая из них.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Аудио тарифицируется в токенах.&lt;/strong&gt; Ориентир Google — около 32 токенов на секунду звука. То есть минута записи — примерно 1 900 входных токенов, час — около 115 тысяч.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Сервисная комиссия 5%&lt;/strong&gt; берётся отдельно — только при пополнении баланса, не от токенов. На сам объём расшифровки наценки нет; 5% — это плата за работу сервиса, эквайринг и поддержку, разовая при пополнении.&lt;/li&gt;
&lt;li&gt;Все цифры — из каталога на дату публикации; актуальные значения всегда на странице тарифов.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Грубый расчёт для интуиции. Часовая встреча — это около 115K входных токенов аудио и, скажем, 12K токенов текстовой расшифровки на выходе. На Gemini 3.1 Pro расшифровка обойдётся примерно в 16 ₽ за вход и около 10 ₽ за выход — порядка &lt;strong&gt;25-30 ₽ за час записи&lt;/strong&gt;. Постобработка готовой расшифровки в протокол на дешёвой модели вроде DeepSeek — это ещё единицы рублей. Итого расшифровка часового совещания с готовым протоколом — в районе &lt;strong&gt;30-40 ₽&lt;/strong&gt;. Для сравнения: ручная расшифровка часа записи у фрилансера — это обычно несколько сотен, а то и тысяч рублей и день ожидания.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4nrw6rnv771fs694mnob.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4nrw6rnv771fs694mnob.png" alt="Горизонтальная столбчатая диаграмма «Сколько стоит расшифровать 1 час записи»: столбец «Gemini 3.1 Pro расшифровка — около 26 ₽» (терракотовый), столбец «плюс протокол на DeepSeek — единицы рублей», выноска «итого ~30-40 ₽ за час», заголовок и подписи на русском" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Сценарии: где расшифровка аудио в текст окупается
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Совещания и созвоны
&lt;/h3&gt;

&lt;p&gt;Самый частый сценарий. Запись звонка в Zoom, Telegram или на диктофон отправляется в Gemini, на выходе — расшифровка, а затем протокол с решениями и задачами. Команде не нужно держать отдельного секретаря, а участники, которые пропустили встречу, читают выжимку за минуту вместо часа аудио. Ключевое требование — структура «решили / задачи», поэтому постобработку стоит настроить под формат протокола вашей компании.&lt;/p&gt;

&lt;h3&gt;
  
  
  Подкасты и видео
&lt;/h3&gt;

&lt;p&gt;Расшифровка эпизода нужна для субтитров, текстовой версии на сайте (это ещё и плюс к SEO — поисковики индексируют текст, а не звук) и нарезки цитат для соцсетей. Дорожку из видео достаём через &lt;code&gt;ffmpeg&lt;/code&gt;, отправляем в Gemini, получаем текст, а затем просим LLM выделить самые «цитатные» куски и заголовки для клипов. Часовой подкаст превращается в готовый к публикации текст за минуты.&lt;/p&gt;

&lt;h3&gt;
  
  
  Интервью и исследования
&lt;/h3&gt;

&lt;p&gt;Глубинные интервью, опросы пользователей, экспертные беседы. Здесь расшифровка — только начало: дальше LLM помогает свести десяток интервью в общие выводы, найти повторяющиеся темы и боли. Для дословной расшифровки берут Gemini с низкой температурой, для анализа массива — модель с длинным контекстом, чтобы все интервью поместились в один запрос.&lt;/p&gt;

&lt;h3&gt;
  
  
  Колл-центр и поддержка
&lt;/h3&gt;

&lt;p&gt;Записи разговоров с клиентами расшифровываются и анализируются на тон, причины обращений, частые проблемы. На потоке тысяч звонков в день имеет смысл оценить и специализированный STT (которого у нас в каталоге нет), но связка «Gemini расшифровывает выборку → LLM классифицирует обращения и считает статистику» работает через наш API и хорошо подходит для аналитики качества и обучения операторов.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnlrsts8h3drdchp17cso.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnlrsts8h3drdchp17cso.png" alt="Инфографика из четырёх карточек «Где окупается расшифровка»: «Совещания — протокол с задачами», «Подкасты и видео — субтитры и текст на сайт», «Интервью — сведение выводов», «Колл-центр — анализ обращений», каждая с короткой подписью, на русском" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Оплата расшифровки на юрлицо в рублях
&lt;/h2&gt;

&lt;p&gt;Если транскрибация нужна команде или компании, важен не только сам API, но и то, как за него платить. Прямая оплата Google из России для юрлица упирается в две проблемы: сервис не работает с российскими картами и реквизитами, а платёж за рубеж без правильно оформленных документов сложно принять к учёту.&lt;/p&gt;

&lt;p&gt;Через Promptra расшифровка оплачивается на российское юрлицо — оплата в рублях по договору, полный пакет закрывающих документов. На каждое пополнение баланса выдаётся договор-оферта, счёт, акт, счёт-фактура и УПД; документооборот ведётся через ЭДО (Диадок, СБИС), и документы автоматически попадают в учётную систему. Расходы на API корректно учитываются как услуги, без серых схем с возмещением сотруднику. Цены на токены — 1-в-1 с провайдером по курсу ЦБ, сервисная комиссия 5% удерживается только при пополнении баланса. Это не обход блокировок и работает без VPN: вы делаете запрос на российский endpoint и платите рублёвой платёжкой. Подробно про документы и легальность — в посте &lt;a href="https://promptra.ru/blog/legalno-li-ai-api-yurlico" rel="noopener noreferrer"&gt;легально ли использовать AI API на юрлицо&lt;/a&gt;.&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;Promptra&lt;/strong&gt; — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.&lt;/p&gt;

&lt;p&gt;Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.&lt;/p&gt;

&lt;p&gt;Try: &lt;a href="https://promptra.ru" rel="noopener noreferrer"&gt;promptra.ru&lt;/a&gt; · &lt;a href="https://promptra.ru/models" rel="noopener noreferrer"&gt;model catalog&lt;/a&gt; · &lt;a href="https://promptra.ru/docs" rel="noopener noreferrer"&gt;docs&lt;/a&gt;&lt;/p&gt;

</description>
      <category>api</category>
      <category>llm</category>
    </item>
    <item>
      <title>Миграция с OpenAI API на Promptra на Python: пошаговая инструкция за 10 минут</title>
      <dc:creator>Promptra Team</dc:creator>
      <pubDate>Mon, 01 Jun 2026 19:17:47 +0000</pubDate>
      <link>https://dev.to/promptra-team/mighratsiia-s-openai-api-na-promptra-na-python-poshaghovaia-instruktsiia-za-10-minut-j1p</link>
      <guid>https://dev.to/promptra-team/mighratsiia-s-openai-api-na-promptra-na-python-poshaghovaia-instruktsiia-za-10-minut-j1p</guid>
      <description>&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fmoyvu00k3qdf1iwyvr5l.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fmoyvu00k3qdf1iwyvr5l.png" alt="Пошаговая схема миграции openai sdk на промтра за десять минут: два кодовых блока — до и после правки api_key и base_url, стрелка-таймер с делениями по минутам, иконки Claude, Gemini, DeepSeek и GPT, плоский векторный стиль" width="800" height="533"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Если у вас на Python уже работает интеграция с OpenAI API, миграция на &lt;a href="https://promptra.ru" rel="noopener noreferrer"&gt;Promptra&lt;/a&gt; — это &lt;strong&gt;правка двух строк: &lt;code&gt;api_key&lt;/code&gt; и &lt;code&gt;base_url&lt;/code&gt;&lt;/strong&gt;. Через 10 минут вы получаете тот же &lt;code&gt;openai.OpenAI&lt;/code&gt; клиент, но с доступом к Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4 Pro и ещё 30+ моделей за рубли по курсу ЦБ, с оплатой на юр.лицо российское юр.лицо и полным пакетом закрывающих документов через ЭДО. Зарубежная карта, VPN и иностранный аккаунт не нужны — это легальный B2B-сервис в России.&lt;/p&gt;

&lt;p&gt;В этой инструкции — пошаговый план миграции на конкретном Python-коде, чек-лист до и после, разбор типовых ошибок (старые SDK, захардкоженные поля ответа, разница между моделями) и финальная проверка через &lt;code&gt;usage&lt;/code&gt;, чтобы убедиться, что стоимость запроса считается корректно. Все числа — на 2026-05-31.&lt;/p&gt;

&lt;h2&gt;
  
  
  TL;DR — миграция за 10 минут
&lt;/h2&gt;

&lt;p&gt;Что меняется в коде:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="c1"&gt;# Было — OpenAI напрямую
&lt;/span&gt;&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;sk-openai-...&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="c1"&gt;# Стало — через Promptra
&lt;/span&gt;&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;sk-promptra-...&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;base_url&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;https://api.promptra.ru/v1&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Что меняется в окружении: получаете ключ Promptra в дашборде, кладёте его в &lt;code&gt;.env&lt;/code&gt;, пополняете баланс на юр.лицо по счёту. Что НЕ меняется: пакет &lt;code&gt;openai&lt;/code&gt; остаётся, импорты, методы, формат сообщений, &lt;code&gt;tools&lt;/code&gt;, &lt;code&gt;stream&lt;/code&gt;, &lt;code&gt;response_format&lt;/code&gt;. Всё совместимо.&lt;/p&gt;

&lt;h2&gt;
  
  
  Шаг 1. Получаем ключ и пополняем баланс
&lt;/h2&gt;

&lt;p&gt;Регистрация в Promptra — почта плюс номер телефона, без обязательной привязки карты. Сразу после подтверждения вы попадаете в дашборд, где видны три блока: ключи, баланс и каталог моделей. На каждом ключе можно выставить лимит расхода в рублях и список разрешённых моделей — это полезно, когда команда большая, и вы хотите изолировать staging от продакшена.&lt;/p&gt;

&lt;p&gt;Пополнение баланса — это обычный счёт на оплату от юр.лица. Заполняете реквизиты компании (ИНН, КПП, название), получаете счёт PDF, оплачиваете рублёвой платёжкой со своего расчётного счёта. Деньги падают на баланс в течение нескольких часов в рабочее время. По факту оказания услуг формируется акт, счёт-фактура и УПД — отправляются через ЭДО (Диадок, СБИС, Контур). Сервисная комиссия 5% берётся только при пополнении, на токены наценки нет — это принципиальное отличие от реселлеров с маржой 30–300% поверх каждого запроса.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fcx4wh13i76vh9j6ufbpr.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fcx4wh13i76vh9j6ufbpr.png" alt="Схема пополнения баланса юр.лицом: дашборд с балансом в рублях, счёт PDF, банковская платёжка, ЭДО Диадок-СБИС-Контур, закрывающие документы — акт, счёт-фактура, УПД; чистая инфографика без логотипов" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Минимальное пополнение — 1000 ₽, и этого реально хватает на десятки тысяч запросов на дешёвых моделях вроде DeepSeek V4 Pro (30/60 ₽ за 1M) или на сотни сложных вызовов на флагманах. Для пилота 3000–5000 ₽ — достаточно, чтобы прогнать все ваши промты, замерить стоимость одного полезного результата и принять решение о масштабировании.&lt;/p&gt;

&lt;h2&gt;
  
  
  Шаг 2. Готовим окружение Python
&lt;/h2&gt;

&lt;p&gt;Если у вас уже стоит пакет &lt;code&gt;openai&lt;/code&gt; свежей версии — ничего ставить не надо. Если нет:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;pip &lt;span class="nb"&gt;install&lt;/span&gt; &lt;span class="nt"&gt;--upgrade&lt;/span&gt; openai&amp;gt;&lt;span class="o"&gt;=&lt;/span&gt;1.50.0 python-dotenv
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Свежий &lt;code&gt;openai&lt;/code&gt; нужен, потому что &lt;code&gt;base_url&lt;/code&gt; нормально поддерживается с 1.x. Старые версии (например, &lt;code&gt;openai==0.28&lt;/code&gt;) использовали глобальные настройки и другой стиль вызова, и они не работают через Promptra корректно. Если у вас старый код — сначала мигрируйте с &lt;code&gt;openai 0.28&lt;/code&gt; на &lt;code&gt;openai 1.x&lt;/code&gt; по официальному &lt;a href="https://github.com/openai/openai-python/discussions/742" rel="noopener noreferrer"&gt;migration guide OpenAI&lt;/a&gt;, и только потом меняйте &lt;code&gt;base_url&lt;/code&gt;. Это две разные миграции, лучше не смешивать.&lt;/p&gt;

&lt;p&gt;&lt;code&gt;.env&lt;/code&gt; файл — стандартный паттерн:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight properties"&gt;&lt;code&gt;&lt;span class="py"&gt;PROMPTRA_API_KEY&lt;/span&gt;&lt;span class="p"&gt;=&lt;/span&gt;&lt;span class="s"&gt;sk-promptra-xxxxxxxxxxxxxxxxxxxxxxxx&lt;/span&gt;
&lt;span class="py"&gt;PROMPTRA_BASE_URL&lt;/span&gt;&lt;span class="p"&gt;=&lt;/span&gt;&lt;span class="s"&gt;https://api.promptra.ru/v1&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Никогда не коммитьте &lt;code&gt;.env&lt;/code&gt; в репозиторий — добавьте его в &lt;code&gt;.gitignore&lt;/code&gt; и распространяйте через защищённый канал (1Password, Vaultwarden, секреты CI). Для прод-сервиса используйте секрет-менеджер своего облака — Yandex Lockbox, AWS Secrets Manager и так далее. Подробнее про правильную работу с ключами — в гайде &lt;a href="https://promptra.ru/blog/claude-vs-chatgpt" rel="noopener noreferrer"&gt;«ChatGPT и Claude API в России: безопасное подключение»&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Шаг 3. Меняем код
&lt;/h2&gt;

&lt;p&gt;Берём типичный пример — функцию вызова чата. Было на OpenAI:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;os&lt;/span&gt;
&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;
&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;dotenv&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;load_dotenv&lt;/span&gt;

&lt;span class="n"&gt;load_dotenv&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;os&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;environ&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;OPENAI_API_KEY&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;])&lt;/span&gt;

&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;prompt&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gpt-5-5&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="o"&gt;-&amp;gt;&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
    &lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
        &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;
            &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;system&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Ты — полезный ассистент.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
            &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;prompt&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
        &lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="p"&gt;)&lt;/span&gt;
    &lt;span class="k"&gt;return&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Стало на Promptra:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;os&lt;/span&gt;
&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;
&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;dotenv&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;load_dotenv&lt;/span&gt;

&lt;span class="n"&gt;load_dotenv&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;os&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;environ&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;PROMPTRA_API_KEY&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="n"&gt;base_url&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;os&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;environ&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;PROMPTRA_BASE_URL&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;prompt&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-sonnet-4-6&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="o"&gt;-&amp;gt;&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
    &lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
        &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;
            &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;system&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Ты — полезный ассистент.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
            &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;prompt&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
        &lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="p"&gt;)&lt;/span&gt;
    &lt;span class="k"&gt;return&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Изменений ровно три:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;В конструктор клиента добавлен &lt;code&gt;base_url&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Имя переменной окружения сменилось с &lt;code&gt;OPENAI_API_KEY&lt;/code&gt; на &lt;code&gt;PROMPTRA_API_KEY&lt;/code&gt; (по желанию — можно оставить старое имя, главное, чтобы значение было ключом Promptra).&lt;/li&gt;
&lt;li&gt;Дефолтная модель сменилась на &lt;code&gt;claude-sonnet-4-6&lt;/code&gt; — это самый универсальный дефолт по соотношению цена/качество. Если вам важна совместимость с прежним поведением — оставьте &lt;code&gt;gpt-5-5&lt;/code&gt;, тогда вы фактически продолжите использовать модель того же класса.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Тело функции, формат сообщений, доступ к &lt;code&gt;response.choices[0].message.content&lt;/code&gt; — без изменений. Этот код запускается ровно так же, как и до миграции.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fpc6fjxewxt4577b9qy2p.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fpc6fjxewxt4577b9qy2p.png" alt="Сравнение двух блоков кода — до и после миграции — со стрелочкой и пометками на изменённых строках: base_url, api_key из переменной окружения, новое имя модели; редакторская подача с подсветкой синтаксиса в кремовой и терракотовой палитре" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Шаг 4. Прогон dry-run и проверка usage
&lt;/h2&gt;

&lt;p&gt;После правки кода первый запуск — это короткий тестовый промт, на котором вы убеждаетесь, что всё работает и стоимость считается так, как вы ожидаете. Добавляем в код печать &lt;code&gt;usage&lt;/code&gt;:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-sonnet-4-6&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Скажи &lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;тест пройден&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt; одним предложением.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Ответ:&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Токенов на вход:&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;prompt_tokens&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Токенов на выход:&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completion_tokens&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Всего:&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;total_tokens&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Ожидаемый результат — короткий ответ модели и три числа: &lt;code&gt;prompt_tokens&lt;/code&gt;, &lt;code&gt;completion_tokens&lt;/code&gt;, &lt;code&gt;total_tokens&lt;/code&gt;. Если поле &lt;code&gt;usage&lt;/code&gt; пустое или вызов падает с ошибкой — смотрите раздел про типовые ошибки ниже.&lt;/p&gt;

&lt;p&gt;Считаем стоимость одного запроса. Для Claude Sonnet 4.6 (210 ₽ за 1M input, 1070 ₽ за 1M output):&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;PRICES&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-sonnet-4-6&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;210&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;1070&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;   &lt;span class="c1"&gt;# руб. за 1M токенов
&lt;/span&gt;    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-opus-4-7&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;   &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;350&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;1790&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gpt-5-5&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;           &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;350&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;2150&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gpt-5-4&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;           &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;170&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;1070&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gemini-3-1-pro&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;    &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;140&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;860&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gemini-3-5-flash&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;  &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;100&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;640&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;deepseek-v4-pro&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;   &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;30&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;  &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;60&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;qwen-3-6-plus&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;     &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;20&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;  &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;130&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
&lt;span class="p"&gt;}&lt;/span&gt;

&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;cost_rub&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="o"&gt;-&amp;gt;&lt;/span&gt; &lt;span class="nb"&gt;float&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
    &lt;span class="n"&gt;p&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;PRICES&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="p"&gt;]&lt;/span&gt;
    &lt;span class="nf"&gt;return &lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;prompt_tokens&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="n"&gt;p&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;in&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;]&lt;/span&gt; &lt;span class="o"&gt;+&lt;/span&gt; &lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completion_tokens&lt;/span&gt; &lt;span class="o"&gt;*&lt;/span&gt; &lt;span class="n"&gt;p&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;out&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;])&lt;/span&gt; &lt;span class="o"&gt;/&lt;/span&gt; &lt;span class="mi"&gt;1_000_000&lt;/span&gt;

&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sa"&gt;f&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Стоимость запроса: &lt;/span&gt;&lt;span class="si"&gt;{&lt;/span&gt;&lt;span class="nf"&gt;cost_rub&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;usage&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;claude-sonnet-4-6&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="si"&gt;:&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="mi"&gt;4&lt;/span&gt;&lt;span class="n"&gt;f&lt;/span&gt;&lt;span class="si"&gt;}&lt;/span&gt;&lt;span class="s"&gt; ₽&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;На реальном продакшен-пайплайне эту функцию полезно вызывать после каждого запроса и логировать в Метрику или Prometheus — так вы видите фактический счёт в реальном времени и можете срабатывать алерты по аномалиям. Подробнее про правильный учёт расходов — в материале &lt;a href="https://promptra.ru/blog/stoimost-generatsii-teksta-neyroset" rel="noopener noreferrer"&gt;«Стоимость генерации текста через нейросеть»&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Шаг 5. Маршрутизация между моделями
&lt;/h2&gt;

&lt;p&gt;Главная выгода Promptra — у вас за одним endpoint лежат все основные модели рынка. Это значит, что вместо жёсткой привязки кода к одной модели вы можете маршрутизировать запросы по типу задачи:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;pick_model&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;task&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="o"&gt;-&amp;gt;&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
    &lt;span class="k"&gt;return&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;hard_code&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;     &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-opus-4-7&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;   &lt;span class="c1"&gt;# сложный код, агенты — 350/1790 ₽
&lt;/span&gt;        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;long_reason&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;   &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-opus-4-7&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;   &lt;span class="c1"&gt;# многошаговое рассуждение
&lt;/span&gt;        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;general_chat&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;  &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-sonnet-4-6&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="c1"&gt;# типовой чат — 210/1070 ₽
&lt;/span&gt;        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;rag&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;           &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-sonnet-4-6&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="c1"&gt;# RAG с длинным контекстом
&lt;/span&gt;        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;multimodal&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gpt-5-5&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;           &lt;span class="c1"&gt;# картинки, multimodal — 350/2150 ₽
&lt;/span&gt;        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;classify&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;      &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gemini-3-5-flash&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;  &lt;span class="c1"&gt;# классификация — 100/640 ₽
&lt;/span&gt;        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;mass_gen&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;      &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;deepseek-v4-pro&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;   &lt;span class="c1"&gt;# массовая генерация — 30/60 ₽
&lt;/span&gt;        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;translate&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;     &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;qwen-3-6-plus&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;     &lt;span class="c1"&gt;# перевод — 20/130 ₽
&lt;/span&gt;    &lt;span class="p"&gt;}.&lt;/span&gt;&lt;span class="nf"&gt;get&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;task&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-sonnet-4-6&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;          &lt;span class="c1"&gt;# дефолт — Sonnet, не Opus
&lt;/span&gt;
&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;smart_chat&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;prompt&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;task&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="o"&gt;-&amp;gt;&lt;/span&gt; &lt;span class="nb"&gt;str&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
    &lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
        &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="nf"&gt;pick_model&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;task&lt;/span&gt;&lt;span class="p"&gt;),&lt;/span&gt;
        &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;prompt&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
    &lt;span class="p"&gt;)&lt;/span&gt;
    &lt;span class="k"&gt;return&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Дефолт здесь — &lt;code&gt;claude-sonnet-4-6&lt;/code&gt;, а не Opus: переключаться на флагман нужно осознанно, под конкретный класс задач, а не «на всякий случай». Разбор того, как выбирать модель по соотношению цена/качество — в гайде &lt;a href="https://promptra.ru/blog/luchshaya-neyroset-2026" rel="noopener noreferrer"&gt;«Лучшая нейросеть 2026»&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fj2c6jrigkm8bccagjb12.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fj2c6jrigkm8bccagjb12.png" alt="Карта маршрутизации запросов: восемь типов задач направляются в четыре класса моделей — флагманы, рабочие, экономичные, специализированные — единый endpoint Promptra в центре; нарративная схема потоков" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Типовые ошибки и как их пофиксить
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Ошибка 1: «openai.AuthenticationError: Invalid API key».&lt;/strong&gt; Проверьте, что в &lt;code&gt;base_url&lt;/code&gt; указан именно &lt;code&gt;https://api.promptra.ru/v1&lt;/code&gt;, а не базовый URL OpenAI. Ключ Promptra на эндпоинте OpenAI выдаст 401 — это самая частая первичная ошибка.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ошибка 2: «model_not_found».&lt;/strong&gt; Имя модели должно быть из каталога Promptra: &lt;code&gt;claude-opus-4-7&lt;/code&gt;, &lt;code&gt;claude-sonnet-4-6&lt;/code&gt;, &lt;code&gt;gpt-5-5&lt;/code&gt;, &lt;code&gt;gpt-5-4&lt;/code&gt;, &lt;code&gt;gemini-3-1-pro&lt;/code&gt;, &lt;code&gt;gemini-3-5-flash&lt;/code&gt;, &lt;code&gt;deepseek-v4-pro&lt;/code&gt;, &lt;code&gt;qwen-3-6-plus&lt;/code&gt;. Если в коде осталось старое имя вроде &lt;code&gt;gpt-4-turbo&lt;/code&gt; или &lt;code&gt;gpt-4o&lt;/code&gt; — модели уже не существует, замените её на актуальную из таблицы цен.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ошибка 3: захардкоженные специфичные поля ответа.&lt;/strong&gt; Если у вас в коде есть прямые обращения вроде &lt;code&gt;response.choices[0].logprobs.tokens&lt;/code&gt; или к internal-полям ответа OpenAI, которые не входят в стандартный совместимый протокол — они могут отсутствовать на Claude или Gemini. Это лечится прокидыванием параметров через &lt;code&gt;extra_body&lt;/code&gt; или переписыванием участка на стандартные совместимые поля.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ошибка 4: использование старого пакета &lt;code&gt;openai==0.28&lt;/code&gt;.&lt;/strong&gt; Этот пакет использует глобальные настройки (&lt;code&gt;openai.api_key&lt;/code&gt;, &lt;code&gt;openai.api_base&lt;/code&gt;) и старые методы (&lt;code&gt;openai.ChatCompletion.create&lt;/code&gt;). Сначала мигрируйте на современный &lt;code&gt;openai &amp;gt;= 1.x&lt;/code&gt; по официальному &lt;a href="https://github.com/openai/openai-python/discussions/742" rel="noopener noreferrer"&gt;гайду миграции OpenAI&lt;/a&gt;, потом меняйте &lt;code&gt;base_url&lt;/code&gt;. Старый стиль работает, но это переходный мостик, который надо снимать.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ошибка 5: &lt;code&gt;Timeout&lt;/code&gt; на длинных reasoning-вызовах.&lt;/strong&gt; Если задаёте большой &lt;code&gt;max_tokens&lt;/code&gt; или используете Opus 4.7 с длинным контекстом — клиент по умолчанию может закрыть соединение раньше, чем модель закончит. Поднимите timeout явно:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;os&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;environ&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;PROMPTRA_API_KEY&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="n"&gt;base_url&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;os&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;environ&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;PROMPTRA_BASE_URL&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
    &lt;span class="n"&gt;timeout&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mf"&gt;300.0&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;   &lt;span class="c1"&gt;# 5 минут на длинные ответы
&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Ошибка 6: VPN включён.&lt;/strong&gt; Если у вас на разработческой машине постоянно работает VPN — выключите его на время теста. Promptra работает напрямую из России без VPN, и иногда VPN-маршрут добавляет задержку или ломает SSL-валидацию. Это легальный B2B-сервис, ничего «обходить» не нужно.&lt;/p&gt;

&lt;h2&gt;
  
  
  Шаг 6. Streaming, tools, structured outputs
&lt;/h2&gt;

&lt;p&gt;После базовой миграции работают все продвинутые возможности OpenAI-совместимого протокола. Стриминг ответа:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;stream&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-sonnet-4-6&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Расскажи про шесть категорий бизнес-задач для LLM.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
    &lt;span class="n"&gt;stream&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="k"&gt;for&lt;/span&gt; &lt;span class="n"&gt;chunk&lt;/span&gt; &lt;span class="ow"&gt;in&lt;/span&gt; &lt;span class="n"&gt;stream&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
    &lt;span class="n"&gt;delta&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;chunk&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;delta&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;
    &lt;span class="k"&gt;if&lt;/span&gt; &lt;span class="n"&gt;delta&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
        &lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;delta&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;end&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;""&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;flush&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="bp"&gt;True&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Tool calling (function calling) — работает на Claude и GPT через тот же интерфейс:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;tools&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="p"&gt;[{&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;function&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;function&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;get_weather&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;description&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Узнать погоду в городе&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;parameters&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;object&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;properties&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;city&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;string&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}},&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;required&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;city&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
        &lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="p"&gt;},&lt;/span&gt;
&lt;span class="p"&gt;}]&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;claude-opus-4-7&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Какая погода в Москве?&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
    &lt;span class="n"&gt;tools&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;tools&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;tool_choice&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;auto&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="k"&gt;for&lt;/span&gt; &lt;span class="n"&gt;call&lt;/span&gt; &lt;span class="ow"&gt;in&lt;/span&gt; &lt;span class="n"&gt;response&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;tool_calls&lt;/span&gt; &lt;span class="ow"&gt;or&lt;/span&gt; &lt;span class="p"&gt;[]:&lt;/span&gt;
    &lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Вызов инструмента:&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;call&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;function&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;name&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;call&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;function&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;arguments&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Structured outputs через JSON schema:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;gpt-5-5&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Извлеки имя и возраст из текста: &lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;Алексей, 32 года&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;.&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
    &lt;span class="n"&gt;response_format&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;{&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;json_schema&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;json_schema&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;person&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;schema&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;object&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;properties&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
                    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;string&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
                    &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;age&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;integer&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;},&lt;/span&gt;
                &lt;span class="p"&gt;},&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;required&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;name&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;age&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
            &lt;span class="p"&gt;},&lt;/span&gt;
        &lt;span class="p"&gt;},&lt;/span&gt;
    &lt;span class="p"&gt;},&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Все три фичи — это стандартный OpenAI-совместимый протокол, и Promptra прокидывает их в нижележащие модели. Подробности по моделям — на странице &lt;a href="https://promptra.ru/api/claude" rel="noopener noreferrer"&gt;Claude API за рубли&lt;/a&gt; и в каталоге.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F0y2rdxe544n8fq7q4kvr.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F0y2rdxe544n8fq7q4kvr.png" alt="Три блока кода рядом: streaming с постепенной отдачей токенов, tool calling с вызовом get_weather, structured outputs с JSON schema person — единая стилистика, подписи на русском, без декоративных элементов" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Чек-лист миграции
&lt;/h2&gt;

&lt;p&gt;Перед тем как сказать «готово», пройдите по списку:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Установлен &lt;code&gt;openai &amp;gt;= 1.50.0&lt;/code&gt;, старого &lt;code&gt;openai==0.28&lt;/code&gt; в зависимостях нет.&lt;/li&gt;
&lt;li&gt;В коде клиента задан &lt;code&gt;base_url="https://api.promptra.ru/v1"&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Ключ Promptra лежит в &lt;code&gt;.env&lt;/code&gt; и не закоммичен в репозиторий.&lt;/li&gt;
&lt;li&gt;На тестовом промте &lt;code&gt;usage.prompt_tokens&lt;/code&gt; и &lt;code&gt;usage.completion_tokens&lt;/code&gt; возвращаются корректно.&lt;/li&gt;
&lt;li&gt;Стоимость одного запроса посчитана по таблице цен и логируется.&lt;/li&gt;
&lt;li&gt;Имена моделей в коде — актуальные из каталога Promptra.&lt;/li&gt;
&lt;li&gt;Если используется tool calling — проверено на Opus 4.7 или GPT-5.5 (не на DeepSeek).&lt;/li&gt;
&lt;li&gt;Timeout клиента поднят до 300 секунд для длинных reasoning-вызовов.&lt;/li&gt;
&lt;li&gt;Прогнаны 100–500 реальных запросов с замером средней стоимости.&lt;/li&gt;
&lt;li&gt;Дашборд показывает расход в реальном времени и совпадает с локальной агрегацией.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;После этого можно выкатывать в продакшен. Подробнее про оплату и закрывающие документы для юрлица — в материале &lt;a href="https://promptra.ru/blog/legalno-li-ai-api-yurlico" rel="noopener noreferrer"&gt;«Легально ли использовать OpenAI/Claude на юрлицо в РФ»&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Оплата и закрывающие документы
&lt;/h2&gt;

&lt;p&gt;Юрлицо-исполнитель — &lt;strong&gt;российское юр.лицо&lt;/strong&gt; , резидент РФ. После пополнения баланса вы получаете полный пакет закрывающих документов через ЭДО:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Договор-оферта&lt;/strong&gt; — публичный, на сайте Promptra.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Счёт на оплату&lt;/strong&gt; — формируется в дашборде, после ввода реквизитов компании.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Акт оказанных услуг, счёт-фактура, УПД&lt;/strong&gt; — по факту, ежемесячно.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;ЭДО&lt;/strong&gt; — Диадок, СБИС, Контур по запросу.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Это договор с российским контрагентом, валютный контроль для него не требуется. Расходы на API ложатся в учёт целиком. Подробнее про правовую сторону работы с зарубежными LLM на юрлицо — в &lt;a href="https://promptra.ru/pricing" rel="noopener noreferrer"&gt;официальной странице оплаты&lt;/a&gt; и в &lt;a href="https://promptra.ru/blog/legalno-li-ai-api-yurlico" rel="noopener noreferrer"&gt;гайде про легальность&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Что дальше
&lt;/h2&gt;

&lt;p&gt;Если коротко: миграция с OpenAI на Promptra на Python — это &lt;strong&gt;смена двух строк в коде и пополнение баланса на юр.лицо&lt;/strong&gt;. Через 10 минут у вас тот же &lt;code&gt;openai.OpenAI&lt;/code&gt; клиент, но с доступом к Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro и ещё 30+ моделей за рубли по курсу ЦБ, без наценки на токены, с закрывающими документами через ЭДО.&lt;/p&gt;

&lt;p&gt;Полезные следующие шаги: разбор моделей по задаче — &lt;a href="https://promptra.ru/blog/luchshaya-neyroset-2026" rel="noopener noreferrer"&gt;«Лучшая нейросеть 2026»&lt;/a&gt;; сравнение флагманов в кошельке — &lt;a href="https://promptra.ru/blog/claude-opus-4-7-api-rubli" rel="noopener noreferrer"&gt;«Claude Opus 4.7 API за рубли»&lt;/a&gt;; подключение Claude Code и Cursor с тем же ключом — &lt;a href="https://promptra.ru/blog/claude-code-rossiya-api-klyuch" rel="noopener noreferrer"&gt;«Claude Code в России»&lt;/a&gt;. А если нужно прикинуть стоимость на вашем трафике, выбрать модель под пайплайн или оформить договор на юр.лицо — &lt;a href="https://promptra.ru" rel="noopener noreferrer"&gt;напишите команде Promptra в Telegram&lt;/a&gt;. Технические вопросы там решаются за один разговор.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;📚 &lt;strong&gt;Главный гайд по теме:&lt;/strong&gt; &lt;a href="https://promptra.ru/blog/luchshaya-neyroset-2026/" rel="noopener noreferrer"&gt;Лучшая нейросеть 2026: какую LLM выбрать под задачу&lt;/a&gt; — связанные материалы и обзор всей категории.&lt;/p&gt;
&lt;/blockquote&gt;




&lt;p&gt;&lt;strong&gt;Promptra&lt;/strong&gt; — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.&lt;/p&gt;

&lt;p&gt;Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.&lt;/p&gt;

&lt;p&gt;Try: &lt;a href="https://promptra.ru" rel="noopener noreferrer"&gt;promptra.ru&lt;/a&gt; · &lt;a href="https://promptra.ru/models" rel="noopener noreferrer"&gt;model catalog&lt;/a&gt; · &lt;a href="https://promptra.ru/docs" rel="noopener noreferrer"&gt;docs&lt;/a&gt;&lt;/p&gt;

</description>
      <category>openai</category>
      <category>python</category>
      <category>sdk</category>
      <category>promptra</category>
    </item>
    <item>
      <title>Цены LLM API в 2026: точные тарифы Claude, GPT, Gemini в рублях</title>
      <dc:creator>Promptra Team</dc:creator>
      <pubDate>Mon, 01 Jun 2026 19:17:42 +0000</pubDate>
      <link>https://dev.to/promptra-team/tsieny-llm-api-v-2026-tochnyie-tarify-claude-gpt-gemini-v-rubliakh-h1n</link>
      <guid>https://dev.to/promptra-team/tsieny-llm-api-v-2026-tochnyie-tarify-claude-gpt-gemini-v-rubliakh-h1n</guid>
      <description>&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F5m42hvcwzwey4z6k9i96.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F5m42hvcwzwey4z6k9i96.png" alt="Сравнительная инфографика цен llm в 2026: восемь моделей расположены по двум осям input и output в рублях за миллион токенов, видна стоимость chatgpt в рублях на горизонтальной шкале, плоский векторный стиль" width="800" height="533"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;К концу 2026 года рынок LLM API устаканился: каждая большая модель имеет публичный прайс, цены деноминируются в долларах за миллион токенов, и &lt;strong&gt;разница между самой дешёвой и самой дорогой моделью каталога — около 60-кратная&lt;/strong&gt; (от Qwen 3.6 Plus с 20 ₽ за 1M input до Claude Opus 4.7 fast mode с 2150 ₽ за тот же объём). Через &lt;a href="https://promptra.ru" rel="noopener noreferrer"&gt;Promptra&lt;/a&gt; все эти модели доступны за рубли по курсу ЦБ 71,668 ₽/$ на 2026-05-27, без наценки на токены, с оплатой на юр.лицо российское юр.лицо и пакетом закрывающих документов через ЭДО.&lt;/p&gt;

&lt;p&gt;В этом материале — таблица цен на 8 ключевых моделей с округлением до 10 ₽ вниз, разбор того, почему output дороже input, как считать «настоящую» стоимость с учётом нюансов токенайзера и контекста, и три практических сценария бюджетирования (чат-бот, code copilot, RAG-агент) с реальным месячным счётом.&lt;/p&gt;

&lt;h2&gt;
  
  
  TL;DR: точные тарифы на 2026-05-31
&lt;/h2&gt;

&lt;p&gt;Цены за 1M токенов в рублях по курсу ЦБ 71,668 ₽/$, без наценки:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Input ₽/1M&lt;/th&gt;
&lt;th&gt;Output ₽/1M&lt;/th&gt;
&lt;th&gt;Контекст&lt;/th&gt;
&lt;th&gt;Профиль&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;350 ₽&lt;/td&gt;
&lt;td&gt;1790 ₽&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;флагман, сложный код, агенты&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;210 ₽&lt;/td&gt;
&lt;td&gt;1070 ₽&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;универсал, дефолт по цене/качеству&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;350 ₽&lt;/td&gt;
&lt;td&gt;2150 ₽&lt;/td&gt;
&lt;td&gt;1,05M&lt;/td&gt;
&lt;td&gt;флагман OpenAI, multimodal&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;170 ₽&lt;/td&gt;
&lt;td&gt;1070 ₽&lt;/td&gt;
&lt;td&gt;1,05M&lt;/td&gt;
&lt;td&gt;универсал OpenAI&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.1 Pro&lt;/td&gt;
&lt;td&gt;140 ₽&lt;/td&gt;
&lt;td&gt;860 ₽&lt;/td&gt;
&lt;td&gt;2M&lt;/td&gt;
&lt;td&gt;длинный контекст, дешёвый универсал&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.5 Flash&lt;/td&gt;
&lt;td&gt;100 ₽&lt;/td&gt;
&lt;td&gt;640 ₽&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;быстрый, дешёвый Google&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V4 Pro&lt;/td&gt;
&lt;td&gt;30 ₽&lt;/td&gt;
&lt;td&gt;60 ₽&lt;/td&gt;
&lt;td&gt;128K&lt;/td&gt;
&lt;td&gt;массовая генерация&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;20 ₽&lt;/td&gt;
&lt;td&gt;130 ₽&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;максимально дешёвый базовый&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Разница на одном миллионе output: между Qwen 3.6 Plus и Claude Opus 4.7 — почти 14-кратная. Между самой дешёвой и стандартом Sonnet — 8-кратная. Это значит, что правильный выбор модели под задачу может снизить ваш месячный счёт в разы.&lt;/p&gt;

&lt;h2&gt;
  
  
  Как читать таблицу: input против output
&lt;/h2&gt;

&lt;p&gt;Главное, что нужно понять про цены LLM — &lt;strong&gt;input и output тарифицируются отдельно, и output почти всегда в 5–10 раз дороже&lt;/strong&gt;. Это потому что генерация одного токена требует значительно больше вычислений (полный проход через модель), чем чтение токена из промта.&lt;/p&gt;

&lt;p&gt;Что это значит на практике:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Задача с длинным промтом и коротким ответом&lt;/strong&gt; (RAG, классификация, извлечение полей): основная стоимость — на входе. Выбирайте модель с дешёвым input — например, Gemini 3.5 Flash (100 ₽) или DeepSeek V4 Pro (30 ₽).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Задача с коротким промтом и длинным ответом&lt;/strong&gt; (генерация статей, кода, переводов): основная стоимость — на выходе. Здесь output-цена решает: разница между 640 ₽ (Gemini Flash) и 2150 ₽ (GPT-5.5) на одном миллионе output — это +1510 ₽ за миллион сгенерированных токенов.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Сбалансированная задача&lt;/strong&gt; (чат, диалог, агенты): смотрите общую стоимость на типовом входе и выходе. Сравнение делается так: посчитайте среднее &lt;code&gt;prompt_tokens&lt;/code&gt; и &lt;code&gt;completion_tokens&lt;/code&gt; на ваших реальных запросах, умножьте на ставку каждой модели.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Формула фактической стоимости одного запроса:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;стоимость = (prompt_tokens × input_price + completion_tokens × output_price) / 1 000 000
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Эта формула работает для любой модели и любого профиля нагрузки. Поле &lt;code&gt;usage&lt;/code&gt; в ответе API возвращает точные числа &lt;code&gt;prompt_tokens&lt;/code&gt; и &lt;code&gt;completion_tokens&lt;/code&gt; — никаких прикидок не нужно.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fj37ys10ad57zk4iva9u1.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fj37ys10ad57zk4iva9u1.png" alt="Сравнение профилей нагрузки: три карточки задач — RAG с длинным входом и коротким выходом, генерация статей с коротким входом и длинным выходом, чат со сбалансированным input/output; над каждой формула расчёта стоимости" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Флагманы: Claude Opus 4.7, GPT-5.5
&lt;/h2&gt;

&lt;p&gt;Два главных флагмана 2026 года — Claude Opus 4.7 и GPT-5.5. Они близки по input (оба 350 ₽), но различаются на выходе: 1790 ₽ против 2150 ₽ за 1M output. На длинных генерациях это даёт ощутимую разницу.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Claude Opus 4.7 — 350 / 1790 ₽.&lt;/strong&gt; Официальный прайс Anthropic — $5/$25 по &lt;a href="https://www.anthropic.com/pricing" rel="noopener noreferrer"&gt;странице цен Anthropic&lt;/a&gt;. Контекст 1M токенов, максимальный ответ 128K. Профиль: сильнейший в сложном коде, длинных агентных циклах, многошаговом reasoning. Нюанс: новый токенайзер может расходовать до ~35% больше токенов на том же тексте — закладывайте множитель 1,2–1,35 в бюджет. Полный разбор — в &lt;a href="https://promptra.ru/blog/claude-opus-4-7-api-rubli" rel="noopener noreferrer"&gt;гайде по Claude Opus 4.7&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;GPT-5.5 — 350 / 2150 ₽.&lt;/strong&gt; Официальный прайс OpenAI — $5/$30, см. &lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;цены OpenAI&lt;/a&gt;. Контекст 1,05M, максимальный ответ 128K. Профиль: универсальный флагман, сильный multimodal, нативные tools. Нюанс цены: при входе свыше 272K токенов вся сессия пересчитывается по удвоенной входной и полуторной выходной ставке — это съедает экономию на очень длинных контекстах.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Когда какой брать.&lt;/strong&gt; Opus 4.7 — на сложном коде, агентах с длинными циклами, нетривиальной отладке. GPT-5.5 — когда нужен multimodal (картинки, диаграммы) или часть стека уже на OpenAI. Если задача укладывается в средний класс — берите Sonnet 4.6 (210/1070 ₽) и сэкономите примерно в 1,7–2 раза. Детальное сравнение этих двух флагманов — в &lt;a href="https://promptra.ru/blog/gpt-5-5-vs-claude-opus-4-7-benchmarki-2026" rel="noopener noreferrer"&gt;материале «GPT-5.5 против Claude Opus 4.7»&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;Стоимость одного типового запроса (8K вход, 4K выход — типовой code copilot):&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;На запрос&lt;/th&gt;
&lt;th&gt;На 1000 запросов в день&lt;/th&gt;
&lt;th&gt;За месяц (30 дней)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;≈ 9,96 ₽&lt;/td&gt;
&lt;td&gt;9 960 ₽/день&lt;/td&gt;
&lt;td&gt;≈ 299 000 ₽/мес&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;≈ 11,40 ₽&lt;/td&gt;
&lt;td&gt;11 400 ₽/день&lt;/td&gt;
&lt;td&gt;≈ 342 000 ₽/мес&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;≈ 5,96 ₽&lt;/td&gt;
&lt;td&gt;5 960 ₽/день&lt;/td&gt;
&lt;td&gt;≈ 179 000 ₽/мес&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Цифры округлены. Если 1000 запросов в день у вас закрывает Sonnet 4.6 — вы экономите 120 000–163 000 ₽/мес против флагманов. Поднимайтесь до Opus или GPT-5.5 только там, где видите, что среднего класса не хватает.&lt;/p&gt;

&lt;h2&gt;
  
  
  Рабочие модели: Claude Sonnet 4.6, GPT-5.4
&lt;/h2&gt;

&lt;p&gt;Это самый практически важный класс — модели, которые закрывают &lt;strong&gt;80% реальных задач&lt;/strong&gt; при цене в 1,5–2 раза ниже флагманов.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Claude Sonnet 4.6 — 210 / 1070 ₽.&lt;/strong&gt; Контекст 1M, ответ 128K. Универсальный дефолт для чата, RAG, типового кода, агентов средней сложности. Хороший русский, естественный стиль, длинный контекст без штрафов. Подробный разбор с кодом и расчётами — в &lt;a href="https://promptra.ru/blog/claude-sonnet-rubli" rel="noopener noreferrer"&gt;гайде «Claude Sonnet API за рубли»&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;GPT-5.4 — 170 / 1070 ₽.&lt;/strong&gt; Контекст 1,05M, ответ 128K. Дешевле Sonnet на входе (170 против 210 ₽), сопоставимо на выходе. Хорош для multimodal и нативного tool calling. Если в коде уже OpenAI SDK — это самый простой апгрейд через смену имени модели.&lt;/p&gt;

&lt;p&gt;На большинстве типовых задач разница между Sonnet 4.6 и GPT-5.4 в качестве — в пределах погрешности. Решает удобство экосистемы и привычки команды. На задачах с акцентом на русском языке Sonnet чаще выигрывает; на multimodal — GPT-5.4.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fye5oycv7688rey218qmy.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fye5oycv7688rey218qmy.png" alt="Две карточки моделей рядом — Claude Sonnet 4.6 и GPT-5.4 — с разбивкой по input/output, контексту, профилю; стрелочка между ними показывает, что выбор зависит от языка и multimodal требований" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Дешёвый универсал: Gemini 3.1 Pro и 3.5 Flash
&lt;/h2&gt;

&lt;p&gt;Google в 2026 году держит &lt;strong&gt;самую агрессивную ценовую политику среди крупных провайдеров&lt;/strong&gt;. Gemini 3.1 Pro стоит 140/860 ₽ — это в 2,5 раза дешевле Opus 4.7 на входе и почти в 2 раза дешевле на выходе при сопоставимом качестве на типовых задачах. Gemini 3.5 Flash — 100/640 ₽, ещё дешевле, при сохранении приличного reasoning.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gemini 3.1 Pro — 140 / 860 ₽.&lt;/strong&gt; Официальный прайс Google — $2/$12, см. &lt;a href="https://ai.google.dev/pricing" rel="noopener noreferrer"&gt;страницу цен Gemini API&lt;/a&gt;. Контекст 2M токенов — самый длинный в каталоге. Профиль: длинный контекст, multimodal (картинки, видео), хороший русский. Когда брать: задачи с очень длинным контекстом (анализ больших документов, multi-source RAG), multimodal-сценарии, бюджетный аналитический пайплайн.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gemini 3.5 Flash — 100 / 640 ₽.&lt;/strong&gt; Официальный прайс $1.4/$9. Контекст 1M, скорость выше Pro. Профиль: быстрая модель для интерактивных сценариев, классификация, простая суммаризация, чат на масштабе. Когда брать: чат-боты с тысячами одновременных сессий, ночные batch-пайплайны, быстрая прелюдия для маршрутизации в более тяжёлую модель.&lt;/p&gt;

&lt;p&gt;На сценарии «классификация 100 000 запросов в день» (1K вход, 0,2K выход — короткие классификации):&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;На запрос&lt;/th&gt;
&lt;th&gt;За день&lt;/th&gt;
&lt;th&gt;За месяц&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;≈ 0,78 ₽&lt;/td&gt;
&lt;td&gt;78 000 ₽&lt;/td&gt;
&lt;td&gt;≈ 2 340 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;≈ 0,42 ₽&lt;/td&gt;
&lt;td&gt;42 000 ₽&lt;/td&gt;
&lt;td&gt;≈ 1 260 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.5 Flash&lt;/td&gt;
&lt;td&gt;≈ 0,23 ₽&lt;/td&gt;
&lt;td&gt;23 000 ₽&lt;/td&gt;
&lt;td&gt;≈ 690 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V4 Pro&lt;/td&gt;
&lt;td&gt;≈ 0,04 ₽&lt;/td&gt;
&lt;td&gt;4 200 ₽&lt;/td&gt;
&lt;td&gt;≈ 126 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Разница огромная. Если задача — действительно классификация (а не «классификация с нюансами» или «классификация с reasoning»), вы экономите 2 миллиона рублей в месяц, выбрав DeepSeek V4 Pro вместо GPT-5.5. Правильная маршрутизация по задачам — главный рычаг экономии.&lt;/p&gt;

&lt;h2&gt;
  
  
  Бюджетные: DeepSeek V4 Pro и Qwen 3.6 Plus
&lt;/h2&gt;

&lt;p&gt;Это нижний ценовой ярус каталога — модели по 20–60 ₽ за миллион токенов. Их роль — &lt;strong&gt;закрывать массовые задачи, где качество флагмана не нужно&lt;/strong&gt;, но объём огромный.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;DeepSeek V4 Pro — 30 / 60 ₽.&lt;/strong&gt; Контекст 128K. Профиль: массовая генерация, простой код, классификация, перевод. Tool calling работает ограниченно — не везде, где у Claude/GPT, но базовые сценарии тянет. Когда брать: ночной batch-пайплайн, массовая разметка данных, генерация шаблонного текста. Полный разбор — в &lt;a href="https://promptra.ru/blog/deepseek-v4-pro-api-rubli" rel="noopener noreferrer"&gt;материале «DeepSeek V4 Pro API за рубли»&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Qwen 3.6 Plus — 20 / 130 ₽.&lt;/strong&gt; Контекст 1M. Профиль: ещё дешевле на входе, отличный русский, длинный контекст. На многих задачах показывает достойное качество за свою цену. Когда брать: суммаризация больших документов, поиск по корпусу, базовый чат без сложного reasoning.&lt;/p&gt;

&lt;p&gt;Здесь главный совет — не пытайтесь сэкономить «на всём». Reasoning, агенты, сложный код на этих моделях вас разочаруют. Но на простых массовых задачах они дают 10–20-кратную экономию против Sonnet/GPT-4.5, и это огромные деньги при больших объёмах.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fav8r1a9mu6fgoyr4x4z3.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fav8r1a9mu6fgoyr4x4z3.png" alt="Иерархическая пирамида моделей по цене: флагманы Opus и GPT-5.5 наверху, рабочие Sonnet и GPT-5.4 в середине, дешёвые Gemini Flash, DeepSeek, Qwen внизу — высота пропорциональна стоимости; чёткая инфографика без декора" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Три практических сценария бюджетирования
&lt;/h2&gt;

&lt;p&gt;Покажем, как складывается реальный месячный счёт на трёх типовых пайплайнах.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сценарий 1: B2C чат-бот первой линии — 50 000 диалогов в день
&lt;/h3&gt;

&lt;p&gt;Профиль: средний диалог 5 ходов по 200 токенов вход и 150 выход = 1K вход, 750 выход на диалог. 50 000 диалогов в день, 30 дней.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;На диалог&lt;/th&gt;
&lt;th&gt;В день&lt;/th&gt;
&lt;th&gt;В месяц&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;≈ 1,96 ₽&lt;/td&gt;
&lt;td&gt;98 000 ₽&lt;/td&gt;
&lt;td&gt;≈ 2 940 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;≈ 1,01 ₽&lt;/td&gt;
&lt;td&gt;50 500 ₽&lt;/td&gt;
&lt;td&gt;≈ 1 515 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.5 Flash&lt;/td&gt;
&lt;td&gt;≈ 0,58 ₽&lt;/td&gt;
&lt;td&gt;29 000 ₽&lt;/td&gt;
&lt;td&gt;≈ 870 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V4 Pro&lt;/td&gt;
&lt;td&gt;≈ 0,08 ₽&lt;/td&gt;
&lt;td&gt;4 000 ₽&lt;/td&gt;
&lt;td&gt;≈ 120 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Решение: пилотируйте на Sonnet 4.6, замерьте качество, потом переключайте на Gemini Flash или DeepSeek для массы. Если важна сложность ответа — оставьте Sonnet. Экономия от правильного выбора — до 2,8 млн ₽/мес.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сценарий 2: Code copilot для команды разработки — 200 запросов в день
&lt;/h3&gt;

&lt;p&gt;Профиль: один запрос copilot — это 8K контекста файла + 2K промта = 10K вход, 4K выход. 200 запросов в день на разработчика, 30 дней, команда из 10 человек = 2000 запросов/день.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;На запрос&lt;/th&gt;
&lt;th&gt;В день (2000 запросов)&lt;/th&gt;
&lt;th&gt;В месяц&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;≈ 10,66 ₽&lt;/td&gt;
&lt;td&gt;21 320 ₽&lt;/td&gt;
&lt;td&gt;≈ 639 600 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;≈ 12,10 ₽&lt;/td&gt;
&lt;td&gt;24 200 ₽&lt;/td&gt;
&lt;td&gt;≈ 726 000 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;≈ 6,38 ₽&lt;/td&gt;
&lt;td&gt;12 760 ₽&lt;/td&gt;
&lt;td&gt;≈ 382 800 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Решение: команды, которые серьёзно работают с агентами и сложными рефакторингами, берут Opus 4.7. Команды, которым нужен дешёвый универсал — Sonnet 4.6. Разница в месяц — 250 000 ₽ при сопоставимом качестве на типовых задачах. Подробнее про подключение моделей в IDE — в &lt;a href="https://promptra.ru/blog/claude-code-rossiya-api-klyuch" rel="noopener noreferrer"&gt;гайде «Claude Code в России»&lt;/a&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сценарий 3: RAG-сервис по корпусу документов — 5000 запросов в день
&lt;/h3&gt;

&lt;p&gt;Профиль: RAG-запрос — это 50K вход (длинный контекст из retrieval) + 1,5K выход. 5000 запросов/день, 30 дней.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;На запрос&lt;/th&gt;
&lt;th&gt;В день&lt;/th&gt;
&lt;th&gt;В месяц&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.1 Pro&lt;/td&gt;
&lt;td&gt;≈ 8,29 ₽&lt;/td&gt;
&lt;td&gt;41 450 ₽&lt;/td&gt;
&lt;td&gt;≈ 1 243 500 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;≈ 12,11 ₽&lt;/td&gt;
&lt;td&gt;60 550 ₽&lt;/td&gt;
&lt;td&gt;≈ 1 816 500 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;≈ 10,11 ₽&lt;/td&gt;
&lt;td&gt;50 550 ₽&lt;/td&gt;
&lt;td&gt;≈ 1 516 500 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Решение: для RAG с длинным контекстом Gemini 3.1 Pro даёт лучшее соотношение цена/контекст/качество. Если важна точность рассуждения на длинной выборке — Sonnet 4.6 или Opus 4.7. Подробнее про RAG-сценарии — в &lt;a href="https://promptra.ru/blog/chto-takoe-api" rel="noopener noreferrer"&gt;материале «Что такое API»&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fcpg4wxrqgqzj3fofgw8a.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fcpg4wxrqgqzj3fofgw8a.png" alt="Сравнительная таблица трёх сценариев — чат-бот, code copilot, RAG-сервис — с месячным счётом по разным моделям; цвет ячейки маркирует рекомендованный выбор" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Скрытые расходы: что НЕ входит в табличную цену
&lt;/h2&gt;

&lt;p&gt;Цены в каталоге — это ставки за токены провайдера, пересчитанные по курсу ЦБ. Есть три источника дополнительных расходов, которые надо закладывать в бюджет.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Сервисная комиссия 5%.&lt;/strong&gt; Берётся один раз при пополнении баланса (за эквайринг, биллинг и поддержку). На запросы не влияет. При пополнении 100 000 ₽ — на баланс зачисляется 95 000 ₽. Это фиксированный платёж, он не зависит от объёма потребления.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Колебания курса ЦБ.&lt;/strong&gt; После пополнения вы тратите рубли по уже зафиксированной ставке, и колебания курса вам не страшны до следующего пополнения. Но если курс серьёзно сдвинется между двумя пополнениями — следующая партия токенов будет тарифицироваться по новому курсу. Для крупных расходов это аргумент в пользу более редких больших пополнений вместо частых мелких.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Новый токенайзер.&lt;/strong&gt; Claude Opus 4.7 использует новый токенайзер, который &lt;strong&gt;может расходовать до ~35% больше токенов&lt;/strong&gt; на том же тексте. Цена за токен не меняется, но количество токенов растёт. Закладывайте множитель 1,2–1,35 на бюджет для Opus 4.7 и обязательно замерьте на своих промтах через поле &lt;code&gt;usage&lt;/code&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Чего НЕ будет.&lt;/strong&gt; Никаких ежемесячных подписок, минимальных платежей, наценки на токены, скрытых сборов за документы или поддержку. Лимиты по ключам, мониторинг расхода, дашборд, ЭДО — бесплатно. Это принципиальное отличие от реселлеров с фиксированной маржой 30–300% поверх цены провайдера.&lt;/p&gt;

&lt;h2&gt;
  
  
  Оплата и закрывающие документы
&lt;/h2&gt;

&lt;p&gt;Юрлицо-исполнитель — &lt;strong&gt;российское юр.лицо&lt;/strong&gt; , резидент РФ. Полный пакет закрывающих документов через ЭДО (Диадок, СБИС, Контур): договор-оферта, счёт, акт оказанных услуг, счёт-фактура, УПД. Это договор с российским контрагентом, валютный контроль не требуется. Расходы на API ложатся в учёт целиком.&lt;/p&gt;

&lt;p&gt;Подробнее про оплату — на &lt;a href="https://promptra.ru/pricing" rel="noopener noreferrer"&gt;странице цен Promptra&lt;/a&gt; и в &lt;a href="https://promptra.ru/blog/legalno-li-ai-api-yurlico" rel="noopener noreferrer"&gt;материале про легальность AI API для юрлиц&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Что дальше
&lt;/h2&gt;

&lt;p&gt;Если коротко: в 2026 году каталог Promptra покрывает все основные классы LLM от 20 ₽ за 1M (Qwen 3.6 Plus) до 1790 ₽ (Claude Opus 4.7) — разница 90-кратная. Правильный выбор модели под задачу даёт экономию в разы. Все цены — по курсу ЦБ 71,668 ₽/$, без наценки на токены, с оплатой на юр.лицо.&lt;/p&gt;

&lt;p&gt;Полезные следующие шаги: разбор флагманов лоб-в-лоб — &lt;a href="https://promptra.ru/blog/gpt-5-5-vs-claude-opus-4-7-benchmarki-2026" rel="noopener noreferrer"&gt;«GPT-5.5 против Claude Opus 4.7»&lt;/a&gt;; выбор модели под задачу — &lt;a href="https://promptra.ru/blog/luchshaya-neyroset-2026" rel="noopener noreferrer"&gt;«Лучшая нейросеть 2026»&lt;/a&gt;; миграция со стандартного OpenAI — &lt;a href="https://promptra.ru/blog/migraciya-iz-openai-na-promptra-python-sdk-za-10-minut" rel="noopener noreferrer"&gt;«Миграция с OpenAI на Promptra на Python»&lt;/a&gt;. А если нужно прикинуть стоимость на вашем трафике, подобрать модель под пайплайн или оформить договор на юр.лицо — [свяжитесь через promptra.ru.ru).&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;📚 &lt;strong&gt;Главный гайд по теме:&lt;/strong&gt; &lt;a href="https://promptra.ru/blog/luchshaya-neyroset-2026/" rel="noopener noreferrer"&gt;Лучшая нейросеть 2026: какую LLM выбрать под задачу&lt;/a&gt; — связанные материалы и обзор всей категории.&lt;/p&gt;
&lt;/blockquote&gt;




&lt;p&gt;&lt;strong&gt;Promptra&lt;/strong&gt; — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.&lt;/p&gt;

&lt;p&gt;Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.&lt;/p&gt;

&lt;p&gt;Try: &lt;a href="https://promptra.ru" rel="noopener noreferrer"&gt;promptra.ru&lt;/a&gt; · &lt;a href="https://promptra.ru/models" rel="noopener noreferrer"&gt;model catalog&lt;/a&gt; · &lt;a href="https://promptra.ru/docs" rel="noopener noreferrer"&gt;docs&lt;/a&gt;&lt;/p&gt;

</description>
      <category>claude</category>
      <category>gpt</category>
      <category>gemini</category>
      <category>deepseek</category>
    </item>
    <item>
      <title>Сравнение топ-5 LLM моделей 2026: цена, бенчмарки, реальное применение</title>
      <dc:creator>Promptra Team</dc:creator>
      <pubDate>Mon, 01 Jun 2026 19:17:37 +0000</pubDate>
      <link>https://dev.to/promptra-team/sravnieniie-top-5-llm-modieliei-2026-tsiena-bienchmarki-riealnoie-primienieniie-2n3o</link>
      <guid>https://dev.to/promptra-team/sravnieniie-top-5-llm-modieliei-2026-tsiena-bienchmarki-riealnoie-primienieniie-2n3o</guid>
      <description>&lt;p&gt;Если в 2024 году рынок LLM-API ещё можно было назвать «дуополией OpenAI + Anthropic с догоняющим Google», то к маю 2026 ландшафт расщепился на четыре чёткие лиги: премиум-reasoning (Claude Opus 4.7, GPT-5.5), value-tier с длинным контекстом (Claude Sonnet 4.6, Gemini 3 Pro), agentic-coding (Qwen 3.6 Plus, Claude Sonnet 4.6), и сверхдешёвый chat-layer (DeepSeek V3.2, GLM-5.1). Между этими лигами разрыв по цене за миллион токенов — двадцатикратный. Между лучшим и худшим SWE-Bench Verified — 35 процентных пунктов. Выбор модели «по умолчанию» в 2026 — это технический долг, который копится молча и больно вылезает в счёте на оплату.&lt;/p&gt;

&lt;p&gt;В этом обзоре мы прошлись по восьми моделям, актуальным на конец мая 2026, сверили цены с публичными pricing-страницами провайдеров (на 28.05.2026), собрали бенчмарки из vals.ai, llm-stats и независимых апрельских отчётов, и построили decision tree — на каком сценарии какая модель окупается. В рублях считаем по официальному курсу ЦБ РФ на 28.05.2026 (1 USD = 70.9012 ₽).&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fjijx1b4xq8ehe0216ld8.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fjijx1b4xq8ehe0216ld8.png" alt="Карта-сравнение топ-5 LLM моделей 2026 года" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Что изменилось в Q1-Q2 2026 (3 ключевых релиза)
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Claude Sonnet 4.6 — релиз 17.02.2026.&lt;/strong&gt; Anthropic выкатила обновление средней модели семейства Claude 4, которое стало тем самым «sweet spot» по соотношению цена/качество в коде. Sonnet 4.6 показал 79.6% на SWE-Bench Verified — это в пределах 8 пунктов от Opus 4.7 (87.6%), но при цене 3$/15$ за миллион input/output токенов против 5$/25$ у Opus. Для большинства production-задач Sonnet 4.6 заменил Opus в качестве дефолтной модели. Параллельно Anthropic расширила контекстное окно до полноценного 1M токенов на public API (раньше — только enterprise tier). Подробнее — &lt;a href="https://promptra.ru/blog/sravnenie-cen-llm-2026-tochnye-tarify-v-rublyah/" rel="noopener noreferrer"&gt;актуальные тарифы LLM в рублях по моделям&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;GPT-5.5 — релиз 24.04.2026.&lt;/strong&gt; OpenAI вернула флагман в гонку после промежуточных GPT-5.2, GPT-5.3, GPT-5.4. Ключевые отличия: расширенный контекст 1.05M токенов (раньше — 1M), SWE-Bench Verified 88.7% (топ-2 после Claude Mythos Preview), нативная мультимодальность (image + audio + video tokens в одном тарифе). Цена выросла до 5$/30$ — это премиум-tier, но для агентских coding-задач, где правильный ответ с первой попытки экономит десятки итераций, OpenAI оправдывает наценку. Точную дату подтверждает &lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;официальная documentation OpenAI&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Qwen 3.6 Plus — релиз 02.04.2026.&lt;/strong&gt; Alibaba выкатила открытую модель, которая всерьёз дотянулась до проприетарных конкурентов. На OmniDocBench 91.2 (документы + vision) Qwen 3.6 Plus обходит Gemini 3 Pro. На Terminal-Bench (агентское выполнение задач в shell) — лидер с 61.6%. Цена через официальный API — 0.325$/1.95$, в десять раз дешевле GPT-5.5. Контекст — 1M токенов. Это первая модель, которую серьёзные инженеры начали ставить в production не как «дешёвую альтернативу», а как первичный выбор для определённых workload — особенно для агентов, работающих с документами.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Общий контекст рынка на 2026:&lt;/strong&gt; три тренда задают форму индустрии. (1) Длинный контекст становится коммодити — 1M токенов уже у Claude Opus, Claude Sonnet, GPT-5.5, Gemini 3 Pro, Qwen 3.6 Plus. (2) Prompt caching снижает реальную стоимость в 4-10 раз для типовых RAG-сценариев (90% дисконт на cache hits у Anthropic, 75% у OpenAI, до 90% у Gemini). (3) Бенчмарки агентских задач (SWE-Bench Verified, Terminal-Bench, TAU-Bench) стали важнее статичных MMLU — потому что они отражают то, что бизнес реально покупает: модель, которая делает работу, а не отвечает на викторину.&lt;/p&gt;

&lt;h2&gt;
  
  
  Цена за 1M токенов — таблица 8 моделей
&lt;/h2&gt;

&lt;p&gt;Цены — с публичных pricing-страниц провайдеров, актуально на 28.05.2026. Для моделей с tier-pricing (Gemini 3 Pro) указаны обе цифры — стандартный и long-context tier.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Input $/1M&lt;/th&gt;
&lt;th&gt;Output $/1M&lt;/th&gt;
&lt;th&gt;Context&lt;/th&gt;
&lt;th&gt;Источник&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;$5.00&lt;/td&gt;
&lt;td&gt;$30.00&lt;/td&gt;
&lt;td&gt;1.05M&lt;/td&gt;
&lt;td&gt;&lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;openai.com/api/pricing&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;$2.50&lt;/td&gt;
&lt;td&gt;$15.00&lt;/td&gt;
&lt;td&gt;200K (1M beta)&lt;/td&gt;
&lt;td&gt;&lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;openai.com/api/pricing&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;$5.00&lt;/td&gt;
&lt;td&gt;$25.00&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;&lt;a href="https://platform.claude.com/docs/en/about-claude/pricing" rel="noopener noreferrer"&gt;platform.claude.com/pricing&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;$3.00&lt;/td&gt;
&lt;td&gt;$15.00&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;&lt;a href="https://platform.claude.com/docs/en/about-claude/pricing" rel="noopener noreferrer"&gt;platform.claude.com/pricing&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;$2.00 / $4.00*&lt;/td&gt;
&lt;td&gt;$12.00 / $18.00*&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;&lt;a href="https://ai.google.dev/gemini-api/docs/pricing" rel="noopener noreferrer"&gt;ai.google.dev/gemini-api/pricing&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V3.2&lt;/td&gt;
&lt;td&gt;$0.28&lt;/td&gt;
&lt;td&gt;$0.42&lt;/td&gt;
&lt;td&gt;128K&lt;/td&gt;
&lt;td&gt;&lt;a href="https://api-docs.deepseek.com/quick_start/pricing" rel="noopener noreferrer"&gt;api-docs.deepseek.com/pricing&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;$0.325&lt;/td&gt;
&lt;td&gt;$1.95&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;&lt;a href="https://llm-stats.com/models/qwen3.6-plus" rel="noopener noreferrer"&gt;llm-stats.com/qwen3.6-plus&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GLM-5.1&lt;/td&gt;
&lt;td&gt;$0.50 (приблиз.)&lt;/td&gt;
&lt;td&gt;$2.00 (приблиз.)&lt;/td&gt;
&lt;td&gt;256K&lt;/td&gt;
&lt;td&gt;Z.AI public docs&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;*Gemini 3 Pro — вторая цифра применяется при контексте свыше 200K токенов.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Те же цены в рублях&lt;/strong&gt; по курсу ЦБ РФ на 28.05.2026 (1 USD = 70.9012 ₽):&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Input ₽/1M&lt;/th&gt;
&lt;th&gt;Output ₽/1M&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;354.51 ₽&lt;/td&gt;
&lt;td&gt;2 127.04 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;177.25 ₽&lt;/td&gt;
&lt;td&gt;1 063.52 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;354.51 ₽&lt;/td&gt;
&lt;td&gt;1 772.53 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;212.70 ₽&lt;/td&gt;
&lt;td&gt;1 063.52 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;141.80 ₽&lt;/td&gt;
&lt;td&gt;850.81 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V3.2&lt;/td&gt;
&lt;td&gt;19.85 ₽&lt;/td&gt;
&lt;td&gt;29.78 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;23.04 ₽&lt;/td&gt;
&lt;td&gt;138.26 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GLM-5.1&lt;/td&gt;
&lt;td&gt;35.45 ₽&lt;/td&gt;
&lt;td&gt;141.80 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Главное, что бросается в глаза при сортировке по output-цене: &lt;strong&gt;DeepSeek V3.2 в 71 раз дешевле GPT-5.5 за output-токены&lt;/strong&gt;. Между Qwen 3.6 Plus и Claude Sonnet 4.6 — разница в 7.7 раз на output при сопоставимом контекстном окне. Это значит, что задачи, в которых вы платите в основном за output (генерация контента, длинные ответы chat-бота, code-generation в режиме «выдай мне функцию полностью»), могут стоить дешевле на порядок при правильном выборе модели.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4w41li9eyahctbpx9zdq.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4w41li9eyahctbpx9zdq.png" alt="Сравнительная диаграмма цен за миллион output-токенов в рублях" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Важный нюанс с GPT-5.4 vs GPT-5.5: OpenAI продолжает поддерживать GPT-5.4 как «efficient» tier по цене 2.50$/15$ — это в два раза дешевле GPT-5.5 при сохранении почти всех способностей в reasoning. Разница — в SWE-Bench (88.7% vs 84.1%), в нативной видео-мультимодальности (только в 5.5) и в максимальном контексте. Для большинства типовых задач (RAG, классификация, рерайт, отладка кода) GPT-5.4 — рациональный выбор, и пользователи, которые на старте подсели на 5.5, в апреле массово переписали fallback в 5.4.&lt;/p&gt;

&lt;p&gt;Отдельно про Gemini 3 Pro: tier-pricing с переключением на 200K — это удобно для одних и ловушка для других. Если у вас типичный запрос — 5-15K input + короткий output, вы заметите Gemini как «самую дешёвую премиум-модель». Если же вы пихаете в неё 500K context на каждый запрос (типичный RAG с большим корпусом), Gemini внезапно становится не сильно дешевле Claude Sonnet. Считайте под свой реальный размер запроса.&lt;/p&gt;

&lt;h2&gt;
  
  
  Бенчмарки 2026: что показывают цифры
&lt;/h2&gt;

&lt;p&gt;Бенчмарки — это политический инструмент, в котором каждый провайдер выбирает удобную для себя метрику. Поэтому ниже мы берём пять независимых benchmark suites, агрегированные результаты из vals.ai и &lt;a href="https://www.aimagicx.com/blog/claude-opus-4-6-vs-gpt-5-4-vs-gemini-3-1-benchmark-comparison-april-2026" rel="noopener noreferrer"&gt;Aimagicx Benchmark Comparison April 2026&lt;/a&gt; с фиксированной методологией.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;SWE-Bench Verified&lt;/strong&gt; — агентское кодирование (модель получает реальные issues из открытых репозиториев на GitHub и должна их закрыть pull-request'ом). Источник: &lt;a href="https://www.vals.ai/benchmarks/swebench" rel="noopener noreferrer"&gt;vals.ai/benchmarks/swebench&lt;/a&gt;.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;SWE-Bench Verified&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Claude Mythos Preview (beta)&lt;/td&gt;
&lt;td&gt;93.9%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;88.7%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;87.6%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;84.1%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;79.6%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;73.4%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;71.8%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V3.2&lt;/td&gt;
&lt;td&gt;51.2%&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;MMLU&lt;/strong&gt; — массивный multitask language understanding, общие знания через 57 предметов от истории до медицины и юриспруденции.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;MMLU&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.1 Pro&lt;/td&gt;
&lt;td&gt;94.1%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.2&lt;/td&gt;
&lt;td&gt;91.4%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.6&lt;/td&gt;
&lt;td&gt;90.5%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;88.7%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V3.2&lt;/td&gt;
&lt;td&gt;87.1%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;86.4%&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;GPQA Diamond&lt;/strong&gt; — PhD-level вопросы по физике, биологии, химии. Здесь не помогает запоминание учебника, только цепочки рассуждений.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;GPQA Diamond&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.1 Pro&lt;/td&gt;
&lt;td&gt;94.3%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.6&lt;/td&gt;
&lt;td&gt;91.3%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;87.2%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;83.9%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;79.1%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;71.4%&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;HumanEval&lt;/strong&gt; — Python coding-задачи (классический бенчмарк, но в 2026 уже слегка saturated — все топ-модели за 90%).&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;HumanEval&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;93.1%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.6&lt;/td&gt;
&lt;td&gt;90.4%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;89.7%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;89.1%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;87.3%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V3.2&lt;/td&gt;
&lt;td&gt;84.6%&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Terminal-Bench&lt;/strong&gt; — модель управляет терминалом и решает задачи (компиляция, debugging, развёртывание). Сильный agentic-бенчмарк, который коррелирует с реальной полезностью в DevOps.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Terminal-Bench&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;61.6%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;58.3%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;56.9%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;54.2%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;47.1%&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fyt2kfz981duxkspr133x.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fyt2kfz981duxkspr133x.png" alt="Сводная инфографика бенчмарков по топ-5 LLM" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Дисклеймер.&lt;/strong&gt; Все цифры выше — самооценка провайдеров либо результаты, опубликованные в независимых benchmark-аггрегаторах. На других benchmark suites (RULER, AIDER, KAGI Eval) ранжирование может выглядеть иначе. Бенчмарки полезны для отсечения явно неподходящих моделей, но финальное решение всегда — A/B-тест на ваших реальных задачах. Дополнительный источник методологии: &lt;a href="https://localaimaster.com/models/swe-bench-explained-ai-benchmarks" rel="noopener noreferrer"&gt;localaimaster.com/swe-bench-explained&lt;/a&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сводный профиль: лидер по каждой дисциплине
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Дисциплина&lt;/th&gt;
&lt;th&gt;Лидер&lt;/th&gt;
&lt;th&gt;Второе место&lt;/th&gt;
&lt;th&gt;Когда брать лидера&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Агентский код (SWE-Bench)&lt;/td&gt;
&lt;td&gt;GPT-5.5 (88.7%)&lt;/td&gt;
&lt;td&gt;Claude Opus 4.7 (87.6%)&lt;/td&gt;
&lt;td&gt;Закрыть сложный GitHub-issue с первой попытки&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Общие знания (MMLU)&lt;/td&gt;
&lt;td&gt;Gemini 3.1 Pro (94.1%)&lt;/td&gt;
&lt;td&gt;GPT-5.2 (91.4%)&lt;/td&gt;
&lt;td&gt;Research, data analysis, широта дисциплин&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;PhD-reasoning (GPQA Diamond)&lt;/td&gt;
&lt;td&gt;Gemini 3.1 Pro (94.3%)&lt;/td&gt;
&lt;td&gt;Claude Opus 4.6 (91.3%)&lt;/td&gt;
&lt;td&gt;Наука, finance/legal/medical&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Python-кодинг (HumanEval)&lt;/td&gt;
&lt;td&gt;GPT-5.4 (93.1%)&lt;/td&gt;
&lt;td&gt;Claude Opus 4.6 (90.4%)&lt;/td&gt;
&lt;td&gt;Алгоритмический код, чистые функции&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Terminal-агент (DevOps)&lt;/td&gt;
&lt;td&gt;Qwen 3.6 Plus (61.6%)&lt;/td&gt;
&lt;td&gt;Claude Sonnet 4.6 (58.3%)&lt;/td&gt;
&lt;td&gt;Управление shell, deploy-пайплайны&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Документы + vision (OmniDocBench)&lt;/td&gt;
&lt;td&gt;Qwen 3.6 Plus (91.2)&lt;/td&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;OCR + классификация PDF, таблиц, графиков&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Стабильность во всех 5 бенчах&lt;/td&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;Когда не знаешь, какая метрика важнее&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Что бросается в глаза: &lt;strong&gt;Claude Opus 4.7 не лидирует ни в одном из top-line бенчмарков — но он стабильно в топ-3 во всех пяти&lt;/strong&gt;. Это и есть профиль «надёжной премиум-модели»: ноль провалов, никаких сюрпризов. GPT-5.5, наоборот, выигрывает в SWE-Bench и проседает в GPQA Diamond относительно Gemini. Gemini 3.1 Pro — чемпион в reasoning и общих знаниях, но в агентских задачах за пределами своего «зоны комфорта» отстаёт.&lt;/p&gt;

&lt;h2&gt;
  
  
  Decision tree: какую модель под какую задачу
&lt;/h2&gt;

&lt;p&gt;Прежде чем разбирать сценарии, важный мета-комментарий: &lt;strong&gt;нет одной модели, которая выигрывает везде&lt;/strong&gt;. Архитектурное решение, которое мы видим у всех зрелых production-команд в 2026, — это &lt;strong&gt;mixture-of-models routing&lt;/strong&gt;, где разные подзадачи внутри одного приложения уходят к разным моделям. Promptra как раз и нужен для такой архитектуры — один API key, восемь моделей.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Дешёвый chat / суммаризация.&lt;/strong&gt; Если задача — простой Q&amp;amp;A, классификация, рерайт, краткое содержание статьи — берите DeepSeek V3.2 или GLM-5.1. На 80% запросов их качество неотличимо от Claude Sonnet, при цене в 10 раз ниже. Промежуточный апгрейд — Qwen 3.6 Plus, если нужен длинный контекст или мультимодальность.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Длинный контекст (&amp;gt;200K токенов).&lt;/strong&gt; Тут реальный выбор — Claude Sonnet 4.6 vs Gemini 3 Pro. Sonnet 4.6 дороже (3$/15$ vs Gemini 2$/12$ ниже 200K), но качество в long-context retrieval (Needle In A Haystack) у Sonnet традиционно стабильнее. Gemini — выгодный выбор, если ваш контекст обычно укладывается в 200K, и редкие 500K-запросы вы готовы переплатить. Не путайте: контекст 1M ≠ способность модели одинаково хорошо использовать всю эту длину.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Сложный reasoning (математика, наука, многоступенчатый анализ).&lt;/strong&gt; Claude Opus 4.7 или Gemini 3.1 Pro. Opus — стабильнее в цепочках рассуждений, особенно если задача требует «думать долго». Gemini — лидер по GPQA Diamond (94.3%) и MMLU. На практике мы рекомендуем Claude Opus для finance/legal/medical (где цена ошибки высокая), Gemini — для research и data analysis (где важнее широта знаний).&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Код и SWE-задачи.&lt;/strong&gt; Здесь чёткая трёхступенчатая лестница. (1) GPT-5.5 — топ по SWE-Bench, лучший выбор если задача — «закрыть сложный GitHub issue в большом legacy-проекте». (2) Claude Opus 4.7 — почти тот же уровень, более стабильный в больших codebase (&amp;gt;1M строк), лучше держит контекст. (3) Claude Sonnet 4.6 — best value: 79.6% SWE-Bench при цене в три раза ниже Opus и в пять раз ниже GPT-5.5. Для большинства типовых задач Sonnet справится; Opus и GPT-5.5 нужны на «edge cases».&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Vision и работа с документами.&lt;/strong&gt; Qwen 3.6 Plus (OmniDocBench 91.2) — лидер на документной обработке, особенно с таблицами, графиками, мультимодальным PDF. Gemini 3 Pro — второй выбор, особенно если нужна интеграция с Google Workspace ecosystem. GPT-5.5 — хорош в общем vision (фото, скриншоты), но в документах уступает Qwen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Agentic workflows&lt;/strong&gt; (tool use, function calling, многошаговое планирование). Claude Sonnet 4.6 — лидер по TAU-Bench и стабильности function calling. Qwen 3.6 Plus — топ по Terminal-Bench (61.6%), лучший выбор для DevOps-агентов. GPT-5.5 — сильный третий, особенно если уже инвестированы в OpenAI Assistants API.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Faapne977nhwr182arvd7.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Faapne977nhwr182arvd7.png" alt="Decision tree выбора LLM модели под задачу" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Экономика: реальный TCO на 1M запросов в месяц
&lt;/h2&gt;

&lt;p&gt;Бенчмарки — это полдела. Вторая половина — реальная стоимость на вашем профиле использования. Ниже — пять типовых сценариев с конкретными расчётами. Все цифры USD, для рублей — умножаем на 70.9012.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сценарий 1: Customer support chatbot
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Профиль запроса:&lt;/strong&gt; 1 000 input токенов (контекст диалога + system prompt) + 500 output токенов (ответ). Объём: 1 миллион запросов в месяц.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Cost/req&lt;/th&gt;
&lt;th&gt;Cost/мес (USD)&lt;/th&gt;
&lt;th&gt;Cost/мес (₽)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;$0.0100&lt;/td&gt;
&lt;td&gt;$10 000&lt;/td&gt;
&lt;td&gt;709 012 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;$0.0105&lt;/td&gt;
&lt;td&gt;$10 500&lt;/td&gt;
&lt;td&gt;744 463 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;$0.0080&lt;/td&gt;
&lt;td&gt;$8 000&lt;/td&gt;
&lt;td&gt;567 210 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V3.2&lt;/td&gt;
&lt;td&gt;$0.00049&lt;/td&gt;
&lt;td&gt;$490&lt;/td&gt;
&lt;td&gt;34 742 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;$0.00131&lt;/td&gt;
&lt;td&gt;$1 310&lt;/td&gt;
&lt;td&gt;92 881 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Вывод:&lt;/strong&gt; разница между DeepSeek и GPT-5.4 — в 20 раз. При 1M запросов в месяц это $9 510 экономии. Если качество DeepSeek для вашего use case достаточное (а для FAQ-чатбота со средним вопросом — обычно да), это бюджет, который можно перенаправить на разработку или маркетинг.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сценарий 2: Code-агент (continuous coding assistant)
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Профиль:&lt;/strong&gt; 8 000 input (контекст файлов + diff) + 2 000 output (написанный код). Объём: 100 000 запросов в месяц (типичная команда из 10 разработчиков, каждый делает ~30 запросов в день).&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Cost/req&lt;/th&gt;
&lt;th&gt;Cost/мес (USD)&lt;/th&gt;
&lt;th&gt;Cost/мес (₽)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;$0.1000&lt;/td&gt;
&lt;td&gt;$10 000&lt;/td&gt;
&lt;td&gt;709 012 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;$0.0900&lt;/td&gt;
&lt;td&gt;$9 000&lt;/td&gt;
&lt;td&gt;638 111 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;$0.0540&lt;/td&gt;
&lt;td&gt;$5 400&lt;/td&gt;
&lt;td&gt;382 867 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;$0.0500&lt;/td&gt;
&lt;td&gt;$5 000&lt;/td&gt;
&lt;td&gt;354 506 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;$0.0065&lt;/td&gt;
&lt;td&gt;$650&lt;/td&gt;
&lt;td&gt;46 086 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Вывод:&lt;/strong&gt; Sonnet 4.6 — sweet spot для команд, которым важно качество, но 10K$ в месяц — это уже заметная статья расходов. Если использовать Sonnet как «дефолт» и Opus только на сложных задачах (через явный fallback при low confidence), цена сокращается ещё на 30-40%.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сценарий 3: RAG-приложение с большим корпусом
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Профиль:&lt;/strong&gt; 50 000 input (корпус документов в контексте) + 800 output (ответ). Объём: 200 000 запросов в месяц.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Cost/req&lt;/th&gt;
&lt;th&gt;Cost/мес (USD)&lt;/th&gt;
&lt;th&gt;Cost/мес (₽)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;$0.162&lt;/td&gt;
&lt;td&gt;$32 400&lt;/td&gt;
&lt;td&gt;2 297 199 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro (&amp;gt;200K tier)&lt;/td&gt;
&lt;td&gt;$0.214&lt;/td&gt;
&lt;td&gt;$42 800&lt;/td&gt;
&lt;td&gt;3 034 571 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro (до 200K tier)&lt;/td&gt;
&lt;td&gt;$0.110&lt;/td&gt;
&lt;td&gt;$21 919&lt;/td&gt;
&lt;td&gt;1 553 957 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6 + Prompt Cache (90% hit)&lt;/td&gt;
&lt;td&gt;$0.024&lt;/td&gt;
&lt;td&gt;$4 802&lt;/td&gt;
&lt;td&gt;340 379 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;$0.0179&lt;/td&gt;
&lt;td&gt;$3 575&lt;/td&gt;
&lt;td&gt;253 423 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Вывод:&lt;/strong&gt; в RAG-сценарии &lt;strong&gt;prompt caching становится главным экономическим фактором&lt;/strong&gt;. Anthropic даёт 90% дисконт на cache hits — это значит, что если ваш корпус документов стабильный и переиспользуется между запросами, реальная стоимость падает в 7 раз. Qwen 3.6 Plus здесь даже без кэша обходит Sonnet с кэшем по цене, но качество retrieval над длинным контекстом у Sonnet выше — это надо тестировать на ваших данных.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сценарий 4: Контент-генерация (маркетинг, продуктовые описания)
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Профиль:&lt;/strong&gt; 500 input (бриф + ключевые слова) + 1 500 output (готовый текст). Объём: 50 000 запросов в месяц.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Cost/req&lt;/th&gt;
&lt;th&gt;Cost/мес (USD)&lt;/th&gt;
&lt;th&gt;Cost/мес (₽)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;$0.04&lt;/td&gt;
&lt;td&gt;$2 000&lt;/td&gt;
&lt;td&gt;141 802 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;$0.024&lt;/td&gt;
&lt;td&gt;$1 200&lt;/td&gt;
&lt;td&gt;85 081 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;$0.019&lt;/td&gt;
&lt;td&gt;$950&lt;/td&gt;
&lt;td&gt;67 356 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;$0.00309&lt;/td&gt;
&lt;td&gt;$154&lt;/td&gt;
&lt;td&gt;10 919 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DeepSeek V3.2&lt;/td&gt;
&lt;td&gt;$0.000770&lt;/td&gt;
&lt;td&gt;$38&lt;/td&gt;
&lt;td&gt;2 736 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Вывод:&lt;/strong&gt; для маркетингового контента качество DeepSeek/Qwen обычно достаточное, особенно если есть редактор-человек на финальной правке. Экономия — двукратный порядок.&lt;/p&gt;

&lt;h3&gt;
  
  
  Сценарий 5: Vision-pipeline (обработка документов, OCR + классификация)
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Профиль:&lt;/strong&gt; 15 000 input (изображение страницы + промпт) + 1 200 output (структурированный JSON). Объём: 300 000 запросов в месяц.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;Cost/req&lt;/th&gt;
&lt;th&gt;Cost/мес (USD)&lt;/th&gt;
&lt;th&gt;Cost/мес (₽)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;$0.111&lt;/td&gt;
&lt;td&gt;$33 300&lt;/td&gt;
&lt;td&gt;2 361 010 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;$0.105&lt;/td&gt;
&lt;td&gt;$31 500&lt;/td&gt;
&lt;td&gt;2 233 388 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3 Pro&lt;/td&gt;
&lt;td&gt;$0.044&lt;/td&gt;
&lt;td&gt;$13 200&lt;/td&gt;
&lt;td&gt;935 896 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;$0.00722&lt;/td&gt;
&lt;td&gt;$2 167&lt;/td&gt;
&lt;td&gt;153 643 ₽&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;&lt;strong&gt;Вывод:&lt;/strong&gt; vision-pipeline — главный кандидат на миграцию с GPT/Claude на Qwen. Качество Qwen на документах (OmniDocBench 91.2) обходит Gemini, при цене в 6 раз ниже. За исключением узких ниш (медицинские изображения, специфические форматы), Qwen — рациональный выбор.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8p17wo69dmd313xa2v75.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8p17wo69dmd313xa2v75.png" alt="Сравнение TCO пяти сценариев в рублях" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Что выбирать в РФ: доступность
&lt;/h2&gt;

&lt;p&gt;К маю 2026 прямая интеграция с OpenAI / Anthropic / Google из России — это путь, выложенный граблями. Платёжные карты российских банков отклоняются. VPN-обход работает, но триггерит fraud-detection, что приводит к блокировке аккаунта. Использование зарубежной VCC (виртуальной карты) формально не запрещено провайдерами, но рискованно: были задокументированные случаи массовых банов российских разработчиков в феврале-марте 2026 года, особенно у OpenAI.&lt;/p&gt;

&lt;p&gt;DeepSeek и Qwen технически доступны напрямую, но: (1) их провайдеры требуют верификацию через китайский телефон / WeChat, (2) их dashboards и docs полностью на китайском / упрощённом английском, (3) российские IP периодически блокируются на их CDN.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Что даёт российский LLM-агрегатор вроде Promptra:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Единый API key для всех восьми моделей, OpenAI-compatible endpoint — drop-in замена в любом существующем коде.&lt;/li&gt;
&lt;li&gt;Оплата на российское юр.лицо в рублях с полным пакетом закрывающих документов (договор, счёт, акт, счёт-фактура, УПД, ЭДО). Это закрывает все требования бухгалтерии, аудита и налогового учёта.&lt;/li&gt;
&lt;li&gt;Цены 1-в-1 с провайдером по курсу ЦБ РФ. Сервисная комиссия 5% — только при пополнении баланса. На токены наценки нет — это принципиальное отличие от премиум-сегмента (где наценка достигает x3.7 от провайдера).&lt;/li&gt;
&lt;li&gt;Никакого vendor lock-in: если завтра вышел Claude Opus 5 или Gemini 4 Pro, они появятся в каталоге через неделю — без переписывания кода и нового договора.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fty571bo4knnbv7cj9pw5.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fty571bo4knnbv7cj9pw5.png" alt="Workflow интеграции LLM через российский агрегатор Promptra" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Что у нас лучше: per-model uptime metric
&lt;/h2&gt;

&lt;p&gt;Стандартный compose российских LLM-агрегаторов: список моделей, цена, кнопка «Купить». Никакой информации о том, как часто конкретная модель действительно отвечает и насколько быстро. В то же время uptime — это первое, что должен видеть production-инженер, выбирающий модель под критичный сервис.&lt;/p&gt;

&lt;p&gt;В каталоге Promptra по каждой модели мы публикуем три метрики, рассчитанные на rolling-window последних 24 часов: (1) &lt;strong&gt;uptime %&lt;/strong&gt; — процент успешных запросов (не 5xx, не timeout), (2) &lt;strong&gt;median latency&lt;/strong&gt; — медианное время первого токена, (3) &lt;strong&gt;p95 latency&lt;/strong&gt; — 95-процентиль времени первого токена (важно для UX-критичных приложений).&lt;/p&gt;

&lt;p&gt;Это уникальная фича: ProxyAPI uptime не показывает вообще, AITUNNEL ограничивается общим status-page без per-model разбивки, GPTunnel показывает uptime только провайдера в целом. Per-model granularity нужна потому что: (a) разные модели у одного провайдера могут проседать асимметрично (например, у OpenAI GPT-5.5 уходит в degraded state значительно чаще, чем GPT-5.4 при пиковых нагрузках), (b) фактический uptime для пользователя в РФ зависит от роутинга между нашими upstream-providers, и эти цифры он не получит от первоисточника.&lt;/p&gt;

&lt;p&gt;На практике мы видим, что инженеры используют эту метрику двумя способами. Первый — выбор основной модели (если uptime у двух сопоставимых моделей различается на 0.5+ пункта, это перевешивает мелкие отличия в качестве). Второй — настройка fallback chain: например, primary Sonnet 4.6, при uptime менее 99.5% автоматический failover на Opus 4.7 или GPT-5.4. В коде это одна строчка через наш OpenAI-compatible API.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fovzpiwpp82hrhqzytltx.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fovzpiwpp82hrhqzytltx.png" alt="Скриншот dashboard с per-model uptime metric" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Прогноз на Q3 2026
&lt;/h2&gt;

&lt;p&gt;Несколько вещей, которые мы видим из публичных roadmaps, утечек и поведения провайдеров на конференциях весной 2026.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Анонсы и релизы.&lt;/strong&gt; Anthropic, по слухам в инвестор-сообщениях, готовит &lt;strong&gt;Claude Opus 5&lt;/strong&gt; к августу 2026 — основной фокус на agentic capabilities и заметное снижение цены input-токенов (предположительно до 3-4$ за 1M). OpenAI обещает &lt;strong&gt;GPT-5.6&lt;/strong&gt; в июле с улучшенным video understanding и нативной streaming-генерацией. Google анонсировал &lt;strong&gt;Gemini 4 Pro&lt;/strong&gt; на Google I/O — релиз ожидается в сентябре, с акцентом на math/science reasoning и context до 4M токенов.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Тренды индустрии.&lt;/strong&gt;&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Prompt caching deepening.&lt;/strong&gt; Anthropic уже даёт 90% дисконт на cache hits. Мы ожидаем, что в Q3 OpenAI догонит до сопоставимого уровня (сейчас — 75%), и появится новое поколение кэширования с поддержкой semantic similarity (cache hit не на exact match, а на схожих промптах).&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Batch API стандартизация.&lt;/strong&gt; Уже сейчас все три топ-провайдера дают 50% дисконт на batch-запросы с SLA менее 24h. К концу 2026 это станет нормой для всех моделей.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Video tokens.&lt;/strong&gt; GPT-5.5 умеет принимать видео, но pricing — ещё «дорогой». Ожидаем, что специализированные видео-tokens (отдельный pricing tier) появятся у всех к Q4 2026.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Узкая специализация.&lt;/strong&gt; Тренд на «фронтир generalist model» завершается. Будущее — за специализированными вариантами: coding-specialized (Claude Code-Optimized 4.6 уже анонсирован), reasoning-specialized (DeepSeek R2 ожидается), document-specialized (Qwen 3.6 уже фактически таковая).&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;К чему готовиться.&lt;/strong&gt; Если ваша архитектура жёстко зашита под одну модель — это растущий риск. Лучшие команды на 2026 строят абстракцию над LLM, позволяющую менять модель под задачу без передеплоя кода. Promptra-API совместимо с OpenAI SDK на всех восьми моделях — это упрощает переход на эту архитектуру в один день.&lt;/p&gt;

&lt;p&gt;В долгосрочной перспективе мы видим разделение рынка на два чётких сегмента: &lt;strong&gt;«флагман-для-сложного»&lt;/strong&gt; (Claude Opus 5, GPT-5.6+, Gemini 4 Pro) с ценой 5-30$ за M tokens и &lt;strong&gt;«infrastructure-tier»&lt;/strong&gt; (DeepSeek, Qwen, Mistral, опенсорс) с ценой менее $1 за M tokens. Middle-tier (Claude Sonnet, GPT-5.4) останется, но будет сжиматься, потому что на 80% задач его догоняет cheaper-tier, а на 20% — нужен флагман. Через год выбор модели будет похож на выбор инстансов в AWS: «есть микро для дешёвого, есть xlarge для критичного, между ними — нюансы конфигурации».&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnt79lovmnk0ajnasdbek.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnt79lovmnk0ajnasdbek.png" alt="Прогноз эволюции LLM-рынка на Q3-Q4 2026" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Итог: что забрать с собой
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Цена за 1M токенов&lt;/strong&gt; в 2026 расщеплена в 20+ раз между сверхдешёвыми (DeepSeek V3.2, Qwen 3.6 Plus) и премиум (GPT-5.5, Claude Opus 4.7). Дефолт «всё на GPT» — самый дорогой технический долг в индустрии прямо сейчас.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Бенчмарки&lt;/strong&gt; разные модели выигрывают разные. Универсального лидера нет: Claude Mythos в SWE-Bench, Gemini 3.1 в MMLU/GPQA, GPT-5.5 в нативной мультимодальности, Qwen 3.6 в Terminal-Bench/документах. &lt;strong&gt;Mixture-of-models&lt;/strong&gt; — не модный термин, а рациональная архитектура production-систем 2026.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;TCO считается на ваших реальных профилях запросов&lt;/strong&gt;, не по abstract per-token ценам. Сценарии в этой статье показывают: при одинаковом качестве задачи (chat, генерация) разница в счёте за месяц может быть 20-кратной. Это бюджет, который можно перенаправить.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Доступность в РФ&lt;/strong&gt; через прямое подключение к OpenAI/Anthropic/Google ограничена и рискована (банки, банкомёт, ToS). Российский LLM-агрегатор закрывает это плюс даёт юр.лицо + закрывающие документы.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Uptime per-model&lt;/strong&gt; — критичный, недооценённый параметр. Промтра — единственный в РФ агрегатор, показывающий uptime/latency для каждой модели в реальном времени.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Готовьтесь к Q3 2026:&lt;/strong&gt; Opus 5, GPT-5.6, Gemini 4 Pro — все три появятся за квартал. Архитектура с абстракцией над LLM (OpenAI-compatible через Promptra) делает миграцию однодневной задачей.&lt;/li&gt;
&lt;/ol&gt;

&lt;blockquote&gt;
&lt;p&gt;📚 &lt;strong&gt;Главный гайд по теме:&lt;/strong&gt; &lt;a href="https://promptra.ru/blog/luchshaya-neyroset-2026/" rel="noopener noreferrer"&gt;Лучшая нейросеть 2026: какую LLM выбрать под задачу&lt;/a&gt; — связанные материалы и обзор всей категории.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;h2&gt;
  
  
  Источники
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;a href="https://openai.com/api/pricing/" rel="noopener noreferrer"&gt;OpenAI API Pricing&lt;/a&gt; — официальные цены GPT-5.4, GPT-5.5 на 28.05.2026.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://platform.claude.com/docs/en/about-claude/pricing" rel="noopener noreferrer"&gt;Anthropic Platform Pricing&lt;/a&gt; — Claude Opus 4.7, Sonnet 4.6.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://ai.google.dev/gemini-api/docs/pricing" rel="noopener noreferrer"&gt;Google Gemini API Pricing&lt;/a&gt; — Gemini 3 Pro tier-pricing.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://api-docs.deepseek.com/quick_start/pricing" rel="noopener noreferrer"&gt;DeepSeek API Pricing&lt;/a&gt; — DeepSeek V3.2.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://llm-stats.com/models/qwen3.6-plus" rel="noopener noreferrer"&gt;LLM-stats Qwen 3.6 Plus&lt;/a&gt; — Qwen 3.6 Plus pricing и benchmarks.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://www.vals.ai/benchmarks/swebench" rel="noopener noreferrer"&gt;Vals.ai SWE-Bench Leaderboard&lt;/a&gt; — независимый агрегатор бенчмарков.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://localaimaster.com/models/swe-bench-explained-ai-benchmarks" rel="noopener noreferrer"&gt;LocalAI Master — SWE-Bench Explained&lt;/a&gt; — методология бенчмарка.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://www.aimagicx.com/blog/claude-opus-4-6-vs-gpt-5-4-vs-gemini-3-1-benchmark-comparison-april-2026" rel="noopener noreferrer"&gt;Aimagicx — Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1 April 2026&lt;/a&gt; — апрельский benchmark отчёт.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://www.buildfastwithai.com/blogs/qwen-3-6-plus-preview-review" rel="noopener noreferrer"&gt;BuildFastWithAI — Qwen 3.6 Plus Review&lt;/a&gt; — Qwen 3.6 Plus deep dive.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://www.cloudzero.com/blog/claude-api-pricing/" rel="noopener noreferrer"&gt;CloudZero — Claude API Pricing Analysis&lt;/a&gt; — TCO-аналитика по Claude API.&lt;/li&gt;
&lt;/ul&gt;




&lt;p&gt;&lt;strong&gt;Promptra&lt;/strong&gt; — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.&lt;/p&gt;

&lt;p&gt;Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.&lt;/p&gt;

&lt;p&gt;Try: &lt;a href="https://promptra.ru" rel="noopener noreferrer"&gt;promptra.ru&lt;/a&gt; · &lt;a href="https://promptra.ru/models" rel="noopener noreferrer"&gt;model catalog&lt;/a&gt; · &lt;a href="https://promptra.ru/docs" rel="noopener noreferrer"&gt;docs&lt;/a&gt;&lt;/p&gt;

</description>
      <category>llm</category>
      <category>gpt5</category>
      <category>claude</category>
      <category>gemini</category>
    </item>
    <item>
      <title>AITUNNEL vs Promptra: цены, документы, ИП vs ООО</title>
      <dc:creator>Promptra Team</dc:creator>
      <pubDate>Mon, 01 Jun 2026 19:17:31 +0000</pubDate>
      <link>https://dev.to/promptra-team/aitunnel-vs-promptra-tsieny-dokumienty-ip-vs-ooo-1kgm</link>
      <guid>https://dev.to/promptra-team/aitunnel-vs-promptra-tsieny-dokumienty-ip-vs-ooo-1kgm</guid>
      <description>&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fbca2j3a54tqojw6rv1sy.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fbca2j3a54tqojw6rv1sy.png" alt="Две колонки-сервиса в виде архитектурных блоков, слева плотная сетка из множества карточек-моделей, справа компактный блок со стопкой закрывающих документов и печатью, между ними вертикальная разделительная линия" width="800" height="533"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Коротко для тех, кто пришёл за ответом: &lt;strong&gt;AITUNNEL и Promptra — это два российских доступа к зарубежным LLM по API, и выбор между ними упирается не в «у кого endpoint быстрее», а в юридическую форму поставщика.&lt;/strong&gt; AITUNNEL — один из самых крупных по объёму игроков на рынке (по разным открытым оценкам — около 20 тысяч клиентов) с очень широким каталогом моделей и работающим документооборотом. Promptra — сервис с оплатой на юр.лицо российское юр.лицо, полным пакетом первички через ЭДО и ценой на токены 1-в-1 с провайдером по курсу ЦБ. Если вы B2B-покупатель на общей системе налогообложения (ОСНО) и для вас важен входящий НДС к вычету — форма поставщика (ИП или ООО) влияет на это напрямую, и именно об этом большая часть статьи.&lt;/p&gt;

&lt;p&gt;Я работаю в Promptra, поэтому сразу честно: это не «обзор-разоблачение». AITUNNEL — сильный продукт, и у него есть вещи, которые он делает лучше многих, включая нас по части широты каталога. Цель статьи — разложить по полочкам реальные критерии (цена, документы, юр.форма, модели, поддержка), чтобы вы выбрали под свою задачу осознанно, а не по громкости маркетинга.&lt;/p&gt;

&lt;p&gt;Все цены Promptra ниже — на 27.05.2026 при курсе ЦБ РФ 71.668 ₽/USD, пересчёт из официального долларового прайса провайдеров. Все внешние факты — со ссылками на первоисточники, можно перепроверить. По AITUNNEL я &lt;strong&gt;не привожу конкретные рублёвые ценники&lt;/strong&gt;: их тарифы — на их стороне и могут меняться, поэтому актуальную цену смотрите на &lt;a href="https://aitunnel.ru" rel="noopener noreferrer"&gt;aitunnel.ru&lt;/a&gt;, а здесь я разбираю методологию и структуру, а не пытаюсь зафиксировать чужой прайс на один день.&lt;/p&gt;

&lt;h2&gt;
  
  
  Кто такие AITUNNEL и Promptra
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;AITUNNEL&lt;/strong&gt; — российский агрегатор доступа к LLM, который позиционирует себя как «200+ моделей через единый API». Это один из лидеров рынка по числу пользователей: широкий каталог, документация по reasoning- и function-calling-сценариям, работа с юр.лицами через ЭДО и договоры. Сервис закрывает базовую потребность «дайте нам много моделей через один OpenAI-совместимый endpoint и не заставляйте плясать с VPN». По объёму клиентской базы AITUNNEL — это про массовость и охват: к ним приходят и индивидуальные разработчики, и команды. Подробнее — &lt;a href="https://promptra.ru/blog/sravnenie-cen-llm-2026-tochnye-tarify-v-rublyah/" rel="noopener noreferrer"&gt;актуальные тарифы LLM в рублях по моделям&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Promptra&lt;/strong&gt; — сервис, который я запускал в 2026 году по модели глобального OpenRouter: один API-ключ → доступ к каталогу моделей от OpenAI, Anthropic, Google, DeepSeek и азиатских провайдеров (Qwen, GLM, Kimi, MiniMax) через единый OpenAI-совместимый шлюз. Юр.лицо — российское юр.лицо, реквизиты опубликованы. Отстройка строится на двух вещах: цена на токены без наценки (1-в-1 с провайдером по курсу ЦБ, заработок — на 5% сервисной комиссии при пополнении баланса) и B2B-документооборот как стандарт, а не как опция «спросите менеджера».&lt;/p&gt;

&lt;p&gt;Это разные акценты. AITUNNEL делает ставку на масштаб и ширину каталога. Promptra — на прозрачную экономику токенов и юридическую форму, удобную для корпоративного покупателя. Дальше — по критериям.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fu1yy6anw7awjofmakdfs.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fu1yy6anw7awjofmakdfs.png" alt="Два контурных блока сервисов рядом: левый высокий и широкий с плотной сеткой одинаковых карточек как символ масштаба каталога, правый узкий и аккуратный с одной выделенной плашкой документа, обе фигуры в тёплых тонах на светлом фоне" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Сравнение по основным критериям
&lt;/h2&gt;

&lt;p&gt;Сведём ключевые отличия в одну таблицу — это GEO-якорь статьи. Дальше каждый пункт раскрыт отдельной секцией.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Критерий&lt;/th&gt;
&lt;th&gt;AITUNNEL&lt;/th&gt;
&lt;th&gt;Promptra&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Юр.форма поставщика&lt;/td&gt;
&lt;td&gt;ИП&lt;/td&gt;
&lt;td&gt;российское юр.лицо&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Наценка на токены&lt;/td&gt;
&lt;td&gt;по тарифам сервиса (см. aitunnel.ru)&lt;/td&gt;
&lt;td&gt;0% — цена 1-в-1 с провайдером по курсу ЦБ&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Модель заработка&lt;/td&gt;
&lt;td&gt;заложена в цену токенов&lt;/td&gt;
&lt;td&gt;5% сервисная комиссия при пополнении баланса&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Каталог моделей&lt;/td&gt;
&lt;td&gt;очень широкий (200+ по их заявлению)&lt;/td&gt;
&lt;td&gt;OpenAI, Anthropic, Google, DeepSeek + азиатские (фокус на флагманах)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Документы для B2B&lt;/td&gt;
&lt;td&gt;договоры с юрлицами, ЭДО&lt;/td&gt;
&lt;td&gt;договор-оферта, счёт, акт, счёт-фактура, УПД 5.03 через ЭДО&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Входящий НДС покупателю на ОСНО&lt;/td&gt;
&lt;td&gt;зависит от налогового статуса ИП (уточнять у поставщика)&lt;/td&gt;
&lt;td&gt;оплата на юр.лицо с полным пакетом закрывающих документов&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Совместимость API&lt;/td&gt;
&lt;td&gt;OpenAI-совместимый&lt;/td&gt;
&lt;td&gt;OpenAI-совместимый (drop-in &lt;code&gt;base_url&lt;/code&gt;)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Целевой профиль&lt;/td&gt;
&lt;td&gt;массовый: от индивидуала до команды&lt;/td&gt;
&lt;td&gt;B2B-команды, которым нужна первичка и предсказуемый счёт&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Сразу две оговорки к таблице. Первое: «наценка по тарифам» у AITUNNEL — это не упрёк, а просто другая бизнес-модель; конкретные цифры берите на их сайте. Второе и главное: строка про входящий НДС — это не «у них хуже», а «это зависит от налогового статуса конкретного ИП, и его нужно прямо спросить у поставщика». Разберём, почему это вообще важно.&lt;/p&gt;

&lt;h2&gt;
  
  
  ИП vs ООО: как юр.форма поставщика влияет на ваш входящий НДС
&lt;/h2&gt;

&lt;p&gt;Это центральная часть статьи, потому что именно здесь проходит реальная линия различия для B2B-покупателя. Разберём механику без морализаторства — просто как работает налоговая арифметика.&lt;/p&gt;

&lt;h3&gt;
  
  
  Что такое входящий НДС и вычет
&lt;/h3&gt;

&lt;p&gt;Если ваша компания на &lt;strong&gt;общей системе налогообложения (ОСНО)&lt;/strong&gt;, вы платите НДС с реализации (исходящий НДС) и имеете право уменьшить его на НДС, который вам предъявили поставщики (входящий НДС). Это и есть вычет — механизм, заложенный в главе 21 НК РФ. Чтобы принять входящий НДС к вычету, нужен счёт-фактура (или УПД с функцией «1») от поставщика, который сам является плательщиком НДС.&lt;/p&gt;

&lt;p&gt;Простой пример. Вы купили API-доступ на 120 000 ₽, где 20 000 ₽ — это НДС 20%. Если поставщик — плательщик НДС и дал вам корректный счёт-фактуру, вы принимаете эти 20 000 ₽ к вычету: фактическая стоимость услуги для вас — 100 000 ₽, а 20 000 ₽ уменьшают ваш собственный НДС к уплате. Если же поставщик НДС не предъявил (работает без НДС), то вычитать нечего — вся сумма ложится в расходы, но входящего НДС к вычету у вас нет.&lt;/p&gt;

&lt;h3&gt;
  
  
  Где здесь ИП
&lt;/h3&gt;

&lt;p&gt;Сама по себе организационно-правовая форма «ИП» &lt;strong&gt;не означает автоматически отсутствие НДС&lt;/strong&gt;. ИП может быть как на ОСНО (и тогда он плательщик НДС), так и на упрощёнке. Но на практике большинство ИП в IT-нише работают на &lt;strong&gt;УСН&lt;/strong&gt; (упрощённой системе) — и вот тут с 2025 года произошло важное изменение.&lt;/p&gt;

&lt;p&gt;С 1 января 2025 года в рамках налоговой реформы (Федеральный закон от 12.07.2024 № 176-ФЗ) &lt;a href="https://www.nalog.gov.ru/rn77/news/activities_fts/15169443/" rel="noopener noreferrer"&gt;упрощенцы стали плательщиками НДС&lt;/a&gt;, но с порогом: при доходе &lt;strong&gt;до 60 млн ₽ в год&lt;/strong&gt; ИП/организация на УСН освобождены от НДС автоматически, а при превышении — платят НДС по пониженным ставкам 5% или 7% (без права на вычет входящего) либо по общей ставке 20% (с вычетом). Это значит, что в зависимости от оборота и выбранной ставки поставщик-упрощенец может:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;не предъявлять НДС вообще&lt;/strong&gt; (доход до 60 млн ₽) — тогда вычета у вас нет;&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;предъявлять НДС 5% или 7%&lt;/strong&gt; — вы получаете счёт-фактуру с этой ставкой и вычет на эту сумму, но это меньше привычных 20%;&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;предъявлять НДС 20%&lt;/strong&gt; — полноценный вычет, но это редкий выбор для УСН.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Вывод для покупателя простой и не оценочный: &lt;strong&gt;прежде чем подписывать договор, спросите у любого поставщика — ИП он или ООО, на какой системе налогообложения, и предъявляет ли НДС.&lt;/strong&gt; Это касается и AITUNNEL, и нас, и любого третьего сервиса. Конкретный налоговый статус AITUNNEL как ИП я здесь не утверждаю — это вопрос к их договору и счёту-фактуре, и правильный ход бухгалтера — запросить эти документы и проверить контрагента через Контур.Фокус или ZACHESTNYIBIZNES.&lt;/p&gt;

&lt;h3&gt;
  
  
  Почему это критично именно для ОСНО
&lt;/h3&gt;

&lt;p&gt;Для компаний на УСН «Доходы» или на патенте входящий НДС вообще не играет роли — они его не вычитают по определению. Если вы малый бизнес на упрощёнке, разница между поставщиком с НДС и без — для вас нулевая, и весь этот раздел можно пропустить: смотрите только на итоговую цену.&lt;/p&gt;

&lt;p&gt;А вот для &lt;strong&gt;крупного B2B на ОСНО&lt;/strong&gt; (а это значительная часть тех, кто закупает LLM-доступ на серьёзные суммы) потеря входящего НДС — это реальное удорожание услуги на величину ставки. Если поставщик не даёт НДС к вычету, то услуга за условные 100 000 ₽ обходится вам как 100 000 ₽ расходов без какого-либо уменьшения вашего собственного НДС — тогда как поставщик-плательщик НДС позволил бы вернуть часть через вычет. На годовом бюджете в сотни тысяч или миллионы рублей это ощутимо.&lt;/p&gt;

&lt;p&gt;Promptra оформляет отношения через российское юр.лицо с полным пакетом закрывающих документов через ЭДО. Конкретные ставки и режим мы не публикуем на сайте — это часть договора, который вы получаете при подключении; правильный путь — запросить образец оферты и счёта-фактуры и показать его своему бухгалтеру до старта. Это ровно то же, что я рекомендую делать и с AITUNNEL, и с любым другим сервисом: не верить статье (включая эту), а проверить документы под свою систему налогообложения.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fbf653tkuyr52a5abciax.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fbf653tkuyr52a5abciax.png" alt="Диаграмма потока входящего НДС: слева блок-покупатель на ОСНО, к нему ведут две стрелки от двух поставщиков, верхняя стрелка проходит через узел-вентиль и доходит до покупателя как полная, нижняя стрелка обрывается на закрытом вентиле, символизируя отсутствие вычета, всё в тёплой палитре без подписей" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Цена за токен: методология вместо чужого прайса
&lt;/h2&gt;

&lt;p&gt;Здесь я сознательно не вставляю рублёвые ценники AITUNNEL. Причина простая: чужой прайс живёт на чужом сайте, меняется, и фиксировать его в статье на одну дату — значит вводить читателя в заблуждение через неделю. Поэтому разберём методологию, по которой стоит сравнивать любой сервис, и покажу нашу часть с открытыми цифрами.&lt;/p&gt;

&lt;p&gt;Любой агрегатор зарабатывает одним из двух способов (или их комбинацией):&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Наценка на токены&lt;/strong&gt; — продаёт токены дороже, чем платит провайдеру. Тогда «цена за миллион токенов» на сайте уже включает маржу сервиса.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Сервисная комиссия / подписка&lt;/strong&gt; — берёт фиксированный процент или плату за обслуживание, а токены отдаёт близко к себестоимости.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Чтобы честно сравнить два сервиса, нужно привести обе модели к общему знаменателю — &lt;strong&gt;сколько вы реально заплатите за миллион входящих и исходящих токенов конкретной модели, со всеми комиссиями&lt;/strong&gt;. Маркетинговая фраза «у нас 200+ моделей» или «у нас дёшево» без привязки к конкретной модели и итоговой сумме — это не цифра, а лозунг.&lt;/p&gt;

&lt;p&gt;Вот наша сторона, открыто. Promptra держит цену токенов 1-в-1 с провайдером по курсу ЦБ (наценка 0%), а зарабатывает на 5% сервисной комиссии, которая берётся &lt;strong&gt;только при пополнении баланса&lt;/strong&gt;, не от токенов. Пересчёт из официального долларового прайса провайдеров по курсу ЦБ 71.668 ₽/USD на 27.05.2026:&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Модель&lt;/th&gt;
&lt;th&gt;USD input / output (за 1M)&lt;/th&gt;
&lt;th&gt;Promptra input / output (₽ за 1M)&lt;/th&gt;
&lt;th&gt;Источник прайса&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.5&lt;/td&gt;
&lt;td&gt;$5 / $30&lt;/td&gt;
&lt;td&gt;350 / 2150&lt;/td&gt;
&lt;td&gt;&lt;a href="https://developers.openai.com/api/docs/pricing" rel="noopener noreferrer"&gt;developers.openai.com&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4&lt;/td&gt;
&lt;td&gt;$2.5 / $15&lt;/td&gt;
&lt;td&gt;170 / 1070&lt;/td&gt;
&lt;td&gt;то же&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-5.4 Mini&lt;/td&gt;
&lt;td&gt;$0.75 / $4.5&lt;/td&gt;
&lt;td&gt;50 / 320&lt;/td&gt;
&lt;td&gt;то же&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.7&lt;/td&gt;
&lt;td&gt;$5 / $25&lt;/td&gt;
&lt;td&gt;350 / 1790&lt;/td&gt;
&lt;td&gt;&lt;a href="https://platform.claude.com/docs/en/about-claude/pricing" rel="noopener noreferrer"&gt;platform.claude.com&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
&lt;td&gt;$3 / $15&lt;/td&gt;
&lt;td&gt;210 / 1070&lt;/td&gt;
&lt;td&gt;то же&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 3.1 Pro&lt;/td&gt;
&lt;td&gt;$2 / $12&lt;/td&gt;
&lt;td&gt;140 / 860&lt;/td&gt;
&lt;td&gt;&lt;a href="https://ai.google.dev/gemini-api/docs/pricing" rel="noopener noreferrer"&gt;ai.google.dev&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GLM 5.1&lt;/td&gt;
&lt;td&gt;$1.4 / $4.4&lt;/td&gt;
&lt;td&gt;100 / 310&lt;/td&gt;
&lt;td&gt;&lt;a href="https://docs.z.ai/guides/overview/pricing" rel="noopener noreferrer"&gt;docs.z.ai&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Qwen 3.6 Plus&lt;/td&gt;
&lt;td&gt;$0.325 / $1.95&lt;/td&gt;
&lt;td&gt;20 / 130&lt;/td&gt;
&lt;td&gt;&lt;a href="https://www.alibabacloud.com/help/en/model-studio/model-pricing" rel="noopener noreferrer"&gt;alibabacloud.com&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Как пользоваться этой таблицей при сравнении с AITUNNEL: возьмите ту же модель на &lt;a href="https://aitunnel.ru" rel="noopener noreferrer"&gt;их сайте&lt;/a&gt;, посмотрите их цену за миллион токенов и итоговую сумму с учётом всех комиссий — и сопоставьте с цифрой из колонки Promptra. Если их цена выше нашей, разница и есть их наценка на токены. Если ниже — отлично, проверьте, нет ли отдельной комиссии или подписки, чтобы сравнение было «как есть». Это честный способ, не зависящий от моих слов.&lt;/p&gt;

&lt;h3&gt;
  
  
  Про DeepSeek и промо-цены — отдельная осторожность
&lt;/h3&gt;

&lt;p&gt;Один частый источник путаницы при сравнении агрегаторов — &lt;strong&gt;промо-цены провайдеров&lt;/strong&gt;. Например, DeepSeek V4 Pro на 27.05.2026 стоит у провайдера $0.435 / $0.87 за миллион токенов (это &lt;strong&gt;30 / 60 ₽&lt;/strong&gt; по курсу ЦБ) — но это &lt;strong&gt;промо со скидкой 75%, которое заканчивается 31.05.2026&lt;/strong&gt;. После окончания базовая цена вернётся к примерно $1.74 / $3.48 (около 120 / 240 ₽). Если один сервис показывает промо-цену, а другой — уже базовую, прямое сравнение «у кого дешевле DeepSeek» будет некорректным. Всегда уточняйте, акционная цена перед вами или постоянная, и до какой даты она действует.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frmox1zm4fmt5un5yq4pj.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frmox1zm4fmt5un5yq4pj.png" alt="Две горизонтальные шкалы-полосы одинаковой длины как два прайса, под ними тонкая ось, левая полоса разбита на длинный сегмент и короткий хвост-комиссию, правая полоса цельная, визуальное сравнение структуры цены без чисел, тёплые тона терракоты и кремового" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Каталог моделей: ширина против фокуса
&lt;/h2&gt;

&lt;p&gt;Здесь — честное преимущество AITUNNEL. Их позиционирование «200+ моделей» — это про охват, и для ряда сценариев это реально полезно.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;AITUNNEL&lt;/strong&gt; делает ставку на широту: чем больше моделей за одним ключом, тем выше шанс, что найдётся ровно та, что нужна под нишевую задачу — редкий язык, специфический open-weight чекпойнт, экзотический мультимодальный вариант. Если ваш кейс — «перепробовать десятки моделей и найти оптимум», или вам нужны модели, которые не входят в стандартную обойму флагманов, широкий каталог экономит время на интеграции разных провайдеров поодиночке.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Promptra&lt;/strong&gt; идёт по пути фокуса на флагманах и рабочих лошадках, которые покрывают подавляющее большинство production-задач:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;OpenAI&lt;/strong&gt; — GPT-5.5, GPT-5.4, GPT-5.4 Mini, GPT-5.3 Codex&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Anthropic&lt;/strong&gt; — Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4.5&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Google&lt;/strong&gt; — Gemini 3.1 Pro, Gemini 3.5 Flash, Gemini 3.1 Flash Lite&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;DeepSeek&lt;/strong&gt; — V4 Pro (сильна в коде и матлогике за копейки)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Азиатские&lt;/strong&gt; — Qwen 3.6 Plus (Alibaba), GLM 5.1 (Z.ai), Kimi K2.5 (Moonshot), MiniMax M2.7&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Мультимодальные&lt;/strong&gt; — генерация изображений (Nano Banana Pro, GPT Image 2) и видео (Veo 3.1, Seedance 2.0, Kling v3)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Плюс широкого каталога — гибкость и шанс найти нишевый оптимум. Минус — за сотнями моделей сложнее уследить, какие из них реально стабильны и активно мониторятся на качество; часть «галочек в списке» может быть редко используемыми endpoint'ами. Плюс фокусированного каталога — за каждой моделью стоит понятная роль и регулярная проверка. Минус — если вам нужна именно экзотика, которой в фокус-наборе нет, придётся искать её в другом месте.&lt;/p&gt;

&lt;p&gt;Практический критерий выбора: &lt;strong&gt;выпишите модели, которые реально нужны вашему проекту, и проверьте наличие каждой у обоих сервисов.&lt;/strong&gt; Число «200+» само по себе ничего не говорит, если 195 из них вы никогда не вызовете. И наоборот — если вам нужна одна редкая модель, которой нет в фокус-наборе, ширина каталога решает.&lt;/p&gt;

&lt;h2&gt;
  
  
  Документы для бухгалтерии: что вы получите
&lt;/h2&gt;

&lt;p&gt;Эту часть разработчики обычно пропускают, а бухгалтерия проверяет первой. От пакета документов зависит, сможете ли вы вообще принять расход к учёту без вопросов от ФНС.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;AITUNNEL&lt;/strong&gt; работает с юрлицами и поддерживает ЭДО — это указано в их публичных материалах, и для агрегатора уровня лидера рынка это ожидаемо. Конкретный состав пакета (договор, акт, счёт-фактура, УПД, ставка НДС) и формат передачи стоит уточнить напрямую у них перед подключением, особенно если вам нужен входящий НДС к вычету — см. раздел про ИП vs ООО выше. Запросите образец договора и счёта-фактуры, покажите бухгалтеру.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Promptra&lt;/strong&gt; ориентирован на B2B-сценарий с первого дня: договор-оферта, счёт на оплату, акт оказанных услуг, счёт-фактура и &lt;strong&gt;УПД формата 5.03 через ЭДО&lt;/strong&gt; (Диадок, СБИС, 1С-ЭДО) — это стандартный пакет, а не доплата. С 1 января 2026 года формат &lt;a href="https://tochka.com/knowledge/edo/s-2026-goda-upd-stanovitsya-edinstvennym-elektronnym-dokumentom-fns-otmenyaet-starye-formaty/" rel="noopener noreferrer"&gt;УПД 5.03 стал единственным легитимным электронным форматом&lt;/a&gt; для закрывающих документов — это не наша прихоть, а требование ФНС. Реквизиты российское юр.лицо опубликованы на странице &lt;a href="https://promptra.ru/legal/requisites/" rel="noopener noreferrer"&gt;/legal/requisites&lt;/a&gt; для проверки контрагента.&lt;/p&gt;

&lt;p&gt;Важный нюанс, который касается обоих сервисов: формулировка предмета услуги в акте/УПД должна быть развёрнутой («предоставление доступа к API больших языковых моделей за период…»), иначе при проверке инспектор вправе усомниться в экономической обоснованности расхода (ст. 252 НК РФ). Подробный разбор того, какие документы нужны и какие ошибки бухгалтерии налоговая снимает с базы, — в нашем материале &lt;a href="https://promptra.ru/blog/zakryvayushchie-dokumenty-ai" rel="noopener noreferrer"&gt;про закрывающие документы по нейросетям&lt;/a&gt;. А по вопросу легальности самой схемы оплаты зарубежных LLM на российское юрлицо — отдельный разбор: &lt;a href="https://promptra.ru/blog/legalno-li-ai-api-yurlico" rel="noopener noreferrer"&gt;легально ли использовать OpenAI/Claude на юрлицо в РФ&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fkfr0i7fyj4gopi8a9zg3.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fkfr0i7fyj4gopi8a9zg3.png" alt="Поток документооборота как горизонтальная цепочка из пяти связанных прямоугольных карточек разной фактуры, идущих слева направо со стрелками между ними, последняя карточка с символом печати, всё в тёплых кремово-терракотовых тонах без текста" width="800" height="800"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Поддержка и подключение
&lt;/h2&gt;

&lt;p&gt;Оба сервиса дают OpenAI-совместимый API — это значит, что подключение в обоих случаях сводится к замене &lt;code&gt;base_url&lt;/code&gt; в вашем существующем коде. Никакого переписывания SDK: меняете адрес и ключ, остальное работает как раньше.&lt;/p&gt;

&lt;p&gt;Для Promptra drop-in выглядит так:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="n"&gt;openai&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;OpenAI&lt;/span&gt;

&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
 &lt;span class="n"&gt;api_key&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;ваш-ключ-promptra&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="n"&gt;base_url&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;https://api.promptra.ru/v1&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;resp&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
 &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;anthropic/claude-sonnet-4.6&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Привет!&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}],&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;span class="nf"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;resp&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="n"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;content&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;





&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight javascript"&gt;&lt;code&gt;&lt;span class="k"&gt;import&lt;/span&gt; &lt;span class="nx"&gt;OpenAI&lt;/span&gt; &lt;span class="k"&gt;from&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;openai&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;;&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="k"&gt;new&lt;/span&gt; &lt;span class="nc"&gt;OpenAI&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
 &lt;span class="na"&gt;apiKey&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="nx"&gt;process&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;env&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;PROMPTRA_API_KEY&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="na"&gt;baseURL&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;https://api.promptra.ru/v1&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;span class="p"&gt;});&lt;/span&gt;

&lt;span class="kd"&gt;const&lt;/span&gt; &lt;span class="nx"&gt;resp&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="k"&gt;await&lt;/span&gt; &lt;span class="nx"&gt;client&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;chat&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;completions&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;create&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
 &lt;span class="na"&gt;model&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;openai/gpt-5.4&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
 &lt;span class="na"&gt;messages&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[{&lt;/span&gt; &lt;span class="na"&gt;role&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;user&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="na"&gt;content&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="dl"&gt;"&lt;/span&gt;&lt;span class="s2"&gt;Привет!&lt;/span&gt;&lt;span class="dl"&gt;"&lt;/span&gt; &lt;span class="p"&gt;}],&lt;/span&gt;
&lt;span class="p"&gt;});&lt;/span&gt;
&lt;span class="nx"&gt;console&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;log&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="nx"&gt;resp&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;choices&lt;/span&gt;&lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="mi"&gt;0&lt;/span&gt;&lt;span class="p"&gt;].&lt;/span&gt;&lt;span class="nx"&gt;message&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nx"&gt;content&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;По части поддержки разница в философии. AITUNNEL как массовый сервис с тысячами клиентов выстраивает поддержку под объём — документация, типовые ответы, обработка большого потока обращений. Promptra на текущем этапе делает ставку на прямой контакт: все вопросы по подключению идут напрямую в Telegram к команде, без многоступенчатого тикет-конвейера. У каждого подхода свои плюсы: массовая поддержка лучше масштабируется, прямой контакт быстрее для нестандартных вопросов и подключения с кастомными условиями.&lt;/p&gt;

&lt;h2&gt;
  
  
  Когда выбирать AITUNNEL, когда Promptra
&lt;/h2&gt;

&lt;p&gt;Честный decision tree без перетягивания одеяла.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Выбирайте AITUNNEL, если:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;вам нужен максимально широкий каталог моделей, включая нишевые и экзотические, которых нет в фокус-наборах конкурентов;&lt;/li&gt;
&lt;li&gt;вы цените, что сервис на рынке давно и работает с большим числом клиентов — это аргумент для службы безопасности про устойчивость;&lt;/li&gt;
&lt;li&gt;ваша задача — много экспериментировать с разными моделями за одним ключом;&lt;/li&gt;
&lt;li&gt;вы малый бизнес на УСН/патенте, где входящий НДС не играет роли, и решает только итоговая цена и удобство.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Выбирайте Promptra, если:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;вы B2B-компания на ОСНО, и вам важен входящий НДС к вычету и полный пакет закрывающих документов (УПД 5.03 через ЭДО) с первого пополнения как стандарт;&lt;/li&gt;
&lt;li&gt;для вас принципиальна прозрачная экономика токенов — цена 1-в-1 с провайдером по курсу ЦБ, без наценки, с понятной 5% комиссией при пополнении;&lt;/li&gt;
&lt;li&gt;вам достаточно фокусированного набора флагманов (GPT, Claude, Gemini, DeepSeek + азиатские), и вы предпочитаете, чтобы за каждой моделью стояла понятная роль;&lt;/li&gt;
&lt;li&gt;вам нужен прямой контакт с командой для подключения на кастомных условиях.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Универсальный совет для любого выбора:&lt;/strong&gt; не верьте ни AITUNNEL, ни мне на слово. Сделайте три вещи. Первое — выпишите нужные именно вам модели и проверьте их наличие у обоих. Второе — запросите образец договора и счёта-фактуры и покажите бухгалтеру (особенно если вы на ОСНО — проверьте НДС). Третье — прогоните реальную тестовую нагрузку на день-два на каждом, это стоит копейки и даёт честный personal benchmark по латентности и качеству. Выбор инфраструктурного поставщика — как выбор любой критической инфраструктуры: с тестами и backup-планом, а не «один навсегда по статье из интернета».&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;Promptra&lt;/strong&gt; — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.&lt;/p&gt;

&lt;p&gt;Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.&lt;/p&gt;

&lt;p&gt;Try: &lt;a href="https://promptra.ru" rel="noopener noreferrer"&gt;promptra.ru&lt;/a&gt; · &lt;a href="https://promptra.ru/models" rel="noopener noreferrer"&gt;model catalog&lt;/a&gt; · &lt;a href="https://promptra.ru/docs" rel="noopener noreferrer"&gt;docs&lt;/a&gt;&lt;/p&gt;

</description>
      <category>aitunnel</category>
      <category>promptra</category>
      <category>vs</category>
      <category>llm</category>
    </item>
  </channel>
</rss>
