Нейросеть для транскрибации — это модель, которой вы отправляете аудио- или видеозапись, а она возвращает текстовую расшифровку речи. По состоянию на 2026-05-29 в нашем каталоге звук на вход принимает Gemini 3.1 Pro Preview от Google — то есть запись можно отправить прямо в модель и получить готовую расшифровку в одном запросе. Дальше за дело берётся любая текстовая LLM: она чистит расшифровку от слов-паразитов, делает краткое содержание, выделяет тезисы и собирает протокол встречи с задачами и решениями. Всё это работает через один OpenAI-совместимый API, оплачивается в рублях по курсу ЦБ, без наценки на токены.
Этот гайд — про то, чем расшифровать аудио в текст нейросетью, какая модель что делает (важно не путать распознавание речи и постобработку), сколько транскрибация ИИ стоит в рублях и как вызвать её парой строк кода. Тон — инженерный, на цифрах. Цены — ровно те, что клиент видит на странице тарифов: 1-в-1 с провайдером по курсу ЦБ (71.668 ₽/$ на 2026-05-27).
Что такое транскрибация нейросетью
Транскрибация — это перевод устной речи в письменный текст. Расшифровывают совещания, интервью, подкасты, лекции, голосовые сообщения, записи звонков колл-центра, дорожку звука из видео. Раньше это делали вручную (час записи — 4-6 часов работы расшифровщика) или через узкоспециализированные сервисы распознавания речи. Сегодня задачу закрывает нейросеть, и закрывает в два логически разных шага, которые важно не смешивать.
Шаг первый — распознавание речи (ASR / speech-to-text). Модель слушает звук и превращает его в поток слов. Это техническая задача: разобрать произношение, расставить границы слов, по возможности — пунктуацию. Здесь нужна модель, которая физически принимает аудио на вход.
Шаг второй — постобработка текстом (LLM). Сырая расшифровка почти всегда требует доработки: убрать «эээ», «ну», повторы и оговорки; разбить сплошной поток на абзацы и реплики; сделать выжимку; выделить решения и задачи. Это уже работа обычной текстовой языковой модели — ей на вход идёт не звук, а готовый текст расшифровки.
Разница принципиальна для выбора модели и для счёта. Принять аудио умеет не каждая модель — это отдельная мультимодальная способность. А вот постобработку текста тянет любая LLM, и тут можно взять модель подешевле. Дальше разберём оба шага по очереди и честно скажем, что из этого делает наш API напрямую, а что — через дополнительные инструменты.
Чем расшифровать аудио в текст: модели с аудио-входом
Чтобы отправить запись прямо в модель и получить расшифровку, нужна модель с аудио во входных модальностях. В нашем каталоге такая способность есть у флагмана Google.
Gemini 3.1 Pro Preview — принимает звук на вход
Gemini 3.1 Pro Preview (google/gemini-3.1-pro-preview) — единственная в нашем каталоге крупная reasoning-модель, у которой во входных модальностях указан audio наряду с изображением и текстом. На практике это значит, что вы отправляете в модель аудиофайл вместе с инструкцией «расшифруй эту запись» — и получаете текст. Не нужен отдельный сервис распознавания: звук и задание идут одним запросом.
Что важно для транскрибации:
- Звук на вход. Можно отправить запись разговора, голосовое сообщение, дорожку из видео.
- Контекст 1 048 576 токенов (округлённо 1M). Длинная запись и инструкция целиком помещаются в один запрос, а расшифровку сразу можно попросить структурировать.
- Reasoning. Та же модель в том же запросе способна не просто расшифровать, но и сразу выделить ключевые мысли, потому что понимает смысл сказанного, а не только слова.
Цена по каталогу: $2 / $12 за 1М токенов (вход / выход) — это 140 / 860 ₽. Аудио на входе тарифицируется в токенах, как и текст: примерно 32 токена на секунду звука (ориентир Google; точный расход зависит от записи). Час разговора — это порядка 115 тысяч входных токенов, то есть около 16 ₽ за вход на расшифровку часовой встречи. Подробный разбор флагмана — в материале про Gemini 3.1 Pro API в России, а как вообще получить доступ к Gemini из РФ — в гайде Gemini в России.
Чего в каталоге нет: специализированные STT-сервисы
Честно обозначим границу. Помимо мультимодальных LLM, существует отдельный класс инструментов — узкоспециализированные сервисы распознавания речи (например, модели семейства Whisper и подобные STT-движки). Они заточены строго под одну задачу — превратить звук в текст — и на больших объёмах однотипных записей могут быть дешевле и быстрее, чем гонять аудио через большую LLM. Многие из них дают точные тайм-коды по каждому слову и аккуратную диаризацию (разметку «кто говорит»).
В нашем каталоге на 2026-05-29 выделенного speech-to-text сервиса нет — мы не предлагаем отдельный Whisper-endpoint и не выставляем на него цену. Поэтому если ваш сценарий — это поток из тысяч часов записей с требованием к посекундным тайм-кодам, имеет смысл смотреть и в сторону специализированного STT. А вот связка «Gemini принимает аудио и расшифровывает → текстовая LLM приводит расшифровку в порядок и делает саммари» закрывается через наш API целиком и для большинства задач (встречи, интервью, подкасты) её достаточно.
Как сделать расшифровку по API: аудио в текст
Главное удобство — всё работает через один OpenAI-совместимый endpoint. Если у вас уже есть код на официальном SDK OpenAI, меняется только base_url и идентификатор модели. Endpoint Promptra: https://api.promptra.ru/v1.
Аудио передаётся в запрос как часть мультимодального сообщения: файл кодируется в base64 и кладётся в content рядом с текстовой инструкцией. Ниже — расшифровка локального аудиофайла через Gemini 3.1 Pro на Python.
import base64
from openai import OpenAI
client = OpenAI(
api_key="prm-xxxxxxxxxxxx",
base_url="https://api.promptra.ru/v1",
)
with open("meeting.mp3", "rb") as f:
audio_b64 = base64.b64encode(f.read).decode("utf-8")
system = (
"Ты расшифровщик. Точно перенеси речь в текст на русском языке. "
"Расставь пунктуацию и абзацы. Реплики разных говорящих оформляй "
"с новой строки. Не добавляй ничего от себя, не пересказывай."
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[
{"role": "system", "content": system},
{
"role": "user",
"content": [
{"type": "text", "text": "Расшифруй эту запись."},
{
"type": "input_audio",
"input_audio": {"data": audio_b64, "format": "mp3"},
},
],
},
],
temperature=0.2,
)
print(response.choices[0].message.content)
Практические детали именно для расшифровки:
-
temperature0.0-0.2. Транскрибация — задача с «правильным» ответом. Низкая температура снижает риск, что модель начнёт перефразировать вместо точного переноса речи. - Инструкция «не добавляй от себя». Без неё модель иногда подытоживает или дополняет — лишнее, когда нужна дословная расшифровка.
-
Формат файла. Указывайте реальный формат записи (
mp3,wav,m4aи т. п.). Длинные записи перед отправкой имеет смысл сжать в моно — на качество расшифровки это почти не влияет, а входной объём уменьшает. - Длинные записи. Совещание на несколько часов лучше резать на куски по 20-30 минут и расшифровывать по частям — так проще обрабатывать ошибки и не упереться в лимиты одного запроса.
Node.js / TypeScript
import fs from "node:fs";
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.PROMPTRA_API_KEY,
baseURL: "https://api.promptra.ru/v1",
});
const audioB64 = fs.readFileSync("interview.mp3").toString("base64");
const res = await client.chat.completions.create({
model: "google/gemini-3.1-pro-preview",
messages: [
{ role: "system", content: "Точно расшифруй речь на русском, с пунктуацией." },
{
role: "user",
content: [
{ type: "text", text: "Расшифруй запись интервью." },
{ type: "input_audio", input_audio: { data: audioB64, format: "mp3" } },
],
},
],
temperature: 0.2,
});
console.log(res.choices[0].message.content);
Идентификатор модели берётся из каталога: google/gemini-3.1-pro-preview. Чтобы расшифровать видео, отдельный шаг не нужен — достаточно вытащить из ролика звуковую дорожку (например, утилитой ffmpeg) и отправить её тем же запросом. Картинка-кадр модели не нужна: для транскрибации работает только звук.
Постобработка LLM: саммари, тезисы, протокол встречи
Сырая расшифровка — это ещё не готовый документ. Живая речь полна слов-паразитов, повторов, оборванных фраз и «воды». Здесь начинается второй шаг, и это уже чистая работа текстовой LLM: на вход идёт текст расшифровки, на выход — то, что вам реально нужно. Для постобработки звук не требуется, поэтому можно взять модель подешевле — например, GPT-5.4, Gemini 3.5 Flash или DeepSeek V4 Pro.
Что обычно делают с расшифровкой:
- Чистка. Убрать «эээ», «ну», «как бы», повторы и оговорки; превратить поток в читаемый текст. «Очисти расшифровку от слов-паразитов и повторов, сохрани смысл и все факты дословно».
- Краткое содержание (саммари). Сжать часовую встречу в абзац-два. Это одна из самых дешёвых операций: вход большой, выход короткий, платите в основном за вход.
- Тезисы. Маркированный список ключевых мыслей — для тех, кто на встрече не был.
- Протокол встречи. Структура «обсудили / решили / задачи». Самый ценный для бизнеса формат.
Пример промпта для протокола встречи из готовой расшифровки:
transcript = "..." # текст расшифровки из предыдущего шага
system = """Ты ассистент, который оформляет протоколы встреч.
На входе — расшифровка совещания. Верни структурированный протокол:
1. Краткое содержание (3-5 предложений).
2. Ключевые решения (маркированный список).
3. Задачи: что, кто ответственный, срок (если назван).
4. Открытые вопросы.
Опирайся только на текст расшифровки, ничего не выдумывай."""
response = client.chat.completions.create(
model="openai/gpt-5.4",
messages=[
{"role": "system", "content": system},
{"role": "user", "content": transcript},
],
temperature=0.3,
)
print(response.choices[0].message.content)
Эти два шага удобно объединять в один конвейер: Gemini расшифровывает запись, результат сразу уходит в текстовую модель за протоколом. А можно сделать всё в один запрос к Gemini 3.1 Pro — попросить и расшифровать, и сразу выдать саммари с задачами, раз модель всё равно понимает смысл сказанного. Для коротких записей это удобно; для длинных совещаний разбивка на два шага надёжнее и обычно дешевле, потому что постобработку делает модель дешевле флагмана. Тот же приём двухуровневой обработки разбираем в гайде по генерации текста нейросетью, а если запись на иностранном языке — её можно сразу перевести нейросетью на том же API.
Цена транскрибации в рублях
Считаем по нашему каталогу. Цены — вербатим, 1-в-1 с провайдером по курсу ЦБ 71.668 ₽/$, вход/выход за 1 млн токенов.
| Модель | Роль в расшифровке | Вход, ₽ | Выход, ₽ | Аудио на входе |
|---|---|---|---|---|
| Gemini 3.1 Pro Preview | распознавание речи (аудио в текст) | 140 | 860 | да |
| GPT-5.4 | постобработка: протокол, чистка | 170 | 1070 | нет |
| Gemini 3.5 Flash | дешёвая постобработка | — | — | нет |
| DeepSeek V4 Pro | массовая постобработка, саммари | 30 | 60 | нет |
Несколько уточнений к таблице:
- Распознавание делает только Gemini 3.1 Pro — у остальных моделей в каталоге аудио нет во входных модальностях. Постобработку текста может делать любая из них.
- Аудио тарифицируется в токенах. Ориентир Google — около 32 токенов на секунду звука. То есть минута записи — примерно 1 900 входных токенов, час — около 115 тысяч.
- Сервисная комиссия 5% берётся отдельно — только при пополнении баланса, не от токенов. На сам объём расшифровки наценки нет; 5% — это плата за работу сервиса, эквайринг и поддержку, разовая при пополнении.
- Все цифры — из каталога на дату публикации; актуальные значения всегда на странице тарифов.
Грубый расчёт для интуиции. Часовая встреча — это около 115K входных токенов аудио и, скажем, 12K токенов текстовой расшифровки на выходе. На Gemini 3.1 Pro расшифровка обойдётся примерно в 16 ₽ за вход и около 10 ₽ за выход — порядка 25-30 ₽ за час записи. Постобработка готовой расшифровки в протокол на дешёвой модели вроде DeepSeek — это ещё единицы рублей. Итого расшифровка часового совещания с готовым протоколом — в районе 30-40 ₽. Для сравнения: ручная расшифровка часа записи у фрилансера — это обычно несколько сотен, а то и тысяч рублей и день ожидания.
Сценарии: где расшифровка аудио в текст окупается
Совещания и созвоны
Самый частый сценарий. Запись звонка в Zoom, Telegram или на диктофон отправляется в Gemini, на выходе — расшифровка, а затем протокол с решениями и задачами. Команде не нужно держать отдельного секретаря, а участники, которые пропустили встречу, читают выжимку за минуту вместо часа аудио. Ключевое требование — структура «решили / задачи», поэтому постобработку стоит настроить под формат протокола вашей компании.
Подкасты и видео
Расшифровка эпизода нужна для субтитров, текстовой версии на сайте (это ещё и плюс к SEO — поисковики индексируют текст, а не звук) и нарезки цитат для соцсетей. Дорожку из видео достаём через ffmpeg, отправляем в Gemini, получаем текст, а затем просим LLM выделить самые «цитатные» куски и заголовки для клипов. Часовой подкаст превращается в готовый к публикации текст за минуты.
Интервью и исследования
Глубинные интервью, опросы пользователей, экспертные беседы. Здесь расшифровка — только начало: дальше LLM помогает свести десяток интервью в общие выводы, найти повторяющиеся темы и боли. Для дословной расшифровки берут Gemini с низкой температурой, для анализа массива — модель с длинным контекстом, чтобы все интервью поместились в один запрос.
Колл-центр и поддержка
Записи разговоров с клиентами расшифровываются и анализируются на тон, причины обращений, частые проблемы. На потоке тысяч звонков в день имеет смысл оценить и специализированный STT (которого у нас в каталоге нет), но связка «Gemini расшифровывает выборку → LLM классифицирует обращения и считает статистику» работает через наш API и хорошо подходит для аналитики качества и обучения операторов.
Оплата расшифровки на юрлицо в рублях
Если транскрибация нужна команде или компании, важен не только сам API, но и то, как за него платить. Прямая оплата Google из России для юрлица упирается в две проблемы: сервис не работает с российскими картами и реквизитами, а платёж за рубеж без правильно оформленных документов сложно принять к учёту.
Через Promptra расшифровка оплачивается на российское юрлицо — оплата в рублях по договору, полный пакет закрывающих документов. На каждое пополнение баланса выдаётся договор-оферта, счёт, акт, счёт-фактура и УПД; документооборот ведётся через ЭДО (Диадок, СБИС), и документы автоматически попадают в учётную систему. Расходы на API корректно учитываются как услуги, без серых схем с возмещением сотруднику. Цены на токены — 1-в-1 с провайдером по курсу ЦБ, сервисная комиссия 5% удерживается только при пополнении баланса. Это не обход блокировок и работает без VPN: вы делаете запрос на российский endpoint и платите рублёвой платёжкой. Подробно про документы и легальность — в посте легально ли использовать AI API на юрлицо.
Promptra — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.
Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.
Try: promptra.ru · model catalog · docs





Top comments (0)