DEV Community

Promptra Team for Promptra

Posted on

Нейросеть для транскрибации: расшифровка аудио в текст

Конвейер расшифровки: запись аудио поступает в Gemini 3.1 Pro, на выходе текст, затем LLM формирует саммари и тезисы — всё через один API в рублях

Нейросеть для транскрибации — это модель, которой вы отправляете аудио- или видеозапись, а она возвращает текстовую расшифровку речи. По состоянию на 2026-05-29 в нашем каталоге звук на вход принимает Gemini 3.1 Pro Preview от Google — то есть запись можно отправить прямо в модель и получить готовую расшифровку в одном запросе. Дальше за дело берётся любая текстовая LLM: она чистит расшифровку от слов-паразитов, делает краткое содержание, выделяет тезисы и собирает протокол встречи с задачами и решениями. Всё это работает через один OpenAI-совместимый API, оплачивается в рублях по курсу ЦБ, без наценки на токены.

Этот гайд — про то, чем расшифровать аудио в текст нейросетью, какая модель что делает (важно не путать распознавание речи и постобработку), сколько транскрибация ИИ стоит в рублях и как вызвать её парой строк кода. Тон — инженерный, на цифрах. Цены — ровно те, что клиент видит на странице тарифов: 1-в-1 с провайдером по курсу ЦБ (71.668 ₽/$ на 2026-05-27).

Что такое транскрибация нейросетью

Транскрибация — это перевод устной речи в письменный текст. Расшифровывают совещания, интервью, подкасты, лекции, голосовые сообщения, записи звонков колл-центра, дорожку звука из видео. Раньше это делали вручную (час записи — 4-6 часов работы расшифровщика) или через узкоспециализированные сервисы распознавания речи. Сегодня задачу закрывает нейросеть, и закрывает в два логически разных шага, которые важно не смешивать.

Шаг первый — распознавание речи (ASR / speech-to-text). Модель слушает звук и превращает его в поток слов. Это техническая задача: разобрать произношение, расставить границы слов, по возможности — пунктуацию. Здесь нужна модель, которая физически принимает аудио на вход.

Шаг второй — постобработка текстом (LLM). Сырая расшифровка почти всегда требует доработки: убрать «эээ», «ну», повторы и оговорки; разбить сплошной поток на абзацы и реплики; сделать выжимку; выделить решения и задачи. Это уже работа обычной текстовой языковой модели — ей на вход идёт не звук, а готовый текст расшифровки.

Разница принципиальна для выбора модели и для счёта. Принять аудио умеет не каждая модель — это отдельная мультимодальная способность. А вот постобработку текста тянет любая LLM, и тут можно взять модель подешевле. Дальше разберём оба шага по очереди и честно скажем, что из этого делает наш API напрямую, а что — через дополнительные инструменты.

Схема двух шагов транскрибации: слева блок «Распознавание речи (ASR): аудио в текст», справа блок «Постобработка LLM: чистка, саммари, тезисы, протокол», между ними стрелка с подписью «сырой текст»

Чем расшифровать аудио в текст: модели с аудио-входом

Чтобы отправить запись прямо в модель и получить расшифровку, нужна модель с аудио во входных модальностях. В нашем каталоге такая способность есть у флагмана Google.

Gemini 3.1 Pro Preview — принимает звук на вход

Gemini 3.1 Pro Preview (google/gemini-3.1-pro-preview) — единственная в нашем каталоге крупная reasoning-модель, у которой во входных модальностях указан audio наряду с изображением и текстом. На практике это значит, что вы отправляете в модель аудиофайл вместе с инструкцией «расшифруй эту запись» — и получаете текст. Не нужен отдельный сервис распознавания: звук и задание идут одним запросом.

Что важно для транскрибации:

  • Звук на вход. Можно отправить запись разговора, голосовое сообщение, дорожку из видео.
  • Контекст 1 048 576 токенов (округлённо 1M). Длинная запись и инструкция целиком помещаются в один запрос, а расшифровку сразу можно попросить структурировать.
  • Reasoning. Та же модель в том же запросе способна не просто расшифровать, но и сразу выделить ключевые мысли, потому что понимает смысл сказанного, а не только слова.

Цена по каталогу: $2 / $12 за 1М токенов (вход / выход) — это 140 / 860 ₽. Аудио на входе тарифицируется в токенах, как и текст: примерно 32 токена на секунду звука (ориентир Google; точный расход зависит от записи). Час разговора — это порядка 115 тысяч входных токенов, то есть около 16 ₽ за вход на расшифровку часовой встречи. Подробный разбор флагмана — в материале про Gemini 3.1 Pro API в России, а как вообще получить доступ к Gemini из РФ — в гайде Gemini в России.

Чего в каталоге нет: специализированные STT-сервисы

Честно обозначим границу. Помимо мультимодальных LLM, существует отдельный класс инструментов — узкоспециализированные сервисы распознавания речи (например, модели семейства Whisper и подобные STT-движки). Они заточены строго под одну задачу — превратить звук в текст — и на больших объёмах однотипных записей могут быть дешевле и быстрее, чем гонять аудио через большую LLM. Многие из них дают точные тайм-коды по каждому слову и аккуратную диаризацию (разметку «кто говорит»).

В нашем каталоге на 2026-05-29 выделенного speech-to-text сервиса нет — мы не предлагаем отдельный Whisper-endpoint и не выставляем на него цену. Поэтому если ваш сценарий — это поток из тысяч часов записей с требованием к посекундным тайм-кодам, имеет смысл смотреть и в сторону специализированного STT. А вот связка «Gemini принимает аудио и расшифровывает → текстовая LLM приводит расшифровку в порядок и делает саммари» закрывается через наш API целиком и для большинства задач (встречи, интервью, подкасты) её достаточно.

Сравнительная схема двух подходов к распознаванию речи: слева карточка «Gemini 3.1 Pro — аудио на вход, 140/860 ₽, расшифровка плюс смысл в одном запросе», справа карточка «Специализированный STT — узкая задача, тайм-коды, диаризация; в каталоге Promptra нет»

Как сделать расшифровку по API: аудио в текст

Главное удобство — всё работает через один OpenAI-совместимый endpoint. Если у вас уже есть код на официальном SDK OpenAI, меняется только base_url и идентификатор модели. Endpoint Promptra: https://api.promptra.ru/v1.

Аудио передаётся в запрос как часть мультимодального сообщения: файл кодируется в base64 и кладётся в content рядом с текстовой инструкцией. Ниже — расшифровка локального аудиофайла через Gemini 3.1 Pro на Python.

import base64
from openai import OpenAI

client = OpenAI(
 api_key="prm-xxxxxxxxxxxx",
 base_url="https://api.promptra.ru/v1",
)

with open("meeting.mp3", "rb") as f:
 audio_b64 = base64.b64encode(f.read).decode("utf-8")

system = (
 "Ты расшифровщик. Точно перенеси речь в текст на русском языке. "
 "Расставь пунктуацию и абзацы. Реплики разных говорящих оформляй "
 "с новой строки. Не добавляй ничего от себя, не пересказывай."
)

response = client.chat.completions.create(
 model="google/gemini-3.1-pro-preview",
 messages=[
 {"role": "system", "content": system},
 {
 "role": "user",
 "content": [
 {"type": "text", "text": "Расшифруй эту запись."},
 {
 "type": "input_audio",
 "input_audio": {"data": audio_b64, "format": "mp3"},
 },
 ],
 },
 ],
 temperature=0.2,
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Практические детали именно для расшифровки:

  • temperature 0.0-0.2. Транскрибация — задача с «правильным» ответом. Низкая температура снижает риск, что модель начнёт перефразировать вместо точного переноса речи.
  • Инструкция «не добавляй от себя». Без неё модель иногда подытоживает или дополняет — лишнее, когда нужна дословная расшифровка.
  • Формат файла. Указывайте реальный формат записи (mp3, wav, m4a и т. п.). Длинные записи перед отправкой имеет смысл сжать в моно — на качество расшифровки это почти не влияет, а входной объём уменьшает.
  • Длинные записи. Совещание на несколько часов лучше резать на куски по 20-30 минут и расшифровывать по частям — так проще обрабатывать ошибки и не упереться в лимиты одного запроса.

Node.js / TypeScript

import fs from "node:fs";
import OpenAI from "openai";

const client = new OpenAI({
 apiKey: process.env.PROMPTRA_API_KEY,
 baseURL: "https://api.promptra.ru/v1",
});

const audioB64 = fs.readFileSync("interview.mp3").toString("base64");

const res = await client.chat.completions.create({
 model: "google/gemini-3.1-pro-preview",
 messages: [
 { role: "system", content: "Точно расшифруй речь на русском, с пунктуацией." },
 {
 role: "user",
 content: [
 { type: "text", text: "Расшифруй запись интервью." },
 { type: "input_audio", input_audio: { data: audioB64, format: "mp3" } },
 ],
 },
 ],
 temperature: 0.2,
});

console.log(res.choices[0].message.content);
Enter fullscreen mode Exit fullscreen mode

Идентификатор модели берётся из каталога: google/gemini-3.1-pro-preview. Чтобы расшифровать видео, отдельный шаг не нужен — достаточно вытащить из ролика звуковую дорожку (например, утилитой ffmpeg) и отправить её тем же запросом. Картинка-кадр модели не нужна: для транскрибации работает только звук.

Блок-схема расшифровки через API: слева прямоугольник «Ваш код: аудиофайл base64 плюс инструкция», стрелка к терракотовому блоку «Promptra · api.promptra.ru/v1», от него к блоку «Gemini 3.1 Pro (аудио на вход)», стрелка назад «текст расшифровки»

Постобработка LLM: саммари, тезисы, протокол встречи

Сырая расшифровка — это ещё не готовый документ. Живая речь полна слов-паразитов, повторов, оборванных фраз и «воды». Здесь начинается второй шаг, и это уже чистая работа текстовой LLM: на вход идёт текст расшифровки, на выход — то, что вам реально нужно. Для постобработки звук не требуется, поэтому можно взять модель подешевле — например, GPT-5.4, Gemini 3.5 Flash или DeepSeek V4 Pro.

Что обычно делают с расшифровкой:

  • Чистка. Убрать «эээ», «ну», «как бы», повторы и оговорки; превратить поток в читаемый текст. «Очисти расшифровку от слов-паразитов и повторов, сохрани смысл и все факты дословно».
  • Краткое содержание (саммари). Сжать часовую встречу в абзац-два. Это одна из самых дешёвых операций: вход большой, выход короткий, платите в основном за вход.
  • Тезисы. Маркированный список ключевых мыслей — для тех, кто на встрече не был.
  • Протокол встречи. Структура «обсудили / решили / задачи». Самый ценный для бизнеса формат.

Пример промпта для протокола встречи из готовой расшифровки:

transcript = "..." # текст расшифровки из предыдущего шага

system = """Ты ассистент, который оформляет протоколы встреч.
На входе — расшифровка совещания. Верни структурированный протокол:
1. Краткое содержание (3-5 предложений).
2. Ключевые решения (маркированный список).
3. Задачи: что, кто ответственный, срок (если назван).
4. Открытые вопросы.
Опирайся только на текст расшифровки, ничего не выдумывай."""

response = client.chat.completions.create(
 model="openai/gpt-5.4",
 messages=[
 {"role": "system", "content": system},
 {"role": "user", "content": transcript},
 ],
 temperature=0.3,
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Эти два шага удобно объединять в один конвейер: Gemini расшифровывает запись, результат сразу уходит в текстовую модель за протоколом. А можно сделать всё в один запрос к Gemini 3.1 Pro — попросить и расшифровать, и сразу выдать саммари с задачами, раз модель всё равно понимает смысл сказанного. Для коротких записей это удобно; для длинных совещаний разбивка на два шага надёжнее и обычно дешевле, потому что постобработку делает модель дешевле флагмана. Тот же приём двухуровневой обработки разбираем в гайде по генерации текста нейросетью, а если запись на иностранном языке — её можно сразу перевести нейросетью на том же API.

Цена транскрибации в рублях

Считаем по нашему каталогу. Цены — вербатим, 1-в-1 с провайдером по курсу ЦБ 71.668 ₽/$, вход/выход за 1 млн токенов.

Модель Роль в расшифровке Вход, ₽ Выход, ₽ Аудио на входе
Gemini 3.1 Pro Preview распознавание речи (аудио в текст) 140 860 да
GPT-5.4 постобработка: протокол, чистка 170 1070 нет
Gemini 3.5 Flash дешёвая постобработка нет
DeepSeek V4 Pro массовая постобработка, саммари 30 60 нет

Несколько уточнений к таблице:

  • Распознавание делает только Gemini 3.1 Pro — у остальных моделей в каталоге аудио нет во входных модальностях. Постобработку текста может делать любая из них.
  • Аудио тарифицируется в токенах. Ориентир Google — около 32 токенов на секунду звука. То есть минута записи — примерно 1 900 входных токенов, час — около 115 тысяч.
  • Сервисная комиссия 5% берётся отдельно — только при пополнении баланса, не от токенов. На сам объём расшифровки наценки нет; 5% — это плата за работу сервиса, эквайринг и поддержку, разовая при пополнении.
  • Все цифры — из каталога на дату публикации; актуальные значения всегда на странице тарифов.

Грубый расчёт для интуиции. Часовая встреча — это около 115K входных токенов аудио и, скажем, 12K токенов текстовой расшифровки на выходе. На Gemini 3.1 Pro расшифровка обойдётся примерно в 16 ₽ за вход и около 10 ₽ за выход — порядка 25-30 ₽ за час записи. Постобработка готовой расшифровки в протокол на дешёвой модели вроде DeepSeek — это ещё единицы рублей. Итого расшифровка часового совещания с готовым протоколом — в районе 30-40 ₽. Для сравнения: ручная расшифровка часа записи у фрилансера — это обычно несколько сотен, а то и тысяч рублей и день ожидания.

Горизонтальная столбчатая диаграмма «Сколько стоит расшифровать 1 час записи»: столбец «Gemini 3.1 Pro расшифровка — около 26 ₽» (терракотовый), столбец «плюс протокол на DeepSeek — единицы рублей», выноска «итого ~30-40 ₽ за час», заголовок и подписи на русском

Сценарии: где расшифровка аудио в текст окупается

Совещания и созвоны

Самый частый сценарий. Запись звонка в Zoom, Telegram или на диктофон отправляется в Gemini, на выходе — расшифровка, а затем протокол с решениями и задачами. Команде не нужно держать отдельного секретаря, а участники, которые пропустили встречу, читают выжимку за минуту вместо часа аудио. Ключевое требование — структура «решили / задачи», поэтому постобработку стоит настроить под формат протокола вашей компании.

Подкасты и видео

Расшифровка эпизода нужна для субтитров, текстовой версии на сайте (это ещё и плюс к SEO — поисковики индексируют текст, а не звук) и нарезки цитат для соцсетей. Дорожку из видео достаём через ffmpeg, отправляем в Gemini, получаем текст, а затем просим LLM выделить самые «цитатные» куски и заголовки для клипов. Часовой подкаст превращается в готовый к публикации текст за минуты.

Интервью и исследования

Глубинные интервью, опросы пользователей, экспертные беседы. Здесь расшифровка — только начало: дальше LLM помогает свести десяток интервью в общие выводы, найти повторяющиеся темы и боли. Для дословной расшифровки берут Gemini с низкой температурой, для анализа массива — модель с длинным контекстом, чтобы все интервью поместились в один запрос.

Колл-центр и поддержка

Записи разговоров с клиентами расшифровываются и анализируются на тон, причины обращений, частые проблемы. На потоке тысяч звонков в день имеет смысл оценить и специализированный STT (которого у нас в каталоге нет), но связка «Gemini расшифровывает выборку → LLM классифицирует обращения и считает статистику» работает через наш API и хорошо подходит для аналитики качества и обучения операторов.

Инфографика из четырёх карточек «Где окупается расшифровка»: «Совещания — протокол с задачами», «Подкасты и видео — субтитры и текст на сайт», «Интервью — сведение выводов», «Колл-центр — анализ обращений», каждая с короткой подписью, на русском

Оплата расшифровки на юрлицо в рублях

Если транскрибация нужна команде или компании, важен не только сам API, но и то, как за него платить. Прямая оплата Google из России для юрлица упирается в две проблемы: сервис не работает с российскими картами и реквизитами, а платёж за рубеж без правильно оформленных документов сложно принять к учёту.

Через Promptra расшифровка оплачивается на российское юрлицо — оплата в рублях по договору, полный пакет закрывающих документов. На каждое пополнение баланса выдаётся договор-оферта, счёт, акт, счёт-фактура и УПД; документооборот ведётся через ЭДО (Диадок, СБИС), и документы автоматически попадают в учётную систему. Расходы на API корректно учитываются как услуги, без серых схем с возмещением сотруднику. Цены на токены — 1-в-1 с провайдером по курсу ЦБ, сервисная комиссия 5% удерживается только при пополнении баланса. Это не обход блокировок и работает без VPN: вы делаете запрос на российский endpoint и платите рублёвой платёжкой. Подробно про документы и легальность — в посте легально ли использовать AI API на юрлицо.


Promptra — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.

Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.

Try: promptra.ru · model catalog · docs

Top comments (0)