Promptra Team for Promptra

Posted on Jun 1 • Edited on Jul 9

Нейросеть для транскрибации: расшифровка аудио в текст

#api #llm

Нейросеть для транскрибации — это модель, которой вы отправляете аудио- или видеозапись, а она возвращает текстовую расшифровку речи. По состоянию на 2026-05-29 в нашем каталоге звук на вход принимает Gemini 3.1 Pro Preview от Google — то есть запись можно отправить прямо в модель и получить готовую расшифровку в одном запросе. Дальше за дело берётся любая текстовая LLM: она чистит расшифровку от слов-паразитов, делает краткое содержание, выделяет тезисы и собирает протокол встречи с задачами и решениями. Всё это работает через один OpenAI-совместимый API, оплачивается в рублях по курсу ЦБ, без наценки на токены.

Этот гайд — про то, чем расшифровать аудио в текст нейросетью, какая модель что делает (важно не путать распознавание речи и постобработку), сколько транскрибация ИИ стоит в рублях и как вызвать её парой строк кода. Тон — инженерный, на цифрах. Цены — ровно те, что клиент видит на странице тарифов: 1-в-1 с провайдером по курсу ЦБ (71.668 ₽/$ на 2026-05-27).

Что такое транскрибация нейросетью

Транскрибация — это перевод устной речи в письменный текст. Расшифровывают совещания, интервью, подкасты, лекции, голосовые сообщения, записи звонков колл-центра, дорожку звука из видео. Раньше это делали вручную (час записи — 4-6 часов работы расшифровщика) или через узкоспециализированные сервисы распознавания речи. Сегодня задачу закрывает нейросеть, и закрывает в два логически разных шага, которые важно не смешивать.

Шаг первый — распознавание речи (ASR / speech-to-text). Модель слушает звук и превращает его в поток слов. Это техническая задача: разобрать произношение, расставить границы слов, по возможности — пунктуацию. Здесь нужна модель, которая физически принимает аудио на вход.

Шаг второй — постобработка текстом (LLM). Сырая расшифровка почти всегда требует доработки: убрать «эээ», «ну», повторы и оговорки; разбить сплошной поток на абзацы и реплики; сделать выжимку; выделить решения и задачи. Это уже работа обычной текстовой языковой модели — ей на вход идёт не звук, а готовый текст расшифровки.

Разница принципиальна для выбора модели и для счёта. Принять аудио умеет не каждая модель — это отдельная мультимодальная способность. А вот постобработку текста тянет любая LLM, и тут можно взять модель подешевле. Дальше разберём оба шага по очереди и честно скажем, что из этого делает наш API напрямую, а что — через дополнительные инструменты.

Чем расшифровать аудио в текст: модели с аудио-входом

Чтобы отправить запись прямо в модель и получить расшифровку, нужна модель с аудио во входных модальностях. В нашем каталоге такая способность есть у флагмана Google.

Gemini 3.1 Pro Preview — принимает звук на вход

Gemini 3.1 Pro Preview (google/gemini-3.1-pro-preview) — единственная в нашем каталоге крупная reasoning-модель, у которой во входных модальностях указан audio наряду с изображением и текстом. На практике это значит, что вы отправляете в модель аудиофайл вместе с инструкцией «расшифруй эту запись» — и получаете текст. Не нужен отдельный сервис распознавания: звук и задание идут одним запросом.

Что важно для транскрибации:

Звук на вход. Можно отправить запись разговора, голосовое сообщение, дорожку из видео.
Контекст 1 048 576 токенов (округлённо 1M). Длинная запись и инструкция целиком помещаются в один запрос, а расшифровку сразу можно попросить структурировать.
Reasoning. Та же модель в том же запросе способна не просто расшифровать, но и сразу выделить ключевые мысли, потому что понимает смысл сказанного, а не только слова.

Цена по каталогу: $2 / $12 за 1М токенов (вход / выход) — это 140 / 860 ₽. Аудио на входе тарифицируется в токенах, как и текст: примерно 32 токена на секунду звука (ориентир Google; точный расход зависит от записи). Час разговора — это порядка 115 тысяч входных токенов, то есть около 16 ₽ за вход на расшифровку часовой встречи. Подробный разбор флагмана — в материале про Gemini 3.1 Pro API в России, а как вообще получить доступ к Gemini из РФ — в гайде Gemini в России.

Чего в каталоге нет: специализированные STT-сервисы

Честно обозначим границу. Помимо мультимодальных LLM, существует отдельный класс инструментов — узкоспециализированные сервисы распознавания речи (например, модели семейства Whisper и подобные STT-движки). Они заточены строго под одну задачу — превратить звук в текст — и на больших объёмах однотипных записей могут быть дешевле и быстрее, чем гонять аудио через большую LLM. Многие из них дают точные тайм-коды по каждому слову и аккуратную диаризацию (разметку «кто говорит»).

В нашем каталоге на 2026-05-29 выделенного speech-to-text сервиса нет — мы не предлагаем отдельный Whisper-endpoint и не выставляем на него цену. Поэтому если ваш сценарий — это поток из тысяч часов записей с требованием к посекундным тайм-кодам, имеет смысл смотреть и в сторону специализированного STT. А вот связка «Gemini принимает аудио и расшифровывает → текстовая LLM приводит расшифровку в порядок и делает саммари» закрывается через наш API целиком и для большинства задач (встречи, интервью, подкасты) её достаточно.

Как сделать расшифровку по API: аудио в текст

Главное удобство — всё работает через один OpenAI-совместимый endpoint. Если у вас уже есть код на официальном SDK OpenAI, меняется только base_url и идентификатор модели. Endpoint provod.ai: https://api.provod.ai/v1.

Аудио передаётся в запрос как часть мультимодального сообщения: файл кодируется в base64 и кладётся в content рядом с текстовой инструкцией. Ниже — расшифровка локального аудиофайла через Gemini 3.1 Pro на Python.

import base64
from openai import OpenAI

client = OpenAI(
 api_key="prm-xxxxxxxxxxxx",
 base_url="https://api.provod.ai/v1",
)

with open("meeting.mp3", "rb") as f:
 audio_b64 = base64.b64encode(f.read).decode("utf-8")

system = (
 "Ты расшифровщик. Точно перенеси речь в текст на русском языке. "
 "Расставь пунктуацию и абзацы. Реплики разных говорящих оформляй "
 "с новой строки. Не добавляй ничего от себя, не пересказывай."
)

response = client.chat.completions.create(
 model="google/gemini-3.1-pro-preview",
 messages=[
 {"role": "system", "content": system},
 {
 "role": "user",
 "content": [
 {"type": "text", "text": "Расшифруй эту запись."},
 {
 "type": "input_audio",
 "input_audio": {"data": audio_b64, "format": "mp3"},
 },
 ],
 },
 ],
 temperature=0.2,
)

print(response.choices[0].message.content)

Практические детали именно для расшифровки:

temperature 0.0-0.2. Транскрибация — задача с «правильным» ответом. Низкая температура снижает риск, что модель начнёт перефразировать вместо точного переноса речи.
Инструкция «не добавляй от себя». Без неё модель иногда подытоживает или дополняет — лишнее, когда нужна дословная расшифровка.
Формат файла. Указывайте реальный формат записи (mp3, wav, m4a и т. п.). Длинные записи перед отправкой имеет смысл сжать в моно — на качество расшифровки это почти не влияет, а входной объём уменьшает.
Длинные записи. Совещание на несколько часов лучше резать на куски по 20-30 минут и расшифровывать по частям — так проще обрабатывать ошибки и не упереться в лимиты одного запроса.

Node.js / TypeScript

import fs from "node:fs";
import OpenAI from "openai";

const client = new OpenAI({
 apiKey: process.env.PROVOD_API_KEY,
 baseURL: "https://api.provod.ai/v1",
});

const audioB64 = fs.readFileSync("interview.mp3").toString("base64");

const res = await client.chat.completions.create({
 model: "google/gemini-3.1-pro-preview",
 messages: [
 { role: "system", content: "Точно расшифруй речь на русском, с пунктуацией." },
 {
 role: "user",
 content: [
 { type: "text", text: "Расшифруй запись интервью." },
 { type: "input_audio", input_audio: { data: audioB64, format: "mp3" } },
 ],
 },
 ],
 temperature: 0.2,
});

console.log(res.choices[0].message.content);

Идентификатор модели берётся из каталога: google/gemini-3.1-pro-preview. Чтобы расшифровать видео, отдельный шаг не нужен — достаточно вытащить из ролика звуковую дорожку (например, утилитой ffmpeg) и отправить её тем же запросом. Картинка-кадр модели не нужна: для транскрибации работает только звук.

Постобработка LLM: саммари, тезисы, протокол встречи

Сырая расшифровка — это ещё не готовый документ. Живая речь полна слов-паразитов, повторов, оборванных фраз и «воды». Здесь начинается второй шаг, и это уже чистая работа текстовой LLM: на вход идёт текст расшифровки, на выход — то, что вам реально нужно. Для постобработки звук не требуется, поэтому можно взять модель подешевле — например, GPT-5.4, Gemini 3.5 Flash или DeepSeek V4 Pro.

Что обычно делают с расшифровкой:

Чистка. Убрать «эээ», «ну», «как бы», повторы и оговорки; превратить поток в читаемый текст. «Очисти расшифровку от слов-паразитов и повторов, сохрани смысл и все факты дословно».
Краткое содержание (саммари). Сжать часовую встречу в абзац-два. Это одна из самых дешёвых операций: вход большой, выход короткий, платите в основном за вход.
Тезисы. Маркированный список ключевых мыслей — для тех, кто на встрече не был.
Протокол встречи. Структура «обсудили / решили / задачи». Самый ценный для бизнеса формат.

Пример промпта для протокола встречи из готовой расшифровки:

transcript = "..." # текст расшифровки из предыдущего шага

system = """Ты ассистент, который оформляет протоколы встреч.
На входе — расшифровка совещания. Верни структурированный протокол:
1. Краткое содержание (3-5 предложений).
2. Ключевые решения (маркированный список).
3. Задачи: что, кто ответственный, срок (если назван).
4. Открытые вопросы.
Опирайся только на текст расшифровки, ничего не выдумывай."""

response = client.chat.completions.create(
 model="openai/gpt-5.4",
 messages=[
 {"role": "system", "content": system},
 {"role": "user", "content": transcript},
 ],
 temperature=0.3,
)

print(response.choices[0].message.content)

Эти два шага удобно объединять в один конвейер: Gemini расшифровывает запись, результат сразу уходит в текстовую модель за протоколом. А можно сделать всё в один запрос к Gemini 3.1 Pro — попросить и расшифровать, и сразу выдать саммари с задачами, раз модель всё равно понимает смысл сказанного. Для коротких записей это удобно; для длинных совещаний разбивка на два шага надёжнее и обычно дешевле, потому что постобработку делает модель дешевле флагмана. Тот же приём двухуровневой обработки разбираем в гайде по генерации текста нейросетью, а если запись на иностранном языке — её можно сразу перевести нейросетью на том же API.

Цена транскрибации в рублях

Считаем по нашему каталогу. Цены — вербатим, 1-в-1 с провайдером по курсу ЦБ 71.668 ₽/$, вход/выход за 1 млн токенов.

Модель	Роль в расшифровке	Вход, ₽	Выход, ₽	Аудио на входе
Gemini 3.1 Pro Preview	распознавание речи (аудио в текст)	140	860	да
GPT-5.4	постобработка: протокол, чистка	170	1070	нет
Gemini 3.5 Flash	дешёвая постобработка	—	—	нет
DeepSeek V4 Pro	массовая постобработка, саммари	30	60	нет

Несколько уточнений к таблице:

Распознавание делает только Gemini 3.1 Pro — у остальных моделей в каталоге аудио нет во входных модальностях. Постобработку текста может делать любая из них.
Аудио тарифицируется в токенах. Ориентир Google — около 32 токенов на секунду звука. То есть минута записи — примерно 1 900 входных токенов, час — около 115 тысяч.
Сервисная комиссия 5% берётся отдельно — только при пополнении баланса, не от токенов. На сам объём расшифровки наценки нет; 5% — это плата за работу сервиса, эквайринг и поддержку, разовая при пополнении.
Все цифры — из каталога на дату публикации; актуальные значения всегда на странице тарифов.

Грубый расчёт для интуиции. Часовая встреча — это около 115K входных токенов аудио и, скажем, 12K токенов текстовой расшифровки на выходе. На Gemini 3.1 Pro расшифровка обойдётся примерно в 16 ₽ за вход и около 10 ₽ за выход — порядка 25-30 ₽ за час записи. Постобработка готовой расшифровки в протокол на дешёвой модели вроде DeepSeek — это ещё единицы рублей. Итого расшифровка часового совещания с готовым протоколом — в районе 30-40 ₽. Для сравнения: ручная расшифровка часа записи у фрилансера — это обычно несколько сотен, а то и тысяч рублей и день ожидания.

Сценарии: где расшифровка аудио в текст окупается

Совещания и созвоны

Самый частый сценарий. Запись звонка в Zoom, Telegram или на диктофон отправляется в Gemini, на выходе — расшифровка, а затем протокол с решениями и задачами. Команде не нужно держать отдельного секретаря, а участники, которые пропустили встречу, читают выжимку за минуту вместо часа аудио. Ключевое требование — структура «решили / задачи», поэтому постобработку стоит настроить под формат протокола вашей компании.

Подкасты и видео

Расшифровка эпизода нужна для субтитров, текстовой версии на сайте (это ещё и плюс к SEO — поисковики индексируют текст, а не звук) и нарезки цитат для соцсетей. Дорожку из видео достаём через ffmpeg, отправляем в Gemini, получаем текст, а затем просим LLM выделить самые «цитатные» куски и заголовки для клипов. Часовой подкаст превращается в готовый к публикации текст за минуты.

Интервью и исследования

Глубинные интервью, опросы пользователей, экспертные беседы. Здесь расшифровка — только начало: дальше LLM помогает свести десяток интервью в общие выводы, найти повторяющиеся темы и боли. Для дословной расшифровки берут Gemini с низкой температурой, для анализа массива — модель с длинным контекстом, чтобы все интервью поместились в один запрос.

Колл-центр и поддержка

Записи разговоров с клиентами расшифровываются и анализируются на тон, причины обращений, частые проблемы. На потоке тысяч звонков в день имеет смысл оценить и специализированный STT (которого у нас в каталоге нет), но связка «Gemini расшифровывает выборку → LLM классифицирует обращения и считает статистику» работает через наш API и хорошо подходит для аналитики качества и обучения операторов.

Оплата расшифровки на юрлицо в рублях

Если транскрибация нужна команде или компании, важен не только сам API, но и то, как за него платить. Прямая оплата Google из России для юрлица упирается в две проблемы: сервис не работает с российскими картами и реквизитами, а платёж за рубеж без правильно оформленных документов сложно принять к учёту.

Через provod.ai расшифровка оплачивается на российское юрлицо — оплата в рублях по договору, полный пакет закрывающих документов. На каждое пополнение баланса выдаётся договор-оферта, счёт, акт, счёт-фактура и УПД; документооборот ведётся через ЭДО (Диадок, СБИС), и документы автоматически попадают в учётную систему. Расходы на API корректно учитываются как услуги, без серых схем с возмещением сотруднику. Цены на токены — 1-в-1 с провайдером по курсу ЦБ, сервисная комиссия 5% удерживается только при пополнении баланса. Это не обход блокировок и работает без VPN: вы делаете запрос на российский endpoint и платите рублёвой платёжкой. Подробно про документы и легальность — в посте легально ли использовать AI API на юрлицо.

provod.ai — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.8, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.

Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.

Try: provod.ai · model catalog · docs