Promptra Team for Promptra

Posted on Jun 13

Нейросеть для генерации музыки и песен: модели и подключение

#api #llm

Нейросеть для генерации музыки — это сервис, который по текстовому описанию («лиричный поп с женским вокалом про осень» плюс текст куплета) синтезирует готовый аудиотрек с мелодией, аранжировкой и иногда вокалом. Саму музыку и песни генерируют специализированные аудиосервисы — Suno, Udio, Riffusion, ElevenLabs Music, Stable Audio. Текстовые LLM (Claude, GPT, Gemini) музыку не создают, но именно они решают соседнюю и не менее важную часть работы: пишут тексты песен, описания стиля, промпты для музыкального сервиса и метаданные релиза. Эту текстовую часть удобно автоматизировать через один OpenAI-совместимый API с оплатой в рублях — а готовый текст и промпт вы вставляете в музыкальный сервис.

Этот гайд — про обе половины задачи. Сначала обзорно разберём, какие нейросети генерируют музыку и как устроен процесс «текст → звук», со ссылками на первоисточники. Затем — про практичную часть, которую закрывает Promptra: генерация текстов песен, описаний треков, промптов и метаданных через LLM по API. Будет код, цены в рублях по нашему каталогу (1-в-1 с провайдером по курсу ЦБ, 71.668 ₽/$ на 2026-05-27) и честное разграничение: что делает музыкальный сервис, а что — текстовая модель. Тон — инженерный, на цифрах, без маркетинга.

Важное разграничение: что генерирует музыку, а что — текст

Чтобы не было путаницы, зафиксируем сразу. В музыкальном пайплайне работают два разных класса нейросетей:

Аудиомодели (генерация музыки). Принимают на вход текстовое описание и/или текст песни, на выходе дают звук — мелодию, аранжировку, вокал. Это Suno, Udio, Riffusion и подобные. Они живут в отдельных специализированных сервисах со своими интерфейсами и API.
Текстовые LLM (генерация текста для музыки). Принимают задание словами, на выходе дают текст: слова песни, описание стиля для генератора, промпт, название трека, описание для площадок. Это Claude, GPT-5.5, Gemini и другие модели из каталога Promptra.

Promptra — это агрегатор доступа к текстовым LLM (а также к моделям картинок и видео). В каталоге Promptra нет модели генерации музыки, и мы не заявляем, что генерируем треки. Зато текстовая часть музыкального пайплайна — слова, описания, промпты, метаданные — закрывается через тот же API, что и любая другая генерация текста: один base_url, один ключ, оплата в рублях на юр.лицо. Дальше готовый текст вы относите в Suno или Udio и получаете звук.

Эта связка логична: сильная языковая модель пишет складный, ритмичный текст песни с рифмой и припевом куда лучше, чем встроенный текстовый помощник музыкального сервиса, а заодно генерирует к каждому треку название, описание стиля и теги для площадок. Музыкальный сервис при этом занимается своим делом — синтезом звука.

Какие нейросети генерируют музыку: обзор сервисов

Рынок генерации музыки в 2026 году — это несколько зрелых сервисов, каждый со своей специализацией. Все они работают как отдельные продукты со своими подписками и (у части) API. Ниже — обзорная карта; цены и условия меняются, поэтому актуальные смотрите на официальных сайтах.

Suno

Suno — самый известный генератор песен «текст → полный трек с вокалом». Вы задаёте описание стиля и текст (или просите сервис сгенерировать слова), на выходе получаете законченную песню с вокалом, мелодией и аранжировкой. Suno стал фактическим синонимом «нейросети для песен» в массовом сознании. Подробности и условия — на официальном сайте suno.com.

Udio

Udio — конкурент Suno с акцентом на качество звука и контроль над структурой композиции. Тоже генерирует песни с вокалом по текстовому описанию, при этом многие отмечают более «студийное» звучание и тонкую работу с жанрами. Официальный сайт — udio.com.

Riffusion

Riffusion начинался как исследовательский проект генерации музыки через спектрограммы (изображения звука), а вырос в полноценный сервис генерации треков. Хорош для инструментальной музыки и экспериментальных жанров. Сайт — riffusion.com.

ElevenLabs Music

ElevenLabs, известная синтезом речи, выпустила и модель генерации музыки. Сильная сторона экосистемы — связка с озвучкой и голосом, что удобно, когда музыка нужна для видео или подкастов. Сайт — elevenlabs.io.

Stable Audio

Stable Audio от Stability AI — генерация аудио и музыкальных фрагментов, ориентированная в том числе на инструментал, звуковые эффекты и стоковую музыку для продакшена. Сайт — stableaudio.com.

Сервис	Специализация	Вокал	Где смотреть
Suno	Песни «текст → полный трек»	Да	suno.com
Udio	Песни, акцент на качество звука	Да	udio.com
Riffusion	Инструментал, эксперименты	Частично	riffusion.com
ElevenLabs Music	Музыка + связка с озвучкой	Да	elevenlabs.io
Stable Audio	Инструментал, стоковая музыка	Нет	stableaudio.com

Общий принцип у всех один: качество результата сильно зависит от того, насколько точно сформулированы описание стиля и текст песни на входе. Именно поэтому текстовая подготовка — отдельный и важный этап, и его удобно автоматизировать языковой моделью.

Как устроен процесс: от текста к музыке

Генерация музыки нейросетью — это конвейер из нескольких шагов, и только один из них (сам синтез звука) выполняет аудиомодель. Остальное — текстовая работа.

Идея и бриф. Что за трек: жанр, настроение, темп, для чего (реклама, соцсети, фон для видео, песня в подарок). На этом шаге формулируется задача словами.
Текст песни. Если это песня с вокалом — нужны слова: куплеты, припев, бридж, с рифмой и ритмом. Это чистая текстовая генерация — работа для LLM.
Описание стиля (промпт для генератора). Музыкальные сервисы принимают короткое описание звучания: «dream pop, женский вокал, ~90 BPM, тёплый винтажный звук, акустическая гитара». Грамотный промпт — половина успеха, и его тоже удобно сгенерировать LLM по короткому брифу.
Синтез звука. Текст плюс описание стиля уходят в Suno / Udio / Riffusion — и сервис генерирует аудио. Этот шаг выполняет аудиомодель, не LLM.
Метаданные релиза. Готовый трек надо опубликовать: название, описание для площадки, теги, обложка, текст для соцсетей. Снова текстовая работа — генерируется LLM.

Из пяти шагов четыре (1, 2, 3, 5) — это работа с текстом, и все они закрываются одной языковой моделью через API. Аудиомодель отвечает только за шаг 4. Поэтому для конвейерной, регулярной генерации музыки текстовый API — это рабочая лошадка подготовки и пост-обработки вокруг музыкального сервиса.

Что удобно делать через LLM по API

Теперь конкретика по той части, которую закрывает Promptra. Через текстовый API одной языковой моделью генерируются четыре вещи вокруг музыки.

Тексты песен

LLM пишет слова под заданный жанр, тему и настроение — с куплетами, припевом, рифмой и нужным числом строк. Можно задать схему рифмовки, длину, рефрен, даже попросить вписать конкретные слова или имя (популярный сценарий — именная песня в подарок). Claude и GPT-5.5 дают самые складные и естественные тексты на русском; для массового потока подойдут модели подешевле.

Описания стиля (промпты для музыкального сервиса)

По короткому брифу («что-то бодрое для рекламы кофейни») LLM разворачивает грамотный промпт для Suno или Udio: жанр, инструменты, темп (BPM), вокал, настроение, референсы звучания. Это снимает главную боль новичка — «не знаю, что писать в поле описания».

Метаданные релиза

Название трека, описание для площадки, теги, текст анонса для соцсетей, краткое и расширенное описание — всё это генерируется пакетно по данным трека. Удобно, когда треков много и каждый надо красиво подать.

Структура и редактура

LLM помогает на уровне формы: предложить структуру композиции (интро — куплет — припев — бридж — аутро), переписать неудачную строку, подогнать слог под ритм, сделать несколько вариантов припева на выбор.

Код: генерируем текст песни и промпт через API

Все эти задачи — обычная генерация текста по OpenAI-совместимому API. Endpoint Promptra: https://api.promptra.ru/v1. Пример на Python — текст песни плюс описание стиля для музыкального сервиса в одном ответе:

from openai import OpenAI

client = OpenAI(
 api_key="prm-xxxxxxxxxxxx",
 base_url="https://api.promptra.ru/v1",
)

system = (
 "Ты автор-песенник. Пишешь складные тексты песен на русском: "
 "куплет — припев — куплет — припев — бридж. Соблюдай рифму и ровный ритм. "
 "В конце отдельным блоком дай короткое описание стиля (style prompt) "
 "для сервиса генерации музыки: жанр, вокал, темп BPM, инструменты, настроение."
)

brief = (
 "Тема: тёплая песня про лето и дорогу к морю. "
 "Жанр: инди-поп, мужской вокал, лёгкое настроение. "
 "Длина: два куплета и припев."
)

response = client.chat.completions.create(
 model="anthropic/claude-sonnet-4.6",
 messages=[
 {"role": "system", "content": system},
 {"role": "user", "content": brief},
 ],
 temperature=0.8,
)

print(response.choices[0].message.content)

Чтобы сменить модель — поменяйте строку model. Идентификаторы из каталога: anthropic/claude-opus-4.7, anthropic/claude-sonnet-4.6, openai/gpt-5.5, openai/gpt-5.4, google/gemini-3.1-pro-preview, deepseek/deepseek-v4-pro, z-ai/glm-5.1, qwen/qwen3.6-plus. Остальной код не трогается.

Пакетная генерация метаданных для готового трека на Node.js:

import OpenAI from "openai";

const client = new OpenAI({
 apiKey: process.env.PROMPTRA_API_KEY,
 baseURL: "https://api.promptra.ru/v1",
});

const res = await client.chat.completions.create({
 model: "openai/gpt-5.4",
 messages: [
 {
 role: "system",
 content:
 "Ты музыкальный SMM-редактор. По описанию трека верни JSON: " +
 "title, short_description, tags (5 штук), social_post (до 280 символов).",
 },
 {
 role: "user",
 content: "Трек: инди-поп про лето и море, мужской вокал, 110 BPM, тёплое настроение.",
 },
 ],
 temperature: 0.6,
});

console.log(res.choices[0].message.content);

Проверить, что ключ и endpoint живые, можно одним curl без SDK:

curl https://api.promptra.ru/v1/chat/completions \
 -H "Authorization: Bearer prm-xxxxxxxxxxxx" \
 -H "Content-Type: application/json" \
 -d '{
 "model": "deepseek/deepseek-v4-pro",
 "messages": [{"role": "user", "content": "Придумай 5 названий для летнего инди-поп трека, списком"}]
 }'

Если в ответе пришёл JSON с полем content — всё работает. Подробный разбор миграции на разных языках — в гайде про подключение ChatGPT по API в России. Общие приёмы и режимы текстовой генерации мы разбирали в материале про нейросеть для генерации текста — там же про температуру, роли и борьбу с галлюцинациями.

Цена текстовой генерации в рублях

Сразу оговорка: за саму генерацию музыки платит музыкальный сервис (Suno, Udio и др.) по своим тарифам — это не часть Promptra. Здесь речь только о стоимости текстовой части (слова, промпты, метаданные) через наш API.

Вы платите за токены — отдельно за вход (бриф) и отдельно за выход (сгенерированный текст). Для текстов песен и описаний выход обычно небольшой (несколько сотен токенов), поэтому генерация выходит очень дёшево. Цены — вербатим из нашего каталога, вход/выход за 1 млн токенов.

Модель	Вход, ₽	Выход, ₽	Когда брать для музыки
Claude Opus 4.7	350	1790	Самые складные тексты, сложная лирика
Claude Sonnet 4.6	210	1070	Дефолт: тексты песен, описания, баланс
GPT-5.5	350	2150	Креатив, нестандартные жанры
GPT-5.4	170	1070	Рутинная генерация дешевле флагмана
Gemini 3.1 Pro	140	860	Длинный контекст, пакетная обработка
GLM 5.1	100	310	Структурный текст, бюджет
Qwen 3.6 Plus	20	130	Массовый объём метаданных
DeepSeek V4 Pro	30	60	Поток текстов и тегов за копейки

Несколько уточнений к таблице:

Сервисная комиссия 5% берётся отдельно — только при пополнении баланса, не от токенов. На саму генерацию наценки нет.
DeepSeek 30/60 ₽ — это промо-цена со скидкой −75%, действующая до 2026-05-31; после окончания базовая ставка вырастет примерно вчетверо (ориентировочно до 120/240 ₽, производная оценка от каталожных USD). Подробности — в разборе DeepSeek V4 Pro API за рубли.
Все цифры — из каталога на дату публикации; актуальные значения всегда на странице тарифов.

Грубый расчёт для интуиции: один текст песни — это примерно 100 токенов брифа на вход и около 400 токенов слов на выход. На Sonnet 4.6 это доли рубля за песню, на DeepSeek — сотые доли копейки. Сгенерировать тексты, промпты и метаданные для сотни треков обойдётся в единицы рублей даже на флагмане. То есть текстовая часть музыкального конвейера практически бесплатна — основной бюджет уходит в музыкальный сервис на сам синтез звука.

Сценарии: где это окупается

Контент для соцсетей и блогеров

Регулярные ролики и сторис требуют фоновой музыки и иногда коротких джинглов. Связка работает так: LLM по брифу выдаёт описание стиля и (для джингла с текстом) короткие слова → музыкальный сервис генерирует трек → LLM же пишет описание и теги к посту. Поскольку текстовая часть стоит копейки, можно генерировать промпты пачками и быстро перебирать варианты звучания.

Реклама и аудиобрендинг

Для рекламных аудиороликов и аудиологотипов важны точный бриф и текст. LLM помогает сформулировать описание под нужное настроение бренда, написать рекламный текст или слоган для пропевки, а затем подготовить несколько вариантов промпта под A/B-тест разных звучаний. Описание стиля на нужном языке и в нужной тональности — ровно то, в чём сильны Claude и GPT.

Песни на заказ и в подарок

Популярный сценарий — именная песня к празднику. Здесь критично качество текста: складная рифма, естественный язык, вписанные имена и детали. Это работа для флагмана (Claude Opus 4.7, GPT-5.5): LLM пишет слова по анкете заказчика, генерирует описание стиля под музыкальный сервис, а после — открытку и поздравительный текст. Музыкальный сервис превращает слова в песню с вокалом.

Игры, видео и приложения

Разработчикам нужен фоновый звук и музыкальные темы под сцены. LLM встраивается в пайплайн как генератор описаний стиля под каждую сцену и метаданных для библиотеки ассетов. Это родственно генерации видео по API и картинок по API: в продуктовый конвейер удобно встроить текстовую генерацию вокруг медиа-сервисов через один и тот же API.

Оплата на юрлицо в рублях

Если генерация текстов и промптов нужна команде или компании, важен не только сам API, но и то, как за него платить. Прямая оплата OpenAI, Anthropic или Google из России для юрлица упирается в две проблемы: эти сервисы не работают с российскими картами и реквизитами, а платёж за рубеж без правильно оформленных документов сложно принять к учёту.

Через Promptra текстовая генерация оплачивается на российское юрлицо — оплата в рублях по договору, полный пакет закрывающих документов. На каждое пополнение баланса выдаются договор-оферта, счёт, акт, счёт-фактура и УПД; документооборот ведётся через ЭДО (Диадок, СБИС), поэтому документы автоматически попадают в учётную систему. Расходы на генерацию текста через API корректно учитываются как услуги. Цены на токены — 1-в-1 с провайдером по курсу ЦБ, сервисная комиссия 5% удерживается только при пополнении баланса. VPN при этом не нужен: запросы уходят на endpoint агрегатора, а он сам связывается с провайдером. Подробно про документы и легальность — в посте легально ли использовать AI API на юрлицо.

Ещё раз про границу: оплата на стороне Promptra покрывает только текстовую генерацию (слова, промпты, метаданные). За доступ к самим музыкальным сервисам (Suno, Udio и т.д.) вы платите им напрямую по их условиям — это отдельная история, не входящая в наш каталог.

Promptra — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.

Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.

Try: promptra.ru · model catalog · docs

DEV Community