Promptra Team for Promptra

Posted on Jun 13

Нейросеть для обработки фото: ретушь, фон, апскейл

#api #llm

Нейросеть для обработки фото в 2026 году решает пять типовых задач: замена и удаление фона, ретушь и зачистка дефектов, апскейл (увеличение разрешения), дорисовка области по маске (инпейнтинг и расширение кадра) и оживление фото — превращение статичного снимка в короткое видео. Первые четыре задачи — это работа image-моделей: через API их закрывают редактирующие версии GPT Image 2 Edit (openai/gpt-image-2-edit) и Nano Banana Pro Edit (google/nano-banana-pro-edit), которые принимают на вход исходное фото плюс текст правки. Оживление фото — это уже видео-модели (Veo, Seedance, Kling): они генерируют движение из кадра. Всё это доступно через один OpenAI-совместимый API: в коде меняется одна строка model, оплата идёт в рублях из России без VPN.

Важно сразу честно разделить: «обработать фото нейросетью» в смысле потока — это не один волшебный фильтр, а несколько режимов под разные задачи. Ниже разберём, какие задачи с фото реально решает ИИ, какие модели за это отвечают, как обработать фото по API (с рабочим кодом для редактирования и инпейнтинга), почему «оживление фото» — отдельный класс задач на видео-моделях, сколько это стоит в рублях и где это окупается на потоке: карточки товаров, контент, восстановление архива. Тон — для разработчика и продакт-менеджера, которым нужно встроить обработку фото в продукт, а не кликать по одному снимку в редакторе. Все факты по моделям — из нашего каталога на 29.05.2026, курс ЦБ 71,668 ₽/$.

Какие задачи с фото решает нейросеть

Когда говорят «нейросеть обработка фото», обычно имеют в виду набор разных операций. Полезно разложить их по типам — потому что под каждую нужен свой режим модели, а не «одна кнопка».

Замена и удаление фона. Самая частая задача для карточек товаров и предметки: убрать пёстрый или случайный фон, поставить однотонный, брендовый или контекстный. Технически это редактирование изображения (image edit): на вход подаётся исходное фото и текст «замени фон на светло-серый, объект не трогай».

Ретушь и зачистка. Убрать дефекты, лишние объекты, мусор в кадре, блики, пыль на предметке. Это тоже редактирование — точечная замена части изображения. Сюда же относится «убрать прохожего с фона», «стереть водяной знак на своём контенте», «зачистить царапины на отсканированном снимке».

Апскейл — увеличение разрешения. Поднять мелкое или сжатое фото до более крупного размера с восстановлением деталей. Здесь важно понимать честную картину: специализированные модели апскейла (super-resolution) — это отдельный класс, и в нашем каталоге они отдельной строкой не подключены. Но генеративные image-модели частично закрывают задачу через регенерацию: вы просите модель воссоздать изображение в более высоком разрешении и качестве. Это не классический «×4 super-resolution пиксель-в-пиксель», а генеративное переосмысление кадра — детали будут дорисованы, а не извлечены из исходника. Для контента и карточек этого часто достаточно; для криминалистики или точного восстановления — нет.

Дорисовка области (инпейнтинг и аутпейнтинг). Заполнить вырезанный фрагмент в стиле остального изображения (инпейнтинг по маске) или расширить кадр за его границы (аутпейнтинг) — например, дотянуть фото до нужного соотношения сторон под формат площадки. Это профильный режим edit-моделей с маской.

Правка и стилизация. Поменять цвет объекта, свет, время суток на снимке, перевести фото в другой стиль, локализовать текст на изображении (заменить надпись на баннере). Тоже редактирование по тексту.

Оживление фото (photo-to-video). Превратить статичный снимок в короткое видео с движением — лёгкая анимация портрета, «оживший» пейзаж, движение камеры по фотографии. Это не задача image-моделей: за неё отвечают видео-модели (Veo, Seedance, Kling). По API это отдельный endpoint и отдельный тип запроса — разберём ниже отдельной секцией.

Главный практический вывод: первые пять задач (фон, ретушь, апскейл-регенерация, дорисовка, стилизация) — это режим image edit / inpainting на image-моделях. Шестая (оживление) — это видео-модели. Через один API эти классы доступны по разным методам, но по одному ключу и с единой оплатой.

Какие модели обрабатывают фото

В каталоге Promptra за обработку изображений отвечают два семейства флагманов — Google и OpenAI, у каждого есть базовая версия, флагман и отдельная редактирующая версия (именно она нужна для обработки готового фото, а не генерации с нуля).

GPT Image 2 Edit — редактирование и инпейнтинг от OpenAI

Базовая модель GPT Image 2 (openai/gpt-image-2) — флагман OpenAI для генерации изображений по тексту, с контекстом 272 000 токенов (можно подать длинный детальный промпт). Но для обработки готового фото нужна её редактирующая версия — GPT Image 2 Edit (openai/gpt-image-2-edit). Она принимает на вход исходное изображение плюс текст правки и доступна через endpoint images_edits.

Сильные стороны для обработки фото:

Точная правка по инструкции. Модель хорошо удерживает то, что прописано в промпте: «убери только провод в левом верхнем углу, остальное не трогай». Меньше «отсебятины» на остальной части кадра.
Текст на изображении. GPT Image 2 аккуратнее многих рисует читаемые надписи — это профиль для локализации баннеров (заменить текст, сохранив дизайн) и для правок, где на фото есть подписи.
Инпейнтинг по маске. Поддерживается точечная правка выделенной области: вы указываете маску — какую часть менять, — и модель дорисовывает только её.

Нюанс по стоимости: у GPT Image 2 Edit референсные изображения всегда обрабатываются в высоком качестве, поэтому правка обходится дороже базовой генерации — по оценкам OpenAI и сообщества, порядка ×2. Точные параметры (поддержка масок, форматы, лимиты) — в гайде OpenAI по генерации изображений и на странице цен OpenAI.

Nano Banana Pro Edit — сложные правки с сохранением деталей от Google

Nano Banana Pro (google/nano-banana-pro) — старший движок Google для генерации изображений (высокотиерная версия Gemini Image), помеченный в каталоге как флагман. Его аргумент — выше разрешение и лучше детализация: чистая геометрия, аккуратные края, проработка мелких деталей. Для обработки готового фото у Google есть отдельная модель — Nano Banana Pro Edit (google/nano-banana-pro-edit), доступная через endpoint images_edits.

Это режим «сложные правки с сохранением деталей»: заменить фон или объект, дорисовать область, поправить кадр, не разрушив остальную картинку. Профиль Nano Banana Pro Edit — задачи, где важна детализация и аккуратность результата: продуктовые фото, предметка, реалистичные сцены. Отдельного прайса на редактирование Google не публикует — правки тарифицируются по тем же токенным ставкам, что и генерация.

Есть и базовая редактирующая версия — Nano Banana 2 Edit (google/nano-banana-2-edit, на базе Gemini 3.1 Flash Image): быстрее и дешевле, для массового потока простых правок, когда не нужно максимальное качество. У базовой Nano Banana 2 есть явная рублёвая цена за изображение (разберём в секции про стоимость), что делает её самым предсказуемым по бюджету вариантом для потоковой обработки.

Что важно понимать про апскейл и «улучшение качества»

Отдельно проговорим честную границу. В каталоге нет специализированной модели super-resolution (классический апскейл ×2/×4 с извлечением деталей из исходника) и нет отдельной «модели ретуши лиц как сервиса». Задачи апскейла и улучшения качества закрываются генеративно — через регенерацию кадра image-моделью в более высоком разрешении и качестве. Это рабочий приём для контента и карточек, но результат — дорисованные, а не восстановленные детали. Если вам нужен точный пиксельный апскейл или специализированная реставрация — это отдельный класс инструментов вне текущего каталога, и честнее сказать это прямо, чем обещать то, чего модель не делает.

И ещё одна важная оговорка по этике: обработка фото нейросетью через API — это про легитимные задачи (ретушь, фон, апскейл, восстановление архива, контент и карточки товаров). Это не инструмент слежки, биометрической идентификации или обработки лиц реальных людей без их согласия. Такие сценарии мы не рассматриваем и не поддерживаем.

Как обработать фото по API

Технически обработка фото работает так же, как напрямую через OpenAI SDK, потому что API совместим с OpenAI на уровне протокола. Для генерации с нуля используется метод images.generate (endpoint images_generations), а для обработки готового фото — метод images.edit (endpoint images_edits) и модели с суффиксом -edit. Меняется один параметр — base_url, ключ заменяется на ключ Promptra, нужная модель указывается в поле model.

Шаг 1. Ключ и base_url

Вам нужен API-ключ вида prm-... и адрес https://api.promptra.ru/v1. Цена за токены — 1-в-1 с прайсом провайдера по курсу ЦБ, без наценки на токены; сервисная комиссия 5% берётся только при пополнении баланса, не с каждой обработки. Оплата идёт на юр.лицо российское юр.лицо, полный пакет закрывающих документов через ЭДО. Получить ключ и обсудить подключение можно у команды напрямую в Telegram: promptra.ru.

Шаг 2. Python — обработка фото (замена фона)

Подаём на вход исходный файл и текст правки. Модель возвращает обработанное изображение.

from openai import OpenAI

client = OpenAI(
 api_key="prm-xxxxxxxxxxxx", # ключ Promptra
 base_url="https://api.promptra.ru/v1", # единственное изменение
)

with open("product.png", "rb") as image_file:
 result = client.images.edit(
 model="openai/gpt-image-2-edit", # или "google/nano-banana-pro-edit"
 image=image_file,
 prompt="Заменить фон на однотонный светло-серый, "
 "сохранить объект и его тени без изменений",
 size="1024x1024",
 )

# В ответе — обработанное изображение (URL или base64).
print(result.data[0].url)

Шаг 3. Node.js — ретушь и зачистка

Тот же метод images.edit, другой промпт правки — удаление лишнего объекта.

import OpenAI from "openai";
import fs from "node:fs";

const client = new OpenAI({
 apiKey: "prm-xxxxxxxxxxxx",
 baseURL: "https://api.promptra.ru/v1", // единственное изменение
});

const result = await client.images.edit({
 model: "google/nano-banana-pro-edit", // или "openai/gpt-image-2-edit"
 image: fs.createReadStream("photo.png"),
 prompt:
 "Убрать лишний предмет в левом нижнем углу, " +
 "восстановить фон на его месте, остальное не менять",
 size: "1024x1024",
});

console.log(result.data[0].url);

Шаг 4. Инпейнтинг по маске

Для точечной правки выделенной области подаётся ещё и маска — она показывает, какую часть менять. Модель дорисовывает только область маски, не трогая остальное.

with open("scan.png", "rb") as image_file, open("mask.png", "rb") as mask_file:
 result = client.images.edit(
 model="openai/gpt-image-2-edit",
 image=image_file,
 mask=mask_file, # белая зона маски = область правки
 prompt="Восстановить повреждённый участок снимка, "
 "дорисовать в стиле остального изображения",
 size="1024x1024",
 )

Чтобы переключиться между моделями обработки фото, меняется ровно одно поле — model. Всё остальное (ключ, endpoint, формат запроса) остаётся прежним. Это и есть смысл единого OpenAI-совместимого шлюза: вы не переписываете интеграцию под каждого провайдера. О том, как устроен мультимодельный доступ через единый endpoint, мы писали в обзоре нейросеть для генерации изображений: модели и API, а парный разбор флагманов — в материале генерация изображений по API: Nano Banana Pro и GPT Image 2.

Проверить, что доступ к редактированию работает, можно curl-запросом:

curl https://api.promptra.ru/v1/images/edits \
 -H "Authorization: Bearer prm-xxxxxxxxxxxx" \
 -F model="openai/gpt-image-2-edit" \
 -F image="@product.png" \
 -F prompt="Заменить фон на белый, объект не трогать" \
 -F size="1024x1024"

Если в ответ пришёл JSON с полем data и ссылкой (или base64) на изображение — обработка работает, можно встраивать её в продукт.

Оживление фото — это видео-модели, а не обработка изображения

Запрос «нейросеть оживи фото» — один из самых частых, и здесь важно не путать классы задач. Оживление фото (photo-to-video) — это превращение статичного снимка в короткое видео с движением: лёгкая анимация портрета, движение камеры по пейзажу, «оживший» кадр. Это не редактирование изображения и не работа image-моделей. За оживление отвечают видео-модели.

В каталоге Promptra за генерацию видео отвечают флагманы Google, ByteDance и Kuaishou:

Veo 3.1 (google/veo-3.1) — топ-качество, с генерацией аудио. Тариф — $0,40/с на 720p–1080p (≈ 28,67 ₽/с по курсу ЦБ) и $0,60/с на 4K (≈ 43,00 ₽/с).
Seedance 2.0 (ByteDance) — выгодный тариф для потока.
Kling v3 (Kuaishou) — ещё один движок генерации видео.

Технически это другой тип запроса: не синхронный images.edit, а асинхронная задача через endpoint videos_submit (отправить задание) и videos_task (забрать результат), потому что генерация видео занимает заметно больше времени, чем картинки. По API это тоже один ключ и один base_url — меняется только метод и модель.

Ключевая честная оговорка: классическое «оживление фото» (анимация именно вашего загруженного снимка, image-to-video) зависит от того, поддерживает ли конкретная видео-модель изображение на входе. Часть видео-моделей работает в режиме text-to-video (видео по текстовому описанию), часть — image-to-video (видео из вашего кадра). Что именно поддерживает каждая модель и как отправить кадр на вход — мы подробно разобрали в материале видео по API из России: Veo 3.1, Seedance 2.0, Kling v3. Если ваша задача — именно оживить конкретное фото, начните с него: там расписаны режимы, цены за секунду и код отправки задания.

Практический вывод: для «оживить фото» планируйте бюджет в рублях за секунду видео (а не за изображение), и проверяйте, что выбранная модель принимает кадр на вход. Это другой класс задач, чем ретушь или замена фона, — но доступен через тот же API и ту же оплату.

Сколько стоит обработка фото в рублях

Честный ответ: единая «цена за обработку» зависит от модели, размера изображения и типа задачи. У image-моделей два типа ценообразования.

Явная цена за изображение. Для базовой Nano Banana 2 (Gemini 3.1 Flash Image) она зафиксирована: 4,80 ₽ за изображение в разрешении 1K и 10,82 ₽ за 4K (пересчёт официальной токенной ставки $0,067 и $0,151 по курсу ЦБ 71,668 ₽/$). Это самый предсказуемый по бюджету вариант для массового потока простых правок. У базовой Nano Banana 2 Edit отдельного тарифа на редактирование нет — правки идут по этим же ставкам генерации.

По токенам изображения. У Nano Banana Pro / Nano Banana Pro Edit и GPT Image 2 / GPT Image 2 Edit стоимость одной операции зависит от размера и качества и считается по токенам, которые провайдеры регулярно пересматривают. Поэтому фиксировать одну цифру некорректно — правильный источник цифр — официальные прайс-листы Google и OpenAI.

Отдельно про стоимость редактирования: у GPT Image 2 Edit референсные изображения всегда обрабатываются в высоком качестве, поэтому правка обходится дороже базовой генерации — по оценкам OpenAI и сообщества, порядка ×2. У Nano Banana (Pro и базовой) отдельного тарифа на редактирование нет: правки идут по ставкам генерации. То есть если бюджет на обработку критичен, базовая Nano Banana 2 Edit с явной рублёвой ценой — самый прозрачный выбор, а GPT Image 2 Edit стоит закладывать с поправкой на ×2.

Задача	Режим	Скорее подойдёт	Ориентир по цене
Массовая замена фона, простые правки	image edit	Nano Banana 2 Edit	от 4,80 ₽ (1K), 10,82 ₽ (4K)
Детальная ретушь, сложные правки	image edit	Nano Banana Pro Edit	по токенам, прайс Google
Точная правка по инструкции, текст на фото	image edit / inpaint	GPT Image 2 Edit	по токенам ×2, прайс OpenAI
Дорисовка области, расширение кадра	inpaint / outpaint	любая Edit-модель	по ставкам редактирования
Оживление фото	photo-to-video	Veo / Seedance / Kling	за секунду: от ≈28,67 ₽/с (Veo)

Как считает Promptra: по ставкам провайдера, пересчитанным в рубли по курсу ЦБ РФ, без наценки на токены. Себестоимость обработки для вас равна тарифу Google или OpenAI в рублёвом эквиваленте — ровно столько, сколько вы заплатили бы напрямую провайдеру. Сервисная комиссия 5% берётся только при пополнении баланса, а не с каждой операции. Тот же подход «цена 1-в-1 с провайдером» работает и для видео-моделей при оживлении фото.

Где применяют обработку фото на потоке

Обработка фото по API окупается там, где правок много и они однотипны — то есть когда ручной редактор становится узким местом. Вот основные сценарии и подходящие под них модели.

Карточки маркетплейса и продуктовые фото. Самый массовый кейс: замена пёстрого фона на однотонный или брендовый, чистка кадра от лишних предметов, приведение всей линейки к единому виду, генерация сезонных вариаций фона. Здесь важна детализация и аккуратные края — берут Nano Banana Pro Edit, а для большого потока простых фонов — дешёвую Nano Banana 2 Edit (от 4,80 ₽ за фото). Это снимает зависимость от фотостудии для типовых карточек.

Контент для медиа и соцсетей. Адаптация фото под форматы площадок (расширение кадра аутпейнтингом до нужного соотношения сторон), правка освещения и цвета, стилизация под единый визуал рубрики, локализация подписей на изображениях. Для потока — базовая Nano Banana 2 Edit, для ключевых визуалов — флагманы. А чтобы оживить статичный кадр в короткое видео для ленты — видео-модели (см. секцию про оживление).

Восстановление и оцифровка архива. Зачистка царапин, пыли и дефектов на отсканированных снимках, восстановление повреждённых участков через инпейнтинг по маске, генеративный апскейл мелких сканов до приемлемого разрешения. Здесь важно помнить честную границу: это генеративное восстановление (детали дорисовываются), а не точная реставрация пиксель-в-пиксель. Для семейного архива и контента — рабочий приём, для документов с юридической силой — нет.

Внутренние пайплайны по данным. Автоматическая обработка фото по правилу — например, прогон всех новых товарных фото через замену фона на стандартный перед публикацией, или пакетная нормализация изображений из пользовательского контента. Это чистый API-сценарий: правки применяются без участия человека, по шаблону промпта.

Общий приём экономии: держите две модели одновременно. Дешёвую базовую Nano Banana 2 Edit — на массовый поток простых правок (стандартный фон, базовая чистка), флагман (Nano Banana Pro Edit или GPT Image 2 Edit) — точечно на сложные правки, где нужна детализация или точная работа по инструкции. Поскольку модели переключаются одной строкой model, маршрутизация по сложности задачи выстраивается тривиально, а общий счёт падает при сохранении качества там, где оно нужно.

Доступ из России без VPN и оплата на юр.лицо

Прямой доступ к Google Gemini и OpenAI из России затруднён: нужны зарубежные карты для оплаты и VPN, а аккаунты живут до первого бана. Для разового эксперимента это может сработать, но для продукта, который обрабатывает фото на потоке, такой путь ненадёжен — в любой момент можно остаться без доступа и без корректных документов на расход.

Через Promptra модели обработки изображений — Nano Banana 2 Edit, Nano Banana Pro Edit и GPT Image 2 Edit, а также видео-модели для оживления — доступны по одному ключу через российский OpenAI-совместимый endpoint. VPN не требуется: запросы проксируются легально на стороне сервиса, это B2B-доступ к зарубежным нейросетям, а не обход чего-либо. Оплата идёт на российское юр.лицо — российское юр.лицо — с полным пакетом закрывающих документов через ЭДО, поэтому документы автоматически проводятся в учётной системе компании.

Для команды это снимает две проблемы. Операционную: один счёт и один ключ вместо нескольких зарубежных аккаунтов с иностранными картами. И бухгалтерскую: расходы на обработку фото можно корректно учесть как затраты компании, потому что на руках есть первичка российского формата. Без правильно оформленных закрывающих документов расход сложно провести по учёту — подробно эту тему мы разобрали в гайде про закрывающие документы на AI. Подключить ChatGPT-модели в свой стек можно по инструкции на странице ChatGPT API.

Promptra — Russian LLM API aggregator. One OpenAI-compatible endpoint to all flagship models: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.

Provider prices 1-to-1 at CBR rate — no markup on tokens. Ruble billing per contract, full closing documents through EDI. No VPN — legal B2B service in Russia.

Try: promptra.ru · model catalog · docs