DEV Community

Cover image for OpenAI представила о3 – семейство генеративных моделей со способностью рассуждения
ArcaneGaming for Arcane Gaming

Posted on

OpenAI представила о3 – семейство генеративных моделей со способностью рассуждения

Компания OpenAI провела пред-рождественский марафон анонсов новых продуктов, в ходе которого представила новое поколение генеративных моделей о3, пришедшее на замену предыдущей версии о1.

В семейство вошли две модели: полноценная о3, и компактная о3-mini для менее сложных задач.
Являясь моделью со способностью рассуждения, o3 способна самостоятельно проверять свои же ответы, что увеличивает точность и качество выдаваемой пользователю информации. Однако такие модели обрабатывают запросы медленнее стандартных, поскольку проверка фактов немного тормозит процесс. В зависимости от сложности запроса, задержка ответа у o3 может составлять от нескольких секунд до нескольких минут.

Как описывается на портале TechCrunch, OpenAI обучала o3 «думать, прежде чем отвечать», с помощью технологии «частной цепочки мыслей». Модель может рассуждать о поставленной задаче и заранее распланировать ответ, выполняя ряд последовательных действий, помогающих ей найти решение. На практике, как пишет портал, после ввода запроса o3 делает паузу, рассматривая ряд связанных подсказок и «объясняя» свои рассуждения по ходу дела, а затем выделяет и группирует ту информацию, которую считает наиболее точной в конкретном случае, и выдаёт её в качестве ответа.

OpenAI также сообщила, что при обучении о3 использовалась новая технология «преднамеренного согласования», с помощью которой модель научилась проверять свои же ответы на соответствие принципам безопасности.

В отличие от предыдущей версии, в o3 есть опция регулирования времени, которое модель может тратить на рассуждения. В частности, можно выбрать низкий, средний или высокий уровень рассуждений – чем он выше, тем лучше o3 выполняет задачу.

Компания утверждает, что о3:

  • превзошла свою предшественницу о1 на 22,8% по бенчмарку SWE-Bench Verified, оценивающему эффективность решения задач по программированию;
  • получила высокий рейтинг 2727 на платформе олимпиад по программированию Codeforces;
  • набрала 96,7% по математическому тесту AIME;
  • набрала 87,7% по тесту GPQA c вопросами по биологии, физике и химии;
  • установила рекорд по бенчмарку EpochAI Frontier Math, решив 25,2% задач.

Публичный доступ к продукту пока не открыт – на данный момент он доступен только в предварительной версии для исследовательских целей. Полноценный релиз ожидается в следующем году.

Speedy emails, satisfied customers

Postmark Image

Are delayed transactional emails costing you user satisfaction? Postmark delivers your emails almost instantly, keeping your customers happy and connected.

Sign up

Top comments (0)

The Most Contextual AI Development Assistant

Pieces.app image

Our centralized storage agent works on-device, unifying various developer tools to proactively capture and enrich useful materials, streamline collaboration, and solve complex problems through a contextual understanding of your unique workflow.

👥 Ideal for solo developers, teams, and cross-company projects

Learn more