Рынок ИИ в последние месяцы словно постоянно на старте нового забега: компании всеми силами стараются заявить о «прорыве» раньше остальных и доказать, что их моРынок ИИ в последние месяцы словно постоянно на старте нового забега: компании всеми силами стараются заявить о «прорыве» раньше остальных и доказать, что их мо

GPT-5.1 vs GPT-5.2: какое поколение ИИ круче? Сравнение архитектуры, цен и возможностей

9be6fa42a1beac373a03a23228e12dab.jpeg

Рынок ИИ в последние месяцы словно постоянно на старте нового забега: компании всеми силами стараются заявить о «прорыве» раньше остальных и доказать, что их модель переворачивает всё с ног на голову. Похоже, сейчас соревнуются не столько в качестве, сколько в количестве анонсов. На этом фоне OpenAI возвращается после короткой паузы и выпускает GPT‑5.2 - не временную версию или лёгкий апдейт, а действительно новую ступеньку в своей длинной лестницы.

Первые намёки появились задолго до официального релиза. Сначала тихие утечки, затем публикации в профильных медиа: The Verge упоминал, что OpenAI готовит что‑то объёмное, а The Information сообщала, что внутри компании несколько месяцев держали режим молчания именно ради этой версии.

Интерес подогревали и другие детали. Осенью инженеры работали над экспериментальной моделью с рабочим названием Shallotpeat, где акцент сместился от обучения через обратную связь к базовому предобучению. Это важно, потому что в этой области конкуренты вроде Google и Anthropic заметно ускорились и опередили OpenAI. Кроме того, внутри команды обсуждали проект garlic - ещё одно рабочее название, которое отражало эксперименты по вливанию в компактную модель большого объёма знаний без роста затрат. Альтман даже подшучивал на эту тему в X.

Между релизами GPT‑5 и GPT‑5.1 прошло около трёх месяцев, а вот GPT‑5.2 появилась почти сразу после предыдущей версии. Будем честны, конкуренция с Claude Opus 4.5 и Gemini 3 Pro подтолкнула компанию ускорить запуск, чтобы не терять темп на рынке. И это не всё. По слухам, до конца года кроме GPT‑5.2 должны выйти обновлённые версии Grok 4.20, Gemini 3 Flash и даже Nano Banana 2 Flash - то есть конкуренция в индустрии не торопится стихать.

Тем временем на Reddit пользователи обсуждают GPT‑5.1 и утверждают, что в ряде задач она работает лучше, чем новая версия. Обсуждения полны противоречивых комментариев, поэтому мы здесь!

Сегодня будем тестировать обе модели (GPT‑5.1 и GPT‑5.2) и посмотрим, какая из них справится с реальными задачами лучше, где новая версия выигрывает, а где старый движок всё ещё держит марку.

Приятного чтения!


GPT 5.2. Птица или самолёт?

4f7120bb0a237f7401941a7f45755d7a.png

Начнем с самого заметного - knowledge cutoff. У GPT-5.1 он был октябрь 2024, а у GPT-5.2 уже август 2025-го. Когда модель работает на своих знаниях без интернета, она даёт более надёжные ответы, особенно если нужно пройти через длинные логические цепочки. Плюс делает это быстрее. Для меня это, пожалуй, главное улучшение.

OpenAI утверждает, что с выключенным веб-поиском GPT-5.2 галлюцинирует на треть реже. А с включённым поиск ошибок всего 1%. Классный показатель, но нужно помнить, что чем реже модель ошибается, тем больше соблазн полностью ей доверять. А этот редкий 1% иногда может преподнести сюрприз.

Компьютерное зрение стало ещё сильнее: по разным тестам рост на 10–30%. Для сравнения, Gemini 3 Pro умеет буквально видеть, кто и в чём был одет, кто на какой секунде видео на кого посмотрел косо, и даже 20–30 минутные ролики разбирает без проблем. Если GPT-5.2 дотянется хотя бы до такого уровня - будет очень круто.

И это уже принесло реальные результаты. В бенчмарке GDPVal GPT-5.2 набирает 70,9%, тогда как GPT-5 держится на 38,8%. Этот тест проверяет, как модель справляется с рутинными задачами вроде финансовых отчётов, презентаций, инженерных чертежей, юридических документов и видео. Простые задачи, но именно с них начинается интеграция ИИ в рабочие процессы.

Теперь модель лучше работает с графиками, интерфейсами и техническими схемами. Интерпретация GUI стала точнее почти в два раза.

940e7f78eeb7b05492101ddaa82d4ef5.png

Особое внимание заслуживают бенчмарки ARC-AGI-1 и ARC-AGI-2, где проверяется абстрактное мышление.

2d80a2a789c4e0c47fc5a3e3fc0ee278.png

ARC Prize опубликовала результаты, которые позиционируются сложным тестом на абстрактное мышление. Да, GPT-5.2 Pro забрала золото в обоих. ARC-AGI-2 была релизнута недавно и многие пишут, что задачи оттуда не были в дата-сетах для обучения ИИ.

Раньше ИИ там с трудом решал задачи: Claude Opus 4 Thinking - 8,6%, GPT-5 Thinking - 9,9%. Сейчас GPT-5.2 Thinking берёт 43,3%, а GPT-5 Pro - целых 54,2%! Если результаты честные, это серьезный шаг к умным агентам.

Другие тесты тоже впечатляют: SWE Bench Pro - с 50,8% до 55,6%, GPQA Diamond - с 88,1% до 92,4%, AIME 2025 - 100% выполнения против 94% у GPT-5. В целом OpenAI почти догнала Gemini 3 Pro и Claude Opus 4.5, хотя в веб-дизайне ещё немного проигрывает.

Дата обращения: 16.12.2025
Дата обращения: 16.12.2025

А вот GPT-5.1 значительно отстает от последних релизов Google и Anthropic почти по всем параметрам.

Все, новичка похвалили, теперь давайте к делу.


Тестируем, сравниваем, делаем выводы

В качестве платформы я буду использовать BotHub, поскольку сервис обходит некоторые сложности с сайтом моделей.

ef4f033b2221dd446e1a9cf8c6d141c2.png

Если тоже испытываете проблемы с доступом, а протестировать хочется, то по ссылке вы можете получить 100 000 бесплатных токенов для теста GPT-5.2 на своих задачах.

Модель уже доступна на платформе, а мы забираем бонус и переходим к тестам!


Щепотку математики и логики

Давайте сразу поднимем градус и проверим логику и математику. Разработчики заявили об улучшениях в навыках рассуждения, так что самое время узнать, как модели справляются с задачами разного уровня сложности.

Начнём с моей любимой задачей на логику, которая на первый взгляд выглядит элементарно, но есть подвох...

GPT-5.1

68a82ea677690606f6a035e784d82b5a.png

GPT-5.2

d70bd2c9861d7854ade9ef470053b5e0.png

Только GPT-5.2 учла водителя. Интересно, что она не вдавалась в подробные рассуждения, и её ответ уместился в строке, когда 5.1 рассуждала в аж 6 пунктов. Но задачка на логику, значит балл уходит 5.2.

Давайте дадим младшей модели еще шанс. Предлагаю такую задачку:

GPT-5.1

ab10ec5648ebc4d0a36bdef1e5575345.png

GPT-5.2

445df3a960a086a0b7955ba00e08c583.png

Новые результаты перед нами. Все дали правильный ответ. GPT-5.2 снова отличается краткостью, но при этом модель не избегает уравнений. Балл уходит двум моделям!

А теперь время серьезной артиллерии - работа с ранжированием элементов системы. Один из моих любимых тестов. Здесь мы дадим задачу уровня старших курсов университета. Её можно найти в интернете, но мы интересуемся именно тем, как модели построят решение шаг за шагом через матрицу полных путей.

Задача выглядит так:

Ожидаемое решение: R1 = 0.5, R2 ≈ 0.1538, R3 ≈ 0.1153, R4 ≈ 0.1153, R5 ≈ 0.1153.

GPT-5.1

9bdd6a3dd71c45874393a97afd1b3200.png

GPT-5.2

ec177f87f487ed9947ebd379b10b6b5e.png

Обе модели построили матрицу смежности, но на этом их успех закончился. Как минимум, диагональ найденной матрицы полных путей оказалась нулевой. Задача не обязательно решается через последовательное разложение квазиминоров, хотя именно этот метод часто встречается на сайтах при поиске решения.

Возможно, стоило бы составить более подробный промпт, тогда модели могли бы дать более корректный результат, ведь логика решения у моделей в целом схожа. Либо задачу нужно решать пошагово, чтобы достичь верного ответа.

Но, что бы не говорили, на данный момент алгоритмы не способны заменить старшекурсника-бакалавра.

Ну, и GPT-5.2 снова блеснул краткостью, а балл никто не получает.


Добавим копирование веб-интерфейса

Сейчас я подам на вход скриншот страницы и попрошу каждую из моделей написать код для нее.

Будем копировать интерфейс нашего сервиса!

403e861b6fa78bc4080b44c24158698a.png

GPT-5.1

c14298dbe19696b1f100ae89edbae99b.png

GPT-5.2

a57bd93732447bf94b14cfb374d66262.png

Да, GPT-5.1 сильно отстает. Расположение иконок, шрифт, даже фон, который просто синий - все минус. Но зато создал флаг Казахстана, которого там быть не должно. Балл уходит новой версии. Также мне показалось, что версия 5.2 сильно сгладила иконки и они стали неестественными.

Кстати, у GPT наблюдается неплохой прогресс, вот итог от легендарной 4o:

81e4f68682a023cf59e0b127d59fcfd9.png

Балл уходит новой версии, а мы идем дальше!


Приправим генерацией текста

Теперь посмотрим как хорошо модели пишут тексты. Многие используют GPT именно для этого!

Просим следующее:

*Здесь ответы моделей спрячу под спойлеры, потому как скриншот выйдут нечитаемыми.

GPT-5.1
  1. Предварительная подготовка деталей

1.1. Охлаждающая среда

  • Заготовить 2–2,5 литра кваса (или кефира/сыворотки, в зависимости от выбранной модификации агрегата).

  • Поместить в холодильный отсек минимум на 3–4 часа до момента сборки, чтобы рабочая жидкость была строго холодной.

1.2. Основные конструкционные элементы

  • Картофель варёный в мундире – 5–6 штук среднего калибра. Охладить, очистить.

  • Яйцо куриное – 4–5 штук, отварить вкрутую, охладить, очистить.

  • Огурец свежий – 4–5 штук среднего размера, вымыть, концы обрезать.

  • Колбаса варёная / отварное мясо (говядина, курица) – 300–400 г.

  • Зелёный лук – 1 пучок.

  • Укроп – 1 пучок.

  • Сметана – 200–250 г.

  • Соль, перец – по вкусу, но строго в соответствии с требованиями оператора.

  1. Инструменты и рабочее место

2.1. Инструменты

  • Нож разделочный – 1 шт.

  • Доска разделочная – 1 шт.

  • Ёмкость сборочная (кастрюля 3–4 л) – 1 шт.

  • Венчик или ложка для перемешивания – 1 шт.

2.2. Рабочее место

  • Оснастить горизонтальной поверхностью.

  • Обеспечить доступ к холодильному отсеку и источнику воды.

  • Оператор обязан вымыть руки.

  1. Обработка и нарезка компонентов

3.1. Картофельный модуль

  • Картофель нарезать кубиками размером 8–10 мм.

  • Переместить в сборочную ёмкость.

3.2. Белково-мясной модуль

  • Яйца нарезать кубиком аналогичного формата и добавить к картофелю.

  • Колбасу или мясо нарезать кубиками той же величины. Добавить в сборочную ёмкость.

3.3. Овощной модуль

  • Огурцы нарезать кубиками 8–10 мм. При образовании избыточного сока – не удалять, он участвует в общей смазке системы.

  • Зелёный лук мелко нашинковать.

  • Укроп мелко нарезать.

  1. Формирование ароматической смеси (заправочный узел)

4.1. Предварительное смешивание зелени

  • В отдельной малой ёмкости соединить зелёный лук и укроп.

  • Добавить 0,5 чайной ложки соли.

  • Интенсивно подавить зелень ложкой до появления яркого аромата – происходит активация эфирных масел (аналог приработки деталей).

4.2. Введение сметанного модуля

  • В зелёную смесь добавить сметану.

  • Перемешивать до получения однородной густой эмульсии.

  • При необходимости добавить 2–3 столовые ложки кваса/кефира для регулировки вязкости.

  1. Сборка агрегата

5.1. Консолидация твёрдых элементов

  • Переместить зелёно-сметанную смесь в основную сборочную ёмкость к картофелю, яйцам, мясу и огурцам.

  • Тщательно перемешать до равномерного распределения всех фракций по объёму.

5.2. Заправка охлаждающей жидкостью

  • Влить в сборочную ёмкость предварительно охлаждённый квас (или кефир).

  • Объём рабочей жидкости устанавливается по желаемой «жидкости» агрегата:

    • для густой модификации – до уровня чуть выше твёрдых компонентов;

    • для «походной» (более жидкой) – ещё +300–500 мл.

  • Перемешать. Провести дегустационный контроль: при необходимости добавить соль и перец.

  1. Цикл стабилизации

  • Закрыть сборочную ёмкость крышкой.

  • Поместить в холодильный отсек минимум на 30–40 минут.

  • В этот период происходит пропитка и «синхронизация» компонентов – аналог выхода трактора на рабочий режим после обкатки.

  1. Пуск и эксплуатация

7.1. Подача к рабочему месту оператора

  • Разлить окрошку по сервировочным ёмкостям (тарелкам/глубоким мискам).

  • При необходимости дополнительно дооснастить:

    • 1 столовой ложкой сметаны сверху;

    • свежим укропом;

    • кубиками льда при эксплуатации в условиях повышенной температуры окружающей среды.

7.2. Режим потребления

  • Эксплуатировать агрегат малыми порциями, равномерно захватывая твёрдую и жидкую части.

  • Соблюдать правила техники безопасности: не запивать горячими напитками, чтобы не нарушить температурный режим системы охлаждения оператора.

  1. Техническое обслуживание

  • Остатки продукта хранить в холодильнике не более 24 часов.

  • Перед повторным запуском тщательно перемешать – возможно расслоение рабочей жидкости и твёрдых элементов.

В результате сборки оператор получает полностью готовый «охлаждающий трактор» – окрошку, способную стабильно поддерживать бодрость и температуру тела в жаркий сезон.

GPT-5.2

Инструкция по сборке агрегата «Окрошка» (модель ОК-1, исполнение “летнее”)

0. Назначение изделия

Агрегат предназначен для охлаждения оператора в тёплый сезон и повышения производительности отдыха.

1) Комплектация (узлы и детали)

База (шасси):

  • Картофель — 3–4 шт. (средние)

  • Яйца — 3–4 шт.

Силовой блок (мясной/белковый модуль, выбрать один):

  • Ветчина/колбаса — 250–300 гили отварная говядина/курица — 250–300 г

Навесное оборудование (овощной пакет):

  • Огурцы — 2–3 шт.

  • Редис — 6–10 шт.

  • Зелёный лук — 1 пучок

  • Укроп — 1 пучок (опционально)

  • (Опционально) зелень/петрушка по допуску

Охлаждающая рабочая жидкость (выбрать тип топлива):

  • Квас — 1–1.5 лили кефир/айран — 1–1.5 л (можно разбавить водой 1:1)

Смазка и регулировочные материалы:

  • Сметана — 2–4 ст. л.

  • Горчица — 1–2 ч. л. (опционально)

  • Хрен — 1 ч. л. (опционально)

  • Соль, перец — по техусловиям

2) Инструмент и оснастка

  • Кастрюля (для термообработки узлов)

  • Нож, доска

  • Тёрка/давилка (для лука, по желанию)

  • Большая миска (сборочный стапель)

  • Ложка/лопатка (для перемешивания)

  • Холодильник (камера предварительного охлаждения)

3) Подготовка деталей (предсборочные операции)

3.1 Термообработка базовых узлов

  1. Картофель: отварить “в мундире” до готовности, охладить, очистить.

  2. Яйца: сварить вкрутую (около 10 минут после закипания), охладить, очистить.

3.2 Калибровка и раскрой

  1. Нарезать кубиком:

    • картофель,

    • яйца,

    • мясной модуль,

    • огурцы,

    • редис (можно полукружьями — допускается).

  2. Зелёный лук и укроп мелко нашинковать.

4) Сборка на стапеле (основная сборочная линия)

  1. В сборочную ёмкость (миску) загрузить:

    • картофельный блок,

    • яйценесущий модуль,

    • мясной модуль,

    • огуречно-редисный пакет,

    • зелёный лук и укроп.

  2. Добавить соль и перец. Выполнить сухую предварительную протяжку (перемешать).

5) Пуско-наладка (регулировка вкусовых зазоров)

  1. Ввести сметану как смазочно-уплотнительный материал.

  2. При необходимости установить опции:

    • горчица (режим “бодрый запуск”),

    • хрен (режим “повышенная тяга”).

  3. Залить выбранную рабочую жидкость:

    • квас (классическая конфигурация),

    • или кефир/айран (молочная комплектация).

  4. Перемешать до однородности, проверить “ход” (вкус). При необходимости:

    • досолить,

    • добавить жидкости для нужной вязкости/плотности.

6) Испытания и ввод в эксплуатацию

  1. Отправить агрегат в холодильник на 20–40 минут для стабилизации системы.

  2. Подать в порционных ёмкостях.

  3. Эксплуатация допускается с дополнительным охлаждением (лёд) при экстремальной жаре.

7) Регламент обслуживания и замечания по технике безопасности

  • Не затягивать с хранением: оптимальная работа агрегата — в день сборки.

  • Не перегружать горчицей на первых испытаниях — возможен несанкционированный “форсаж”.

  • При использовании магазинного кваса выбирать несладкий, иначе агрегат уйдёт в режим “компот”.

Модели неплохо справились с задачей и превратили рецепт окрошки в инструкцию по сборке трактора. Честно говоря, ответ 5.2 впечатлил больше всего - охх уж этот энтузиазм. Версия 5.1, на мой взгляд, слишком строго придерживался структуры с пунктами (1.1–7.2) и какая-то сухая. Балл отдаю 5.2!


Немного таблиц

OpenAI пишут, что 5.2 работает с таблицами на 9,3% лучше, чем GPT-5.1. Пусть небольшой, но прирост. Давайте затестим!

GPT-5.1

06767a12b8dcc8ed99325d560090a1ec.png

GPT-5.2

2a16b391f9489ad285a5f2ce78980083.png

В этом тесте мне больше всего понравилась 5.2, хотя и 5.1 справилась с заданием, но больше похоже на набор квадратиков, кое где даже цифры стоят на границе, есть и пустые квадраты. А кого бы выбрали вы?


Напоследок кодинг

Не будем давать создание типичного калькулятора или змейки. Пусть будет 55-ая задача на динамическое программирование с LeetCode.

Промпт:

GPT-5.1

9abd44af1239464eb93050c04c4884f4.png

GPT-5.2

60727c4bd1b6af4b6c88eb7ef42e0528.png

Первое, что бросается в глаза - ответ 5.2 снова наименее подробный. Описание самого алгоритма поверхностное в сравнении с 5.1, однако все-таки объясняет почему он работает. А если говорить про код, то 5.2 представил его более лаконичным в сравнении с 5.1. Конечно, это не Opus или Sonnet, но все же.


Какие цены?

77a2db0454e45c737a8ace9388b3e8a2.png

По данным OpenAI, стоимость выросла примерно на сорок процентов по сравнению с предыдущей версией. В режиме Thinking цена составляет 1.75 доллара за миллион токенов на входе и 14 долларов за миллион токенов на выходе. Это выше, чем у GPT-5.1, но ниже стоимости того же Gemini 3 Pro и, по сути, сопоставимо с позиционированием модели в сегменте премиум.


Что приготовили в итоге?

Да, очень круто, что ребята на рынке конкурируют между собой и заставляют друг друга двигаться дальше. Тем не менее, после тестирования появилось мнение, что при таком ажиотаже результаты GPT‑5.2 могли быть и лучше. Будто стоило дать возможность OpenAI доработать эту модель до 5.5. Но модель вышла и вот она тут. Время покажет, как она приживется в наших повседневных проектах, и на мой взгляд, GPT-5.2 значительно выше предшественника.

В конце хочется напомнить, что нейросетям всё ещё рано безоговорочно доверять. Они ошибаются, фантазируют и иногда удивляют не в ту сторону. Они неплохи, но только как помощники, не более.

Поэтому доверяйте, но проверяйте. И не забывайте, именно вы направляете всё это в нужное русло!

Спасибо за прочтение! А что вы думаете насчет новой модели и какие сильные стороны смогли выделить для себя?

Источник

Возможности рынка
Логотип 1
1 Курс (1)
$0.005864
$0.005864$0.005864
-13.29%
USD
График цены 1 (1) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.