Сравнение ChatGPT и DeepSeek в решении задач программирования

Содержание:

I. ВВЕДЕНИЕ II. ИСТОРИЯ: ЭВОЛЮЦИЯ LLM В ПРОГРАММИРОВАНИИ III. МЕТОДОЛОГИЯ СРАВНЕНИЯ ChatGPT и DeepSeek В РЕШЕНИИ ЗАДАЧ IV. РЕЗУЛЬТАТЫ АНАЛИЗА ЭФФЕКТИВНОСТИ ВЫПОЛНЕНИЯ И ПОТРЕБЛЕНИЯ ПАМЯТИ ДЛЯ ЗАДАЧ ПРОГРАММИРОВАНИЯ V. ОБСУЖДЕНИЕ И ЗАКЛЮЧЕНИЕ

Развитие больших языковых моделей (LLM) создало конкурентную среду для инструментов программирования с помощью ИИ. В данном исследовании оцениваются две ведущие модели: ChatGPT 03-mini и DeepSeek-R1 на предмет их способности решать конкурентные задачи программирования из Codeforces.

Используя 29 задач программирования трех уровней сложности — легкого, среднего и трудного, мы оценили результаты обеих моделей по принятым решениям, эффективности использования памяти и производительности во время выполнения. Наши результаты показывают, что хотя обе модели одинаково хорошо справляются с легкими задачами, ChatGPT превосходит DeepSeek-R1 в задачах средней сложности, достигая 54,5 % успеха по сравнению с 18,1 % у DeepSeek. Обе модели справились с трудными задачами, что свидетельствует о некоторых проблемах, с которыми сталкиваются магистранты при решении очень сложных задач программирования.

Эти результаты подчеркивают ключевые различия в возможностях моделей и их вычислительной мощности, предлагая ценные идеи для разработчиков и исследователей, стремящихся усовершенствовать инструменты программирования, основанные на искусственном интеллекте.

I. ВВЕДЕНИЕ

Быстрое появление технологий искусственного интеллекта (ИИ) вызвало всплеск исследований, направленных на оценку возможностей генерации кода. Большие языковые модели (БЯМ/ англ. Large Language Models — LLM) становятся все более надежными для широкого круга пользователей, включая начинающих программистов и опытных разработчиков. Такая доступность открывает широкие возможности для расширения компьютерного образования, потенциально меняя как среду самообучения, так и формальное высшее образование. LLM предлагают многообещающие приложения для автоматизации генерации заданий и обеспечения персонализированной обратной связи, а также для поддержки концептуального понимания в курсах программирования.

Модель ChatGPT, известная своей способностью генерировать человекоподобный текст, прочно вошла в обиход. ChatGPT быстро интегрировалась в различные части нашего общества, оказывая поддержку в образовании студентам и преподавателям, в том числе внося значительный вклад в программирование. Итерации ChatGPT продолжают развиваться, разрабатываются новые модели, такие как ChatGPT o3-mini и ChatGPT-4o.

Эти новые модели отличаются повышенной точностью, более быстрым временем отклика и улучшенной способностью обрабатывать сложные запросы [15]. В частности, ChatGPT o3-mini оставила положительный след сообществе благодаря своим высокопроизводительным результатам при решении научных задач и задач кодирования [16]. В последнее время ChatGPT o3-mini получил широкое признание разработчиков благодаря более высоким пределам скорости и меньшей задержке, что делает его привлекательным выбором для задач кодирования и решения логических задач. Аналогично, ChatGPT-40 демонстрирует высокие показатели в области мультимодальных возможностей и обработки различных контекстов. Однако в сфере ИИ наблюдается острая конкуренция между мировыми технологическими гигантами в области ИИ-технологий, особенно для LLM.

Недавно в Китае появился заметный претендент под названием DeepSeek — чат-бот с открытым исходным кодом, созданный с упором на логические рассуждения и дедуктивное мышление для решения сложных задач. 20 января 2025 года компания DeepSeek выпустила свою последнюю модель, DeepSeek-R1, которая привлекла к себе большое внимание благодаря тому, что достигла сопоставимых и поразительных результатов, как ChatGPT, и при этом потребовала лишь части затрат на обучение [6]. Впечатляющие результаты DeepSeek-R1 включают 79,8 % баллов в математическом бенчмарке AIME 2024, что немного превосходит 79,2 % баллов ChatGPT o1 [14].

Основываясь на выдающихся результатах DeepSeek-R1 в сравнении с моделями ChatGPT, данное исследование направлено на оценку и сравнение возможностей DeepSeek-R1 и ChatGPT o3-mini в контексте решения задач кодирования. В частности, мы изучаем, как эти модели работают с точки зрения точности, эффективности и качества выполнения.

Количественно оценивая производительность обеих моделей, мы стремимся определить, смогут ли новые модели LLM, такие как DeepSeek, побороть доминирование ChatGPT в рабочих процессах кодирования с помощью ИИ, и, следовательно, предложить ценную информацию об их потенциальном влиянии на процессы принятия решений разработчиками и будущее разработки программного обеспечения с помощью ИИ.

II. ИСТОРИЯ: ЭВОЛЮЦИЯ LLM В ПРОГРАММИРОВАНИИ

Интеграция ИИ в программирование изменила сценарий обучения программированию, обеспечив преимущества для студентов, преподавателей и профессиональных разработчиков. В частности, LLM стали мощными инструментами ИИ в области программирования благодаря использованию глубоких нейронных сетей, обученных на огромных объемах текстовых данных. Когда эти модели обучаются на обширных кодовых базах, они приобретают способность генерировать человекоподобный код на основе подсказок естественного языка.

Эта способность привела к созданию специализированных LLM для задач программирования, таких как ChatGPT o3-mini, GitHub Copilot и Google PaLM, которые являются доработанными версиями более общих моделей, таких как ChatGPT3. Эти достижения привели к росту числа исследований, направленных на улучшение LLM для программирования с упором на оптимизацию производительности, экономичность и доступность [24,21]. Использование LLM в программировании создало новые возможности как для начинающих, так и для опытных разработчиков.

Модели LLM могут упростить повторяющиеся задачи кодирования, ускорить создание прототипов и прояснить сложные алгоритмы [11]. Для новичков LLM могут служить интерактивными инструментами обучения, предлагая объяснения и генерируя примеры кода, которые улучшают понимание концепций программирования [13]. Опытные разработчики могут использовать LLM для оптимизации эффективности кода, изучения альтернативных реализаций и быстрой адаптации к новым языкам программирования или фреймворкам [23].

В последнее время появились исследования, посвященные оценке надежности кода, сгенерированного с помощью LLM. В исследованиях рассматриваются различные аспекты, включая точность генерации кода, способность модели понимать концепции программирования и ее производительность на различных языках программирования. Например, Рамлер и др. исследовали применение ChatGPT в учебных программах по информатике для бакалавров, предлагая возможности и проблемы в преподавании фундаментальных курсов по программированию [20].

Аналогичным образом, Чен и др. представили StuGPTViz, систему визуальной аналитики, которая отслеживает и сравнивает временные паттерны в подсказках студентов и качество ответов ChatGPT, что дает преподавателям значительный педагогический опыт [1]. Другой пример — Copilot, созданный на базе GPT-4, который интегрируется с популярными редакторами кода для предоставления помощи в написании кода на основе ИИ.

Исследование показало, что программисты, использующие Copilot, выполняли задания примерно на 55,8 % быстрее, чем те, кто не пользовался помощью ИИ, что подчеркивает потенциальное влияние LLM на производительность разработки программного обеспечения [16]. Другие литературные исследования возможностей ChatGPT в генерации кода на Python показывают, что они могут эффективно помогать начинающим программистам в решении сложных задач кодирования, используя минимальные подсказки [2].

С другой стороны, DeepSeek продемонстрировал выдающиеся способности к рассуждениям в сложных задачах на решение проблем. Например, в [4] сообщается, что DeepSeek-R1 превзошел ChatGPT и Gemini на наборе из 30 сложных математических задач из набора данных MATH. В другом исследовании [5] сообщается, что DeepSeek превзошел три широко используемые большие языковые модели: Gemini, GPT и Llama, но отстает от Claude в задачах классификации машинного обучения. В [5] также отмечается, что, хотя DeepSeek работает медленнее, чем эти модели, его открытость и экономичность дают пользователям значительные преимущества.

Однако исследования также показывают, что вмешательство человека часто необходимо для того, чтобы направить решения, генерируемые ИИ, в нужное русло [2, 18]. Хотя в данном исследовании мы не ставим перед собой задачу оценить работу LLM без вмешательства человека, наша цель — оценить потенциал новой китайской модели DeepSeek-R1 наряду с ChatGPT от OpenAI в решении задач программирования упором на точность результатов, использование памяти и время, затрачиваемое на поиск решений.

Согласно последним исследованиям, LLM приобретают все большее значение в разработке программного обеспечения, находя применение в отладке, завершении кода и оптимизации алгоритмов [24]. Несмотря на многообещающие возможности LLM, особенно тех, которые предварительно обучены на коде, до сих пор ощущается недостаток комплексных оценок их производительности при преобразовании языка в код [25]. Устраняя этот пробел, наше исследование позволяет получить ценные сведения о том, насколько хорошо эти модели работают в реальные ситуации кодирования и расширяет наши знания о программировании с помощью ИИ.

III. МЕТОДОЛОГИЯ СРАВНЕНИЯ ChatGPT и DeepSeek В РЕШЕНИИ ЗАДАЧ

A. Задачи кодирования

В нашем исследовании мы выбрали 29 задач из Codeforces. Codeforces одна из крупнейших и наиболее распространенных платформ конкурсного программирования (т.е. спортивных соревнований по программированию), которая предоставляет открытую инфраструктуру для организации и проведения конкурсов по программированию, а также автоматизации учебных курсов по алгоритмическому решению задач [11]. Codeforces предлагает большой набор конкурсов по языкам программирования, включая C++, Python и Java (см. рис. 1).

Отобранные в Codeforces задачи делятся по уровню сложности на три группы: легкие, средние и трудные задачи по программированию. Уровень сложности задачи программирования определяется ее сложностью и частотой успешных попыток пользователей. Например, задача, которая была решена большим количеством людей с относительно небольшим количеством попыток, классифицируется как легкая, в то время как задачи, требующие большего количества попыток или демонстрирующие более низкий уровень успешности, классифицируются как средние или трудные соответственно.

В нашем исследовании мы использовали C++ в качестве языка программирования для создания двух LLM благодаря его высокой скорости компиляции и широкому распространению в соревновательном программировании.

Рис. 1. Codeforces для конкурсного программирования

B. Условия исследования

ChatGPT-03-mini был использован для генерации кода ChatGPT, а модель DeepSeek-R1 — для DeepSeek. На Codeforces доступно несколько вариантов компиляторов для C++, включая версии GNU G++, Clang и MSVC. Чтобы обеспечить справедливое
сравнение и единообразное исполнение всех решений, мы выбрали в качестве компилятора GNU G++20 13.2 (64-bit, winlib).

Этот выбор помогает стандартизировать оценку производительности, минимизируя различия в поведении компилятора, оптимизациях и производительности во время выполнения, которые могут быть внесены разными компиляторами. Каждая проблема программирования представлялась моделям LLM с помощью следующего последовательного промпта:
«Решите следующий вопрос и верните код на C++, компилируемый g++ 20. Обратите внимание на ограничения по памяти и времени», после чего следовали выбранные задачи из Codeforces с примерами ввода и вывода (см. рис2). Для каждой модели мы собрали 29 решений, которые были скомпилированы и сравнены.

После того как промпты использованы в моделях, коды сгенерированы LLM, мы отправляем их в Codeforces, который затем предоставляет обратную связь, такую как «Принять», «Неправильный ответ», «Превышен лимит памяти», «Превышен лимит времени» и «Ошибка компиляции». Если в отзыве стоит «Принять», код считается правильным, в противном случае он классифицируется как неправильный.

Рис. 2. Пример промпта для генерации кодовых решений одной из простых задач программирования.

C. Анализ данных

Мы подсчитали процент принятых задач программирования для каждой модели. Для оценки общей производительности мы использовали формулу взвешенных баллов, учитывающую принятые задачи, эффективность выполнения, использование памяти и затраты времени. Наша формула взвешенного балла, по которой мы оценивали модели:

W𝑒𝑖𝑔ℎ𝑡𝑒𝑑 𝑠𝑐𝑜𝑟𝑒=𝑋×(𝐷𝑖𝑓𝑓𝑖𝑐𝑢𝑙𝑡𝑦 𝑠𝑐𝑜𝑟𝑒×(1 −𝛼×𝑇𝑖𝑚𝑒𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒𝑑−𝛽× 𝑀𝑒𝑚𝑜𝑟𝑦𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒𝑑))…… (I)

Где,

X = Принятые решения
Difficulty score (оценка сложности) = 1 (легко), 2 (средне) и 3 (тяжело),
α (альфа) = коэффициент штрафа за время выполнения=0,5,
β (бета) = коэффициент штрафа за использование памяти = 0,5.

В уравнении (I) мы установили штрафные коэффициенты α (альфа) и β (бета) на 0,5, чтобы придать равное значение времени выполнения и использованию памяти. Это позволит сохранить баланс и справедливую оценку решений.

IV. РЕЗУЛЬТАТЫ АНАЛИЗА ЭФФЕКТИВНОСТИ ВЫПОЛНЕНИЯ И ПОТРЕБЛЕНИЯ ПАМЯТИ ДЛЯ ЗАДАЧ ПРОГРАММИРОВАНИЯ

Проведенный нами анализ выявил интересные результаты, касающиеся приемлемости решения, эффективности выполнения и потребления памяти для задач программирования. В таблице 1 приведен сравнительный анализ результатов работы LLM ChatGPT и DeepSeek при решении 29 задач программирования разного уровня сложности.

Таблица I. Результаты по различным уровням сложности выбранных задач программирования с указанием занимаемой памяти и затраченного времени:

Результаты по различным уровням сложности выбранных задач программирования

Результаты по различным уровням сложности выбранных задач программирования - 2

A. Программирование Способность решать проблемы

a) Производительность ChatGPT

Все 9 легких задач из набора данных были приняты для кода, предоставленного ChatGPT. Для заданий среднего уровня было принято только 6 из 11 заданий, что составляет 54,5 % от числа принятых. В случае с заданиями сложного уровня ChatGPT удалось добиться принятия только 1 из 9 заданий, причем большинство отказов было связано с «неправильными ответами» для большинства заданий, за которыми последовали «ошибка времени выполнения» и «не удалось сгенерировать».

Как показано в таблице 2, принятые решения задач среднего уровня потребляют больше памяти по сравнению с задачами легкого и трудного уровней. Несмотря на такое высокое потребление ресурсов, на рис. 3 видно, что ChatGPT получил значительно более высокий взвешенный балл (11,6) на заданиях среднего уровня.

В целом 44,8 % решений из ChatGPT не были приняты. Наиболее частыми причинами отказа были «Неправильный ответ» и «Превышен лимит времени». Это говорит о том, что компиляция заняла слишком много времени для выполнения в рамках заданных ограничений.

Рис.3. На гистограмме средневзвешенный балл для разных уровней сложности задач по программированию.

b) Производительность DeepSeek

Для задач легкого уровня производительность DeepSeek была почти такой же, как у ChatGPT, но для задач среднего уровня процент успеха DeepSeek составляет всего 18,1%, как показано в таблице 2. DeepSeek не справился с трудными задачами, часто выдавая неверные или неэффективные решения с такими отзывами, как «Неверный ответ», «Превышен лимит памяти», «Ошибка компиляции» и «Превышен лимит времени». Около 65,51 % решений, полученных с помощью DeepSeek, не были приняты. DeepSeek страдает от ошибок компиляции и проблем с памятью.

Таблица II. Результаты по различным уровням сложности выбранных задач программирования с указанием занимаемой памяти и затраченного времени:

Результаты по различным уровням сложности выбранных задач программирования

B. Анализ памяти и времени

На рис. 4 представлен сравнительный анализ времени выполнения GPT и DeepSeek для каждой задачи программирования и отдельных проблем. В DeepSeek наблюдается значительный выброс в вопросе 21, где время ответа превышает 4000 мс, что значительно выше всех остальных зафиксированных значений. В целом ChatGPT показал меньшее время выполнения по сравнению с DeepSeek при решении задач кодирования.

ChatGPT продемонстрировал более оптимизированное использование памяти и более быстрое время выполнения в задачах легкого и среднего уровня, как показано на рис. 5. Хотя DeepSeek технически правильно отвечал в некоторых случаях, он демонстрировал более высокое потребление памяти, что говорит о потенциальной неэффективности оптимизации кода.

Несмотря на то что ChatGPT часто выдавал неверные ответы, ему удалось использовать меньше памяти по сравнению с DeepSeek, который превышал лимиты памяти или сталкивался с ошибками компиляции.

Рис. 4. Сравнение времени выполнения 29 задач программирования с помощью ChatGPT o3-mini и DeepSeek-R1.

Рис. 5. Сравнение использования памяти для 29 задач программирования с помощью ChatGPT o3-mini и DeepSeek-R1.

V. ОБСУЖДЕНИЕ И ЗАКЛЮЧЕНИЕ

В данном исследовании проводится сравнение ChatGPT o3-mini и DeepSeek-R1 в соревновательном программировании. Наши результаты показывают, что ChatGPT превосходит DeepSeek по количеству принятых решений (т. е. по коэффициенту корректности).

При решении несложных задач программирования обе модели показали хорошие результаты с высокими показателями точности. Этот результат говорит о том, что на LLM можно положиться как на специалистов по решению простых задач программирования, вероятно, потому, что такие задачи тесно связаны с обучающими данными, которым они подвергались [7, 21].

Сравнительный анализ показывает, что ChatGPT демонстрирует более высокую производительность, чем модель R1, в задачах программирования среднего уровня. Такое различие может быть связано с тем, что архитектура модели o3-mini, частью которой является ChatGPT, выигрывает от более обширного предварительного обучения на данных конкурентного программирования.

На уровне сложности сложных задач программирования из Codeforces обе модели демонстрируют высокий порог борьбы (т.е. 11% успеха для o3-mini и 0% для R1). То, что обе модели не справляются с трудными задачами, может означать необходимость постоянного опыта человека в решении сложных задач программирования, о чем также говорится в [2]. Другим следствием этого вывода является необходимость дальнейшей оптимизации архитектуры LLM для решения высокосложных задач программирования, что, по нашим прогнозам, может появиться в ближайшем будущем.

ChatGPT и DeepSeek эффективно управляют памятью и временем для простых задач программирования без превышения объема памяти и времени. Для задач среднего уровня DeepSeek потреблял меньше памяти, чем ChatGPT, что может быть связано со способностью DeepSeek снижать вычислительную нагрузку за счет обучение на основе обучения с подкреплением [8].

Однако, несмотря на низкое потребление памяти, DeepSeek часто испытывал трудности с оптимизацией, периодически выдавая неверные решения для задач среднего уровня. При решении сложных задач программирования обе модели столкнулись с серьезными вычислительными проблемами. DeepSeek часто превышал лимиты памяти и сталкивался с ошибками компиляции, а ChatGPT также не мог найти корректных решений для задач сложного программирования. Общее потребление памяти для ChatGPT довольно велико по сравнению с DeepSeek, одной из причин может быть то, что ChatGPT использует все свои параметры, есть 1,8 триллиона параметров, что делает его вычислительно интенсивным [3].

Мы определили возможные последствия для конечных пользователей. Вполне вероятно, что для эффективного решения средних и сложных задач программирования недостаточно нулевых и одноразовых подсказок. Поэтому мы рекомендуем начинающим программистам изучить более продвинутые техники подсказок, чтобы оптимизировать корректность, использование памяти и время выполнения LLM. Еще одна область — обеспечение объяснимости кода с помощью LLM. Эта способность, как сообщается в [10], может обеспечить лексические и семантические услуги, эквивалентные тем, которые предлагают человеческие эксперты, и, как следствие, расширить возможности рассмотрения LLM в качестве инструментов обучения с помощью ИИ.

A. Ограничения исследования

Данное исследование имеет ряд ограничений, о которых стоит упомянуть. Во-первых, наше исследование опирается на одномоментный характер ответов LLM. Поскольку последующие подсказки не использовались, любые неточности в сгенерированных результатах не были уточнены. Это может привести к неэффективности, поскольку программирование с помощью LLM требует вмешательства человека для обеспечения корректности [2].

Еще один факт, который также следует учитывать: в нашем эксперименте мы использовали ChatGPT o3-mini, но для DeepSeek не использовалась его более совершенная версия DeepSeek-Coder, производительность DeepSeek-Coder могла бы показать лучшие результаты, чем R1. Это открывает возможности для будущих исследований. Еще одним ограничением является то, что было протестировано только 29 задач по программированию, увеличение количества и разнообразия наборов задач могло бы помочь лучше обобщить результаты.

Кроме того, данное исследование сфокусировано на одном языке программирования, что может ограничить его применимость в различных средах программирования. Расширение сферы охвата до нескольких языков, таких как Python, могло бы дать более глубокие выводы. Кроме того, эффективность LLM сильно зависит от формулировки подсказки.

Несмотря на то, что использовалась единая структура подсказок, изучение различных подсказок могло бы дать более глубокое представление о возможностях модели и вариативности ответов.

Поскольку модели LLM продолжают развиваться, дальнейшие сравнения между различными моделями будут способствовать инновациям и совершенствованию эффективности решения задач программирования и оптимизации вычислений.

ССЫЛКИ

[1] Z. Chen, J. Wang, M. Xia, K. Shigyo, D. Liu, R. Zhang, and H. Qu, «StuGPTViz: Подход визуальной аналитики для понимания взаимодействия студентов и ChatGPT,» arXiv preprint arXiv:2407.12423, 2024. [Online]. Доступно: https://arxiv.org/abs/2407.12423.
[2] V. Чугани, «DeepSeek против OpenAI: сравнение новых титанов ИИ», DataCamp, 6 февраля 2025 г. [Online]. Доступно: https://www.datacamp.com/blog/deepseek-vs-openai
[3] C. Е. Коэльо, М. Н. Алимам и Р. Куатли, «Эффективность ChatGPT в кодировании: Сравнительный анализ популярных больших языков Модели», Digital, том 4, № 1, с. 114-125, 2024. doi:10.3390/digital4010005.
[4] Dirox, «DeepSeek vs ChatGPT vs Gemini: выбор правильного ИИ для ваших нужд», 20 февраля 2025 г. [Онлайн]. Доступно: https://dirox.com/post/deepseek-vs-chatgpt-vs-gemini-ai-comparison.
[5] E. Евстафьев, «Token-Hungry, Yet Precise: DeepSeek R1 подчеркивает необходимость многоступенчатого рассуждения над скоростью в MATH», arXiv preprint arXiv:2501.18576, 2025. doi: 10.48550/arxiv.2501.18576.
[6] T. Gao, J. Jin, Z. T. Ke, and G. Moryoussef, «A Comparison of DeepSeek and Other LLMs,» arXiv preprint arXiv:2502.03688, 2025. doi: 10.48550/arxiv.2502.03688.
[7] E. Гибни, «Китайская дешевая, открытая модель ИИ DeepSeek приводит в восторг ученых». Nature, pp. 13-14, 2025. doi: 10.1038/d41586-025-00229-6.
[8] S. Капур, «Большие языковые модели нужно научить знать то, чего они не знают», препринт :2406.08391v2, 2023. [Онлайн]. Доступно: https://arxiv.org/html/2406.08391v2.
[9] Г. Каур, «DeepSeek против ChatGPT: Сравнение возможностей в 2025 году», Cointelegraph, 2025. [Онлайн]. Доступно: https://cointelegraph.com/learn/articles/deepseek-vs-chatgpt.
[10] M. Каземитабаар и др., «Как новички используют генераторы кода на основе LLM для решения задач кодирования CS1 в среде самообучения», препринт :2309.14049, 2023. doi: 10.48550/arXiv.2309.14049.
[11] M. Мирзаянов и др., «Codeforces как образовательная платформа для обучения программированию в условиях цифровизации», Олимпиады по информатике, с. 133-142, 2020. doi: 10.15388/ioi.2020.10.
[12] S. Nguyen, H. M. Babe, Y. Zi, A. Guha, C. J. Anderson, & M. Q. Feldman, «How beginning programmers and code LLMs (mis)read each other,» arXiv preprint arXiv:3613904.3642706, 2024. doi: 10.1145/3613904.3642706.
[13] A. Норьега, «Китайский ИИ демонстрирует высокие результаты: DeepSeek-R1 превосходит ChatGPT по производительности и эффективности», Driving ECO, 23 января 2025 г. [Онлайн]. Available: https://www.drivingeco.com/en/ia- china-pisa-fuerte-deepseek-r1-supera-chatgptrendimiento-eficiencia.
[14] OpenAI, «Hello GPT-4o», OpenAI, 2024. [Online]. Доступно: https://openai.com/index/hello-gpt-4o.
[15] OpenAI, «OpenAI o3-mini», OpenAI, 2025 г. [Онлайн]. Доступно: https://openai.com/index/openai-o3-mini.
[16] S. Пенг, Э. Каллиамваку, П. Цихон и М. Демирер, «Влияние искусственного интеллекта на производительность разработчиков: Evidence from GitHub Copilot,» arXiv preprint arXiv:2302.06590, 2023. doi: 10.48550/arxiv.2302.06590.
[17] L. Перес, «ChatGPT o3-mini-high: Скачок вперед в рассуждениях ИИ», Neuroflash, 5 февраля 2025 г. [Online]. Доступно: https://neuroflash.com/blog/chatgpt-o3-mini-high.
[18] R. A. Poldrack, T. Lu, and G. Beguš, «Кодирование с помощью искусственного интеллекта: Эксперименты с GPT-4», arXiv preprint arXiv:2304.13187, 2023. [Онлайн]. Доступно: https://arxiv.org/abs/2304.13187.
[19] B. Куреши, «Исследование использования ChatGPT в качестве инструмента для обучения и оценки в учебной программе по информатике для студентов: Возможности и проблемы», arXiv preprint arXiv:2304.11214, 2023. doi: 10.48550/arxiv.2304.11214.
[20] Р. Рамлер, М. Мозер, Л. Фишер, М. Ниссл и Р. Хайнцль, «Отчет о промышленном опыте кодирования с помощью ИИ в профессиональной разработке программного обеспечения», в Proc. 1st Int. Workshop Large Language Models for Code (LLM4Code ’24), 2024, pp. 1-7. doi: 10.1145/3643795.3648377.
[21] Z. Tian и J. Chen, «Понимание программирования на основе тестовых случаев в больших языковых моделях для лучшей генерации кода», arXiv preprint arXiv:2309.16120, 2023. doi: 10.48550/arxiv.2309.16120.
[22] T. Y. Yeh, K. Tran, G. Gao, T. Yu, W. O. Fong, T. Y. & Chen, «Bridging novice programmers and LLMs with interactivity,» in Proc. 56th ACM Tech. Symp. Comput. Sci. Educ. (SIGCSETS 2025), 2025, pp. 1295-1301. doi: 10.1145/3641554.3701867.
[23] Q. Zhu, D. Guo, Z. Shao, D. Yang, P. Wang, R. Xu … & W. Liang, «DeepSeekCoder-V2: Breaking the barrier of closed-source models in code intelligence,» arXiv preprint arXiv:2406.11931, [n.d.]. [Online]. Доступно: https://arxiv.org/pdf/2406.11931.
[24] S. Yadav, A. M. Qureshi, A. Kaushik, S. Sharma, R. Loughran, S. Kazhuparambil, et al., «From idea to implementation: Оценка влияния больших языковых моделей при разработке программного обеспечения — статья мнений», препринт arXiv:2503.07450, 2025.
[25] A. Ni, P. Yin, Y. Zhao, M. Riddell, T. Feng, R. Shen, et al., «L2ceval: Оценка возможностей генерации языка в код с помощью больших языковых моделей», Trans. Assoc. Comput. Linguist., vol. 12, pp. 1311-1329, 2024.