OpenAI представляет новую большую языковую модель o1, обученную с помощью обучения с подкреплением для выполнения сложных рассуждений. o1 думает, прежде чем ответить — она может создать длинную внутреннюю цепочку рассуждений, прежде чем ответить пользователю.
OpenAI o1 занимает 89-й процентиль по вопросам соревновательного программирования (Codeforces), входит в число 500 лучших студентов США в квалификационном раунде для участия в Олимпиаде по математике (AIME) и превосходит точность людей с докторской степенью (PhD - доктор философии) на эталонном тесте по физике, биологии и химии (GPQA). Хотя работа, необходимая для того, чтобы сделать эту новую модель такой же удобной в использовании, как и текущие модели, все еще продолжается, OpenAI выпускает раннюю версию этой модели, o1-preview, для немедленного использования в ChatGPT и для доверенных пользователей API.
Алгоритм обучения с подкреплением в больших масштабах учит модель продуктивно мыслить, используя свою цепочку рассуждений в высокоэффективном, с точки зрения данных, процессе обучения. В OpenAI обнаружили, что производительность o1 последовательно улучшается с увеличением объема обучения с подкреплением (вычислительных ресурсов во время обучения) и с увеличением времени, затрачиваемого на размышления (вычислительных ресурсов во время тестирования). Ограничения на масштабирование этого подхода существенно отличаются от ограничений предварительного обучения больших языковых моделей, и разработчики продолжают их исследовать.
Производительность o1 плавно улучшается как с увеличением вычислительных ресурсов во время обучения, так и с увеличением вычислительных ресурсов во время тестирования.
Оценка
Чтобы подчеркнуть улучшение рассуждений по сравнению с GPT-4o, в OpenAI протестировали модели на разнообразном наборе экзаменов для людей и бенчмарков машинного обучения. Разработчики показывают, что o1 значительно превосходит GPT-4o в подавляющем большинстве этих задач, требующих интенсивного использования логического мышления. Если не указано иное, они оценивали o1 в режиме максимального использования вычислительных ресурсов во время тестирования.
o1 значительно превосходит GPT-4o на сложных бенчмарках, оценивающих способность к рассуждению. Сплошные столбцы показывают точность pass@1, а затененная область показывает производительность голосования большинством (консенсуса) с 64 выборками.
o1 превосходит GPT-4o на широком спектре бенчмарков, включая 54 из 57 подкатегорий MMLU. Для иллюстрации показаны семь из них.
Во многих бенчмарках, требующих интенсивного использования логического мышления, o1 соперничает по производительности с экспертами-людьми. Новейшие передовые модели настолько хорошо справляются с MATH и GSM8K, что эти бенчмарки больше не эффективны для дифференциации моделей. В OpenAI оценили математическую производительность на AIME, экзамене, предназначенном для проверки самых ярких старшеклассников-математиков в Америке. На экзаменах AIME 2024 года GPT-4o решал в среднем только 12% (1,8/15) задач. o1 в среднем решал 74% (11,1/15) с одной выборкой на задачу, 83% (12,5/15) с консенсусом среди 64 выборок и 93% (13,9/15) при повторном ранжировании 1000 выборок с помощью обученной функции оценки. Счет 13,9 помещает его в число 500 лучших студентов страны и выше порога для участия в математической олимпиаде США.
В OpenAI также оценили o1 на GPQA Diamond, сложном бенчмарке интеллекта, который проверяет знания в области химии, физики и биологии. Чтобы сравнить модели с людьми, разработчики наняли экспертов с докторскими степенями для ответа на вопросы GPQA Diamond. Они обнаружили, что o1 превзошел производительность этих экспертов-людей, став первой моделью, сделавшей это на этом бенчмарке. Эти результаты не означают, что o1 во всех отношениях способнее, чем человек с докторской степенью, — только то, что модель более искусна в решении некоторых задач, которые, как ожидается, должен решать человек с докторской степенью. На нескольких других бенчмарках машинного обучения o1 улучшил показатели по сравнению с самыми современными моделями. С включенными возможностями визуального восприятия o1 набрал 78,2% на MMMU, став первой моделью, способной конкурировать с экспертами-людьми. Он также превзошел GPT-4o в 54 из 57 подкатегорий MMLU.
Цепочка рассуждений
Подобно тому, как человек может долго думать, прежде чем ответить на сложный вопрос, o1 использует цепочку рассуждений при попытке решить задачу. Благодаря обучению с подкреплением o1 учится оттачивать свою цепочку рассуждений и совершенствовать используемые стратегии. Он учится распознавать и исправлять свои ошибки. Он учится разбивать сложные шаги на более простые. Он учится пробовать другой подход, когда текущий не работает. Этот процесс значительно улучшает способность модели к рассуждению.
Программирование
В OpenAI обучили модель, которая набрала 213 баллов и заняла 49-й процентиль на Международной олимпиаде по информатике (IOI) 2024 года, инициализировав ее из o1 и обучив дальнейшему совершенствованию навыков программирования. Эта модель участвовала в IOI 2024 года на тех же условиях, что и участники-люди. У нее было десять часов, чтобы решить шесть сложных алгоритмических задач, и ей разрешалось 50 попыток на задачу.
Для каждой задачи система генерировала множество вариантов решений и отправляла 50 из них на основе стратегии выбора во время тестирования. Решения выбирались на основе производительности на общедоступных тестовых случаях IOI, тестовых случаях, сгенерированных моделью, и обученной функции оценки. Если бы разработчики вместо этого отправляли решения случайным образом, они бы набрали в среднем всего 156 баллов, что говорит о том, что эта стратегия стоила почти 60 баллов в условиях соревнований.
При ослабленном ограничении на количество попыток разработчики обнаружили, что производительность модели значительно улучшилась. При разрешении 10 000 попыток на задачу модель достигла результата 362,14 балла — выше порога золотой медали — даже без какой-либо стратегии выбора во время тестирования.
Наконец, в OpenAI смоделировали соревнования по программированию, проводимые Codeforces, чтобы продемонстрировать навыки программирования этой модели. Их оценки точно соответствовали правилам соревнований и допускали 10 попыток. GPT-4o достиг рейтинга Эло 808, что соответствует 11-му процентилю среди участников-людей. Эта модель значительно превзошла как GPT-4o, так и o1 — она достигла рейтинга Эло 1807, превзойдя 93% участников.
Дальнейшая тонкая настройка на соревнованиях по программированию улучшает o1. Улучшенная модель заняла 49-й процентиль на Международной олимпиаде по информатике 2024 года в соответствии с правилами соревнований.
Оценка человеческих предпочтений
В дополнение к экзаменам и академическим бенчмаркам в OpenAI также оценили предпочтения людей в отношении o1-preview по сравнению с GPT-4o на сложных, открытых запросах в широком спектре областей. В этой оценке людям-оценщикам были показаны анонимные ответы на запрос от o1-preview и GPT-4o, и они проголосовали за то, какой ответ им больше понравился. o1-preview значительно предпочтительнее GPT-4o в категориях, требующих интенсивного использования логического мышления, таких как анализ данных, программирование и математика. Однако o1-preview не является предпочтительным в некоторых задачах обработки естественного языка, что говорит о том, что он не подходит для всех случаев использования.
Люди предпочитают o1-preview в областях, где полезны мощные рассуждения.
Безопасность
Цепочка рассуждений предоставляет новые возможности для согласования и безопасности. В OpenAI обнаружили, что интеграция их политик поведения модели в цепочку рассуждений модели является эффективным способом надежного обучения человеческим ценностям и принципам. Обучая модель правилам безопасности и тому, как рассуждать о них в контексте, разработчики обнаружили доказательства того, что способность к рассуждению напрямую влияет на надежность модели: o1-preview добился существенного улучшения производительности в ключевых оценках взлома и самых сложных внутренних бенчмарках компании для оценки границ отказа модели в отношении безопасности. Разработчики считают, что использование цепочки рассуждений предлагает значительные преимущества для безопасности и согласования, потому что оно позволяет им наблюдать за мышлением модели понятным образом, и рассуждения модели о правилах безопасности более устойчивы к сценариям, выходящим за рамки распределения.
Чтобы подвергнуть улучшения стресс-тестированию, в OpenAI провели набор тестов безопасности и red-teaming перед развертыванием в соответствии с системой готовности. Разработчики обнаружили, что цепочка рассуждений способствовала улучшению возможностей во всех их оценках. Особо следует отметить, что они наблюдали интересные случаи взлома вознаграждения. Подробные результаты этих оценок можно найти в прилагаемой системной карте o1 на сайте OpenAI.
Заключение
o1 значительно продвигает современные технологии в области рассуждений ИИ. В OpenAI планируют выпускать улучшенные версии этой модели по мере продолжения итераций. Они ожидают, что эти новые возможности рассуждения улучшат их способность согласовывать модели с человеческими ценностями и принципами. Они считают, что o1 — и его преемники — откроют множество новых вариантов использования ИИ в науке, программировании, математике и смежных областях.