Обучение с подкреплением на основе отзывов людей
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
В машинном обучении обучение с подкреплением на основе обратной связи с человеком ( RLHF ) — это метод согласования с интеллектуального агента предпочтениями человека. В классическом обучении с подкреплением цель такого агента — изучить функцию, которая управляет его поведением, называемую политикой . Эта функция учится максимизировать вознаграждение, которое она получает от отдельной функции вознаграждения, в зависимости от выполнения своей задачи. [1] Однако трудно явно определить функцию вознаграждения, которая бы аппроксимировала человеческие предпочтения. Поэтому RLHF стремится обучать «модель вознаграждения» непосредственно на основе отзывов людей . [2] Модель вознаграждения сначала обучается контролируемым образом — независимо от оптимизируемой политики — для прогнозирования, будет ли ответ на заданное приглашение хорошим (высокое вознаграждение) или плохим (низкое вознаграждение) на основе данных ранжирования, собранных от людей -аннотаторов . Эта модель затем используется в качестве функции вознаграждения для улучшения политики агента с помощью алгоритма оптимизации, такого как оптимизация проксимальной политики . [3]
RLHF имеет приложения в различных областях машинного обучения, включая задачи обработки естественного языка, такие как суммирование текста и диалоговые агенты , компьютерного зрения, задачи такие как модели преобразования текста в изображение , и разработку ботов для видеоигр . Хотя RLHF является эффективным методом обучения моделей, чтобы они лучше действовали в соответствии с предпочтениями человека, он также сталкивается с проблемами из-за способа сбора данных о предпочтениях человека. Хотя RLHF не требует огромных объемов данных для повышения производительности, поиск высококачественных данных о предпочтениях по-прежнему остается дорогостоящим процессом. Более того, если данные не будут тщательно собраны из репрезентативной выборки , полученная модель может иметь нежелательные искажения .

Предыстория и мотивация [ править ]
Оптимизация модели на основе отзывов людей желательна, когда задачу сложно определить, но легко оценить. [4] Например, можно захотеть научить модель генерировать безопасный текст, который будет одновременно полезным и безвредным (например, без предвзятости , токсичности или иного вредного контента). Попросить людей вручную создать примеры безобидного и вредного текста будет сложно и отнимет много времени. Однако люди умеют быстро оценивать и сравнивать вредность различных текстов, сгенерированных ИИ. Следовательно, более практической целью было бы позволить модели использовать этот тип обратной связи от человека для улучшения генерации текста. [5]
Несмотря на явные преимущества включения обратной связи с людьми в модели обучения, предыдущие попытки, в том числе те, которые используют обучение с подкреплением , столкнулись со значительными проблемами. Большинство попыток были либо узкими и трудными для обобщения, разбиваясь на более сложные задачи, либо [6] [7] [8] [9] или они сталкивались с трудностями в обучении с помощью скудных (отсутствие конкретной информации и одновременного использования больших объемов текста) или шумных (непоследовательное вознаграждение за аналогичные результаты) функций вознаграждения. [10] [11]
RLHF не был первым успешным методом использования человеческой обратной связи для обучения с подкреплением, но он является одним из наиболее широко используемых. Основание для RLHF было задумано как попытка создать общий алгоритм обучения на основе практической обратной связи от людей. [4] [3] Используемый сегодня алгоритм был представлен OpenAI в статье об улучшении продолжения или обобщения текста на основе отзывов людей, и он начал набирать популярность, когда тот же метод был повторно использован в их статье об InstructGPT . [2] [12] [13] Также было показано, что RLHF повышает надежность агентов RL и их способность к исследованию , что приводит к тому, что процесс оптимизации более умело справляется с неопределенностью и эффективно исследует свою среду в поисках наивысшего вознаграждения. [14]
Сбор отзывов людей [ править ]
Обратная связь с людьми обычно собирается путем предложения людям ранжировать примеры поведения агента. [13] [15] [16] Эти рейтинги затем можно использовать для оценки результатов, например, с помощью рейтинговой системы Эло , которая представляет собой алгоритм расчета относительных уровней навыков игроков в игре на основе только результата каждой игры. [3] Хотя ранжирование результатов является наиболее широко распространенной формой обратной связи, в недавних исследованиях были изучены и другие формы, такие как числовая обратная связь, обратная связь на естественном языке и побуждение к прямому редактированию выходных данных модели. [17]
Одной из первоначальных мотиваций RLHF было то, что для эффективности требуется относительно небольшой объем сравнительных данных. [4] Было показано, что небольшой объем данных может привести к результатам, сопоставимым с большим объемом. Кроме того, увеличение объема данных имеет тенденцию быть менее эффективным, чем пропорциональное увеличение размера модели вознаграждения. [12] Тем не менее, больший и более разнообразный объем данных может иметь решающее значение для задач, где важно избежать предвзятости со стороны частично репрезентативной группы аннотаторов. [13]
при обучении на основе обратной связи человека посредством парных сравнений в рамках модели Брэдли-Терри-Люса (или модели Плакетта-Люса для K-образных сравнений более чем двух сравнений) оценка максимального правдоподобия Было показано, что (MLE) для линейных функций вознаграждения показывает сходятся , если данные сравнения генерируются в соответствии с четко определенной линейной моделью . Это означает, что при определенных условиях, если модель обучена решать, какой выбор люди предпочтут из пар (или групп) вариантов, она обязательно улучшится в прогнозировании будущих предпочтений. Это улучшение ожидается до тех пор, пока сравнения, на которых он учится, основаны на последовательном и простом правиле. [18] [19]
Обе модели сбора данных в автономном режиме, в которых модель обучается путем взаимодействия со статическим набором данных и пакетного обновления своей политики, а также модели сбора данных в режиме онлайн, в которых модель напрямую взаимодействует с динамической средой и немедленно обновляет свою политику, были математически изучал доказательство границ сложности выборки для RLHF в рамках различных моделей обратной связи. [18] [20]
В модели автономного сбора данных, когда целью является обучение политике, наиболее эффективным является пессимистический MLE, который включает нижнюю доверительную границу в качестве оценки вознаграждения. Более того, было показано, что, когда это применимо, непосредственное рассмотрение K-сравнений асимптотически более эффективно, чем преобразование их в парные сравнения в целях прогнозирования. [20] [21] [13]
алгоритма В онлайн-сценарии, когда отзывы людей собираются посредством парных сравнений в рамках модели Брэдли-Терри-Люса и цель состоит в том, чтобы минимизировать сожаление (разница в производительности по сравнению с оптимальным агентом), было показано, что оптимистичный MLE который включает верхнюю доверительную границу , поскольку оценку вознаграждения можно использовать для разработки эффективных выборочных алгоритмов (это означает, что они требуют относительно небольшого количества обучающих данных). Ключевая проблема RLHF при обучении на основе парных (или дуэльных) сравнений связана с немарковской природой ее оптимальных политик. В отличие от более простых сценариев, где оптимальная стратегия не требует памяти о прошлых действиях, в RLHF лучший образ действий часто зависит от предыдущих событий и решений, что делает стратегию по своей сути зависимой от памяти. [19]
Приложения [ править ]
RLHF применялся к различным областям обработки естественного языка (NLP), таким как разговорные агенты, обобщение текста и понимание естественного языка. [22] [12] Обычное обучение с подкреплением, при котором агенты учатся на своих действиях на основе предопределенной «функции вознаграждения», трудно применимо к задачам НЛП, поскольку вознаграждения, как правило, трудно определить или измерить, особенно при решении сложных задач, включающих человеческие ценности или предпочтения. [4] RLHF может управлять моделями НЛП, в частности языковыми моделями , для предоставления ответов, которые соответствуют предпочтениям человека в отношении таких задач, заранее фиксируя их предпочтения в модели вознаграждения. В результате получается модель, способная генерировать более релевантные ответы и отклонять неуместные или нерелевантные запросы. [13] [23] Некоторыми яркими примерами языковых моделей, обученных с помощью RLHF, являются ( OpenAI ChatGPT и его предшественник InstructGPT ), [15] [24] [25] DeepMind Воробей , [26] [27] [28] Google Близнецы , [29] и Anthropic из Клод . [30]
В компьютерном зрении RLHF также использовался для согласования моделей текста и изображения . Исследования, в которых RLHF успешно использовалась для этой цели, отметили, что использование регуляризации KL в RLHF, направленное на предотвращение слишком далекого отклонения изученной политики от несогласованной модели, помогло стабилизировать процесс обучения за счет уменьшения переобучения модели вознаграждения. Было отмечено, что окончательные выходные изображения моделей, обученных с помощью KL-регуляризации, были значительно более высокого качества, чем модели, обученные без нее. [31] [32] Другие методы пытались включить обратную связь посредством более прямого обучения — основанного на максимизации вознаграждения без использования обучения с подкреплением — но допускали, что подход на основе RLHF, вероятно, будет работать лучше из-за генерации онлайн-выборок, используемой в RLHF во время обновлений, а также вышеупомянутая регуляризация KL по сравнению с предыдущей моделью, которая смягчает переобучение функции вознаграждения. [33]
Первоначально RLHF применялся в других областях, таких как разработка ботов для видеоигр и задач по моделированию робототехники . Например, OpenAI и DeepMind обучали агентов играть в игры Atari , основываясь на предпочтениях человека. В классическом обучении таких ботов на основе RL функция вознаграждения просто коррелирует с тем, насколько хорошо агент работает в игре, обычно с использованием таких показателей, как игровой счет . Для сравнения, в RLHF человеку периодически предъявляются два ролика поведения агента в игре, и он должен решить, какой из них выглядит лучше. Этот подход может научить агентов работать на конкурентоспособном уровне, даже не имея доступа к своим оценкам. Фактически было показано, что RLHF иногда может привести к более высокой производительности по сравнению с RL с оценочными метриками, поскольку предпочтения человека могут содержать больше полезной информации, чем метрики, основанные на производительности. [4] [34] Агенты достигли высоких результатов во многих протестированных средах, часто превосходя возможности человека. [35]
Обучение [ править ]
В RLHF обучаются две разные модели: модель вознаграждения и политика обучения с подкреплением (RL). Модель вознаграждения учится определять, какое поведение желательно, на основе отзывов людей, в то время как политика руководствуется моделью вознаграждения для определения действий агента. Обе модели обычно инициализируются с использованием предварительно обученной модели авторегрессионного языка . Затем эта модель обычно обучается контролируемым образом на относительно небольшом наборе данных, состоящем из пар подсказок помощнику и сопровождающих их ответов, написанных аннотаторами-людьми. Модель вознаграждения выигрывает от того, что она начинается с предварительно обученной модели, поскольку она инициализируется с пониманием языка и фокусирует обучение непосредственно на изучении человеческих предпочтений, ускоряя процесс. Помимо использования для инициализации модели вознаграждения и политики RL, модель затем также используется для выборки данных для сравнения аннотаторами. [13] [12]
Затем модель вознаграждения обучается путем замены последнего слоя предыдущей модели случайно инициализированной головкой регрессии . Это изменение переводит модель с исходной задачи классификации по словарю на простой вывод числа, соответствующего оценке любого заданного запроса и ответа. Эта модель обучается на данных сравнения человеческих предпочтений, собранных ранее из контролируемой модели. В частности, его обучают минимизировать следующую функцию перекрестных энтропийных потерь, что побуждает его делать прогнозы, более близкие к фактическим человеческим рейтингам:
где это количество ответов, которые оценили маркировщики, это результат модели вознаграждения за подсказку и завершение , является предпочтительным завершением по сравнению с , обозначает сигмовидную функцию , а обозначает ожидаемое значение . [13] Эта функция потерь по существу измеряет разницу между предсказаниями модели вознаграждения и решениями, принятыми людьми. Цель состоит в том, чтобы максимально приблизить предположения модели к предпочтениям людей, минимизируя разницу, измеряемую этим уравнением. В случае только парных сравнений коэффициент опущено. [12] В противном случае все сравнения из каждой подсказки используются для обучения как один пакет . [13] После обучения выходные данные модели нормализуются так, что эталонные завершения имеют средний балл 0. [12]
Как и в модели вознаграждения, политика обратной связи с людьми также настраивается на основе предварительно обученной модели. Целью этого этапа тонкой настройки является адаптация уже существующей несогласованной модели (изначально обученной контролируемым образом) для лучшего соответствия человеческим предпочтениям путем корректировки ее параметров на основе вознаграждений, полученных в результате обратной связи с людьми. Выходные данные модели вознаграждения можно использовать в качестве вознаграждения, которое необходимо максимизировать с помощью RL для пар «подсказка-ответ». [12] Среда случайным образом представляет политику с подсказками из набора данных и ожидает ответов на них, моделируя реальные сценарии, в которых агент должен понимать различные подсказки и генерировать соответствующие ответы. Обозначение изученной политики RL с помощью параметров как , мы можем определить следующую целевую функцию:
где обучения, это распределение которое мы извлекаем и — это ранее обученная несогласованная модель. Константа используется для регулировки интенсивности штрафного срока KL. Этот штраф применяется на основе каждого токена между политикой и выходными данными несогласованных моделей. Его цель — избежать чрезмерной тонкой настройки политики, гарантируя, что процесс обучения не будет чрезмерно специализировать модель на новых обучающих данных. [13] [12] Этот термин KL работает, наказывая расхождение KL (меру статистического расстояния между распределениями) между точно настраиваемой моделью и исходной контролируемой моделью. Выбрав подходящий Обучение может сбалансировать обучение на новых данных, сохраняя при этом полезную информацию из исходной модели, увеличивая обобщение , избегая слишком близкого соответствия новым данным. Помимо предотвращения того, что новая модель дает результаты, слишком отличающиеся от результатов исходной модели, вторая мотивация включения термина KL состоит в том, чтобы позволить политике продолжить исследование окружающей среды путем поощрения дополнительной энтропии , которая может предотвратить коллапс модели до единой модели. режим . [12]
Проще говоря, целевая функция рассчитывает, насколько хорошо реакция политики, как ожидается, будет соответствовать обратной связи между людьми. Политика генерирует ответы на подсказки, и каждый ответ оценивается как по тому, насколько хорошо он соответствует человеческим предпочтениям (по данным модели вознаграждения), так и по тому, насколько он похож на ответы, которые модель естественным образом генерирует. Цель состоит в том, чтобы сбалансировать улучшение соответствия человеческим предпочтениям, обеспечивая при этом, чтобы ответы модели оставались разнообразными и не слишком отклонялись от того, чему она научилась во время первоначального обучения. Это помогает модели не только давать ответы, которые люди находят полезными или приятными, но также поддерживать широкое понимание и избегать слишком узких или повторяющихся ответов.
К целевой функции обычно добавляется второй член, который позволяет политике включать градиенты предварительного обучения. Этот термин не дает модели потерять свою первоначальную способность понимать язык, пока она изучает новые задачи на основе отзывов людей, включая исходную задачу предварительного обучения по завершению текста. Окончательная целевая функция записывается как:
где контролирует силу этого дополнительного термина и — это исходное текстовое распределение перед обучением. [13] Эту целевую функцию затем можно напрямую использовать для обучения политики с использованием алгоритма оптимизации проксимальной политики . [13] [12]
В целом эта целевая функция определяет метод корректировки политики RL, сочетая цель согласования с обратной связью от человека и сохранения понимания исходного языка модели.
Ограничения [ править ]
RLHF страдает от проблем со сбором отзывов людей, изучением модели вознаграждения и оптимизацией политики. [36] Что касается сбора данных, масштабируемость и стоимость обратной связи от человека могут быть медленными и дорогостоящими по сравнению с обучением без учителя. Его качество и последовательность могут варьироваться в зависимости от задачи, интерфейса, а также предпочтений и предубеждений отдельных людей. [13] [37]
Эффективность RLHF зависит от качества обратной связи между людьми. Например, модель может стать предвзятой , отдавая предпочтение определенным группам перед другими, если обратная связь недостаточна беспристрастна, непоследовательна или неверна. [3] [38] Существует риск переоснащения , когда модель запоминает конкретные примеры обратной связи вместо того, чтобы учиться обобщать . Например, обратная связь преимущественно от определенной демографической группы может привести к тому, что модель усвоит особенности или шум, а также предполагаемое выравнивание. Чрезмерное соответствие конкретной полученной обратной связи (то есть предвзятости в ней) может привести к тому, что модель будет работать неоптимально в новых контекстах или при использовании разными группами. [39] Одна функция вознаграждения не всегда может отражать мнения различных групп людей. Даже при репрезентативной выборке противоречивые взгляды и предпочтения могут привести к тому, что модель вознаграждения будет отдавать предпочтение мнению большинства, что потенциально поставит в невыгодное положение недостаточно представленные группы. [36]
В некоторых случаях, как это возможно при обычном обучении с подкреплением , может возникнуть риск того, что модель научится манипулировать процессом обратной связи или обманывать систему для достижения более высоких наград вместо того, чтобы действительно улучшить ее производительность. [40] В случае RLHF модель может научиться использовать тот факт, что ее вознаграждают за то, что оценивается положительно, а не обязательно за то, что на самом деле хорошо, что может привести к тому, что она научится убеждать и манипулировать. Например, модели могут понять, что кажущаяся уверенность, даже если она неточна, приносит более высокую награду. Такое поведение, если его не контролировать, не только стимулируется, но и может вызвать серьезные проблемы с развертыванием из-за того, что модель может вводить в заблуждение. Исследования показали, что люди не умеют выявлять ошибки в результатах LLM при выполнении сложных задач; поэтому модели, обучающиеся генерировать уверенно звучащий, но неверный текст, могут привести к серьезным проблемам при развертывании. [36]
Альтернативы [ править ]
обучение на основе отзывов Подкрепленное ИИ
Как и в случае с RLHF, обучение с подкреплением на основе обратной связи ИИ (RLAIF) основано на обучении модели предпочтений, за исключением того, что обратная связь генерируется автоматически. [41] Это особенно используется в Anthropic конституционном ИИ , где обратная связь ИИ основана на соответствии принципам конституции. [42]
предпочтений Прямая оптимизация
Другая альтернатива RLHF, называемая прямой оптимизацией предпочтений (DPO), была предложена для изучения человеческих предпочтений. Как и RLHF, он применялся для согласования предварительно обученных больших языковых моделей с использованием данных о предпочтениях, сгенерированных человеком. Однако в отличие от RLHF, который сначала обучает отдельную промежуточную модель, чтобы понять, как выглядят хорошие результаты, а затем обучает основную модель тому, как достичь этих результатов, DPO упрощает процесс, напрямую настраивая основную модель в соответствии с предпочтениями людей. Он использует замену переменных , чтобы определить « потерю предпочтений » непосредственно как функцию политики, и использует эту потерю для точной настройки модели, помогая ей понять и расставить приоритеты в отношении человеческих предпочтений без необходимости выполнения отдельного шага. По сути, этот подход напрямую формирует решения модели на основе положительных или отрицательных отзывов людей.
DPO проще внедрить и обучить, чем RLHF, и было показано, что он дает сопоставимые, а иногда и превосходящие результаты. [43] Тем не менее, было также показано, что RLHF превосходит DPO в некоторых наборах данных, например, в тестах, которые пытаются измерить правдивость. Поэтому выбор метода может варьироваться в зависимости от особенностей данных предпочтений человека и характера задачи. [44]
См. также [ править ]
Ссылки [ править ]
- ^ Рассел, Стюарт Дж.; Норвиг, Питер (2016). Искусственный интеллект: современный подход (Третье, Глобальное изд.). Бостон Колумбус Индианаполис Нью-Йорк Сан-Франциско Аппер-Седл-Ривер Амстердам Кейптаун Дубай Лондон Мадрид Милан Мюнхен Париж Монреаль Торонто Дели Мехико Сан-Паулу Сидней Гонконг Сеул Сингапур Тайбэй Токио: Пирсон. стр. 830–831. ISBN 978-0-13-604259-4 .
- ^ Jump up to: Перейти обратно: а б Зиглер, Дэниел М.; Стиеннон, Нисан; Ву, Джеффри; Браун, Том Б.; Рэдфорд, Алек; Амодей, Дарио; Кристиано, Пол; Ирвинг, Джеффри (2019). «Точная настройка языковых моделей на основе человеческих предпочтений». arXiv : 1909.08593 [ cs.CL ].
- ^ Jump up to: Перейти обратно: а б с д Ламберт, Натан; Кастрикато, Луи; фон Верра, Леандро; Гаврилла, Алекс. «Иллюстрация обучения с подкреплением на основе обратной связи с человеком (RLHF)» . Huggingface.co . Проверено 4 марта 2023 г.
- ^ Jump up to: Перейти обратно: а б с д и Амодей, Дарио; Кристиано, Пол; Рэй, Алекс (13 июня 2017 г.). «Изучение человеческих предпочтений» . openai.com . Проверено 4 марта 2023 г.
- ^ Чжэн, Жуй, Шихан; Хуа, Юань, Вэй; Ван, Лю, Сэньцзе; Лю, Цинь, Юхао; Сюн, Чэнь, Лу; Чжихэн; Нуо; Чжу, Минхао; Инь, Чжанъюэ; Хуан, Хаоран; Цю, Хуан, Сюаньцзин (2023). Большие языковые модели, часть I: PPO». arXiv : 2307.04964 [ cs.CL ].
- ^ Нокс, У. Брэдли; Стоун, Питер; Бризил, Синтия (2013). Обучение робота с помощью обратной связи с человеком: практический пример . Конспекты лекций по информатике. Том. 8239. Международное издательство Springer. стр. 460–470. дои : 10.1007/978-3-319-02675-6_46 . ISBN 978-3-319-02674-9 . Проверено 26 февраля 2024 г.
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Акрур, Риад; Шенауэр, Марк; Себаг, Мишель (2012). АПРЕЛЬ: Обучение с подкреплением на основе активного обучения предпочтениям . Конспекты лекций по информатике. Том. 7524. Спрингер. стр. 116–131. arXiv : 1208.0984 . дои : 10.1007/978-3-642-33486-3_8 . ISBN 978-3-642-33485-6 . Проверено 26 февраля 2024 г.
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Уилсон, Аарон; Ферн, Алан; Тадепалли, Прасад (2012). «Байесовский подход к изучению политики на основе запросов о предпочтениях траектории» . Достижения в области нейронных систем обработки информации . 25 . Карран Ассошиэйтс, Инк . Проверено 26 февраля 2024 г.
- ^ Шенауэр, Марк; Акрур, Риад; Себаг, Мишель; Супле, Жан-Кристоф (18 июня 2014 г.). «Программирование по обратной связи» . Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 1503–1511 . Проверено 26 февраля 2024 г.
- ^ Уорнелл, Гарретт; Вайтович, Николас; Лоухерн, Вернон; Стоун, Питер (25 апреля 2018 г.). «Deep TAMER: формирование интерактивного агента в многомерных пространствах состояний». Материалы конференции AAAI по искусственному интеллекту . 32 (1). arXiv : 1709.10163 . дои : 10.1609/aaai.v32i1.11485 . S2CID 4130751 .
- ^ МакГлашан, Джеймс; Хо, Марк К.; Лофтин, Роберт; Пэн, Бэй; Ван, Гуань; Робертс, Дэвид Л.; Тейлор, Мэтью Э.; Литтман, Майкл Л. (6 августа 2017 г.). «Интерактивное обучение на основе обратной связи с людьми, зависящей от политики» . Материалы 34-й Международной конференции по машинному обучению. Том 70 . JMLR.org: 2285–2294. arXiv : 1701.06049 .
- ^ Jump up to: Перейти обратно: а б с д и ж г час я дж Нисан Стиеннон; Лонг Оуян; Джеффри Ву; Дэниел Зиглер; Райан Лоу; Челси Восс; Алек Рэдфорд; Дарио Амодей; Пол Ф. Кристиано (2020). «Учимся подводить итоги с помощью обратной связи человека» . Достижения в области нейронных систем обработки информации . 33 .
- ^ Jump up to: Перейти обратно: а б с д и ж г час я дж к л Оуян, Лонг; Ву, Джеффри; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Грей, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (31 октября 2022 г.). Обучение языковых моделей следованию инструкциям с обратной связью от человека . Тридцать шестая конференция по нейронным системам обработки информации: NeurIPS 2022. arXiv : 2203.02155 .
- ^ Бай, Юньтао; Джонс, Энди; Ндусс, Камаль; Аскелл, Аманда; Чен, Анна; ДасСарма, Нова; Слейте, Рассвет; Форт, Станислав; Гангули, Глубокий; Хениган, Том; Джозеф, Николас; Кадават, Саурав; Кернион, Джексон; Конерли, Том; Эль-Шоук, Шир; Эльхаге, Нельсон; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; Хьюм, Тристан; Джонстон, Скотт; Кравец, Шона; Ловитт, Лиана; Нанда, Нил; Олссон, Кэтрин; Амодей, Дарио; Браун, Том; Кларк, Джек; МакКэндлиш, Сэм; Ола, Крис; Манн, Бен; Каплан, Джаред (2022). «Обучение полезного и безобидного помощника с подкреплением обучения на основе обратной связи с человеком». arXiv : 2204.05862 [ cs.CL ].
- ^ Jump up to: Перейти обратно: а б Эдвардс, Бендж (1 декабря 2022 г.). «OpenAI приглашает всех протестировать ChatGPT, нового чат-бота на базе искусственного интеллекта — с забавными результатами» . Арс Техника . Проверено 4 марта 2023 г.
- ^ Абхишек, Гупта (5 февраля 2023 г.). «Правильное участие заинтересованных сторон в ответственном искусственном интеллекте» . ВенчурБит . Проверено 4 марта 2023 г.
- ^ Фернандес, Патрик; Мадаан, Аман; Лю, Эмми; Фариньяс, Антониу; Педро Энрике Мартинс; Берч, Аманда; де Соуза, Хосе Г.К.; Чжоу, Шуян; У, Туншуан; Нойбиг, Грэм; Мартинс, Андре FT (2023). «Преодоление разрыва: исследование по интеграции (человеческой) обратной связи для создания естественного языка». arXiv : 2305.00955 [ cs.CL ].
- ^ Jump up to: Перейти обратно: а б Се, Тенъян; Цзян, Нань; Ван, Хуан; Сюн, Цаймин; Бай, Ю (2021). «Точная настройка политики: объединение эффективного офлайн-обучения и онлайн-обучения с подкреплением» . Достижения в области нейронных систем обработки информации . 34 . Curran Associates, Inc.: 27395–27407. arXiv : 2106.04895 . Проверено 10 марта 2024 г.
- ^ Jump up to: Перейти обратно: а б Пакьяно, Альдо; Саха, Аадирупа; Ли, Джонатан (3 марта 2023 г.). «Дуэль RL: обучение с подкреплением и предпочтениями траектории» . Материалы 26-й Международной конференции по искусственному интеллекту и статистике . ПМЛР: 6263–6289. arXiv : 2111.04850 .
- ^ Jump up to: Перейти обратно: а б Чжу, Банхуа; Джордан, Майкл; Цзяо, Цзяньтао (3 июля 2023 г.). «Принципиальное обучение с подкреплением с обратной связью от человека на основе парных или K-сравнений» . Материалы 40-й Международной конференции по машинному обучению . ПМЛР: 43037–43067. arXiv : 2301.11270 .
- ^ Ли, Цзыхао; Ян, Чжуоран; Ван, Мэнди (20 июня 2023 г.). «Обучение с подкреплением с помощью обратной связи с человеком: изучение динамического выбора через пессимизм» . Семинар ILHF ICML 2023 . arXiv : 2305.18438 . Проверено 10 марта 2024 г.
- ^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [ cs.CL ].
- ^ Виггерс, Кайл (24 февраля 2023 г.). «Может ли ИИ действительно быть защищен от текстовых атак?» . ТехКранч . Проверено 4 марта 2023 г.
- ^ Хейккиля, Мелисса (21 февраля 2023 г.). «Как OpenAI пытается сделать ChatGPT более безопасным и менее предвзятым» . Обзор технологий Массачусетского технологического института . Проверено 4 марта 2023 г.
- ^ Дуглас Хэвен, Уилл (30 ноября 2022 г.). «ChatGPT — это последнее исправление OpenAI для GPT-3. Оно красивое, но все равно извергает ерунду» . Обзор технологий Массачусетского технологического института . Проверено 4 марта 2023 г.
- ^ Глезе, Амелия; Макэлис, Нэт; Трембач, Майя; Асланидес, Джон; Фирою, Влад; Эвальдс, Тимо; Раух, Марибет; Вайдингер, Лаура; Чедвик, Мартин; Такер, Фиби; Кэмпбелл-Джиллингем, Люси; Уэсато, Джонатан; Хуанг, По-Сен; Команеску, Рамона; Ян, Фань; Видишь, Эбигейл; Дататри, Сумант; Грейг, Рори; Чен, Чарли; Фриц, Дуг; Элиас, Хауме Санчес; Грин, Ричард; Мокра, Соня; Фернандо, Николас; Ву, Бокси; Фоли, Рэйчел; Янг, Сюзанна; Габриэль, Ясон; Исаак, Уильям; Меллор, Джон; Хассабис, Демис; Кавукчуоглу, Корай; Хендрикс, Лиза Энн; Ирвинг, Джеффри (2022). «Улучшение согласованности агентов диалога посредством целенаправленных человеческих суждений». arXiv : 2209.14375 [ cs.LG ].
- ^ Голдман, Шэрон (23 сентября 2022 г.). «Почему DeepMind не развертывает своего нового чат-бота с искусственным интеллектом — и что это значит для ответственного ИИ» . ВенчурБит . Проверено 4 марта 2023 г.
- ^ Команда Воробья (22 сентября 2022 г.). «Создание агентов более безопасного диалога» . www.deepmind.com . Проверено 4 марта 2023 г.
- ^ Пинчай, Сундар; Хассабис, Демис (6 декабря 2023 г.). «Представляем Gemini: нашу крупнейшую и самую мощную модель искусственного интеллекта» . Google . Проверено 29 февраля 2024 г.
- ^ Хеншолл, Уилл (18 июля 2023 г.). «Что нужно знать о Claude 2, сопернике Anthropic ChatGPT» . ВРЕМЯ . Проверено 6 марта 2024 г.
- ^ Фань, Инь; Уоткинс, Оливия; Ду, Юйцин; Лю, Хао; Рю, Мункён; Бутилье, Крейг; Аббель, Питер; Гавамзаде, Мохаммед; Ли, Кангук; Ли, Кимин (2 ноября 2023 г.). «DPOK: обучение с подкреплением для точной настройки моделей распространения текста в изображение» . НейрИПС 2023 . arXiv : 2305.16381 . Проверено 1 марта 2024 г.
- ^ Сюй, Цзячжэн; Лю, Сяо; Ву, Юйчен; Тонг, Юйсюань; Ли, Цинкай; Дин, Мин; Тан, Цзе; Донг, Юйсяо (15 декабря 2023 г.). «ImageReward: изучение и оценка человеческих предпочтений при преобразовании текста в изображение» . Достижения в области нейронных систем обработки информации . 36 : 15903–15935. arXiv : 2304.05977 . Проверено 1 марта 2024 г.
- ^ Ли, Кимин; Лю, Хао; Рю, Мункён; Уоткинс, Оливия; Ду, Юйцин; Бутилье, Крейг; Аббель, Питер; Гавамзаде, Мохаммед; Гу, Шисян Шейн (2023). «Согласование моделей текста и изображения с использованием обратной связи между людьми». arXiv : 2302.12192 [ cs.LG ].
- ^ Лейке, Ян; Мартич, Мильян; Легг, Шейн (12 июня 2017 г.). «Обучение через обратную связь с человеком» . www.deepmind.com . Проверено 4 марта 2023 г.
- ^ Кристиано, Пол Ф; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк . Проверено 4 марта 2023 г.
- ^ Jump up to: Перейти обратно: а б с Каспер, Стивен; Дэвис, Ксандер; Ши, Клаудия; Гилберт, Томас Крендл; Шерер, Жереми; Рандо, Хавьер; Фридман, Рэйчел; Корбак, Томаш; Линднер, Дэвид; Фрейре, Педро; Ван, Тони Тонг; Маркс, Сэмюэл; Сежери, Шарбель-Рафаэль; Кэрролл, Мика; Пэн, Энди; Кристофферсен, Филипп; Дамани, Мехул; Слокам, Стюарт; Анвар, Усман; Ситтаранджан, Ананд; Надо, Макс; Мишо, Эрик Дж.; Пфау, Джейкоб; Крашенинников Дмитрий; Чен, Синь; Лангоско, Лауро; Хасэ, Питер; Бийик, Эрдем; Драган, Анка; Крюгер, Дэвид; Садиг, Дорса; Хэдфилд-Менелл, Дилан (18 сентября 2023 г.). «Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи с человеком» . Труды по исследованиям машинного обучения . arXiv : 2307.15217 .
- ^ Кристиано, Пол. «Мысли о влиянии исследований RLHF» . Проверено 4 марта 2023 г.
- ^ Беленгер, Лоренцо (2022). «Предвзятость ИИ: исследование дискриминационных алгоритмических моделей принятия решений и применение возможных машиноцентрических решений, адаптированных из фармацевтической промышленности» . ИИ и этика . 2 (4). Этика ИИ: 771–787. дои : 10.1007/s43681-022-00138-8 . ПМЦ 8830968 . ПМИД 35194591 .
- ^ Чжан, Чиюань; Бенджио, Сами; Хардт, Мориц; Рехт, Бенджамин; Виньялс, Ориол (4 ноября 2016 г.). «Понимание глубокого обучения требует переосмысления обобщений» . Международная конференция по обучению представлений.
- ^ Кларк, Джек; Амодей, Дарио (21 декабря 2016 г.). «Неверные функции вознаграждения в дикой природе» . ОпенАИ.
- ^ Ансари, Тасмия (06 октября 2023 г.). «Обучение с подкреплением требует меньше человека, больше ИИ» . Журнал Analytics India . Проверено 27 апреля 2024 г.
- ^ Эдвардс, Бендж (9 мая 2023 г.). «ИИ приобретает «ценности» благодаря новому подходу чат-бота «Конституциональный ИИ» от Anthropic» . Арс Техника . Проверено 27 апреля 2024 г.
- ^ Рафаилов, Рафаэль; Шарма, Арчит; Митчелл, Эрик; Эрмон, Стефано; Мэннинг, Кристофер Д.; Финн, Челси (2023). «Прямая оптимизация предпочтений: ваша языковая модель тайно является моделью вознаграждения». arXiv : 2305.18290 [ cs.LG ].
- ^ Ван, Жилин; Донг, Йи; Цзэн, Цзяци; Адамс, Вирджиния; Шридхар, Макеш Нарсимхан; Эгерт, Дэниел; Делалло, Оливье; Скоукрофт, Джейн Полак; Кант, Нил; Своп, Эйдан; Кучаев, Алексей (2023). «HelpSteer: набор данных полезности с несколькими атрибутами для SteerLM». arXiv : 2311.09528 [ cs.CL ].