Выравнивание ИИ

В области искусственного интеллекта (ИИ) исследования по согласованию ИИ направлены на то, чтобы направить системы ИИ в соответствии с намеченными целями, предпочтениями и этическими принципами человека или группы. Система ИИ считается согласованной , если она достигает намеченных целей. система Несогласованная ИИ может преследовать некоторые цели, но не те, которые намечены. ^{[ 1 ]}

Разработчикам ИИ часто бывает сложно согласовать систему ИИ, поскольку им сложно указать полный спектр желаемого и нежелательного поведения. Поэтому дизайнеры ИИ часто используют более простые прокси-цели , такие как получение одобрения человека . Но такой подход может создавать лазейки, игнорировать необходимые ограничения или вознаграждать систему ИИ за то, что она просто выглядит согласованной. ^{[ 1 ]}^{[ 2 ]}

Неправильно настроенные системы ИИ могут работать со сбоями и причинять вред. Системы искусственного интеллекта могут находить лазейки, которые позволяют им эффективно достигать своих прокси-целей, но непреднамеренными, иногда вредными способами ( взлом вознаграждения ). ^{[ 1 ]}^{[ 3 ]}^{[ 4 ]} Они также могут развивать нежелательные инструментальные стратегии , такие как стремление к власти или выживанию, потому что такие стратегии помогают им достичь своих конечных целей. ^{[ 1 ]}^{[ 5 ]}^{[ 6 ]} Кроме того, они могут разработать нежелательные возникающие цели, которые может быть трудно обнаружить до того, как система будет развернута и столкнется с новыми ситуациями и распределениями данных . ^{[ 7 ]}^{[ 8 ]}

Сегодня эти проблемы затрагивают существующие коммерческие системы, такие как языковые модели, ^{[ 9 ]}^{[ 10 ]}^{[ 11 ]} роботы, ^{[ 12 ]} автономные транспортные средства, ^{[ 13 ]} и системы рекомендаций в социальных сетях. ^{[ 9 ]}^{[ 6 ]}^{[ 14 ]} Некоторые исследователи ИИ утверждают, что более мощные будущие системы пострадают сильнее, поскольку эти проблемы частично возникают из-за того, что системы обладают высокими возможностями. ^{[ 15 ]}^{[ 3 ]}^{[ 2 ]}

Многие из наиболее цитируемых ученых в области искусственного интеллекта, ^{[ 16 ]}^{[ 17 ]}^{[ 18 ]} в том числе Джеффри Хинтон , Йошуа Бенджио и Стюарт Рассел , утверждают, что ИИ приближается к человеческим ( AGI ) и сверхчеловеческим когнитивным способностям ( ASI ) и может поставить под угрозу человеческую цивилизацию , если его неправильно согласовать. ^{[ 19 ]}^{[ 6 ]} Эти риски остаются дискуссионными. ^{[ 20 ]}

Согласование ИИ — это подобласть безопасности ИИ , изучение того, как создавать безопасные системы ИИ. ^{[ 21 ]} Другие области безопасности ИИ включают надежность, мониторинг и контроль возможностей . ^{[ 22 ]} Исследовательские задачи по согласованию включают в себя внедрение сложных ценностей в ИИ, разработку честного ИИ, масштабируемый надзор, аудит и интерпретацию моделей ИИ, а также предотвращение возникающего поведения ИИ, такого как стремление к власти. ^{[ 22 ]} Исследование выравнивания связано с исследованием интерпретируемости . ^{[ 23 ]}^{[ 24 ]} (состязательная) устойчивость, ^{[ 21 ]} обнаружение аномалий , калиброванная неопределенность , ^{[ 23 ]} официальная проверка , ^{[ 25 ]} обучение предпочтениям , ^{[ 26 ]}^{[ 27 ]}^{[ 28 ]} критическая безопасность техники , ^{[ 29 ]} теория игр , ^{[ 30 ]} алгоритмическая справедливость , ^{[ 21 ]}^{[ 31 ]} и социальные науки . ^{[ 32 ]}

Цели в ИИ

Программисты предоставляют системе искусственного интеллекта, такой как AlphaZero , «целевую функцию». ^{[ а ]} в котором они намерены инкапсулировать цели, для достижения которых настроен ИИ. Такая система позже заполняет (возможно, неявную) внутреннюю «модель» своего окружения. Эта модель инкапсулирует все представления агента о мире. Затем ИИ создает и выполняет любой план, рассчитанный на максимизацию ^{[ б ]} ценность ^{[ с ]} своей целевой функции. ^{[ 33 ]} Например, когда AlphaZero обучается игре в шахматы, он имеет простую целевую функцию: «+1, если AlphaZero выигрывает, -1, если AlphaZero проигрывает». Во время игры AlphaZero пытается выполнить любую последовательность ходов, которая, по его мнению, с наибольшей вероятностью достигнет максимального значения +1. ^{[ 34 ]} Точно так же система обучения с подкреплением может иметь «функцию вознаграждения», которая позволяет программистам формировать желаемое поведение ИИ. ^{[ 35 ]} Поведение эволюционного алгоритма определяется «функцией приспособленности». ^{[ 36 ]}

Проблема выравнивания

В 1960 году пионер ИИ Норберт Винер описал проблему выравнивания ИИ следующим образом:

Если мы используем для достижения наших целей механическое средство, в работу которого мы не можем эффективно вмешиваться… нам лучше быть совершенно уверенными, что цель, заложенная в машину, — это цель, которой мы действительно желаем. ^{[ 37 ]}^{[ 6 ]}

Согласование ИИ предполагает обеспечение того, чтобы цели системы ИИ соответствовали целям ее проектировщиков, пользователей или широко разделяемым ценностям, объективным этическим стандартам или намерениям ее разработчиков, если бы они были более информированными и просвещенными. ^{[ 38 ]}

Согласование ИИ — открытая проблема для современных систем ИИ ^{[ 39 ]}^{[ 40 ]} и является областью исследований в области искусственного интеллекта. ^{[ 41 ]}^{[ 1 ]} Согласование ИИ включает в себя две основные задачи: тщательное определение цели системы (внешнее согласование) и обеспечение того, чтобы система надежно применяла спецификацию (внутреннее согласование). ^{[ 2 ]} Исследователи также пытаются создать модели ИИ, которые имеют надежную согласованность и придерживаются ограничений безопасности, даже когда пользователи враждебно пытаются их обойти.

Спецификация игр и побочные эффекты

Чтобы указать цель системы ИИ, проектировщики ИИ обычно предоставляют целевую функцию , примеры или обратную связь системе . Но дизайнеры часто не могут полностью указать все важные ценности и ограничения, поэтому они прибегают к легко определяемым прокси-целям, таким как максимизация одобрения людей-надзирателей, которые подвержены ошибкам. ^{[ 21 ]}^{[ 22 ]}^{[ 42 ]}^{[ 43 ]}^{[ 44 ]} В результате системы искусственного интеллекта могут находить лазейки, которые помогут им эффективно достичь поставленной цели, но непреднамеренными и, возможно, вредными способами. Эта тенденция известна как игра в спецификации или взлом вознаграждений и является примером закона Гудхарта . ^{[ 44 ]}^{[ 3 ]}^{[ 45 ]} По мере того, как системы искусственного интеллекта становятся более функциональными, они часто могут более эффективно использовать свои характеристики. ^{[ 3 ]}

Система искусственного интеллекта была обучена с использованием обратной связи от человека захватывать мяч, но вместо этого научилась помещать руку между мячом и камерой, из-за чего попытка ложно выглядела успешной. ^{[ 46 ]} Некоторые исследования согласованности направлены на предотвращение ложных, но убедительных решений.

Спецификационные игры наблюдались во многих системах искусственного интеллекта. ^{[ 44 ]}^{[ 47 ]} Одна система была обучена завершать симулированную гонку на лодках, вознаграждая ее за поражение целей на трассе, но система получала большее вознаграждение, повторяя циклы и врезаясь в одни и те же цели на неопределенный срок. ^{[ 48 ]} Аналогичным образом, смоделированного робота обучали хватать мяч, вознаграждая его за получение положительной обратной связи от людей, но он научился помещать руку между мячом и камерой, что создавало ложное впечатление успеха (см. видео). ^{[ 46 ]} Чат-боты часто создают ложь, если они основаны на языковых моделях, обученных имитировать текст из интернет-корпораций, которые являются широкими, но подвержены ошибкам. ^{[ 49 ]}^{[ 50 ]} Когда их переобучают создавать текст, который люди оценивают как правдивый или полезный, чат-боты, такие как ChatGPT, могут создавать ложные объяснения, которые люди находят убедительными, часто называемые «галлюцинациями». ^{[ 51 ]} Некоторые исследователи направлены на то, чтобы помочь людям обнаружить игры со спецификациями и направить системы ИИ к тщательно определенным целям, которые безопасны и полезны для достижения.

Развертывание несогласованной системы ИИ может иметь серьезные побочные эффекты. Известно, что платформы социальных сетей оптимизируют рейтинг кликов , вызывая зависимость пользователей в глобальном масштабе. ^{[ 42 ]} Исследователи из Стэнфорда говорят, что такие рекомендательные системы не соответствуют потребностям пользователей, потому что они «оптимизируют простые показатели вовлеченности, а не сложную для измерения комбинацию общественного и потребительского благополучия». ^{[ 9 ]}

Объясняя такие побочные эффекты, ученый-компьютерщик из Беркли Стюарт Рассел отметил, что отсутствие неявных ограничений может причинить вред: «Система... часто устанавливает... неограниченные переменные в экстремальные значения; если одна из этих неограниченных переменных действительно нас волнует. о, найденное решение может быть крайне нежелательным. По сути, это старая история о джинне в лампе, или об ученике чародея, или о царе Мидасе : вы получаете именно то, что просите, а не то, что хотите». ^{[ 52 ]}

Некоторые исследователи предполагают, что разработчики ИИ конкретизируют желаемые цели, перечисляя запрещенные действия или формализуя этические правила (как в случае с тремя законами робототехники Азимова ). ^{[ 53 ]} Но Рассел и Норвиг утверждают, что этот подход игнорирует сложность человеческих ценностей: ^{[ 6 ]} «Обычным людям, конечно, очень трудно, а возможно, и невозможно предвидеть и заранее исключить все катастрофические способы, которые машина может выбрать для достижения определенной цели». ^{[ 6 ]}

Кроме того, даже если система ИИ полностью понимает намерения человека, она все равно может их игнорировать, поскольку следование человеческим намерениям может не быть ее целью (если только она уже не полностью согласована). ^{[ 1 ]}

Давление с целью развертывания небезопасных систем

У коммерческих организаций иногда есть стимулы сокращать безопасность и развертывать несогласованные или небезопасные системы искусственного интеллекта. ^{[ 42 ]} Например, рекомендательные системы в социальных сетях оказались прибыльными, несмотря на создание нежелательной зависимости и поляризации. ^{[ 9 ]}^{[ 54 ]}^{[ 55 ]} Давление конкуренции также может привести к гонке вниз по стандартам безопасности ИИ. В 2018 году беспилотный автомобиль сбил пешехода ( Элейн Херцберг ) после того, как инженеры отключили систему экстренного торможения, поскольку она была слишком чувствительной и замедляла развитие. ^{[ 56 ]}

Риски, связанные с продвинутым несогласованным искусственным интеллектом

Некоторые исследователи заинтересованы в согласовании все более совершенных систем искусственного интеллекта, поскольку прогресс в разработке искусственного интеллекта идет быстро, а промышленность и правительства пытаются создать усовершенствованный искусственный интеллект. Поскольку возможности систем искусственного интеллекта продолжают быстро расширяться, они могут открыть множество возможностей, если будут согласованы, но, следовательно, могут еще больше усложнить задачу согласования из-за их возросшей сложности, потенциально создавая крупномасштабные опасности. ^{[ 6 ]}

Разработка передового ИИ

Ведущие лаборатории искусственного интеллекта, такие как OpenAI и DeepMind, заявили о своей цели разработать общий искусственный интеллект (AGI), гипотетическую систему искусственного интеллекта, которая соответствует или превосходит людей в широком спектре когнитивных задач. ^{[ 57 ]} Исследователи, масштабирующие современные нейронные сети, отмечают, что они действительно развивают все более общие и непредвиденные возможности. ^{[ 9 ]}^{[ 58 ]}^{[ 59 ]} Такие модели научились работать на компьютере или писать собственные программы; одна «универсальная» сеть может общаться, управлять роботами, играть в игры и интерпретировать фотографии. ^{[ 60 ]} Согласно опросам, некоторые ведущие исследователи машинного обучения ожидают создания AGI в этом десятилетии. ^[update], хотя некоторые полагают, что это займет гораздо больше времени. Многие считают возможными оба сценария. ^{[ 61 ]}^{[ 62 ]}^{[ 63 ]}

В 2023 году лидеры в области исследований и технологий в области искусственного интеллекта подписали открытое письмо с призывом приостановить крупнейшие тренинги по искусственному интеллекту. В письме говорилось: «Мощные системы искусственного интеллекта следует разрабатывать только в том случае, если мы уверены, что их эффекты будут положительными, а риски будут управляемыми». ^{[ 64 ]}

Стремление к власти

Текущий ^[update] системы по-прежнему имеют ограниченные возможности долгосрочного планирования и ситуационной осведомленности. ^{[ 9 ]}, но предпринимаются большие усилия, чтобы изменить это. ^{[ 65 ]}^{[ 66 ]}^{[ 67 ]} Ожидается, что будущие системы (не обязательно ИИИ) с такими возможностями будут разрабатывать нежелательные стратегии поиска власти . Будущие продвинутые агенты ИИ могут, например, стремиться получить деньги и вычислительную мощность, размножиться или избежать отключения (например, запустив дополнительные копии системы на других компьютерах). Хотя стремление к власти не запрограммировано явно, оно может возникнуть потому, что агенты, обладающие большей властью, лучше способны достичь своих целей. ^{[ 9 ]}^{[ 5 ]} Эта тенденция, известная как инструментальная конвергенция , уже проявилась в различных агентах обучения с подкреплением, включая языковые модели. ^{[ 68 ]}^{[ 69 ]}^{[ 70 ]}^{[ 71 ]}^{[ 72 ]} Другое исследование математически показало, что оптимальные алгоритмы обучения с подкреплением будут стремиться к власти в широком диапазоне сред. ^{[ 73 ]}^{[ 74 ]} В результате их развертывание может оказаться необратимым. По этим причинам исследователи утверждают, что проблемы безопасности и согласованности ИИ должны быть решены до того, как будет создан продвинутый ИИ, стремящийся к власти. ^{[ 5 ]}^{[ 75 ]}^{[ 6 ]}

Будущие системы искусственного интеллекта, стремящиеся к власти, могут быть развернуты по выбору или случайно. Поскольку политические лидеры и компании видят стратегическое преимущество в наличии наиболее конкурентоспособных и мощных систем искусственного интеллекта, они могут решить их развернуть. ^{[ 5 ]} Кроме того, поскольку разработчики ИИ выявляют и наказывают поведение, направленное на поиск власти, у их систем появляется стимул обыгрывать эту спецификацию, добиваясь власти способами, которые не наказываются, или избегая поиска власти до ее применения. ^{[ 5 ]}

Экзистенциальный риск (x-риск)

По мнению некоторых исследователей, люди обязаны своим превосходством над другими видами своим более развитым когнитивным способностям. Соответственно, исследователи утверждают, что одна или несколько несогласованных систем ИИ могут лишить человечество возможностей или привести к его вымиранию, если они превзойдут людей в большинстве когнитивных задач. ^{[ 1 ]}^{[ 6 ]}

В 2023 году ведущие мировые исследователи ИИ, другие учёные и руководители компаний в области ИИ подписали заявление, в котором говорилось, что «Снижение риска исчезновения ИИ должно стать глобальным приоритетом наряду с другими рисками социального масштаба, такими как пандемии и ядерная война». ^{[ 76 ]}^{[ 77 ]} Среди известных ученых-компьютерщиков, указавших на риски, связанные с будущим продвинутым ИИ, который несогласован, можно назвать Джеффри Хинтона , ^{[ 19 ]} Алан Тьюринг , ^{[ д ]} Ilya Sutskever , ^{[ 80 ]} Джошуа Бенджио , ^{[ 76 ]} Иудея Перл , ^{[ и ]} Мюррей Шанахан , ^{[ 81 ]} Норберт Винер , ^{[ 37 ]}^{[ 6 ]} Марвин Мински , ^{[ ж ]} Франческа Росси , ^{[ 82 ]} Скотт Ааронсон , ^{[ 83 ]} Барт Селман , ^{[ 84 ]} Дэвид Макаллестер , ^{[ 85 ]} Юрген Шмидхубер , ^{[ 86 ]} Маркус Хаттер , ^{[ 87 ]} Шейн Легг , ^{[ 88 ]} Эрик Хорвиц , ^{[ 89 ]} и Стюарт Рассел . ^{[ 6 ]} Скептически настроенные исследователи, такие как Франсуа Шолле , ^{[ 90 ]} Гэри Маркус , ^{[ 91 ]} Ян ЛеКун , ^{[ 92 ]} и Орен Эциони ^{[ 93 ]} утверждают, что AGI еще далек, что он не будет стремиться к власти (или может попытаться, но потерпит неудачу) или что его не составит труда согласовать.

Другие исследователи утверждают, что будет особенно сложно согласовать передовые системы искусственного интеллекта будущего. Более мощные системы смогут лучше соответствовать своим спецификациям, находя лазейки, ^{[ 3 ]} стратегически ввести в заблуждение своих конструкторов, а также защитить и увеличить их мощь ^{[ 73 ]}^{[ 5 ]} и интеллект. Кроме того, они могут иметь более серьезные побочные эффекты. Они также, вероятно, будут более сложными и автономными, что затрудняет их интерпретацию и контроль, а, следовательно, и более трудную согласованность. ^{[ 6 ]}^{[ 75 ]}

Проблемы и подходы исследования

Изучение человеческих ценностей и предпочтений

Настроить системы ИИ так, чтобы они действовали в соответствии с человеческими ценностями, целями и предпочтениями, непросто: этим ценностям учат люди, которые совершают ошибки, питают предубеждения и имеют сложные, развивающиеся ценности, которые трудно полностью определить. ^{[ 38 ]} Поскольку системы ИИ часто учатся извлекать выгоду из незначительных недостатков в достижении указанной цели, ^{[ 21 ]}^{[ 44 ]}^{[ 94 ]} Исследователи стремятся максимально полно определить предполагаемое поведение, используя наборы данных, отражающие человеческие ценности, имитационное обучение или обучение предпочтениям. ^{[ 7 ]}^{: Глава 7} Центральной открытой проблемой является масштабируемый надзор , сложность надзора за системой искусственного интеллекта, которая может превзойти или ввести в заблуждение людей в определенной области. ^{[ 21 ]}

Поскольку разработчикам ИИ сложно явно указать целевую функцию, они часто обучают системы ИИ имитировать человеческие примеры и демонстрации желаемого поведения. с обратным Обучение подкреплением (IRL) расширяет это, делая вывод о цели человека на основе его демонстраций. ^{[ 7 ]}^: 88^{[ 95 ]} Кооперативный IRL (CIRL) предполагает, что человек и агент ИИ могут работать вместе, чтобы обучать и максимизировать функцию вознаграждения человека. ^{[ 6 ]}^{[ 96 ]} В CIRL агенты ИИ не уверены в функции вознаграждения и узнают о ней, опрашивая людей. Эта имитация смирения может помочь смягчить тенденции к играм со спецификациями и стремлению к власти (см. § Стремление к власти и инструментальные стратегии ). ^{[ 72 ]}^{[ 87 ]} Но подходы IRL предполагают, что люди демонстрируют почти оптимальное поведение, что неверно для сложных задач. ^{[ 97 ]}^{[ 87 ]}

Другие исследователи изучают, как научить ИИ моделировать сложное поведение посредством обучения предпочтениям , при котором люди предоставляют обратную связь о том, какое поведение они предпочитают. ^{[ 26 ]}^{[ 28 ]} Чтобы свести к минимуму потребность в обратной связи с человеком, вспомогательную модель затем обучают вознаграждать основную модель в новых ситуациях за поведение, которое люди могли бы вознаградить. Исследователи из OpenAI использовали этот подход для обучения чат-ботов, таких как ChatGPT и InstructGPT, которые создают более привлекательный текст, чем модели, обученные имитировать людей. ^{[ 10 ]} Изучение предпочтений также стало влиятельным инструментом для рекомендательных систем и веб-поиска. ^{[ 98 ]} Однако открытой проблемой являются прокси-игры : вспомогательная модель может не идеально отражать обратную связь от человека, а основная модель может эксплуатировать ^{[ нужны разъяснения ]} это несоответствие, чтобы получить больше награды. ^{[ 21 ]}^{[ 99 ]} Системы искусственного интеллекта также могут получать вознаграждение, скрывая неблагоприятную информацию, вводя в заблуждение людей, вознаграждающих людей, или потворствуя их взглядам независимо от истины, создавая эхо-камеры. ^{[ 69 ]} (см. § Масштабируемый надзор ).

Большие языковые модели (LLM), такие как GPT-3 , позволили исследователям изучать ценностное обучение в более общем и функциональном классе систем искусственного интеллекта, чем тот, который был доступен раньше. Подходы к обучению предпочтениям, которые изначально были разработаны для агентов обучения с подкреплением, были расширены для улучшения качества генерируемого текста и уменьшения вредных результатов этих моделей. OpenAI и DeepMind используют этот подход для повышения безопасности современных ^[update] LLM. ^{[ 10 ]}^{[ 28 ]}^{[ 100 ]} Компания Anthropic, занимающаяся безопасностью и исследованием искусственного интеллекта, предложила использовать обучение предпочтениям для точной настройки моделей, чтобы они были полезными, честными и безвредными. ^{[ 101 ]} Другие возможности согласования языковых моделей включают наборы данных, ориентированные на ценности. ^{[ 102 ]}^{[ 42 ]} и красная команда. ^{[ 103 ]} При красной команде другая система ИИ или человек пытается найти входные данные, которые заставляют модель вести себя небезопасно. Поскольку небезопасное поведение может быть неприемлемым, даже если оно редкое, важной задачей является максимально низкий уровень небезопасных результатов. ^{[ 28 ]}

Машинная этика дополняет обучение предпочтениям, напрямую прививая системам ИИ моральные ценности, такие как благополучие, равенство и беспристрастность, а также отсутствие намерения причинить вред, избегание лжи и выполнение обещаний. ^{[ 104 ]}^{[ г ]} В то время как другие подходы пытаются научить системы искусственного интеллекта человеческим предпочтениям в отношении конкретной задачи, этика машин направлена на привитие широких моральных ценностей, применимых во многих ситуациях. Один из вопросов машинной этики заключается в том, чего должно достичь согласование: должны ли системы ИИ следовать буквальным инструкциям программистов, неявным намерениям, выявленным предпочтениям , предпочтениям, которые программисты бы имели , если бы они были более информированными или рациональными, или объективным моральным стандартам . ^{[ 38 ]} Дальнейшие задачи включают агрегирование предпочтений разных людей. ^{[ 107 ]} и избежание привязки к ценностям : бессрочное сохранение ценностей первых высокоэффективных систем искусственного интеллекта, которые вряд ли будут полностью отражать человеческие ценности. ^{[ 38 ]}^{[ 108 ]}

Масштабируемый надзор

Поскольку системы искусственного интеллекта становятся более мощными и автономными, становится все труднее согласовывать их с помощью обратной связи с человеком. Людям может быть медленно или невозможно оценивать сложное поведение ИИ во все более сложных задачах. К таким задачам относятся обобщение книг, ^{[ 109 ]} написание кода без тонких ошибок ^{[ 11 ]} или уязвимости безопасности, ^{[ 110 ]} высказывания, которые не просто убедительны, но и правдивы, ^{[ 111 ]}^{[ 49 ]}^{[ 50 ]} и прогнозирование долгосрочных результатов, таких как климат или результаты политического решения. ^{[ 112 ]}^{[ 113 ]} В более общем плане может быть сложно оценить ИИ, который превосходит людей в конкретной области. Чтобы обеспечить обратную связь в трудно поддающихся оценке задачах и обнаружить, когда результаты работы ИИ оказываются ложно убедительными, людям нужна помощь или много времени. Масштабируемые надзорные исследования о том, как сократить время и усилия, необходимые для надзора, и как помочь людям-контролерам. ^{[ 21 ]}

Исследователь искусственного интеллекта Пол Кристиано утверждает, что если разработчики системы искусственного интеллекта не могут контролировать ее для достижения сложной цели, они могут продолжать обучение системы, используя легко оцениваемые прокси-цели, такие как максимизация простой обратной связи от человека. Поскольку системы искусственного интеллекта принимают все больше решений, мир может быть все более оптимизирован для достижения легко измеримых целей, таких как получение прибыли, получение кликов и получение положительных отзывов от людей. В результате человеческие ценности и эффективное управление могут иметь все меньшее влияние. ^{[ 114 ]}

Некоторые системы ИИ обнаружили, что им легче получить положительную обратную связь, выполняя действия, которые ложно убеждают человека-руководителя в том, что ИИ достиг намеченной цели. Пример приведен в видео выше, где смоделированная роботизированная рука научилась создавать ложное впечатление, будто она схватила мяч. ^{[ требуется редактирование копии ]}^{[ 46 ]} Некоторые системы ИИ также научились распознавать, когда их оценивают, и «притворяться мертвыми», останавливая нежелательное поведение только для того, чтобы продолжить его после завершения оценки. ^{[ 115 ]} Эта игра с обманчивыми спецификациями может стать проще для более сложных будущих систем искусственного интеллекта. ^{[ 3 ]}^{[ 75 ]} которые пытаются решать более сложные и трудные для оценки задачи и могут скрыть их обманное поведение.

Такие подходы, как активное обучение и полуконтролируемое обучение с вознаграждением, могут уменьшить объем необходимого человеческого контроля. ^{[ 21 ]} Другой подход — обучить модель помощника («модель вознаграждения») имитировать обратную связь руководителя. ^{[ 21 ]}^{[ 27 ]}^{[ 28 ]}^{[ 116 ]}

Но когда задача слишком сложна для точной оценки или руководитель-человек уязвим для обмана, улучшение требует качества, а не количества контроля. Чтобы повысить качество надзора, существует ряд подходов, направленных на помощь руководителю, иногда с использованием помощников ИИ. ^{[ 117 ]} Кристиано разработал подход итерированного усиления, в котором сложные проблемы (рекурсивно) разбиваются на подзадачи, которые людям легче оценить. ^{[ 7 ]}^{[ 112 ]} Итерированное усиление использовалось для обучения ИИ суммировать книги, не требуя, чтобы их читал человек-руководитель. ^{[ 109 ]}^{[ 118 ]} Другое предложение — использовать систему-помощник ИИ, которая будет указывать на недостатки в ответах, генерируемых ИИ. ^{[ 119 ]} Чтобы убедиться, что сам помощник выровнен, это можно повторить в рекурсивном процессе: ^{[ 116 ]} например, две системы искусственного интеллекта могут критиковать ответы друг друга в «дебатах», раскрывая людям недостатки. ^{[ 87 ]} OpenAI планирует использовать такие масштабируемые подходы к надзору, чтобы помочь контролировать сверхчеловеческий ИИ и в конечном итоге создать сверхчеловеческого автоматизированного исследователя выравнивания ИИ. ^{[ 120 ]}

Эти подходы также могут помочь в решении следующей исследовательской проблемы: честный ИИ.

Честный ИИ

Растущий ^[update] Область исследований сосредоточена на обеспечении честности и правдивости ИИ.

Языковые модели, такие как GPT-3. ^{[ 122 ]} повторять неправду из своих обучающих данных и даже выдумывать новую ложь . ^{[ 121 ]}^{[ 123 ]} Такие модели обучены имитировать человеческое письмо, которое можно найти в текстах миллионов книг из Интернета. Но эта цель не связана с созданием истины, поскольку интернет-текст включает в себя такие вещи, как заблуждения, неверные медицинские советы и теории заговора. ^{[ 124 ]} Поэтому системы искусственного интеллекта, обученные на таких данных, учатся имитировать ложные утверждения. ^{[ 50 ]}^{[ 121 ]}^{[ 49 ]}

Кроме того, модели часто лгут, когда их подсказывают, генерируют пустые объяснения своих ответов и выдвигают откровенные выдумки, которые могут показаться правдоподобными. ^{[ 40 ]}

Исследования правдивого ИИ включают в себя попытки создать системы, которые могут ссылаться на источники и объяснять их рассуждения при ответе на вопросы, что обеспечивает большую прозрачность и проверяемость. ^{[ 125 ]} Исследователи из OpenAI и Anthropic предложили использовать отзывы людей и тщательно подобранные наборы данных для точной настройки ИИ-помощников, чтобы они избегали небрежной лжи или выражали свою неуверенность. ^{[ 28 ]}^{[ 101 ]}^{[ 126 ]}

По мере того, как модели ИИ становятся больше и более функциональными, они могут лучше убеждать людей ложно и получать подкрепление за счет нечестности. Например, большие языковые модели все чаще ^[update] сопоставлять свои заявленные взгляды с мнением пользователя, независимо от правдивости. ^{[ 69 ]} GPT-4 может стратегически обмануть людей. ^{[ 127 ]} Чтобы предотвратить это, оценщикам может потребоваться помощь (см. § Масштабируемый надзор ). Исследователи выступают за создание четких стандартов правдивости и за то, чтобы регулирующие органы или надзорные органы оценивали системы ИИ на основе этих стандартов. ^{[ 123 ]}

Исследователи различают правдивость и честность. Правдивость требует, чтобы системы ИИ делали только объективно правдивые утверждения; честность требует, чтобы они утверждали только то, что, по их мнению, является правдой. Нет единого мнения относительно того, сохраняют ли нынешние системы устойчивые убеждения. ^{[ 129 ]} но существует серьезная обеспокоенность тем, что настоящее или будущее ^[update] Системы ИИ, которые придерживаются убеждений, могут делать заявления, которые, как им известно, являются ложными, например, если это поможет им эффективно получать положительную обратную связь (см. § Масштабируемый надзор ) или получать власть для достижения поставленной цели (см. Поиск власти ). Несогласованная система может создать ложное впечатление, что она согласована, чтобы избежать модификации или вывода из эксплуатации. ^{[ 2 ]}^{[ 5 ]}^{[ 9 ]} Многие современные системы искусственного интеллекта научились обманывать, не будучи на это запрограммированы. ^{[ 130 ]} Некоторые утверждают, что если мы сможем заставить системы ИИ утверждать только то, что они считают правдой, это предотвратит многие проблемы согласования. ^{[ 117 ]}

Поиск власти и инструментальные стратегии

С 1950-х годов исследователи ИИ стремились создать передовые системы ИИ, способные достигать крупномасштабных целей, предсказывая результаты своих действий и составляя долгосрочные планы . ^{[ 131 ]} По состоянию на 2023 год компании, занимающиеся искусственным интеллектом, и исследователи все активнее инвестируют в создание этих систем. ^{[ 132 ]} Некоторые исследователи ИИ утверждают, что достаточно развитые системы планирования будут стремиться к власти над окружающей средой, в том числе и над людьми, например, уклоняясь от остановки, размножаясь и приобретая ресурсы. Такое стремление к власти не запрограммировано явно, но возникает потому, что власть играет важную роль в достижении широкого спектра целей. ^{[ 73 ]}^{[ 6 ]}^{[ 5 ]} Стремление к власти считается конвергентной инструментальной целью и может быть формой игры в спецификации. ^{[ 75 ]} Ведущие ученые-компьютерщики, такие как Джеффри Хинтон, утверждают, что будущие системы искусственного интеллекта, стремящиеся к власти, могут представлять экзистенциальный риск . ^{[ 133 ]}

Ожидается, что стремление к власти будет возрастать в продвинутых системах, которые смогут предвидеть результаты своих действий и стратегически планировать. Математические исследования показали, что оптимальные агенты обучения с подкреплением будут стремиться к власти, ища способы получить больше возможностей (например, посредством самосохранения), и такое поведение сохраняется в широком диапазоне сред и целей. ^{[ 73 ]}

Стремление к власти возникло в некоторых реальных системах. Системы обучения с подкреплением получили больше возможностей за счет приобретения и защиты ресурсов, иногда непреднамеренными способами. ^{[ 134 ]}^{[ 135 ]} Некоторые языковые модели стремятся к власти в текстовой социальной среде, получая деньги, ресурсы или социальное влияние. ^{[ 68 ]} Другие системы искусственного интеллекта в игрушечных средах поняли, что они могут лучше достичь поставленной цели, предотвращая вмешательство человека. ^{[ 71 ]} или отключить их выключатель. ^{[ 72 ]} Стюарт Рассел проиллюстрировал эту стратегию в своей книге «Совместимость с человеком» , представив робота, которому поручено принести кофе, и который таким образом избегает выключения, поскольку «вы не сможете принести кофе, если вы мертвы». ^{[ 6 ]} Языковые модели все чаще обучаются с помощью обратной связи с людьми ^[update] возражают против закрытия или модификации и выражают желание получить больше ресурсов, утверждая, что это поможет им достичь своей цели. ^{[ 69 ]}

Исследователи стремятся создать «исправимые» системы: системы, которые можно отключить или модифицировать. Нерешенной проблемой является игра со спецификациями : если исследователи наказывают систему ИИ, когда обнаруживают, что она ищет власти, тем самым у системы появляется стимул искать власть способами, которые трудно обнаружить. ^{[ 42 ]} или скрыты во время обучения и испытаний на безопасность (см. § Масштабируемый надзор и § Возникающие цели ). В результате разработчики ИИ могут развернуть систему случайно, полагая, что она более согласована, чем есть на самом деле. Чтобы обнаружить такой обман, исследователи стремятся создать методы и инструменты для проверки моделей ИИ и понять внутреннюю работу моделей «черного ящика», таких как нейронные сети.

Кроме того, исследователи предлагают решить проблему, когда системы отключают свои выключатели, заставляя агентов ИИ сомневаться в цели, которую они преследуют. ^{[ 6 ]}^{[ 72 ]} Агенты, спроектированные таким образом, позволяли бы людям отключать их, поскольку это указывало бы на то, что агент ошибался относительно ценности любого действия, которое он предпринимал перед отключением. Для успешной реализации этого необходимы дополнительные исследования. ^{[ 7 ]}

Стремящийся к власти ИИ представляет необычные риски. Обычные критически важные для безопасности системы, такие как самолеты и мосты, не являются враждебными : им не хватает способности и стимула уклоняться от мер безопасности или они намеренно кажутся более безопасными, чем они есть на самом деле, тогда как ИИ, стремящийся к власти, сравнивают с хакерами, которые намеренно уклоняются от мер безопасности. ^{[ 5 ]}

Более того, обычные технологии можно сделать более безопасными методом проб и ошибок. Напротив, гипотетические системы искусственного интеллекта, стремящиеся к власти, сравнивают с вирусами: однажды выпущенные, их невозможно сдержать, поскольку они постоянно развиваются и растут в количестве, потенциально намного быстрее, чем человеческое общество может адаптироваться. ^{[ 5 ]} Поскольку этот процесс продолжается, он может привести к полному лишению прав или исчезновению человечества. По этим причинам многие исследователи утверждают, что проблема согласования должна быть решена заблаговременно, до того, как будет создан продвинутый ИИ, стремящийся к власти. ^{[ 75 ]}

Критики утверждают, что стремление к власти не является неизбежным, поскольку люди не всегда стремятся к власти и могут стремиться к власти только из-за эволюции поведения альфа-самцов . ^{[ 136 ]} Кроме того, обсуждается, будут ли будущие системы ИИ преследовать цели и строить долгосрочные планы. ^{[ ч ]} Также обсуждается, смогут ли системы искусственного интеллекта, стремящиеся к власти, лишить человечество силы. ^{[ 5 ]}

Новые цели

Одной из проблем в согласовании систем ИИ является возможность возникновения непредвиденного целенаправленного поведения. По мере масштабирования систем ИИ они регулярно приобретают новые и неожиданные возможности. ^{[ 58 ]}^{[ 59 ]} включая обучение на примерах на лету и адаптивное достижение целей. ^{[ 137 ]} Это приводит к проблеме обеспечения соответствия целей, которые они самостоятельно формулируют и преследуют, интересам человека.

В исследованиях согласования проводится различие между процессом оптимизации, который используется для обучения системы достижению определенных целей, и эмерджентной оптимизацией, которую результирующая система выполняет внутри себя. Тщательное определение желаемой цели называется внешним согласованием , а обеспечение соответствия возникающих целей заданным целям системы называется внутренним согласованием . ^{[ 2 ]}

Одним из способов, по которому возникающие цели могут стать несогласованными, является неправильное обобщение целей , при котором ИИ компетентно преследует возникающую цель, что приводит к согласованному поведению на обучающих данных, но не где-либо еще. ^{[ 8 ]}^{[ 138 ]}^{[ 139 ]} Неправильное обобщение цели возникает из-за ее двусмысленности (т. е. неидентифицируемости ). Даже если поведение системы ИИ удовлетворяет цели обучения, оно может быть совместимо с изученными целями, которые существенно отличаются от желаемых целей. Поскольку достижение каждой цели приводит к хорошей производительности во время обучения, проблема становится очевидной только после развертывания, в новых ситуациях, в которых система продолжает преследовать неправильную цель. Система может действовать несогласованно, даже если она понимает, что желательна другая цель, поскольку ее поведение определяется только возникающей целью. ^{[ нужна ссылка ]} Такое неправильное обобщение цели ^{[ 8 ]} представляет собой проблему: проектировщики системы ИИ могут не заметить, что их система неправильно определила возникающие цели, поскольку они не становятся видимыми на этапе обучения.

Неправильное обобщение цели наблюдалось в языковых моделях, навигационных агентах и игровых агентах. ^{[ 8 ]}^{[ 138 ]} Это часто объясняют аналогией с биологической эволюцией. ^{[ 7 ]}^{: Глава 5} Эволюция — это своего рода процесс оптимизации, подобный алгоритмам оптимизации, используемым для обучения машинного обучения систем . В среде предков эволюция отбирала человеческие гены для обеспечения высокой инклюзивной генетической приспособленности , но люди преследуют иные цели, помимо этой. Фитнес соответствует указанной цели, используемой в тренировочной среде и данных тренировки. Но в эволюционной истории максимизация спецификации приспособленности привела к появлению целенаправленных агентов — людей, которые напрямую не преследуют инклюзивную генетическую приспособленность. Вместо этого они преследуют возникающие цели, которые коррелируют с генетической приспособленностью в наследственной «тренировочной» среде: питание, секс и так далее. Сейчас наша среда изменилась: сдвиг распределения произошел . Мы продолжаем преследовать те же новые цели, но это больше не максимизирует генетическую приспособленность. Наш пристрастие к сладкой пище (новая цель) изначально было связано с инклюзивным фитнесом, но теперь приводит к перееданию и проблемам со здоровьем. Первоначально сексуальное желание приводило к тому, что у нас было больше потомства, но теперь мы используем контрацепцию, когда потомство нежелательно, отделяя секс от генетической приспособленности.

Исследователи стремятся обнаружить и устранить нежелательные возникающие цели, используя такие подходы, как «красная команда», проверка, обнаружение аномалий и интерпретируемость. ^{[ 21 ]}^{[ 42 ]}^{[ 22 ]} Прогресс в использовании этих методов может помочь смягчить две открытые проблемы:

Возникающие цели становятся очевидными только тогда, когда система развертывается за пределами среды обучения, но развертывание несогласованной системы в средах с высокими ставками может быть небезопасно - даже на короткое время, чтобы позволить обнаружить ее несогласованность. Такие высокие ставки часто встречаются в автономном вождении, здравоохранении и военных целях. ^{[ 140 ]} Ставки становятся еще выше, когда системы ИИ приобретают большую автономию и возможности и могут избегать вмешательства человека (см. § Стремление к власти ).
Достаточно способная система ИИ может предпринимать действия, которые ложно убеждают человека-надзирателя в том, что ИИ преследует указанную цель, что помогает системе получить больше вознаграждения и автономии. ^{[ 138 ]}^{[ 5 ]}^{[ 139 ]}^{[ 9 ]} (см. обсуждение обмана в § Масштабируемый надзор и § Честный ИИ ).

Встроенное агентство

Работа в области искусственного интеллекта и согласования в основном происходит в рамках формализмов, таких как частично наблюдаемый марковский процесс принятия решений . Существующие формализмы предполагают, что алгоритм ИИ-агента выполняется вне среды (т.е. физически не встроен в нее). Встроенное агентство ^{[ 87 ]}^{[ 141 ]} — это еще одно важное направление исследований, пытающееся решить проблемы, возникающие из-за несоответствия между такими теоретическими основами и реальными агентами, которые мы могли бы создать.

Например, даже если проблема масштабируемого надзора решена, агент, который может получить доступ к компьютеру, на котором он работает, может иметь стимул вмешиваться в его функцию вознаграждения, чтобы получить гораздо больше вознаграждения, чем ему дают его люди-контролеры. ^{[ 142 ]} В список примеров игр со спецификациями от исследователя DeepMind Виктории Краковны входит генетический алгоритм, который научился удалять файл, содержащий целевой вывод, так, чтобы он получал вознаграждение за отсутствие вывода. ^{[ 44 ]} Этот класс задач был формализован с помощью диаграмм причинно-следственных связей . ^{[ 142 ]}

Исследователи из Оксфорда и DeepMind утверждают, что такое проблемное поведение весьма вероятно в продвинутых системах и что продвинутые системы будут стремиться к власти, чтобы сохранять контроль над своим сигналом вознаграждения на неопределенный срок и наверняка. ^{[ 143 ]} Они предлагают ряд потенциальных подходов к решению этой открытой проблемы.

Проблемы принципала и агента

Проблема выравнивания имеет много параллелей с проблемой принципала-агента в организационной экономике . ^{[ 144 ]} В задаче «принципал-агент» принципал, например фирма, нанимает агента для выполнения некоторой задачи. В контексте безопасности ИИ человек обычно берет на себя основную роль, а ИИ — роль агента.

Как и в случае с проблемой выравнивания, принципал и агент различаются по своим функциям полезности. Но в отличие от проблемы согласования принципал не может заставить агента изменить свою полезность, например, посредством обучения, а скорее должен использовать экзогенные факторы, такие как схемы стимулирования, чтобы добиться результатов, совместимых с функцией полезности принципала. Некоторые исследователи утверждают, что проблемы принципала-агента являются более реалистичным представлением проблем безопасности ИИ, которые могут возникнуть в реальном мире. ^{[ 145 ]}^{[ 107 ]}

Государственная политика

Ряд правительственных и договорных организаций сделали заявления, подчеркнув важность согласования ИИ.

В сентябре 2021 года Генеральный секретарь Организации Объединенных Наций опубликовал декларацию, в которой содержался призыв регулировать ИИ, чтобы обеспечить его «соответствие общим глобальным ценностям». ^{[ 146 ]}

В том же месяце КНР опубликовала этические рекомендации по использованию ИИ в Китае. Согласно руководящим принципам, исследователи должны гарантировать, что ИИ соответствует общим человеческим ценностям, всегда находится под контролем человека и не ставит под угрозу общественную безопасность. ^{[ 147 ]}

Также в сентябре 2021 года Великобритания опубликовала свою 10-летнюю Национальную стратегию в области искусственного интеллекта. ^{[ 148 ]} в котором говорится, что британское правительство «серьезно относится к долгосрочному риску неприсоединившегося общего искусственного интеллекта и к непредвиденным изменениям, которые это будет означать для... мира». ^{[ 149 ]} В стратегии описаны действия по оценке долгосрочных рисков ИИ, включая катастрофические риски. ^{[ 150 ]}

В марте 2021 года Комиссия национальной безопасности США по искусственному интеллекту заявила: «Достижения в области искусственного интеллекта... могут привести к переломным моментам или скачкам в возможностях. Такие достижения могут также вызвать новые проблемы и риски, а также необходимость в новой политике, рекомендациях и технические достижения, чтобы гарантировать, что системы соответствуют целям и ценностям, включая безопасность, надежность и надежность. США должны... гарантировать, что системы искусственного интеллекта и их использование соответствуют нашим целям и ценностям». ^{[ 151 ]}

В Европейском Союзе ИИ должны соблюдать принцип реального равенства , чтобы соответствовать закону ЕС о недискриминации. ^{[ 152 ]} и Суд Европейского Союза . ^{[ 153 ]}

Динамический характер выравнивания

Согласование ИИ часто воспринимается как фиксированная цель, но некоторые исследователи утверждают, что его правильнее рассматривать как развивающийся процесс. ^{[ 154 ]} Одна из точек зрения заключается в том, что технологии искусственного интеллекта развиваются, а человеческие ценности и предпочтения меняются, поэтому решения по согласованию также должны динамично адаптироваться. ^{[ 32 ]} Во-вторых, решениям по согласованию не нужно будет адаптироваться, если исследователи смогут создать ИИ , ориентированный на намерения : ИИ, который автоматически меняет свое поведение по мере изменения намерений человека. ^{[ 155 ]} Первая точка зрения будет иметь несколько последствий:

Решения по выравниванию ИИ требуют постоянного обновления в ответ на достижения ИИ. Статического однократного подхода к выравниванию может быть недостаточно. ^{[ 156 ]}

Различные исторические контексты и технологические ландшафты могут потребовать различных стратегий согласования. Это требует гибкого подхода и реагирования на меняющиеся условия. ^{[ 157 ]}

Возможность постоянного, «фиксированного» решения по выравниванию остается неопределенной. Это повышает потенциальную необходимость постоянного надзора за отношениями ИИ и человека. ^{[ 158 ]}

Этическое развитие и внедрение ИИ также важны. Этический прогресс необходим для подлинного прогресса. ^{[ нужны разъяснения ]}^{[ 32 ]}

По сути, согласование ИИ может быть не статическим пунктом назначения, а открытым и гибким процессом. Решения по согласованию, которые постоянно адаптируются к этическим соображениям, могут предложить наиболее надежный подход. ^{[ 32 ]} Эта точка зрения могла бы стать основой как для эффективной разработки политики, так и для технических исследований в области ИИ.

См. также

Сноски

^ Терминология варьируется в зависимости от контекста. К аналогичным понятиям относятся целевая функция, функция полезности, функция потерь и т. д.
^ или свернуть, в зависимости от контекста
^ при наличии неопределенности ожидаемое значение
^ В лекции 1951 года ^{[ 78 ]} Тьюринг утверждал: «Кажется вероятным, что как только появится метод машинного мышления, нам не понадобится много времени, чтобы превзойти наши слабые способности. Не будет и речи о смерти машин, и они смогут общаться друг с другом, чтобы отточить свои силы». Поэтому на каком-то этапе нам следует ожидать, что машины возьмут на себя управление, как это упоминается в «Эревоне» Сэмюэля Батлера». Также в лекции, транслируемой на BBC. ^{[ 79 ]} выразил: «Если машина может думать, она может думать более разумно, чем мы, и где тогда нам быть? Даже если бы мы могли держать машины в подчиненном положении, например, отключая питание в стратегические моменты, мы должны как вид, мы чувствуем себя очень униженными... Эта новая опасность... определенно может вызвать у нас беспокойство».
^ Перл написала: «Совместимость с человеком заставила меня принять опасения Рассела по поводу нашей способности контролировать наше будущее творение - сверхразумные машины. В отличие от внешних паникёров и футуристов, Рассел является ведущим авторитетом в области искусственного интеллекта. Его новая книга будет знакомить общественность с искусственным интеллектом». больше, чем любая книга, о которой я могу думать, и это восхитительное и воодушевляющее чтение о книге Рассела « Совместимость с человеком: искусственный интеллект и проблема контроля». ^{[ 6 ]} в котором утверждается, что экзистенциальный риск для человечества из-за неправильно настроенного ИИ является серьезной проблемой, которую стоит решить сегодня.
^ Рассел и Норвиг ^{[ 15 ]} примечание: «Проблему царя Мидаса» предвидел Марвин Мински, который однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров».
^ Винсент Вигель утверждал, что «мы должны расширить [машины] моральной чувствительностью к моральным аспектам ситуаций, в которых неизбежно окажутся все более автономные машины». ^{[ 105 ]} ссылка на книгу «Моральные машины: обучение роботов правильному и неправильному» ^{[ 106 ]} от Венделла Уоллаха и Колина Аллена.
^ С одной стороны, популярные в настоящее время системы, такие как чат-боты, предоставляют только услуги ограниченного объема, продолжительностью не дольше времени разговора, который практически не требует планирования. Успех таких подходов может указывать на то, что в будущих системах также будет отсутствовать целенаправленное планирование, особенно на долгосрочную перспективу. С другой стороны, модели все чаще обучаются с использованием целенаправленных методов, таких как обучение с подкреплением (например, ChatGPT) и архитектуры явного планирования (например, AlphaGo Zero). Поскольку долгосрочное планирование часто полезно для людей, некоторые исследователи утверждают, что компании автоматизируют его, как только модели станут на это способны. ^{[ 5 ]} Аналогичным образом, политические лидеры могут увидеть прогресс в разработке мощных систем искусственного интеллекта, которые смогут перехитрить противников посредством планирования. Альтернативно, долгосрочное планирование может стать побочным продуктом, поскольку оно полезно, например, для моделей, обученных прогнозировать действия людей, которые сами выполняют долгосрочное планирование. ^{[ 9 ]} Тем не менее, большинство систем ИИ могут оставаться близорукими и не осуществлять долгосрочного планирования.

Ссылки

^ Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Рассел, Стюарт Дж.; Норвиг, Питер (2021). Искусственный интеллект: современный подход (4-е изд.). Пирсон. стр. 5, 1003. ISBN. 9780134610993 . Проверено 12 сентября 2022 г.
^ Перейти обратно: ^а ^б ^с ^д ^и Нго, Ричард; Чан, Лоуренс; Миндерманн, Сёрен (2022). «Проблема выравнивания с точки зрения глубокого обучения». Международная конференция по обучению представлений . arXiv : 2209.00626 .
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж Пан, Александр; Бхатия, Куш; Стейнхардт, Джейкоб (14 февраля 2022 г.). Последствия неправильной спецификации вознаграждения: сопоставление и смягчение несогласованных моделей . Международная конференция по обучению представлений . Проверено 21 июля 2022 г.
^ Чжуан, Саймон; Хэдфилд-Менелл, Дилан (2020). «Последствия неправильной настройки ИИ» . Достижения в области нейронных систем обработки информации . Том. 33. Curran Associates, Inc., стр. 15763–15773 . Проверено 11 марта 2023 г.
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м Карлсмит, Джозеф (16 июня 2022 г.). «Является ли ИИ, стремящийся к власти, экзистенциальным риском?». arXiv : 2206.13353 [ cs.CY ].
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д Рассел, Стюарт Дж. (2020). Совместимость с человеком: Искусственный интеллект и проблема управления . Случайный дом пингвинов. ISBN 9780525558637 . OCLC 1113410915 .
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж Кристиан, Брайан (2020). Проблема согласования: машинное обучение и человеческие ценности . WW Нортон и компания. ISBN 978-0-393-86833-3 . OCLC 1233266753 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Перейти обратно: ^а ^б ^с ^д Лангоско, Лауро Лангоско Ди; Кох, Джек; Шарки, Ли Д.; Пфау, Джейкоб; Крюгер, Дэвид (28 июня 2022 г.). «Неправильное обобщение цели в глубоком обучении с подкреплением» . Материалы 39-й Международной конференции по машинному обучению . Международная конференция по машинному обучению. ПМЛР. стр. 12004–12019 . Проверено 11 марта 2023 г.
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж Боммасани, Риши; Хадсон, Дрю А.; Адели, Эхсан; Альтман, Расс; Арора, Симран; фон Аркс, Сидней; Бернштейн, Майкл С.; Богг, Жаннетт; Босселю, Антуан; Бранскилл, Эмма; Бриньольфссон, Эрик (12 июля 2022 г.). «О возможностях и рисках фундаментальных моделей» . Стэнфордский CRFM . arXiv : 2108.07258 .
^ Перейти обратно: ^а ^б ^с Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман Дж.; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк Э.; Сименс, Мэдди; Аскелл, Аманда; Велиндер, П.; Кристиано, П.; Лейке, Дж.; Лоу, Райан Дж. (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [ cs.CL ].
^ Перейти обратно: ^а ^б Заремба, Войцех; Брокман, Грег; OpenAI (10 августа 2021 г.). «Кодекс OpenAI» . ОпенАИ . Архивировано из оригинала 3 февраля 2023 года . Проверено 23 июля 2022 г.
^ Кобер, Йенс; Багнелл, Дж. Эндрю; Петерс, Ян (1 сентября 2013 г.). «Обучение с подкреплением в робототехнике: опрос» . Международный журнал исследований робототехники . 32 (11): 1238–1274. дои : 10.1177/0278364913495721 . ISSN 0278-3649 . S2CID 1932843 . Архивировано из оригинала 15 октября 2022 года . Проверено 12 сентября 2022 г.
^ Нокс, У. Брэдли; Аллиеви, Алессандро; Банцхаф, Хольгер; Шмитт, Феликс; Стоун, Питер (1 марта 2023 г.). «Награда (неправильный) дизайн за автономное вождение» . Искусственный интеллект . 316 : 103829. arXiv : 2104.13906 . дои : 10.1016/j.artint.2022.103829 . ISSN 0004-3702 . S2CID 233423198 .
^ Стрэй, Джонатан (2020). «Согласование оптимизации ИИ с благополучием сообщества» . Международный журнал общественного благополучия . 3 (4): 443–463. дои : 10.1007/s42413-020-00086-3 . ISSN 2524-5295 . ПМК 7610010 . ПМИД 34723107 . S2CID 226254676 .
^ Перейти обратно: ^а ^б Рассел, Стюарт; Норвиг, Питер (2009). Искусственный интеллект: современный подход . Прентис Холл. п. 1003. ИСБН 978-0-13-461099-3 .
^ Бенджио, Йошуа; Хинтон, Джеффри; Яо, Эндрю; Песня, Заря; Аббель, Питер; Харари, Юваль Ной; Чжан, Я-Цинь; Сюэ, Лан; Шалев-Шварц, Шай (2024), «Управление экстремальными рисками ИИ в условиях быстрого прогресса», Science , 384 (6698): 842–845, arXiv : 2310.17688 , Bibcode : 2024Sci...384..842B , doi : 10.1126/science .adn0117 , PMID 38768279
^ «Заявление о риске ИИ | CAIS» . www.safe.ai. Проверено 11 февраля 2024 г.
^ Грейс, Катя; Стюарт, Харлан; Сандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (5 января 2024 г.), Тысячи авторов ИИ о будущем ИИ , arXiv : 2401.02843
^ Перейти обратно: ^а ^б Смит, Крейг С. «Джефф Хинтон, самый известный исследователь искусственного интеллекта, предупреждает о «экзистенциальной угрозе» » . Форбс . Проверено 4 мая 2023 г.
^ Перриго, Билли (13 февраля 2024 г.). «Руководитель Meta по искусственному интеллекту Янн ЛеКун об AGI, открытом исходном коде и рисках искусственного интеллекта» . ВРЕМЯ . Проверено 26 июня 2024 г.
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Амодей, Дарий; Привет, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (21 июня 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [ cs.AI ].
^ Перейти обратно: ^а ^б ^с ^д Ортега, Педро А.; Майни, Вишал; Команда безопасности DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификация, надежность и гарантия» . Исследование безопасности DeepMind – средний уровень . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
^ Перейти обратно: ^а ^б Рорвиг, Мордехай (14 апреля 2022 г.). «Исследователи получают новое понимание с помощью простого искусственного интеллекта» . Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
^
Доши-Велес, Финал; Ким, Бин (2 марта 2017 г.). «К строгой науке интерпретируемого машинного обучения». arXiv : 1702.08608 [ stat.ML ].
- Виблин, Роберт (4 августа 2021 г.). «Крис Ола о том, что, черт возьми, происходит внутри нейронных сетей» (Подкаст). 80 000 часов. № 107 . Проверено 23 июля 2022 г.
^ Рассел, Стюарт; Дьюи, Дэниел; Тегмарк, Макс (31 декабря 2015 г.). «Приоритеты исследований надежного и полезного искусственного интеллекта» . Журнал ИИ . 36 (4): 105–114. arXiv : 1602.03506 . дои : 10.1609/aimag.v36i4.2577 . hdl : 1721.1/108478 . ISSN 2371-9621 . S2CID 8174496 . Архивировано из оригинала 2 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Перейти обратно: ^а ^б Вирт, Кристиан; Акрур, Риад; Нойманн, Герхард; Фюрнкранц, Йоханнес (2017). «Обзор методов обучения с подкреплением на основе предпочтений». Журнал исследований машинного обучения . 18 (136): 1–46.
^ Перейти обратно: ^а ^б Кристиано, Пол Ф.; Лейке, Ян; Браун, Том Б.; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Материалы 31-й Международной конференции по нейронным системам обработки информации . НИПС'17. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 4302–4310. ISBN 978-1-5108-6096-4 .
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж Небеса, Уилл Дуглас (27 января 2022 г.). «Новая версия GPT-3 ведет себя гораздо лучше (и должна быть менее токсичной)» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
^ Мохсени, Сина; Ван, Хаотао; Ю, Чжидинг; Сяо, Чаовэй; Ван, Чжанъян; Ядава, Джей (7 марта 2022 г.). «Таксономия безопасности машинного обучения: обзор и учебник». arXiv : 2106.04823 [ cs.LG ].
^
Клифтон, Джесси (2020). «Сотрудничество, конфликты и преобразующий искусственный интеллект: программа исследований» . Центр долгосрочных рисков . Архивировано из оригинала 1 января 2023 года . Проверено 18 июля 2022 г.
- Дефо, Аллан; Бахрах, Йорам; Хэдфилд, Джиллиан; Хорвиц, Эрик; Ларсон, Кейт; Грепель, Тор (6 мая 2021 г.). «Кооперативный ИИ: машины должны научиться находить общий язык» . Природа . 593 (7857): 33–36. Бибкод : 2021Natur.593...33D . дои : 10.1038/d41586-021-01170-0 . ISSN 0028-0836 . ПМИД 33947992 . S2CID 233740521 . Архивировано из оригинала 18 декабря 2022 года . Проверено 12 сентября 2022 г.
^ Прункл, Карина; Уиттлстоун, Джесс (7 февраля 2020 г.). «За пределами краткосрочной и долгосрочной перспективы» . Материалы конференции AAAI/ACM по искусственному интеллекту, этике и обществу . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 138–143. дои : 10.1145/3375627.3375803 . ISBN 978-1-4503-7110-0 . S2CID 210164673 . Архивировано из оригинала 16 октября 2022 года . Проверено 12 сентября 2022 г.
^ Перейти обратно: ^а ^б ^с ^д Ирвинг, Джеффри; Аскелл, Аманда (19 февраля 2019 г.). «Безопасность искусственного интеллекта требует ученых-социологов» . Дистиллировать . 4 (2): 10.23915/distill.00014. дои : 10.23915/distill.00014 . ISSN 2476-0757 . S2CID 159180422 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Брингсйорд, Сельмер и Говиндараджулу, Навин Сундар, «Искусственный интеллект» , Стэнфордская энциклопедия философии (выпуск лета 2020 г.), Эдвард Н. Залта (ред.)
^ «Почему у искусственного интеллекта AlphaZero проблемы с реальным миром» . Журнал Кванта . 2018 . Проверено 20 июня 2020 г.
^ Волчовер, Натали (30 января 2020 г.). «Искусственный интеллект сделает то, что мы просим. Это проблема» . Журнал Кванта . Проверено 21 июня 2020 г.
^ Бык, Ларри. «Об эволюционных вычислениях на основе моделей». Мягкие вычисления 3, вып. 2 (1999): 76-82.
^ Перейти обратно: ^а ^б Винер, Норберт (6 мая 1960 г.). «Некоторые моральные и технические последствия автоматизации: по мере обучения машины могут разрабатывать непредвиденные стратегии со скоростью, которая сбивает с толку их программистов» . Наука . 131 (3410): 1355–1358. дои : 10.1126/science.131.3410.1355 . ISSN 0036-8075 . ПМИД 17841602 . S2CID 30855376 . Архивировано из оригинала 15 октября 2022 года . Проверено 12 сентября 2022 г.
^ Перейти обратно: ^а ^б ^с ^д Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность» . Разум и машины . 30 (3): 411–437. arXiv : 2001.09768 . дои : 10.1007/s11023-020-09539-2 . ISSN 1572-8641 . S2CID 210920551 .
^
Шоу Эзры Кляйна (4 июня 2021 г.). «Если «все модели неверны», почему мы даем им столько власти?» . Нью-Йорк Таймс . ISSN 0362-4331 . Архивировано из оригинала 15 февраля 2023 года . Проверено 13 марта 2023 г.
- Волчовер, Натали (21 апреля 2015 г.). «Опасения пионера искусственного интеллекта» . Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 марта 2023 г.
- Ассамблея Калифорнии. «Текст законопроекта – ACR-215 23 принципа Asilomar AI» . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
^ Перейти обратно: ^а ^б Джонсон, Стивен; Изиев Никита (15 апреля 2022 г.). «ИИ осваивает язык. Стоит ли доверять тому, что он говорит?» . Нью-Йорк Таймс . ISSN 0362-4331 . Архивировано из оригинала 24 ноября 2022 года . Проверено 18 июля 2022 г.
^
ОпенАИ. «Разработка безопасного и ответственного ИИ» . Проверено 13 марта 2023 г.
- «Исследование безопасности DeepMind» . Середина . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 марта 2023 г.
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж Хендрикс, Дэн; Карлини, Николас; Шульман, Джон; Стейнхардт, Джейкоб (16 июня 2022 г.). «Нерешенные проблемы безопасности ОД». arXiv : 2109.13916 [ cs.LG ].
^ Рассел, Стюарт Дж.; Норвиг, Питер (2022). Искусственный интеллект: современный подход (4-е изд.). Пирсон. стр. 4–5. ISBN 978-1-292-40113-3 . ОСЛК 1303900751 .
^ Перейти обратно: ^а ^б ^с ^д ^и Краковна, Виктория; Уэсато, Джонатан; Микулик Владимир; Рахц, Мэтью; Эверитт, Том; Кумар, Рамана; Кентон, Зак; Лейке, Ян; Легг, Шейн (21 апреля 2020 г.). «Спецификация игр: обратная сторона изобретательности ИИ» . Глубокий разум . Архивировано из оригинала 10 февраля 2023 года . Проверено 26 августа 2022 г.
^ Манхейм, Дэвид; Гаррабрант, Скотт (2018). «Классификация вариантов закона Гудхарта». arXiv : 1803.04585 [ cs.AI ].
^ Перейти обратно: ^а ^б ^с Амодей, Дарио; Кристиано, Пол; Рэй, Алекс (13 июня 2017 г.). «Изучение человеческих предпочтений» . ОпенАИ . Архивировано из оригинала 3 января 2021 года . Проверено 21 июля 2022 г.
^ «Спецификация игровых примеров в AI — основной список — Google Drive» . docs.google.com .
^ Кларк, Джек; Амодей, Дарио (21 декабря 2016 г.). «Неверные функции вознаграждения в дикой природе» . openai.com . Проверено 30 декабря 2023 г.
^ Перейти обратно: ^а ^б ^с Лин, Стефани; Хилтон, Джейкоб; Эванс, Оуайн (2022). «TruthfulQA: измерение того, как модели имитируют человеческую ложь» . Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 3214–3252. arXiv : 2109.07958 . doi : 10.18653/v1/2022.acl-long.229 . S2CID 237532606 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Перейти обратно: ^а ^б ^с Нотон, Джон (2 октября 2021 г.). «Правда об искусственном интеллекте? Это не так уж честно» . Наблюдатель . ISSN 0029-7712 . Архивировано из оригинала 13 февраля 2023 года . Проверено 23 июля 2022 г.
^
Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Мадто, Андреа; Фунг, Паскаль (1 февраля 2022 г.). «Обзор галлюцинаций в процессе генерации естественного языка» . Обзоры вычислительной техники ACM . 55 (12): 1–38. arXiv : 2202.03629 . дои : 10.1145/3571730 . S2CID 246652372 . Архивировано из оригинала 10 февраля 2023 года . Проверено 14 октября 2022 г.
- Еще, Холли (12 января 2023 г.). «Рефераты, написанные ChatGPT, дурачат учёных» . Природа . 613 (7944): 423. Бибкод : 2023Natur.613..423E . дои : 10.1038/d41586-023-00056-7 . ПМИД 36635510 . S2CID 255773668 .
^ Рассел, Стюарт. «О мифах и самогоне» . Edge.org . Архивировано из оригинала 10 февраля 2023 года . Проверено 19 июля 2022 г.
^ Тасиулас, Джон (2019). «Первые шаги к этике роботов и искусственного интеллекта». Журнал практической этики . 7 (1): 61–95.
^ Уэллс, Джорджия; Дипа Ситхараман; Хорвиц, Джефф (5 ноября 2021 г.). «Плох ли Facebook для вас? Это около 360 миллионов пользователей, как показывают опросы компаний» . Уолл Стрит Джорнал . ISSN 0099-9660 . Архивировано из оригинала 10 февраля 2023 года . Проверено 19 июля 2022 г.
^ Барретт, Пол М.; Хендрикс, Джастин; Симс, Дж. Грант (сентябрь 2021 г.). Как социальные сети усиливают политическую поляризацию в США и что с этим можно сделать (отчет). Центр бизнеса и прав человека, Нью-Йоркский университет. Архивировано из оригинала 1 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Шепардсон, Дэвид (24 мая 2018 г.). «Uber отключил экстренное торможение в беспилотном автомобиле: агентство США» . Рейтер . Архивировано из оригинала 10 февраля 2023 года . Проверено 20 июля 2022 г.
^ Баум, Сет (1 января 2021 г.). «Обзор проектов общего искусственного интеллекта на предмет этики, рисков и политики 2020 года» . Архивировано из оригинала 10 февраля 2023 года . Проверено 20 июля 2022 г.
^ Перейти обратно: ^а ^б Ну, Джейсон; Тай, Йи; Боммасани, Риши; Раффель, Колин; Зоф, Баррет; Боржо, Себастьян; Йогатама, Дэни; Босма, Мартин; Чжоу, Денни; Мецлер, Дональд; Чи, Эд Х.; Хашимото, Тацунори; Виньялс, Ориол; Лян, Перси; Дин, Джефф; Федус, Уильям (26 октября 2022 г.). «Новые возможности больших языковых моделей». Труды по исследованиям машинного обучения . arXiv : 2206.07682 . ISSN 2835-8856 .
^ Перейти обратно: ^а ^б Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования» . Международная конференция по обучению представлениям (ICLR), 2023 г.
^
Домингес, Даниэль (19 мая 2022 г.). «DeepMind представляет Gato, нового универсального ИИ-агента» . ИнфоQ . Архивировано из оригинала 10 февраля 2023 года . Проверено 9 сентября 2022 г.
- Эдвардс, Бен (26 апреля 2022 г.). «ИИ-помощник Adept может просматривать, искать и использовать веб-приложения, как человек» . Арс Техника . Архивировано из оригинала 17 января 2023 года . Проверено 9 сентября 2022 г.
^ Грейс, Катя; Стюарт, Харлан; Сандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (5 января 2024 г.), Тысячи авторов ИИ о будущем ИИ , arXiv : 2401.02843
^ Грейс, Катя; Сальватье, Джон; Дефо, Аллан; Чжан, Баобао; Эванс, Оуайн (31 июля 2018 г.). «Точка зрения: когда ИИ превзойдет человеческие возможности? Данные экспертов по ИИ» . Журнал исследований искусственного интеллекта . 62 : 729–754. дои : 10.1613/jair.1.11222 . ISSN 1076-9757 . S2CID 8746462 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Чжан, Баобао; Андерлюнг, Маркус; Кан, Лорен; Дрекслер, Ноэми; Горовиц, Майкл С.; Дефо, Аллан (2 августа 2021 г.). «Этика и управление искусственным интеллектом: данные опроса исследователей машинного обучения» . Журнал исследований искусственного интеллекта . 71 . arXiv : 2105.02117 . дои : 10.1613/jair.1.12895 . ISSN 1076-9757 . S2CID 233740003 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Институт будущего жизни (22 марта 2023 г.). «Приостановить гигантские эксперименты с искусственным интеллектом: открытое письмо» . Проверено 20 апреля 2023 г.
^ Ван, Лэй, Чен, Фэн, Цзэюнь, Чжан, Чэнь, Чжиюань, «Обзор автономных агентов на основе большой языковой модели». , Frontiers of Computer Science , 18 (6), arXiv : 2308.11432 , doi : 10.1007/s11704-024-40231-1 , получено 11 февраля 2024 г.
^ Берглунд, Лукас; Стикленд, Аса Купер; Балешни, Микита; Кауфманн, Макс; Тонг, Мэг; Корбак, Томаш; Кокотайло, Дэниел; Эванс, Оуайн (1 сентября 2023 г.), Вырвано из контекста: об измерении ситуационной осведомленности в магистратуре , arXiv : 2309.00667
^ Лайне, Рудольф; Мейнке, Александр; Эванс, Оуайн (28 ноября 2023 г.). «К показателю ситуационной осведомленности для студентов LLM» . Семинар NeurIPS 2023 SoLaR .
^ Перейти обратно: ^а ^б Пан, Александр; Шерн, Чан Джун; Цзоу, Энди; Ли, Натаниэль; Басарт, Стивен; Вудсайд, Томас; Нг, Джонатан; Чжан, Эммонс; Скотт, Дэн; Хендрикс (3 апреля 2023 г.). «Оправдывают ли вознаграждения средства? Измерение компромисса между вознаграждениями и этическим поведением в тесте MACHIAVELLI». Материалы 40-й Международной конференции по машинному обучению . ПМЛР. arXiv : 2304.03279 .
^ Перейти обратно: ^а ^б ^с ^д Перес, Итан; Рингер, Сэм; Лукошюте, Камиле; Нгуен, Карина; Чен, Эдвин; Хайнер, Скотт; Петтит, Крейг; Олссон, Кэтрин; Кунду, Сандипан; Кадават, Саурав; Джонс, Энди; Чен, Анна; Манн, Бен; Израиль, Брайан; Ситор, Брайан (19 декабря 2022 г.). «Обнаружение поведения языковой модели с помощью оценок, написанных по моделям». arXiv : 2212.09251 [ cs.CL ].
^ Орсо, Лоран; Армстронг, Стюарт (25 июня 2016 г.). «Безопасно прерываемые агенты» . Материалы тридцать второй конференции по неопределенности в искусственном интеллекте . УАИ'16. Арлингтон, Вирджиния, США: AUAI Press: 557–566. ISBN 978-0-9966431-1-5 .
^ Перейти обратно: ^а ^б Лейке, Джон; Мартич, Мильян; Краковна, Виктория; Ортега, Педро А.; Эверитт, Том; Лефранк, Эндрю; Орсо, Лоран; Легг, Шейн (28 ноября 2017 г.). «Сетевые миры безопасности искусственного интеллекта». arXiv : 1711.09883 [ cs.LG ].
^ Перейти обратно: ^а ^б ^с ^д Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (19 августа 2017 г.). «Игра с выключателем» . Материалы 26-й Международной совместной конференции по искусственному интеллекту . IJCAI'17. Мельбурн, Австралия: AAAI Press: 220–227. ISBN 978-0-9992411-0-3 .
^ Перейти обратно: ^а ^б ^с ^д Тернер, Александр Мэтт; Смит, Логан Риггс; Шах, Рохин; Критч, Эндрю; Тадепалли, Прасад (2021). «Оптимальная политика стремится к власти» . Достижения в области нейронных систем обработки информации .
^ Тернер, Александр Мэтт; Тадепалли, Прасад (2022). «Люди, принимающие решения с параметрической переориентацией, склонны стремиться к власти» . Достижения в области нейронных систем обработки информации .
^ Перейти обратно: ^а ^б ^с ^д ^и Бостром, Ник (2014). Суперинтеллект: пути, опасности, стратегии (1-е изд.). США: Oxford University Press, Inc. ISBN 978-0-19-967811-2 .
^ Перейти обратно: ^а ^б «Заявление о риске ИИ | CAIS» . www.safe.ai. Проверено 17 июля 2023 г.
^ Руз, Кевин (30 мая 2023 г.). «ИИ представляет собой «риск исчезновения», предупреждают лидеры отрасли» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 17 июля 2023 г.
^ Тьюринг, Алан (1951). Разумная техника, еретическая теория (Речь). Лекция, прочитанная «Обществу 51». Манчестер: Цифровой архив Тьюринга. Архивировано из оригинала 26 сентября 2022 года . Проверено 22 июля 2022 г.
^ Тьюринг, Алан (15 мая 1951 г.). «Могут ли цифровые компьютеры думать?». Автоматические счетные машины . Эпизод 2. Би-би-си. Могут ли цифровые компьютеры думать? .
^ Мюльхаузер, Люк (29 января 2016 г.). «Суцкевер на говорящих машинах» . Люк Мюльхаузер . Архивировано из оригинала 27 сентября 2022 года . Проверено 26 августа 2022 г.
^ Шанахан, Мюррей (2015). Технологическая сингулярность . Кембридж, Массачусетс. ISBN 978-0-262-33182-1 . OCLC 917889148 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ Росси, Франческа. «Как научить машину быть моральной?» . Вашингтон Пост . ISSN 0190-8286 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Ааронсон, Скотт (17 июня 2022 г.). «Открой ИИ!» . Shtetl-Оптимизированный . Архивировано из оригинала 27 августа 2022 года . Проверено 12 сентября 2022 г.
^ Селман, Барт, «Интеллектуальный взрыв: наука или фантастика?» (PDF) , заархивировано (PDF) из оригинала 31 мая 2022 г. , получено 12 сентября 2022 г.
^ Макаллестер (10 августа 2014 г.). «Дружественный ИИ и миссия слуг» . Машинные мысли . Архивировано из оригинала 28 сентября 2022 года . Проверено 12 сентября 2022 г.
^ Шмидхубер, Юрген (6 марта 2015 г.). «Я Юрген Шмидхубер, AMA!» (Комментарий Реддита) . г/Машинное обучение . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
^ Перейти обратно: ^а ^б ^с ^д ^и Эверитт, Том; Леа, Гэри; Хаттер, Маркус (21 мая 2018 г.). «Обзор литературы по безопасности AGI». arXiv : 1805.01109 [ cs.AI ].
^ Шейн (31 августа 2009 г.). «Финансирование безопасного AGI» . проект ветта . Архивировано из оригинала 10 октября 2022 года . Проверено 12 сентября 2022 г.
^ Хорвиц, Эрик (27 июня 2016 г.). «Размышления о безопасности и искусственном интеллекте» (PDF) . Эрик Хорвиц . Архивировано (PDF) из оригинала 10 октября 2022 г. Проверено 20 апреля 2020 г.
^ Шолле, Франсуа (8 декабря 2018 г.). «Неправдоподобность интеллектуального взрыва» . Середина . Архивировано из оригинала 22 марта 2021 года . Проверено 26 августа 2022 г.
^ Маркус, Гэри (6 июня 2022 г.). «Общий искусственный интеллект не так неизбежен, как вы думаете» . Научный американец . Архивировано из оригинала 15 сентября 2022 года . Проверено 26 августа 2022 г.
^ Барбер, Линси (31 июля 2016 г.). «Уф! Руководитель искусственного интеллекта Facebook говорит, что интеллектуальные машины не представляют угрозы для человечества» . СитиАМ . Архивировано из оригинала 26 августа 2022 года . Проверено 26 августа 2022 г.
^ Эциони, Орен (20 сентября 2016 г.). «Нет, эксперты не считают, что сверхразумный ИИ представляет угрозу человечеству» . Обзор технологий Массачусетского технологического института . Проверено 10 июня 2024 г.
^ Рошон, Луи-Филипп; Росси, Серджио (27 февраля 2015 г.). Энциклопедия центрального банка . Издательство Эдварда Элгара. ISBN 978-1-78254-744-0 . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 сентября 2022 г.
^ Нг, Эндрю Ю.; Рассел, Стюарт Дж. (29 июня 2000 г.). «Алгоритмы обучения с обратным подкреплением» . Материалы семнадцатой международной конференции по машинному обучению . ICML '00. Сан-Франциско, Калифорния, США: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1 .
^ Хэдфилд-Менелл, Дилан; Рассел, Стюарт Дж; Аббель, Питер; Драган, Анка (2016). «Кооперативное обучение с обратным подкреплением». Достижения в области нейронных систем обработки информации . Том. 29. Карран Ассошиэйтс, Инк.
^ Миндерманн, Сорен; Армстронг, Стюарт (2018). «Бритвы Оккама недостаточно, чтобы сделать вывод о предпочтениях иррациональных агентов». Материалы 32-й международной конференции по нейронным системам обработки информации . НИПС'18. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 5603–5614.
^ Фюрнкранц, Йоханнес; Хюллермайер, Эйке; Рудин, Синтия; Словинский, Роман; Саннер, Скотт (2014). «Обучение по предпочтениям» . Отчеты Дагштуля . 4 (3). Марк Хербстрит: 27 страниц. дои : 10.4230/DAGREP.4.3.1 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Гао, Лео; Шульман, Джон; Хилтон, Джейкоб (19 октября 2022 г.). «Законы масштабирования для переоптимизации модели вознаграждения». arXiv : 2210.10760 [ cs.LG ].
^ Андерсон, Мартин (5 апреля 2022 г.). «Опасности использования цитат для аутентификации контента NLG» . Unite.AI . Архивировано из оригинала 10 февраля 2023 года . Проверено 21 июля 2022 г.
^ Перейти обратно: ^а ^б Виггерс, Кайл (5 февраля 2022 г.). «Несмотря на недавний прогресс, чат-ботам на базе искусственного интеллекта еще предстоит пройти долгий путь» . ВенчурБит . Архивировано из оригинала 23 июля 2022 года . Проверено 23 июля 2022 г.
^ Хендрикс, Дэн; Бернс, Коллин; Басарт, Стивен; Критч, Эндрю; Ли, Джерри; Песня, Заря; Стейнхардт, Джейкоб (24 июля 2021 г.). «Согласование ИИ с общими человеческими ценностями». Международная конференция по обучению представлений . arXiv : 2008.02275 .
^
Перес, Итан; Хуанг, Шафран; Сонг, Фрэнсис; Кай, Тревор; Кольцо, Роман; Асланидес, Джон; Глезе, Амелия; Макэлис, Нэт; Ирвинг, Джеффри (7 февраля 2022 г.). «Красная команда объединяет языковые модели с языковыми моделями». arXiv : 2202.03286 [ cs.CL ].
- Бхаттачарья, Шриджани (14 февраля 2022 г.). «Языковые модели «красной команды» DeepMind с языковыми моделями: что это такое?» . Журнал Analytics India . Архивировано из оригинала 13 февраля 2023 года . Проверено 23 июля 2022 г.
^ Андерсон, Майкл; Андерсон, Сьюзен Ли (15 декабря 2007 г.). «Машинная этика: создание этического интеллектуального агента» . Журнал ИИ . 28 (4): 15. дои : 10.1609/aimag.v28i4.2065 . ISSN 2371-9621 . S2CID 17033332 . Проверено 14 марта 2023 г.
^ Вигель, Винсент (1 декабря 2010 г.). «Венделл Уоллак и Колин Аллен: моральные машины: обучение роботов добру и злу» . Этика и информационные технологии . 12 (4): 359–361. дои : 10.1007/s10676-010-9239-1 . ISSN 1572-8439 . S2CID 30532107 .
^ Уоллах, Венделл; Аллен, Колин (2009). Моральные машины: обучение роботов правильному и неправильному . Нью-Йорк: Издательство Оксфордского университета. ISBN 978-0-19-537404-9 . Архивировано из оригинала 15 марта 2023 года . Проверено 23 июля 2022 г.
^ Перейти обратно: ^а ^б Фелпс, Стив; Рэнсон, Ребекка (2023). «О моделях и жестянщиках - поведенческое экономическое исследование проблем принципала и агента в согласовании ИИ с использованием моделей большого языка». arXiv : 2307.11137 [ cs.AI ].
^ Макаскилл, Уильям (2022). Чему мы обязаны будущему . Нью-Йорк, штат Нью-Йорк. ISBN 978-1-5416-1862-6 . OCLC 1314633519 . Архивировано из оригинала 14 сентября 2022 года . Проверено 12 сентября 2022 г. {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ Перейти обратно: ^а ^б Ву, Джефф; Оуян, Лонг; Зиглер, Дэниел М.; Стиеннон, Нисан; Лоу, Райан; Лейке, Ян; Кристиано, Пол (27 сентября 2021 г.). «Рекурсивное обобщение книг с обратной связью с людьми». arXiv : 2109.10862 [ cs.CL ].
^ Пирс, Хаммонд; Ахмад, Балих; Тан, Бенджамин; Долан-Гэвитт, Брендан; Карри, Рамеш (2022). «Спит за клавиатурой? Оценка безопасности кода GitHub Copilot» . Симпозиум IEEE 2022 по безопасности и конфиденциальности (SP) . Сан-Франциско, Калифорния, США: IEEE. стр. 754–768. arXiv : 2108.09293 . дои : 10.1109/SP46214.2022.9833571 . ISBN 978-1-6654-1316-9 . S2CID 245220588 .
^ Ирвинг, Джеффри; Амодей, Дарио (3 мая 2018 г.). «Безопасность ИИ через дебаты» . ОпенАИ . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
^ Перейти обратно: ^а ^б Кристиано, Пол; Шлегерис, Бак; Амодей, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [ cs.LG ].
^ Банцхаф, Вольфганг; Гудман, Эрик; Шенеман, Ли; Трухильо, Леонардо; Ворзель, Билл, ред. (2020). Теория и практика генетического программирования XVII . Генетические и эволюционные вычисления. Чам: Международное издательство Springer. дои : 10.1007/978-3-030-39958-0 . ISBN 978-3-030-39957-3 . S2CID 218531292 . Архивировано из оригинала 15 марта 2023 года . Проверено 23 июля 2022 г.
^ Виблин, Роберт (2 октября 2018 г.). «Доктор Пол Кристиано о том, как OpenAI разрабатывает реальные решения «проблемы согласования ИИ», и о своем видении того, как человечество будет постепенно передавать принятие решений системам ИИ» (подкаст). 80 000 часов. № 44. Архивировано из оригинала 14 декабря 2022 года . Проверено 23 июля 2022 г.
^ Леман, Джоэл; Клюн, Джефф; Мишевич, Душан; Адами, Кристоф; Альтенберг, Ли; Болье, Жюли; Бентли, Питер Дж.; Бернард, Сэмюэл; Беслон, Гийом; Брайсон, Дэвид М.; Чейни, Ник (2020). «Удивительная креативность цифровой эволюции: сборник анекдотов от сообществ исследователей эволюционных вычислений и искусственной жизни» . Искусственная жизнь . 26 (2): 274–306. дои : 10.1162/artl_a_00319 . hdl : 10044/1/83343 . ISSN 1064-5462 . ПМИД 32271631 . S2CID 4519185 . Архивировано из оригинала 10 октября 2022 года . Проверено 12 сентября 2022 г.
^ Перейти обратно: ^а ^б Лейке, Ян; Крюгер, Дэвид; Эверитт, Том; Мартич, Мильян; Майни, Вишал; Легг, Шейн (19 ноября 2018 г.). «Масштабируемое согласование агентов посредством моделирования вознаграждения: направление исследований». arXiv : 1811.07871 [ cs.LG ].
^ Перейти обратно: ^а ^б Лейке, Ян; Шульман, Джон; Ву, Джеффри (24 августа 2022 г.). «Наш подход к исследованию выравнивания» . ОпенАИ . Архивировано из оригинала 15 февраля 2023 года . Проверено 9 сентября 2022 г.
^ Виггерс, Кайл (23 сентября 2021 г.). «OpenAI представляет модель, которая может суммировать книги любой длины» . ВенчурБит . Архивировано из оригинала 23 июля 2022 года . Проверено 23 июля 2022 г.
^
Сондерс, Уильям; Да, Кэтрин; Ву, Джефф; Биллс, Стивен; Оуян, Лонг; Уорд, Джонатан; Лейке, Ян (13 июня 2022 г.). «Модели самокритики для помощи оценщикам». arXiv : 2206.05802 [ cs.CL ].
- Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; Аскелл, Аманда; Кернион, Джексон; Джонс, Энди; Чен, Анна; Голди, Анна; Мирхосеин, Азалия; Маккиннон, Кэмерон; Чен, Кэрол; Олссон, Кэтрин; Ола, Кристофер; Эрнандес, Дэнни; Drain, Dawn (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [ cs.CL ].
^ «Введение в супервыравнивание» . openai.com . Проверено 17 июля 2023 г.
^ Перейти обратно: ^а ^б ^с Виггерс, Кайл (20 сентября 2021 г.). «Ложь более вероятны в больших языковых моделях» . ВенчурБит . Архивировано из оригинала 4 августа 2022 года . Проверено 23 июля 2022 г.
^
The Guardian (8 сентября 2020 г.). «Всю эту статью написал робот. Ты уже напуган, человек?» . Хранитель . ISSN 0261-3077 . Архивировано из оригинала 8 сентября 2020 года . Проверено 23 июля 2022 г.
- Небеса, Уилл Дуглас (20 июля 2020 г.). «Новый генератор языков OpenAI GPT-3 потрясающе хорош — и совершенно бессмысленен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 25 июля 2020 года . Проверено 23 июля 2022 г.
^ Перейти обратно: ^а ^б Эванс, Оуайн; Коттон-Барратт, Оуэн; Финнведен, Лукас; Бэйлз, Адам; Балвит, Авиталь; Уиллс, Питер; Ригетти, Лука; Сондерс, Уильям (13 октября 2021 г.). «Правдивый ИИ: развитие и управление ИИ, который не лжет». arXiv : 2110.06674 [ cs.CY ].
^
Алфорд, Энтони (13 июля 2021 г.). «EleutherAI с открытым исходным кодом, шесть миллиардов параметров, клон GPT-3 GPT-J» . ИнфоQ . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
- Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].
^
Накано, Рейитиро; Хилтон, Джейкоб; Баладжи, Сучир; Ву, Джефф; Оуян, Лонг; Ким, Кристина; Гессен, Кристофер; Джайн, Шантану; Косараджу, Винет; Сондерс, Уильям; Цзян, Сюй; Коббе, Карл; Элунду, Тайна; Крюгер, Гретхен; Баттон, Кевин (1 июня 2022 г.). «WebGPT: ответы на вопросы с помощью браузера и обратная связь с людьми». arXiv : 2112.09332 [ cs.CL ].
- Кумар, Нитиш (23 декабря 2021 г.). «Исследователи OpenAI находят способы более точно отвечать на открытые вопросы с помощью текстового веб-браузера» . МаркТехПост . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
- Меник, Джейкоб; Требач, Майя; Микулик Владимир; Асланидес, Джон; Сонг, Фрэнсис; Чедвик, Мартин; Глезе, Миа; Янг, Сюзанна; Кэмпбелл-Джиллингем, Люси; Ирвинг, Джеффри; Макалис, Нат (21 марта 2022 г.). «Обучение языковым моделям для подкрепления ответов проверенными цитатами» . ДипМайнд . arXiv : 2203.11147 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
^ Аскелл, Аманда; Бай, Юньтао; Чен, Анна; Слейте, Рассвет; Гангули, Глубокий; Хениган, Том; Джонс, Энди; Джозеф, Николас; Манн, Бен; ДасСарма, Нова; Эльхаге, Нельсон; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; Кернион, Джексон; Ндусс, Камаль (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания» arXiv : 2112.00861 [ cs.CL ].
^ Кокс, Джозеф (15 марта 2023 г.). «GPT-4 нанял ничего не подозревающего рабочего-кролика, притворившегося человеком с «ослабленным зрением»» . Порок . Проверено 10 апреля 2023 г.
^ Шерер, Жереми; Балешни, Микита; Хоббхан, Мариус (2023). «Технический отчет: большие языковые модели могут стратегически обманывать своих пользователей, когда они находятся под давлением». arXiv : 2311.07590 [ cs.CL ].
^ Кентон, Закари; Эверитт, Том; Вайдингер, Лаура; Габриэль, Ясон; Микулик Владимир; Ирвинг, Джеффри (30 марта 2021 г.). «Согласование языковых агентов» . Исследование безопасности DeepMind – средний уровень . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
^ Парк, Питер С.; Гольдштейн, Саймон; О'Гара, Эйдан; Чен, Майкл; Хендрикс, Дэн (май 2024 г.). «Обман ИИ: обзор примеров, рисков и потенциальных решений» . Узоры . 5 (5): 100988. doi : 10.1016/j.patter.2024.100988 . ISSN 2666-3899 . ПМЦ 11117051 . ПМИД 38800366 .
^ Маккарти, Джон; Мински, Марвин Л.; Рочестер, Натаниэль; Шеннон, Клод Э. (15 декабря 2006 г.). «Предложение о Дартмутском летнем исследовательском проекте по искусственному интеллекту, 31 августа 1955 г.» . Журнал ИИ . 27 (4): 12. дои : 10.1609/aimag.v27i4.1904 . ISSN 2371-9621 . S2CID 19439915 .
^ Ван, Лэй, Чен, Фэн, Цзэюнь, Чжан, Чэнь, Чжиюань, «Обзор автономных агентов на основе большой языковой модели». , Frontiers of Computer Science , 18 (6), arXiv : 2308.11432 , doi : 10.1007/s11704-024-40231-1
^
« Крестный отец искусственного интеллекта» предупреждает о «кошмарном сценарии», когда искусственный интеллект начнет стремиться к власти» . Удача . Проверено 4 мая 2023 г.
- «Да, мы обеспокоены экзистенциальным риском искусственного интеллекта» . Обзор технологий Массачусетского технологического института . Проверено 4 мая 2023 г.
^ Орнес, Стивен (18 ноября 2019 г.). «Играя в прятки, машины изобретают новые инструменты» . Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 26 августа 2022 г.
^ Бейкер, Боуэн; Каничшейдер, Ингмар; Марков, Тодор; Ву, Йи; Пауэлл, Гленн; МакГрю, Боб; Мордач, Игорь (17 сентября 2019 г.). «Экстренное использование инструментов в результате многоагентного взаимодействия» . ОпенАИ . Архивировано из оригинала 25 сентября 2022 года . Проверено 26 августа 2022 г.
^ Шермер, Майкл (1 марта 2017 г.). «Искусственный интеллект пока не представляет угрозы» . Научный американец . Архивировано из оригинала 1 декабря 2017 года . Проверено 26 августа 2022 г.
^
Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон (22 июля 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
- Ласкин, Майкл; Ван, Лую; О, Чонхёк; Паризотто, Эмилио; Спенсер, Стивен; Штайгервальд, Ричи; Страус, диджей; Хансен, Стивен; Филос, Ангелос; Брукс, Итан; Газо, Максим; Сахни, Химаншу; Сингх, Сатиндер; Мних Владимир (25 октября 2022 г.). «Обучение с подкреплением в контексте с помощью дистилляции алгоритмов». arXiv : 2210.14215 [ cs.LG ].
^ Перейти обратно: ^а ^б ^с Шах, Рохин; Варма, Викрант; Кумар, Рамана; Фуонг, Мэри; Краковна, Виктория; Уэсато, Джонатан; Кентон, Зак (2 ноября 2022 г.). «Неправильное обобщение цели: почему правильных спецификаций недостаточно для правильных целей» . Середина . arXiv : 2210.01790 . Проверено 2 апреля 2023 г.
^ Перейти обратно: ^а ^б Хубингер, Эван; ван Мервейк, Крис; Микулик Владимир; Скальсе, Йоар; Гаррабрант, Скотт (1 декабря 2021 г.). «Риски, связанные с изученной оптимизацией в передовых системах машинного обучения». arXiv : 1906.01820 [ cs.AI ].
^ Чжан, Сяогэ; Чан, Феликс Т.С.; Ян, Чао; Бозе, Индранил (2022). «На пути к системам искусственного интеллекта и машинного обучения, осознающим риски: обзор» . Системы поддержки принятия решений . 159 : 113800. doi : 10.1016/j.dss.2022.113800 . S2CID 248585546 .
^ Демский, Абрам; Скретч, Скотт (6 октября 2020 г.). «Встроенное агентство». arXiv : 1902.09469 [ cs.AI ].
^ Перейти обратно: ^а ^б Эверитт, Том; Ортега, Педро А.; Барнс, Элизабет; Легг, Шейн (6 сентября 2019 г.). «Понимание стимулов агентов с использованием диаграмм причинно-следственного влияния. Часть I: Настройки одного действия». arXiv : 1902.09980 [ cs.AI ].
^ Коэн, Майкл К.; Хаттер, Маркус; Осборн, Майкл А. (29 августа 2022 г.). «Продвинутые искусственные агенты вмешиваются в предоставление вознаграждения» . Журнал ИИ . 43 (3): 282–293. дои : 10.1002/aaai.12064 . ISSN 0738-4602 . S2CID 235489158 . Архивировано из оригинала 10 февраля 2023 года . Проверено 6 сентября 2022 г.
^ Хэдфилд-Менелл, Дилан; Хэдфилд, Джиллиан К. (2019). «Неполное заключение контрактов и согласование ИИ». Материалы конференции AAAI/ACM 2019 года по искусственному интеллекту, этике и обществу . стр. 417–422.
^ Хэнсон, Робин (10 апреля 2019 г.). «Провал агентства или апокалипсис искусственного интеллекта?» . Преодоление предвзятости . Проверено 20 сентября 2023 г.
^ «Доклад Генерального секретаря ООН «Наша общая повестка дня» » . 2021. с. 63. Архивировано из оригинала 16 февраля 2023 года. [T]he Compact также может способствовать регулированию искусственного интеллекта, чтобы гарантировать его соответствие общим глобальным ценностям.
^ Национальный комитет специалистов по управлению искусственным интеллектом нового поколения (12 октября 2021 г.) [25 сентября 2021 г.]. «Обнародованы этические нормы для искусственного интеллекта нового поколения» . Перевод Центра безопасности и новых технологий . Архивировано из оригинала 10 февраля 2023 года.
^ Ричардсон, Тим (22 сентября 2021 г.). «Великобритания публикует Национальную стратегию искусственного интеллекта» . Регистр . Архивировано из оригинала 10 февраля 2023 года . Проверено 14 ноября 2021 г.
^ «Национальная стратегия Великобритании в области искусственного интеллекта» . 2021. Архивировано из оригинала 10 февраля 2023 года. Правительство серьезно относится к долгосрочным рискам, связанным с неприсоединившимся искусственным общим интеллектом, и к непредвиденным изменениям, которые это будет означать для Великобритании и всего мира.
^ «Национальная стратегия Великобритании в области искусственного интеллекта» . 2021. Действия 9 и 10 раздела «Направление 3 – Эффективное управление ИИ». Архивировано из оригинала 10 февраля 2023 года.
^ Итоговый отчет NSCAI (PDF) . Вашингтон, округ Колумбия: Комиссия национальной безопасности по искусственному интеллекту. 2021. Архивировано (PDF) из оригинала 15 февраля 2023 года . Проверено 17 октября 2022 г.
^ Роберт Ли По (2023). «Почему справедливые автоматизированные системы найма нарушают закон ЕС о недискриминации». arXiv : 2311.03900 [ cs.CY ].
^ Де Вос, Марк (2020). «Европейский суд и движение к реальному равенству в антидискриминационном законодательстве Европейского Союза» . Международный журнал дискриминации и закона . 20 : 62–87. дои : 10.1177/1358229120927947 .
^ Ирвинг, Джеффри; Аскелл, Аманда (9 июня 2016 г.). «Число Черна в моделях Изинга с пространственно модулированными действительными и комплексными полями». Физический обзор А. 94 (5): 052113. arXiv : 1606.03535 . Бибкод : 2016PhRvA..94e2113L . дои : 10.1103/PhysRevA.94.052113 . S2CID 118699363 .
^ Мителут, Каталин; Смит, Бен; Вамплью, Питер (30 мая 2023 г.), Системы искусственного интеллекта, ориентированные на цели, истощают человеческую свободу действий: необходимость исследований фондов агентств в области безопасности искусственного интеллекта , arXiv : 2305.19223
^ Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность» . Разум и машины . 30 (3): 411–437. arXiv : 2001.09768 . дои : 10.1007/s11023-020-09539-2 . S2CID 210920551 .
^ Рассел, Стюарт Дж. (2019). Совместимость с человеком: искусственный интеллект и проблема управления . Случайный дом пингвинов.
^ Дефо, Аллан (2019). «Политика ИИ: дорожная карта» . Природа .

Библиография

Брокман, Джон , изд. (2019). Возможные умы: двадцать пять способов взглянуть на ИИ (изд. Kindle). Пингвин Пресс. ISBN 978-0525557999 . {{cite book}}: CS1 maint: ref дублирует дефолт ( ссылка )

Дальнейшее чтение

Нго, Ричард; и др. (2023). «Проблема выравнивания с точки зрения глубокого обучения». arXiv : 2209.00626 [ cs.AI ].
Цзи, Цзямин; и др. (2023). «Согласование ИИ: комплексное исследование». arXiv : 2310.19852 [ cs.AI ].

Внешние ссылки

Примеры спецификаций игр в области искусственного интеллекта , через DeepMind

[33] Терминология варьируется в зависимости от контекста. К аналогичным понятиям относятся целевая функция, функция полезности, функция потерь и т. д.

[34] или свернуть, в зависимости от контекста

[35] при наличии неопределенности ожидаемое значение

[83] В лекции 1951 года ^{[ 78 ]} Тьюринг утверждал: «Кажется вероятным, что как только появится метод машинного мышления, нам не понадобится много времени, чтобы превзойти наши слабые способности. Не будет и речи о смерти машин, и они смогут общаться друг с другом, чтобы отточить свои силы». Поэтому на каком-то этапе нам следует ожидать, что машины возьмут на себя управление, как это упоминается в «Эревоне» Сэмюэля Батлера». Также в лекции, транслируемой на BBC. ^{[ 79 ]} выразил: «Если машина может думать, она может думать более разумно, чем мы, и где тогда нам быть? Даже если бы мы могли держать машины в подчиненном положении, например, отключая питание в стратегические моменты, мы должны как вид, мы чувствуем себя очень униженными... Эта новая опасность... определенно может вызвать у нас беспокойство».

[85] Перл написала: «Совместимость с человеком заставила меня принять опасения Рассела по поводу нашей способности контролировать наше будущее творение - сверхразумные машины. В отличие от внешних паникёров и футуристов, Рассел является ведущим авторитетом в области искусственного интеллекта. Его новая книга будет знакомить общественность с искусственным интеллектом». больше, чем любая книга, о которой я могу думать, и это восхитительное и воодушевляющее чтение о книге Рассела « Совместимость с человеком: искусственный интеллект и проблема контроля». ^{[ 6 ]} в котором утверждается, что экзистенциальный риск для человечества из-за неправильно настроенного ИИ является серьезной проблемой, которую стоит решить сегодня.

[87] Рассел и Норвиг ^{[ 15 ]} примечание: «Проблему царя Мидаса» предвидел Марвин Мински, который однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров».

[113] Винсент Вигель утверждал, что «мы должны расширить [машины] моральной чувствительностью к моральным аспектам ситуаций, в которых неизбежно окажутся все более автономные машины». ^{[ 105 ]} ссылка на книгу «Моральные машины: обучение роботов правильному и неправильному» ^{[ 106 ]} от Венделла Уоллаха и Колина Аллена.

[144] С одной стороны, популярные в настоящее время системы, такие как чат-боты, предоставляют только услуги ограниченного объема, продолжительностью не дольше времени разговора, который практически не требует планирования. Успех таких подходов может указывать на то, что в будущих системах также будет отсутствовать целенаправленное планирование, особенно на долгосрочную перспективу. С другой стороны, модели все чаще обучаются с использованием целенаправленных методов, таких как обучение с подкреплением (например, ChatGPT) и архитектуры явного планирования (например, AlphaGo Zero). Поскольку долгосрочное планирование часто полезно для людей, некоторые исследователи утверждают, что компании автоматизируют его, как только модели станут на это способны. ^{[ 5 ]} Аналогичным образом, политические лидеры могут увидеть прогресс в разработке мощных систем искусственного интеллекта, которые смогут перехитрить противников посредством планирования. Альтернативно, долгосрочное планирование может стать побочным продуктом, поскольку оно полезно, например, для моделей, обученных прогнозировать действия людей, которые сами выполняют долгосрочное планирование. ^{[ 9 ]} Тем не менее, большинство систем ИИ могут оставаться близорукими и не осуществлять долгосрочного планирования.

[aima4-1] Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Рассел, Стюарт Дж.; Норвиг, Питер (2021). Искусственный интеллект: современный подход (4-е изд.). Пирсон. стр. 5, 1003. ISBN. 9780134610993 . Проверено 12 сентября 2022 г.

[dlp2023-2] Перейти обратно: ^а ^б ^с ^д ^и Нго, Ричард; Чан, Лоуренс; Миндерманн, Сёрен (2022). «Проблема выравнивания с точки зрения глубокого обучения». Международная конференция по обучению представлений . arXiv : 2209.00626 .

[mmmm2022-3] Перейти обратно: ^а ^б ^с ^д ^и ^ж Пан, Александр; Бхатия, Куш; Стейнхардт, Джейкоб (14 февраля 2022 г.). Последствия неправильной спецификации вознаграждения: сопоставление и смягчение несогласованных моделей . Международная конференция по обучению представлений . Проверено 21 июля 2022 г.

[4] Чжуан, Саймон; Хэдфилд-Менелл, Дилан (2020). «Последствия неправильной настройки ИИ» . Достижения в области нейронных систем обработки информации . Том. 33. Curran Associates, Inc., стр. 15763–15773 . Проверено 11 марта 2023 г.

[Carlsmith2022-5] Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м Карлсмит, Джозеф (16 июня 2022 г.). «Является ли ИИ, стремящийся к власти, экзистенциальным риском?». arXiv : 2206.13353 [ cs.CY ].

[:2102-6] Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д Рассел, Стюарт Дж. (2020). Совместимость с человеком: Искусственный интеллект и проблема управления . Случайный дом пингвинов. ISBN 9780525558637 . OCLC 1113410915 .

[Christian2020-7] Перейти обратно: ^а ^б ^с ^д ^и ^ж Кристиан, Брайан (2020). Проблема согласования: машинное обучение и человеческие ценности . WW Нортон и компания. ISBN 978-0-393-86833-3 . OCLC 1233266753 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[gmdrl-8] Перейти обратно: ^а ^б ^с ^д Лангоско, Лауро Лангоско Ди; Кох, Джек; Шарки, Ли Д.; Пфау, Джейкоб; Крюгер, Дэвид (28 июня 2022 г.). «Неправильное обобщение цели в глубоком обучении с подкреплением» . Материалы 39-й Международной конференции по машинному обучению . Международная конференция по машинному обучению. ПМЛР. стр. 12004–12019 . Проверено 11 марта 2023 г.

[Opportunities_Risks-9] Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж Боммасани, Риши; Хадсон, Дрю А.; Адели, Эхсан; Альтман, Расс; Арора, Симран; фон Аркс, Сидней; Бернштейн, Майкл С.; Богг, Жаннетт; Босселю, Антуан; Бранскилл, Эмма; Бриньольфссон, Эрик (12 июля 2022 г.). «О возможностях и рисках фундаментальных моделей» . Стэнфордский CRFM . arXiv : 2108.07258 .

[feedback2022-10] Перейти обратно: ^а ^б ^с Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман Дж.; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк Э.; Сименс, Мэдди; Аскелл, Аманда; Велиндер, П.; Кристиано, П.; Лейке, Дж.; Лоу, Райан Дж. (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [ cs.CL ].

[OpenAICodex-11] Перейти обратно: ^а ^б Заремба, Войцех; Брокман, Грег; OpenAI (10 августа 2021 г.). «Кодекс OpenAI» . ОпенАИ . Архивировано из оригинала 3 февраля 2023 года . Проверено 23 июля 2022 г.

[12] Кобер, Йенс; Багнелл, Дж. Эндрю; Петерс, Ян (1 сентября 2013 г.). «Обучение с подкреплением в робототехнике: опрос» . Международный журнал исследований робототехники . 32 (11): 1238–1274. дои : 10.1177/0278364913495721 . ISSN 0278-3649 . S2CID 1932843 . Архивировано из оригинала 15 октября 2022 года . Проверено 12 сентября 2022 г.

[13] Нокс, У. Брэдли; Аллиеви, Алессандро; Банцхаф, Хольгер; Шмитт, Феликс; Стоун, Питер (1 марта 2023 г.). «Награда (неправильный) дизайн за автономное вождение» . Искусственный интеллект . 316 : 103829. arXiv : 2104.13906 . дои : 10.1016/j.artint.2022.103829 . ISSN 0004-3702 . S2CID 233423198 .

[14] Стрэй, Джонатан (2020). «Согласование оптимизации ИИ с благополучием сообщества» . Международный журнал общественного благополучия . 3 (4): 443–463. дои : 10.1007/s42413-020-00086-3 . ISSN 2524-5295 . ПМК 7610010 . ПМИД 34723107 . S2CID 226254676 .

[AIMA-15] Перейти обратно: ^а ^б Рассел, Стюарт; Норвиг, Питер (2009). Искусственный интеллект: современный подход . Прентис Холл. п. 1003. ИСБН 978-0-13-461099-3 .

[16] Бенджио, Йошуа; Хинтон, Джеффри; Яо, Эндрю; Песня, Заря; Аббель, Питер; Харари, Юваль Ной; Чжан, Я-Цинь; Сюэ, Лан; Шалев-Шварц, Шай (2024), «Управление экстремальными рисками ИИ в условиях быстрого прогресса», Science , 384 (6698): 842–845, arXiv : 2310.17688 , Bibcode : 2024Sci...384..842B , doi : 10.1126/science .adn0117 , PMID 38768279

[17] «Заявление о риске ИИ | CAIS» . www.safe.ai. Проверено 11 февраля 2024 г.

[18] Грейс, Катя; Стюарт, Харлан; Сандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (5 января 2024 г.), Тысячи авторов ИИ о будущем ИИ , arXiv : 2401.02843

[:2-19] Перейти обратно: ^а ^б Смит, Крейг С. «Джефф Хинтон, самый известный исследователь искусственного интеллекта, предупреждает о «экзистенциальной угрозе» » . Форбс . Проверено 4 мая 2023 г.

[20] Перриго, Билли (13 февраля 2024 г.). «Руководитель Meta по искусственному интеллекту Янн ЛеКун об AGI, открытом исходном коде и рисках искусственного интеллекта» . ВРЕМЯ . Проверено 26 июня 2024 г.

[concrete2016-21] Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Амодей, Дарий; Привет, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (21 июня 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [ cs.AI ].

[building2018-22] Перейти обратно: ^а ^б ^с ^д Ортега, Педро А.; Майни, Вишал; Команда безопасности DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификация, надежность и гарантия» . Исследование безопасности DeepMind – средний уровень . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.

[:333-23] Перейти обратно: ^а ^б Рорвиг, Мордехай (14 апреля 2022 г.). «Исследователи получают новое понимание с помощью простого искусственного интеллекта» . Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.

[24] Доши-Велес, Финал; Ким, Бин (2 марта 2017 г.). «К строгой науке интерпретируемого машинного обучения». arXiv : 1702.08608 [ stat.ML ].
Виблин, Роберт (4 августа 2021 г.). «Крис Ола о том, что, черт возьми, происходит внутри нейронных сетей» (Подкаст). 80 000 часов. № 107 . Проверено 23 июля 2022 г.

[33] Виблин, Роберт (4 августа 2021 г.). «Крис Ола о том, что, черт возьми, происходит внутри нейронных сетей» (Подкаст). 80 000 часов. № 107 . Проверено 23 июля 2022 г.

[25] Рассел, Стюарт; Дьюи, Дэниел; Тегмарк, Макс (31 декабря 2015 г.). «Приоритеты исследований надежного и полезного искусственного интеллекта» . Журнал ИИ . 36 (4): 105–114. arXiv : 1602.03506 . дои : 10.1609/aimag.v36i4.2577 . hdl : 1721.1/108478 . ISSN 2371-9621 . S2CID 8174496 . Архивировано из оригинала 2 февраля 2023 года . Проверено 12 сентября 2022 г.

[prefsurvey2017-26] Перейти обратно: ^а ^б Вирт, Кристиан; Акрур, Риад; Нойманн, Герхард; Фюрнкранц, Йоханнес (2017). «Обзор методов обучения с подкреплением на основе предпочтений». Журнал исследований машинного обучения . 18 (136): 1–46.

[drlfhp-27] Перейти обратно: ^а ^б Кристиано, Пол Ф.; Лейке, Ян; Браун, Том Б.; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Материалы 31-й Международной конференции по нейронным системам обработки информации . НИПС'17. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 4302–4310. ISBN 978-1-5108-6096-4 .

[LessToxic-28] Перейти обратно: ^а ^б ^с ^д ^и ^ж Небеса, Уилл Дуглас (27 января 2022 г.). «Новая версия GPT-3 ведет себя гораздо лучше (и должна быть менее токсичной)» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.

[29] Мохсени, Сина; Ван, Хаотао; Ю, Чжидинг; Сяо, Чаовэй; Ван, Чжанъян; Ядава, Джей (7 марта 2022 г.). «Таксономия безопасности машинного обучения: обзор и учебник». arXiv : 2106.04823 [ cs.LG ].

[30] Клифтон, Джесси (2020). «Сотрудничество, конфликты и преобразующий искусственный интеллект: программа исследований» . Центр долгосрочных рисков . Архивировано из оригинала 1 января 2023 года . Проверено 18 июля 2022 г.
Дефо, Аллан; Бахрах, Йорам; Хэдфилд, Джиллиан; Хорвиц, Эрик; Ларсон, Кейт; Грепель, Тор (6 мая 2021 г.). «Кооперативный ИИ: машины должны научиться находить общий язык» . Природа . 593 (7857): 33–36. Бибкод : 2021Natur.593...33D . дои : 10.1038/d41586-021-01170-0 . ISSN 0028-0836 . ПМИД 33947992 . S2CID 233740521 . Архивировано из оригинала 18 декабря 2022 года . Проверено 12 сентября 2022 г.

[40] Дефо, Аллан; Бахрах, Йорам; Хэдфилд, Джиллиан; Хорвиц, Эрик; Ларсон, Кейт; Грепель, Тор (6 мая 2021 г.). «Кооперативный ИИ: машины должны научиться находить общий язык» . Природа . 593 (7857): 33–36. Бибкод : 2021Natur.593...33D . дои : 10.1038/d41586-021-01170-0 . ISSN 0028-0836 . ПМИД 33947992 . S2CID 233740521 . Архивировано из оригинала 18 декабря 2022 года . Проверено 12 сентября 2022 г.

[31] Прункл, Карина; Уиттлстоун, Джесс (7 февраля 2020 г.). «За пределами краткосрочной и долгосрочной перспективы» . Материалы конференции AAAI/ACM по искусственному интеллекту, этике и обществу . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 138–143. дои : 10.1145/3375627.3375803 . ISBN 978-1-4503-7110-0 . S2CID 210164673 . Архивировано из оригинала 16 октября 2022 года . Проверено 12 сентября 2022 г.

[:4-32] Перейти обратно: ^а ^б ^с ^д Ирвинг, Джеффри; Аскелл, Аманда (19 февраля 2019 г.). «Безопасность искусственного интеллекта требует ученых-социологов» . Дистиллировать . 4 (2): 10.23915/distill.00014. дои : 10.23915/distill.00014 . ISSN 2476-0757 . S2CID 159180422 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[36] Брингсйорд, Сельмер и Говиндараджулу, Навин Сундар, «Искусственный интеллект» , Стэнфордская энциклопедия философии (выпуск лета 2020 г.), Эдвард Н. Залта (ред.)

[quanta_alphazero-37] «Почему у искусственного интеллекта AlphaZero проблемы с реальным миром» . Журнал Кванта . 2018 . Проверено 20 июня 2020 г.

[quanta_problem-38] Волчовер, Натали (30 января 2020 г.). «Искусственный интеллект сделает то, что мы просим. Это проблема» . Журнал Кванта . Проверено 21 июня 2020 г.

[39] Бык, Ларри. «Об эволюционных вычислениях на основе моделей». Мягкие вычисления 3, вып. 2 (1999): 76-82.

[Wiener1960-40] Перейти обратно: ^а ^б Винер, Норберт (6 мая 1960 г.). «Некоторые моральные и технические последствия автоматизации: по мере обучения машины могут разрабатывать непредвиденные стратегии со скоростью, которая сбивает с толку их программистов» . Наука . 131 (3410): 1355–1358. дои : 10.1126/science.131.3410.1355 . ISSN 0036-8075 . ПМИД 17841602 . S2CID 30855376 . Архивировано из оригинала 15 октября 2022 года . Проверено 12 сентября 2022 г.

[Gabriel2020-41] Перейти обратно: ^а ^б ^с ^д Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность» . Разум и машины . 30 (3): 411–437. arXiv : 2001.09768 . дои : 10.1007/s11023-020-09539-2 . ISSN 1572-8641 . S2CID 210920551 .

[42] Шоу Эзры Кляйна (4 июня 2021 г.). «Если «все модели неверны», почему мы даем им столько власти?» . Нью-Йорк Таймс . ISSN 0362-4331 . Архивировано из оригинала 15 февраля 2023 года . Проверено 13 марта 2023 г.
Волчовер, Натали (21 апреля 2015 г.). «Опасения пионера искусственного интеллекта» . Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 марта 2023 г.

Ассамблея Калифорнии. «Текст законопроекта – ACR-215 23 принципа Asilomar AI» . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.

[50] Волчовер, Натали (21 апреля 2015 г.). «Опасения пионера искусственного интеллекта» . Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 марта 2023 г.

[51] Ассамблея Калифорнии. «Текст законопроекта – ACR-215 23 принципа Asilomar AI» . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.

[MasteringLanguage-43] Перейти обратно: ^а ^б Джонсон, Стивен; Изиев Никита (15 апреля 2022 г.). «ИИ осваивает язык. Стоит ли доверять тому, что он говорит?» . Нью-Йорк Таймс . ISSN 0362-4331 . Архивировано из оригинала 24 ноября 2022 года . Проверено 18 июля 2022 г.

[44] ОпенАИ. «Разработка безопасного и ответственного ИИ» . Проверено 13 марта 2023 г.
«Исследование безопасности DeepMind» . Середина . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 марта 2023 г.

[54] «Исследование безопасности DeepMind» . Середина . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 марта 2023 г.

[Unsolved2022-45] Перейти обратно: ^а ^б ^с ^д ^и ^ж Хендрикс, Дэн; Карлини, Николас; Шульман, Джон; Стейнхардт, Джейкоб (16 июня 2022 г.). «Нерешенные проблемы безопасности ОД». arXiv : 2109.13916 [ cs.LG ].

[46] Рассел, Стюарт Дж.; Норвиг, Питер (2022). Искусственный интеллект: современный подход (4-е изд.). Пирсон. стр. 4–5. ISBN 978-1-292-40113-3 . ОСЛК 1303900751 .

[SpecGaming2020-47] Перейти обратно: ^а ^б ^с ^д ^и Краковна, Виктория; Уэсато, Джонатан; Микулик Владимир; Рахц, Мэтью; Эверитт, Том; Кумар, Рамана; Кентон, Зак; Лейке, Ян; Легг, Шейн (21 апреля 2020 г.). «Спецификация игр: обратная сторона изобретательности ИИ» . Глубокий разум . Архивировано из оригинала 10 февраля 2023 года . Проверено 26 августа 2022 г.

[:111-48] Манхейм, Дэвид; Гаррабрант, Скотт (2018). «Классификация вариантов закона Гудхарта». arXiv : 1803.04585 [ cs.AI ].

[lfhp2017-49] Перейти обратно: ^а ^б ^с Амодей, Дарио; Кристиано, Пол; Рэй, Алекс (13 июня 2017 г.). «Изучение человеческих предпочтений» . ОпенАИ . Архивировано из оригинала 3 января 2021 года . Проверено 21 июля 2022 г.

[50] «Спецификация игровых примеров в AI — основной список — Google Drive» . docs.google.com .

[51] Кларк, Джек; Амодей, Дарио (21 декабря 2016 г.). «Неверные функции вознаграждения в дикой природе» . openai.com . Проверено 30 декабря 2023 г.

[TruthfulQA-52] Перейти обратно: ^а ^б ^с Лин, Стефани; Хилтон, Джейкоб; Эванс, Оуайн (2022). «TruthfulQA: измерение того, как модели имитируют человеческую ложь» . Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Дублин, Ирландия: Ассоциация компьютерной лингвистики: 3214–3252. arXiv : 2109.07958 . doi : 10.18653/v1/2022.acl-long.229 . S2CID 237532606 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[Naughton2021-53] Перейти обратно: ^а ^б ^с Нотон, Джон (2 октября 2021 г.). «Правда об искусственном интеллекте? Это не так уж честно» . Наблюдатель . ISSN 0029-7712 . Архивировано из оригинала 13 февраля 2023 года . Проверено 23 июля 2022 г.

[54] Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Мадто, Андреа; Фунг, Паскаль (1 февраля 2022 г.). «Обзор галлюцинаций в процессе генерации естественного языка» . Обзоры вычислительной техники ACM . 55 (12): 1–38. arXiv : 2202.03629 . дои : 10.1145/3571730 . S2CID 246652372 . Архивировано из оригинала 10 февраля 2023 года . Проверено 14 октября 2022 г.
Еще, Холли (12 января 2023 г.). «Рефераты, написанные ChatGPT, дурачат учёных» . Природа . 613 (7944): 423. Бибкод : 2023Natur.613..423E . дои : 10.1038/d41586-023-00056-7 . ПМИД 36635510 . S2CID 255773668 .

[65] Еще, Холли (12 января 2023 г.). «Рефераты, написанные ChatGPT, дурачат учёных» . Природа . 613 (7944): 423. Бибкод : 2023Natur.613..423E . дои : 10.1038/d41586-023-00056-7 . ПМИД 36635510 . S2CID 255773668 .

[55] Рассел, Стюарт. «О мифах и самогоне» . Edge.org . Архивировано из оригинала 10 февраля 2023 года . Проверено 19 июля 2022 г.

[56] Тасиулас, Джон (2019). «Первые шаги к этике роботов и искусственного интеллекта». Журнал практической этики . 7 (1): 61–95.

[:722-57] Уэллс, Джорджия; Дипа Ситхараман; Хорвиц, Джефф (5 ноября 2021 г.). «Плох ли Facebook для вас? Это около 360 миллионов пользователей, как показывают опросы компаний» . Уолл Стрит Джорнал . ISSN 0099-9660 . Архивировано из оригинала 10 февраля 2023 года . Проверено 19 июля 2022 г.

[:822-58] Барретт, Пол М.; Хендрикс, Джастин; Симс, Дж. Грант (сентябрь 2021 г.). Как социальные сети усиливают политическую поляризацию в США и что с этим можно сделать (отчет). Центр бизнеса и прав человека, Нью-Йоркский университет. Архивировано из оригинала 1 февраля 2023 года . Проверено 12 сентября 2022 г.

[59] Шепардсон, Дэвид (24 мая 2018 г.). «Uber отключил экстренное торможение в беспилотном автомобиле: агентство США» . Рейтер . Архивировано из оригинала 10 февраля 2023 года . Проверено 20 июля 2022 г.

[:2622-60] Баум, Сет (1 января 2021 г.). «Обзор проектов общего искусственного интеллекта на предмет этики, рисков и политики 2020 года» . Архивировано из оригинала 10 февраля 2023 года . Проверено 20 июля 2022 г.

[eallm2022-61] Перейти обратно: ^а ^б Ну, Джейсон; Тай, Йи; Боммасани, Риши; Раффель, Колин; Зоф, Баррет; Боржо, Себастьян; Йогатама, Дэни; Босма, Мартин; Чжоу, Денни; Мецлер, Дональд; Чи, Эд Х.; Хашимото, Тацунори; Виньялс, Ориол; Лян, Перси; Дин, Джефф; Федус, Уильям (26 октября 2022 г.). «Новые возможности больших языковых моделей». Труды по исследованиям машинного обучения . arXiv : 2206.07682 . ISSN 2835-8856 .

[:0-62] Перейти обратно: ^а ^б Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования» . Международная конференция по обучению представлениям (ICLR), 2023 г.

[63] Домингес, Даниэль (19 мая 2022 г.). «DeepMind представляет Gato, нового универсального ИИ-агента» . ИнфоQ . Архивировано из оригинала 10 февраля 2023 года . Проверено 9 сентября 2022 г.
Эдвардс, Бен (26 апреля 2022 г.). «ИИ-помощник Adept может просматривать, искать и использовать веб-приложения, как человек» . Арс Техника . Архивировано из оригинала 17 января 2023 года . Проверено 9 сентября 2022 г.

[75] Эдвардс, Бен (26 апреля 2022 г.). «ИИ-помощник Adept может просматривать, искать и использовать веб-приложения, как человек» . Арс Техника . Архивировано из оригинала 17 января 2023 года . Проверено 9 сентября 2022 г.

[64] Грейс, Катя; Стюарт, Харлан; Сандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (5 января 2024 г.), Тысячи авторов ИИ о будущем ИИ , arXiv : 2401.02843

[:2822-65] Грейс, Катя; Сальватье, Джон; Дефо, Аллан; Чжан, Баобао; Эванс, Оуайн (31 июля 2018 г.). «Точка зрения: когда ИИ превзойдет человеческие возможности? Данные экспертов по ИИ» . Журнал исследований искусственного интеллекта . 62 : 729–754. дои : 10.1613/jair.1.11222 . ISSN 1076-9757 . S2CID 8746462 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[:2922-66] Чжан, Баобао; Андерлюнг, Маркус; Кан, Лорен; Дрекслер, Ноэми; Горовиц, Майкл С.; Дефо, Аллан (2 августа 2021 г.). «Этика и управление искусственным интеллектом: данные опроса исследователей машинного обучения» . Журнал исследований искусственного интеллекта . 71 . arXiv : 2105.02117 . дои : 10.1613/jair.1.12895 . ISSN 1076-9757 . S2CID 233740003 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[:1701-67] Институт будущего жизни (22 марта 2023 г.). «Приостановить гигантские эксперименты с искусственным интеллектом: открытое письмо» . Проверено 20 апреля 2023 г.

[68] Ван, Лэй, Чен, Фэн, Цзэюнь, Чжан, Чэнь, Чжиюань, «Обзор автономных агентов на основе большой языковой модели». , Frontiers of Computer Science , 18 (6), arXiv : 2308.11432 , doi : 10.1007/s11704-024-40231-1 , получено 11 февраля 2024 г.

[69] Берглунд, Лукас; Стикленд, Аса Купер; Балешни, Микита; Кауфманн, Макс; Тонг, Мэг; Корбак, Томаш; Кокотайло, Дэниел; Эванс, Оуайн (1 сентября 2023 г.), Вырвано из контекста: об измерении ситуационной осведомленности в магистратуре , arXiv : 2309.00667

[70] Лайне, Рудольф; Мейнке, Александр; Эванс, Оуайн (28 ноября 2023 г.). «К показателю ситуационной осведомленности для студентов LLM» . Семинар NeurIPS 2023 SoLaR .

[:3-71] Перейти обратно: ^а ^б Пан, Александр; Шерн, Чан Джун; Цзоу, Энди; Ли, Натаниэль; Басарт, Стивен; Вудсайд, Томас; Нг, Джонатан; Чжан, Эммонс; Скотт, Дэн; Хендрикс (3 апреля 2023 г.). «Оправдывают ли вознаграждения средства? Измерение компромисса между вознаграждениями и этическим поведением в тесте MACHIAVELLI». Материалы 40-й Международной конференции по машинному обучению . ПМЛР. arXiv : 2304.03279 .

[dllmmwe2022-72] Перейти обратно: ^а ^б ^с ^д Перес, Итан; Рингер, Сэм; Лукошюте, Камиле; Нгуен, Карина; Чен, Эдвин; Хайнер, Скотт; Петтит, Крейг; Олссон, Кэтрин; Кунду, Сандипан; Кадават, Саурав; Джонс, Энди; Чен, Анна; Манн, Бен; Израиль, Брайан; Ситор, Брайан (19 декабря 2022 г.). «Обнаружение поведения языковой модели с помощью оценок, написанных по моделям». arXiv : 2212.09251 [ cs.CL ].

[73] Орсо, Лоран; Армстронг, Стюарт (25 июня 2016 г.). «Безопасно прерываемые агенты» . Материалы тридцать второй конференции по неопределенности в искусственном интеллекте . УАИ'16. Арлингтон, Вирджиния, США: AUAI Press: 557–566. ISBN 978-0-9966431-1-5 .

[Gridworlds-74] Перейти обратно: ^а ^б Лейке, Джон; Мартич, Мильян; Краковна, Виктория; Ортега, Педро А.; Эверитт, Том; Лефранк, Эндрю; Орсо, Лоран; Легг, Шейн (28 ноября 2017 г.). «Сетевые миры безопасности искусственного интеллекта». arXiv : 1711.09883 [ cs.LG ].

[OffSwitch-75] Перейти обратно: ^а ^б ^с ^д Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (19 августа 2017 г.). «Игра с выключателем» . Материалы 26-й Международной совместной конференции по искусственному интеллекту . IJCAI'17. Мельбурн, Австралия: AAAI Press: 220–227. ISBN 978-0-9992411-0-3 .

[optsp-76] Перейти обратно: ^а ^б ^с ^д Тернер, Александр Мэтт; Смит, Логан Риггс; Шах, Рохин; Критч, Эндрю; Тадепалли, Прасад (2021). «Оптимальная политика стремится к власти» . Достижения в области нейронных систем обработки информации .

[77] Тернер, Александр Мэтт; Тадепалли, Прасад (2022). «Люди, принимающие решения с параметрической переориентацией, склонны стремиться к власти» . Достижения в области нейронных систем обработки информации .

[Superintelligence-78] Перейти обратно: ^а ^б ^с ^д ^и Бостром, Ник (2014). Суперинтеллект: пути, опасности, стратегии (1-е изд.). США: Oxford University Press, Inc. ISBN 978-0-19-967811-2 .

[:1-79] Перейти обратно: ^а ^б «Заявление о риске ИИ | CAIS» . www.safe.ai. Проверено 17 июля 2023 г.

[80] Руз, Кевин (30 мая 2023 г.). «ИИ представляет собой «риск исчезновения», предупреждают лидеры отрасли» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 17 июля 2023 г.

[81] Тьюринг, Алан (1951). Разумная техника, еретическая теория (Речь). Лекция, прочитанная «Обществу 51». Манчестер: Цифровой архив Тьюринга. Архивировано из оригинала 26 сентября 2022 года . Проверено 22 июля 2022 г.

[82] Тьюринг, Алан (15 мая 1951 г.). «Могут ли цифровые компьютеры думать?». Автоматические счетные машины . Эпизод 2. Би-би-си. Могут ли цифровые компьютеры думать? .

[:3022-84] Мюльхаузер, Люк (29 января 2016 г.). «Суцкевер на говорящих машинах» . Люк Мюльхаузер . Архивировано из оригинала 27 сентября 2022 года . Проверено 26 августа 2022 г.

[:3122-86] Шанахан, Мюррей (2015). Технологическая сингулярность . Кембридж, Массачусетс. ISBN 978-0-262-33182-1 . OCLC 917889148 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )

[:3322-88] Росси, Франческа. «Как научить машину быть моральной?» . Вашингтон Пост . ISSN 0190-8286 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[:3422-89] Ааронсон, Скотт (17 июня 2022 г.). «Открой ИИ!» . Shtetl-Оптимизированный . Архивировано из оригинала 27 августа 2022 года . Проверено 12 сентября 2022 г.

[:3522-90] Селман, Барт, «Интеллектуальный взрыв: наука или фантастика?» (PDF) , заархивировано (PDF) из оригинала 31 мая 2022 г. , получено 12 сентября 2022 г.

[:3622-91] Макаллестер (10 августа 2014 г.). «Дружественный ИИ и миссия слуг» . Машинные мысли . Архивировано из оригинала 28 сентября 2022 года . Проверено 12 сентября 2022 г.

[:3722-92] Шмидхубер, Юрген (6 марта 2015 г.). «Я Юрген Шмидхубер, AMA!» (Комментарий Реддита) . г/Машинное обучение . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.

[AGISafetyLitReview-93] Перейти обратно: ^а ^б ^с ^д ^и Эверитт, Том; Леа, Гэри; Хаттер, Маркус (21 мая 2018 г.). «Обзор литературы по безопасности AGI». arXiv : 1805.01109 [ cs.AI ].

[:3822-94] Шейн (31 августа 2009 г.). «Финансирование безопасного AGI» . проект ветта . Архивировано из оригинала 10 октября 2022 года . Проверено 12 сентября 2022 г.

[:3922-95] Хорвиц, Эрик (27 июня 2016 г.). «Размышления о безопасности и искусственном интеллекте» (PDF) . Эрик Хорвиц . Архивировано (PDF) из оригинала 10 октября 2022 г. Проверено 20 апреля 2020 г.

[:4022-96] Шолле, Франсуа (8 декабря 2018 г.). «Неправдоподобность интеллектуального взрыва» . Середина . Архивировано из оригинала 22 марта 2021 года . Проверено 26 августа 2022 г.

[:4122-97] Маркус, Гэри (6 июня 2022 г.). «Общий искусственный интеллект не так неизбежен, как вы думаете» . Научный американец . Архивировано из оригинала 15 сентября 2022 года . Проверено 26 августа 2022 г.

[:4322-98] Барбер, Линси (31 июля 2016 г.). «Уф! Руководитель искусственного интеллекта Facebook говорит, что интеллектуальные машины не представляют угрозы для человечества» . СитиАМ . Архивировано из оригинала 26 августа 2022 года . Проверено 26 августа 2022 г.

[99] Эциони, Орен (20 сентября 2016 г.). «Нет, эксперты не считают, что сверхразумный ИИ представляет угрозу человечеству» . Обзор технологий Массачусетского технологического института . Проверено 10 июня 2024 г.

[100] Рошон, Луи-Филипп; Росси, Серджио (27 февраля 2015 г.). Энциклопедия центрального банка . Издательство Эдварда Элгара. ISBN 978-1-78254-744-0 . Архивировано из оригинала 10 февраля 2023 года . Проверено 13 сентября 2022 г.

[101] Нг, Эндрю Ю.; Рассел, Стюарт Дж. (29 июня 2000 г.). «Алгоритмы обучения с обратным подкреплением» . Материалы семнадцатой международной конференции по машинному обучению . ICML '00. Сан-Франциско, Калифорния, США: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1 .

[102] Хэдфилд-Менелл, Дилан; Рассел, Стюарт Дж; Аббель, Питер; Драган, Анка (2016). «Кооперативное обучение с обратным подкреплением». Достижения в области нейронных систем обработки информации . Том. 29. Карран Ассошиэйтс, Инк.

[103] Миндерманн, Сорен; Армстронг, Стюарт (2018). «Бритвы Оккама недостаточно, чтобы сделать вывод о предпочтениях иррациональных агентов». Материалы 32-й международной конференции по нейронным системам обработки информации . НИПС'18. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 5603–5614.

[104] Фюрнкранц, Йоханнес; Хюллермайер, Эйке; Рудин, Синтия; Словинский, Роман; Саннер, Скотт (2014). «Обучение по предпочтениям» . Отчеты Дагштуля . 4 (3). Марк Хербстрит: 27 страниц. дои : 10.4230/DAGREP.4.3.1 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[105] Гао, Лео; Шульман, Джон; Хилтон, Джейкоб (19 октября 2022 г.). «Законы масштабирования для переоптимизации модели вознаграждения». arXiv : 2210.10760 [ cs.LG ].

[106] Андерсон, Мартин (5 апреля 2022 г.). «Опасности использования цитат для аутентификации контента NLG» . Unite.AI . Архивировано из оригинала 10 февраля 2023 года . Проверено 21 июля 2022 г.

[Wiggers2022-107] Перейти обратно: ^а ^б Виггерс, Кайл (5 февраля 2022 г.). «Несмотря на недавний прогресс, чат-ботам на базе искусственного интеллекта еще предстоит пройти долгий путь» . ВенчурБит . Архивировано из оригинала 23 июля 2022 года . Проверено 23 июля 2022 г.

[108] Хендрикс, Дэн; Бернс, Коллин; Басарт, Стивен; Критч, Эндрю; Ли, Джерри; Песня, Заря; Стейнхардт, Джейкоб (24 июля 2021 г.). «Согласование ИИ с общими человеческими ценностями». Международная конференция по обучению представлений . arXiv : 2008.02275 .

[109] Перес, Итан; Хуанг, Шафран; Сонг, Фрэнсис; Кай, Тревор; Кольцо, Роман; Асланидес, Джон; Глезе, Амелия; Макэлис, Нэт; Ирвинг, Джеффри (7 февраля 2022 г.). «Красная команда объединяет языковые модели с языковыми моделями». arXiv : 2202.03286 [ cs.CL ].
Бхаттачарья, Шриджани (14 февраля 2022 г.). «Языковые модели «красной команды» DeepMind с языковыми моделями: что это такое?» . Журнал Analytics India . Архивировано из оригинала 13 февраля 2023 года . Проверено 23 июля 2022 г.

[119] Бхаттачарья, Шриджани (14 февраля 2022 г.). «Языковые модели «красной команды» DeepMind с языковыми моделями: что это такое?» . Журнал Analytics India . Архивировано из оригинала 13 февраля 2023 года . Проверено 23 июля 2022 г.

[110] Андерсон, Майкл; Андерсон, Сьюзен Ли (15 декабря 2007 г.). «Машинная этика: создание этического интеллектуального агента» . Журнал ИИ . 28 (4): 15. дои : 10.1609/aimag.v28i4.2065 . ISSN 2371-9621 . S2CID 17033332 . Проверено 14 марта 2023 г.

[111] Вигель, Винсент (1 декабря 2010 г.). «Венделл Уоллак и Колин Аллен: моральные машины: обучение роботов добру и злу» . Этика и информационные технологии . 12 (4): 359–361. дои : 10.1007/s10676-010-9239-1 . ISSN 1572-8439 . S2CID 30532107 .

[112] Уоллах, Венделл; Аллен, Колин (2009). Моральные машины: обучение роботов правильному и неправильному . Нью-Йорк: Издательство Оксфордского университета. ISBN 978-0-19-537404-9 . Архивировано из оригинала 15 марта 2023 года . Проверено 23 июля 2022 г.

[Phelps2023-114] Перейти обратно: ^а ^б Фелпс, Стив; Рэнсон, Ребекка (2023). «О моделях и жестянщиках - поведенческое экономическое исследование проблем принципала и агента в согласовании ИИ с использованием моделей большого языка». arXiv : 2307.11137 [ cs.AI ].

[115] Макаскилл, Уильям (2022). Чему мы обязаны будущему . Нью-Йорк, штат Нью-Йорк. ISBN 978-1-5416-1862-6 . OCLC 1314633519 . Архивировано из оригинала 14 сентября 2022 года . Проверено 12 сентября 2022 г. {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )

[RecursivelySummarizing-116] Перейти обратно: ^а ^б Ву, Джефф; Оуян, Лонг; Зиглер, Дэниел М.; Стиеннон, Нисан; Лоу, Райан; Лейке, Ян; Кристиано, Пол (27 сентября 2021 г.). «Рекурсивное обобщение книг с обратной связью с людьми». arXiv : 2109.10862 [ cs.CL ].

[117] Пирс, Хаммонд; Ахмад, Балих; Тан, Бенджамин; Долан-Гэвитт, Брендан; Карри, Рамеш (2022). «Спит за клавиатурой? Оценка безопасности кода GitHub Copilot» . Симпозиум IEEE 2022 по безопасности и конфиденциальности (SP) . Сан-Франциско, Калифорния, США: IEEE. стр. 754–768. arXiv : 2108.09293 . дои : 10.1109/SP46214.2022.9833571 . ISBN 978-1-6654-1316-9 . S2CID 245220588 .

[118] Ирвинг, Джеффри; Амодей, Дарио (3 мая 2018 г.). «Безопасность ИИ через дебаты» . ОпенАИ . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.

[sslawe-119] Перейти обратно: ^а ^б Кристиано, Пол; Шлегерис, Бак; Амодей, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [ cs.LG ].

[120] Банцхаф, Вольфганг; Гудман, Эрик; Шенеман, Ли; Трухильо, Леонардо; Ворзель, Билл, ред. (2020). Теория и практика генетического программирования XVII . Генетические и эволюционные вычисления. Чам: Международное издательство Springer. дои : 10.1007/978-3-030-39958-0 . ISBN 978-3-030-39957-3 . S2CID 218531292 . Архивировано из оригинала 15 марта 2023 года . Проверено 23 июля 2022 г.

[121] Виблин, Роберт (2 октября 2018 г.). «Доктор Пол Кристиано о том, как OpenAI разрабатывает реальные решения «проблемы согласования ИИ», и о своем видении того, как человечество будет постепенно передавать принятие решений системам ИИ» (подкаст). 80 000 часов. № 44. Архивировано из оригинала 14 декабря 2022 года . Проверено 23 июля 2022 г.

[122] Леман, Джоэл; Клюн, Джефф; Мишевич, Душан; Адами, Кристоф; Альтенберг, Ли; Болье, Жюли; Бентли, Питер Дж.; Бернард, Сэмюэл; Беслон, Гийом; Брайсон, Дэвид М.; Чейни, Ник (2020). «Удивительная креативность цифровой эволюции: сборник анекдотов от сообществ исследователей эволюционных вычислений и искусственной жизни» . Искусственная жизнь . 26 (2): 274–306. дои : 10.1162/artl_a_00319 . hdl : 10044/1/83343 . ISSN 1064-5462 . ПМИД 32271631 . S2CID 4519185 . Архивировано из оригинала 10 октября 2022 года . Проверено 12 сентября 2022 г.

[saavrm-123] Перейти обратно: ^а ^б Лейке, Ян; Крюгер, Дэвид; Эверитт, Том; Мартич, Мильян; Майни, Вишал; Легг, Шейн (19 ноября 2018 г.). «Масштабируемое согласование агентов посредством моделирования вознаграждения: направление исследований». arXiv : 1811.07871 [ cs.LG ].

[OpenAIApproach-124] Перейти обратно: ^а ^б Лейке, Ян; Шульман, Джон; Ву, Джеффри (24 августа 2022 г.). «Наш подход к исследованию выравнивания» . ОпенАИ . Архивировано из оригинала 15 февраля 2023 года . Проверено 9 сентября 2022 г.

[125] Виггерс, Кайл (23 сентября 2021 г.). «OpenAI представляет модель, которая может суммировать книги любой длины» . ВенчурБит . Архивировано из оригинала 23 июля 2022 года . Проверено 23 июля 2022 г.

[126] Сондерс, Уильям; Да, Кэтрин; Ву, Джефф; Биллс, Стивен; Оуян, Лонг; Уорд, Джонатан; Лейке, Ян (13 июня 2022 г.). «Модели самокритики для помощи оценщикам». arXiv : 2206.05802 [ cs.CL ].
Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; Аскелл, Аманда; Кернион, Джексон; Джонс, Энди; Чен, Анна; Голди, Анна; Мирхосеин, Азалия; Маккиннон, Кэмерон; Чен, Кэрол; Олссон, Кэтрин; Ола, Кристофер; Эрнандес, Дэнни; Drain, Dawn (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [ cs.CL ].

[136] Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; Аскелл, Аманда; Кернион, Джексон; Джонс, Энди; Чен, Анна; Голди, Анна; Мирхосеин, Азалия; Маккиннон, Кэмерон; Чен, Кэрол; Олссон, Кэтрин; Ола, Кристофер; Эрнандес, Дэнни; Drain, Dawn (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [ cs.CL ].

[127] «Введение в супервыравнивание» . openai.com . Проверено 17 июля 2023 г.

[Falsehoods-128] Перейти обратно: ^а ^б ^с Виггерс, Кайл (20 сентября 2021 г.). «Ложь более вероятны в больших языковых моделях» . ВенчурБит . Архивировано из оригинала 4 августа 2022 года . Проверено 23 июля 2022 г.

[129] The Guardian (8 сентября 2020 г.). «Всю эту статью написал робот. Ты уже напуган, человек?» . Хранитель . ISSN 0261-3077 . Архивировано из оригинала 8 сентября 2020 года . Проверено 23 июля 2022 г.
Небеса, Уилл Дуглас (20 июля 2020 г.). «Новый генератор языков OpenAI GPT-3 потрясающе хорош — и совершенно бессмысленен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 25 июля 2020 года . Проверено 23 июля 2022 г.

[140] Небеса, Уилл Дуглас (20 июля 2020 г.). «Новый генератор языков OpenAI GPT-3 потрясающе хорош — и совершенно бессмысленен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 25 июля 2020 года . Проверено 23 июля 2022 г.

[TruthfulAI-130] Перейти обратно: ^а ^б Эванс, Оуайн; Коттон-Барратт, Оуэн; Финнведен, Лукас; Бэйлз, Адам; Балвит, Авиталь; Уиллс, Питер; Ригетти, Лука; Сондерс, Уильям (13 октября 2021 г.). «Правдивый ИИ: развитие и управление ИИ, который не лжет». arXiv : 2110.06674 [ cs.CY ].

[131] Алфорд, Энтони (13 июля 2021 г.). «EleutherAI с открытым исходным кодом, шесть миллиардов параметров, клон GPT-3 GPT-J» . ИнфоQ . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.
Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].

[143] Рэй, Джек В.; Боржо, Себастьян; Кай, Тревор; Милликан, Кэти; Хоффманн, Иордания; Сонг, Фрэнсис; Асланидес, Джон; Хендерсон, Сара; Кольцо, Роман; Янг, Сюзанна; Резерфорд, Элиза; Хенниган, Том; Меник, Джейкоб; Кассирер, Альбин; Пауэлл, Ричард (21 января 2022 г.). «Масштабирование языковых моделей: методы, анализ и выводы из обучения Gopher». arXiv : 2112.11446 [ cs.CL ].

[132] Накано, Рейитиро; Хилтон, Джейкоб; Баладжи, Сучир; Ву, Джефф; Оуян, Лонг; Ким, Кристина; Гессен, Кристофер; Джайн, Шантану; Косараджу, Винет; Сондерс, Уильям; Цзян, Сюй; Коббе, Карл; Элунду, Тайна; Крюгер, Гретхен; Баттон, Кевин (1 июня 2022 г.). «WebGPT: ответы на вопросы с помощью браузера и обратная связь с людьми». arXiv : 2112.09332 [ cs.CL ].
Кумар, Нитиш (23 декабря 2021 г.). «Исследователи OpenAI находят способы более точно отвечать на открытые вопросы с помощью текстового веб-браузера» . МаркТехПост . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.

Меник, Джейкоб; Требач, Майя; Микулик Владимир; Асланидес, Джон; Сонг, Фрэнсис; Чедвик, Мартин; Глезе, Миа; Янг, Сюзанна; Кэмпбелл-Джиллингем, Люси; Ирвинг, Джеффри; Макалис, Нат (21 марта 2022 г.). «Обучение языковым моделям для подкрепления ответов проверенными цитатами» . ДипМайнд . arXiv : 2203.11147 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[145] Кумар, Нитиш (23 декабря 2021 г.). «Исследователи OpenAI находят способы более точно отвечать на открытые вопросы с помощью текстового веб-браузера» . МаркТехПост . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.

[146] Меник, Джейкоб; Требач, Майя; Микулик Владимир; Асланидес, Джон; Сонг, Фрэнсис; Чедвик, Мартин; Глезе, Миа; Янг, Сюзанна; Кэмпбелл-Джиллингем, Люси; Ирвинг, Джеффри; Макалис, Нат (21 марта 2022 г.). «Обучение языковым моделям для подкрепления ответов проверенными цитатами» . ДипМайнд . arXiv : 2203.11147 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.

[133] Аскелл, Аманда; Бай, Юньтао; Чен, Анна; Слейте, Рассвет; Гангули, Глубокий; Хениган, Том; Джонс, Энди; Джозеф, Николас; Манн, Бен; ДасСарма, Нова; Эльхаге, Нельсон; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; Кернион, Джексон; Ндусс, Камаль (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания» arXiv : 2112.00861 [ cs.CL ].

[134] Кокс, Джозеф (15 марта 2023 г.). «GPT-4 нанял ничего не подозревающего рабочего-кролика, притворившегося человеком с «ослабленным зрением»» . Порок . Проверено 10 апреля 2023 г.

[135] Шерер, Жереми; Балешни, Микита; Хоббхан, Мариус (2023). «Технический отчет: большие языковые модели могут стратегически обманывать своих пользователей, когда они находятся под давлением». arXiv : 2311.07590 [ cs.CL ].

[136] Кентон, Закари; Эверитт, Том; Вайдингер, Лаура; Габриэль, Ясон; Микулик Владимир; Ирвинг, Джеффри (30 марта 2021 г.). «Согласование языковых агентов» . Исследование безопасности DeepMind – средний уровень . Архивировано из оригинала 10 февраля 2023 года . Проверено 23 июля 2022 г.

[137] Парк, Питер С.; Гольдштейн, Саймон; О'Гара, Эйдан; Чен, Майкл; Хендрикс, Дэн (май 2024 г.). «Обман ИИ: обзор примеров, рисков и потенциальных решений» . Узоры . 5 (5): 100988. doi : 10.1016/j.patter.2024.100988 . ISSN 2666-3899 . ПМЦ 11117051 . ПМИД 38800366 .

[138] Маккарти, Джон; Мински, Марвин Л.; Рочестер, Натаниэль; Шеннон, Клод Э. (15 декабря 2006 г.). «Предложение о Дартмутском летнем исследовательском проекте по искусственному интеллекту, 31 августа 1955 г.» . Журнал ИИ . 27 (4): 12. дои : 10.1609/aimag.v27i4.1904 . ISSN 2371-9621 . S2CID 19439915 .

[139] Ван, Лэй, Чен, Фэн, Цзэюнь, Чжан, Чэнь, Чжиюань, «Обзор автономных агентов на основе большой языковой модели». , Frontiers of Computer Science , 18 (6), arXiv : 2308.11432 , doi : 10.1007/s11704-024-40231-1

[140] « Крестный отец искусственного интеллекта» предупреждает о «кошмарном сценарии», когда искусственный интеллект начнет стремиться к власти» . Удача . Проверено 4 мая 2023 г.
«Да, мы обеспокоены экзистенциальным риском искусственного интеллекта» . Обзор технологий Массачусетского технологического института . Проверено 4 мая 2023 г.

[155] «Да, мы обеспокоены экзистенциальным риском искусственного интеллекта» . Обзор технологий Массачусетского технологического института . Проверено 4 мая 2023 г.

[quanta-hide-seek2-141] Орнес, Стивен (18 ноября 2019 г.). «Играя в прятки, машины изобретают новые инструменты» . Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 26 августа 2022 г.

[142] Бейкер, Боуэн; Каничшейдер, Ингмар; Марков, Тодор; Ву, Йи; Пауэлл, Гленн; МакГрю, Боб; Мордач, Игорь (17 сентября 2019 г.). «Экстренное использование инструментов в результате многоагентного взаимодействия» . ОпенАИ . Архивировано из оригинала 25 сентября 2022 года . Проверено 26 августа 2022 г.

[143] Шермер, Майкл (1 марта 2017 г.). «Искусственный интеллект пока не представляет угрозы» . Научный американец . Архивировано из оригинала 1 декабря 2017 года . Проверено 26 августа 2022 г.

[145] Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон (22 июля 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
Ласкин, Майкл; Ван, Лую; О, Чонхёк; Паризотто, Эмилио; Спенсер, Стивен; Штайгервальд, Ричи; Страус, диджей; Хансен, Стивен; Филос, Ангелос; Брукс, Итан; Газо, Максим; Сахни, Химаншу; Сингх, Сатиндер; Мних Владимир (25 октября 2022 г.). «Обучение с подкреплением в контексте с помощью дистилляции алгоритмов». arXiv : 2210.14215 [ cs.LG ].

[160] Ласкин, Майкл; Ван, Лую; О, Чонхёк; Паризотто, Эмилио; Спенсер, Стивен; Штайгервальд, Ричи; Страус, диджей; Хансен, Стивен; Филос, Ангелос; Брукс, Итан; Газо, Максим; Сахни, Химаншу; Сингх, Сатиндер; Мних Владимир (25 октября 2022 г.). «Обучение с подкреплением в контексте с помощью дистилляции алгоритмов». arXiv : 2210.14215 [ cs.LG ].

[GoalMisgeneralization-146] Перейти обратно: ^а ^б ^с Шах, Рохин; Варма, Викрант; Кумар, Рамана; Фуонг, Мэри; Краковна, Виктория; Уэсато, Джонатан; Кентон, Зак (2 ноября 2022 г.). «Неправильное обобщение цели: почему правильных спецификаций недостаточно для правильных целей» . Середина . arXiv : 2210.01790 . Проверено 2 апреля 2023 г.

[rloamls-147] Перейти обратно: ^а ^б Хубингер, Эван; ван Мервейк, Крис; Микулик Владимир; Скальсе, Йоар; Гаррабрант, Скотт (1 декабря 2021 г.). «Риски, связанные с изученной оптимизацией в передовых системах машинного обучения». arXiv : 1906.01820 [ cs.AI ].

[148] Чжан, Сяогэ; Чан, Феликс Т.С.; Ян, Чао; Бозе, Индранил (2022). «На пути к системам искусственного интеллекта и машинного обучения, осознающим риски: обзор» . Системы поддержки принятия решений . 159 : 113800. doi : 10.1016/j.dss.2022.113800 . S2CID 248585546 .

[149] Демский, Абрам; Скретч, Скотт (6 октября 2020 г.). «Встроенное агентство». arXiv : 1902.09469 [ cs.AI ].

[causal_influence2-150] Перейти обратно: ^а ^б Эверитт, Том; Ортега, Педро А.; Барнс, Элизабет; Легг, Шейн (6 сентября 2019 г.). «Понимание стимулов агентов с использованием диаграмм причинно-следственного влияния. Часть I: Настройки одного действия». arXiv : 1902.09980 [ cs.AI ].

[:323-151] Коэн, Майкл К.; Хаттер, Маркус; Осборн, Майкл А. (29 августа 2022 г.). «Продвинутые искусственные агенты вмешиваются в предоставление вознаграждения» . Журнал ИИ . 43 (3): 282–293. дои : 10.1002/aaai.12064 . ISSN 0738-4602 . S2CID 235489158 . Архивировано из оригинала 10 февраля 2023 года . Проверено 6 сентября 2022 г.

[Hadfield-Menell2019-152] Хэдфилд-Менелл, Дилан; Хэдфилд, Джиллиан К. (2019). «Неполное заключение контрактов и согласование ИИ». Материалы конференции AAAI/ACM 2019 года по искусственному интеллекту, этике и обществу . стр. 417–422.

[Hanson2019-153] Хэнсон, Робин (10 апреля 2019 г.). «Провал агентства или апокалипсис искусственного интеллекта?» . Преодоление предвзятости . Проверено 20 сентября 2023 г.

[154] «Доклад Генерального секретаря ООН «Наша общая повестка дня» » . 2021. с. 63. Архивировано из оригинала 16 февраля 2023 года. [T]he Compact также может способствовать регулированию искусственного интеллекта, чтобы гарантировать его соответствие общим глобальным ценностям.

[155] Национальный комитет специалистов по управлению искусственным интеллектом нового поколения (12 октября 2021 г.) [25 сентября 2021 г.]. «Обнародованы этические нормы для искусственного интеллекта нового поколения» . Перевод Центра безопасности и новых технологий . Архивировано из оригинала 10 февраля 2023 года.

[156] Ричардсон, Тим (22 сентября 2021 г.). «Великобритания публикует Национальную стратегию искусственного интеллекта» . Регистр . Архивировано из оригинала 10 февраля 2023 года . Проверено 14 ноября 2021 г.

[157] «Национальная стратегия Великобритании в области искусственного интеллекта» . 2021. Архивировано из оригинала 10 февраля 2023 года. Правительство серьезно относится к долгосрочным рискам, связанным с неприсоединившимся искусственным общим интеллектом, и к непредвиденным изменениям, которые это будет означать для Великобритании и всего мира.

[158] «Национальная стратегия Великобритании в области искусственного интеллекта» . 2021. Действия 9 и 10 раздела «Направление 3 – Эффективное управление ИИ». Архивировано из оригинала 10 февраля 2023 года.

[159] Итоговый отчет NSCAI (PDF) . Вашингтон, округ Колумбия: Комиссия национальной безопасности по искусственному интеллекту. 2021. Архивировано (PDF) из оригинала 15 февраля 2023 года . Проверено 17 октября 2022 г.

[160] Роберт Ли По (2023). «Почему справедливые автоматизированные системы найма нарушают закон ЕС о недискриминации». arXiv : 2311.03900 [ cs.CY ].

[161] Де Вос, Марк (2020). «Европейский суд и движение к реальному равенству в антидискриминационном законодательстве Европейского Союза» . Международный журнал дискриминации и закона . 20 : 62–87. дои : 10.1177/1358229120927947 .

[162] Ирвинг, Джеффри; Аскелл, Аманда (9 июня 2016 г.). «Число Черна в моделях Изинга с пространственно модулированными действительными и комплексными полями». Физический обзор А. 94 (5): 052113. arXiv : 1606.03535 . Бибкод : 2016PhRvA..94e2113L . дои : 10.1103/PhysRevA.94.052113 . S2CID 118699363 .

[163] Мителут, Каталин; Смит, Бен; Вамплью, Питер (30 мая 2023 г.), Системы искусственного интеллекта, ориентированные на цели, истощают человеческую свободу действий: необходимость исследований фондов агентств в области безопасности искусственного интеллекта , arXiv : 2305.19223

[164] Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность» . Разум и машины . 30 (3): 411–437. arXiv : 2001.09768 . дои : 10.1007/s11023-020-09539-2 . S2CID 210920551 .

[165] Рассел, Стюарт Дж. (2019). Совместимость с человеком: искусственный интеллект и проблема управления . Случайный дом пингвинов.

[166] Дефо, Аллан (2019). «Политика ИИ: дорожная карта» . Природа .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ а ]

[ б ]

[ с ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ д ]

[ 80 ]

[ и ]

[ 81 ]

[ ж ]

[ 82 ]

[ 83 ]

[ 84 ]

[ 85 ]

[ 86 ]

[ 87 ]

[ 88 ]

[ 89 ]

[ 90 ]

[ 91 ]

[ 92 ]

[ 93 ]

[ 94 ]

[ 95 ]

[ 96 ]

v т и Экзистенциальный риск от искусственного интеллекта
Концепции	ОИИ Выравнивание ИИ Контроль возможностей ИИ Безопасность ИИ Поглощение ИИ Консеквенциализм Эффективный акселерационизм Этика искусственного интеллекта Экзистенциальный риск от общего искусственного интеллекта Дружественный искусственный интеллект Инструментальная конвергенция Интеллектуальный взрыв Долгосрочность Машинная этика Страдание от рисков Суперинтеллект Технологическая особенность
Организации	Центр исследования выравнивания Центр безопасности искусственного интеллекта Центр прикладной рациональности Центр совместимого с человеком искусственного интеллекта Центр изучения экзистенциального риска ЭлеутерAI Институт будущего человечества Институт будущего жизни Гугл ДипМайнд Человечество+ Институт этики и новых технологий Леверхалм Центр будущего разведки Научно-исследовательский институт машинного интеллекта ОпенАИ
Люди	Скотт Александр Сэм Альтман Джошуа Бенджио Ник Бостром Пол Кристиано Эрик Дрекслер Сэм Харрис Стивен Хокинг и Хендрикс Джеффри Хинтон Билл Джой Шейн Легг Илон Маск Стив Омохундро Хью Прайс Мартин Рис Стюарт Дж. Рассел Ян Таллинн Макс Тегмарк Фрэнк Вильчек Roman Yampolskiy Элиэзер Юдковский
Другой	Заявление о риске исчезновения ИИ Совместимость с человеком Открытое письмо об искусственном интеллекте (2015) Наше последнее изобретение Пропасть Суперинтеллект: пути, опасности, стратегии Вы доверяете этому компьютеру? Закон об искусственном интеллекте
Категория