Jump to content

Безопасность ИИ

Безопасность ИИ — это междисциплинарная область, направленная на предотвращение несчастных случаев, неправильного использования или других вредных последствий, возникающих в результате использования систем искусственного интеллекта (ИИ). Он включает в себя машинную этику и согласованность ИИ , целью которых является обеспечение моральности и пользы систем ИИ, а также мониторинг систем ИИ на предмет рисков и повышение их надежности. В этой области особое внимание уделяется экзистенциальным рискам, создаваемым передовыми моделями искусственного интеллекта.

Помимо технических исследований, безопасность ИИ предполагает разработку норм и политик, способствующих безопасности. Он приобрел значительную популярность в 2023 году благодаря быстрому прогрессу в области генеративного искусственного интеллекта и обеспокоенности общественности по поводу потенциальных опасностей, высказанных исследователями и руководителями. Во время Саммита по безопасности искусственного интеллекта 2023 года США и Великобритания создали свои собственные Институты безопасности искусственного интеллекта. Однако исследователи выразили обеспокоенность тем, что меры безопасности ИИ не поспевают за быстрым развитием возможностей ИИ. [1]

Мотивы [ править ]

Ученые обсуждают текущие риски, связанные с сбоями критических систем , [2] предвзятость , [3] и наблюдение с помощью искусственного интеллекта, [4] а также возникающие риски, такие как технологическая безработица , цифровые манипуляции, [5] вооружение, [6] с использованием искусственного интеллекта Кибератаки [7] и биотерроризм . [8] Они также обсуждают спекулятивные риски потери контроля над будущими агентами общего искусственного интеллекта (AGI). [9] или от искусственного интеллекта, обеспечивающего постоянную стабильную диктатуру. [10]

Экзистенциальная безопасность [ править ]

Некоторые способы, с помощью которых продвинутый, смещенный ИИ может попытаться получить больше власти. [11] Поведение, направленное на достижение власти, может возникнуть потому, что власть полезна для достижения практически любой цели. [12] (см. инструментальная конвергенция ).

Некоторые раскритиковали опасения по поводу AGI, например, Эндрю Нг , который в 2015 году сравнил их с «беспокойством по поводу перенаселения Марса, когда мы еще даже не ступили на эту планету». [13] Стюарт Дж. Рассел, с другой стороны, призывает к осторожности, утверждая, что «лучше предвидеть человеческую изобретательность, чем недооценивать ее». [14]

Исследователи ИИ имеют самые разные мнения о серьезности и основных источниках риска, создаваемого технологией ИИ. [15] [16] [17] – хотя опросы показывают, что эксперты серьезно относятся к рискам с серьезными последствиями. В двух опросах исследователей ИИ средний респондент был оптимистичен в отношении ИИ в целом, но с вероятностью 5% предполагал «чрезвычайно плохой (например, вымирание человечества )» исход развитого ИИ. [15] В опросе сообщества специалистов по обработке естественного языка, проведенном в 2022 году , 37% согласились или слабо согласились с тем, что вполне вероятно, что решения ИИ могут привести к катастрофе, которая «по меньшей мере так же плоха, как полномасштабная ядерная война». [18]

История [ править ]

Риски, связанные с ИИ, начали серьезно обсуждаться в начале компьютерной эры :

Более того, если мы движемся в направлении создания машин, которые обучаются и чье поведение изменяется под влиянием опыта, мы должны признать тот факт, что каждая степень независимости, которую мы предоставляем машине, является степенью возможного неповиновения нашим желаниям.

- Норберт Винер (1949) [19]

С 2008 по 2009 год Ассоциация по развитию искусственного интеллекта ( AAAI ) заказала исследование для изучения и устранения потенциальных долгосрочных социальных влияний исследований и разработок ИИ. Группа в целом скептически отнеслась к радикальным взглядам, высказанным авторами научной фантастики, но согласилась, что «дополнительные исследования были бы ценны в отношении методов понимания и проверки диапазона поведения сложных вычислительных систем, чтобы минимизировать неожиданные результаты». [20]

В 2011 году Роман Ямпольский ввёл термин «инженерия безопасности ИИ». [21] на конференции «Философия и теория искусственного интеллекта», [22] перечисляя предыдущие сбои систем ИИ и утверждая, что «частота и серьезность таких событий будут неуклонно увеличиваться по мере того, как ИИ станут более способными». [23]

В 2014 году философ Ник Бостром опубликовал книгу «Суперинтеллект: пути, опасности, стратегии» . Он считает, что рост ОИИ может создать различные социальные проблемы, начиная от вытеснения рабочей силы ИИ, манипулирования политическими и военными структурами и заканчивая даже возможностью вымирания человечества. [24] Его аргумент о том, что будущие продвинутые системы могут представлять угрозу существованию человечества, побудил Илона Маска : [25] Билл Гейтс , [26] и Стивен Хокинг [27] высказывать аналогичные опасения.

В 2015 году десятки экспертов по искусственному интеллекту подписали открытое письмо по искусственному интеллекту, призывающее к исследованию социального воздействия ИИ и намечающее конкретные направления. [28] На сегодняшний день письмо подписали более 8000 человек, включая Янна Лекуна , Шейна Легга , Йошуа Бенджио и Стюарта Рассела .

В том же году группа ученых во главе с профессором Стюартом Расселом основала Центр ИИ, совместимого с человеком, в Калифорнийском университете в Беркли, а Институт будущего жизни выделил 6,5 миллионов долларов в виде грантов на исследования, направленные на «обеспечение искусственного интеллекта (ИИ)». остается безопасным, этичным и полезным». [29]

В 2016 году Управление научно-технической политики Белого дома и Университет Карнеги-Меллона объявили об открытом семинаре по безопасности и контролю искусственного интеллекта. [30] Это был один из четырех семинаров Белого дома, направленных на исследование «преимуществ и недостатков» ИИ. [31] В том же году была опубликована книга «Конкретные проблемы безопасности ИИ» — одна из первых и наиболее влиятельных программ технической безопасности ИИ. [32]

В 2017 году Институт будущего жизни спонсировал конференцию Asilomar по полезному ИИ , на которой более 100 идейных лидеров сформулировали принципы полезного ИИ, в том числе «Избежание гонок: команды, разрабатывающие системы ИИ, должны активно сотрудничать, чтобы избежать нарушения стандартов безопасности». [33]

В 2018 году команда DeepMind Safety обозначила проблемы безопасности ИИ в отношении спецификаций, надежности и гарантий. [34] В следующем году исследователи организовали семинар в ICLR, посвященный этим проблемным областям. [35]

В 2021 году была опубликована книга «Нерешенные проблемы безопасности машинного обучения», в которой изложены направления исследований в области надежности, мониторинга, согласованности и системной безопасности. [36]

В 2023 году Риши Сунак заявил, что хочет, чтобы Великобритания стала «географическим домом глобального регулирования безопасности ИИ» и провела первый глобальный саммит по безопасности ИИ. [37] Саммит по безопасности ИИ состоялся в ноябре 2023 года и был посвящен рискам неправильного использования и потери контроля, связанным с передовыми моделями ИИ. [38]

В 2024 году США и Великобритания заключили новое партнерство в области науки о безопасности ИИ. Меморандум о взаимопонимании был подписан 1 апреля 2024 года министром торговли США Джиной Раймондо и министром технологий Великобритании Мишель Донелан с целью совместной разработки передовых методов тестирования моделей искусственного интеллекта после обязательств, объявленных на саммите по безопасности искусственного интеллекта в Блетчли-Парке в ноябре. [39]

Направление исследований [ править ]

Области исследований в области безопасности ИИ включают надежность, мониторинг и согласованность. [36] [34]

Прочность [ править ]

Состязательная устойчивость [ править ]

Системы искусственного интеллекта часто уязвимы для состязательных примеров или «входных данных для моделей машинного обучения (ML), которые злоумышленник намеренно разработал, чтобы заставить модель совершить ошибку». [40] Например, в 2013 году Сегеди и др. обнаружили, что добавление к изображению определенных незаметных искажений может привести к его ошибочной классификации с высокой степенью достоверности. [41] Это по-прежнему является проблемой нейронных сетей, хотя в недавних работах возмущения обычно достаточно велики, чтобы их можно было заметить. [42] [43] [44]

К изображению можно добавить тщательно созданный шум, чтобы с высокой степенью достоверности его классифицировать неправильно.

Предполагается, что после применения возмущения все изображения справа будут страусами. (Слева) — правильно предсказанный образец, (в центре) примененное возмущение, увеличенное в 10 раз, (справа) состязательный пример. [41]

Состязательная надежность часто связана с безопасностью. [45] Исследователи продемонстрировали, что аудиосигнал можно незаметно изменить, чтобы системы преобразования речи в текст транскрибировали его в любое сообщение, выбранное злоумышленником. [46] Сетевое вторжение [47] и вредоносное ПО [48] системы обнаружения также должны быть устойчивыми к состязанию, поскольку злоумышленники могут планировать свои атаки так, чтобы обмануть детекторы.

Модели, представляющие цели (модели вознаграждения), также должны быть устойчивыми к состязанию. Например, модель вознаграждения может оценивать, насколько полезен текстовый ответ, а языковая модель может быть обучена максимизировать этот показатель. [49] Исследователи показали, что если языковая модель обучается достаточно долго, она будет использовать уязвимости модели вознаграждения для достижения более высоких результатов и худших результатов при выполнении поставленной задачи. [50] Эту проблему можно решить, улучшив состязательную устойчивость модели вознаграждения. [51] В более общем плане любая система ИИ, используемая для оценки другой системы ИИ, должна быть устойчивой к состязанию. Это может включать в себя инструменты мониторинга, поскольку они также потенциально могут быть изменены для получения более высокого вознаграждения. [52]

Мониторинг [ править ]

Оценка неопределенности [ править ]

Операторам-людям часто важно оценить, насколько им следует доверять системе искусственного интеллекта, особенно в таких важных ситуациях, как медицинская диагностика. [53] Модели машинного обучения обычно выражают уверенность путем вывода вероятностей; однако они часто слишком самоуверенны, [54] особенно в ситуациях, которые отличаются от тех, с которыми их учили справляться. [55] Калибровочные исследования направлены на то, чтобы вероятности модели как можно ближе соответствовали истинной пропорции правильности модели.

Аналогичным образом, обнаружение аномалий или обнаружение нарушения распределения (OOD) направлено на выявление того, когда система ИИ находится в необычной ситуации. Например, если датчик на беспилотном транспортном средстве неисправен или он сталкивается со сложной местностью, он должен предупредить водителя о необходимости взять управление на себя или остановиться. [56] Обнаружение аномалий было реализовано путем простого обучения классификатора различению аномальных и неаномальных входных данных. [57] хотя используется ряд дополнительных методов. [58] [59]

Обнаружение злонамеренного использования [ править ]

Ученые [6] и правительственные учреждения выразили обеспокоенность тем, что системы искусственного интеллекта могут быть использованы для помощи злоумышленникам в создании оружия. [60] манипулировать общественным мнением, [61] [62] или автоматизировать кибератаки. [63] Эти опасения представляют собой практическую проблему для таких компаний, как OpenAI, которые размещают в Интернете мощные инструменты искусственного интеллекта. [64] Чтобы предотвратить неправомерное использование, OpenAI создала системы обнаружения, которые помечают или ограничивают пользователей в зависимости от их активности. [65]

Прозрачность [ править ]

Нейронные сети часто называют черными ящиками . [66] Это означает, что трудно понять, почему они принимают те или иные решения в результате огромного количества выполняемых ими вычислений. [67] Это затрудняет прогнозирование неудач. В 2018 году беспилотный автомобиль сбил пешехода, не сумев его опознать. Из-за того, что программное обеспечение ИИ представляет собой «черный ящик», причина сбоя остается неясной. [68] Это также вызывает споры в здравоохранении о том, следует ли использовать статистически эффективные, но непрозрачные модели. [69]

Одним из важнейших преимуществ прозрачности является объяснимость . [70] Иногда по закону требуется предоставить объяснение того, почему было принято решение, чтобы обеспечить справедливость, например, для автоматической фильтрации заявлений о приеме на работу или присвоения кредитного рейтинга . [70]

Еще одним преимуществом является выявление причин сбоев. [66] В начале пандемии COVID-19 2020 года исследователи использовали инструменты прозрачности, чтобы показать, что классификаторы медицинских изображений «обращают внимание» на нерелевантные больничные ярлыки. [71]

Для исправления ошибок также можно использовать методы прозрачности. Например, в статье «Поиск и редактирование фактических ассоциаций в GPT» авторы смогли определить параметры модели, которые повлияли на то, как она отвечала на вопросы о местоположении Эйфелевой башни. Затем они смогли «отредактировать» эти знания, чтобы модель отвечала на вопросы так, как если бы она считала, что башня находится в Риме, а не во Франции. [72] Хотя в данном случае авторы допустили ошибку, эти методы потенциально могут быть использованы для ее эффективного исправления. Методы редактирования моделей также существуют в компьютерном зрении. [73]

Наконец, некоторые утверждают, что непрозрачность систем ИИ является значительным источником риска, и лучшее понимание того, как они функционируют, может предотвратить сбои с серьезными последствиями в будущем. [74] Исследование «внутренней» интерпретируемости направлено на то, чтобы сделать модели машинного обучения менее непрозрачными. Одна из целей этого исследования — определить, что представляют собой внутренние активации нейронов. [75] [76] Например, исследователи идентифицировали в системе искусственного интеллекта CLIP нейрон, который реагирует на изображения людей в костюмах человека-паука, эскизы человека-паука и слово «паук». [77] Это также включает в себя объяснение связей между этими нейронами или «цепями». [78] [79] Например, исследователи выявили механизмы сопоставления шаблонов в трансформирующем внимании, которые могут играть роль в том, как языковые модели обучаются на основе контекста. [80] «Внутреннюю интерпретируемость» сравнивают с нейробиологией. В обоих случаях цель состоит в том, чтобы понять, что происходит в сложной системе, хотя у исследователей МО есть преимущество, заключающееся в том, что они могут проводить точные измерения и выполнять произвольные абляции. [81]

Обнаружение троянов [ править ]

Модели машинного обучения потенциально могут содержать «трояны» или «бэкдоры»: уязвимости, которые злоумышленники намеренно встраивают в систему искусственного интеллекта. Например, зараженная трояном система распознавания лиц может предоставлять доступ, когда в поле зрения находится определенное ювелирное изделие; [36] или же автономное транспортное средство, зараженное трояном, может функционировать нормально до тех пор, пока не будет виден конкретный триггер. [82] Обратите внимание, что для установки трояна злоумышленник должен иметь доступ к обучающим данным системы. [ нужна ссылка ] Это может быть несложно сделать с некоторыми большими моделями, такими как CLIP или GPT-3, поскольку они обучаются на общедоступных данных в Интернете. [83] Исследователям удалось внедрить троян в классификатор изображений, изменив всего 300 из 3 миллионов обучающих изображений. [84] Исследователи утверждают, что трояны не только представляют угрозу безопасности, но и предоставляют конкретные условия для тестирования и разработки более эффективных инструментов мониторинга. [52]

Выравнивание [ править ]

В области искусственного интеллекта (ИИ) исследования по согласованию ИИ направлены на то, чтобы направить системы ИИ в соответствии с намеченными целями, предпочтениями и этическими принципами человека или группы. Система ИИ считается согласованной , если она достигает намеченных целей. система Несогласованная ИИ может преследовать некоторые цели, но не те, которые намечены. [85]

Разработчикам ИИ часто бывает сложно согласовать систему ИИ, поскольку им сложно указать полный спектр желаемого и нежелательного поведения. Поэтому дизайнеры ИИ часто используют более простые прокси-цели , такие как получение одобрения человека . Но такой подход может создавать лазейки, игнорировать необходимые ограничения или вознаграждать систему ИИ за то, что она просто выглядит согласованной. [85] [86]

Неправильно настроенные системы ИИ могут работать со сбоями и причинять вред. Системы искусственного интеллекта могут находить лазейки, которые позволяют им эффективно достигать своих прокси-целей, но непреднамеренными, а иногда и вредными способами ( взлом вознаграждения ). [85] [87] [88] Они также могут развивать нежелательные инструментальные стратегии , такие как стремление к власти или выживанию, потому что такие стратегии помогают им достичь своих конечных целей. [85] [89] [90] Кроме того, они могут разработать нежелательные возникающие цели, которые может быть трудно обнаружить до того, как система будет развернута и столкнется с новыми ситуациями и распределениями данных . [91] [92]

Сегодня эти проблемы затрагивают существующие коммерческие системы, такие как языковые модели, [93] [94] [95] роботы, [96] автономные транспортные средства, [97] и системы рекомендаций в социальных сетях. [93] [90] [98] Некоторые исследователи ИИ утверждают, что более мощные будущие системы пострадают сильнее, поскольку эти проблемы частично возникают из-за того, что системы обладают высокими возможностями. [99] [87] [86]

Многие из наиболее цитируемых ученых в области искусственного интеллекта, [100] [101] [102] в том числе Джеффри Хинтон , Йошуа Бенджио и Стюарт Рассел , утверждают, что ИИ приближается к человеческим ( AGI ) и сверхчеловеческим когнитивным способностям ( ASI ) и может поставить под угрозу человеческую цивилизацию , если его неправильно согласовать. [103] [90]

Согласование ИИ — это подобласть безопасности ИИ, изучение того, как создавать безопасные системы ИИ. [104] Другие области безопасности ИИ включают надежность, мониторинг и контроль возможностей . [105] Исследовательские задачи по согласованию включают в себя внедрение сложных ценностей в ИИ, разработку честного ИИ, масштабируемый надзор, аудит и интерпретацию моделей ИИ, а также предотвращение возникающего поведения ИИ, такого как стремление к власти. [105] Исследование выравнивания связано с исследованием интерпретируемости . [106] [107] (состязательная) устойчивость, [104] обнаружение аномалий , калиброванная неопределенность , [106] официальная проверка , [108] обучение предпочтениям , [109] [110] [111] критическая безопасность техники , [112] теория игр , [113] алгоритмическая справедливость , [104] [114] и социальные науки . [115]

и социотехнические факторы Системная безопасность

Риски ИИ (и технологические риски в целом) обычно классифицируются как неправильное использование или несчастные случаи . [116] Некоторые ученые полагают, что эта основа не соответствует действительности. [116] Например, кубинский ракетный кризис не был явно несчастным случаем или неправильным использованием технологий. [116] Политические аналитики Цветслут и Дефо писали: «Перспективы неправильного использования и несчастных случаев, как правило, сосредотачиваются только на последнем этапе причинно-следственной цепочки, ведущей к вреду: то есть на человеке, который неправильно использовал технологию, или на системе, которая вела себя непреднамеренным образом… Однако зачастую соответствующая причинно-следственная цепочка гораздо длиннее». Риски часто возникают из-за «структурных» или «системных» факторов, таких как конкурентное давление, распространение вреда, быстрое развитие, высокий уровень неопределенности и недостаточная культура безопасности. [116] В более широком контексте техники безопасности структурные факторы, такие как «культура безопасности организации», играют центральную роль в популярной системе анализа рисков STAMP. [117]

Вдохновленные структурной перспективой, некоторые исследователи подчеркивают важность использования машинного обучения для улучшения социотехнических факторов безопасности, например, использования машинного обучения для киберзащиты, улучшения институционального принятия решений и содействия сотрудничеству. [36]

Киберзащита [ править ]

Некоторые учёные обеспокоены тем, что ИИ усугубит и без того несбалансированную игру между киберзлоумышленниками и киберзащитниками. [118] Это увеличит стимулы для «первого удара» и может привести к более агрессивным и дестабилизирующим атакам. Чтобы снизить этот риск, некоторые выступают за усиление внимания к киберзащите. Кроме того, безопасность программного обеспечения необходима для предотвращения кражи и неправильного использования мощных моделей искусственного интеллекта. [6]

решений институционального принятия Улучшение

Развитие ИИ в экономической и военной сферах может спровоцировать беспрецедентные политические проблемы. [119] Некоторые ученые сравнивают динамику гонки ИИ с холодной войной, когда осторожное суждение небольшого числа лиц, принимающих решения, часто приводило к разнице между стабильностью и катастрофой. [120] Исследователи ИИ утверждают, что технологии ИИ также могут использоваться для помощи в принятии решений. [36] Например, исследователи начинают разрабатывать прогнозирование с помощью ИИ. [121] и консультативные системы. [122]

Содействие сотрудничеству [ править ]

Многие из крупнейших глобальных угроз (ядерная война, [123] изменение климата, [124] и т. д.) были сформулированы как проблемы сотрудничества. Как и в хорошо известном сценарии «дилеммы заключенного» , некоторая динамика может привести к плохим результатам для всех игроков, даже если они оптимально действуют в своих собственных интересах. Например, ни у одного действующего лица нет сильных стимулов для решения проблемы изменения климата, даже несмотря на то, что последствия могут быть значительными, если никто не вмешается. [124]

Важной задачей сотрудничества в сфере ИИ является избежание «гонки ко дну». [125] В этом сценарии страны или компании стремятся создать более эффективные системы искусственного интеллекта и пренебрегают безопасностью, что приводит к катастрофической аварии, которая наносит ущерб всем участникам. Обеспокоенность по поводу подобных сценариев вдохновила как политических [126] и технические [127] усилия по облегчению сотрудничества между людьми и, возможно, также между системами искусственного интеллекта. Большинство исследований ИИ сосредоточено на разработке отдельных агентов для выполнения изолированных функций (часто в «одиночных» играх). [128] Ученые предполагают, что по мере того, как системы ИИ становятся более автономными, может возникнуть необходимость в изучении и формировании способов их взаимодействия. [128]

больших Проблемы языковых моделей

В последние годы разработка больших языковых моделей (LM) вызвала уникальные проблемы в области безопасности ИИ. Исследователи Бендер и Гебру и др. [129] подчеркнули экологические и финансовые затраты, связанные с обучением этих моделей, подчеркнув, что потребление энергии и углеродный след процедур обучения, подобных тем, которые используются для моделей Transformer, могут быть значительными. Более того, эти модели часто опираются на массивные, непроверенные наборы данных в Интернете, которые могут кодировать гегемонистские и предвзятые точки зрения, еще больше маргинализируя недостаточно представленные группы. Крупномасштабные данные обучения, хотя и обширны, не гарантируют разнообразия и часто отражают мировоззрение привилегированных слоев населения, что приводит к моделям, которые увековечивают существующие предубеждения и стереотипы. Эта ситуация усугубляется тенденцией этих моделей создавать, казалось бы, связный и беглый текст, который может ввести пользователей в заблуждение, заставляя их приписывать смысл и намерение там, где их нет, - явление, описанное как «стохастические попугаи». Таким образом, эти модели создают риск усиления социальных предубеждений, распространения дезинформации и использования в злонамеренных целях, таких как создание экстремистской пропаганды или дипфейков. Чтобы решить эти проблемы, исследователи выступают за более тщательное планирование создания наборов данных и разработки систем, подчеркивая необходимость исследовательских проектов, которые вносят положительный вклад в создание справедливой технологической экосистемы. [130] [131]

В управлении [ править ]

Саммит по безопасности ИИ в ноябре 2023 г. [132]

Управление ИИ в целом связано с созданием норм, стандартов и правил, регулирующих использование и развитие систем ИИ. [120]

Исследования [ править ]

Исследования в области управления безопасностью ИИ варьируются от фундаментальных исследований потенциального воздействия ИИ до конкретных приложений. Что касается фундаментальной стороны, исследователи утверждают, что ИИ может изменить многие аспекты жизни общества благодаря своей широкой применимости, сравнивая его с электричеством и паровым двигателем. [133] Некоторые работы были сосредоточены на прогнозировании конкретных рисков, которые могут возникнуть в результате этих воздействий – например, рисков массовой безработицы, [134] вооружение, [135] дезинформация, [136] наблюдение, [137] и концентрация власти. [138] Другая работа исследует основные факторы риска, такие как сложность мониторинга быстро развивающейся индустрии искусственного интеллекта, [139] наличие моделей ИИ, [140] и динамика «гонки ко дну». [125] [141] Аллан Дефо, руководитель отдела долгосрочного управления и стратегии DeepMind, подчеркнул опасность гонок и потенциальную необходимость сотрудничества: «Может быть, необходимым и достаточным условием для безопасности и согласованности ИИ является высокая степень осторожности перед к развертыванию передовых мощных систем; однако, если участники конкурируют в области с большой отдачей первопроходцам или относительным преимуществом, тогда они будут вынуждены выбрать неоптимальный уровень осторожности». [126] Направление исследований сосредоточено на разработке подходов, рамок и методов оценки подотчетности ИИ, руководстве и продвижении аудитов систем на основе ИИ. [142] [143] [144]

местных мер безопасности ИИ до глобальных Масштабирование решений

При решении проблемы безопасности ИИ важно подчеркнуть различие между локальными и глобальными решениями. Локальные решения ориентированы на отдельные системы ИИ, обеспечивая их безопасность и полезность, в то время как глобальные решения направлены на внедрение мер безопасности для всех систем ИИ в различных юрисдикциях. Некоторые исследователи [145] аргументируют необходимость масштабирования местных мер безопасности на глобальный уровень, предлагая классификацию этих глобальных решений. Такой подход подчеркивает важность совместных усилий в международном управлении безопасностью ИИ, подчеркивая, что ни одна организация не может эффективно управлять рисками, связанными с технологиями ИИ. Эта перспектива согласуется с постоянными усилиями в области разработки международной политики и нормативно-правовой базы, которые направлены на решение сложных проблем, создаваемых передовыми системами искусственного интеллекта во всем мире. [146] [147]

правительства Действия

Некоторые эксперты утверждают, что еще слишком рано регулировать ИИ, выражая обеспокоенность тем, что регулирование будет препятствовать инновациям, и было бы глупо «торопиться регулировать в невежестве». [148] [149] Другие, такие как бизнес-магнат Илон Маск , призывают к упреждающим действиям для смягчения катастрофических рисков. [150]

Помимо официального законодательства, правительственные учреждения выдвинули рекомендации по этике и безопасности. В марте 2021 года Комиссия национальной безопасности США по искусственному интеллекту сообщила, что достижения в области искусственного интеллекта могут сделать все более важным «гарантировать, что системы соответствуют целям и ценностям, включая безопасность, надежность и надежность». [151] Впоследствии Национальный институт стандартов и технологий разработал структуру управления рисками ИИ, которая рекомендует, чтобы при «присутствии катастрофических рисков разработка и развертывание должны быть прекращены безопасным образом до тех пор, пока риски не будут в достаточной степени управляться». [152]

В сентябре 2021 года Китайская Народная Республика опубликовала этические рекомендации по использованию ИИ в Китае, подчеркнув, что решения, связанные с ИИ, должны оставаться под контролем человека, и призвав к созданию механизмов подотчетности. В том же месяце Великобритания опубликовала свою 10-летнюю Национальную стратегию в области искусственного интеллекта. [153] в котором говорится, что британское правительство «серьезно принимает на себя долгосрочный риск неприсоединившегося общего искусственного интеллекта и непредвиденных изменений, которые это будет означать для… мира». [154] В стратегии описаны действия по оценке долгосрочных рисков ИИ, включая катастрофические риски. [154] Британское правительство провело первый крупный глобальный саммит по безопасности ИИ. Это произошло 1 и 2 ноября 2023 года и было описано как «возможность для политиков и мировых лидеров рассмотреть непосредственные и будущие риски ИИ и то, как эти риски можно смягчить с помощью глобально скоординированного подхода». [155] [156]

Правительственные организации, особенно в США, также поощряют развитие технических исследований безопасности ИИ. Деятельность по перспективным исследовательским проектам в области разведки инициировала проект TrojAI для выявления и защиты от троянских атак на системы искусственного интеллекта. [157] DARPA состязательным занимается исследованиями в области объяснимого искусственного интеллекта и повышения устойчивости к атакам . [158] [159] А Национальный научный фонд поддерживает Центр надежного машинного обучения и предоставляет миллионы долларов на финансирование эмпирических исследований безопасности ИИ. [160]

В 2024 году Генеральная Ассамблея Организации Объединенных Наций приняла первую глобальную резолюцию о продвижении «безопасных, надежных и надежных» систем ИИ, в которой подчеркивалось уважение, защита и поощрение прав человека при проектировании, разработке, внедрении и использовании ИИ. [161]

В мае 2024 года Министерство науки, инноваций и технологий (DSIT) объявило о выделении 8,5 миллионов фунтов стерлингов на исследования в области безопасности ИИ в рамках Программы быстрых грантов Systemic AI Safety, возглавляемой Кристофером Саммерфилдом и Шахаром Авином из Института безопасности ИИ в партнерстве с Британские исследования и инновации . Министр технологий Мишель Донелан объявила об этом плане на саммите AI в Сеуле , заявив, что цель состоит в том, чтобы сделать ИИ безопасным для всего общества и что многообещающие предложения могут получить дальнейшее финансирование. Великобритания также подписала соглашение с 10 другими странами и ЕС о формировании международной сети институтов безопасности ИИ для содействия сотрудничеству и обмену информацией и ресурсами. Кроме того, Британский институт безопасности искусственного интеллекта планировал открыть офис в Сан-Франциско. [162]

Корпоративное саморегулирование [ править ]

Лаборатории и компании, занимающиеся искусственным интеллектом, обычно соблюдают правила и нормы безопасности, выходящие за рамки формального законодательства. [163] Одной из целей исследователей управления является формирование этих норм. Примеры рекомендаций по безопасности, найденные в литературе, включают проведение независимого аудита, [164] предлагая награды за обнаружение неудач, [164] делиться инцидентами с искусственным интеллектом [164] (для этого создана база данных инцидентов ИИ), [165] следуя рекомендациям, чтобы определить, следует ли публиковать исследования или модели, [140] и улучшение информационной и кибербезопасности в лабораториях искусственного интеллекта. [166] Подходы к саморегулированию, иногда предлагаемые компаниями AGI, часто подвергаются критике как неэффективные и противоречащие их стимулам. [167]

Компании также взяли на себя обязательства. Cohere, OpenAI и AI21 предложили и согласовали «лучшие практики по развертыванию языковых моделей», уделив особое внимание предотвращению злоупотреблений. [168] Чтобы не способствовать гоночной динамике, OpenAI также заявила в своем уставе, что «если проект, ориентированный на ценность и безопасность, приближается к созданию AGI раньше, чем мы, мы обязуемся прекратить конкурировать с этим проектом и начать помогать этому проекту». [169] Кроме того, такие лидеры отрасли, как генеральный директор DeepMind Демис Хассабис и директор Facebook AI Ян Лекун, подписали открытые письма, такие как «Принципы Асиломара». [33] и Открытое письмо по автономному оружию. [170]

См. также [ править ]

Ссылки [ править ]

  1. ^ Перриго, Билли (2 ноября 2023 г.). «Британский саммит по безопасности искусственного интеллекта завершился ограниченным, но значимым прогрессом» . Время . Проверено 2 июня 2024 г.
  2. ^ Де-Артеага, Мария (13 мая 2020 г.). Машинное обучение в условиях высоких ставок: риски и возможности (доктор философии). Университет Карнеги-Меллон.
  3. ^ Мехраби, Нинаре; Морстаттер, Фред; Саксена, Нрипсута; Лерман, Кристина; Галстян, Арам (2021). «Опрос предвзятости и справедливости в машинном обучении» . Обзоры вычислительной техники ACM . 54 (6): 1–35. arXiv : 1908.09635 . дои : 10.1145/3457607 . ISSN   0360-0300 . S2CID   201666566 . Архивировано из оригинала 23 ноября 2022 г. Проверено 28 ноября 2022 г.
  4. ^ Фельдштейн, Стивен (2019). Глобальное расширение наблюдения с помощью искусственного интеллекта (отчет). Фонд Карнеги за международный мир.
  5. ^ Барнс, Бет (2021). «Риски, связанные с убеждением ИИ» . Менее неправильно . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  6. Перейти обратно: Перейти обратно: а б с Брандейдж, Майлз; Авин, Шахар; Кларк, Джек; Тонер, Хелен; Экерсли, Питер; Гарфинкель, Бен; Дефо, Аллан; Шарре, Пол; Зейтцов, Томас; Филар, Бобби; Андерсон, Хайрам; Рофф, Хизер; Аллен, Грегори С; Стейнхардт, Джейкоб; Флинн, Каррик (30 апреля 2018 г.). «Злонамеренное использование искусственного интеллекта: прогнозирование, предотвращение и смягчение последствий» . Репозиторий Аполло-Кембриджского университета, Репозиторий Аполло-Кембриджского университета. Apollo - Репозиторий Кембриджского университета. дои : 10.17863/cam.22520 . S2CID   3385567 . Архивировано из оригинала 23 ноября 2022 г. Проверено 28 ноября 2022 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  7. ^ Дэвис, Паскаль (26 декабря 2022 г.). «Как НАТО готовится к новой эре кибератак с использованием ИИ» . Евроньюс . Проверено 23 марта 2024 г.
  8. ^ Ахуджа, Анжана (7 февраля 2024 г.). «Не следует исключать биотеррористический потенциал ИИ» . Файнэншл Таймс . Проверено 23 марта 2024 г.
  9. ^ Карлсмит, Джозеф (16 июня 2022 г.). «Является ли ИИ, стремящийся к власти, экзистенциальным риском?». arXiv : 2206.13353 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  10. ^ Минарди, Ди (16 октября 2020 г.). «Мрачная судьба, которая может быть хуже вымирания » . Би-би-си . Проверено 23 марта 2024 г.
  11. ^ Карлсмит, Джозеф (16 июня 2022 г.). «Является ли ИИ, стремящийся к власти, экзистенциальным риском?». arXiv : 2206.13353 [ cs.CY ].
  12. ^ « Крестный отец искусственного интеллекта» предупреждает о «кошмарном сценарии», когда искусственный интеллект начнет стремиться к власти» . Удача . Проверено 10 июня 2023 г.
  13. ^ «Эксперт AGI Питер Восс говорит, что проблема выравнивания ИИ — фальшивка | NextBigFuture.com» . 04.04.2023 . Проверено 23 июля 2023 г.
  14. ^ Дефо, Аллан (2016). «Да, мы обеспокоены экзистенциальным риском искусственного интеллекта» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 28 ноября 2022 г. Проверено 28 ноября 2022 г.
  15. Перейти обратно: Перейти обратно: а б Грейс, Катя; Сальватье, Джон; Дефо, Аллан; Чжан, Баобао; Эванс, Оуайн (31 июля 2018 г.). «Точка зрения: когда ИИ превзойдет человеческие возможности? Данные экспертов по ИИ» . Журнал исследований искусственного интеллекта . 62 : 729–754. дои : 10.1613/jair.1.11222 . ISSN   1076-9757 . S2CID   8746462 . Архивировано из оригинала 10 февраля 2023 г. Проверено 28 ноября 2022 г.
  16. ^ Чжан, Баобао; Андерлюнг, Маркус; Кан, Лорен; Дрекслер, Ноэми; Горовиц, Майкл С.; Дефо, Аллан (5 мая 2021 г.). «Этика и управление искусственным интеллектом: данные опроса исследователей машинного обучения». Журнал исследований искусственного интеллекта . 71 . arXiv : 2105.02117 . дои : 10.1613/jair.1.12895 .
  17. ^ Стейн-Перлман, Зак; Вайнштейн-Раун, Бенджамин; Грейс (04 августа 2022 г.). «Экспертный опрос 2022 года о прогрессе в области искусственного интеллекта» . Влияние ИИ . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  18. ^ Майкл, Джулиан; Хольцман, Ари ; Пэрриш, Алисия; Мюллер, Аарон; Ван, Алекс; Чен, Анжелика; Мадаан, Дивьям; Нангия, Никита; Панг, Ричард Юаньчжэ; Пханг, Джейсон; Боуман, Сэмюэл Р. (26 августа 2022 г.). «Во что верят исследователи НЛП? Результаты метаопроса сообщества НЛП». Ассоциация компьютерной лингвистики . arXiv : 2208.12852 .
  19. ^ Маркофф, Джон (20 мая 2013 г.). «В 1949 году он представил себе эпоху роботов» . Нью-Йорк Таймс . ISSN   0362-4331 . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  20. ^ Ассоциация по развитию искусственного интеллекта. «Президентская комиссия AAAI по долгосрочному будущему искусственного интеллекта» . Архивировано из оригинала 01 сентября 2022 г. Проверено 23 ноября 2022 г.
  21. ^ Ямпольский, Роман В.; Проверка орфографии, MS (25 октября 2016 г.). «Безопасность искусственного интеллекта и кибербезопасность: хронология сбоев ИИ». arXiv : 1610.07997 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  22. ^ «PT-AI 2011 – Философия и теория искусственного интеллекта (PT-AI 2011)» . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  23. ^ Ямпольский, Роман В. (2013), Мюллер, Винсент К. (редактор), «Инженерия безопасности с использованием искусственного интеллекта: почему машинная этика — неправильный подход» , Философия и теория искусственного интеллекта , Исследования в области прикладной философии, эпистемологии и рациональной этики , том. 5, Берлин; Гейдельберг, Германия: Springer Berlin Heidelberg, стр. 389–396, doi : 10.1007/978-3-642-31674-6_29 , ISBN  978-3-642-31673-9 , заархивировано из оригинала 15 марта 2023 г. , получено 23 ноября 2022 г.
  24. ^ Маклин, Скотт; Прочтите, Джемма Дж. М.; Томпсон, Джейсон; Бабер, Крис; Стэнтон, Невилл А.; Салмон, Пол М. (04 июля 2023 г.). «Риски, связанные с общим искусственным интеллектом: систематический обзор» . Журнал экспериментального и теоретического искусственного интеллекта . 35 (5): 649–663. Бибкод : 2023JETAI..35..649M . дои : 10.1080/0952813X.2021.1964003 . hdl : 11343/289595 . ISSN   0952-813X . S2CID   238643957 .
  25. ^ Уайл, Роб (3 августа 2014 г.). «Илон Маск: искусственный интеллект «потенциально более опасен, чем ядерное оружие» » . Бизнес-инсайдер . Проверено 22 февраля 2024 г.
  26. ^ Куо, Кайзер (31 марта 2015 г.). Генеральный директор Baidu Робин Ли берет интервью у Билла Гейтса и Илона Маска на форуме в Боао, 29 марта 2015 года . Событие происходит в 55:49. Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  27. ^ Селлан-Джонс, Рори (2 декабря 2014 г.). «Стивен Хокинг предупреждает, что искусственный интеллект может положить конец человечеству» . Новости Би-би-си . Архивировано из оригинала 30 октября 2015 г. Проверено 23 ноября 2022 г.
  28. ^ Институт будущего жизни. «Приоритеты исследований надежного и полезного искусственного интеллекта: открытое письмо» . Институт будущего жизни . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  29. ^ Институт будущего жизни (октябрь 2016 г.). «Программа грантов на исследования ИИ» . Институт будущего жизни . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  30. ^ «СафАртИнт 2016» . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  31. ^ Бах, Дебора (2016). «UW проведет в Белом доме первый из четырех публичных семинаров по искусственному интеллекту» . Новости УВ . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  32. ^ Амодей, Дарий; Привет, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (25 июля 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  33. Перейти обратно: Перейти обратно: а б Институт будущего жизни. «Принципы ИИ» . Институт будущего жизни . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  34. Перейти обратно: Перейти обратно: а б Исследования, Безопасность DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификация, надежность и гарантия» . Середина . Архивировано из оригинала 10 февраля 2023 г. Проверено 23 ноября 2022 г.
  35. ^ «Семинар SafeML ICLR 2019» . Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  36. Перейти обратно: Перейти обратно: а б с д и Хендрикс, Дэн; Карлини, Николас; Шульман, Джон; Стейнхардт, Джейкоб (16 июня 2022 г.). «Нерешенные проблемы безопасности ОД». arXiv : 2109.13916 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  37. ^ Браун, Райан (12 июня 2023 г.). «Премьер-министр Великобритании Риши Сунак называет Великобританию страной, где регулируется безопасность ИИ, поскольку Лондон претендует на роль следующей Кремниевой долины» . CNBC . Проверено 25 июня 2023 г.
  38. ^ Бертуцци, Лука (18 октября 2023 г.). «Британский саммит по безопасности искусственного интеллекта призван подчеркнуть риск потери человеческого контроля над «передовыми» моделями» . Еврактив . Проверено 2 марта 2024 г.
  39. ^ Шепардсон, Дэвид (1 апреля 2024 г.). «США и Великобритания объявляют о партнерстве в области безопасности и тестирования искусственного интеллекта» . Проверено 2 апреля 2024 г.
  40. ^ Гудфеллоу, Ян; Паперно, Николас; Хуанг, Сэнди; Дуан, Рокки; Аббель, Питер; Кларк, Джек (24 февраля 2017 г.). «Атака машинного обучения с помощью состязательных примеров» . ОпенАИ . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  41. Перейти обратно: Перейти обратно: а б Сегеди, Кристиан; Заремба, Войцех; Суцкевер, Илья; Бруна, Джоан; Эрхан, Дмитрий; Гудфеллоу, Ян; Фергюс, Роб (19 февраля 2014 г.). «Интригующие свойства нейронных сетей». ИКЛР . arXiv : 1312.6199 .
  42. ^ Куракин Алексей; Гудфеллоу, Ян; Бенджио, Сами (10 февраля 2017 г.). «Состязательные примеры в физическом мире». ИКЛР . arXiv : 1607.02533 .
  43. ^ Мадри, Александр; Макелов, Александр; Шмидт, Людвиг; Ципрас, Димитрис; Владу, Адриан (04 сентября 2019 г.). «На пути к моделям глубокого обучения, устойчивым к состязательным атакам». ИКЛР . arXiv : 1706.06083 .
  44. ^ Каннан, Харини; Куракин Алексей; Гудфеллоу, Ян (16 марта 2018 г.). «Состязательное логит-спаривание». arXiv : 1803.06373 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  45. ^ Гилмер, Джастин; Адамс, Райан П.; Гудфеллоу, Ян; Андерсен, Дэвид; Даль, Джордж Э. (19 июля 2018 г.). «Мотивация правил игры для исследования состязательных примеров». arXiv : 1807.06732 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  46. ^ Карлини, Николас; Вагнер, Дэвид (29 марта 2018 г.). «Примеры состязательного аудио: целевые атаки на преобразование речи в текст». Семинары IEEE по безопасности и конфиденциальности . arXiv : 1801.01944 .
  47. ^ Шитсли, Райан; Паперно, Николас; Вейсман, Майкл; Верма, Гунджан; МакДэниел, Патрик (9 сентября 2022 г.). «Состязательные примеры в ограниченных областях». arXiv : 2011.01183 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  48. ^ Сучу, Октавиан; Коулл, Скотт Э.; Джонс, Джеффри (13 апреля 2019 г.). «Изучение состязательных примеров при обнаружении вредоносных программ». Семинары IEEE по безопасности и конфиденциальности . arXiv : 1810.08280 .
  49. ^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди (04 марта 2022 г.). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». НейриПС . arXiv : 2203.02155 .
  50. ^ Гао, Лео; Шульман, Джон; Хилтон, Джейкоб (19 октября 2022 г.). «Законы масштабирования для переоптимизации модели вознаграждения». ИКМЛ . arXiv : 2210.10760 .
  51. ^ Ю, Сихён; Ан, Сонсу; Сонг, Ле; Шин, Джин Ву (27 октября 2021 г.). «RoMA: надежная адаптация модели для автономной оптимизации на основе модели». НейриПС . arXiv : 2110.14188 .
  52. Перейти обратно: Перейти обратно: а б Хендрикс, Дэн; Мажейка, Мантас (20 сентября 2022 г.). «Анализ X-рисков для исследований ИИ». arXiv : 2206.05862 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  53. ^ Тран, Хоа А.; Кондрашова, Ольга; Брэдли, Эндрю; Уильямс, Элизабет Д.; Пирсон, Джон В.; Уодделл, Никола (2021). «Глубокое обучение в диагностике рака, прогнозе и выборе лечения» . Геномная медицина . 13 (1): 152. дои : 10.1186/s13073-021-00968-x . ISSN   1756-994Х . ПМЦ   8477474 . ПМИД   34579788 .
  54. ^ Го, Чуан; Плейсс, Джефф; Сунь, Ю; Вайнбергер, Килиан К. (6 августа 2017 г.). «О калибровке современных нейронных сетей». Материалы 34-й международной конференции по машинному обучению . Материалы исследований в области машинного обучения. Том. 70. ПМЛР. стр. 1321–1330.
  55. ^ Овадия, Янив; Фертиг, Эмили; Рен, Цзе; Надо, Закари; Скалли, Д.; Новозин, Себастьян; Диллон, Джошуа В.; Лакшминараянан, Баладжи; Снук, Джаспер (17 декабря 2019 г.). «Можете ли вы доверять неопределенности вашей модели? Оценка прогнозной неопределенности при сдвиге набора данных». НейриПС . arXiv : 1906.02530 .
  56. ^ Богдолл, Дэниел; Брайтенштайн, Жасмин; Хайдекер, Флориан; Бишаар, Маартен; Больной, Бернхард; Фингшайдт, Тим; Зёлльнер, Дж. Мариус (2021). «Описание угловых случаев в автоматизированном вождении: цели и проблемы». Международная конференция IEEE/CVF по компьютерному зрению 2021 года (ICCVW) . стр. 1023–1028. arXiv : 2109.09607 . дои : 10.1109/ICCVW54120.2021.00119 . ISBN  978-1-6654-0191-3 . S2CID   237572375 .
  57. ^ Хендрикс, Дэн; Мажейка, Мантас; Диттерих, Томас (28 января 2019 г.). «Обнаружение глубоких аномалий с обнаружением выбросов». ИКЛР . arXiv : 1812.04606 .
  58. ^ Ван, Хаоци; Ли, Чжичжун; Фэн, Литонг; Чжан, Уэйн (21 марта 2022 г.). «ViM: вне распределения с сопоставлением виртуальных логитов». ЦВПР . arXiv : 2203.10807 .
  59. ^ Хендрикс, Дэн; Гимпел, Кевин (3 октября 2018 г.). «Основы для обнаружения неправильно классифицированных и нераспределенных примеров в нейронных сетях». ИКЛР . arXiv : 1610.02136 .
  60. ^ Урбина, Фабио; Ленцос, Филиппа; Инверницци, Седрик; Экинс, Шон (2022). «Двойное использование открытия лекарств с помощью искусственного интеллекта» . Природный машинный интеллект . 4 (3): 189–191. дои : 10.1038/s42256-022-00465-9 . ISSN   2522-5839 . ПМЦ   9544280 . ПМИД   36211133 .
  61. ^ Центр безопасности и новых технологий; Бьюкенен, Бен; Лон, Эндрю; Массер, Мика; Седова, Катерина (2021). «Правда, ложь и автоматизация: как языковые модели могут изменить дезинформацию» . дои : 10.51593/2021ca003 . S2CID   240522878 . Архивировано из оригинала 24 ноября 2022 г. Проверено 28 ноября 2022 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  62. ^ «Пропаганда как услуга может появиться на горизонте, если будут злоупотреблять большими языковыми моделями» . ВенчурБит . 14 декабря 2021 г. Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  63. ^ Центр безопасности и новых технологий; Бьюкенен, Бен; Бансемер, Джон; Кэри, Дакота; Лукас, Джек; Мюссер, Мика (2020). «Автоматизация кибератак: шумиха и реальность» . Центр безопасности и новых технологий . дои : 10.51593/2020ca002 . S2CID   234623943 . Архивировано из оригинала 24 ноября 2022 г. Проверено 28 ноября 2022 г.
  64. ^ «Извлеченные уроки по безопасности и неправильному использованию языковых моделей» . ОпенАИ . 03.03.2022. Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  65. ^ Марков, Тодор; Чжан, Чонг; Агарвал, Сандхини; Элунду, Тайна; Ли, Тедди; Адлер, Стивен; Цзян, Анджела; Вен, Лилиан (10 августа 2022 г.). «Новые и улучшенные инструменты модерации контента» . ОпенАИ . Архивировано из оригинала 11 января 2023 г. Проверено 24 ноября 2022 г.
  66. Перейти обратно: Перейти обратно: а б Сэвидж, Нил (29 марта 2022 г.). «Прорыв в черный ящик искусственного интеллекта» . Природа . дои : 10.1038/d41586-022-00858-1 . ПМИД   35352042 . S2CID   247792459 . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  67. ^ Центр безопасности и новых технологий; Руднер, Тим; Тонер, Хелен (2021). «Ключевые концепции безопасности ИИ: интерпретируемость в машинном обучении» . дои : 10.51593/20190042 . S2CID   233775541 . Архивировано из оригинала 24 ноября 2022 г. Проверено 28 ноября 2022 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  68. ^ Макфарланд, Мэтт (19 марта 2018 г.). «Uber отказывается от беспилотных автомобилей после первой аварии со смертельным исходом » CNNMoney . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  69. ^ Фелдер, Райан Маршалл (июль 2021 г.). «Принятие решения о проблеме черного ящика: как оправдать системы искусственного интеллекта в здравоохранении» . Отчет Гастингсского центра . 51 (4): 38–45. дои : 10.1002/hast.1248 . ISSN   0093-0334 . ПМИД   33821471 .
  70. Перейти обратно: Перейти обратно: а б Доши-Велес, Финал; Корц, Мейсон; Будиш, Райан; Бавиц, Крис; Гершман, Сэм; О'Брайен, Дэвид; Скотт, Кейт; Шибер, Стюарт; Уолдо, Джеймс; Вайнбергер, Дэвид; Веллер, Адриан; Вуд, Александра (20 декабря 2019 г.). «Подотчетность ИИ по закону: роль разъяснения». arXiv : 1711.01134 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  71. ^ Фонг, Рут; Ведальди, Андреа (2017). «Интерпретируемые объяснения черных ящиков с помощью значимых возмущений». Международная конференция IEEE по компьютерному зрению (ICCV) , 2017 г. стр. 3449–3457. arXiv : 1704.03296 . дои : 10.1109/ICCV.2017.371 . ISBN  978-1-5386-1032-9 . S2CID   1633753 .
  72. ^ Мэн, Кевин; Бау, Дэвид; Андонян, Алекс; Белинков, Йонатан (2022). «Поиск и редактирование фактических ассоциаций в GPT». Достижения в области нейронных систем обработки информации . 35 . arXiv : 2202.05262 .
  73. ^ Бау, Дэвид; Лю, Стивен; Ван, Тунчжоу; Чжу, Цзюнь-Янь; Торральба, Антонио (30 июля 2020 г.). «Переписывание глубокой генеративной модели». ЕСКВ . arXiv : 2007.15646 .
  74. ^ Ройкер, Тилман; Хо, Энсон; Каспер, Стивен; Хэдфилд-Менелл, Дилан (5 сентября 2022 г.). «На пути к прозрачному искусственному интеллекту: исследование по интерпретации внутренних структур глубоких нейронных сетей». IEEE SaTML . arXiv : 2207.13243 .
  75. ^ Бау, Дэвид; Чжоу, Болей; Хосла, Адитья; Олива, Од; Торральба, Антонио (19 апреля 2017 г.). «Сетевой анализ: количественная оценка интерпретируемости глубоких визуальных представлений». ЦВПР . arXiv : 1704.05796 .
  76. ^ МакГрат, Томас; Капишников Андрей; Томашев, Ненад; Пирс, Адам; Ваттенберг, Мартин; Хассабис, Демис; Ким, Бин; Паке, Ульрих; Крамник, Владимир (22 ноября 2022 г.). «Приобретение шахматных знаний в AlphaZero» . Труды Национальной академии наук . 119 (47): e2206625119. arXiv : 2111.09259 . Бибкод : 2022PNAS..11906625M . дои : 10.1073/pnas.2206625119 . ISSN   0027-8424 . ПМК   9704706 . ПМИД   36375061 .
  77. ^ Гох, Габриэль; Каммарата, Ник; Восс, Челси; Картер, Шан; Петров, Михаил; Шуберт, Людвиг; Рэдфорд, Алек; Ола, Крис (2021). «Мультимодальные нейроны в искусственных нейронных сетях» . Дистиллировать . 6 (3). дои : 10.23915/distill.00030 . S2CID   233823418 .
  78. ^ Ола, Крис; Каммарата, Ник; Шуберт, Людвиг; Гох, Габриэль; Петров, Михаил; Картер, Шан (2020). «Увеличить: введение в схемы» . Дистиллировать . 5 (3). дои : 10.23915/distill.00024.001 . S2CID   215930358 .
  79. ^ Каммарата, Ник; Гох, Габриэль; Картер, Шан; Восс, Челси; Шуберт, Людвиг; Ола, Крис (2021). «Кривые схемы» . Дистиллировать . 6 (1). doi : 10.23915/distill.00024.006 (неактивен 31 января 2024 г.). Архивировано из оригинала 5 декабря 2022 года . Проверено 5 декабря 2022 г. {{cite journal}}: CS1 maint: DOI неактивен по состоянию на январь 2024 г. ( ссылка )
  80. ^ Олссон, Кэтрин; Эльхаге, Нельсон; Нанда, Нил; Джозеф, Николас; ДасСарма, Нова; Хениган, Том; Манн, Бен; Аскелл, Аманда; Бай, Юньтао; Чен, Анна; Конерли, Том; Слейте, Рассвет; Гангули, Глубокий; Хэтфилд-Доддс, Зак; Эрнандес, Дэнни; Джонстон, Скотт; Джонс, Энди; Кернион, Джексон; Ловитт, Лиана; Ндусс, Камаль; Амодей, Дарио; Браун, Том; Кларк, Джек; Каплан, Джаред; МакКэндлиш, Сэм; Ола, Крис (2022). «Контекстное обучение и вводные главы». Поток трансформаторных цепей . arXiv : 2209.11895 .
  81. ^ Ола, Кристофер. «Интерпретируемость против нейронауки [грубое примечание]» . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  82. ^ Гу, Тяньюй; Долан-Гэвитт, Брендан; Гарг, Сиддхарт (11 марта 2019 г.). «BadNets: выявление уязвимостей в цепочке поставок модели машинного обучения». arXiv : 1708.06733 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  83. ^ Чен, Синьюнь; Лю, Чанг; Ли, Бо; Лу, Кимберли; Песня, Рассвет (14 декабря 2017 г.). «Целевые бэкдор-атаки на системы глубокого обучения с использованием отравления данных». arXiv : 1712.05526 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  84. ^ Карлини, Николас; Терзис, Андреас (28 марта 2022 г.). «Отравление и бэкдоринг контрастного обучения». ИКЛР . arXiv : 2106.09667 .
  85. Перейти обратно: Перейти обратно: а б с д Рассел, Стюарт Дж.; Норвиг, Питер (2021). Искусственный интеллект: современный подход (4-е изд.). Пирсон. стр. 5, 1003. ISBN.  9780134610993 . Проверено 12 сентября 2022 г.
  86. Перейти обратно: Перейти обратно: а б Нго, Ричард; Чан, Лоуренс; Миндерманн, Сёрен (2022). «Проблема выравнивания с точки зрения глубокого обучения». Международная конференция по обучению представлений . arXiv : 2209.00626 .
  87. Перейти обратно: Перейти обратно: а б Пан, Александр; Бхатия, Куш; Стейнхардт, Джейкоб (14 февраля 2022 г.). Последствия неправильной спецификации вознаграждения: сопоставление и смягчение несогласованных моделей . Международная конференция по обучению представлений . Проверено 21 июля 2022 г.
  88. ^ Чжуан, Саймон; Хэдфилд-Менелл, Дилан (2020). «Последствия неправильной настройки ИИ» . Достижения в области нейронных систем обработки информации . Том. 33. Curran Associates, Inc., стр. 15763–15773 . Проверено 11 марта 2023 г.
  89. ^ Карлсмит, Джозеф (16 июня 2022 г.). «Является ли ИИ, стремящийся к власти, экзистенциальным риском?». arXiv : 2206.13353 [ cs.CY ].
  90. Перейти обратно: Перейти обратно: а б с Рассел, Стюарт Дж. (2020). Совместимость с человеком: Искусственный интеллект и проблема управления . Случайный дом пингвинов. ISBN  9780525558637 . OCLC   1113410915 .
  91. ^ Кристиан, Брайан (2020). Проблема согласования: машинное обучение и человеческие ценности . WW Нортон и компания. ISBN  978-0-393-86833-3 . OCLC   1233266753 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  92. ^ Лангоско, Лауро Лангоско Ди; Кох, Джек; Шарки, Ли Д.; Пфау, Джейкоб; Крюгер, Дэвид (28 июня 2022 г.). «Неправильное обобщение цели в глубоком обучении с подкреплением» . Материалы 39-й Международной конференции по машинному обучению . Международная конференция по машинному обучению. ПМЛР. стр. 12004–12019 . Проверено 11 марта 2023 г.
  93. Перейти обратно: Перейти обратно: а б Боммасани, Риши; Хадсон, Дрю А.; Адели, Эхсан; Альтман, Расс; Арора, Симран; фон Аркс, Сидней; Бернштейн, Майкл С.; Богг, Жаннетт; Босселю, Антуан; Бранскилл, Эмма; Бриньольфссон, Эрик (12 июля 2022 г.). «О возможностях и рисках фундаментальных моделей» . Стэнфордский CRFM . arXiv : 2108.07258 .
  94. ^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман Дж.; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк Э.; Сименс, Мэдди; Аскелл, Аманда; Велиндер, П.; Кристиано, П.; Лейке, Дж.; Лоу, Райан Дж. (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [ cs.CL ].
  95. ^ Заремба, Войцех; Брокман, Грег; ОпенАИ (10 августа 2021 г.). «Кодекс OpenAI» . ОпенАИ . Архивировано из оригинала 3 февраля 2023 года . Проверено 23 июля 2022 г.
  96. ^ Кобер, Йенс; Багнелл, Дж. Эндрю; Петерс, Ян (1 сентября 2013 г.). «Обучение с подкреплением в робототехнике: опрос» . Международный журнал исследований робототехники . 32 (11): 1238–1274. дои : 10.1177/0278364913495721 . ISSN   0278-3649 . S2CID   1932843 . Архивировано из оригинала 15 октября 2022 года . Проверено 12 сентября 2022 г.
  97. ^ Нокс, У. Брэдли; Аллиеви, Алессандро; Банцхаф, Хольгер; Шмитт, Феликс; Стоун, Питер (01 марта 2023 г.). «Награда (неправильный) дизайн за автономное вождение» . Искусственный интеллект . 316 : 103829. arXiv : 2104.13906 . дои : 10.1016/j.artint.2022.103829 . ISSN   0004-3702 . S2CID   233423198 .
  98. ^ Стрэй, Джонатан (2020). «Согласование оптимизации ИИ с благополучием сообщества» . Международный журнал общественного благополучия . 3 (4): 443–463. дои : 10.1007/s42413-020-00086-3 . ISSN   2524-5295 . ПМК   7610010 . ПМИД   34723107 . S2CID   226254676 .
  99. ^ Рассел, Стюарт; Норвиг, Питер (2009). Искусственный интеллект: современный подход . Прентис Холл. п. 1003. ИСБН  978-0-13-461099-3 .
  100. ^ Бенджио, Йошуа; Хинтон, Джеффри; Яо, Эндрю; Песня, Заря; Аббель, Питер; Харари, Юваль Ной; Чжан, Я-Цинь; Сюэ, Лан; Шалев-Шварц, Шай (2024 г.), «Управление чрезвычайными рисками ИИ в условиях быстрого прогресса», Science , 384 (6698): 842–845, arXiv : 2310.17688 , doi : 10.1126/science.adn0117
  101. ^ «Заявление о риске ИИ | CAIS» . www.safe.ai. ​Проверено 11 февраля 2024 г.
  102. ^ Грейс, Катя; Стюарт, Харлан; Сандкюлер, Джулия Фабьен; Томас, Стивен; Вайнштейн-Раун, Бен; Браунер, Ян (05 января 2024 г.), Тысячи авторов ИИ о будущем ИИ , arXiv : 2401.02843
  103. ^ Смит, Крейг С. «Джефф Хинтон, самый известный исследователь искусственного интеллекта, предупреждает о «экзистенциальной угрозе» » . Форбс . Проверено 4 мая 2023 г.
  104. Перейти обратно: Перейти обратно: а б с Амодей, Дарий; Привет, Крис; Стейнхардт, Джейкоб; Кристиано, Пол; Шульман, Джон; Мане, Дэн (21 июня 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [ cs.AI ].
  105. Перейти обратно: Перейти обратно: а б Ортега, Педро А.; Майни, Вишал; Команда безопасности DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификация, надежность и гарантия» . Исследование безопасности DeepMind – средний уровень . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
  106. Перейти обратно: Перейти обратно: а б Рорвиг, Мордехай (14 апреля 2022 г.). «Исследователи получают новое понимание с помощью простого искусственного интеллекта» . Журнал Кванта . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
  107. ^ Доши-Велес, Финал; Ким, Бин (2 марта 2017 г.). «К строгой науке интерпретируемого машинного обучения». arXiv : 1702.08608 [ stat.ML ].
  108. ^ Рассел, Стюарт; Дьюи, Дэниел; Тегмарк, Макс (31 декабря 2015 г.). «Приоритеты исследований надежного и полезного искусственного интеллекта» . Журнал ИИ . 36 (4): 105–114. arXiv : 1602.03506 . дои : 10.1609/aimag.v36i4.2577 . hdl : 1721.1/108478 . ISSN   2371-9621 . S2CID   8174496 . Архивировано из оригинала 2 февраля 2023 года . Проверено 12 сентября 2022 г.
  109. ^ Вирт, Кристиан; Акрур, Риад; Нойманн, Герхард; Фюрнкранц, Йоханнес (2017). «Обзор методов обучения с подкреплением на основе предпочтений». Журнал исследований машинного обучения . 18 (136): 1–46.
  110. ^ Кристиано, Пол Ф.; Лейке, Ян; Браун, Том Б.; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений». Материалы 31-й Международной конференции по нейронным системам обработки информации . НИПС'17. Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 4302–4310. ISBN  978-1-5108-6096-4 .
  111. ^ Небеса, Уилл Дуглас (27 января 2022 г.). «Новая версия GPT-3 ведет себя гораздо лучше (и должна быть менее токсичной)» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 10 февраля 2023 года . Проверено 18 июля 2022 г.
  112. ^ Мохсени, Сина; Ван, Хаотао; Ю, Чжидинг; Сяо, Чаовэй; Ван, Чжанъян; Ядава, Джей (07 марта 2022 г.). «Таксономия безопасности машинного обучения: обзор и учебник». arXiv : 2106.04823 [ cs.LG ].
  113. ^ Клифтон, Джесси (2020). «Сотрудничество, конфликты и преобразующий искусственный интеллект: программа исследований» . Центр долгосрочных рисков . Архивировано из оригинала 1 января 2023 года . Проверено 18 июля 2022 г.
  114. ^ Прункл, Карина; Уиттлстоун, Джесс (07 февраля 2020 г.). «За пределами краткосрочной и долгосрочной перспективы» . Материалы конференции AAAI/ACM по искусственному интеллекту, этике и обществу . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 138–143. дои : 10.1145/3375627.3375803 . ISBN  978-1-4503-7110-0 . S2CID   210164673 . Архивировано из оригинала 16 октября 2022 года . Проверено 12 сентября 2022 г.
  115. ^ Ирвинг, Джеффри; Аскелл, Аманда (19 февраля 2019 г.). «Безопасность искусственного интеллекта требует ученых-социологов» . Дистиллировать . 4 (2): 10.23915/distill.00014. дои : 10.23915/distill.00014 . ISSN   2476-0757 . S2CID   159180422 . Архивировано из оригинала 10 февраля 2023 года . Проверено 12 сентября 2022 г.
  116. Перейти обратно: Перейти обратно: а б с д Цветслут, Ремко; Дефо, Аллан (11 февраля 2019 г.). «Размышления о рисках, связанных с ИИ: несчастные случаи, неправильное использование и структура» . Законность . Архивировано из оригинала 19 августа 2023 г. Проверено 24 ноября 2022 г.
  117. ^ Чжан, Инъюй; Донг, Чуньтонг; Го, Вэйцюнь; Дай, Цзябао; Чжао, Цзымин (2022). «Системно-теоретическая модель и процесс аварии (STAMP): обзор литературы» . Наука безопасности . 152 : 105596. doi : 10.1016/j.ssci.2021.105596 . S2CID   244550153 . Архивировано из оригинала 15 марта 2023 г. Проверено 28 ноября 2022 г.
  118. ^ Центр безопасности и новых технологий; Хоффман, Вятт (2021). «ИИ и будущее киберконкуренции» . Краткий обзор выпуска CSET . дои : 10.51593/2020ca007 . S2CID   234245812 . Архивировано из оригинала 24 ноября 2022 г. Проверено 28 ноября 2022 г.
  119. ^ Центр безопасности и новых технологий; Имбри, Эндрю; Кания, Эльза (2019). «Безопасность, защищенность и стабильность ИИ среди великих держав: варианты, проблемы и извлеченные уроки для прагматического взаимодействия» . дои : 10.51593/20190051 . S2CID   240957952 . Архивировано из оригинала 24 ноября 2022 г. Проверено 28 ноября 2022 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  120. Перейти обратно: Перейти обратно: а б Институт будущего жизни (27 марта 2019 г.). Стратегия, политика и управление ИИ (Аллан Дефо) . Событие происходит в 22:05. Архивировано из оригинала 23 ноября 2022 г. Проверено 23 ноября 2022 г.
  121. ^ Цзоу, Энди; Сяо, Тристан; Цзя, Райан; Квон, Джо; Мажейка, Мантас; Ли, Ричард; Песня, Заря; Стейнхардт, Джейкоб; Эванс, Оуайн; Хендрикс, Дэн (9 октября 2022 г.). «Прогнозирование будущих мировых событий с помощью нейронных сетей». НейриПС . arXiv : 2206.15474 .
  122. ^ Гатани, Снеха; Хулсебос, Маделон; Гейл, Джеймс; Хаас, Питер Дж.; Демиральп, Чагатай (08 февраля 2022 г.). «Улучшение процесса принятия решений с помощью интерактивного анализа «что, если». Конференция по исследованию инновационных систем данных . arXiv : 2109.06160 .
  123. ^ Линделауф, Рой (2021), Осинга, Франс; Свейс, Тим (ред.), «Ядерное сдерживание в эпоху алгоритмов: пересмотр теории игр», Ежегодный обзор военных исследований NL ARMS Нидерланды за 2020 год , Nl Arms, Гаага: TMC Asser Press, стр. 421–436, doi : 10.1007 /978-94-6265-419-8_22 , ISBN  978-94-6265-418-1 , S2CID   229449677
  124. Перейти обратно: Перейти обратно: а б Ньюкирк II, Ванн Р. (21 апреля 2016 г.). «Изменение климата – дилемма заключённого или охота на оленя?» . Атлантика . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  125. Перейти обратно: Перейти обратно: а б Армстронг, Стюарт; Бостром, Ник; Шульман, Карл. Гонки к пропасти: модель развития искусственного интеллекта (доклад). Институт будущего человечества Оксфордского университета.
  126. Перейти обратно: Перейти обратно: а б Дефо, Аллан. Управление искусственным интеллектом: программа исследований (отчет). Центр управления искусственным интеллектом, Институт будущего человечества, Оксфордский университет.
  127. ^ Дефо, Аллан; Хьюз, Эдвард; Бахрах, Йорам; Коллинз, Тантум; Макки, Кевин Р.; Лейбо, Джоэл З.; Ларсон, Кейт; Грепель, Тор (15 декабря 2020 г.). «Открытые проблемы кооперативного ИИ». НейриПС . arXiv : 2012.08630 .
  128. Перейти обратно: Перейти обратно: а б Дефо, Аллан; Бахрах, Йорам; Хэдфилд, Джиллиан; Хорвиц, Эрик; Ларсон, Кейт; Грепель, Тор (2021). «Кооперативный ИИ: машины должны научиться находить общий язык» . Природа . 593 (7857): 33–36. Бибкод : 2021Natur.593...33D . дои : 10.1038/d41586-021-01170-0 . ПМИД   33947992 . S2CID   233740521 . Архивировано из оригинала 22 ноября 2022 г. Проверено 24 ноября 2022 г.
  129. ^ Бендер, Э.М., Гебру, Т., Макмиллан-Мейджор, А., и Шмитчелл, С. (2021). Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? 🦜. FAccT '21: Материалы конференции ACM 2021 года по справедливости, подотчетности и прозрачности, 610-623. https://doi.org/10.1145/3442188.3445922 .
  130. ^ Штрубелл Э., Ганеш А. и МакКаллум А. (2019). Энергетические и политические аспекты глубокого обучения в НЛП. Препринт arXiv arXiv:1906.02243.
  131. ^ Шварц Р., Додж Дж., Смит, Н. А., и Эциони, О. (2020). Зеленый ИИ. Сообщения ACM, 63(12), 54-63. https://doi.org/10.1145/3442188.3445922 .
  132. ^ Сатариано, Адам; Специа, Меган (01 ноября 2023 г.). «Глобальные лидеры предупреждают, что искусственный интеллект может нанести «катастрофический» вред» . Нью-Йорк Таймс . ISSN   0362-4331 . Проверено 20 апреля 2024 г.
  133. ^ Крафты, Николай (23 сентября 2021 г.). «Искусственный интеллект как технология общего назначения: исторический взгляд» . Оксфордский обзор экономической политики . 37 (3): 521–536. doi : 10.1093/oxrep/grab012 . ISSN   0266-903X . Архивировано из оригинала 24 ноября 2022 г. Проверено 28 ноября 2022 г.
  134. ^ Е Чучен; Чжан Сяовэнь; Чжан Лай Чжицю (01 декабря 2020 г.). «Вытеснение рабочей силы в эпоху искусственного интеллекта: систематический обзор литературы». восточноазиатской цивилизации . 17 (2). исследований Тайваньский журнал 2).0002 . ISSN   1812-6243 TJEAS.202012_17 (
  135. ^ Джонсон, Джеймс (3 апреля 2019 г.). «Искусственный интеллект и будущая война: последствия для международной безопасности» . Анализ обороны и безопасности . 35 (2): 147–169. дои : 10.1080/14751798.2019.1600800 . ISSN   1475-1798 . S2CID   159321626 . Архивировано из оригинала 24 ноября 2022 г. Проверено 28 ноября 2022 г.
  136. ^ Кертысова, Катарина (12 декабря 2018 г.). «Искусственный интеллект и дезинформация: как ИИ меняет способы производства, распространения и противодействия дезинформации» . Безопасность и права человека . 29 (1–4): 55–81. дои : 10.1163/18750230-02901005 . ISSN   1874-7337 . S2CID   216896677 . Архивировано из оригинала 24 ноября 2022 г. Проверено 28 ноября 2022 г.
  137. ^ Фельдштейн, Стивен (2019). Глобальное расширение наблюдения с помощью искусственного интеллекта . Фонд Карнеги за международный мир.
  138. ^ Агравал, Аджай; Ганс, Джошуа; Гольдфарб, Ави (2019). Экономика искусственного интеллекта: повестка дня . Чикаго, Иллинойс. ISBN  978-0-226-61347-5 . OCLC   1099435014 . Архивировано из оригинала 15 марта 2023 г. Проверено 28 ноября 2022 г. {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  139. ^ Уиттлстоун, Джесс; Кларк, Джек (31 августа 2021 г.). «Почему и как правительства должны следить за развитием искусственного интеллекта». arXiv : 2108.12427 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  140. Перейти обратно: Перейти обратно: а б Шевлан, Тоби (2022). «Обмен мощными моделями искусственного интеллекта | Блог GovAI» . Центр управления искусственным интеллектом . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  141. ^ Аскелл, Аманда; Брандейдж, Майлз; Хэдфилд, Джиллиан (10 июля 2019 г.). «Роль сотрудничества в ответственном развитии искусственного интеллекта». arXiv : 1907.04534 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  142. ^ Гурсой, Фуркан; Какадиарис, Иоаннис А. (31 августа 2022 г.), Системные карты для принятия решений на основе искусственного интеллекта в государственной политике , arXiv : 2203.04754
  143. ^ Коббе, Дженнифер; Ли, Мишель Сенг А; Сингх, Джатиндер (01 марта 2021 г.). «Проверяемое автоматизированное принятие решений: основа для подотчетных алгоритмических систем». Материалы конференции ACM 2021 года по вопросам справедливости, подотчетности и прозрачности . ФАКТ '21. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 598–609. дои : 10.1145/3442188.3445921 . ISBN  978-1-4503-8309-7 .
  144. ^ Раджи, Иниолува Дебора; Умный, Эндрю; Уайт, Ребекка Н.; Митчелл, Маргарет; Гебру, Тимнит; Хатчинсон, Бен; Смит-Лауд, Джамила; Терон, Дэниел; Барнс, Паркер (27 января 2020 г.). «Устранение разрыва в подотчетности ИИ: определение комплексной структуры для внутреннего алгоритмического аудита». Материалы конференции 2020 года по справедливости, подотчетности и прозрачности . ЖИР* '20. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 33–44. дои : 10.1145/3351095.3372873 . ISBN  978-1-4503-6936-7 .
  145. ^ Турчин, Алексей; Денч, Дэвид; Грин, Брайан Патрик (2019). «Глобальные решения против локальных решений проблемы безопасности ИИ» . Большие данные и когнитивные вычисления . 3 (16): 1–25. дои : 10.3390/bdcc3010016 .
  146. ^ Зиглер, Барт (8 апреля 2022 г.). «Пришло ли время регулировать ИИ?». Уолл Стрит Джорнал .
  147. ^ Смит, Джон (15 мая 2022 г.). «Глобальное управление искусственным интеллектом: возможности и проблемы». Хранитель .
  148. ^ Зиглер, Барт (8 апреля 2022 г.). «Пришло ли время регулировать ИИ?» . Уолл Стрит Джорнал . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  149. ^ Рид, Крис (13 сентября 2018 г.). «Как нам следует регулировать искусственный интеллект?» . Философские труды Королевского общества A: Математические, физические и технические науки . 376 (2128): 20170360. Бибкод : 2018RSPTA.37670360R . дои : 10.1098/rsta.2017.0360 . ISSN   1364-503X . ПМК   6107539 . ПМИД   30082306 .
  150. ^ Белтон, Кейт Б. (07 марта 2019 г.). «Как следует регулировать ИИ?» . Промышленная неделя . Архивировано из оригинала 29 января 2022 г. Проверено 24 ноября 2022 г.
  151. ^ Комиссия национальной безопасности по искусственному интеллекту (2021 г.), итоговый отчет
  152. ^ Национальный институт стандартов и технологий (12 июля 2021 г.). «Структура управления рисками ИИ» . НИСТ . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  153. ^ Ричардсон, Тим (2021). «Британия публикует 10-летнюю Национальную стратегию искусственного интеллекта» . Архивировано из оригинала 10 февраля 2023 г. Проверено 24 ноября 2022 г.
  154. Перейти обратно: Перейти обратно: а б «Руководство: Национальная стратегия ИИ» . GOV.UK. ​2021. Архивировано из оригинала 10 февраля 2023 г. Проверено 24 ноября 2022 г.
  155. ^ Хардкасл, Кимберли (23 августа 2023 г.). «Сейчас мы много говорим об ИИ – и это не слишком рано» . Разговор . Проверено 31 октября 2023 г.
  156. ^ «В начале ноября в знаменитом Блетчли-парке пройдет британский саммит по безопасности искусственного интеллекта» . GOV.UK. ​Проверено 31 октября 2023 г.
  157. ^ Канцелярия директора национальной разведки, деятельность по перспективным исследовательским проектам разведки. «IARPA – ТройАИ» . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  158. ^ Турек, Мэтт. «Объяснимый искусственный интеллект» . Архивировано из оригинала 19 февраля 2021 г. Проверено 24 ноября 2022 г.
  159. ^ Дрейпер, Брюс. «Гарантия устойчивости искусственного интеллекта к обману» . Агентство перспективных оборонных исследовательских проектов . Архивировано из оригинала 9 января 2023 г. Проверено 24 ноября 2022 г.
  160. ^ Национальный научный фонд (23 февраля 2023 г.). «Системы безопасного обучения» . Архивировано из оригинала 26 февраля 2023 г. Проверено 27 февраля 2023 г.
  161. ^ «Генеральная Ассамблея принимает эпохальную резолюцию по искусственному интеллекту» . Новости ООН . 21 марта 2024 года. Архивировано из оригинала 20 апреля 2024 года . Проверено 21 апреля 2024 г.
  162. ^ Скажем, Марк (23 мая 2024 г.). «DSIT объявляет о финансировании исследований по безопасности искусственного интеллекта» . Архивировано из оригинала 24 мая 2024 года . Проверено 11 июня 2024 г.
  163. ^ Мянтюмяки, Матти; Минккинен, Матти; Биркстедт, Теему; Вильянен, Мика (2022). «Определение организационного управления ИИ» . ИИ и этика . 2 (4): 603–609. дои : 10.1007/s43681-022-00143-x . ISSN   2730-5953 . S2CID   247119668 .
  164. Перейти обратно: Перейти обратно: а б с Брандейдж, Майлз; Авин, Шахар; Ван, Жасмин; Белфилд, Гайдн; Крюгер, Гретхен; Хэдфилд, Джиллиан; Хлааф, Хейди; Ян, Цзинъин; Тонер, Хелен; Фонг, Рут; Махарадж, Теган; Кох, Пан Вэй; Хукер, Сара; Люнг, Джейд; Траск, Эндрю (20 апреля 2020 г.). «На пути к надежному развитию искусственного интеллекта: механизмы поддержки проверяемых утверждений». arXiv : 2004.07213 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  165. ^ «Добро пожаловать в базу данных происшествий, связанных с искусственным интеллектом» . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  166. ^ Виблин, Роберт; Харрис, Кейран (2022). «Нова ДасСарма о том, почему информационная безопасность может иметь решающее значение для безопасного развития систем искусственного интеллекта» . 80 000 часов . Архивировано из оригинала 24 ноября 2022 г. Проверено 24 ноября 2022 г.
  167. ^ Флудас, Димитрис (2024). «К продвинутому ИИ следует относиться так же, как к оружию массового поражения» . ДэниВеб . Проверено 2 июня 2024 г. [Большие] корпорации, о которых вы упомянули, снова будут утверждать, что самоконтроль — единственный путь вперед, но это алчная химера; ставки просто слишком высоки, а потенциальные последствия слишком ужасны.
  168. ^ ОпенАИ (02.06.2022). «Лучшие практики по развертыванию языковых моделей» . ОпенАИ . Архивировано из оригинала 15 марта 2023 г. Проверено 24 ноября 2022 г.
  169. ^ ОпенАИ. «Устав OpenAI» . ОпенАИ . Архивировано из оригинала 04 марта 2021 г. Проверено 24 ноября 2022 г.
  170. ^ Институт будущего жизни (2016). «Открытое письмо по автономному оружию: исследователи искусственного интеллекта и робототехники» . Институт будущего жизни . Архивировано из оригинала 22 сентября 2023 г. Проверено 24 ноября 2022 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 14c12e8ba6ae6d00147608284d4fae37__1718628420
URL1:https://arc.ask3.ru/arc/aa/14/37/14c12e8ba6ae6d00147608284d4fae37.html
Заголовок, (Title) документа по адресу, URL1:
AI safety - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)