Состязательное машинное обучение

Состязательное машинное обучение — это изучение атак на алгоритмы машинного обучения и средств защиты от таких атак. ^[1] Опрос, проведенный в мае 2020 года, выявил тот факт, что специалисты-практики сообщают об острой необходимости в улучшении защиты систем машинного обучения в промышленных приложениях. ^[2]

Большинство методов машинного обучения в основном предназначены для работы с конкретными наборами задач при условии, что данные обучения и тестирования генерируются из одного и того же статистического распределения ( IID ). Однако это предположение часто опасно нарушается в практических приложениях с высокими ставками, где пользователи могут намеренно предоставлять сфабрикованные данные, нарушающие статистическое предположение.

Наиболее распространенные атаки в состязательном машинном обучении включают атаки уклонения , ^[3] атаки по отравлению данных , ^[4] Византийские атаки ^[5] и извлечение модели. ^[6]

История [ править ]

На спам-конференции Массачусетского технологического института в январе 2004 года Джон Грэм-Камминг показал, что спам-фильтр с машинным обучением можно использовать для борьбы с другим спам-фильтром с машинным обучением, автоматически узнавая, какие слова следует добавить в спам-сообщение, чтобы оно было классифицировано как нежелательное. спам. ^[7]

В 2004 году Нилеш Далви и другие отметили, что линейные классификаторы, используемые в спам-фильтрах, можно победить с помощью простых « атак уклонения », когда спамеры вставляют «хорошие слова» в свои спам-сообщения. (Примерно в 2007 году некоторые спамеры добавляли случайный шум к нечетким словам в «спаме изображениями», чтобы обойти фильтры на основе оптического распознавания символов .) В 2006 году Марко Баррено и другие опубликовали статью «Может ли машинное обучение быть безопасным?», в которой изложена широкая классификация атак. . Еще в 2013 году многие исследователи продолжали надеяться, что нелинейные классификаторы (такие как машины опорных векторов и нейронные сети ) могут быть устойчивы к злоумышленникам, пока Баттиста Биджио и другие не продемонстрировали первые атаки на основе градиента на такие модели машинного обучения (2012). ^[8]–2013 ^[9]). В 2012 году глубокие нейронные сети стали доминировать в проблемах компьютерного зрения; начиная с 2014 года Кристиан Сегеди и другие продемонстрировали, что злоумышленники могут обмануть глубокие нейронные сети, снова используя атаку на основе градиента для создания состязательных возмущений. ^[10]^[11]

Недавно было замечено, что на практике состязательные атаки сложнее осуществить из-за различных ограничений окружающей среды, которые нивелируют эффект шума. ^[12]^[13] Например, любое небольшое вращение или небольшое освещение состязательного изображения может разрушить состязательность. Кроме того, такие исследователи, как Николас Фрост из Google Brain, отмечают, что создавать беспилотные автомобили гораздо проще. ^[14] пропускать знаки остановки, физически удаляя сам знак, а не создавая состязательные примеры. ^[15] Фросст также считает, что сообщество состязательного машинного обучения ошибочно полагает, что модели, обученные на одном распределении данных, также будут хорошо работать и на совершенно другом распределении данных. Он предлагает изучить новый подход к машинному обучению и в настоящее время работает над уникальной нейронной сетью, характеристики которой больше похожи на человеческое восприятие, чем на современные подходы. ^[15]

В то время как состязательное машинное обучение по-прежнему прочно укоренилось в академических кругах, крупные технологические компании, такие как Google, Microsoft и IBM, начали курировать документацию и базы с открытым исходным кодом, чтобы позволить другим конкретно оценить надежность моделей машинного обучения и минимизировать риск состязательного машинного обучения. атаки. ^[16]^[17]^[18]

Примеры [ править ]

Примеры включают атаки на фильтрацию спама , когда спам-сообщения запутываются за счет неправильного написания «плохих» слов или вставки «хороших» слов; ^[19]^[20] атаки на компьютерную безопасность , такие как запутывание кода вредоносного ПО в сетевых пакетах или изменение характеристик сетевого потока с целью ввести в заблуждение обнаружение вторжений; ^[21]^[22] атаки на биометрическое распознавание, когда фальшивые биометрические характеристики могут быть использованы для выдачи себя за законного пользователя; ^[23] или скомпрометировать галереи шаблонов пользователей, которые со временем адаптируются к обновляемым характеристикам.

Исследователи показали, что, изменив всего лишь один пиксель, можно обмануть алгоритмы глубокого обучения. ^[24] Другие напечатали на 3D-принтере игрушечную черепаху с текстурой, разработанной таким образом, чтобы ИИ обнаружения объектов Google классифицировал ее как винтовку независимо от угла, под которым черепаха рассматривалась. ^[25] Для создания черепахи потребовалась только недорогая коммерчески доступная технология 3D-печати. ^[26]

Было показано, что обработанное машиной изображение собаки выглядит как кошка как для компьютеров, так и для людей. ^[27] Исследование 2019 года показало, что люди могут догадываться, как машины будут классифицировать состязательные изображения. ^[28] Исследователи обнаружили методы изменения внешнего вида знака остановки, так что беспилотное транспортное средство классифицировало его как знак слияния или ограничения скорости. ^[14]^[29]^[30]

McAfee атаковал систему Tesla бывшую Mobileye , обманом заставив ее ехать на 50 миль в час сверх установленной скорости, просто добавив двухдюймовую полоску черной ленты к знаку ограничения скорости. ^[31]^[32]

Состязательные узоры на очках или одежде, предназначенные для обмана систем распознавания лиц или считывателей номерных знаков, привели к появлению нишевой индустрии «невидимой уличной одежды». ^[33]

Состязательная атака на нейронную сеть может позволить злоумышленнику внедрить алгоритмы в целевую систему. ^[34] Исследователи также могут создавать состязательные аудиовходы, чтобы замаскировать команды для интеллектуальных помощников в безобидном звуке; ^[35] параллельная литература исследует человеческое восприятие таких стимулов. ^[36]^[37]

Алгоритмы кластеризации используются в приложениях безопасности. Анализ вредоносных программ и компьютерных вирусов направлен на выявление семейств вредоносных программ и создание конкретных сигнатур обнаружения. ^[38]^[39]

Способы атаки [ править ]

Таксономия [ править ]

Атаки на алгоритмы (контролируемого) машинного обучения подразделяются на три основные оси: ^[40] влияние на классификатор, нарушение безопасности и их специфику.

Влияние классификатора. Атака может повлиять на классификатор, нарушив этап классификации. Этому может предшествовать этап исследования для выявления уязвимостей. Возможности злоумышленника могут быть ограничены наличием ограничений на манипулирование данными. ^[41]
Нарушение безопасности. Атака может предоставить вредоносные данные, которые классифицируются как законные. Вредоносные данные, предоставленные во время обучения, могут привести к отклонению законных данных после обучения.
Специфичность: целенаправленная атака пытается допустить конкретное вторжение/нарушение. Альтернативно, неизбирательное нападение создаст всеобщий хаос.

Эта таксономия была расширена до более полной модели угроз, которая позволяет делать явные предположения о цели злоумышленника, знании атакуемой системы, возможности манипулирования входными данными/компонентами системы и стратегии атаки. ^[42]^[43] Эта таксономия была расширена и теперь включает измерения стратегий защиты от состязательных атак. ^[44]

Стратегии [ править ]

Ниже приведены некоторые из наиболее часто встречающихся сценариев атак.

Отравление данных [ править ]

Отравление заключается в загрязнении набора обучающих данных данными, предназначенными для увеличения ошибок в выходных данных. Учитывая, что алгоритмы обучения формируются на основе наборов обучающих данных, отравление может эффективно перепрограммировать алгоритмы с потенциально злонамеренными намерениями. Особую обеспокоенность вызывали данные обучения, генерируемые пользователями, например, рекомендации по содержанию или модели естественного языка. Повсеместное распространение фейковых аккаунтов открывает множество возможностей для отравления. Сообщается, что Facebook удаляет около 7 миллиардов фейковых аккаунтов в год. ^[45]^[46] Сообщается, что отравление является основной проблемой промышленного применения. ^[2]

в социальных сетях Кампании по дезинформации пытаются исказить рекомендации и алгоритмы модерации, чтобы продвинуть один контент выше другого.

Частным случаем заражения данных является бэкдор- атака. ^[47] целью которого является обучение определенному поведению входных данных с заданным триггером, например, небольшому дефекту изображений, звуков, видео или текста.

Например, системы обнаружения вторжений часто обучаются с использованием собранных данных. Злоумышленник может отравить эти данные, внедрив вредоносные образцы во время работы, что впоследствии нарушит переобучение. ^[42]^[43]^[40]^[48]^[49]^[50]

Методы искажения данных также можно применять к моделям преобразования текста в изображение, чтобы изменить их выходные данные. ^[51]

Византийские атаки [ править ]

Поскольку машинное обучение масштабируется, оно часто опирается на несколько вычислительных машин. при федеративном обучении Например, периферийные устройства взаимодействуют с центральным сервером, обычно отправляя градиенты или параметры модели. Однако поведение некоторых из этих устройств может отклоняться от ожидаемого, например, наносить ущерб модели центрального сервера. ^[52] или смещать алгоритмы в сторону определенного поведения (например, усиливая рекомендации дезинформационного содержания). С другой стороны, если обучение выполняется на одной машине, то модель очень уязвима к сбою машины или атаке на машину; машина является единственной точкой отказа . ^[53] Фактически, владелец машины может сам установить доказуемо необнаружимые бэкдоры . ^[54]

Современные ведущие решения, позволяющие сделать алгоритмы (распределенного) обучения доказуемо устойчивыми к меньшинству злонамеренных (так называемых « византийских» ) участников, основаны на надежных правилах агрегирования градиентов. ^[55]^[56]^[57]^[58]^[59]^[60] Надежные правила агрегирования не всегда работают, особенно когда данные между участниками имеют распределение, отличное от iid. Тем не менее, в контексте гетерогенных честных участников, таких как пользователи с разными привычками потребления рекомендательных алгоритмов или стилями написания языковых моделей, существуют доказуемые теоремы невозможности того, что может гарантировать любой надежный алгоритм обучения. ^[5]^[61]

Уклонение [ править ]

Уклонение от атак ^[9]^[42]^[43]^[62] заключаются в эксплуатации несовершенства обученной модели. Например, спамеры и хакеры часто пытаются избежать обнаружения, скрывая содержимое спам-сообщений и вредоносных программ . Образцы модифицируются, чтобы избежать обнаружения; то есть быть классифицированным как законное. Это не предполагает влияния на данные обучения. Ярким примером уклонения является спам на основе изображений , в котором спам-контент встраивается в прикрепленное изображение, чтобы избежать текстового анализа антиспамовыми фильтрами. Другим примером уклонения являются спуфинговые атаки на системы биометрической верификации. ^[23]

Атаки уклонения можно разделить на две категории: атаки «черного ящика» и атаки «белого ящика» . ^[17]

Извлечение модели [ править ]

Извлечение модели предполагает, что злоумышленник исследует систему машинного обучения «черный ящик», чтобы извлечь данные, на которых она обучалась. ^[63]^[64] Это может вызвать проблемы, если данные обучения или сама модель являются конфиденциальными. Например, извлечение модели может быть использовано для извлечения собственной модели торговли акциями, которую злоумышленник затем сможет использовать для собственной финансовой выгоды.

В крайнем случае извлечение модели может привести к краже модели , что соответствует извлечению достаточного объема данных из модели, чтобы обеспечить полную реконструкцию модели.

С другой стороны, вывод о членстве — это целевая атака с извлечением модели, которая позволяет определить владельца точки данных, часто используя переобучение, возникающее в результате плохой практики машинного обучения. ^[65] К сожалению, иногда это достижимо даже без знания или доступа к параметрам целевой модели, что вызывает проблемы безопасности для моделей, обученных на конфиденциальных данных, включая, помимо прочего, медицинские записи и/или личную информацию. С появлением трансферного обучения и публичной доступности многих современных моделей машинного обучения технологические компании все чаще склоняются к созданию моделей на основе общедоступных моделей, предоставляя злоумышленникам свободно доступную информацию о структуре и типе используемой модели. ^[65]

Категории [ править ]

обучение с Состязательное глубоким подкреплением

Состязательное глубокое обучение с подкреплением — это активная область исследований в области обучения с подкреплением, в которой основное внимание уделяется уязвимостям изученных политик. Некоторые исследования в этой области исследований изначально показали, что политика обучения с подкреплением подвержена незаметным состязательным манипуляциям. ^[66]^[67] Хотя были предложены некоторые методы для преодоления этой уязвимости, в самых последних исследованиях было показано, что эти предлагаемые решения далеки от точного представления текущих уязвимостей политики глубокого обучения с подкреплением. ^[68]

естественного Состязательная обработка языка

Состязательные атаки на распознавание речи были введены для приложений преобразования речи в текст, в частности для реализации DeepSpeech в Mozilla. ^[69]

Состязательные атаки и обучение на линейных моделях [ править ]

Растет количество литературы о состязательных атаках в линейные модели. Действительно, поскольку плодотворная работа Goodfellow et al. ^[70] изучение этих моделей в линейных моделях стало важным инструментом для понимания того, как состязательные атаки влияют на модели машинного обучения. Анализ этих моделей упрощается, поскольку расчет состязательных атак можно упростить с помощью задач линейной регрессии и классификации. Более того, в этом случае состязательное обучение является выпуклым. ^[71]

Линейные модели позволяют проводить аналитический анализ, воспроизводя при этом явления, наблюдаемые в современных моделях.Ярким примером этого является то, как эту модель можно использовать для объяснения компромисса между надежностью и точностью. ^[72] Действительно, разнообразная работа обеспечивает анализ состязательных атак в линейных моделях, включая асимптотический анализ для классификации. ^[73] и для линейной регрессии. ^[74]^[75] И анализ конечной выборки, основанный на сложности Радемахера. ^[76]

Конкретные типы атак [ править ]

Существует большое количество различных состязательных атак, которые можно использовать против систем машинного обучения. Многие из них работают как с системами глубокого обучения , так и с традиционными моделями машинного обучения, такими как SVM. ^[8] и линейная регрессия . ^[77] Примеры этих типов атак высокого уровня включают в себя:

Состязательные примеры ^[78]
Троянские атаки/бэкдор-атаки ^[79]
Инверсия модели ^[80]
Вывод о членстве ^[81]

Состязательные примеры [ править ]

Состязательный пример относится к специально созданным входным данным, которые выглядят «нормальными» для людей, но приводят к неправильной классификации в модели машинного обучения. Часто для выявления неправильных классификаций используется форма специально разработанного «шума». Ниже приведены некоторые современные методы создания состязательных примеров в литературе (ни в коем случае не исчерпывающий список).

Градиентная атака уклонения ^[9]
Метод быстрого знака градиента (FGSM) ^[82]
Прогнозируемый градиентный спуск (ПГД) ^[83]
Карлини и Вагнер (C&W) атакуют ^[84]
Состязательная патч-атака ^[85]

Атаки черного ящика [ править ]

Атаки «черного ящика» в состязательном машинном обучении предполагают, что злоумышленник может получать выходные данные только для предоставленных входных данных и не имеет знаний о структуре или параметрах модели. ^[17]^[86] В этом случае состязательный пример генерируется либо с использованием модели, созданной с нуля, либо вообще без какой-либо модели (исключая возможность запроса исходной модели). В любом случае целью этих атак является создание состязательных примеров, которые можно перенести на рассматриваемую модель черного ящика. ^[87]

Квадратная атака [ править ]

Square Attack была представлена в 2020 году как состязательная атака с целью уклонения от черного ящика, основанная на запросе классификационных оценок без необходимости использования информации о градиенте. ^[88] Этот состязательный подход, основанный на атаке черного ящика на основе оценок, позволяет запрашивать распределения вероятностей по выходным классам модели, но не имеет другого доступа к самой модели. По словам авторов статьи, предлагаемая Square Attack требовала меньшего количества запросов, чем по сравнению с современными атаками черного ящика на основе оценок на тот момент. ^[88]

Чтобы описать цель функции, атака определяет классификатор как ${\textstyle f:[0,1]^{d}\rightarrow \mathbb {R} ^{K}}$ , с ${\textstyle d}$ представляющие размеры ввода и ${\textstyle K}$ как общее количество выходных классов. ${\textstyle f_{k}(x)}$ возвращает оценку (или вероятность от 0 до 1) того, что входные данные ${\textstyle x}$ принадлежит к классу ${\textstyle k}$ , что позволяет классификатору выводить класс для любого ввода ${\textstyle x}$ быть определен как ${\textstyle {\text{argmax}}_{k=1,...,K}f_{k}(x)}$ . Цель этой атаки следующая: ^[88]

{\text{argmax}}_{k=1,...,K}f_{k}({\hat {x}})\neq y,||{\hat {x}}-x||_{p}\leq \epsilon {\text{ and }}{\hat {x}}\in [0,1]^{d}

Другими словами, нахождение какого-то возмущенного состязательного примера ${\textstyle {\hat {x}}}$ так что классификатор неправильно относит его к какому-либо другому классу при условии, что ${\textstyle {\hat {x}}}$ и ${\textstyle x}$ похожи. Затем в документе определяются потери ${\textstyle L}$ как ${\textstyle L(f({\hat {x}}),y)=f_{y}({\hat {x}})-\max _{k\neq y}f_{k}({\hat {x}})}$ и предлагает решение для поиска состязательного примера ${\textstyle {\hat {x}}}$ как решение следующей задачи ограниченной оптимизации : ^[88]

\min _{{\hat {x}}\in [0,1]^{d}}L(f({\hat {x}}),y),{\text{ s.t. }}||{\hat {x}}-x||_{p}\leq \epsilon

Теоретически результатом является состязательный пример, который очень уверен в неправильном классе, но при этом очень похож на исходное изображение. Чтобы найти такой пример, Square Attack использует метод итеративного случайного поиска , чтобы случайным образом исказить изображение в надежде улучшить целевую функцию. На каждом этапе алгоритм возмущает только небольшую квадратную часть пикселей, отсюда и название Square Attack, которая прекращается, как только обнаруживается состязательный пример, чтобы повысить эффективность запроса. Наконец, поскольку алгоритм атаки использует оценки, а не информацию о градиенте, авторы статьи указывают, что на этот подход не влияет градиентная маскировка — распространенный метод, ранее использовавшийся для предотвращения атак уклонения. ^[88]

Атака HopSkipJump [ править ]

Эта атака «черного ящика» также была предложена как атака, эффективная для запросов, но она основана исключительно на доступе к прогнозируемому выходному классу любого входного сигнала. Другими словами, атака HopSkipJump не требует возможности расчета градиентов или доступа к значениям оценок, как, например, Square Attack, и потребует только выходных данных прогнозирования класса модели (для любого заданного входного сигнала). Предлагаемая атака разделена на две разные настройки: целевую и нецелевую, но обе построены на общей идее добавления минимальных возмущений, которые приводят к различным результатам модели. В целевой настройке цель состоит в том, чтобы заставить модель неправильно классифицировать искаженное изображение по определенной целевой метке (которая не является исходной меткой). В нецелевых настройках цель состоит в том, чтобы заставить модель неправильно классифицировать искаженное изображение по любой метке, которая не является исходной меткой. Цели атаки для обоих заключаются в следующем: ${\textstyle x}$ это исходное изображение, ${\textstyle x^{\prime }}$ это враждебный образ, ${\textstyle d}$ — функция расстояния между изображениями, ${\textstyle c^{*}}$ является целевой меткой, и ${\textstyle C}$ — это функция метки класса классификации модели: ^[89]

{\textbf {Targeted:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })=c^{*}

{\textbf {Untargeted:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })\neq C(x)

Для решения этой проблемы атака предлагает следующую граничную функцию ${\textstyle S}$ как для нецелевой, так и для целевой настройки: ^[89]

S(x^{\prime }):={\begin{cases}\max _{c\neq C(x)}{F(x^{\prime })_{c}}-F(x^{\prime })_{C(x)},&{\text{(Untargeted)}}\\F(x^{\prime })_{c^{*}}-\max _{c\neq c^{*}}{F(x^{\prime })_{c}},&{\text{(Targeted)}}\end{cases}}

Это можно еще больше упростить, чтобы лучше визуализировать границу между различными потенциально состязательными примерами: ^[89]

S(x^{\prime })>0\iff {\begin{cases}argmax_{c}F(x^{\prime })\neq C(x),&{\text{(Untargeted)}}\\argmax_{c}F(x^{\prime })=c^{*},&{\text{(Targeted)}}\end{cases}}

Используя эту граничную функцию, атака затем следует итерационному алгоритму для поиска состязательных примеров. ${\textstyle x^{\prime }}$ для данного изображения ${\textstyle x}$ который удовлетворяет целям атаки.

Инициализировать ${\textstyle x}$ в какой-то момент, где ${\textstyle S(x)>0}$
Повторите ниже
1. Граничный поиск
2. Обновление градиента
  - Вычислить градиент
  - Найдите размер шага

Поиск границы использует модифицированный двоичный поиск , чтобы найти точку, в которой находится граница (как определено ${\textstyle S}$ ) пересекается с линией между ${\textstyle x}$ и ${\textstyle x^{\prime }}$ . Следующий шаг включает в себя расчет градиента для ${\textstyle x}$ и обновите исходный ${\textstyle x}$ используя этот градиент и заранее выбранный размер шага. Авторы HopSkipJump доказывают, что этот итеративный алгоритм сходится, что приводит к ${\textstyle x}$ в точку прямо вдоль границы, которая очень близка по расстоянию к исходному изображению. ^[89]

Однако, поскольку HopSkipJump — это предлагаемая атака «черного ящика», а приведенный выше итерационный алгоритм требует расчета градиента на втором итерационном шаге (к которому атаки «черного ящика» не имеют доступа), авторы предлагают решение для расчета градиента, которое требует только только выходные прогнозы модели. ^[89] Генерируя множество случайных векторов во всех направлениях, обозначаемых как ${\textstyle u_{b}}$ аппроксимацию градиента можно рассчитать, используя среднее значение этих случайных векторов, взвешенных по знаку граничной функции на изображении ${\textstyle x^{\prime }+\delta _{u_{b}}}$ , где ${\textstyle \delta _{u_{b}}}$ — размер случайного векторного возмущения: ^[89]

\nabla S(x^{\prime },\delta )\approx {\frac {1}{B}}\sum _{b=1}^{B}\phi (x^{\prime }+\delta _{u_{b}})u_{b}

Результат приведенного выше уравнения дает близкое приближение к градиенту, необходимому на этапе 2 итерационного алгоритма, завершая HopSkipJump как атаку черного ящика. ^[90]^[91]^[89]

Атаки белого ящика [ править ]

Атаки «белого ящика» предполагают, что злоумышленник имеет доступ к параметрам модели, а также возможность получать метки для предоставленных входных данных. ^[87]

знака Метод градиентного быстрого

Одну из первых предложенных атак для генерации состязательных примеров предложили исследователи Google Ян Дж. Гудфеллоу , Джонатон Шленс и Кристиан Сегеди. ^[92] Атака получила название метода быстрых градиентных знаков (FGSM), и она заключается в добавлении к изображению линейного количества незаметного шума и вынуждении модели неправильно его классифицировать. Этот шум вычисляется путем умножения знака градиента изображения, которое мы хотим исказить, на небольшое постоянное эпсилон. По мере увеличения эпсилона вероятность того, что модель будет обманута, возрастает, но и возмущения становится легче выявлять. Ниже показано уравнение для создания состязательного примера, где ${\textstyle x}$ это исходное изображение, ${\textstyle \epsilon }$ это очень небольшое число, ${\textstyle \Delta _{x}}$ — функция градиента, ${\textstyle J}$ – функция потерь, ${\textstyle \theta }$ - вес модели, и ${\textstyle y}$ это настоящая этикетка. ^[93]^[94]

adv_{x}=x+\epsilon \cdot sign(\Delta _{x}J(\theta ,x,y))

Одним из важных свойств этого уравнения является то, что градиент рассчитывается относительно входного изображения, поскольку цель состоит в том, чтобы создать изображение, которое максимизирует потери для исходного изображения истинной метки. ${\textstyle y}$ . При традиционном градиентном спуске (для обучения модели) градиент используется для обновления весов модели, поскольку цель состоит в том, чтобы минимизировать потери модели в базовом наборе данных. Метод быстрого знака градиента был предложен как быстрый способ создания состязательных примеров для обхода модели, основанный на гипотезе о том, что нейронные сети не могут противостоять даже линейному возмущению входных данных. ^[93]^[94]^[92] FGSM доказал свою эффективность при состязательных атаках на классификацию изображений и распознавание скелетных действий. ^[95]

Карлини и Вагнер (C&W) [ править ]

Стремясь проанализировать существующие состязательные атаки и средства защиты, исследователи из Калифорнийского университета в Беркли Николас Карлини и Дэвид Вагнер в 2016 году предложили более быстрый и надежный метод создания состязательных примеров. ^[96]

Атака, предложенная Карлини и Вагнером, начинается с попытки решить сложное уравнение нелинейной оптимизации: ^[64]

\min(||\delta ||_{p}){\text{ subject to }}C(x+\delta )=t,x+\delta \in [0,1]^{n}

Здесь цель состоит в том, чтобы минимизировать шум ( ${\textstyle \delta }$ ), добавленный к исходному вводу ${\textstyle x}$ , такой, что алгоритм машинного обучения ( ${\textstyle C}$ ) прогнозирует исходный ввод с дельтой (или ${\textstyle x+\delta }$ ) как какой-то другой класс ${\textstyle t}$ . Однако вместо непосредственно приведенного выше уравнения Карлини и Вагнер предлагают использовать новую функцию ${\textstyle f}$ такой, что: ^[64]

C(x+\delta )=t\iff f(x+\delta )\leq 0

Это сводит первое уравнение к следующей задаче: ^[64]

\min(||\delta ||_{p}){\text{ subject to }}f(x+\delta )\leq 0,x+\delta \in [0,1]^{n}

и даже больше к уравнению ниже: ^[64]

\min(||\delta ||_{p}+c\cdot f(x+\delta )),x+\delta \in [0,1]^{n}

Затем Карлини и Вагнер предлагают использовать приведенную ниже функцию вместо ${\textstyle f}$ с использованием ${\textstyle Z}$ , функция, которая определяет вероятности классов для заданных входных данных ${\textstyle x}$ . При подстановке это уравнение можно рассматривать как поиск целевого класса, который более уверен, чем следующий наиболее вероятный класс, на некоторую постоянную величину: ^[64]

f(x)=([\max _{i\neq t}Z(x)_{i}]-Z(x)_{t})^{+}

При решении с использованием градиентного спуска это уравнение способно генерировать более сильные состязательные примеры по сравнению с методом быстрого знака градиента, который также способен обойти защитную дистилляцию - защиту, которая когда-то считалась эффективной против состязательных примеров. ^[97]^[98]^[96]^[64]

Защита [ править ]

Исследователи предложили многоэтапный подход к защите машинного обучения. ^[11]

Моделирование угроз. Формализуйте цели и возможности злоумышленников в отношении целевой системы.
Моделирование атаки. Формализуйте задачу оптимизации, которую пытается решить злоумышленник, в соответствии с возможными стратегиями атаки.
Оценка воздействия атаки
Дизайн противодействия
Обнаружение шума (для атаки, основанной на уклонении) ^[99]
Отмывание информации – изменение информации, полученной злоумышленниками (для атак с кражей модели). ^[64]

Механизмы [ править ]

Был предложен ряд защитных механизмов против уклонения, отравления и атак на конфиденциальность, в том числе:

Алгоритмы безопасного обучения ^[20]^[100]^[101]
Византийско-устойчивые алгоритмы ^[55]^[5]
Множественные системы классификаторов ^[19]^[102]
Алгоритмы, написанные ИИ. ^[34]
ИИ, которые исследуют среду обучения; например, при распознавании изображений — активное перемещение по 3D-среде, а не пассивное сканирование фиксированного набора 2D-изображений. ^[34]
Обучение с сохранением конфиденциальности ^[43]^[103]
Лестничный алгоритм для Kaggle соревнований в стиле
Теоретико-игровые модели ^[104]^[105]^[106]
Очистка данных обучения
Состязательное обучение ^[82]^[22]
Алгоритмы обнаружения бэкдоров ^[107]
Методы маскировки/запутывания градиента: предотвращают использование злоумышленником градиента в атаках методом «белого ящика». Это семейство средств защиты считается ненадежным, поскольку эти модели по-прежнему уязвимы для атак «черного ящика» или их можно обойти другими способами. ^[108]
ансамбли моделей, но следует проявлять осторожность, полагаясь на них: обычно объединение слабых классификаторов приводит к более точной модели, но, похоже, не применимо в состязательном контексте. В литературе предлагались ^[109]

См. также [ править ]

Ссылки [ править ]

^ Кианпур, Мазахер; Вэнь, Шао-Фан (2020). «Временные атаки на машинное обучение: современное состояние». Интеллектуальные системы и приложения . Достижения в области интеллектуальных систем и вычислений. Том. 1037. стр. 111–125. дои : 10.1007/978-3-030-29516-5_10 . ISBN 978-3-030-29515-8 . S2CID 201705926 .
^ Jump up to: Перейти обратно: ^а ^б Шива Кумар, Рам Шанкар; Нистрем, Магнус; Ламберт, Джон; Маршалл, Эндрю; Герцель, Марио; Комиссонеру, Анди; Суонн, Мэтт; Ся, Шэрон (май 2020 г.). «Перспективы отрасли состязательного машинного обучения» . Семинары IEEE по безопасности и конфиденциальности (SPW) 2020 года . стр. 69–75. дои : 10.1109/SPW50608.2020.00028 . ISBN 978-1-7281-9346-5 . S2CID 229357721 .
^ Гудфеллоу, Ян; Макдэниел, Патрик; Паперно, Николас (25 июня 2018 г.). «Как сделать машинное обучение устойчивым к враждебным воздействиям» . Коммуникации АКМ . 61 (7): 56–66. дои : 10.1145/3134599 . ISSN 0001-0782 . ^{[ постоянная мертвая ссылка ]}
^ Гейпинг, Йонас; Фаул, Лиам Х.; Хуанг, В. Ронни; Чая, Войцех; Тейлор, Гэвин; Мёллер, Майкл; Гольдштейн, Том (28 сентября 2020 г.). Ведьмин напиток: отравление данных промышленного масштаба с помощью сопоставления градиентов . Международная конференция по изучению представлений 2021 (постер).
^ Jump up to: Перейти обратно: ^а ^б ^с Эль-Мхамди, Эль-Махди; Фархадхани, Садег; Геррауи, Рашид; Гирги, Арсани; Хоанг, Ле-Нгуен; Руо, Себастьян (06 декабря 2021 г.). «Совместное обучение в джунглях (децентрализованное, византийское, гетерогенное, асинхронное и невыпуклое обучение)» . Достижения в области нейронных систем обработки информации . 34 . arXiv : 2008.00742 .
^ Трамер, Флориан; Чжан, Фань; Джулс, Ари; Райтер, Майкл К.; Ристенпарт, Томас (2016). Кража моделей машинного обучения с помощью прогнозирования {API} . 25-й симпозиум USENIX по безопасности. стр. 601–618. ISBN 978-1-931971-32-4 .
^ «Как победить адаптивный/байесовский спам-фильтр (2004)» . Проверено 5 июля 2023 г.
^ Jump up to: Перейти обратно: ^а ^б Биджио, Баттиста; Нельсон, Блейн; Ласков, Павел (25 марта 2013 г.). «Отравляющие атаки на машины опорных векторов». arXiv : 1206.6389 [ cs.LG ].
^ Jump up to: Перейти обратно: ^а ^б ^с Биджио, Баттиста; Корона, Игино; Майорка, Давиде; Нельсон, Блейн; Срндич, Недим; Ласков, Павел; Джачинто, Джорджо; Роли, Фабио (2013). «Атаки уклонения от машинного обучения во время тестирования». Инженерия передовых информационных систем . Конспекты лекций по информатике. Том. 7908. Спрингер. стр. 387–402. arXiv : 1708.06131 . дои : 10.1007/978-3-642-40994-3_25 . ISBN 978-3-642-38708-1 . S2CID 18716873 .
^ Сегеди, Кристиан; Заремба, Войцех; Суцкевер, Илья; Бруна, Джоан; Эрхан, Дмитрий; Гудфеллоу, Ян; Фергюс, Роб (19 февраля 2014 г.). «Интригующие свойства нейронных сетей». arXiv : 1312.6199 [ cs.CV ].
^ Jump up to: Перейти обратно: ^а ^б Биджио, Баттиста; Роли, Фабио (декабрь 2018 г.). «Дикие закономерности: десять лет после появления состязательного машинного обучения». Распознавание образов . 84 : 317–331. arXiv : 1712.03141 . Бибкод : 2018PatRe..84..317B . дои : 10.1016/j.patcog.2018.07.023 . S2CID 207324435 .
^ Куракин Алексей; Гудфеллоу, Ян; Бенджио, Сами (2016). «Состязательные примеры в физическом мире». arXiv : 1607.02533 [ cs.CV ].
^ Гупта, Кишор Датта, Дипанкар Дасгупта и Захид Ахтар. «Вопросы применимости состязательных атак, основанных на уклонении, и методов смягчения их последствий». Серия симпозиумов IEEE 2020 года по вычислительному интеллекту (SSCI). 2020.
^ Jump up to: Перейти обратно: ^а ^б Лим, Хейзел Си Мин; Тайхах, Араз (2019). «Алгоритмическое принятие решений в беспилотных автомобилях: понимание этических и технических проблем для умных городов» . Устойчивость . 11 (20): 5791. arXiv : 1910.13122 . Бибкод : 2019arXiv191013122L . дои : 10.3390/su11205791 . S2CID 204951009 .
^ Jump up to: Перейти обратно: ^а ^б «Николас Фросст из Google Brain о состязательных примерах и эмоциональных реакциях» . Синхронизировано . 21.11.2019 . Проверено 23 октября 2021 г.
^ «Ответственная практика ИИ» . Гугл ИИ . Проверено 23 октября 2021 г.
^ Jump up to: Перейти обратно: ^а ^б ^с Adversarial Robustness Toolbox (ART) v1.8 , Trusted-AI, 23 октября 2021 г. , получено 23 октября 2021 г.
^ амаршал. «Режимы сбоя в машинном обучении — документация по безопасности» . docs.microsoft.com . Проверено 23 октября 2021 г.
^ Jump up to: Перейти обратно: ^а ^б Биджио, Баттиста; Фумера, Джорджио; Роли, Фабио (2010). «Множественные системы классификаторов для надежной разработки классификаторов в состязательных средах» . Международный журнал машинного обучения и кибернетики . 1 (1–4): 27–41. дои : 10.1007/s13042-010-0007-7 . hdl : 11567/1087824 . ISSN 1868-8071 . S2CID 8729381 . Архивировано из оригинала 19 января 2023 г. Проверено 14 января 2015 г.
^ Jump up to: Перейти обратно: ^а ^б Брюкнер, Михаэль; Канзов, Кристиан; Шеффер, Тобиас (2012). «Статические игры-прогнозы для задач состязательного обучения» (PDF) . Журнал исследований машинного обучения . 13 (сентябрь): 2617–2654 гг. ISSN 1533-7928 .
^ Апруццезе, Джованни; Андреолини, Мауро; Ферретти, Лука; Маркетти, Мирко; Колаянни, Микеле (3 июня 2021 г.). «Моделирование реалистичных состязательных атак на системы обнаружения сетевых вторжений». Цифровые угрозы: исследования и практика . 3 (3): 1–19. arXiv : 2106.09380 . дои : 10.1145/3469659 . ISSN 2692-1626 . S2CID 235458519 .
^ Jump up to: Перейти обратно: ^а ^б Виторино, Жуан; Оливейра, Нуно; Праса, Изабель (март 2022 г.). «Адаптивные шаблоны возмущений: реалистичное состязательное обучение для надежного обнаружения вторжений» . Будущий Интернет . 14 (4): 108. дои : 10.3390/fi14040108 . hdl : 10400.22/21851 . ISSN 1999-5903 .
^ Jump up to: Перейти обратно: ^а ^б Родригес, Рикардо Н.; Линг, Ли Луан; Говиндараджу, Вену (1 июня 2009 г.). «Надежность методов мультимодального биометрического синтеза против поддельных атак» (PDF) . Журнал визуальных языков и вычислений . 20 (3): 169–179. дои : 10.1016/j.jvlc.2009.01.010 . ISSN 1045-926X .
^ Су, Цзявэй; Варгас, Данило Васконселлос; Сакураи, Коичи (октябрь 2019 г.). «Однопиксельная атака для обмана глубоких нейронных сетей». Транзакции IEEE в эволюционных вычислениях . 23 (5): 828–841. arXiv : 1710.08864 . дои : 10.1109/TEVC.2019.2890858 . ISSN 1941-0026 . S2CID 2698863 .
^ «Изменение одного пикселя обманывает программы искусственного интеллекта» . Новости Би-би-си . 3 ноября 2017 года . Проверено 12 февраля 2018 г.
^ Аталия, Аниш; Энгстрем, Логан; Ильяс, Андрей; Квок, Кевин (2017). «Синтез надежных состязательных примеров». arXiv : 1707.07397 [ cs.CV ].
^ «У искусственного интеллекта есть проблема с галлюцинациями, которую трудно решить» . ПРОВОДНОЙ . 2018 . Проверено 10 марта 2018 г.
^ Чжоу, Чжэнлун; Файерстоун, Чаз (2019). «Люди могут расшифровывать враждебные изображения» . Природные коммуникации . 10 (1): 1334. arXiv : 1809.04120 . Бибкод : 2019NatCo..10.1334Z . дои : 10.1038/s41467-019-08931-6 . ПМК 6430776 . ПМИД 30902973 .
^ Джайн, Анант (9 февраля 2019 г.). «Взлом нейронных сетей с помощью состязательных атак – На пути к науке о данных» . Середина . Проверено 15 июля 2019 г.
^ Акерман, Эван (4 августа 2017 г.). «Незначительные модификации уличных знаков могут полностью обмануть алгоритмы машинного обучения» . IEEE Spectrum: Новости технологий, техники и науки . Проверено 15 июля 2019 г.
^ «Крошечный кусочек ленты обманом заставил Tesla разогнаться до скорости 50 миль в час» . Проводной . 2020 . Проверено 11 марта 2020 г.
^ «Взлом модели ADAS для создания более безопасных дорог для беспилотных транспортных средств» . Блоги McAfee . 19 февраля 2020 г. Проверено 11 марта 2020 г.
^ Сибрук, Джон (2020). «Одежда для эпохи наблюдения» . Житель Нью-Йорка . Проверено 5 апреля 2020 г.
^ Jump up to: Перейти обратно: ^а ^б ^с Небеса, Дуглас (октябрь 2019 г.). «Почему ИИ с глубоким обучением так легко обмануть». Природа . 574 (7777): 163–166. Бибкод : 2019Natur.574..163H . дои : 10.1038/d41586-019-03013-5 . ПМИД 31597977 . S2CID 203928744 .
^ Хатсон, Мэтью (10 мая 2019 г.). «Теперь ИИ может защитить себя от вредоносных сообщений, скрытых в речи». Природа . дои : 10.1038/d41586-019-01510-1 . ПМИД 32385365 . S2CID 189666088 .
^ Лепори, Майкл А; Файерстоун, Чаз (27 марта 2020 г.). «Ты меня сейчас слышишь? Чувствительное сравнение человеческого и машинного восприятия». arXiv : 2003.12362 [ eess.AS ].
^ Вадилло, Джон; Сантана, Роберто (23 января 2020 г.). «О человеческой оценке аудио-состязательных примеров». arXiv : 2001.08444 [ eess.AS ].
^ ДБ Скилликорн. «Обнаружение состязательных знаний». Интеллектуальные системы IEEE, 24:54–61, 2009.
^ Jump up to: Перейти обратно: ^а ^б Б. Биджио, Г. Фумера и Ф. Роли. « Системы распознавания образов под атакой: проблемы проектирования и задачи исследования. Архивировано 20 мая 2022 г. в Wayback Machine ». Международный Дж. Пэтт. Признать. Артиф. Интел., 28(7):1460002, 2014.
^ Jump up to: Перейти обратно: ^а ^б Баррено, Марко; Нельсон, Блейн; Джозеф, Энтони Д.; Тайгар, доктор юридических наук (2010). «Безопасность машинного обучения» (PDF) . Машинное обучение . 81 (2): 121–148. дои : 10.1007/s10994-010-5188-5 . S2CID 2304759 .
^ Сикос, Лесли Ф. (2019). ИИ в кибербезопасности . Справочная библиотека интеллектуальных систем. Том. 151. Чам: Спрингер. п. 50. дои : 10.1007/978-3-319-98842-9 . ISBN 978-3-319-98841-2 . S2CID 259216663 .
^ Jump up to: Перейти обратно: ^а ^б ^с Б. Биджио, Г. Фумера и Ф. Роли. « Оценка безопасности классификаторов шаблонов, подвергшихся атаке. Архивировано 18 мая 2018 г. на Wayback Machine ». IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Биджио, Баттиста; Корона, Игино; Нельсон, Блейн; Рубинштейн, Беньямин И.П.; Майорка, Давиде; Фумера, Джорджио; Джачинто, Джорджо; Роли, Фабио (2014). «Оценка безопасности машин опорных векторов в состязательных средах». Приложения для машин опорных векторов . Международное издательство Спрингер. стр. 105–153. arXiv : 1401.7727 . дои : 10.1007/978-3-319-02300-7_4 . ISBN 978-3-319-02300-7 . S2CID 18666561 .
^ Генрих, Кай; Граф, Йоханнес; Чен, Цзи; Лауриш, Якоб; Зшех, Патрик (15 июня 2020 г.). «Обмани меня один раз, стыдно тебе, обмануй меня дважды, стыдно мне: классификация моделей атак и защиты для безопасности ИИ» . Исследования ECIS 2020 .
^ «Facebook удалил 15 миллиардов фейковых аккаунтов за два года» . Технический дайджест . 27 сентября 2021 г. Проверено 8 июня 2022 г.
^ «Facebook удалил 3 миллиарда фейковых аккаунтов всего за 6 месяцев» . Нью-Йорк Пост . Ассошиэйтед Пресс. 23 мая 2019 г. Проверено 8 июня 2022 г.
^ Шварцшильд, Ави; Голдблюм, Мика; Гупта, Арджун; Дикерсон, Джон П.; Гольдштейн, Том (01 июля 2021 г.). «Насколько токсично отравление данных? Единый эталон для бэкдоров и атак с отравлением данных» . Международная конференция по машинному обучению . ПМЛР: 9389–9398.
^ Б. Биджио, Б. Нельсон и П. Ласков. « Машины опорных векторов под состязательным ярлыком шума. Архивировано 3 августа 2020 г. в Wayback Machine ». В журнале исследований машинного обучения – учеб. 3-я Азиатская конференция. Машинное обучение, том 20, стр. 97–112, 2011 г.
^ М. Клофт и П. Ласков. « Анализ безопасности онлайн-обнаружения аномалий центроида ». Журнал исследований машинного обучения, 13:3647–3690, 2012.
^ Моисеев, Илья (15 июля 2019 г.). «Отравляющие атаки на машинное обучение – на пути к науке о данных» . Середина . Проверено 15 июля 2019 г.
^ Эдвардс, Бендж (25 октября 2023 г.). «Исследователи Чикагского университета стремятся «отравить» генераторы искусств искусственного интеллекта с помощью Nightshade» . Арс Техника . Проверено 27 октября 2023 г.
^ Барух, Гилад; Барух, Моран; Гольдберг, Йоав (2019). «Достаточно немного: обход средств защиты для распределенного обучения» . Достижения в области нейронных систем обработки информации . 32 . Curran Associates, Inc. arXiv : 1902.06156 .
^ Эль-Мхамди, Эль-Махди; Геррауи, Рашид; Гирги, Арсани; Хоанг, Ле-Нгуен; Руо, Себастьян (26 мая 2022 г.). «Истинно распределенное византийское машинное обучение» . Распределенные вычисления . 35 (4): 305–331. arXiv : 1905.03853 . дои : 10.1007/s00446-022-00427-9 . ISSN 1432-0452 . S2CID 249111966 .
^ Гольдвассер, С.; Ким, Майкл П.; Вайкунтанатан, В.; Замир, Ор (2022). «Внедрение необнаружимых бэкдоров в моделях машинного обучения». arXiv : 2204.06974 [ cs.LG ].
^ Jump up to: Перейти обратно: ^а ^б Бланшар, Пева; Эль Мхамди, Эль Махди; Геррауи, Рашид; Стейнер, Жюльен (2017). «Машинное обучение с противниками: византийский толерантный градиентный спуск» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
^ Чен, Линцзяо; Ван, Хонги; Чарльз, Закари; Папалиопулос, Димитрис (3 июля 2018 г.). «ДРАКО: Византийско-устойчивое распределенное обучение с помощью избыточных градиентов» . Международная конференция по машинному обучению . ПМЛР: 903–912. arXiv : 1803.09877 .
^ Мхамди, Эль Махди Эль; Геррауи, Рашид; Руо, Себастьян (3 июля 2018 г.). «Скрытая уязвимость распределенного обучения в Византии» . Международная конференция по машинному обучению . ПМЛР: 3521–3530. arXiv : 1802.07927 .
^ Аллен-Чжу, Цзэюань; Эбрахимиангазани, Фаэзе; Ли, Джерри; Алистарх, Дэн (28 сентября 2020 г.). «Византийско-устойчивый невыпуклый стохастический градиентный спуск». arXiv : 2012.14368 [ cs.LG ]. Обзор
^ Мхамди, Эль Махди Эль; Геррауи, Рашид; Руо, Себастьян (28 сентября 2020 г.). Распределенный импульс для византийско-устойчивого стохастического градиентного спуска . 9-я Международная конференция по обучению представлениям (ICLR), 4-8 мая 2021 г. (виртуальная конференция) . Проверено 20 октября 2022 г. Обзор
^ Дейта, Дипеш; Диггави, Сухас (01 июля 2021 г.). «Византийско-устойчивый многомерный SGD с локальными итерациями на гетерогенных данных» . Международная конференция по машинному обучению . ПМЛР: 2478–2488.
^ Кариредди, Сай Пранит; Он, Ложь; Джагги, Мартин (29 сентября 2021 г.). «Византийско-робастное обучение гетерогенных наборов данных с помощью группирования». arXiv : 2006.09365 [ cs.LG ]. Обзор
^ Б. Нельсон, Б. И. Рубинштейн, Л. Хуанг, А. Д. Джозеф, С. Дж. Ли, С. Рао и Дж. Д. Тайгар. « Стратегии запросов для обхода классификаторов, вызывающих выпуклость ». Дж. Мах. Учиться. Рез., 13:1293–1332, 2012 г.
^ «Как украсть современные системы НЛП с помощью тарабарщины?» . smarthans-блог . 06.04.2020 . Проверено 15 октября 2020 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час Ван, Сян, Ю; Гао, Цзюнь; Дин, Цзе (13 сентября 2020 г.). «Отмывание информации обеспечения для моделей . » конфиденциальности
^ Jump up to: Перейти обратно: ^а ^б Диксон, Бен (23 апреля 2021 г.). «Машинное обучение: что такое атаки на основе вывода о членстве?» . Технические переговоры . Проверено 7 ноября 2021 г.
^ Гудфеллоу, Ян; Шленс, Джонатан; Сегеди, Кристиан (2015). «Объяснение и использование состязательных примеров». Международная конференция по обучению представлений . arXiv : 1412.6572 .
^ Питер, Хуанг; Пейпернот, Сэнди; Гудфеллоу, Николас; Дуан, Ян; Аббель, Ян (07 февраля 2017 г.). Состязательные атаки на политики нейронных сетей . OCLC 1106256905 .
^ Коркмаз, Эзги (2022). «Политики глубокого обучения с подкреплением изучают общие состязательные функции в MDP». Тридцать шестая конференция AAAI по искусственному интеллекту (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . дои : 10.1609/aaai.v36i7.20684 . S2CID 245219157 .
^ Карлини, Николас; Вагнер, Дэвид (2018). «Примеры состязательного аудио: целевые атаки на преобразование речи в текст». Семинары IEEE по безопасности и конфиденциальности (SPW) , 2018 г. стр. 1–7. arXiv : 1801.01944 . дои : 10.1109/SPW.2018.00009 . ISBN 978-1-5386-8276-0 . S2CID 4475201 .
^ Гудфеллоу, Ян Дж.; Шленс, Джонатон; Сегеди, Кристиан (2015). Объяснение и использование состязательных примеров . Международная конференция по обучению представлений (ICLR).
^ Рибейро, Антонио Х.; Захария, Дэйв; Бах, Фрэнсис; Шен, Томас Б. (2023). Свойства регуляризации состязательно обученной линейной регрессии . Тридцать седьмая конференция по нейронным системам обработки информации.
^ Ципрас, Димитрис; Сантуркар, Шибани; Энгстрем, Логан; Тернер, Александр; Ма, Александр (2019). Надежность может противоречить точности . Международная конференция по изучению представлений.
^ Дэн, К.; Вэй, Ю.; Равикумар, П. (2020). Точные статистические гарантии для надежной состязательной классификации по Гауссу . Международная конференция по машинному обучению.
^ Джаванмард, А.; Солтанолкотаби, М.; Хасани, Х. (2020). Точные компромиссы в состязательном обучении для линейной регрессии . Конференция по теории обучения.
^ Рибейро, АХ; Шен, ТБ (2023). «Сверхпараметризованная линейная регрессия при состязательных атаках». Транзакции IEEE по обработке сигналов . arXiv : 2204.06274 . дои : 10.1109/TSP.2023.3246228 .
^ Инь, Д.; Каннан, Р.; Бартлетт, П. (2019). Сложность Радемахера для состязательно устойчивого обобщения . Международная конференция по машинному обучению.
^ Ягельский, Мэтью; Опря, Алина; Биджио, Баттиста; Лю, Чанг; Нита-Ротару, Кристина; Ли, Бо (май 2018 г.). «Управление машинным обучением: отравляющие атаки и меры противодействия регрессионному обучению». Симпозиум IEEE по безопасности и конфиденциальности (SP) 2018 года . IEEE. стр. 19–35. arXiv : 1804.00308 . дои : 10.1109/sp.2018.00057 . ISBN 978-1-5386-4353-2 . S2CID 4551073 .
^ «Атака машинного обучения с помощью состязательных примеров» . ОпенАИ . 24 февраля 2017 г. Проверено 15 октября 2020 г.
^ Гу, Тяньюй; Долан-Гэвитт, Брендан; Гарг, Сиддхарт (11 марта 2019 г.). «BadNets: выявление уязвимостей в цепочке поставок модели машинного обучения». arXiv : 1708.06733 [ cs.CR ].
^ Вил, Майкл; Биннс, Рубен; Эдвардс, Лилиан (28 ноября 2018 г.). «Алгоритмы, которые помнят: атаки с инверсией модели и закон о защите данных» . Философские труды. Серия А. Математические, физические и технические науки . 376 (2133). arXiv : 1807.04644 . Бибкод : 2018RSPTA.37680083V . дои : 10.1098/rsta.2018.0083 . ISSN 1364-503X . ПМК 6191664 . ПМИД 30322998 .
^ Шокри, Реза; Стронати, Марко; Сун, Цунчжэн; Шматиков, Виталий (31 марта 2017 г.). «Атаки на основе вывода о членстве против моделей машинного обучения». arXiv : 1610.05820 [ cs.CR ].
^ Jump up to: Перейти обратно: ^а ^б Гудфеллоу, Ян Дж.; Шленс, Джонатон; Сегеди, Кристиан (20 марта 2015 г.). «Объяснение и использование состязательных примеров». arXiv : 1412.6572 [ stat.ML ].
^ Мадри, Александр; Макелов, Александр; Шмидт, Людвиг; Ципрас, Димитрис; Владу, Адриан (04 сентября 2019 г.). «На пути к моделям глубокого обучения, устойчивым к состязательным атакам». arXiv : 1706.06083 [ stat.ML ].
^ Карлини, Николас; Вагнер, Дэвид (22 марта 2017 г.). «На пути к оценке надежности нейронных сетей». arXiv : 1608.04644 [ cs.CR ].
^ Браун, Том Б.; Мане, Одуванчик; Рой, Аурко; Абади, Мартин; Гилмер, Джастин (16 мая 2018 г.). «Противостоятельный патч». arXiv : 1712.09665 [ cs.CV ].
^ Го, Сенсен; Чжао, Цзиньсюн; Ли, Сяоюй; Дуань, Цзюньхун; Му, Деджун; Цзин, Сяо (24 апреля 2021 г.). «Метод атаки черного ящика на модели обнаружения сетевых аномалий на основе машинного обучения» . Сети безопасности и связи . 2021 . e5578335. дои : 10.1155/2021/5578335 . ISSN 1939-0114 .
^ Jump up to: Перейти обратно: ^а ^б Гомеш, Жоао (17 января 2018 г.). «Состязательные атаки и защита сверточных нейронных сетей» . Онфидо Тех . Проверено 23 октября 2021 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Андрющенко Максим; Кроче, Франческо; Фламмарион, Николас; Хейн, Матиас (2020). «Квадратная атака: эффективная состязательная атака черного ящика с помощью запросов» . В Ведальди, Андреа; Бишоф, Хорст; Брокс, Томас; Фрам, Ян-Майкл (ред.). Компьютерное зрение – ECCV 2020 . Конспекты лекций по информатике. Том. 12368. Чам: Springer International Publishing. стр. 484–501. arXiv : 1912.00049 . дои : 10.1007/978-3-030-58592-1_29 . ISBN 978-3-030-58592-1 . S2CID 208527215 .
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Чен, Цзяньбо; Джордан, Майкл И.; Уэйнрайт, Мартин Дж. (2019), HopSkipJumpAttack: эффективная по запросам атака на основе решений , arXiv : 1904.02144 , получено 25 октября 2021 г.
^ Андрющенко Максим; Кроче, Франческо; Фламмарион, Николас; Хейн, Матиас (29 июля 2020 г.). «Квадратная атака: эффективная состязательная атака по методу черного ящика с помощью случайного поиска». arXiv : 1912.00049 [ cs.LG ].
^ «Атаки на изображения на основе принятия решений по методу «черного ящика»» . КеджиТех . 21 июня 2020 г. Проверено 25 октября 2021 г.
^ Jump up to: Перейти обратно: ^а ^б Гудфеллоу, Ян Дж.; Шленс, Джонатон; Сегеди, Кристиан (20 марта 2015 г.). «Объяснение и использование состязательных примеров». arXiv : 1412.6572 [ stat.ML ].
^ Jump up to: Перейти обратно: ^а ^б Цуй, Кен (22 августа 2018 г.). «Возможно, самое простое введение состязательных примеров на свете» . Середина . Проверено 24 октября 2021 г.
^ Jump up to: Перейти обратно: ^а ^б «Пример состязательного использования FGSM | TensorFlow Core» . ТензорФлоу . Проверено 24 октября 2021 г.
^ Корона-Фигероа, апрель; Бонд-Тейлор, Сэм; Бхоумик, Ниланджан; Гаус, Йона Фалини А.; Брекон, Тоби П.; Шум, Хьюберт П.Х.; Уиллкокс, Крис Г. (2023). Невыровненный перевод 2D в 3D с условной диффузией векторно-квантованного кода с использованием преобразователей . IEEE/CVF. arXiv : 2308.14152 .
^ Jump up to: Перейти обратно: ^а ^б Карлини, Николас; Вагнер, Дэвид (22 марта 2017 г.). «На пути к оценке надежности нейронных сетей». arXiv : 1608.04644 [ cs.CR ].
^ «Атака Карлини Вагнера» . richardjordan.com . Проверено 23 октября 2021 г.
^ Плотц, Майк (26 ноября 2018 г.). «Резюме статьи: состязательные примеры нелегко обнаружить: обход десяти методов обнаружения» . Середина . Проверено 23 октября 2021 г.
^ Кишор Датта Гупта; Ахтар, Захид; Дасгупта, Дипанкар (2021). «Определение последовательности метода обработки изображений (IPT) для обнаружения состязательных атак». С.Н. Информатика . 2 (5): 383. arXiv : 2007.00337 . дои : 10.1007/s42979-021-00773-8 . ISSN 2662-995X . S2CID 220281087 .
^ О. Декель, О. Шамир и Л. Сяо. « Учимся классифицировать с отсутствующими и поврежденными признаками ». Машинное обучение, 81:149–178, 2010.
^ Лю, Вэй; Чавла, Санджай (2010). «Анализ состязательных паттернов посредством регуляризованной минимизации потерь» (PDF) . Машинное обучение . 81 : 69–83. дои : 10.1007/s10994-010-5199-2 . S2CID 17497168 .
^ Б. Биджио, Г. Фумера и Ф. Роли. « Избегайте жестких систем множественных классификаторов. Архивировано 15 января 2015 г. в Wayback Machine ». В О. Окуне и Г. Валентини, редакторах, «Контролируемые и неконтролируемые ансамблевые методы и их приложения», том 245 «Исследований в области вычислительного интеллекта», страницы 15–38. Шпрингер Берлин / Гейдельберг, 2009.
^ БИП Рубинштейн, П. Л. Бартлетт, Л. Хуанг и Н. Тафт. « Обучение в большом функциональном пространстве: механизмы сохранения конфиденциальности для обучения SVM ». Журнал конфиденциальности и конфиденциальности, 4 (1): 65–100, 2012 г.
^ М. Кантарджиоглу, Б. Си, К. Клифтон. «Оценка классификатора и выбор атрибутов против активных противников» . Данные Мин. Знать. Дисков., 22:291–335, январь 2011 г.
^ Чивукула, Аниш; Ян, Синхао; Лю, Вэй; Чжу, Тяньцин; Чжоу, Ванлей (2020). «Теоретико-игровое состязательное глубокое обучение с вариационными противниками» . Транзакции IEEE по знаниям и инженерии данных . 33 (11): 3568–3581. дои : 10.1109/TKDE.2020.2972320 . hdl : 10453/145751 . ISSN 1558-2191 . S2CID 213845560 .
^ Чивукула, Аниш Шриваллабх; Лю, Вэй (2019). «Состязательные модели глубокого обучения с несколькими противниками» . Транзакции IEEE по знаниям и инженерии данных . 31 (6): 1066–1079. дои : 10.1109/TKDE.2018.2851247 . hdl : 10453/136227 . ISSN 1558-2191 . S2CID 67024195 .
^ «ТрояАИ» . www.iarpa.gov . Проверено 14 октября 2020 г.
^ Аталия, Аниш; Карлини, Николас; Вагнер, Дэвид (01 февраля 2018 г.). «Запутанные градиенты дают ложное чувство безопасности: обход защиты от состязательного примера». arXiv : 1802.00420v1 [ cs.LG ].
^ Он, Уоррен; Вэй, Джеймс; Чен, Синьюнь; Карлини, Николас; Песня, Рассвет (15.06.2017). «Пример состязательной защиты: ансамбли слабой защиты не являются сильными». arXiv : 1706.04701 [ cs.LG ].

Внешние ссылки [ править ]

MITRE ATLAS: ландшафт враждебных угроз для систем искусственного интеллекта
Проект NIST 8269: Таксономия и терминология состязательного машинного обучения
Семинар NIPS 2007 по машинному обучению в состязательных средах для компьютерной безопасности
AlfaSVMLib. Архивировано 24 сентября 2020 г. на Wayback Machine . Состязательные атаки с переворотом меток на машины опорных векторов.
Ласков, Павел; Липпманн, Ричард (2010). «Машинное обучение в состязательных средах». Машинное обучение . 81 (2): 115–119. дои : 10.1007/s10994-010-5207-6 . S2CID 12567278 .
Семинар Dagstuhl Perspectives на тему « Методы машинного обучения для компьютерной безопасности »
Семинар по искусственному интеллекту и безопасности , серия (AISec)

[1] Кианпур, Мазахер; Вэнь, Шао-Фан (2020). «Временные атаки на машинное обучение: современное состояние». Интеллектуальные системы и приложения . Достижения в области интеллектуальных систем и вычислений. Том. 1037. стр. 111–125. дои : 10.1007/978-3-030-29516-5_10 . ISBN 978-3-030-29515-8 . S2CID 201705926 .

[:1-2] Jump up to: Перейти обратно: ^а ^б Шива Кумар, Рам Шанкар; Нистрем, Магнус; Ламберт, Джон; Маршалл, Эндрю; Герцель, Марио; Комиссонеру, Анди; Суонн, Мэтт; Ся, Шэрон (май 2020 г.). «Перспективы отрасли состязательного машинного обучения» . Семинары IEEE по безопасности и конфиденциальности (SPW) 2020 года . стр. 69–75. дои : 10.1109/SPW50608.2020.00028 . ISBN 978-1-7281-9346-5 . S2CID 229357721 .

[GoodfellowMcDaniel20182-3] Гудфеллоу, Ян; Макдэниел, Патрик; Паперно, Николас (25 июня 2018 г.). «Как сделать машинное обучение устойчивым к враждебным воздействиям» . Коммуникации АКМ . 61 (7): 56–66. дои : 10.1145/3134599 . ISSN 0001-0782 . ^{[ постоянная мертвая ссылка ]}

[4] Гейпинг, Йонас; Фаул, Лиам Х.; Хуанг, В. Ронни; Чая, Войцех; Тейлор, Гэвин; Мёллер, Майкл; Гольдштейн, Том (28 сентября 2020 г.). Ведьмин напиток: отравление данных промышленного масштаба с помощью сопоставления градиентов . Международная конференция по изучению представлений 2021 (постер).

[:13-5] Jump up to: Перейти обратно: ^а ^б ^с Эль-Мхамди, Эль-Махди; Фархадхани, Садег; Геррауи, Рашид; Гирги, Арсани; Хоанг, Ле-Нгуен; Руо, Себастьян (06 декабря 2021 г.). «Совместное обучение в джунглях (децентрализованное, византийское, гетерогенное, асинхронное и невыпуклое обучение)» . Достижения в области нейронных систем обработки информации . 34 . arXiv : 2008.00742 .

[6] Трамер, Флориан; Чжан, Фань; Джулс, Ари; Райтер, Майкл К.; Ристенпарт, Томас (2016). Кража моделей машинного обучения с помощью прогнозирования {API} . 25-й симпозиум USENIX по безопасности. стр. 601–618. ISBN 978-1-931971-32-4 .

[7] «Как победить адаптивный/байесовский спам-фильтр (2004)» . Проверено 5 июля 2023 г.

[Poisoning_Attacks_against_Support_V-8] Jump up to: Перейти обратно: ^а ^б Биджио, Баттиста; Нельсон, Блейн; Ласков, Павел (25 марта 2013 г.). «Отравляющие атаки на машины опорных векторов». arXiv : 1206.6389 [ cs.LG ].

[Springer-9] Jump up to: Перейти обратно: ^а ^б ^с Биджио, Баттиста; Корона, Игино; Майорка, Давиде; Нельсон, Блейн; Срндич, Недим; Ласков, Павел; Джачинто, Джорджо; Роли, Фабио (2013). «Атаки уклонения от машинного обучения во время тестирования». Инженерия передовых информационных систем . Конспекты лекций по информатике. Том. 7908. Спрингер. стр. 387–402. arXiv : 1708.06131 . дои : 10.1007/978-3-642-40994-3_25 . ISBN 978-3-642-38708-1 . S2CID 18716873 .

[10] Сегеди, Кристиан; Заремба, Войцех; Суцкевер, Илья; Бруна, Джоан; Эрхан, Дмитрий; Гудфеллоу, Ян; Фергюс, Роб (19 февраля 2014 г.). «Интригующие свойства нейронных сетей». arXiv : 1312.6199 [ cs.CV ].

[:02-11] Jump up to: Перейти обратно: ^а ^б Биджио, Баттиста; Роли, Фабио (декабрь 2018 г.). «Дикие закономерности: десять лет после появления состязательного машинного обучения». Распознавание образов . 84 : 317–331. arXiv : 1712.03141 . Бибкод : 2018PatRe..84..317B . дои : 10.1016/j.patcog.2018.07.023 . S2CID 207324435 .

[12] Куракин Алексей; Гудфеллоу, Ян; Бенджио, Сами (2016). «Состязательные примеры в физическом мире». arXiv : 1607.02533 [ cs.CV ].

[13] Гупта, Кишор Датта, Дипанкар Дасгупта и Захид Ахтар. «Вопросы применимости состязательных атак, основанных на уклонении, и методов смягчения их последствий». Серия симпозиумов IEEE 2020 года по вычислительному интеллекту (SSCI). 2020.

[LimTaeihagh20192-14] Jump up to: Перейти обратно: ^а ^б Лим, Хейзел Си Мин; Тайхах, Араз (2019). «Алгоритмическое принятие решений в беспилотных автомобилях: понимание этических и технических проблем для умных городов» . Устойчивость . 11 (20): 5791. arXiv : 1910.13122 . Бибкод : 2019arXiv191013122L . дои : 10.3390/su11205791 . S2CID 204951009 .

[:2-15] Jump up to: Перейти обратно: ^а ^б «Николас Фросст из Google Brain о состязательных примерах и эмоциональных реакциях» . Синхронизировано . 21.11.2019 . Проверено 23 октября 2021 г.

[16] «Ответственная практика ИИ» . Гугл ИИ . Проверено 23 октября 2021 г.

[:3-17] Jump up to: Перейти обратно: ^а ^б ^с Adversarial Robustness Toolbox (ART) v1.8 , Trusted-AI, 23 октября 2021 г. , получено 23 октября 2021 г.

[18] амаршал. «Режимы сбоя в машинном обучении — документация по безопасности» . docs.microsoft.com . Проверено 23 октября 2021 г.

[BiggioFumera20102-19] Jump up to: Перейти обратно: ^а ^б Биджио, Баттиста; Фумера, Джорджио; Роли, Фабио (2010). «Множественные системы классификаторов для надежной разработки классификаторов в состязательных средах» . Международный журнал машинного обучения и кибернетики . 1 (1–4): 27–41. дои : 10.1007/s13042-010-0007-7 . hdl : 11567/1087824 . ISSN 1868-8071 . S2CID 8729381 . Архивировано из оригинала 19 января 2023 г. Проверено 14 января 2015 г.

[Adversarial_Machine_Learning_18A2-20] Jump up to: Перейти обратно: ^а ^б Брюкнер, Михаэль; Канзов, Кристиан; Шеффер, Тобиас (2012). «Статические игры-прогнозы для задач состязательного обучения» (PDF) . Журнал исследований машинного обучения . 13 (сентябрь): 2617–2654 гг. ISSN 1533-7928 .

[21] Апруццезе, Джованни; Андреолини, Мауро; Ферретти, Лука; Маркетти, Мирко; Колаянни, Микеле (3 июня 2021 г.). «Моделирование реалистичных состязательных атак на системы обнаружения сетевых вторжений». Цифровые угрозы: исследования и практика . 3 (3): 1–19. arXiv : 2106.09380 . дои : 10.1145/3469659 . ISSN 2692-1626 . S2CID 235458519 .

[:0-22] Jump up to: Перейти обратно: ^а ^б Виторино, Жуан; Оливейра, Нуно; Праса, Изабель (март 2022 г.). «Адаптивные шаблоны возмущений: реалистичное состязательное обучение для надежного обнаружения вторжений» . Будущий Интернет . 14 (4): 108. дои : 10.3390/fi14040108 . hdl : 10400.22/21851 . ISSN 1999-5903 .

[RodriguesLing20092-23] Jump up to: Перейти обратно: ^а ^б Родригес, Рикардо Н.; Линг, Ли Луан; Говиндараджу, Вену (1 июня 2009 г.). «Надежность методов мультимодального биометрического синтеза против поддельных атак» (PDF) . Журнал визуальных языков и вычислений . 20 (3): 169–179. дои : 10.1016/j.jvlc.2009.01.010 . ISSN 1045-926X .

[24] Су, Цзявэй; Варгас, Данило Васконселлос; Сакураи, Коичи (октябрь 2019 г.). «Однопиксельная атака для обмана глубоких нейронных сетей». Транзакции IEEE в эволюционных вычислениях . 23 (5): 828–841. arXiv : 1710.08864 . дои : 10.1109/TEVC.2019.2890858 . ISSN 1941-0026 . S2CID 2698863 .

[25] «Изменение одного пикселя обманывает программы искусственного интеллекта» . Новости Би-би-си . 3 ноября 2017 года . Проверено 12 февраля 2018 г.

[26] Аталия, Аниш; Энгстрем, Логан; Ильяс, Андрей; Квок, Кевин (2017). «Синтез надежных состязательных примеров». arXiv : 1707.07397 [ cs.CV ].

[27] «У искусственного интеллекта есть проблема с галлюцинациями, которую трудно решить» . ПРОВОДНОЙ . 2018 . Проверено 10 марта 2018 г.

[28] Чжоу, Чжэнлун; Файерстоун, Чаз (2019). «Люди могут расшифровывать враждебные изображения» . Природные коммуникации . 10 (1): 1334. arXiv : 1809.04120 . Бибкод : 2019NatCo..10.1334Z . дои : 10.1038/s41467-019-08931-6 . ПМК 6430776 . ПМИД 30902973 .

[29] Джайн, Анант (9 февраля 2019 г.). «Взлом нейронных сетей с помощью состязательных атак – На пути к науке о данных» . Середина . Проверено 15 июля 2019 г.

[30] Акерман, Эван (4 августа 2017 г.). «Незначительные модификации уличных знаков могут полностью обмануть алгоритмы машинного обучения» . IEEE Spectrum: Новости технологий, техники и науки . Проверено 15 июля 2019 г.

[31] «Крошечный кусочек ленты обманом заставил Tesla разогнаться до скорости 50 миль в час» . Проводной . 2020 . Проверено 11 марта 2020 г.

[32] «Взлом модели ADAS для создания более безопасных дорог для беспилотных транспортных средств» . Блоги McAfee . 19 февраля 2020 г. Проверено 11 марта 2020 г.

[33] Сибрук, Джон (2020). «Одежда для эпохи наблюдения» . Житель Нью-Йорка . Проверено 5 апреля 2020 г.

[nature_why2-34] Jump up to: Перейти обратно: ^а ^б ^с Небеса, Дуглас (октябрь 2019 г.). «Почему ИИ с глубоким обучением так легко обмануть». Природа . 574 (7777): 163–166. Бибкод : 2019Natur.574..163H . дои : 10.1038/d41586-019-03013-5 . ПМИД 31597977 . S2CID 203928744 .

[35] Хатсон, Мэтью (10 мая 2019 г.). «Теперь ИИ может защитить себя от вредоносных сообщений, скрытых в речи». Природа . дои : 10.1038/d41586-019-01510-1 . ПМИД 32385365 . S2CID 189666088 .

[36] Лепори, Майкл А; Файерстоун, Чаз (27 марта 2020 г.). «Ты меня сейчас слышишь? Чувствительное сравнение человеческого и машинного восприятия». arXiv : 2003.12362 [ eess.AS ].

[37] Вадилло, Джон; Сантана, Роберто (23 января 2020 г.). «О человеческой оценке аудио-состязательных примеров». arXiv : 2001.08444 [ eess.AS ].

[Adversarial_Machine_Learning_42A2-38] ДБ Скилликорн. «Обнаружение состязательных знаний». Интеллектуальные системы IEEE, 24:54–61, 2009.

[Adversarial_Machine_Learning_46A2-39] Jump up to: Перейти обратно: ^а ^б Б. Биджио, Г. Фумера и Ф. Роли. « Системы распознавания образов под атакой: проблемы проектирования и задачи исследования. Архивировано 20 мая 2022 г. в Wayback Machine ». Международный Дж. Пэтт. Признать. Артиф. Интел., 28(7):1460002, 2014.

[Adversarial_Machine_Learning_22-40] Jump up to: Перейти обратно: ^а ^б Баррено, Марко; Нельсон, Блейн; Джозеф, Энтони Д.; Тайгар, доктор юридических наук (2010). «Безопасность машинного обучения» (PDF) . Машинное обучение . 81 (2): 121–148. дои : 10.1007/s10994-010-5188-5 . S2CID 2304759 .

[41] Сикос, Лесли Ф. (2019). ИИ в кибербезопасности . Справочная библиотека интеллектуальных систем. Том. 151. Чам: Спрингер. п. 50. дои : 10.1007/978-3-319-98842-9 . ISBN 978-3-319-98841-2 . S2CID 259216663 .

[Adversarial_Machine_Learning_4A2-42] Jump up to: Перейти обратно: ^а ^б ^с Б. Биджио, Г. Фумера и Ф. Роли. « Оценка безопасности классификаторов шаблонов, подвергшихся атаке. Архивировано 18 мая 2018 г. на Wayback Machine ». IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014 г.

[Adversarial_Machine_Learning_5A2-43] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Биджио, Баттиста; Корона, Игино; Нельсон, Блейн; Рубинштейн, Беньямин И.П.; Майорка, Давиде; Фумера, Джорджио; Джачинто, Джорджо; Роли, Фабио (2014). «Оценка безопасности машин опорных векторов в состязательных средах». Приложения для машин опорных векторов . Международное издательство Спрингер. стр. 105–153. arXiv : 1401.7727 . дои : 10.1007/978-3-319-02300-7_4 . ISBN 978-3-319-02300-7 . S2CID 18666561 .

[44] Генрих, Кай; Граф, Йоханнес; Чен, Цзи; Лауриш, Якоб; Зшех, Патрик (15 июня 2020 г.). «Обмани меня один раз, стыдно тебе, обмануй меня дважды, стыдно мне: классификация моделей атак и защиты для безопасности ИИ» . Исследования ECIS 2020 .

[45] «Facebook удалил 15 миллиардов фейковых аккаунтов за два года» . Технический дайджест . 27 сентября 2021 г. Проверено 8 июня 2022 г.

[46] «Facebook удалил 3 миллиарда фейковых аккаунтов всего за 6 месяцев» . Нью-Йорк Пост . Ассошиэйтед Пресс. 23 мая 2019 г. Проверено 8 июня 2022 г.

[47] Шварцшильд, Ави; Голдблюм, Мика; Гупта, Арджун; Дикерсон, Джон П.; Гольдштейн, Том (01 июля 2021 г.). «Насколько токсично отравление данных? Единый эталон для бэкдоров и атак с отравлением данных» . Международная конференция по машинному обучению . ПМЛР: 9389–9398.

[Adversarial_Machine_Learning_15A2-48] Б. Биджио, Б. Нельсон и П. Ласков. « Машины опорных векторов под состязательным ярлыком шума. Архивировано 3 августа 2020 г. в Wayback Machine ». В журнале исследований машинного обучения – учеб. 3-я Азиатская конференция. Машинное обучение, том 20, стр. 97–112, 2011 г.

[Adversarial_Machine_Learning_29A2-49] М. Клофт и П. Ласков. « Анализ безопасности онлайн-обнаружения аномалий центроида ». Журнал исследований машинного обучения, 13:3647–3690, 2012.

[50] Моисеев, Илья (15 июля 2019 г.). «Отравляющие атаки на машинное обучение – на пути к науке о данных» . Середина . Проверено 15 июля 2019 г.

[51] Эдвардс, Бендж (25 октября 2023 г.). «Исследователи Чикагского университета стремятся «отравить» генераторы искусств искусственного интеллекта с помощью Nightshade» . Арс Техника . Проверено 27 октября 2023 г.

[Baruch_2019-52] Барух, Гилад; Барух, Моран; Гольдберг, Йоав (2019). «Достаточно немного: обход средств защиты для распределенного обучения» . Достижения в области нейронных систем обработки информации . 32 . Curran Associates, Inc. arXiv : 1902.06156 .

[53] Эль-Мхамди, Эль-Махди; Геррауи, Рашид; Гирги, Арсани; Хоанг, Ле-Нгуен; Руо, Себастьян (26 мая 2022 г.). «Истинно распределенное византийское машинное обучение» . Распределенные вычисления . 35 (4): 305–331. arXiv : 1905.03853 . дои : 10.1007/s00446-022-00427-9 . ISSN 1432-0452 . S2CID 249111966 .

[54] Гольдвассер, С.; Ким, Майкл П.; Вайкунтанатан, В.; Замир, Ор (2022). «Внедрение необнаружимых бэкдоров в моделях машинного обучения». arXiv : 2204.06974 [ cs.LG ].

[:14-55] Jump up to: Перейти обратно: ^а ^б Бланшар, Пева; Эль Мхамди, Эль Махди; Геррауи, Рашид; Стейнер, Жюльен (2017). «Машинное обучение с противниками: византийский толерантный градиентный спуск» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.

[56] Чен, Линцзяо; Ван, Хонги; Чарльз, Закари; Папалиопулос, Димитрис (3 июля 2018 г.). «ДРАКО: Византийско-устойчивое распределенное обучение с помощью избыточных градиентов» . Международная конференция по машинному обучению . ПМЛР: 903–912. arXiv : 1803.09877 .

[57] Мхамди, Эль Махди Эль; Геррауи, Рашид; Руо, Себастьян (3 июля 2018 г.). «Скрытая уязвимость распределенного обучения в Византии» . Международная конференция по машинному обучению . ПМЛР: 3521–3530. arXiv : 1802.07927 .

[58] Аллен-Чжу, Цзэюань; Эбрахимиангазани, Фаэзе; Ли, Джерри; Алистарх, Дэн (28 сентября 2020 г.). «Византийско-устойчивый невыпуклый стохастический градиентный спуск». arXiv : 2012.14368 [ cs.LG ]. Обзор

[59] Мхамди, Эль Махди Эль; Геррауи, Рашид; Руо, Себастьян (28 сентября 2020 г.). Распределенный импульс для византийско-устойчивого стохастического градиентного спуска . 9-я Международная конференция по обучению представлениям (ICLR), 4-8 мая 2021 г. (виртуальная конференция) . Проверено 20 октября 2022 г. Обзор

[60] Дейта, Дипеш; Диггави, Сухас (01 июля 2021 г.). «Византийско-устойчивый многомерный SGD с локальными итерациями на гетерогенных данных» . Международная конференция по машинному обучению . ПМЛР: 2478–2488.

[61] Кариредди, Сай Пранит; Он, Ложь; Джагги, Мартин (29 сентября 2021 г.). «Византийско-робастное обучение гетерогенных наборов данных с помощью группирования». arXiv : 2006.09365 [ cs.LG ]. Обзор

[Adversarial_Machine_Learning_36A2-62] Б. Нельсон, Б. И. Рубинштейн, Л. Хуанг, А. Д. Джозеф, С. Дж. Ли, С. Рао и Дж. Д. Тайгар. « Стратегии запросов для обхода классификаторов, вызывающих выпуклость ». Дж. Мах. Учиться. Рез., 13:1293–1332, 2012 г.

[63] «Как украсть современные системы НЛП с помощью тарабарщины?» . smarthans-блог . 06.04.2020 . Проверено 15 октября 2020 г.

[:12-64] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час Ван, Сян, Ю; Гао, Цзюнь; Дин, Цзе (13 сентября 2020 г.). «Отмывание информации обеспечения для моделей . » конфиденциальности

[:6-65] Jump up to: Перейти обратно: ^а ^б Диксон, Бен (23 апреля 2021 г.). «Машинное обучение: что такое атаки на основе вывода о членстве?» . Технические переговоры . Проверено 7 ноября 2021 г.

[66] Гудфеллоу, Ян; Шленс, Джонатан; Сегеди, Кристиан (2015). «Объяснение и использование состязательных примеров». Международная конференция по обучению представлений . arXiv : 1412.6572 .

[67] Питер, Хуанг; Пейпернот, Сэнди; Гудфеллоу, Николас; Дуан, Ян; Аббель, Ян (07 февраля 2017 г.). Состязательные атаки на политики нейронных сетей . OCLC 1106256905 .

[68] Коркмаз, Эзги (2022). «Политики глубокого обучения с подкреплением изучают общие состязательные функции в MDP». Тридцать шестая конференция AAAI по искусственному интеллекту (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . дои : 10.1609/aaai.v36i7.20684 . S2CID 245219157 .

[69] Карлини, Николас; Вагнер, Дэвид (2018). «Примеры состязательного аудио: целевые атаки на преобразование речи в текст». Семинары IEEE по безопасности и конфиденциальности (SPW) , 2018 г. стр. 1–7. arXiv : 1801.01944 . дои : 10.1109/SPW.2018.00009 . ISBN 978-1-5386-8276-0 . S2CID 4475201 .

[70] Гудфеллоу, Ян Дж.; Шленс, Джонатон; Сегеди, Кристиан (2015). Объяснение и использование состязательных примеров . Международная конференция по обучению представлений (ICLR).

[71] Рибейро, Антонио Х.; Захария, Дэйв; Бах, Фрэнсис; Шен, Томас Б. (2023). Свойства регуляризации состязательно обученной линейной регрессии . Тридцать седьмая конференция по нейронным системам обработки информации.

[72] Ципрас, Димитрис; Сантуркар, Шибани; Энгстрем, Логан; Тернер, Александр; Ма, Александр (2019). Надежность может противоречить точности . Международная конференция по изучению представлений.

[73] Дэн, К.; Вэй, Ю.; Равикумар, П. (2020). Точные статистические гарантии для надежной состязательной классификации по Гауссу . Международная конференция по машинному обучению.

[74] Джаванмард, А.; Солтанолкотаби, М.; Хасани, Х. (2020). Точные компромиссы в состязательном обучении для линейной регрессии . Конференция по теории обучения.

[75] Рибейро, АХ; Шен, ТБ (2023). «Сверхпараметризованная линейная регрессия при состязательных атаках». Транзакции IEEE по обработке сигналов . arXiv : 2204.06274 . дои : 10.1109/TSP.2023.3246228 .

[76] Инь, Д.; Каннан, Р.; Бартлетт, П. (2019). Сложность Радемахера для состязательно устойчивого обобщения . Международная конференция по машинному обучению.

[77] Ягельский, Мэтью; Опря, Алина; Биджио, Баттиста; Лю, Чанг; Нита-Ротару, Кристина; Ли, Бо (май 2018 г.). «Управление машинным обучением: отравляющие атаки и меры противодействия регрессионному обучению». Симпозиум IEEE по безопасности и конфиденциальности (SP) 2018 года . IEEE. стр. 19–35. arXiv : 1804.00308 . дои : 10.1109/sp.2018.00057 . ISBN 978-1-5386-4353-2 . S2CID 4551073 .

[78] «Атака машинного обучения с помощью состязательных примеров» . ОпенАИ . 24 февраля 2017 г. Проверено 15 октября 2020 г.

[79] Гу, Тяньюй; Долан-Гэвитт, Брендан; Гарг, Сиддхарт (11 марта 2019 г.). «BadNets: выявление уязвимостей в цепочке поставок модели машинного обучения». arXiv : 1708.06733 [ cs.CR ].

[80] Вил, Майкл; Биннс, Рубен; Эдвардс, Лилиан (28 ноября 2018 г.). «Алгоритмы, которые помнят: атаки с инверсией модели и закон о защите данных» . Философские труды. Серия А. Математические, физические и технические науки . 376 (2133). arXiv : 1807.04644 . Бибкод : 2018RSPTA.37680083V . дои : 10.1098/rsta.2018.0083 . ISSN 1364-503X . ПМК 6191664 . ПМИД 30322998 .

[81] Шокри, Реза; Стронати, Марко; Сун, Цунчжэн; Шматиков, Виталий (31 марта 2017 г.). «Атаки на основе вывода о членстве против моделей машинного обучения». arXiv : 1610.05820 [ cs.CR ].

[Explaining_and_Harnessing_Adversari2-82] Jump up to: Перейти обратно: ^а ^б Гудфеллоу, Ян Дж.; Шленс, Джонатон; Сегеди, Кристиан (20 марта 2015 г.). «Объяснение и использование состязательных примеров». arXiv : 1412.6572 [ stat.ML ].

[83] Мадри, Александр; Макелов, Александр; Шмидт, Людвиг; Ципрас, Димитрис; Владу, Адриан (04 сентября 2019 г.). «На пути к моделям глубокого обучения, устойчивым к состязательным атакам». arXiv : 1706.06083 [ stat.ML ].

[84] Карлини, Николас; Вагнер, Дэвид (22 марта 2017 г.). «На пути к оценке надежности нейронных сетей». arXiv : 1608.04644 [ cs.CR ].

[85] Браун, Том Б.; Мане, Одуванчик; Рой, Аурко; Абади, Мартин; Гилмер, Джастин (16 мая 2018 г.). «Противостоятельный патч». arXiv : 1712.09665 [ cs.CV ].

[86] Го, Сенсен; Чжао, Цзиньсюн; Ли, Сяоюй; Дуань, Цзюньхун; Му, Деджун; Цзин, Сяо (24 апреля 2021 г.). «Метод атаки черного ящика на модели обнаружения сетевых аномалий на основе машинного обучения» . Сети безопасности и связи . 2021 . e5578335. дои : 10.1155/2021/5578335 . ISSN 1939-0114 .

[:4-87] Jump up to: Перейти обратно: ^а ^б Гомеш, Жоао (17 января 2018 г.). «Состязательные атаки и защита сверточных нейронных сетей» . Онфидо Тех . Проверено 23 октября 2021 г.

[:7-88] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Андрющенко Максим; Кроче, Франческо; Фламмарион, Николас; Хейн, Матиас (2020). «Квадратная атака: эффективная состязательная атака черного ящика с помощью запросов» . В Ведальди, Андреа; Бишоф, Хорст; Брокс, Томас; Фрам, Ян-Майкл (ред.). Компьютерное зрение – ECCV 2020 . Конспекты лекций по информатике. Том. 12368. Чам: Springer International Publishing. стр. 484–501. arXiv : 1912.00049 . дои : 10.1007/978-3-030-58592-1_29 . ISBN 978-3-030-58592-1 . S2CID 208527215 .

[:8-89] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Чен, Цзяньбо; Джордан, Майкл И.; Уэйнрайт, Мартин Дж. (2019), HopSkipJumpAttack: эффективная по запросам атака на основе решений , arXiv : 1904.02144 , получено 25 октября 2021 г.

[90] Андрющенко Максим; Кроче, Франческо; Фламмарион, Николас; Хейн, Матиас (29 июля 2020 г.). «Квадратная атака: эффективная состязательная атака по методу черного ящика с помощью случайного поиска». arXiv : 1912.00049 [ cs.LG ].

[91] «Атаки на изображения на основе принятия решений по методу «черного ящика»» . КеджиТех . 21 июня 2020 г. Проверено 25 октября 2021 г.

[:9-92] Jump up to: Перейти обратно: ^а ^б Гудфеллоу, Ян Дж.; Шленс, Джонатон; Сегеди, Кристиан (20 марта 2015 г.). «Объяснение и использование состязательных примеров». arXiv : 1412.6572 [ stat.ML ].

[:10-93] Jump up to: Перейти обратно: ^а ^б Цуй, Кен (22 августа 2018 г.). «Возможно, самое простое введение состязательных примеров на свете» . Середина . Проверено 24 октября 2021 г.

[:11-94] Jump up to: Перейти обратно: ^а ^б «Пример состязательного использования FGSM | TensorFlow Core» . ТензорФлоу . Проверено 24 октября 2021 г.

[coronafigueroaa23unaligned-95] Корона-Фигероа, апрель; Бонд-Тейлор, Сэм; Бхоумик, Ниланджан; Гаус, Йона Фалини А.; Брекон, Тоби П.; Шум, Хьюберт П.Х.; Уиллкокс, Крис Г. (2023). Невыровненный перевод 2D в 3D с условной диффузией векторно-квантованного кода с использованием преобразователей . IEEE/CVF. arXiv : 2308.14152 .

[:5-96] Jump up to: Перейти обратно: ^а ^б Карлини, Николас; Вагнер, Дэвид (22 марта 2017 г.). «На пути к оценке надежности нейронных сетей». arXiv : 1608.04644 [ cs.CR ].

[97] «Атака Карлини Вагнера» . richardjordan.com . Проверено 23 октября 2021 г.

[98] Плотц, Майк (26 ноября 2018 г.). «Резюме статьи: состязательные примеры нелегко обнаружить: обход десяти методов обнаружения» . Середина . Проверено 23 октября 2021 г.

[99] Кишор Датта Гупта; Ахтар, Захид; Дасгупта, Дипанкар (2021). «Определение последовательности метода обработки изображений (IPT) для обнаружения состязательных атак». С.Н. Информатика . 2 (5): 383. arXiv : 2007.00337 . дои : 10.1007/s42979-021-00773-8 . ISSN 2662-995X . S2CID 220281087 .

[Adversarial_Machine_Learning_22A2-100] О. Декель, О. Шамир и Л. Сяо. « Учимся классифицировать с отсутствующими и поврежденными признаками ». Машинное обучение, 81:149–178, 2010.

[Adversarial_Machine_Learning_45A2-101] Лю, Вэй; Чавла, Санджай (2010). «Анализ состязательных паттернов посредством регуляризованной минимизации потерь» (PDF) . Машинное обучение . 81 : 69–83. дои : 10.1007/s10994-010-5199-2 . S2CID 17497168 .

[Adversarial_Machine_Learning_10A2-102] Б. Биджио, Г. Фумера и Ф. Роли. « Избегайте жестких систем множественных классификаторов. Архивировано 15 января 2015 г. в Wayback Machine ». В О. Окуне и Г. Валентини, редакторах, «Контролируемые и неконтролируемые ансамблевые методы и их приложения», том 245 «Исследований в области вычислительного интеллекта», страницы 15–38. Шпрингер Берлин / Гейдельберг, 2009.

[Adversarial_Machine_Learning_41A2-103] БИП Рубинштейн, П. Л. Бартлетт, Л. Хуанг и Н. Тафт. « Обучение в большом функциональном пространстве: механизмы сохранения конфиденциальности для обучения SVM ». Журнал конфиденциальности и конфиденциальности, 4 (1): 65–100, 2012 г.

[feature_select2-104] М. Кантарджиоглу, Б. Си, К. Клифтон. «Оценка классификатора и выбор атрибутов против активных противников» . Данные Мин. Знать. Дисков., 22:291–335, январь 2011 г.

[105] Чивукула, Аниш; Ян, Синхао; Лю, Вэй; Чжу, Тяньцин; Чжоу, Ванлей (2020). «Теоретико-игровое состязательное глубокое обучение с вариационными противниками» . Транзакции IEEE по знаниям и инженерии данных . 33 (11): 3568–3581. дои : 10.1109/TKDE.2020.2972320 . hdl : 10453/145751 . ISSN 1558-2191 . S2CID 213845560 .

[106] Чивукула, Аниш Шриваллабх; Лю, Вэй (2019). «Состязательные модели глубокого обучения с несколькими противниками» . Транзакции IEEE по знаниям и инженерии данных . 31 (6): 1066–1079. дои : 10.1109/TKDE.2018.2851247 . hdl : 10453/136227 . ISSN 1558-2191 . S2CID 67024195 .

[107] «ТрояАИ» . www.iarpa.gov . Проверено 14 октября 2020 г.

[108] Аталия, Аниш; Карлини, Николас; Вагнер, Дэвид (01 февраля 2018 г.). «Запутанные градиенты дают ложное чувство безопасности: обход защиты от состязательного примера». arXiv : 1802.00420v1 [ cs.LG ].

[109] Он, Уоррен; Вэй, Джеймс; Чен, Синьюнь; Карлини, Николас; Песня, Рассвет (15.06.2017). «Пример состязательной защиты: ансамбли слабой защиты не являются сильными». arXiv : 1706.04701 [ cs.LG ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]