Николас Карлини
Николас Карлини | |
---|---|
Альма-матер | Калифорнийский университет в Беркли (доктор философии) |
Научная карьера | |
Поля | Компьютерная безопасность |
Учреждения | Гугл ДипМайнд |
Диссертация | Оценка и проектирование надежной защиты нейронных сетей (2018 г.) |
Докторантура | Дэвид Вагнер |
Веб-сайт | nicholas.carlini.com |
Николас Карлини — исследователь, связанный с Google DeepMind , опубликовавший исследования в области компьютерной безопасности и машинного обучения . Он известен своими работами по состязательному машинному обучению .
Образование
[ редактировать ]Николас Карлини получил степень бакалавра искусств в области компьютерных наук и математики в Калифорнийском университете в Беркли в 2013 году. [1] Затем он продолжил обучение в том же университете, где защитил докторскую диссертацию под руководством Дэвида Вагнера , завершив ее в 2018 году. [1] [2] [3]
Исследовать
[ редактировать ]Николас Карлини известен своими работами по состязательному машинному обучению . В 2016 году он работал вместе с Дэвидом Вагнером над разработкой атаки Carlini & Wagner — метода генерации состязательных примеров против моделей машинного обучения. Атака оказалась полезной против защитной дистилляции — популярного механизма, при котором модель обучаемого обучается на основе особенностей родительской модели для повышения надежности и возможности обобщения моделей обучающихся. Атака приобрела популярность, когда было показано, что эта методология также эффективна против большинства других средств защиты, что делает их неэффективными. [4] [5] В 2018 году Карлини продемонстрировал атаку на Mozilla Foundation компании модель DeepSpeech , где он показал, что, скрывая вредоносные команды внутри обычного речевого ввода, речевая модель будет реагировать на скрытые команды, даже если команды не различимы людьми. [6] [7] В том же году Карлини и его команда из Калифорнийского университета в Беркли показали, что из 11 документов, представляющих защиту от состязательных атак, принятых на конференции ICLR того года , семь защит можно сломать. [8] Совсем недавно он и его команда работали над моделью на большом языке , создавая опросник, в котором люди обычно набирают 35%, тогда как модели ИИ набирают 40 процентов, а GPT-3 получает 38%, который можно повысить до 40% за счет нескольких подсказок. . Лучшим результатом в тесте оказалась модель UnifiedQA, разработанная Google специально для ответов на вопросы и наборов ответов. [9] Недавно Карлини также разработал методы, позволяющие использовать большие языковые модели, такие как ChatGPT, для ответа на вредные вопросы, например, как создавать бомбы. [10] [11]
Он также хорошо известен своей работой по изучению конфиденциальности моделей машинного обучения. В 2020 году он впервые показал, что большие языковые модели запоминают некоторые текстовые данные, на которых они обучались. Например, он обнаружил, что GPT-2 может выводить личную информацию . [12] Затем он провел анализ более крупных моделей и изучил, как запоминание увеличивается с увеличением размера модели. Затем, в 2022 году, он продемонстрировал ту же уязвимость в генеративных моделях изображений и, в частности, в моделях диффузии , показав, что Stable Diffusion может выводить изображения лиц людей, на которых он обучался. [13] После этого Карлини показал, что ChatGPT также иногда выводит точные копии веб-страниц, на которых он обучался, включая личную информацию. [14] На некоторые из этих исследований впоследствии ссылались суды при обсуждении статуса авторских прав на модели ИИ. [15]
Награды
[ редактировать ]- Премия за лучшую студенческую работу, IEEE S&P 2017 («На пути к оценке устойчивости нейронных сетей»)
- Награда за лучшую статью, ICML 2018 («Запутанные градиенты дают ложное чувство безопасности: обход защиты от состязательных примеров»)
- Награда за выдающуюся работу, USENIX 2021 («Отравление немаркированного набора данных полуконтролируемого обучения»)
- Награда за выдающуюся работу, USENIX 2023 («Тщательный аудит дифференциально-частного машинного обучения»)
- Премия за лучшую статью, ICML 2024 («Кража части рабочей языковой модели»)
- Премия за лучшую статью, ICML 2024 («Соображения по поводу дифференцированного частного обучения с крупномасштабной публичной предварительной подготовкой»)
Другая работа
[ редактировать ]Карлини получил награду Best of Show на IOCCC 2020 за реализацию игры в крестики-нолики, полностью использующую вызовы printf , расширив работу, основанную на его исследовательской работе 2015 года. Судьи прокомментировали его работу как «Лучшее шоу этого года (carlini) ) — настолько новый способ запутывания, что он заслуживает особого упоминания в (будущем) списке Best of IOCCC!» [16]
Ссылки
[ редактировать ]- ^ Перейти обратно: а б «Николас Карлини» . nicholas.carlini.com . Проверено 4 июня 2024 г.
- ^ «Николас Карлини» . ИИ во благо . Проверено 4 июня 2024 г.
- ^ «Выпускники» . люди.eecs.berkeley.edu . Проверено 4 июня 2024 г.
- ^ Пуджари, Медха; Черукури, Бхану Пракаш; Джавайд, Ахмад Ю; Сунь, Вэйцин (27 июля 2022 г.). «Подход к повышению устойчивости моделей систем обнаружения вторжений на основе машинного обучения против атаки Карлини-Вагнера» . Международная конференция IEEE по кибербезопасности и устойчивости (CSR) 2022 года . IEEE. стр. 62–67. дои : 10.1109/CSR54599.2022.9850306 . ISBN 978-1-6654-9952-1 .
- ^ Шваб, Кэтрин (12 декабря 2017 г.). «Как обмануть нейронную сеть» . Проверено 4 июня 2023 г.
- ^ Смит, Крейг С. (10 мая 2018 г.). «Алекса и Сири могут услышать эту скрытую команду. Вы не можете» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 4 июня 2024 г.
- ^ «Поскольку голосовые помощники становятся все более популярными, исследователи предупреждают об уязвимостях» . CNET . Проверено 4 июня 2024 г.
- ^ Симонит, Том. «У искусственного интеллекта есть проблема с галлюцинациями, которую трудно решить» . Проводной . ISSN 1059-1028 . Проверено 4 июня 2024 г.
- ^ Хатсон, Мэтью (3 марта 2021 г.). «Робописатели: рост и риски искусственного интеллекта, генерирующего язык» . Природа . 591 (7848): 22–25. Бибкод : 2021Natur.591...22H . дои : 10.1038/d41586-021-00530-0 . ПМИД 33658699 .
- ^ «Чат-ботов с искусственным интеллектом можно обманом заставить вести себя плохо. Могут ли ученые остановить это?» . 01 февраля 2024 г. Проверено 26 июля 2024 г.
- ^ Мец, Кейд (27 июля 2023 г.). «Исследователи обнаруживают дыры в средствах контроля безопасности ChatGPT и других чат-ботов» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 26 июля 2024 г.
- ^ «Что GPT-3 «знает» обо мне?» . Обзор технологий Массачусетского технологического института . Проверено 26 июля 2024 г.
- ^ Эдвардс, Бендж (01 февраля 2023 г.). «Paper: Stable Diffusion «запоминает» некоторые изображения, вызывая проблемы конфиденциальности» . Арс Техника . Проверено 26 июля 2024 г.
- ^ Ньюман, Лили Хэй. «ChatGPT выдает конфиденциальные данные, когда ему говорят постоянно повторять «стихотворение»» . Проводной . ISSN 1059-1028 . Проверено 26 июля 2024 г.
- ^ J. DOE 1 (Окружной суд США, северный округ Калифорнии), Текст .
- ^ «27-й ОЦСС» . www.ioccc.org . Проверено 26 июля 2024 г.