Jump to content

Николас Карлини

Николас Карлини
Альма-матер Калифорнийский университет в Беркли (доктор философии)
Научная карьера
Поля Компьютерная безопасность
Учреждения Гугл ДипМайнд
Диссертация Оценка и проектирование надежной защиты нейронных сетей   (2018 г.)
Докторантура Дэвид Вагнер
Веб-сайт nicholas.carlini.com

Николас Карлини — исследователь, связанный с Google DeepMind , опубликовавший исследования в области компьютерной безопасности и машинного обучения . Он известен своими работами по состязательному машинному обучению .

Образование

[ редактировать ]

Николас Карлини получил степень бакалавра искусств в области компьютерных наук и математики в Калифорнийском университете в Беркли в 2013 году. [1] Затем он продолжил обучение в том же университете, где защитил докторскую диссертацию под руководством Дэвида Вагнера , завершив ее в 2018 году. [1] [2] [3]

Исследовать

[ редактировать ]

Николас Карлини известен своими работами по состязательному машинному обучению . В 2016 году он работал вместе с Дэвидом Вагнером над разработкой атаки Carlini & Wagner — метода генерации состязательных примеров против моделей машинного обучения. Атака оказалась полезной против защитной дистилляции — популярного механизма, при котором модель обучаемого обучается на основе особенностей родительской модели для повышения надежности и возможности обобщения моделей обучающихся. Атака приобрела популярность, когда было показано, что эта методология также эффективна против большинства других средств защиты, что делает их неэффективными. [4] [5] В 2018 году Карлини продемонстрировал атаку на Mozilla Foundation компании модель DeepSpeech , где он показал, что, скрывая вредоносные команды внутри обычного речевого ввода, речевая модель будет реагировать на скрытые команды, даже если команды не различимы людьми. [6] [7] В том же году Карлини и его команда из Калифорнийского университета в Беркли показали, что из 11 документов, представляющих защиту от состязательных атак, принятых на конференции ICLR того года , семь защит можно сломать. [8] Совсем недавно он и его команда работали над моделью на большом языке , создавая опросник, в котором люди обычно набирают 35%, тогда как модели ИИ набирают 40 процентов, а GPT-3 получает 38%, который можно повысить до 40% за счет нескольких подсказок. . Лучшим результатом в тесте оказалась модель UnifiedQA, разработанная Google специально для ответов на вопросы и наборов ответов. [9] Недавно Карлини также разработал методы, позволяющие использовать большие языковые модели, такие как ChatGPT, для ответа на вредные вопросы, например, как создавать бомбы. [10] [11]

Он также хорошо известен своей работой по изучению конфиденциальности моделей машинного обучения. В 2020 году он впервые показал, что большие языковые модели запоминают некоторые текстовые данные, на которых они обучались. Например, он обнаружил, что GPT-2 может выводить личную информацию . [12] Затем он провел анализ более крупных моделей и изучил, как запоминание увеличивается с увеличением размера модели. Затем, в 2022 году, он продемонстрировал ту же уязвимость в генеративных моделях изображений и, в частности, в моделях диффузии , показав, что Stable Diffusion может выводить изображения лиц людей, на которых он обучался. [13] После этого Карлини показал, что ChatGPT также иногда выводит точные копии веб-страниц, на которых он обучался, включая личную информацию. [14] На некоторые из этих исследований впоследствии ссылались суды при обсуждении статуса авторских прав на модели ИИ. [15]

  • Премия за лучшую студенческую работу, IEEE S&P 2017 («На пути к оценке устойчивости нейронных сетей»)
  • Награда за лучшую статью, ICML 2018 («Запутанные градиенты дают ложное чувство безопасности: обход защиты от состязательных примеров»)
  • Награда за выдающуюся работу, USENIX 2021 («Отравление немаркированного набора данных полуконтролируемого обучения»)
  • Награда за выдающуюся работу, USENIX 2023 («Тщательный аудит дифференциально-частного машинного обучения»)
  • Премия за лучшую статью, ICML 2024 («Кража части рабочей языковой модели»)
  • Премия за лучшую статью, ICML 2024 («Соображения по поводу дифференцированного частного обучения с крупномасштабной публичной предварительной подготовкой»)

Другая работа

[ редактировать ]

Карлини получил награду Best of Show на IOCCC 2020 за реализацию игры в крестики-нолики, полностью использующую вызовы printf , расширив работу, основанную на его исследовательской работе 2015 года. Судьи прокомментировали его работу как «Лучшее шоу этого года (carlini) ) — настолько новый способ запутывания, что он заслуживает особого упоминания в (будущем) списке Best of IOCCC!» [16]

  1. ^ Перейти обратно: а б «Николас Карлини» . nicholas.carlini.com . Проверено 4 июня 2024 г.
  2. ^ «Николас Карлини» . ИИ во благо . Проверено 4 июня 2024 г.
  3. ^ «Выпускники» . люди.eecs.berkeley.edu . Проверено 4 июня 2024 г.
  4. ^ Пуджари, Медха; Черукури, Бхану Пракаш; Джавайд, Ахмад Ю; Сунь, Вэйцин (27 июля 2022 г.). «Подход к повышению устойчивости моделей систем обнаружения вторжений на основе машинного обучения против атаки Карлини-Вагнера» . Международная конференция IEEE по кибербезопасности и устойчивости (CSR) 2022 года . IEEE. стр. 62–67. дои : 10.1109/CSR54599.2022.9850306 . ISBN  978-1-6654-9952-1 .
  5. ^ Шваб, Кэтрин (12 декабря 2017 г.). «Как обмануть нейронную сеть» . Проверено 4 июня 2023 г.
  6. ^ Смит, Крейг С. (10 мая 2018 г.). «Алекса и Сири могут услышать эту скрытую команду. Вы не можете» . Нью-Йорк Таймс . ISSN   0362-4331 . Проверено 4 июня 2024 г.
  7. ^ «Поскольку голосовые помощники становятся все более популярными, исследователи предупреждают об уязвимостях» . CNET . Проверено 4 июня 2024 г.
  8. ^ Симонит, Том. «У искусственного интеллекта есть проблема с галлюцинациями, которую трудно решить» . Проводной . ISSN   1059-1028 . Проверено 4 июня 2024 г.
  9. ^ Хатсон, Мэтью (3 марта 2021 г.). «Робописатели: рост и риски искусственного интеллекта, генерирующего язык» . Природа . 591 (7848): 22–25. Бибкод : 2021Natur.591...22H . дои : 10.1038/d41586-021-00530-0 . ПМИД   33658699 .
  10. ^ «Чат-ботов с искусственным интеллектом можно обманом заставить вести себя плохо. Могут ли ученые остановить это?» . 01 февраля 2024 г. Проверено 26 июля 2024 г.
  11. ^ Мец, Кейд (27 июля 2023 г.). «Исследователи обнаруживают дыры в средствах контроля безопасности ChatGPT и других чат-ботов» . Нью-Йорк Таймс . ISSN   0362-4331 . Проверено 26 июля 2024 г.
  12. ^ «Что GPT-3 «знает» обо мне?» . Обзор технологий Массачусетского технологического института . Проверено 26 июля 2024 г.
  13. ^ Эдвардс, Бендж (01 февраля 2023 г.). «Paper: Stable Diffusion «запоминает» некоторые изображения, вызывая проблемы конфиденциальности» . Арс Техника . Проверено 26 июля 2024 г.
  14. ^ Ньюман, Лили Хэй. «ChatGPT выдает конфиденциальные данные, когда ему говорят постоянно повторять «стихотворение»» . Проводной . ISSN   1059-1028 . Проверено 26 июля 2024 г.
  15. ^ J. DOE 1 (Окружной суд США, северный округ Калифорнии), Текст .
  16. ^ «27-й ОЦСС» . www.ioccc.org . Проверено 26 июля 2024 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 70eafe282b7e571d9c8a188b822df523__1722170400
URL1:https://arc.ask3.ru/arc/aa/70/23/70eafe282b7e571d9c8a188b822df523.html
Заголовок, (Title) документа по адресу, URL1:
Nicholas Carlini - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)