Пол Кристиано (исследователь)
Пол Кристиано | |
---|---|
Образование |
|
Известный | |
Научная карьера | |
Учреждения | |
Диссертация | Онлайн-обучение, устойчивое к манипуляциям (2017) |
Докторантура | Умеш Вазирани |
Веб-сайт | Паульф Кристиано |
Пол Кристиано — американский исследователь в области искусственного интеллекта (ИИ), специализирующийся на согласовании ИИ , что является подобластью исследований безопасности ИИ , целью которых является направить системы ИИ в соответствие с интересами человека. [1] Ранее он возглавлял группу по согласованию языковых моделей в OpenAI , а также стал основателем и главой некоммерческого исследовательского центра выравнивания (ARC), который занимается теоретическим согласованием ИИ и оценкой моделей машинного обучения . [2] [3] В 2023 году Кристиано был включен в список TIME 100 самых влиятельных людей в области искусственного интеллекта ( TIME 100 AI). [3] [4]
В сентябре 2023 года Кристиано был назначен членом консультативного совета Frontier AI Taskforce при правительстве Великобритании. [5] Он также является первым попечителем . Фонда долгосрочных льгот Anthropic [6]
Образование [ править ]
Кристиано учился в школе Харкер в Сан-Хосе, Калифорния. [7] Он выступал в составе сборной США и выиграл серебряную медаль на 49-й Международной математической олимпиаде (ИМО) в 2008 году. [7] [8]
В 2012 году Кристиано окончил Массачусетский технологический институт (MIT) по специальности математика. [9] [10] В Массачусетском технологическом институте он исследовал структуры данных, квантовую криптографию и комбинаторную оптимизацию. [10]
Затем он защитил докторскую диссертацию в Калифорнийском университете в Беркли . [11] Находясь в Беркли, Кристиано сотрудничал с исследователем Катей Грейс в области воздействия искусственного интеллекта, совместно разрабатывая предварительную методологию сравнения суперкомпьютеров с мозгом с использованием количества пройденных ребер в секунду (TEPS). [12] Он также экспериментировал с применением на практике теории донорской лотереи Карла Шульмана , собрав около 50 000 долларов в пул для пожертвования на одну благотворительную организацию. [13]
Карьера [ править ]
В OpenAI Кристиано является соавтором статьи «Глубокое обучение с подкреплением на основе человеческих предпочтений» (2017) и других работ, посвященных обучению с подкреплением на основе обратной связи человека (RLHF). [14] [15] Его считают одним из главных архитекторов RLHF. [3] [6] в 2017 году это было «считалось заметным шагом вперед в исследованиях безопасности ИИ» . По данным The New York Times , [16] Другие работы, такие как «Безопасность ИИ через дебаты» (2018), посвящены проблеме масштабируемого надзора – надзору за ИИ в областях, где людям было бы трудно оценить качество продукции. [17] [18] [19]
Кристиано покинул OpenAI в 2021 году, чтобы работать над более концептуальными и теоретическими вопросами согласования ИИ, и впоследствии основал Исследовательский центр согласования, чтобы сосредоточиться на этой области. [1] Одним из предметов исследования является проблема извлечения скрытых знаний из передовых моделей машинного обучения . [20] [21] ARC также разрабатывает методы выявления и проверки потенциальной опасности модели ИИ. [3] В апреле 2023 года Кристиано сообщил The Economist , что ARC рассматривает возможность разработки отраслевого стандарта безопасности ИИ. [22]
По состоянию на апрель 2024 года Кристиано числился главой отдела безопасности ИИ Института безопасности ИИ США при NIST . [23] Месяцем ранее, в марте 2024 года, сотрудники и ученые института пригрозили уйти в отставку после того, как им сообщили о предстоящем назначении Кристиано на эту должность, заявив, что его связи с эффективным альтруистическим движением могут поставить под угрозу объективность и честность Института безопасности ИИ. [24]
на ИИ Взгляды риски
Он известен своими взглядами на потенциальные риски, связанные с передовым ИИ. В 2017 году Wired журнал заявил, что Кристиано и его коллеги из OpenAI не беспокоятся об уничтожении человечества «злыми роботами», объяснив, что «[т] они больше обеспокоены тем, что по мере того, как ИИ выходит за рамки человеческого понимания, поведение технологии может отличаться от наших намеченных целей». [25]
Однако в широко цитируемом интервью Business Insider в 2023 году Кристиано сказал, что существует «вероятность захвата ИИ 10–20%, [при этом] многие [или] большинство людей погибнут». Он также предположил, что «вероятность гибели 50/50 вскоре после того, как появятся системы искусственного интеллекта человеческого уровня». [26] [1]
Личная жизнь [ править ]
Кристиано женат на Аджее Котре из Open Philanthropy . [27]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с «Шанс ИИ на победу над человечеством составляет 10–20%, — предупреждает бывший исследователь безопасности OpenAI» . Удача . Проверено 4 июня 2023 г.
- ^ Пайпер, Келси (29 марта 2023 г.). «Как проверить, что модель ИИ может — и не должна — делать» . Вокс . Проверено 4 августа 2023 г.
- ↑ Перейти обратно: Перейти обратно: а б с д Хеншолл, Уилл (7 сентября 2023 г.). «Пол Кристиано – основатель Исследовательского центра выравнивания» . Журнал ТАЙМ . Проверено 16 ноября 2023 г.
- ^ Сибли, Джесс (10 сентября 2023 г.). «Будущее уже сейчас» . Журнал «Тайм» . Том. 202, нет. 11/12 . Получено 16 ноября 2023 г. - через EBSCOHost .
- ^ Скелтон, Себастьян Кловиг (7 сентября 2023 г.). «Правительственная рабочая группа по искусственному интеллекту назначает новых членов консультативного совета» . ComputerWeekly.com . Проверено 16 ноября 2023 г.
- ↑ Перейти обратно: Перейти обратно: а б Мэтьюз, Дилан (25 сентября 2023 г.). «Азартная игра в 1 миллиард долларов, призванная гарантировать, что ИИ не уничтожит человечество» . Вокс . Проверено 16 ноября 2023 г.
- ↑ Перейти обратно: Перейти обратно: а б Кехо, Элейн (октябрь 2008 г.). «Люди-математики - Международная математическая олимпиада 2008 г.» (PDF) . Американское математическое общество . Проверено 16 ноября 2023 г.
- ^ Фэн, Зумин; Гельча, Разван; Ле, Ян; Данбар, Стивен Р. (июнь 2009 г.). «НОВОСТИ И ПИСЬМА: 49-я Международная математическая олимпиада» . Журнал «Математика» . 82 (е): 235–238. дои : 10.1080/0025570X.2009.11953629 . JSTOR 27765911 .
- ^ «Пол Ф. Кристиано» . Цифровая библиотека Ассоциации вычислительной техники . Проверено 16 ноября 2023 г.
- ↑ Перейти обратно: Перейти обратно: а б «Об авторах: Теория вычислений: электронный журнал открытого доступа по теоретической информатике» . Проверено 16 ноября 2023 г.
- ^ «Пол Кристиано – научный сотрудник» . Институт будущего человечества . Проверено 4 августа 2023 г.
- ^ Сюй, Джереми (26 августа 2015 г.). «Оценка: человеческий мозг в 30 раз быстрее лучших суперкомпьютеров» . IEEE-спектр . Проверено 16 ноября 2023 г.
- ^ Пейнтер, Бен (31 января 2017 г.). «Рискните своей благотворительной организацией и примите участие в донорской лотерее» . Компания Фаст . Проверено 16 ноября 2023 г.
- ^ Кристиано, Пол Ф; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
- ^ Оуян, Лонг; Ву, Джеффри; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди (6 декабря 2022 г.). «Обучение языковых моделей следованию инструкциям с обратной связью от человека» . Достижения в области нейронных систем обработки информации . 35 : 27730–27744. arXiv : 2203.02155 .
- ^ Мец, Кейд (13 августа 2017 г.). «Обучение систем искусственного интеллекта правильному поведению» . Нью-Йорк Таймс . Проверено 16 ноября 2023 г.
- ^ Ирвинг, Г.; Кристиано, П.; Амодей, Дарио (2 мая 2018 г.). «Безопасность ИИ через дебаты». arXiv : 1805.00899 [ stat.ML ].
- ^ Ву, Джефф; Оуян, Лонг; Зиглер, Дэниел М.; Стиеннон, Ниссан; Лоу, Райан; Лейке, Дж.; Кристиано, П. (22 сентября 2021 г.). «Рекурсивное обобщение книг с обратной связью от человека». arXiv : 2109.10862 [ cs.CL ].
- ^ Кристиано, П.; Шлегерис, Бак; Амодей, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [ cs.LG ].
- ^ Бернс, Коллин; Е, Хаотянь; Кляйн, Дэн; Стейнхардт, Джейкоб (2022). «Обнаружение скрытых знаний в языковых моделях без присмотра». arXiv : 2212.03827 [ cs.CL ].
- ^ Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как определить, обманывают ли вас ваши глаза» . Гугл Документы . Центр исследования выравнивания . Проверено 16 апреля 2023 г.
- ^ «Как генеративные модели могут пойти не так» . Экономист . 19 апреля 2023 г. . Проверено 16 ноября 2023 г.
- ^ «Поль Кристиано» . NIST.gov . 17 апреля 2024 г. . Проверено 22 мая 2024 г.
- ^ Голдман, Шэрон (7 марта 2024 г.). «Сотрудники NIST протестуют против ожидаемого назначения «эффективного альтруиста» исследователя ИИ в Институт безопасности ИИ США» . ВенчурБит . Проверено 22 мая 2024 г.
- ^ Ньюман, Лили Хэй (сентябрь 2017 г.). «Следует ли нам волноваться? – Обернется ли против меня ИИ?» . Проводной . Проверено 16 ноября 2023 г.
- ^ Нолан, Беатрис. «Бывший исследователь OpenAI говорит, что существует 50% вероятность того, что разработка ИИ может закончиться «гибелью » . Бизнес-инсайдер . Проверено 4 июня 2023 г.
- ^ Пайпер, Келси (июнь 2023 г.). «Практическое руководство по безопасности ИИ» . Журнал Звездочка . № 3 . Проверено 16 ноября 2023 г.