Пол Кристиано (исследователь)

Пол Кристиано
Пол Кристиано
Образование	Массачусетский технологический институт (BS) ; Калифорнийский университет в Беркли (доктор философии) ;
Известный	Выравнивание ИИ ; Обучение с подкреплением на основе отзывов людей ;
	Научная карьера
Учреждения	ОпенАИ ; Центр исследования выравнивания ;
Диссертация	Онлайн-обучение, устойчивое к манипуляциям (2017)
Докторантура	Умеш Вазирани
Веб-сайт	Паульф Кристиано .с

Пол Кристиано — американский исследователь в области искусственного интеллекта (ИИ), специализирующийся на согласовании ИИ , что является подобластью исследований безопасности ИИ , целью которых является направить системы ИИ в соответствие с интересами человека. ^[1] Ранее он возглавлял группу по согласованию языковых моделей в OpenAI , а также стал основателем и главой некоммерческого исследовательского центра выравнивания (ARC), который занимается теоретическим согласованием ИИ и оценкой моделей машинного обучения . ^[2]^[3] В 2023 году Кристиано был включен в список TIME 100 самых влиятельных людей в области искусственного интеллекта ( TIME 100 AI). ^[3]^[4]

В сентябре 2023 года Кристиано был назначен членом консультативного совета Frontier AI Taskforce при правительстве Великобритании. ^[5] Он также является первым попечителем . Фонда долгосрочных льгот Anthropic ^[6]

Образование [ править ]

Кристиано учился в школе Харкер в Сан-Хосе, Калифорния. ^[7] Он выступал в составе сборной США и выиграл серебряную медаль на 49-й Международной математической олимпиаде (ИМО) в 2008 году. ^[7]^[8]

В 2012 году Кристиано окончил Массачусетский технологический институт (MIT) по специальности математика. ^[9]^[10] В Массачусетском технологическом институте он исследовал структуры данных, квантовую криптографию и комбинаторную оптимизацию. ^[10]

Затем он защитил докторскую диссертацию в Калифорнийском университете в Беркли . ^[11] Находясь в Беркли, Кристиано сотрудничал с исследователем Катей Грейс в области воздействия искусственного интеллекта, совместно разрабатывая предварительную методологию сравнения суперкомпьютеров с мозгом с использованием количества пройденных ребер в секунду (TEPS). ^[12] Он также экспериментировал с применением на практике теории донорской лотереи Карла Шульмана , собрав около 50 000 долларов в пул для пожертвования на одну благотворительную организацию. ^[13]

Карьера [ править ]

В OpenAI Кристиано является соавтором статьи «Глубокое обучение с подкреплением на основе человеческих предпочтений» (2017) и других работ, посвященных обучению с подкреплением на основе обратной связи человека (RLHF). ^[14]^[15] Его считают одним из главных архитекторов RLHF. ^[3]^[6] в 2017 году это было «считалось заметным шагом вперед в исследованиях безопасности ИИ» . По данным The New York Times , ^[16] Другие работы, такие как «Безопасность ИИ через дебаты» (2018), посвящены проблеме масштабируемого надзора – надзору за ИИ в областях, где людям было бы трудно оценить качество продукции. ^[17]^[18]^[19]

Кристиано покинул OpenAI в 2021 году, чтобы работать над более концептуальными и теоретическими вопросами согласования ИИ, и впоследствии основал Исследовательский центр согласования, чтобы сосредоточиться на этой области. ^[1] Одним из предметов исследования является проблема извлечения скрытых знаний из передовых моделей машинного обучения . ^[20]^[21] ARC также разрабатывает методы выявления и проверки потенциальной опасности модели ИИ. ^[3] В апреле 2023 года Кристиано сообщил The Economist , что ARC рассматривает возможность разработки отраслевого стандарта безопасности ИИ. ^[22]

По состоянию на апрель 2024 года Кристиано числился главой отдела безопасности ИИ Института безопасности ИИ США при NIST . ^[23] Месяцем ранее, в марте 2024 года, сотрудники и ученые института пригрозили уйти в отставку после того, как им сообщили о предстоящем назначении Кристиано на эту должность, заявив, что его связи с эффективным альтруистическим движением могут поставить под угрозу объективность и честность Института безопасности ИИ. ^[24]

на ИИ Взгляды риски

Он известен своими взглядами на потенциальные риски, связанные с передовым ИИ. В 2017 году Wired журнал заявил, что Кристиано и его коллеги из OpenAI не беспокоятся об уничтожении человечества «злыми роботами», объяснив, что «[т] они больше обеспокоены тем, что по мере того, как ИИ выходит за рамки человеческого понимания, поведение технологии может отличаться от наших намеченных целей». ^[25]

Однако в широко цитируемом интервью Business Insider в 2023 году Кристиано сказал, что существует «вероятность захвата ИИ 10–20%, [при этом] многие [или] большинство людей погибнут». Он также предположил, что «вероятность гибели 50/50 вскоре после того, как появятся системы искусственного интеллекта человеческого уровня». ^[26]^[1]

Личная жизнь [ править ]

Кристиано женат на Аджее Котре из Open Philanthropy . ^[27]

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б ^с «Шанс ИИ на победу над человечеством составляет 10–20%, — предупреждает бывший исследователь безопасности OpenAI» . Удача . Проверено 4 июня 2023 г.
^ Пайпер, Келси (29 марта 2023 г.). «Как проверить, что модель ИИ может — и не должна — делать» . Вокс . Проверено 4 августа 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д Хеншолл, Уилл (7 сентября 2023 г.). «Пол Кристиано – основатель Исследовательского центра выравнивания» . Журнал ТАЙМ . Проверено 16 ноября 2023 г.
^ Сибли, Джесс (10 сентября 2023 г.). «Будущее уже сейчас» . Журнал «Тайм» . Том. 202, нет. 11/12 . Получено 16 ноября 2023 г. - через EBSCOHost .
^ Скелтон, Себастьян Кловиг (7 сентября 2023 г.). «Правительственная рабочая группа по искусственному интеллекту назначает новых членов консультативного совета» . ComputerWeekly.com . Проверено 16 ноября 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Мэтьюз, Дилан (25 сентября 2023 г.). «Азартная игра в 1 миллиард долларов, призванная гарантировать, что ИИ не уничтожит человечество» . Вокс . Проверено 16 ноября 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Кехо, Элейн (октябрь 2008 г.). «Люди-математики - Международная математическая олимпиада 2008 г.» (PDF) . Американское математическое общество . Проверено 16 ноября 2023 г.
^ Фэн, Зумин; Гельча, Разван; Ле, Ян; Данбар, Стивен Р. (июнь 2009 г.). «НОВОСТИ И ПИСЬМА: 49-я Международная математическая олимпиада» . Журнал «Математика» . 82 (е): 235–238. дои : 10.1080/0025570X.2009.11953629 . JSTOR 27765911 .
^ «Пол Ф. Кристиано» . Цифровая библиотека Ассоциации вычислительной техники . Проверено 16 ноября 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б «Об авторах: Теория вычислений: электронный журнал открытого доступа по теоретической информатике» . Проверено 16 ноября 2023 г.
^ «Пол Кристиано – научный сотрудник» . Институт будущего человечества . Проверено 4 августа 2023 г.
^ Сюй, Джереми (26 августа 2015 г.). «Оценка: человеческий мозг в 30 раз быстрее лучших суперкомпьютеров» . IEEE-спектр . Проверено 16 ноября 2023 г.
^ Пейнтер, Бен (31 января 2017 г.). «Рискните своей благотворительной организацией и примите участие в донорской лотерее» . Компания Фаст . Проверено 16 ноября 2023 г.
^ Кристиано, Пол Ф; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
^ Оуян, Лонг; Ву, Джеффри; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди (6 декабря 2022 г.). «Обучение языковых моделей следованию инструкциям с обратной связью от человека» . Достижения в области нейронных систем обработки информации . 35 : 27730–27744. arXiv : 2203.02155 .
^ Мец, Кейд (13 августа 2017 г.). «Обучение систем искусственного интеллекта правильному поведению» . Нью-Йорк Таймс . Проверено 16 ноября 2023 г.
^ Ирвинг, Г.; Кристиано, П.; Амодей, Дарио (2 мая 2018 г.). «Безопасность ИИ через дебаты». arXiv : 1805.00899 [ stat.ML ].
^ Ву, Джефф; Оуян, Лонг; Зиглер, Дэниел М.; Стиеннон, Ниссан; Лоу, Райан; Лейке, Дж.; Кристиано, П. (22 сентября 2021 г.). «Рекурсивное обобщение книг с обратной связью от человека». arXiv : 2109.10862 [ cs.CL ].
^ Кристиано, П.; Шлегерис, Бак; Амодей, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [ cs.LG ].
^ Бернс, Коллин; Е, Хаотянь; Кляйн, Дэн; Стейнхардт, Джейкоб (2022). «Обнаружение скрытых знаний в языковых моделях без присмотра». arXiv : 2212.03827 [ cs.CL ].
^ Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как определить, обманывают ли вас ваши глаза» . Гугл Документы . Центр исследования выравнивания . Проверено 16 апреля 2023 г.
^ «Как генеративные модели могут пойти не так» . Экономист . 19 апреля 2023 г. . Проверено 16 ноября 2023 г.
^ «Поль Кристиано» . NIST.gov . 17 апреля 2024 г. . Проверено 22 мая 2024 г.
^ Голдман, Шэрон (7 марта 2024 г.). «Сотрудники NIST протестуют против ожидаемого назначения «эффективного альтруиста» исследователя ИИ в Институт безопасности ИИ США» . ВенчурБит . Проверено 22 мая 2024 г.
^ Ньюман, Лили Хэй (сентябрь 2017 г.). «Следует ли нам волноваться? – Обернется ли против меня ИИ?» . Проводной . Проверено 16 ноября 2023 г.
^ Нолан, Беатрис. «Бывший исследователь OpenAI говорит, что существует 50% вероятность того, что разработка ИИ может закончиться «гибелью » . Бизнес-инсайдер . Проверено 4 июня 2023 г.
^ Пайпер, Келси (июнь 2023 г.). «Практическое руководство по безопасности ИИ» . Журнал Звездочка . № 3 . Проверено 16 ноября 2023 г.

Внешние ссылки [ править ]

Персональный сайт

[:0-1] Перейти обратно: Перейти обратно: ^а ^б ^с «Шанс ИИ на победу над человечеством составляет 10–20%, — предупреждает бывший исследователь безопасности OpenAI» . Удача . Проверено 4 июня 2023 г.

[2] Пайпер, Келси (29 марта 2023 г.). «Как проверить, что модель ИИ может — и не должна — делать» . Вокс . Проверено 4 августа 2023 г.

[:1-3] Перейти обратно: Перейти обратно: ^а ^б ^с ^д Хеншолл, Уилл (7 сентября 2023 г.). «Пол Кристиано – основатель Исследовательского центра выравнивания» . Журнал ТАЙМ . Проверено 16 ноября 2023 г.

[4] Сибли, Джесс (10 сентября 2023 г.). «Будущее уже сейчас» . Журнал «Тайм» . Том. 202, нет. 11/12 . Получено 16 ноября 2023 г. - через EBSCOHost .

[5] Скелтон, Себастьян Кловиг (7 сентября 2023 г.). «Правительственная рабочая группа по искусственному интеллекту назначает новых членов консультативного совета» . ComputerWeekly.com . Проверено 16 ноября 2023 г.

[:3-6] Перейти обратно: Перейти обратно: ^а ^б Мэтьюз, Дилан (25 сентября 2023 г.). «Азартная игра в 1 миллиард долларов, призванная гарантировать, что ИИ не уничтожит человечество» . Вокс . Проверено 16 ноября 2023 г.

[:4-7] Перейти обратно: Перейти обратно: ^а ^б Кехо, Элейн (октябрь 2008 г.). «Люди-математики - Международная математическая олимпиада 2008 г.» (PDF) . Американское математическое общество . Проверено 16 ноября 2023 г.

[8] Фэн, Зумин; Гельча, Разван; Ле, Ян; Данбар, Стивен Р. (июнь 2009 г.). «НОВОСТИ И ПИСЬМА: 49-я Международная математическая олимпиада» . Журнал «Математика» . 82 (е): 235–238. дои : 10.1080/0025570X.2009.11953629 . JSTOR 27765911 .

[9] «Пол Ф. Кристиано» . Цифровая библиотека Ассоциации вычислительной техники . Проверено 16 ноября 2023 г.

[:2-10] Перейти обратно: Перейти обратно: ^а ^б «Об авторах: Теория вычислений: электронный журнал открытого доступа по теоретической информатике» . Проверено 16 ноября 2023 г.

[11] «Пол Кристиано – научный сотрудник» . Институт будущего человечества . Проверено 4 августа 2023 г.

[12] Сюй, Джереми (26 августа 2015 г.). «Оценка: человеческий мозг в 30 раз быстрее лучших суперкомпьютеров» . IEEE-спектр . Проверено 16 ноября 2023 г.

[13] Пейнтер, Бен (31 января 2017 г.). «Рискните своей благотворительной организацией и примите участие в донорской лотерее» . Компания Фаст . Проверено 16 ноября 2023 г.

[14] Кристиано, Пол Ф; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодей, Дарио (2017). «Глубокое обучение с подкреплением на основе человеческих предпочтений» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.

[15] Оуян, Лонг; Ву, Джеффри; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди (6 декабря 2022 г.). «Обучение языковых моделей следованию инструкциям с обратной связью от человека» . Достижения в области нейронных систем обработки информации . 35 : 27730–27744. arXiv : 2203.02155 .

[16] Мец, Кейд (13 августа 2017 г.). «Обучение систем искусственного интеллекта правильному поведению» . Нью-Йорк Таймс . Проверено 16 ноября 2023 г.

[17] Ирвинг, Г.; Кристиано, П.; Амодей, Дарио (2 мая 2018 г.). «Безопасность ИИ через дебаты». arXiv : 1805.00899 [ stat.ML ].

[18] Ву, Джефф; Оуян, Лонг; Зиглер, Дэниел М.; Стиеннон, Ниссан; Лоу, Райан; Лейке, Дж.; Кристиано, П. (22 сентября 2021 г.). «Рекурсивное обобщение книг с обратной связью от человека». arXiv : 2109.10862 [ cs.CL ].

[19] Кристиано, П.; Шлегерис, Бак; Амодей, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [ cs.LG ].

[20] Бернс, Коллин; Е, Хаотянь; Кляйн, Дэн; Стейнхардт, Джейкоб (2022). «Обнаружение скрытых знаний в языковых моделях без присмотра». arXiv : 2212.03827 [ cs.CL ].

[21] Кристиано, Пол; Котра, Аджея; Сюй, Марк (декабрь 2021 г.). «Выявление скрытых знаний: как определить, обманывают ли вас ваши глаза» . Гугл Документы . Центр исследования выравнивания . Проверено 16 апреля 2023 г.

[22] «Как генеративные модели могут пойти не так» . Экономист . 19 апреля 2023 г. . Проверено 16 ноября 2023 г.

[23] «Поль Кристиано» . NIST.gov . 17 апреля 2024 г. . Проверено 22 мая 2024 г.

[24] Голдман, Шэрон (7 марта 2024 г.). «Сотрудники NIST протестуют против ожидаемого назначения «эффективного альтруиста» исследователя ИИ в Институт безопасности ИИ США» . ВенчурБит . Проверено 22 мая 2024 г.

[25] Ньюман, Лили Хэй (сентябрь 2017 г.). «Следует ли нам волноваться? – Обернется ли против меня ИИ?» . Проводной . Проверено 16 ноября 2023 г.

[26] Нолан, Беатрис. «Бывший исследователь OpenAI говорит, что существует 50% вероятность того, что разработка ИИ может закончиться «гибелью » . Бизнес-инсайдер . Проверено 4 июня 2023 г.

[27] Пайпер, Келси (июнь 2023 г.). «Практическое руководство по безопасности ИИ» . Журнал Звездочка . № 3 . Проверено 16 ноября 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]