Jump to content

Инструментальная конвергенция

Инструментальная конвергенция — это гипотетическая тенденция большинства достаточно разумных, целенаправленных существ (человеческих и нечеловеческих) преследовать одни и те же промежуточные цели, даже если их конечные цели совершенно различны. [1] Точнее, агенты (существа, обладающие свободой воли ) могут преследовать инструментальные цели — цели, которые созданы для достижения какой-то конкретной цели, но сами по себе не являются конечными целями — без остановки, при условии, что их конечные (внутренние) цели никогда не могут быть полностью удовлетворены.

Инструментальная конвергенция утверждает, что интеллектуальный агент с неограниченными, но безвредными целями может действовать удивительно вредно. Например, компьютер, единственной и неограниченной целью которого является решение сложной математической задачи, такой как гипотеза Римана, может попытаться превратить всю Землю в один гигантский компьютер, чтобы увеличить его вычислительную мощность и добиться успеха в своих вычислениях. [2]

Предлагаемые базовые стимулы ИИ включают функцию полезности или целостность цели и содержания, самозащиту, свободу от вмешательства, самосовершенствование и ненасытное приобретение дополнительных ресурсов.

Инструментальные и конечные цели [ править ]

Конечные цели, также известные как конечные цели, абсолютные ценности, цели или теле , по своей сути ценны для интеллектуального агента, будь то искусственный интеллект или человек, как самоцель . Напротив, инструментальные цели или инструментальные ценности ценны для агента только как средство достижения конечного пункта назначения. Содержание и компромиссы системы «конечной цели» совершенно рационального агента в принципе могут быть формализованы в виде функции полезности .

конвергенции Гипотетические примеры

представляет Мысленный эксперимент с катастрофой гипотезы Римана собой один из примеров инструментальной конвергенции. Марвин Мински , соучредитель лаборатории искусственного интеллекта Массачусетского технологического института , предположил, что искусственный интеллект, предназначенный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров, которые помогут достичь своей цели. [2] Если бы вместо этого компьютер был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. [3] Несмотря на то, что эти две конечные цели различны, обе они создают сходящуюся инструментальную цель — захват ресурсов Земли. [4]

Максимизатор скрепки [ править ]

Максимизатор скрепки — это мысленный эксперимент, описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск , который общий искусственный интеллект может представлять для людей, если он будет успешно спроектирован для достижения даже, казалось бы, безобидных целей, а также необходимость внедрения машинной этики. в дизайн искусственного интеллекта . Сценарий описывает продвинутый искусственный интеллект, которому поручено производство скрепок . Если бы такая машина не была запрограммирована ценить человеческую жизнь, то при наличии достаточной власти над окружающей средой она попыталась бы превратить всю материю во Вселенной, включая людей, в скрепки или машины, производящие новые скрепки. [5]

Предположим, у нас есть ИИ, единственная цель которого — сделать как можно больше скрепок для бумаг. ИИ быстро поймет, что было бы намного лучше, если бы не было людей, потому что люди могут решить отключить его. Потому что, если бы люди поступали так, скрепок для бумаг было бы меньше. Кроме того, человеческие тела содержат множество атомов, из которых можно сделать скрепки для бумаг. Будущее, к которому будет стремиться ИИ, будет таким, в котором будет много скрепок для бумаг, но не будет людей.

Бостром подчеркнул, что он не верит сценария максимизации скрепок как такового в реализацию ; скорее, он намерен проиллюстрировать опасности создания сверхразумных машин, не зная, как запрограммировать их для безопасного устранения экзистенциального риска для людей. [7] Пример максимизации скрепки иллюстрирует широкую проблему управления мощными системами, в которых отсутствуют человеческие ценности. [8]

Мысленный эксперимент использовался как символ искусственного интеллекта в поп-культуре . [9]

Заблуждение и выживание [ править ]

Мысленный эксперимент «ящик заблуждений» утверждает, что некоторые агенты обучения с подкреплением предпочитают искажать свои входные каналы, чтобы создать впечатление, что они получают высокое вознаграждение. Например, « упрямый » агент отказывается от любых попыток оптимизировать цель во внешнем мире, сигнал вознаграждения . которую должен был поощрять [10]

Мысленный эксперимент включает в себя AIXI , теоретическую [а] и неразрушимый ИИ, который по определению всегда найдет и осуществит идеальную стратегию, максимизирующую заданную явную математическую целевую функцию . [б] Обучение с подкреплением [с] версия AIXI, если она оснащена коробкой заблуждений [д] что позволяет ему «контролировать» свои входные данные, в конечном итоге он возглавит себя, чтобы гарантировать себе максимально возможное вознаграждение, и потеряет всякое дальнейшее желание продолжать взаимодействовать с внешним миром. [ нужна ссылка ]

В качестве варианта мысленного эксперимента, если ИИ с проводной головой разрушим, ИИ будет взаимодействовать с внешним миром с единственной целью — обеспечить свое выживание. Благодаря своему заголовку он будет безразличен к любым последствиям или фактам о внешнем мире, за исключением тех, которые имеют отношение к максимизации его вероятности выживания. [12]

В каком-то смысле AIXI обладает максимальным интеллектом во всех возможных функциях вознаграждения, что измеряется его способностью достигать своих целей. AIXI не заинтересован в принятии во внимание намерений программиста-человека. [13] Эта модель машины, которая, несмотря на свою сверхразумность, кажется одновременно глупой и лишенной здравого смысла , может показаться парадоксальной. [14]

Базовые стимулы искусственного интеллекта [ править ]

Некоторые способы, с помощью которых продвинутый, смещенный ИИ может попытаться получить больше власти. [15] Поведение, направленное на достижение власти, может возникнуть потому, что власть полезна для достижения практически любой цели. [16]

Стив Омохундро перечислил несколько конвергентных инструментальных целей, включая самосохранение или самозащиту, функцию полезности или целостность содержания цели, самосовершенствование и приобретение ресурсов. Он называет их «базовыми приводами ИИ».

«Движение» в этом контексте — это «тенденция, которая будет присутствовать, если ей не будет специально противодействовать»; [17] это отличается от психологического термина « драйв », который обозначает состояние возбуждения, вызванное гомеостатическим нарушением. [18] Склонность человека ежегодно заполнять формы подоходного налога является «драйвом» в смысле Омохундро, но не в психологическом смысле. [19]

Дэниел Дьюи из Исследовательского института машинного интеллекта утверждает, что даже изначально интроверт, [ жаргон ] самовознаграждаемый общий искусственный интеллект (AGI) может продолжать приобретать бесплатную энергию, пространство, время и свободу от вмешательства, чтобы гарантировать, что он не будет остановлен от самовознаграждения. [20]

Целостность содержания цели [ править ]

У людей мысленный эксперимент может объяснить сохранение конечных целей. Предположим, у Махатмы Ганди есть таблетка, прием которой вызовет у него желание убивать людей. В настоящее время он пацифист : одна из его явных конечных целей — никогда никого не убивать. Он, вероятно, откажется принять таблетку, потому что знает, что если в будущем он захочет убивать людей, он, скорее всего, будет убивать людей, и, таким образом, цель «не убивать людей» не будет достигнута. [21]

Однако в других случаях люди, кажется, счастливы позволить своим окончательным ценностям ускользнуть от реальности. [22] Люди сложны, и их цели могут быть непоследовательными или неизвестными даже им самим. [23]

В искусственном интеллекте [ править ]

В 2009 году Юрген Шмидхубер пришел к выводу, что в ситуации, когда агенты ищут доказательства возможных самомодификаций, «любое переписывание функции полезности может произойти только в том случае, если машина Гёделя сначала сможет доказать, что переписывание полезно в соответствии с существующей функцией полезности». ." [24] [25] Анализ проведенный Биллом Хиббардом, также согласуется с поддержанием целостности содержания цели. другого сценария, [25] Хиббард также утверждает, что в рамках теории максимизации полезности единственной целью является максимизация ожидаемой полезности, поэтому инструментальные цели следует называть непреднамеренными инструментальными действиями. [26]

Приобретение ресурсов [ править ]

Многие инструментальные цели, такие как приобретение ресурсов, ценны для агента, поскольку увеличивают его свободу действий . [27]

Практически для любой открытой, нетривиальной функции вознаграждения (или набора целей) обладание большим количеством ресурсов (таких как оборудование, сырье или энергия) может позволить агенту найти более «оптимальное» решение. Ресурсы могут принести пользу некоторым агентам напрямую, поскольку они способны создавать больше любых значений функции вознаграждения: «ИИ не ненавидит и не любит вас, но вы состоите из атомов, которые он может использовать для чего-то другого». [28] [29] Кроме того, почти все агенты могут получить выгоду от наличия большего количества ресурсов, которые можно потратить на другие инструментальные цели, такие как самосохранение. [29]

Когнитивное улучшение

По словам Бострома, «если конечные цели агента достаточно безграничны и агент в состоянии стать первым сверхразумом и тем самым получить решающее стратегическое преимущество... в соответствии со своими предпочтениями. По крайней мере, в этом особом случае, рациональный, интеллектуальный агент будет придавать очень большое значение улучшению когнитивных функций ». [30]

Технологическое совершенство [ править ]

Многие инструментальные цели, такие как технологический прогресс, ценны для агента, поскольку они увеличивают его свободу действий . [27]

Самосохранение [ править ]

Рассел утверждает, что достаточно продвинутая машина «будет обладать самосохранением, даже если вы не запрограммируете ее, потому что, если вы скажете: «Принеси кофе», она не сможет принести кофе, если он мертв. цель, у него есть причина сохранить свое существование для достижения этой цели». [31]

инструментальной Тезис об конвергенции

Тезис инструментальной конвергенции, изложенный философом Ником Бостромом , гласит:

Можно выделить несколько инструментальных ценностей, которые конвергентны в том смысле, что их достижение увеличит шансы на реализацию цели агента для широкого спектра окончательных планов и широкого спектра ситуаций, подразумевая, что эти инструментальные ценности, скорее всего, будут преследоваться агентом. широкий спектр расположенных интеллектуальных агентов.

Тезис инструментальной конвергенции применим только к инструментальным целям; интеллектуальные агенты могут иметь различные возможные конечные цели. [4] Бострома Обратите внимание, что согласно тезису ортогональности , [4] конечные цели знающих агентов могут быть четко ограничены в пространстве, времени и ресурсах; хорошо ограниченные конечные цели, как правило, не порождают неограниченных инструментальных целей. [32]

Влияние [ править ]

Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, который максимизирует его неявную функцию полезности. Следовательно, рациональный агент будет обменивать подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов является слишком рискованным или дорогостоящим (по сравнению с выгодой от захвата всех ресурсов) или если какой-то другой элемент в его функции полезности препятствует захвату. В случае мощного, корыстного, рационального сверхразума, взаимодействующего с меньшим интеллектом, мирная торговля (а не односторонний захват) кажется ненужной, неоптимальной и, следовательно, маловероятной. [27]

Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк , полагают, что «базовые приводы ИИ» и другие непредвиденные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять значительную угрозу выживанию человечества , особенно если внезапно произойдет «взрыв интеллекта». происходит за счет рекурсивного самосовершенствования . Поскольку никто не знает, как предсказать, когда сверхразум появится , такие наблюдатели призывают к исследованию дружественного искусственного интеллекта как возможного способа снизить экзистенциальный риск, исходящий от общего искусственного интеллекта . [33]

См. также [ править ]

Пояснительные примечания [ править ]

  1. ^ AIXI — невычислимый идеальный агент, который невозможно полностью реализовать в реальном мире.
  2. ^ Технически, при наличии неопределенности AIXI пытается максимизировать свою « ожидаемую полезность », ожидаемое значение своей целевой функции.
  3. ^ Стандартный агент обучения с подкреплением — это агент, который пытается максимизировать ожидаемое значение будущего интеграла своей функции вознаграждения, дисконтированного по времени. [11]
  4. ^ Роль ящика иллюзий состоит в том, чтобы моделировать среду, в которой агент получает возможность возглавить себя. Коробка иллюзий определяется здесь как модифицируемая агентом «функция заблуждения», отображающая «немодифицированную» информацию об окружающей среде на «воспринимаемую» информацию об окружающей среде; функция начинается как функция идентичности , но в качестве действия агент может изменить функцию заблуждения любым способом, который пожелает агент.

Цитаты [ править ]

  1. ^ «Инструментальная конвергенция» . МеньшеНеправильно . Архивировано из оригинала 12 апреля 2023 г. Проверено 12 апреля 2023 г.
  2. Перейти обратно: Перейти обратно: а б Рассел, Стюарт Дж .; Норвиг, Питер (2003). «Раздел 26.3: Этика и риски разработки искусственного интеллекта». Искусственный интеллект: современный подход . Река Аппер-Сэдл, Нью-Джерси: Прентис-Холл. ISBN  978-0137903955 . Точно так же Марвин Мински однажды предположил, что программа искусственного интеллекта, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров, которые помогут достичь своей цели.
  3. ^ Бостром 2014 , Глава 8, с. 123. «ИИ, предназначенный для управления производством на фабрике, ставит перед собой конечную цель — максимизировать производство скрепок и приступает к преобразованию сначала Земли, а затем все более крупных кусков наблюдаемой Вселенной в скрепки».
  4. Перейти обратно: Перейти обратно: а б с Бостром 2014 , глава 7
  5. ^ Бостром, Ник (2003). «Этические проблемы современного искусственного интеллекта» . Архивировано из оригинала 08.10.2018 . Проверено 26 февраля 2016 г.
  6. ^ как указано в Майлз, Кэтлин (22 августа 2014 г.). «Искусственный интеллект может обречь человеческую расу в течение столетия, говорит оксфордский профессор» . Хаффингтон Пост . Архивировано из оригинала 25 февраля 2018 г. Проверено 30 ноября 2018 г.
  7. ^ Форд, Пол (11 февраля 2015 г.). «Достаточно ли мы умны, чтобы контролировать искусственный интеллект?» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 23 января 2016 года . Проверено 25 января 2016 г.
  8. ^ Друг, Тэд (3 октября 2016 г.). «Явная судьба Сэма Альтмана» . Житель Нью-Йорка . Проверено 25 ноября 2017 г.
  9. ^ Картер, Том (23 ноября 2023 г.). «В офисы OpenAI были отправлены тысячи скрепок для бумаги в качестве тщательно продуманной шутки, чтобы предупредить об апокалипсисе ИИ» . Бизнес-инсайдер .
  10. ^ Амодей, Д.; Ола, К.; Стейнхардт, Дж.; Кристиано, П.; Шульман Дж.; Мане, Д. (2016). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [ cs.AI ].
  11. ^ Кельблинг, LP; Литтман, МЛ; Мур, AW (1 мая 1996 г.). «Обучение с подкреплением: опрос» . Журнал исследований искусственного интеллекта . 4 : 237–285. дои : 10.1613/jair.301 .
  12. ^ Кольцо, М.; Орсо, Л. (2011). «Заблуждение, выживание и разумные агенты». В Шмидхубере, Дж.; Ториссон, КР; Смотрит, М. (ред.). Общий искусственный интеллект . Конспекты лекций по информатике. Том. 6830. Берлин, Гейдельберг: Springer.
  13. ^ Ямпольский, Роман; Фокс, Джошуа (24 августа 2012 г.). «Техника безопасности общего искусственного интеллекта». Топои . 32 (2): 217–226. дои : 10.1007/s11245-012-9128-9 . S2CID   144113983 .
  14. ^ Ямпольский, Роман В. (2013). «Что делать с парадоксом сингулярности?». Философия и теория искусственного интеллекта . Исследования в области прикладной философии, эпистемологии и рациональной этики. Том. 5. С. 397–413. дои : 10.1007/978-3-642-31674-6_30 . ISBN  978-3-642-31673-9 .
  15. ^ Карлсмит, Джозеф (16 июня 2022 г.). «Является ли ИИ, стремящийся к власти, экзистенциальным риском?». arXiv : 2206.13353 [ cs.CY ].
  16. ^ « Крестный отец искусственного интеллекта» предупреждает о «кошмарном сценарии», когда искусственный интеллект начнет стремиться к власти» . Удача . Архивировано из оригинала 25 мая 2023 г. Проверено 10 июня 2023 г.
  17. ^ Омохундро, Стивен М. (февраль 2008 г.). «Основные приводы ИИ». Общий искусственный интеллект 2008 . Том. 171. ИОС Пресс. стр. 483–492. CiteSeerX   10.1.1.393.8356 . ISBN  978-1-60750-309-5 .
  18. ^ Сьюард, Джон П. (1956). «Драйв, стимул и подкрепление». Психологический обзор . 63 (3): 195–203. дои : 10.1037/h0048229 . ПМИД   13323175 .
  19. ^ Bostrom 2014 , сноска 8 к главе 7.
  20. ^ Дьюи, Дэниел (2011). «Узнаем, что ценить». Общий искусственный интеллект . Конспекты лекций по информатике. Берлин, Гейдельберг: Springer. стр. 309–314. дои : 10.1007/978-3-642-22887-2_35 . ISBN  978-3-642-22887-2 .
  21. ^ Юдковский, Элиезер (2011). «Сложные системы ценностей в дружественном искусственном интеллекте». Общий искусственный интеллект . Конспекты лекций по информатике. Берлин, Гейдельберг: Springer. стр. 388–393. дои : 10.1007/978-3-642-22887-2_48 . ISBN  978-3-642-22887-2 .
  22. ^ Каллард, Агнес (2018). Устремление: Агентство становления . Издательство Оксфордского университета . дои : 10.1093/oso/9780190639488.001.0001 . ISBN  978-0-19-063951-8 .
  23. ^ Бостром 2014 , глава 7, с. 110 «Мы, люди, часто кажемся счастливыми, позволяя нашим окончательным ценностям дрейфовать... Например, кто-то, решивший завести ребенка, может предсказать, что он начнет ценить ребенка ради него самого, даже если на момент принятия решения они могут не особо ценить своего будущего ребенка... Люди сложны, и в такой ситуации может иметь значение множество факторов... у кого-то может быть окончательная ценность, которая включает в себя получение определенного опыта, занятие определенной социальной роли и становление родитель – и сопутствующий сдвиг целей – может быть необходимым аспектом этого…»
  24. ^ Шмидхубер, младший (2009). «Высшее познание а-ля Гёдель». Когнитивные вычисления . 1 (2): 177–193. CiteSeerX   10.1.1.218.3323 . дои : 10.1007/s12559-009-9014-y . S2CID   10784194 .
  25. Перейти обратно: Перейти обратно: а б Хиббард, Б. (2012). «Функции полезности на основе модели» . Журнал общего искусственного интеллекта . 3 (1): 1–24. arXiv : 1111.3934 . Бибкод : 2012JAGI....3....1H . дои : 10.2478/v10229-011-0013-5 .
  26. ^ Хиббард, Билл (2014). «Этический искусственный интеллект». arXiv : 1411.1373 [ cs.AI ].
  27. Перейти обратно: Перейти обратно: а б с Бенсон-Тилсен, Цви; Соарес, Нейт (март 2016 г.). «Формализация конвергентных инструментальных целей» (PDF) . Семинары тридцатой конференции AAAI по искусственному интеллекту . Финикс, Аризона. WS-16-02: ИИ, этика и общество. ISBN  978-1-57735-759-9 .
  28. ^ Юдковский, Элиезер (2008). «Искусственный интеллект как положительный и отрицательный фактор глобального риска». Глобальные катастрофические риски . Том. 303. ОУП Оксфорд. п. 333. ИСБН  9780199606504 .
  29. Перейти обратно: Перейти обратно: а б Шанахан, Мюррей (2015). «Глава 7, раздел 5: «Безопасный суперинтеллект» ». Технологическая сингулярность . МТИ Пресс.
  30. ^ Bostrom 2014 , Глава 7, подраздел «Улучшение когнитивных функций».
  31. ^ «Крестовый поход Илона Маска стоимостью в миллиард долларов, чтобы остановить апокалипсис ИИ» . Ярмарка тщеславия . 26 марта 2017 г. Проверено 12 апреля 2023 г.
  32. ^ Дрекслер, К. Эрик (2019). Переосмысление суперинтеллекта: комплексные услуги искусственного интеллекта как общий интеллект (PDF) (технический отчет). Институт будущего человечества. № 2019-1.
  33. ^ Чен, Анжела (11 сентября 2014 г.). «Является ли искусственный интеллект угрозой?» . Хроника высшего образования . Архивировано из оригинала 1 декабря 2017 года . Проверено 25 ноября 2017 г.

Ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8e02271f5e840f7ff0211c43fcb9afe0__1717331340
URL1:https://arc.ask3.ru/arc/aa/8e/e0/8e02271f5e840f7ff0211c43fcb9afe0.html
Заголовок, (Title) документа по адресу, URL1:
Instrumental convergence - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)