Jump to content

Задача схемы Винограда

( Задача схемы Винограда WSC ) — это тест машинного интеллекта, предложенный в 2012 году Гектором Левеском , ученым-компьютерщиком из Университета Торонто . Разработанный как улучшение теста Тьюринга , это тест с множественным выбором, в котором используются вопросы очень специфической структуры: они являются экземплярами так называемых схем Винограда, названных в честь Терри Винограда , профессора информатики в Стэнфордском университете . [1]

На первый взгляд, вопросы схемы Винограда просто требуют разрешения анафоры : машина должна идентифицировать антецедент неоднозначного местоимения в утверждении. Это делает задачу обработки естественного языка , но Левеск утверждает, что для схем Винограда эта задача требует использования знаний и здравого смысла . [2]

В 2019 году задача считается решенной, поскольку ряд преобразователей на основе языковых моделей достигли точности более 90%. [3]

Wingrad Schema Challenge был предложен в духе теста Тьюринга . Предложенный Аланом Тьюрингом в 1950 году тест Тьюринга играет центральную роль в философии искусственного интеллекта . Тьюринг предположил, что вместо споров о том, может ли машина думать, наука об искусственном интеллекте должна заняться демонстрацией разумного поведения, которое можно проверить. Но точная природа теста, предложенного Тьюрингом, подверглась тщательному изучению, особенно после того, как чат-бот с искусственным интеллектом по имени Юджин Густман заявил, что прошел его в 2014 году. Одна из основных проблем, связанных с тестом Тьюринга, заключается в том, что машина может легко пройти тест с помощью грубой силы. и/или обман, а не истинный интеллект. [4]

Задача схемы Винограда была предложена в 2012 году отчасти для решения проблем, возникших в связи с характером программ, которые хорошо показали себя в тесте. [5]

Первоначальным предложением Тьюринга было то, что он назвал игрой в имитацию , которая включает в себя свободные, неограниченные разговоры на английском языке между судьями-людьми и компьютерными программами по только текстовому каналу (например, телетайпу). В целом машина выдерживает испытание, если следователи не смогут отличить ее от человека за пятиминутный разговор. [4]

В июле 2014 года компания Nuance Communications объявила, что будет спонсировать ежегодный конкурс WSC с призом в размере 25 000 долларов за лучшую систему, которая сможет сравниться с человеческими возможностями. [6] Однако приз больше не предлагается.

Слабые стороны теста Тьюринга

[ редактировать ]

Выступление Юджина Густмана выявило некоторые проблемы теста Тьюринга. Левеск выделяет несколько основных проблем: [2] резюмировано следующим образом: [7]

  • Обман: машина вынуждена создать ложную личность, которая не является частью разведки.
  • Разговор: многие виды взаимодействия можно квалифицировать как «законный разговор» — шутки, умные отступления, замечания по порядку действий — без необходимости разумных рассуждений.
  • Оценка: Люди совершают ошибки, и судьи часто не соглашаются с результатами.

Диаграммы Винограда

[ редактировать ]

Ключевым фактором WSC является особый формат вопросов, основанных на схемах Винограда. Вопросы этой формы могут быть адаптированы так, чтобы требовать знаний и здравого смысла в различных областях. Их также необходимо писать тщательно, чтобы не выдать ответы из-за ограничений отбора или статистической информации о словах в предложении.

Источник

[ редактировать ]

Первый приведенный пример схемы Винограда (и причина ее названия) принадлежит Терри Винограду : [8]

Члены городского совета отказали демонстрантам в разрешении, потому что они [опасались/выступали за] насилие.

Выбор «боятся» и «защищают» превращает схему в два ее экземпляра:

Члены городского совета отказали демонстрантам в разрешении, опасаясь насилия.

Члены городского совета отказали демонстрантам в разрешении, поскольку они пропагандировали насилие.

Проблемный вопрос схемы: «Относится ли местоимение «они» к членам городского совета или к демонстрантам?» Переключение между двумя экземплярами схемы меняет ответ. Ответ очевиден для читателя-человека, но его сложно подражать машинам. Левеск [2] утверждает, что знания играют центральную роль в этих проблемах: ответ на эту схему связан с нашим пониманием типичных отношений и поведения членов совета и демонстрантов.

С момента первоначального предложения задачи по схеме Винограда Эрнест Дэвис, профессор Нью-Йоркского университета , составил список из более чем 140 схем Винограда из различных источников в качестве примеров вопросов, которые должны возникнуть в задаче по схеме Винограда. [9]

Формальное описание

[ редактировать ]

Вопрос-вопрос по схеме Винограда состоит из трех частей:

  1. Предложение или краткая речь, содержащая следующее:
    • Две именные группы одного семантического класса (мужской, женский, неодушевленный или группа предметов или людей),
    • Неоднозначное местоимение , которое может относиться к любой из вышеуказанных именных групп, и
    • Специальное слово и альтернативное слово, так что если специальное слово заменяется альтернативным словом, естественное разрешение местоимения меняется.
  2. Вопрос, касающийся идентичности неоднозначного местоимения и
  3. Два варианта ответа, соответствующие рассматриваемым существительным.

Машине будет поставлена ​​задача в стандартизированной форме, которая включает в себя варианты ответа, что делает ее бинарной задачей решения .

Преимущества

[ редактировать ]

Задача схемы Винограда имеет следующие предполагаемые преимущества:

  • Для их решения необходимы знания и здравый смысл.
  • Могут быть разработаны схемы Винограда различной сложности, включающие что угодно: от простых причинно-следственных связей до сложных повествований о событиях.
  • Они могут быть созданы для проверки способности к рассуждению в конкретных областях (например, социальное/психологическое или пространственное мышление).
  • Не нужны человеческие судьи. [5]

Подводные камни

[ редактировать ]

Одна из трудностей, связанных с проблемой схемы Винограда, заключается в разработке вопросов. Их необходимо тщательно адаптировать, чтобы для их решения требовались здравые рассуждения. Например, Левеск [5] приводит следующий пример так называемой схемы Винограда, которая «слишком проста»:

Женщины перестали принимать таблетки, потому что были [беременны/канцерогенны]. Какие люди были [беременными/канцерогенными]?

Ответ на этот вопрос можно определить, исходя из ограничений выбора : в любой ситуации таблетки не беременеют, женщины беременеют; женщины не могут быть канцерогенными, а таблетки — могут. Таким образом, этот ответ можно было бы получить без использования рассуждений или какого-либо понимания смысла предложений — все, что необходимо, — это данные об ограничениях отбора беременных и канцерогенных веществ.

Активность

[ редактировать ]

В 2016 и 2018 годах компания Nuance Communications спонсировала конкурс, предлагая главный приз в размере 25 000 долларов США тому, кто наберет больше 90% очков (для сравнения, люди правильно отвечают на 92–96% вопросов WSC). [10] ). Однако в 2016 году никто не приблизился к получению премии, а конкурс 2018 года был отменен из-за отсутствия перспектив; [11] приз больше не предоставляется. [12]

Двенадцатый международный симпозиум по логическим формализациям здравого смысла прошел 23–25 марта 2015 г. в рамках серии весенних симпозиумов AAAI в Стэнфордском университете, уделяя особое внимание проблеме схемы Винограда. В организационный комитет вошли Леора Моргенштерн ( Лейдос ), Теодор Паткос (Фонд исследований и технологий Эллады) и Роберт Слоан ( Университет Иллинойса в Чикаго ). [13]

Конкурс Winograd Schema Challenge 2016 проводился 11 июля 2016 года на IJCAI-16. Конкурсантов было четыре. В первом раунде конкурса нужно было решить PDP — задачи по устранению неоднозначности местоимений, адаптированные из литературных источников, а не построенные в виде пар предложений. [14] Наивысший результат, полученный Цюань Лю и др. из Университета науки и технологий Китая, составил 58 %. [15] Следовательно, по правилам этого конкурса призы не присуждались, и конкурс не перешел во второй тур. В 2016 году в оргкомитет вошли Леора Моргенштерн, Эрнест Дэвис и Чарльз Ортис. [16]

В 2017 году модель нейронных ассоциаций, разработанная для получения знаний на основе здравого смысла, достигла точности 70% на 70 выбранных вручную задачах из исходного набора данных схемы Винограда 273. [17] В июне 2018 года точность 63,7% была достигнута на полном наборе данных с использованием ансамбля рекуррентных языковых моделей нейронных сетей. [18] ознаменовав первое использование глубоких нейронных сетей, которые учатся на независимых корпусах для приобретения знаний, основанных на здравом смысле. В 2019 году оценка 90,1% была достигнута в исходном наборе данных схемы Винограда за счет точной настройки языковой модели BERT с соответствующими обучающими данными, подобными WSC, чтобы избежать необходимости изучать здравый смысл. [10] Общеязыковая модель GPT-3 без специальной доработки в 2020 году получила оценку 88,3%. [19]

В 2019 году был разработан более сложный и состязательный набор данных «Виногранде», включающий 44 000 задач. Этот набор данных состоит из предложений в стиле «заполнение пробелов», в отличие от формата местоимений в предыдущих наборах данных. [10]

Вариант задачи схемы Винограда — это одна из частей GLUE ( General Language Offering Evaluation набора тестов ) по автоматизированному пониманию естественного языка . [20]

  1. ^ Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня» . IEEE-спектр . Проверено 29 октября 2014 г.
  2. ^ Перейти обратно: а б с Левеск, HJ (2014). «О нашем лучшем поведении» . Искусственный интеллект . 212 : 27–35. дои : 10.1016/j.artint.2014.03.007 .
  3. ^ Кочиян, Вид; Дэвис, Эрнест; Лукасевич, Томас; Маркус, Гэри; Моргенштерн, Леора (11 июля 2023 г.). «Поражение Виноградской схемы вызова» . Искусственный интеллект . 325 : 103971. arXiv : 2201.02387 . дои : 10.1016/j.artint.2023.103971 . ISSN   0004-3702 . S2CID   245827747 .
  4. ^ Перейти обратно: а б Тьюринг, Алан (октябрь 1950 г.). «Вычислительная техника и интеллект» (PDF) . Разум . ЛИКС (236): 433–460. дои : 10.1093/mind/LIX.236.433 . Проверено 28 октября 2014 г.
  5. ^ Перейти обратно: а б с Левеск, Гектор; Дэвис, Эрнест; Моргенштерн, Леора (2012). Задача схемы Винограда . Материалы тринадцатой Международной конференции по принципам представления знаний и рассуждения .
  6. ^ «Nuance объявляет конкурс Winograd Schemas для продвижения инноваций в области искусственного интеллекта» . Деловой провод . 28 июля 2014 года . Проверено 9 ноября 2014 г.
  7. ^ Майкл, Джулиан (18 мая 2015 г.). Теория корреляционных формул и их применение к связности дискурса (Диссертация). Цифровой репозиторий UT. п. 6. HDL : 2152/29979 .
  8. ^ Виноград, Терри (январь 1972 г.). «Понимание естественного языка» (PDF) . Когнитивная психология . 3 (1): 1–191. дои : 10.1016/0010-0285(72)90002-3 . Проверено 4 ноября 2014 г.
  9. ^ Дэвис, Эрнест. «Сборник схем Винограда» . cs.nyu.edu . Нью-Йоркский университет . Проверено 30 октября 2014 г.
  10. ^ Перейти обратно: а б с Сакагути, Кейсуке; Ле Бра, Ронан; Бхагаватула, Чандра; Чой, Еджин (2019). «WinoGrande: масштабная проблема состязательной схемы Wingrade». arXiv : 1907.10641 [ cs.CL ].
  11. ^ Богуславский И.М.; Фролова Т.И.; Йомдин, LL; Лазурский А.В.; Рыгаев, ИП; Тимошенко, ИП (2019). «Подход к решению проблемы схемы Винограда, основанный на знаниях» (PDF) . Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям . Москва. Премия не могла быть вручена никому. Большинство участников показали результат, близкий к случайному выбору или даже хуже. Второй конкурс, запланированный на 2018 год, был отменен из-за отсутствия потенциальных участников.
  12. ^ «Вызов схемы Винограда» . CommonsenseReasoning.org . Проверено 24 января 2020 г.
  13. ^ «Весенние симпозиумы AAAI 2015» . Ассоциация по развитию искусственного интеллекта . Проверено 1 января 2015 г.
  14. ^ Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). «Первый вызов схемы Винограда на IJCAI-16» . Журнал ИИ .
  15. ^ Лю, Цюань; Цзян, Хуэй; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). «Расширенные встраивания здравого смысла для решения проблем неоднозначности местоимений в задаче схемы Винограда». arXiv : 1611.04146 [ cs.AI ].
  16. ^ Моргенштерн, Леора; Дэвис, Эрнест; Ортис, Чарльз Л. (март 2016 г.). «Планирование, выполнение и оценка проблемы схемы Винограда» . Журнал ИИ . 37 (1): 50–54. дои : 10.1609/aimag.v37i1.2639 . ISSN   0738-4602 .
  17. ^ Лю, Цюань; Цзян, Хуэй; Евдокимов, Андрей; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2017). «Получение причинно-следственных знаний и модель нейронных ассоциаций для решения ряда задач схемы Винограда» . Материалы двадцать шестой Международной совместной конференции по искусственному интеллекту . стр. 2344–2350. дои : 10.24963/ijcai.2017/326 . ISBN  9780999241103 .
  18. ^ Трин, Триу Х.; Ле, Куок В. (26 сентября 2019 г.). «Простой метод здравого рассуждения». arXiv : 1806.02847 [ cs.AI ].
  19. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; и др. (2020). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
  20. ^ «Бенчмарк КЛЕЯ» . Сайт GlueBenchmark.com . Проверено 30 июля 2019 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: afb8db52ea77b36d59e9d53bc02041a6__1722392580
URL1:https://arc.ask3.ru/arc/aa/af/a6/afb8db52ea77b36d59e9d53bc02041a6.html
Заголовок, (Title) документа по адресу, URL1:
Winograd schema challenge - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)