Задача схемы Винограда

( Задача схемы Винограда WSC ) — это тест машинного интеллекта, предложенный в 2012 году Гектором Левеском , ученым-компьютерщиком из Университета Торонто . Разработанный как улучшение теста Тьюринга , это тест с множественным выбором, в котором используются вопросы очень специфической структуры: они являются экземплярами так называемых схем Винограда, названных в честь Терри Винограда , профессора информатики в Стэнфордском университете . ^[1]

На первый взгляд, вопросы схемы Винограда просто требуют разрешения анафоры : машина должна идентифицировать антецедент неоднозначного местоимения в утверждении. Это делает задачу обработки естественного языка , но Левеск утверждает, что для схем Винограда эта задача требует использования знаний и здравого смысла . ^[2]

В 2019 году задача считается решенной, поскольку ряд преобразователей на основе языковых моделей достигли точности более 90%. ^[3]

История

Wingrad Schema Challenge был предложен в духе теста Тьюринга . Предложенный Аланом Тьюрингом в 1950 году тест Тьюринга играет центральную роль в философии искусственного интеллекта . Тьюринг предположил, что вместо споров о том, может ли машина думать, наука об искусственном интеллекте должна заняться демонстрацией разумного поведения, которое можно проверить. Но точная природа теста, предложенного Тьюрингом, подверглась тщательному изучению, особенно после того, как чат-бот с искусственным интеллектом по имени Юджин Густман заявил, что прошел его в 2014 году. Одна из основных проблем, связанных с тестом Тьюринга, заключается в том, что машина может легко пройти тест с помощью грубой силы. и/или обман, а не истинный интеллект. ^[4]

Задача схемы Винограда была предложена в 2012 году отчасти для решения проблем, возникших в связи с характером программ, которые хорошо показали себя в тесте. ^[5]

Первоначальным предложением Тьюринга было то, что он назвал игрой в имитацию , которая включает в себя свободные, неограниченные разговоры на английском языке между судьями-людьми и компьютерными программами по только текстовому каналу (например, телетайпу). В целом машина выдерживает испытание, если следователи не смогут отличить ее от человека за пятиминутный разговор. ^[4]

В июле 2014 года компания Nuance Communications объявила, что будет спонсировать ежегодный конкурс WSC с призом в размере 25 000 долларов за лучшую систему, которая сможет сравниться с человеческими возможностями. ^[6] Однако приз больше не предлагается.

Слабые стороны теста Тьюринга

Выступление Юджина Густмана выявило некоторые проблемы теста Тьюринга. Левеск выделяет несколько основных проблем: ^[2] резюмировано следующим образом: ^[7]

Обман: машина вынуждена создать ложную личность, которая не является частью разведки.
Разговор: многие виды взаимодействия можно квалифицировать как «законный разговор» — шутки, умные отступления, замечания по порядку действий — без необходимости разумных рассуждений.
Оценка: Люди совершают ошибки, и судьи часто не соглашаются с результатами.

Диаграммы Винограда

Ключевым фактором WSC является особый формат вопросов, основанных на схемах Винограда. Вопросы этой формы могут быть адаптированы так, чтобы требовать знаний и здравого смысла в различных областях. Их также необходимо писать тщательно, чтобы не выдать ответы из-за ограничений отбора или статистической информации о словах в предложении.

Источник

Первый приведенный пример схемы Винограда (и причина ее названия) принадлежит Терри Винограду : ^[8]

Члены городского совета отказали демонстрантам в разрешении, потому что они [опасались/выступали за] насилие.

Выбор «боятся» и «защищают» превращает схему в два ее экземпляра:

Члены городского совета отказали демонстрантам в разрешении, опасаясь насилия.

Члены городского совета отказали демонстрантам в разрешении, поскольку они пропагандировали насилие.

Проблемный вопрос схемы: «Относится ли местоимение «они» к членам городского совета или к демонстрантам?» Переключение между двумя экземплярами схемы меняет ответ. Ответ очевиден для читателя-человека, но его сложно подражать машинам. Левеск ^[2] утверждает, что знания играют центральную роль в этих проблемах: ответ на эту схему связан с нашим пониманием типичных отношений и поведения членов совета и демонстрантов.

С момента первоначального предложения задачи по схеме Винограда Эрнест Дэвис, профессор Нью-Йоркского университета , составил список из более чем 140 схем Винограда из различных источников в качестве примеров вопросов, которые должны возникнуть в задаче по схеме Винограда. ^[9]

Формальное описание

Вопрос-вопрос по схеме Винограда состоит из трех частей:

Предложение или краткая речь, содержащая следующее:
- Две именные группы одного семантического класса (мужской, женский, неодушевленный или группа предметов или людей),
- Неоднозначное местоимение , которое может относиться к любой из вышеуказанных именных групп, и
- Специальное слово и альтернативное слово, так что если специальное слово заменяется альтернативным словом, естественное разрешение местоимения меняется.
Вопрос, касающийся идентичности неоднозначного местоимения и
Два варианта ответа, соответствующие рассматриваемым существительным.

Машине будет поставлена задача в стандартизированной форме, которая включает в себя варианты ответа, что делает ее бинарной задачей решения .

Преимущества

Задача схемы Винограда имеет следующие предполагаемые преимущества:

Для их решения необходимы знания и здравый смысл.
Могут быть разработаны схемы Винограда различной сложности, включающие что угодно: от простых причинно-следственных связей до сложных повествований о событиях.
Они могут быть созданы для проверки способности к рассуждению в конкретных областях (например, социальное/психологическое или пространственное мышление).
Не нужны человеческие судьи. ^[5]

Подводные камни

Одна из трудностей, связанных с проблемой схемы Винограда, заключается в разработке вопросов. Их необходимо тщательно адаптировать, чтобы для их решения требовались здравые рассуждения. Например, Левеск ^[5] приводит следующий пример так называемой схемы Винограда, которая «слишком проста»:

Женщины перестали принимать таблетки, потому что были [беременны/канцерогенны]. Какие люди были [беременными/канцерогенными]?

Ответ на этот вопрос можно определить, исходя из ограничений выбора : в любой ситуации таблетки не беременеют, женщины беременеют; женщины не могут быть канцерогенными, а таблетки — могут. Таким образом, этот ответ можно было бы получить без использования рассуждений или какого-либо понимания смысла предложений — все, что необходимо, — это данные об ограничениях отбора беременных и канцерогенных веществ.

Активность

В 2016 и 2018 годах компания Nuance Communications спонсировала конкурс, предлагая главный приз в размере 25 000 долларов США тому, кто наберет больше 90% очков (для сравнения, люди правильно отвечают на 92–96% вопросов WSC). ^[10]). Однако в 2016 году никто не приблизился к получению премии, а конкурс 2018 года был отменен из-за отсутствия перспектив; ^[11] приз больше не предоставляется. ^[12]

Двенадцатый международный симпозиум по логическим формализациям здравого смысла прошел 23–25 марта 2015 г. в рамках серии весенних симпозиумов AAAI в Стэнфордском университете, уделяя особое внимание проблеме схемы Винограда. В организационный комитет вошли Леора Моргенштерн ( Лейдос ), Теодор Паткос (Фонд исследований и технологий Эллады) и Роберт Слоан ( Университет Иллинойса в Чикаго ). ^[13]

Конкурс Winograd Schema Challenge 2016 проводился 11 июля 2016 года на IJCAI-16. Конкурсантов было четыре. В первом раунде конкурса нужно было решить PDP — задачи по устранению неоднозначности местоимений, адаптированные из литературных источников, а не построенные в виде пар предложений. ^[14] Наивысший результат, полученный Цюань Лю и др. из Университета науки и технологий Китая, составил 58 %. ^[15] Следовательно, по правилам этого конкурса призы не присуждались, и конкурс не перешел во второй тур. В 2016 году в оргкомитет вошли Леора Моргенштерн, Эрнест Дэвис и Чарльз Ортис. ^[16]

В 2017 году модель нейронных ассоциаций, разработанная для получения знаний на основе здравого смысла, достигла точности 70% на 70 выбранных вручную задачах из исходного набора данных схемы Винограда 273. ^[17] В июне 2018 года точность 63,7% была достигнута на полном наборе данных с использованием ансамбля рекуррентных языковых моделей нейронных сетей. ^[18] ознаменовав первое использование глубоких нейронных сетей, которые учатся на независимых корпусах для приобретения знаний, основанных на здравом смысле. В 2019 году оценка 90,1% была достигнута в исходном наборе данных схемы Винограда за счет точной настройки языковой модели BERT с соответствующими обучающими данными, подобными WSC, чтобы избежать необходимости изучать здравый смысл. ^[10] Общеязыковая модель GPT-3 без специальной доработки в 2020 году получила оценку 88,3%. ^[19]

В 2019 году был разработан более сложный и состязательный набор данных «Виногранде», включающий 44 000 задач. Этот набор данных состоит из предложений в стиле «заполнение пробелов», в отличие от формата местоимений в предыдущих наборах данных. ^[10]

Вариант задачи схемы Винограда — это одна из частей GLUE ( General Language Offering Evaluation набора тестов ) по автоматизированному пониманию естественного языка . ^[20]

Ссылки

^ Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня» . IEEE-спектр . Проверено 29 октября 2014 г.
^ Перейти обратно: ^а ^б ^с Левеск, HJ (2014). «О нашем лучшем поведении» . Искусственный интеллект . 212 : 27–35. дои : 10.1016/j.artint.2014.03.007 .
^ Кочиян, Вид; Дэвис, Эрнест; Лукасевич, Томас; Маркус, Гэри; Моргенштерн, Леора (11 июля 2023 г.). «Поражение Виноградской схемы вызова» . Искусственный интеллект . 325 : 103971. arXiv : 2201.02387 . дои : 10.1016/j.artint.2023.103971 . ISSN 0004-3702 . S2CID 245827747 .
^ Перейти обратно: ^а ^б Тьюринг, Алан (октябрь 1950 г.). «Вычислительная техника и интеллект» (PDF) . Разум . ЛИКС (236): 433–460. дои : 10.1093/mind/LIX.236.433 . Проверено 28 октября 2014 г.
^ Перейти обратно: ^а ^б ^с Левеск, Гектор; Дэвис, Эрнест; Моргенштерн, Леора (2012). Задача схемы Винограда . Материалы тринадцатой Международной конференции по принципам представления знаний и рассуждения .
^ «Nuance объявляет конкурс Winograd Schemas для продвижения инноваций в области искусственного интеллекта» . Деловой провод . 28 июля 2014 года . Проверено 9 ноября 2014 г.
^ Майкл, Джулиан (18 мая 2015 г.). Теория корреляционных формул и их применение к связности дискурса (Диссертация). Цифровой репозиторий UT. п. 6. HDL : 2152/29979 .
^ Виноград, Терри (январь 1972 г.). «Понимание естественного языка» (PDF) . Когнитивная психология . 3 (1): 1–191. дои : 10.1016/0010-0285(72)90002-3 . Проверено 4 ноября 2014 г.
^ Дэвис, Эрнест. «Сборник схем Винограда» . cs.nyu.edu . Нью-Йоркский университет . Проверено 30 октября 2014 г.
^ Перейти обратно: ^а ^б ^с Сакагути, Кейсуке; Ле Бра, Ронан; Бхагаватула, Чандра; Чой, Еджин (2019). «WinoGrande: масштабная проблема состязательной схемы Wingrade». arXiv : 1907.10641 [ cs.CL ].
^ Богуславский И.М.; Фролова Т.И.; Йомдин, LL; Лазурский А.В.; Рыгаев, ИП; Тимошенко, ИП (2019). «Подход к решению проблемы схемы Винограда, основанный на знаниях» (PDF) . Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям . Москва. Премия не могла быть вручена никому. Большинство участников показали результат, близкий к случайному выбору или даже хуже. Второй конкурс, запланированный на 2018 год, был отменен из-за отсутствия потенциальных участников.
^ «Вызов схемы Винограда» . CommonsenseReasoning.org . Проверено 24 января 2020 г.
^ «Весенние симпозиумы AAAI 2015» . Ассоциация по развитию искусственного интеллекта . Проверено 1 января 2015 г.
^ Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). «Первый вызов схемы Винограда на IJCAI-16» . Журнал ИИ .
^ Лю, Цюань; Цзян, Хуэй; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). «Расширенные встраивания здравого смысла для решения проблем неоднозначности местоимений в задаче схемы Винограда». arXiv : 1611.04146 [ cs.AI ].
^ Моргенштерн, Леора; Дэвис, Эрнест; Ортис, Чарльз Л. (март 2016 г.). «Планирование, выполнение и оценка проблемы схемы Винограда» . Журнал ИИ . 37 (1): 50–54. дои : 10.1609/aimag.v37i1.2639 . ISSN 0738-4602 .
^ Лю, Цюань; Цзян, Хуэй; Евдокимов, Андрей; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2017). «Получение причинно-следственных знаний и модель нейронных ассоциаций для решения ряда задач схемы Винограда» . Материалы двадцать шестой Международной совместной конференции по искусственному интеллекту . стр. 2344–2350. дои : 10.24963/ijcai.2017/326 . ISBN 9780999241103 .
^ Трин, Триу Х.; Ле, Куок В. (26 сентября 2019 г.). «Простой метод здравого рассуждения». arXiv : 1806.02847 [ cs.AI ].
^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; и др. (2020). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
^ «Бенчмарк КЛЕЯ» . Сайт GlueBenchmark.com . Проверено 30 июля 2019 г.

Внешние ссылки

[ieee_web-1] Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня» . IEEE-спектр . Проверено 29 октября 2014 г.

[Levesque14-2] Перейти обратно: ^а ^б ^с Левеск, HJ (2014). «О нашем лучшем поведении» . Искусственный интеллект . 212 : 27–35. дои : 10.1016/j.artint.2014.03.007 .

[3] Кочиян, Вид; Дэвис, Эрнест; Лукасевич, Томас; Маркус, Гэри; Моргенштерн, Леора (11 июля 2023 г.). «Поражение Виноградской схемы вызова» . Искусственный интеллект . 325 : 103971. arXiv : 2201.02387 . дои : 10.1016/j.artint.2023.103971 . ISSN 0004-3702 . S2CID 245827747 .

[Turing_paper-4] Перейти обратно: ^а ^б Тьюринг, Алан (октябрь 1950 г.). «Вычислительная техника и интеллект» (PDF) . Разум . ЛИКС (236): 433–460. дои : 10.1093/mind/LIX.236.433 . Проверено 28 октября 2014 г.

[Hector-5] Перейти обратно: ^а ^б ^с Левеск, Гектор; Дэвис, Эрнест; Моргенштерн, Леора (2012). Задача схемы Винограда . Материалы тринадцатой Международной конференции по принципам представления знаний и рассуждения .

[nuance-6] «Nuance объявляет конкурс Winograd Schemas для продвижения инноваций в области искусственного интеллекта» . Деловой провод . 28 июля 2014 года . Проверено 9 ноября 2014 г.

[Michael15-7] Майкл, Джулиан (18 мая 2015 г.). Теория корреляционных формул и их применение к связности дискурса (Диссертация). Цифровой репозиторий UT. п. 6. HDL : 2152/29979 .

[UNL-8] Виноград, Терри (январь 1972 г.). «Понимание естественного языка» (PDF) . Когнитивная психология . 3 (1): 1–191. дои : 10.1016/0010-0285(72)90002-3 . Проверено 4 ноября 2014 г.

[collection-9] Дэвис, Эрнест. «Сборник схем Винограда» . cs.nyu.edu . Нью-Йоркский университет . Проверено 30 октября 2014 г.

[Sakaguchi-10] Перейти обратно: ^а ^б ^с Сакагути, Кейсуке; Ле Бра, Ронан; Бхагаватула, Чандра; Чой, Еджин (2019). «WinoGrande: масштабная проблема состязательной схемы Wingrade». arXiv : 1907.10641 [ cs.CL ].

[11] Богуславский И.М.; Фролова Т.И.; Йомдин, LL; Лазурский А.В.; Рыгаев, ИП; Тимошенко, ИП (2019). «Подход к решению проблемы схемы Винограда, основанный на знаниях» (PDF) . Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям . Москва. Премия не могла быть вручена никому. Большинство участников показали результат, близкий к случайному выбору или даже хуже. Второй конкурс, запланированный на 2018 год, был отменен из-за отсутствия потенциальных участников.

[CR-12] «Вызов схемы Винограда» . CommonsenseReasoning.org . Проверено 24 января 2020 г.

[AIII-13] «Весенние симпозиумы AAAI 2015» . Ассоциация по развитию искусственного интеллекта . Проверено 1 января 2015 г.

[14] Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). «Первый вызов схемы Винограда на IJCAI-16» . Журнал ИИ .

[15] Лю, Цюань; Цзян, Хуэй; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). «Расширенные встраивания здравого смысла для решения проблем неоднозначности местоимений в задаче схемы Винограда». arXiv : 1611.04146 [ cs.AI ].

[16] Моргенштерн, Леора; Дэвис, Эрнест; Ортис, Чарльз Л. (март 2016 г.). «Планирование, выполнение и оценка проблемы схемы Винограда» . Журнал ИИ . 37 (1): 50–54. дои : 10.1609/aimag.v37i1.2639 . ISSN 0738-4602 .

[17] Лю, Цюань; Цзян, Хуэй; Евдокимов, Андрей; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2017). «Получение причинно-следственных знаний и модель нейронных ассоциаций для решения ряда задач схемы Винограда» . Материалы двадцать шестой Международной совместной конференции по искусственному интеллекту . стр. 2344–2350. дои : 10.24963/ijcai.2017/326 . ISBN 9780999241103 .

[18] Трин, Триу Х.; Ле, Куок В. (26 сентября 2019 г.). «Простой метод здравого рассуждения». arXiv : 1806.02847 [ cs.AI ].

[Brown_et_al_2020-19] Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; и др. (2020). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].

[20] «Бенчмарк КЛЕЯ» . Сайт GlueBenchmark.com . Проверено 30 июля 2019 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]