Задача схемы Винограда
( Задача схемы Винограда WSC ) — это тест машинного интеллекта, предложенный в 2012 году Гектором Левеском , ученым-компьютерщиком из Университета Торонто . Разработанный как усовершенствование теста Тьюринга , это тест с множественным выбором, в котором используются вопросы очень специфической структуры: они являются экземплярами так называемых схем Винограда, названных в честь Терри Винограда , профессора информатики в Стэнфордском университете . [1]
На первый взгляд, вопросы схемы Винограда просто требуют разрешения анафоры : машина должна идентифицировать антецедент неоднозначного местоимения в утверждении. Это делает задачу обработки естественного языка , но Левеск утверждает, что для схем Винограда эта задача требует использования знаний и здравого смысла . [2]
В 2019 году задача считается решенной, поскольку ряд преобразователей на основе языковых моделей достигли точности более 90%. [3]
История
[ редактировать ]Wingrad Schema Challenge был предложен в духе теста Тьюринга . Предложенный Аланом Тьюрингом в 1950 году тест Тьюринга играет центральную роль в философии искусственного интеллекта . Тьюринг предположил, что вместо споров о том, может ли машина думать, наука об искусственном интеллекте должна заняться демонстрацией разумного поведения, которое можно проверить. Но точная природа теста, предложенного Тьюрингом, подверглась тщательному изучению, особенно после того, как чат-бот с искусственным интеллектом по имени Юджин Густман заявил, что прошел его в 2014 году. Одна из основных проблем, связанных с тестом Тьюринга, заключается в том, что машина может легко пройти тест с помощью грубой силы. и/или обман, а не истинный интеллект. [4]
Задача схемы Винограда была предложена в 2012 году отчасти для решения проблем, возникших в связи с характером программ, которые хорошо показали себя в тесте. [5]
Первоначальным предложением Тьюринга было то, что он назвал игрой в имитацию , которая включает в себя свободные, неограниченные разговоры на английском языке между судьями-людьми и компьютерными программами по только текстовому каналу (например, телетайпу). В целом машина выдерживает испытание, если следователи не смогут отличить ее от человека за пятиминутный разговор. [4]
В июле 2014 года компания Nuance Communications объявила, что будет спонсировать ежегодный конкурс WSC с призом в размере 25 000 долларов за лучшую систему, которая сможет сравниться с человеческими возможностями. [6] Однако приз больше не предлагается.
Слабые стороны теста Тьюринга
[ редактировать ]Выступление Юджина Густмана выявило некоторые проблемы теста Тьюринга. Левеск выделяет несколько основных проблем: [2] резюмировано следующим образом: [7]
- Обман: машина вынуждена создать ложную личность, которая не является частью разведки.
- Разговор: многие виды взаимодействия можно квалифицировать как «законный разговор» — шутки, умные отступления, замечания по порядку действий — без необходимости разумных рассуждений.
- Оценка: Люди совершают ошибки, и судьи часто не соглашаются с результатами.
Диаграммы Винограда
[ редактировать ]Ключевым фактором WSC является особый формат вопросов, основанных на схемах Винограда. Вопросы этой формы могут быть адаптированы так, чтобы требовать знаний и здравого смысла в различных областях. Их также необходимо писать тщательно, чтобы не выдать ответы из-за ограничений отбора или статистической информации о словах в предложении.
Источник
[ редактировать ]Первый приведенный пример схемы Винограда (и причина ее названия) принадлежит Терри Винограду : [8]
Члены городского совета отказали демонстрантам в разрешении, потому что они [опасались/выступали за] насилие.
Выбор «боятся» и «защищают» превращает схему в два ее экземпляра:
Члены городского совета отказали демонстрантам в разрешении, опасаясь насилия.
Члены городского совета отказали демонстрантам в разрешении, поскольку они пропагандировали насилие.
Проблемный вопрос схемы: «Относится ли местоимение «они» к членам городского совета или к демонстрантам?» Переключение между двумя экземплярами схемы меняет ответ. Ответ очевиден для читателя-человека, но его сложно подражать машинам. Левеск [2] утверждает, что знания играют центральную роль в этих проблемах: ответ на эту схему связан с нашим пониманием типичных отношений и поведения членов совета и демонстрантов.
С момента первоначального предложения задачи по схеме Винограда Эрнест Дэвис, профессор Нью-Йоркского университета , составил список из более чем 140 схем Винограда из различных источников в качестве примеров вопросов, которые должны возникнуть в задаче по схеме Винограда. [9]
Формальное описание
[ редактировать ]Вопрос-вопрос по схеме Винограда состоит из трех частей:
- Предложение или краткая речь, содержащая следующее:
- Две именные группы одного семантического класса (мужской, женский, неодушевленный или группа предметов или людей),
- Неоднозначное местоимение , которое может относиться к любой из вышеуказанных именных групп, и
- Специальное слово и альтернативное слово, так что если специальное слово заменяется альтернативным словом, естественное разрешение местоимения меняется.
- Вопрос, касающийся идентичности неоднозначного местоимения и
- Два варианта ответа, соответствующие рассматриваемым существительным.
Машине будет поставлена задача в стандартизированной форме, которая включает в себя варианты ответа, что делает ее бинарной задачей решения .
Преимущества
[ редактировать ]Задача схемы Винограда имеет следующие предполагаемые преимущества:
- Для их решения необходимы знания и здравый смысл.
- Могут быть разработаны схемы Винограда различной сложности, включающие что угодно: от простых причинно-следственных связей до сложных повествований о событиях.
- Они могут быть созданы для проверки способности к рассуждению в конкретных областях (например, социальное/психологическое или пространственное мышление).
- Не нужны человеческие судьи. [5]
Подводные камни
[ редактировать ]Одна из трудностей, связанных с проблемой схемы Винограда, заключается в разработке вопросов. Их необходимо тщательно адаптировать, чтобы для их решения требовались здравые рассуждения. Например, Левеск [5] приводит следующий пример так называемой схемы Винограда, которая «слишком проста»:
Женщины перестали принимать таблетки, потому что были [беременны/канцерогенны]. Какие люди были [беременными/канцерогенными]?
Ответ на этот вопрос можно определить, исходя из ограничений выбора : в любой ситуации таблетки не беременеют, женщины беременеют; женщины не могут быть канцерогенными, а таблетки — могут. Таким образом, этот ответ можно было бы получить без использования рассуждений или какого-либо понимания смысла предложений — все, что необходимо, — это данные об ограничениях отбора беременных и канцерогенных веществ.
Активность
[ редактировать ]В 2016 и 2018 годах компания Nuance Communications спонсировала конкурс, предлагая главный приз в размере 25 000 долларов США тому, кто наберет больше 90% очков (для сравнения, люди правильно отвечают на 92–96% вопросов WSC). [10] ). Однако в 2016 году никто не приблизился к получению премии, а конкурс 2018 года был отменен из-за отсутствия перспектив; [11] приз больше не предоставляется. [12]
Двенадцатый международный симпозиум по логическим формализациям здравого смысла прошел 23–25 марта 2015 г. в рамках серии весенних симпозиумов AAAI в Стэнфордском университете, уделяя особое внимание проблеме схемы Винограда. В организационный комитет вошли Леора Моргенштерн ( Лейдос ), Теодор Паткос (Фонд исследований и технологий Эллады) и Роберт Слоан ( Университет Иллинойса в Чикаго ). [13]
Конкурс Winograd Schema Challenge 2016 проводился 11 июля 2016 года на IJCAI-16. Конкурсантов было четыре. В первом раунде конкурса нужно было решить PDP — задачи по устранению неоднозначности местоимений, адаптированные из литературных источников, а не построенные в виде пар предложений. [14] Наивысший результат, полученный Цюань Лю и др. из Университета науки и технологий Китая, составил 58 %. [15] Следовательно, по правилам этого конкурса призы не присуждались, и конкурс не перешел во второй тур. В 2016 году в оргкомитет вошли Леора Моргенштерн, Эрнест Дэвис и Чарльз Ортис. [16]
В 2017 году модель нейронных ассоциаций, разработанная для получения знаний на основе здравого смысла, достигла точности 70% на 70 выбранных вручную задачах из исходного набора данных схемы Винограда 273. [17] В июне 2018 года точность 63,7% была достигнута на полном наборе данных с использованием ансамбля рекуррентных языковых моделей нейронных сетей. [18] ознаменовав первое использование глубоких нейронных сетей, которые учатся на независимых корпусах для приобретения знаний, основанных на здравом смысле. В 2019 году оценка 90,1% была достигнута в исходном наборе данных схемы Винограда за счет тонкой настройки языковой модели BERT с соответствующими обучающими данными, подобными WSC, чтобы избежать необходимости изучать здравый смысл. [10] Общеязыковая модель GPT-3 без специальной доработки в 2020 году получила оценку 88,3%. [19]
В 2019 году был разработан более сложный и состязательный набор данных «Виногранде», включающий 44 000 задач. Этот набор данных состоит из предложений в стиле «заполнение пробелов», в отличие от формата местоимений в предыдущих наборах данных. [10]
Версия задачи схемы Винограда является частью GLUE ( General Language Doesnging Evaluation набора тестов ) по автоматизированному пониманию естественного языка . [20]
Ссылки
[ редактировать ]- ^ Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня» . IEEE-спектр . Проверено 29 октября 2014 г.
- ^ Jump up to: а б с Левеск, HJ (2014). «О нашем лучшем поведении» . Искусственный интеллект . 212 : 27–35. дои : 10.1016/j.artint.2014.03.007 .
- ^ Кочиян, Вид; Дэвис, Эрнест; Лукасевич, Томас; Маркус, Гэри; Моргенштерн, Леора (11 июля 2023 г.). «Поражение Виноградской схемы вызова» . Искусственный интеллект . 325 : 103971. arXiv : 2201.02387 . дои : 10.1016/j.artint.2023.103971 . ISSN 0004-3702 . S2CID 245827747 .
- ^ Jump up to: а б Тьюринг, Алан (октябрь 1950 г.). «Вычислительная техника и интеллект» (PDF) . Разум . ЛИКС (236): 433–460. дои : 10.1093/mind/LIX.236.433 . Проверено 28 октября 2014 г.
- ^ Jump up to: а б с Левеск, Гектор; Дэвис, Эрнест; Моргенштерн, Леора (2012). Задача схемы Винограда . Материалы тринадцатой Международной конференции по принципам представления знаний и рассуждения .
- ^ «Nuance объявляет о конкурсе Winograd Schemas для продвижения инноваций в области искусственного интеллекта» . Деловой провод . 28 июля 2014 года . Проверено 9 ноября 2014 г.
- ^ Майкл, Джулиан (18 мая 2015 г.). Теория корреляционных формул и их применение к связности дискурса (Диссертация). Цифровой репозиторий UT. п. 6. HDL : 2152/29979 .
- ^ Виноград, Терри (январь 1972 г.). «Понимание естественного языка» (PDF) . Когнитивная психология . 3 (1): 1–191. дои : 10.1016/0010-0285(72)90002-3 . Проверено 4 ноября 2014 г.
- ^ Дэвис, Эрнест. «Сборник схем Винограда» . cs.nyu.edu . Нью-Йоркский университет . Проверено 30 октября 2014 г.
- ^ Jump up to: а б с Сакагути, Кейсуке; Ле Бра, Ронан; Бхагаватула, Чандра; Чой, Еджин (2019). «WinoGrande: масштабная состязательная задача схемы Винограда». arXiv : 1907.10641 [ cs.CL ].
- ^ Богуславский И.М.; Фролова Т.И.; Йомдин, LL; Лазурский А.В.; Рыгаев, ИП; Тимошенко, ИП (2019). «Подход к решению проблемы схемы Винограда, основанный на знаниях» (PDF) . Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям . Москва.
Премия не могла быть вручена никому. Большинство участников показали результат, близкий к случайному выбору или даже хуже. Второй конкурс, запланированный на 2018 год, был отменен из-за отсутствия потенциальных участников.
- ^ «Вызов схемы Винограда» . CommonsenseReasoning.org . Проверено 24 января 2020 г.
- ^ «Весенние симпозиумы AAAI 2015» . Ассоциация по развитию искусственного интеллекта . Проверено 1 января 2015 г.
- ^ Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). «Первый вызов схемы Винограда на IJCAI-16» . Журнал ИИ .
- ^ Лю, Цюань; Цзян, Хуэй; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). «Расширенные вложения здравого смысла для решения проблем неоднозначности местоимений в задаче схемы Винограда». arXiv : 1611.04146 [ cs.AI ].
- ^ Моргенштерн, Леора; Дэвис, Эрнест; Ортис, Чарльз Л. (март 2016 г.). «Планирование, выполнение и оценка проблемы схемы Винограда» . Журнал ИИ . 37 (1): 50–54. дои : 10.1609/aimag.v37i1.2639 . ISSN 0738-4602 .
- ^ Лю, Цюань; Цзян, Хуэй; Евдокимов, Андрей; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2017). «Получение причинно-следственных знаний и модель нейронных ассоциаций для решения ряда задач схемы Винограда» . Материалы двадцать шестой международной совместной конференции по искусственному интеллекту . стр. 2344–2350. дои : 10.24963/ijcai.2017/326 . ISBN 9780999241103 .
- ^ Трин, Триу Х.; Ле, Куок В. (26 сентября 2019 г.). «Простой метод здравого рассуждения». arXiv : 1806.02847 [ cs.AI ].
- ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; и др. (2020). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
- ^ «Бенчмарк КЛЕЯ» . Сайт GlueBenchmark.com . Проверено 30 июля 2019 г.