Jump to content

Понимание естественного языка

Понимание естественного языка ( NLU ) или интерпретация естественного языка ( NLI ) [1] — это подмножество обработки естественного языка в искусственном интеллекте , которое занимается пониманием машинного чтения . Понимание естественного языка считается сложной задачей для искусственного интеллекта . [2]

Эта область вызывает значительный коммерческий интерес из-за ее применения в автоматизированных рассуждениях . [3] машинный перевод , [4] ответ на вопрос , [5] сбор новостей, категоризация текста , голосовая активация , архивирование и крупномасштабный анализ контента .

История [ править ]

Программа STUDENT , написанная в 1964 году Дэниелом Боброу для его докторской диссертации в Массачусетском технологическом институте , является одной из самых ранних известных попыток понимания естественного языка с помощью компьютера. [6] [7] [8] [9] [10] Через восемь лет после того, как Джон Маккарти придумал термин «искусственный интеллект» , диссертация Боброу (под названием « Ввод естественного языка для системы решения компьютерных задач ») показала, как компьютер может понимать простой ввод естественного языка для решения алгебраических словесных задач.

Год спустя, в 1965 году, Джозеф Вайценбаум из Массачусетского технологического института написал ELIZA , интерактивную программу, которая вела диалог на английском языке на любую тему, самой популярной из которых была психотерапия. ELIZA работала путем простого анализа и замены ключевых слов на готовые фразы, а Вайценбаум обошел проблему предоставления программе базы данных реальных знаний или богатого словарного запаса . Тем не менее, ELIZA приобрела удивительную популярность как игрушечный проект и может рассматриваться как очень ранний предшественник современных коммерческих систем, таких как те, которые используются Ask.com . [11]

В 1969 году Роджер Шанк из Стэнфордского университета представил теорию концептуальной зависимости для понимания естественного языка. [12] Эта модель, частично под влиянием работ Сиднея Лэмба , широко использовалась студентами Шанка в Йельском университете , такими как Роберт Виленски , Венди Ленерт и Джанет Колоднер .

В 1970 году Уильям А. Вудс представил расширенную сеть переходов (ATN) для представления ввода на естественном языке. [13] Вместо правил структуры фраз в ATN использовался эквивалентный набор конечных автоматов , которые вызывались рекурсивно. ATN и их более общий формат, называемый «обобщенными ATN», продолжали использоваться в течение ряда лет.

В 1971 году Терри Виноград закончил писать SHRDLU для своей докторской диссертации в Массачусетском технологическом институте. SHRDLU мог понимать простые английские предложения в ограниченном мире детских кубиков, чтобы направлять роботизированную руку для перемещения предметов. Успешная демонстрация SHRDLU придала значительный импульс продолжению исследований в этой области. [14] [15] Виноград продолжал оказывать большое влияние в этой области после публикации своей книги « Язык как когнитивный процесс» . [16] В Стэнфорде Виноград позже будет консультировать Ларри Пейджа , соучредителя Google .

В 1970-х и 1980-х годах группа обработки естественного языка в SRI International продолжала исследования и разработки в этой области. На основе исследования был предпринят ряд коммерческих усилий, например , в 1982 году Гэри Хендрикс основал Symantec Corporation первоначально как компанию для разработки интерфейса на естественном языке для запросов к базе данных на персональных компьютерах. Однако с появлением графических пользовательских интерфейсов , управляемых мышью , Symantec изменила направление. Примерно в то же время был начат ряд других коммерческих проектов, например , Ларри Р. Харрис из Корпорации искусственного интеллекта и Роджер Шанк и его студенты из Cognitive Systems Corp. [17] [18] В 1983 году Майкл Дайер разработал в Йельском университете систему BORIS, которая имела сходство с работами Роджера Шанка и У.Г. Ленерта. [19]

В третьем тысячелетии появились системы, использующие машинное обучение для классификации текста, такие как IBM Watson . Однако эксперты спорят о том, насколько «понимают» такие системы: например , по словам Джона Сирла , Ватсон даже не понимал вопросов. [20]

Джон Болл , когнитивист и изобретатель теории Патома , поддерживает эту оценку. Обработка естественного языка привела к появлению приложений, поддерживающих производительность труда человека в сфере услуг и электронной коммерции, но в значительной степени это стало возможным за счет сужения области применения. Существуют тысячи способов запросить что-то на человеческом языке, что до сих пор не поддается традиционной обработке естественного языка. [ нужна ссылка ] По словам Вибе Вейджманса, «содержательный разговор с машинами возможен только тогда, когда мы сопоставляем каждое слово с правильным значением на основе значений других слов в предложении – точно так же, как это делает трехлетний ребенок без догадок». [21]

Область применения и контекст [ править ]

Общий термин «понимание естественного языка» может применяться к разнообразному набору компьютерных приложений, начиная от небольших, относительно простых задач, таких как короткие команды, подаваемые роботам , до очень сложных задач, таких как полное понимание газетных статей или поэтических отрывков. . Многие реальные приложения находятся между двумя крайностями, например, классификация текста для автоматического анализа электронных писем и их маршрутизация в подходящий отдел корпорации не требует глубокого понимания текста. [22] но ему приходится иметь дело с гораздо большим словарным запасом и более разнообразным синтаксисом, чем с управлением простыми запросами к таблицам базы данных с фиксированными схемами.

различные попытки обработки естественного языка или предложений , подобных английскому, На протяжении многих лет предпринимались представленных компьютерам, различной степени сложности. Некоторые попытки не привели к созданию систем с глубоким пониманием, но способствовали общему удобству использования системы. Например, Уэйн Рэтлифф изначально разработал программу Vulcan с англоподобным синтаксисом, чтобы имитировать англоговорящий компьютер в «Звездном пути» . Позже Vulcan стал системой dBase , простой в использовании синтаксис которой положил начало индустрии баз данных для персональных компьютеров. [23] [24] Однако системы с простым в использовании или английским синтаксисом совершенно отличаются от систем, которые используют богатый словарный запас и включают внутреннее представление (часто в виде логики первого порядка ) семантики предложений естественного языка.

Следовательно, широта и глубина «понимания», на которое нацелена система, определяют как сложность системы (и подразумеваемые проблемы), так и типы приложений, с которыми она может работать. «Широта» системы измеряется размером ее словарного запаса и грамматики. «Глубина» измеряется степенью, в которой его понимание приближается к пониманию свободно говорящего носителя языка. В самом узком и поверхностном смысле английские интерпретаторы команд требуют минимальной сложности, но имеют небольшой спектр применения. Узкие, но глубокие системы исследуют и моделируют механизмы понимания. [25] но они все еще имеют ограниченное применение. Системы, которые пытаются понять содержание документа, такого как пресс-релиз, за ​​пределами простого сопоставления ключевых слов и оценить его пригодность для пользователя, являются более широкими и требуют значительной сложности. [26] но они все еще несколько поверхностны. Системы, которые одновременно очень обширны и очень глубоки, выходят за рамки современного уровня техники.

Компоненты и архитектура [ править ]

Независимо от используемого подхода, большинство систем понимания естественного языка имеют некоторые общие компоненты. Системе необходим словарь языка, синтаксический анализатор и грамматические правила для разбиения предложений на внутреннее представление. Создание богатого словаря с подходящей онтологией требует значительных усилий, например , словарь Wordnet потребовал многих человеко-лет усилий. [27]

Система также нуждается в теории, основанной на семантике, чтобы направлять понимание. Возможности интерпретации системы понимания языка зависят от используемой семантической теории. Конкурирующие семантические теории языка имеют определенные компромиссы в отношении их пригодности в качестве основы для автоматизированной компьютерной интерпретации семантики. [28] Они варьируются от наивной семантики или стохастического семантического анализа до использования прагматики для извлечения значения из контекста. [29] [30] [31] Семантические анализаторы преобразуют тексты на естественном языке в формальные представления значения. [32]

Передовые приложения понимания естественного языка также пытаются включить логический вывод в свою структуру . Обычно это достигается путем отображения полученного значения в набор утверждений в логике предикатов , а затем с помощью логической дедукции для получения выводов. Следовательно, системы, основанные на функциональных языках, таких как Лисп, должны включать подсистему для представления логических утверждений, в то время как логически-ориентированные системы, такие как те, которые используют язык Пролог, обычно полагаются на расширение встроенной структуры логического представления. [33] [34]

Управление контекстом при понимании естественного языка может представлять особые проблемы. Большое разнообразие примеров и контрпримеров привело к появлению множества подходов к формальному моделированию контекста, каждый из которых имеет свои сильные и слабые стороны. [35] [36]

См. также [ править ]

Примечания [ править ]

  1. ^ Семаан, П. (2012). Генерация естественного языка: обзор . Журнал компьютерных наук и исследований (JCSCR)-ISSN, 50–57
  2. ^ Роман В. Ямпольский. Тест Тьюринга как определяющая черта полноты ИИ. В искусственном интеллекте, эволюционных вычислениях и метаэвристике (AIECM) — по стопам Алана Тьюринга. Синь-Ше Ян (Ред.). стр. 3-17. (Глава 1). Спрингер, Лондон. 2013. http://cecs.louisville.edu/ry/TuringTestasaDefiningFeature04270003.pdf .
  3. ^ Ван Хармелен, Франк, Владимир Лифшиц и Брюс Портер, ред. Справочник по представлению знаний . Том. 1. Эльзевир, 2008.
  4. ^ Машери, Клаус, Франц Йозеф Ох и Герман Ней. « Понимание естественного языка с использованием статистического машинного перевода ». Седьмая Европейская конференция по речевой коммуникации и технологиям. 2001.
  5. ^ Хиршман, Линетт и Роберт Гайзаускас. « Ответы на вопросы на естественном языке: вид отсюда ». инженерия естественного языка 7.4 (2001): 275-300.
  6. ^ Американская ассоциация искусственного интеллекта. Краткая история искусственного интеллекта [1]
  7. ^ Дэниела Боброу Кандидатская диссертация Ввод естественного языка для системы решения компьютерных задач .
  8. ^ Машины, которые думают , Памела МакКордак, 2004 г. ISBN   1-56881-205-1 стр. 286
  9. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2003), Искусственный интеллект: современный подход, Прентис Холл, ISBN   0-13-790395-2 , http://aima.cs.berkeley.edu/ , стр. 19
  10. ^ Стиль логотипа информатики: за пределами программирования , Брайан Харви, 1997 г. ISBN   0-262-58150-7 стр. 278
  11. ^ Вайценбаум, Джозеф (1976). Мощь компьютера и человеческий разум: от суждения к расчету WH Freeman and Company. ISBN   0-7167-0463-3 страницы 188-189
  12. ^ Роджер Шанк , 1969, Анализатор концептуальных зависимостей естественного языка. Материалы конференции 1969 года по компьютерной лингвистике, Сонг-Сэби, Швеция, страницы 1-3.
  13. ^ Вудс, Уильям А. (1970). «Грамматики сети переходов для анализа естественного языка». Сообщения ACM 13 (10): 591–606 [2]
  14. ^ Искусственный интеллект: критические концепции , Том 1, Рональд Крисли, Сандер Бегир, 2000 г. ISBN   0-415-19332-X стр. 89
  15. ^ Страница SHRDLU Терри Винограда в Стэнфордском SHRDLU
  16. ^ Виноград, Терри (1983), Язык как когнитивный процесс , Аддисон-Уэсли, Ридинг, Массачусетс.
  17. ^ Ларри Р. Харрис, Исследования корпорации искусственного интеллекта. Бюллетень ACM SIGART, выпуск 79, январь 1982 г. [3]
  18. ^ Внутренние рассуждения на основе прецедентов Кристофера К. Рисбека, Роджера К. Шанка, 1989 г. ISBN   0-89859-767-6 , стр. xiii
  19. ^ Глубокое понимание: модель интегрированного процесса понимания повествования. . Майкл Дж. Дайер. МТИ Пресс. ISBN   0-262-04073-5
  20. ^ Сирл, Джон (23 февраля 2011 г.). «Уотсон не знает, что он выиграл в «Jeopardy!» " . Уолл Стрит Джорнал .
  21. ^ Брэндон, Джон (12 июля 2016 г.). «Что технология распознавания естественного языка означает для чат-ботов» . ВенчурБит . Проверено 29 февраля 2024 г.
  22. ^ Подход к иерархической категоризации электронной почты , предложенный Пейфэн Ли и др. в области обработки естественного языка и информационных систем под редакцией Зубиды Кедад, Надиры Ламмари, 2007 г. ISBN   3-540-73350-7
  23. ^ InfoWorld , 13 ноября 1989 г., стр. 144.
  24. ^ InfoWorld , 19 апреля 1984 г., стр. 71.
  25. ^ Создание рабочих моделей полного понимания естественного языка в ограниченных прагматических областях , Джеймс Мейсон, 2010 г. [4]
  26. ^ Анализ данных в Интернете: обнаружение знаний из гипертекстовых данных , Сумен Чакрабарти, 2002 г. ISBN   1-55860-754-4 стр. 289
  27. ^ Г. А. Миллер, Р. Беквит, К. Д. Феллбаум, Д. Гросс, К. Миллер. 1990. WordNet: Интернет-лексическая база данных . Межд. Дж. Лексикограф. 3, 4, стр. 235-244.
  28. ^ Использование компьютеров в лингвистике: практическое руководство Джона Лоулера, Хелен Аристар Драй 198 ISBN   0-415-16792-2 стр. 209
  29. ^ Наивная семантика для понимания естественного языка , Кэтлин Дальгрен, 1988. ISBN   0-89838-287-4
  30. ^ Стохастический семантический анализ, проведенный Вольфгангом Минкером, Алексом Вайбелем , Джозефом Мариани, 1999 г. ISBN   0-7923-8571-3
  31. ^ Прагматика и понимание естественного языка Джорджии М. Грин, 1996 г. ISBN   0-8058-2166-X
  32. ^ Вонг, Юк Ва и Рэймонд Дж. Муни . « Обучение семантическому анализу с помощью статистического машинного перевода ». Материалы основной конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2006.
  33. ^ Программисты Пролога, обрабатывающие естественный язык , М. Ковингтон, 1994 г. ISBN   0-13-629478-2
  34. ^ Обработка естественного языка в Прологе Джеральда Газдара, Кристофера С. Меллиша, 1989 г. ISBN   0-201-18053-7
  35. ^ Понимание понимания языка Эшвин Рам, Кеннет Мурман, 1999 г. ISBN   0-262-18192-4 стр. 111
  36. ^ Формальные аспекты контекста Пьера Бонзона и др., 2000 г. ISBN   0-7923-6350-7
  37. ^ Программирование на естественном языке действительно будет работать — блог Wolfram
  38. ^ Ван Валин-младший, Роберт Д. «От НЛП к НЛУ» (PDF) .
  39. ^ Болл, Джон. «Многоязычный NLU от Pat Inc» . Пат.ай.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c828931ad979de1858dad5660203de36__1710768420
URL1:https://arc.ask3.ru/arc/aa/c8/36/c828931ad979de1858dad5660203de36.html
Заголовок, (Title) документа по адресу, URL1:
Natural-language understanding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)