Jump to content

История обработки естественного языка

История обработки естественного языка описывает достижения в области обработки естественного языка . Есть некоторое совпадение с историей машинного перевода , историей распознавания речи и историей искусственного интеллекта .

Исследования и разработки [ править ]

История машинного перевода восходит к семнадцатому веку, когда такие философы, как Лейбниц и Декарт, выдвинули предложения о кодах, которые связывали бы слова между языками. Все эти предложения оставались теоретическими, и ни одно из них не привело к созданию реальной машины.

Первые патенты на «машины-переводчики» были поданы в середине 1930-х годов. Одно из предложений Жоржа Артруни заключалось в создании автоматического двуязычного словаря с использованием бумажной ленты . Другое предложение, сделанное Петром Троянским россиянином , было более подробным. Он включал в себя как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на эсперанто .

В 1950 году Алан Тьюринг опубликовал свою знаменитую статью « Вычислительная техника и интеллект то, что сейчас называется тестом Тьюринга », в которой предложил в качестве критерия интеллекта . Этот критерий зависит от способности компьютерной программы выдавать себя за человека в письменной беседе в режиме реального времени с судьей-человеком, причем достаточно хорошо, чтобы судья не мог надежно отличить — на основе только содержания разговора — программу и настоящий человек.

В 1957 году книга Ноама Хомского « Синтаксические структуры» произвела революцию в лингвистике, создав « универсальную грамматику » — основанную на правилах систему синтаксических структур. [1]

Джорджтаунский эксперимент 1954 года включал полностью автоматический перевод более шестидесяти русских предложений на английский язык. Авторы утверждали, что через три-пять лет машинный перевод станет решенной проблемой. [2] Однако реальный прогресс был гораздо медленнее, и после отчета ALPAC в 1966 году, в котором было установлено, что десятилетние исследования не оправдали ожиданий, финансирование машинного перевода резко сократилось. дальнейших исследований в области машинного перевода не проводилось До конца 1980-х годов, когда были разработаны первые статистические системы машинного перевода, .

Некоторыми особенно успешными системами НЛП, разработанными в 1960-х годах, были SHRDLU , система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом.

В 1969 году Роджер Шанк представил теорию концептуальной зависимости для понимания естественного языка. [3] Эта модель, частично под влиянием работ Сиднея Лэмба , широко использовалась студентами Шанка в Йельском университете , такими как Роберт Виленски, Венди Ленерт и Джанет Колоднер .

В 1970 году Уильям А. Вудс представил расширенную сеть переходов (ATN) для представления ввода на естественном языке. [4] Вместо правил структуры фраз в ATN использовался эквивалентный набор конечных автоматов , которые вызывались рекурсивно. ATN и их более общий формат, называемый «обобщенными ATN», продолжали использоваться в течение ряда лет. В 1970-е годы многие программисты начали писать «концептуальные онтологии», которые структурировали информацию реального мира в понятные компьютеру данные. Примеры: MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) и Plot Units (Lehnert 1981). ). За это время множество чат-ботов, было написано включая PARRY , Racter и Jabberwacky .

До 1980-х годов большинство систем НЛП основывались на сложных наборах рукописных правил. Однако начиная с конца 1980-х годов в НЛП произошла революция с появлением алгоритмов машинного обучения для обработки языка. Это произошло как из-за постоянного увеличения вычислительной мощности в результате закона Мура , так и из-за постепенного уменьшения доминирования теорий Хомского в лингвистике (например, трансформационной грамматики ), теоретические основы которых не одобряли тот вид корпусной лингвистики , который лежит в основе подхода машинного обучения к языковая обработка. [5] Некоторые из самых ранних алгоритмов машинного обучения, такие как деревья решений , создавали системы жестких правил «если-то», аналогичные существующим рукописным правилам. Однако исследования все чаще сосредотачиваются на статистических моделях , которые принимают мягкие вероятностные решения, основанные на присвоении действительных весов функциям, составляющим входные данные. Модели языка кэша , на которых сейчас полагаются многие системы распознавания речи , являются примерами таких статистических моделей. Такие модели, как правило, более надежны при использовании незнакомых входных данных, особенно входных данных, содержащих ошибки (что очень характерно для реальных данных), и дают более надежные результаты при интеграции в более крупную систему, состоящую из нескольких подзадач.

Многие из первых заметных успехов были достигнуты в области машинного перевода , в частности, благодаря работе в IBM Research, где последовательно разрабатывались более сложные статистические модели. Эти системы смогли воспользоваться преимуществами существующих многоязычных текстовых корпусов , которые были созданы Парламентом Канады и Европейского Союза в результате принятия законов, требующих перевода всех правительственных процедур на все официальные языки соответствующих систем управления. Однако большинство других систем зависело от корпусов, специально разработанных для задач, реализуемых этими системами, что было (и часто остается) основным ограничением успеха этих систем. В результате большое количество исследований было посвящено методам более эффективного обучения на ограниченных объемах данных.

Недавние исследования все больше внимания уделяют алгоритмам обучения без учителя и полуконтроля . Такие алгоритмы способны учиться на данных, которые не были вручную аннотированы желаемыми ответами, или используя комбинацию аннотированных и неаннотированных данных. Как правило, эта задача намного сложнее, чем обучение с учителем , и обычно дает менее точные результаты для заданного объема входных данных. Однако существует огромное количество доступных неаннотированных данных (включая, среди прочего, весь контент Всемирной паутины ), которые зачастую могут компенсировать худшие результаты.

Программное обеспечение [ править ]

Программное обеспечение Год Создатель Описание Ссылка
Джорджтаунский эксперимент 1954 Джорджтаунский университет и IBM включал полностью автоматический перевод более шестидесяти русских предложений на английский язык.
СТУДЕНТ 1964 Дэниел Боброу может решить школьные задачи по алгебре. [6]
ЭЛИЗА 1964 Джозеф Вайценбаум симуляция роджерианского психотерапевта , перефразирующая свой ответ с помощью нескольких грамматических правил. [7]
ШРДЛУ 1970 Терри Виноград система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом, работала чрезвычайно хорошо
ПАРИРОВАТЬ 1972 Кеннет Колби Чаттербот
КЛ-ОДИН 1974 Сондхаймер и др. система представления знаний в традиции семантических сетей и фреймов; это язык фреймов .
МАРДЖИ 1975 Роджер Шэнк
ТалеСпин (программное обеспечение) 1976 Михан
ДЫМ Ленерт
ЖИЗНЬ/ЛЕСТНИЦА 1978 Хендрикс интерфейс на естественном языке к базе данных с информацией о кораблях ВМС США.
СЭМ (программное обеспечение) 1978 Каллингфорд
ПАМ (программное обеспечение) 1978 Роберт Виленски
Политика (программное обеспечение) 1979 Карбонелл
Единицы печати (программное обеспечение) 1981 Ленерт
Джабберваки 1982 Ролло Карпентер Чаттербот с заявленной целью «имитировать естественное человеческое общение в интересной, занимательной и юмористической манере».
МУМБЛ (программное обеспечение) 1982 Макдональдс
Ратер 1983 Уильям Чемберлен и Томас Эттер Чаттербот , который случайным образом генерировал англоязычную прозу.
МОПТРАНС [8] 1984 Литинен
КОДИАК (программное обеспечение) 1986 Виленский
Абсити (программное обеспечение) 1987 Херст
Доктор Сбайтсо 1991 Творческие лаборатории
Watson (программное обеспечение искусственного интеллекта) 2006 ИБМ Система ответов на вопросы, которая выиграла конкурс Jeopardy! соревновании, победив лучших игроков-людей в феврале 2011 года.
Сири 2011 Яблоко Виртуальный помощник, разработанный Apple.
Кортана 2014 Майкрософт Виртуальный помощник, разработанный Microsoft.
Амазонка Алекса 2014 Амазонка Виртуальный помощник, разработанный Amazon.
Google Ассистент 2016 Google Виртуальный помощник, разработанный Google.

Ссылки [ править ]

  1. ^ «SEM1A5 — Часть 1 — Краткая история НЛП» . Проверено 25 июня 2010 г.
  2. ^ Хатчинс, Дж. (2005)
  3. ^ Роджер Шанк , 1969, Анализатор концептуальных зависимостей естественного языка. Материалы конференции 1969 года по компьютерной лингвистике, Сонг-Сэби, Швеция, страницы 1-3.
  4. ^ Вудс, Уильям А. (1970). «Грамматики сети переходов для анализа естественного языка». Сообщения ACM 13 (10): 591–606 [1]
  5. ^ Лингвистика Хомского поощряет исследование « крайних случаев », которые подчеркивают ограничения ее теоретических моделей (сравнимых с патологическими явлениями в математике), обычно создаваемых с помощью мысленных экспериментов , а не систематического исследования типичных явлений, которые происходят в реальных данных. как это имеет место в корпусной лингвистике . Создание и использование таких массивов реальных данных является фундаментальной частью алгоритмов машинного обучения для НЛП. Кроме того, теоретические основы лингвистики Хомского, такие как так называемый аргумент « бедности стимула », предполагают, что общие алгоритмы обучения, которые обычно используются в машинном обучении, не могут быть успешными при обработке языка. В результате парадигма Хомского не поощряла применение таких моделей к обработке языка.
  6. ^ МакКордак 2004 , с. 286, Crevier 1993 , стр. 76–79, Russell & Norvig 2003 , стр. 286. 19
  7. ^ МакКордак 2004 , стр. 291–296, Кревье 1993 , стр. 134–139.
  8. ^ Джанет Л. Колоднер, Кристофер К. Рисбек; Опыт, память и рассуждение ; Психологическая пресса; переиздание 2014 г.

Библиография [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d8d6ee7f0d1ed70eb38644fe581ff163__1714734600
URL1:https://arc.ask3.ru/arc/aa/d8/63/d8d6ee7f0d1ed70eb38644fe581ff163.html
Заголовок, (Title) документа по адресу, URL1:
History of natural language processing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)