Компьютерная лингвистика

Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием , естественного языка а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию , среди других.

Происхождение [ править ]

Эта область пересекается с искусственным интеллектом со времен попыток США в 1950-х годах использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. [1] Поскольку подходы, основанные на правилах, могли производить арифметические (систематические) вычисления намного быстрее и точнее, чем люди, ожидалось, что лексика , морфология , синтаксис и семантика также могут быть изучены с использованием явных правил. После провала подходов, основанных на правилах , Дэвид Хейс [2] придумал этот термин, чтобы отличить эту область от искусственного интеллекта, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL) в 1970-х и 1980-х годах. То, что началось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . [3] [4]

Аннотированные корпуса [ править ]

Для того чтобы иметь возможность придирчиво изучать английский язык , очень нужен был аннотированный текстовый корпус. Пенн- Трибэнк [5] был одним из наиболее часто используемых корпусов. Он состоял из компьютерных руководств IBM, расшифровок телефонных разговоров и других текстов, в общей сложности содержащих более 4,5 миллионов слов американского английского языка, аннотированных с использованием как тегов частей речи , так и синтаксических скобок. [6]

Были проанализированы корпуса японских предложений, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. [7]

языком моделирования Овладение

Тот факт, что в процессе овладения языком дети в основном знакомятся только с положительными фактами, [8] это означает, что предоставляются единственные доказательства того, что является правильной формой, и нет никаких доказательств того, что это неправильно, [9] было ограничением для моделей в то время, поскольку доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. [10]

Было показано, что языки можно изучать, сочетая простые материалы, предъявляемые постепенно по мере того, как у ребенка развивается лучшая память и продолжительность концентрации внимания. [11] что объяснило длительный период овладения языком у младенцев и детей. [11]

Роботы использовались для проверки лингвистических теорий. [12] Имея возможность учиться так же, как дети, модели были созданы на основе модели доступности , в которой были созданы сопоставления между действиями, восприятиями и эффектами, которые были связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов и значений без необходимости использования грамматической структуры.

Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую языковую эволюцию, но и дает представление об истории эволюции современных языков. [13]

Теории Хомского [ править ]

Были предприняты попытки определить, как младенец усваивает «ненормальную грамматику», как это теоретизирует нормальная форма Хомского . [9]

См. также [ править ]

Ссылки [ править ]

  1. ^ Джон Хатчинс: Ретроспектива и перспективы компьютерного перевода. Архивировано 14 апреля 2008 г. в журнале Wayback Machine Proceedings of MT Summit VII, 1999, стр. 30–44.
  2. ^ «Умершие члены» . Члены МККЛ . Архивировано из оригинала 17 мая 2017 года . Проверено 15 ноября 2017 г.
  3. ^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
  4. ^ Арнольд Б. Барах: Машина-переводчик 1975: и грядущие изменения.
  5. ^ Маркус М. и Марцинкевич М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 9 октября 2022 г.
  6. ^ Тейлор, Энн (2003). «1». Древесные берега . Весенние Нидерланды. стр. 5–22.
  7. ^ Фурухаши С. и Хаякава Ю. (2012). «Логнормальность распределения длины японских предложений». Журнал Физического общества Японии . 81 (3): 034004. Бибкод : 2012JPSJ...81c4004F . дои : 10.1143/JPSJ.81.034004 .
  8. ^ Бауэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как детям избежать построения слишком общей грамматики. Объяснение языковых универсалий .
  9. Перейти обратно: Перейти обратно: а б Брейн, MDS (1971). О двух типах моделей интериоризации грамматик. В книге Д. И. Слобин (ред.) Онтогенез грамматики: теоретический взгляд. Нью-Йорк: Академическая пресса.
  10. ^ Пауэрс, DMW и Терк, CCR (1989). Машинное обучение естественного языка . Спрингер-Верлаг. ISBN   978-0-387-19557-5 .
  11. Перейти обратно: Перейти обратно: а б Элман, Джеффри Л. (1993). «Обучение и развитие нейронных сетей: важность начинать с малого». Познание . 48 (1): 71–99. CiteSeerX   10.1.1.135.4937 . дои : 10.1016/0010-0277(93)90058-4 . ПМИД   8403835 . S2CID   2105042 .
  12. ^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая загрузка: изучение значений слов на основе ассоциации восприятие-действие». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . дои : 10.1109/TSMCB.2011.2172420 . ПМИД   22106152 . S2CID   977486 .
  13. ^ Гонг, Т.; Шуай, Л.; Тамарис М. и Ягер Г. (2012). Э. Скалас (ред.). «Изучение языковых изменений с использованием уравнения цен и динамики полиурн» . ПЛОС ОДИН . 7 (3): e33171. Бибкод : 2012PLoSO...733171G . дои : 10.1371/journal.pone.0033171 . ПМК   3299756 . ПМИД   22427981 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]