Jump to content

Компьютерная лингвистика

Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием , естественного языка а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию , среди других.

Происхождение

[ редактировать ]

Эта область пересекается с искусственным интеллектом со времен попыток США в 1950-х годах использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. [1] Поскольку подходы, основанные на правилах, могли производить арифметические (систематические) вычисления намного быстрее и точнее, чем люди, ожидалось, что лексика , морфология , синтаксис и семантика также могут быть изучены с использованием явных правил. После провала подходов, основанных на правилах , Дэвид Хейс [2] придумал этот термин, чтобы отличить эту область от искусственного интеллекта, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL) в 1970-х и 1980-х годах. То, что началось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . [3] [4]

Аннотированные корпуса

[ редактировать ]

Для того чтобы иметь возможность придирчиво изучать английский язык , очень нужен был аннотированный текстовый корпус. Пенн- Трибэнк [5] был одним из наиболее часто используемых корпусов. Он состоял из компьютерных руководств IBM, расшифровок телефонных разговоров и других текстов, в общей сложности содержащих более 4,5 миллионов слов американского английского языка, аннотированных с использованием как тегов частей речи , так и синтаксических скобок. [6]

Были проанализированы корпуса японских предложений, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. [7]

Моделирование овладения языком

[ редактировать ]

Тот факт, что в процессе овладения языком дети в основном знакомятся только с положительными фактами, [8] это означает, что предоставляются единственные доказательства того, что является правильной формой, и нет никаких доказательств того, что это неправильно, [9] было ограничением для моделей в то время, поскольку доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. [10]

Было показано, что языки можно изучать, сочетая простые материалы, предъявляемые постепенно по мере того, как у ребенка развивается лучшая память и продолжительность концентрации внимания. [11] что объяснило длительный период овладения языком у младенцев и детей. [11]

Роботы использовались для проверки лингвистических теорий. [12] Имея возможность учиться так же, как дети, модели были созданы на основе модели доступности , в которой были созданы сопоставления между действиями, восприятиями и эффектами, которые были связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов и значений без необходимости использования грамматической структуры.

Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую языковую эволюцию, но и дает представление об истории эволюции современных языков. [13]

Теории Хомского

[ редактировать ]

Были предприняты попытки определить, как младенец усваивает «ненормальную грамматику», как это теоретизирует нормальная форма Хомского . [9]

См. также

[ редактировать ]
  1. ^ Джон Хатчинс: Ретроспектива и перспективы компьютерного перевода. Архивировано 14 апреля 2008 г. в журнале Wayback Machine Proceedings of MT Summit VII, 1999, стр. 30–44.
  2. ^ «Умершие члены» . Члены МККЛ . Архивировано из оригинала 17 мая 2017 года . Проверено 15 ноября 2017 г.
  3. ^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
  4. ^ Арнольд Б. Барах: Машина-переводчик 1975: и грядущие изменения.
  5. ^ Маркус М. и Марцинкевич М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 9 октября 2022 г.
  6. ^ Тейлор, Энн (2003). «1». Древесные берега . Весенние Нидерланды. стр. 5–22.
  7. ^ Фурухаши С. и Хаякава Ю. (2012). «Логнормальность распределения длины японских предложений». Журнал Физического общества Японии . 81 (3): 034004. Бибкод : 2012JPSJ...81c4004F . дои : 10.1143/JPSJ.81.034004 .
  8. ^ Бауэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как детям избежать построения слишком общей грамматики. Объяснение языковых универсалий .
  9. ^ Перейти обратно: а б Брейн, MDS (1971). О двух типах моделей интериоризации грамматик. В книге Д. И. Слобин (ред.) Онтогенез грамматики: теоретический взгляд. Нью-Йорк: Академическая пресса.
  10. ^ Пауэрс, DMW и Терк, CCR (1989). Машинное обучение естественного языка . Спрингер-Верлаг. ISBN   978-0-387-19557-5 .
  11. ^ Перейти обратно: а б Элман, Джеффри Л. (1993). «Обучение и развитие нейронных сетей: важность начинать с малого». Познание . 48 (1): 71–99. CiteSeerX   10.1.1.135.4937 . дои : 10.1016/0010-0277(93)90058-4 . ПМИД   8403835 . S2CID   2105042 .
  12. ^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая загрузка: изучение значений слов на основе ассоциации восприятие-действие». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . дои : 10.1109/TSMCB.2011.2172420 . ПМИД   22106152 . S2CID   977486 .
  13. ^ Гонг, Т.; Шуай, Л.; Тамарис М. и Ягер Г. (2012). Э. Скалас (ред.). «Изучение языковых изменений с использованием уравнения цен и динамики полиурн» . ПЛОС ОДИН . 7 (3): e33171. Бибкод : 2012PLoSO...733171G . дои : 10.1371/journal.pone.0033171 . ПМК   3299756 . ПМИД   22427981 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5cefb4e5274d8bf8e683cfc0800dfd59__1711207980
URL1:https://arc.ask3.ru/arc/aa/5c/59/5cefb4e5274d8bf8e683cfc0800dfd59.html
Заголовок, (Title) документа по адресу, URL1:
Computational linguistics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)