Компьютерная лингвистика
Часть серии о |
Лингвистика |
---|
Портал |
Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием , естественного языка а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию , среди других.
Происхождение
[ редактировать ]Эта область пересекается с искусственным интеллектом со времен попыток США в 1950-х годах использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. [1] Поскольку подходы, основанные на правилах, могли производить арифметические (систематические) вычисления намного быстрее и точнее, чем люди, ожидалось, что лексика , морфология , синтаксис и семантика также могут быть изучены с использованием явных правил. После провала подходов, основанных на правилах , Дэвид Хейс [2] придумал этот термин, чтобы отличить эту область от искусственного интеллекта, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL) в 1970-х и 1980-х годах. То, что началось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . [3] [4]
Аннотированные корпуса
[ редактировать ]Для того чтобы иметь возможность придирчиво изучать английский язык , очень нужен был аннотированный текстовый корпус. Пенн- Трибэнк [5] был одним из наиболее часто используемых корпусов. Он состоял из компьютерных руководств IBM, расшифровок телефонных разговоров и других текстов, в общей сложности содержащих более 4,5 миллионов слов американского английского языка, аннотированных с использованием как тегов частей речи , так и синтаксических скобок. [6]
Были проанализированы корпуса японских предложений, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. [7]
Моделирование овладения языком
[ редактировать ]Тот факт, что в процессе овладения языком дети в основном знакомятся только с положительными фактами, [8] это означает, что предоставляются единственные доказательства того, что является правильной формой, и нет никаких доказательств того, что неправильная, [9] было ограничением для моделей в то время, поскольку доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. [10]
Было показано, что языки можно изучать, сочетая простые материалы, предъявляемые постепенно по мере того, как у ребенка развивается лучшая память и продолжительность концентрации внимания. [11] что объяснило длительный период овладения языком у младенцев и детей. [11]
Роботы использовались для проверки лингвистических теорий. [12] Имея возможность учиться так же, как дети, модели были созданы на основе модели доступности , в которой были созданы сопоставления между действиями, восприятиями и эффектами, которые были связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов и значений без необходимости использования грамматической структуры.
Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую языковую эволюцию, но и дает представление об истории эволюции современных языков. [13]
Теории Хомского
[ редактировать ]Были предприняты попытки определить, как младенец усваивает «ненормальную грамматику», как это теоретизирует нормальная форма Хомского . [9]
См. также
[ редактировать ]- Искусственный интеллект в художественной литературе
- Коллоструктурный анализ
- Компьютерная лексикология
- Компьютерная лингвистика (журнал)
- Вычислительные модели овладения языком
- Вычислительная семантика
- Вычислительная семиотика
- Компьютерное рецензирование
- Диалоговые системы
- глоттохронология
- Грамматическая индукция
- Проект человеческой речи
- Интернет-лингвистика
- Лексикостатистика
- Обработка естественного языка
- Пользовательский интерфейс на естественном языке
- Количественная лингвистика
- Семантическая связанность
- Семантометрия
- Системная функциональная лингвистика
- Память переводов
- Универсальный сетевой язык
Ссылки
[ редактировать ]- ^ Джон Хатчинс: Ретроспектива и перспективы компьютерного перевода. Архивировано 14 апреля 2008 г. в журнале Wayback Machine Proceedings of MT Summit VII, 1999, стр. 30–44.
- ^ «Умершие участники» . Члены МККЛ . Архивировано из оригинала 17 мая 2017 года . Проверено 15 ноября 2017 г.
- ^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
- ^ Арнольд Б. Барах: Машина-переводчик 1975: и грядущие изменения.
- ^ Маркус М. и Марцинкевич М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 9 октября 2022 г.
- ^ Тейлор, Энн (2003). «1». Древесные берега . Весенние Нидерланды. стр. 5–22.
- ^ Фурухаши С. и Хаякава Ю. (2012). «Логнормальность распределения длины японских предложений». Журнал Физического общества Японии . 81 (3): 034004. Бибкод : 2012JPSJ...81c4004F . дои : 10.1143/JPSJ.81.034004 .
- ^ Бауэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как детям избежать построения слишком общей грамматики. Объяснение языковых универсалий .
- ^ Перейти обратно: а б Брейн, MDS (1971). О двух типах моделей интериоризации грамматик. В книге Д. И. Слобин (ред.) Онтогенез грамматики: теоретический взгляд. Нью-Йорк: Академическая пресса.
- ^ Пауэрс, DMW и Терк, CCR (1989). Машинное обучение естественного языка . Спрингер-Верлаг. ISBN 978-0-387-19557-5 .
- ^ Перейти обратно: а б Элман, Джеффри Л. (1993). «Обучение и развитие нейронных сетей: важность начинать с малого». Познание . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . дои : 10.1016/0010-0277(93)90058-4 . ПМИД 8403835 . S2CID 2105042 .
- ^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая загрузка: изучение значений слов на основе ассоциации восприятие-действие». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . дои : 10.1109/TSMCB.2011.2172420 . ПМИД 22106152 . S2CID 977486 .
- ^ Гонг, Т.; Шуай, Л.; Тамарис М. и Ягер Г. (2012). Э. Скалас (ред.). «Изучение языковых изменений с использованием уравнения цен и динамики полиурн» . ПЛОС ОДИН . 7 (3): e33171. Бибкод : 2012PLoSO...733171G . дои : 10.1371/journal.pone.0033171 . ПМК 3299756 . ПМИД 22427981 .
Дальнейшее чтение
[ редактировать ]- Бейтс, М. (1995). «Модели понимания естественного языка» . Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Бибкод : 1995PNAS...92.9977B . дои : 10.1073/pnas.92.22.9977 . ПМК 40721 . ПМИД 7479812 .
- Стивен Берд, Юэн Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . О'Рейли Медиа. ISBN 978-0-596-51649-9 .
- Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Пирсон Прентис Холл. ISBN 978-0-13-187321-6 .
- Мохамед Закария КУРДИ (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , Том 1. ISTE-Wiley. ISBN 978-1848218482 .
- Мохамед Закария КУРДИ (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , Том 2. ISTE-Wiley. ISBN 978-1848219212 .
Внешние ссылки
[ редактировать ]- Ассоциация компьютерной лингвистики (ACL)
- Ежегодные конференции CICLing по компьютерной лингвистике. Архивировано 6 февраля 2019 г. в Wayback Machine.
- Компьютерная лингвистика – Семинар по приложениям
- Бесплатная онлайн-вводная книга по компьютерной лингвистике на Wayback Machine (архивировано 25 января 2008 г.)
- Мир языковых технологий
- Ресурсы для обработки текста, речи и языка
- Исследовательская группа в области компьютерной лингвистики. Архивировано 1 августа 2013 г. в Wayback Machine.