Компьютерная лингвистика

Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием , естественного языка а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию , среди других.

Происхождение

Эта область пересекается с искусственным интеллектом со времен попыток США в 1950-х годах использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. ^[1] Поскольку подходы, основанные на правилах, могли производить арифметические (систематические) вычисления намного быстрее и точнее, чем люди, ожидалось, что лексика , морфология , синтаксис и семантика также могут быть изучены с использованием явных правил. После провала подходов, основанных на правилах , Дэвид Хейс ^[2] придумал этот термин, чтобы отличить эту область от искусственного интеллекта, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL) в 1970-х и 1980-х годах. То, что началось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . ^[3]^[4]

Аннотированные корпуса

Для того чтобы иметь возможность придирчиво изучать английский язык , очень нужен был аннотированный текстовый корпус. Пенн- Трибэнк ^[5] был одним из наиболее часто используемых корпусов. Он состоял из компьютерных руководств IBM, расшифровок телефонных разговоров и других текстов, в общей сложности содержащих более 4,5 миллионов слов американского английского языка, аннотированных с использованием как тегов частей речи , так и синтаксических скобок. ^[6]

Были проанализированы корпуса японских предложений, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. ^[7]

Моделирование овладения языком

Тот факт, что в процессе овладения языком дети в основном знакомятся только с положительными фактами, ^[8] это означает, что предоставляются единственные доказательства того, что является правильной формой, и нет никаких доказательств того, что это неправильно, ^[9] было ограничением для моделей в то время, поскольку доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. ^[10]

Было показано, что языки можно изучать, сочетая простые материалы, предъявляемые постепенно по мере того, как у ребенка развивается лучшая память и продолжительность концентрации внимания. ^[11] что объяснило длительный период овладения языком у младенцев и детей. ^[11]

Роботы использовались для проверки лингвистических теорий. ^[12] Имея возможность учиться так же, как дети, модели были созданы на основе модели доступности , в которой были созданы сопоставления между действиями, восприятиями и эффектами, которые были связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов и значений без необходимости использования грамматической структуры.

Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую языковую эволюцию, но и дает представление об истории эволюции современных языков. ^[13]

Теории Хомского

Были предприняты попытки определить, как младенец усваивает «ненормальную грамматику», как это теоретизирует нормальная форма Хомского . ^[9]

См. также

Ссылки

^ Джон Хатчинс: Ретроспектива и перспективы компьютерного перевода. Архивировано 14 апреля 2008 г. в журнале Wayback Machine Proceedings of MT Summit VII, 1999, стр. 30–44.
^ «Умершие члены» . Члены МККЛ . Архивировано из оригинала 17 мая 2017 года . Проверено 15 ноября 2017 г.
^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
^ Арнольд Б. Барах: Машина-переводчик 1975: и грядущие изменения.
^ Маркус М. и Марцинкевич М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 9 октября 2022 г.
^ Тейлор, Энн (2003). «1». Древесные берега . Весенние Нидерланды. стр. 5–22.
^ Фурухаши С. и Хаякава Ю. (2012). «Логнормальность распределения длины японских предложений». Журнал Физического общества Японии . 81 (3): 034004. Бибкод : 2012JPSJ...81c4004F . дои : 10.1143/JPSJ.81.034004 .
^ Бауэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как детям избежать построения слишком общей грамматики. Объяснение языковых универсалий .
^ Перейти обратно: ^а ^б Брейн, MDS (1971). О двух типах моделей интериоризации грамматик. В книге Д. И. Слобин (ред.) Онтогенез грамматики: теоретический взгляд. Нью-Йорк: Академическая пресса.
^ Пауэрс, DMW и Терк, CCR (1989). Машинное обучение естественного языка . Спрингер-Верлаг. ISBN 978-0-387-19557-5 .
^ Перейти обратно: ^а ^б Элман, Джеффри Л. (1993). «Обучение и развитие нейронных сетей: важность начинать с малого». Познание . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . дои : 10.1016/0010-0277(93)90058-4 . ПМИД 8403835 . S2CID 2105042 .
^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая загрузка: изучение значений слов на основе ассоциации восприятие-действие». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . дои : 10.1109/TSMCB.2011.2172420 . ПМИД 22106152 . S2CID 977486 .
^ Гонг, Т.; Шуай, Л.; Тамарис М. и Ягер Г. (2012). Э. Скалас (ред.). «Изучение языковых изменений с использованием уравнения цен и динамики полиурн» . ПЛОС ОДИН . 7 (3): e33171. Бибкод : 2012PLoSO...733171G . дои : 10.1371/journal.pone.0033171 . ПМК 3299756 . ПМИД 22427981 .

Дальнейшее чтение

Бейтс, М. (1995). «Модели понимания естественного языка» . Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Бибкод : 1995PNAS...92.9977B . дои : 10.1073/pnas.92.22.9977 . ПМК 40721 . ПМИД 7479812 .
Стивен Берд, Юэн Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . О'Рейли Медиа. ISBN 978-0-596-51649-9 .
Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Пирсон Прентис Холл. ISBN 978-0-13-187321-6 .
Мохамед Закария КУРДИ (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , Том 1. ISTE-Wiley. ISBN 978-1848218482 .
Мохамед Закария КУРДИ (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , Том 2. ISTE-Wiley. ISBN 978-1848219212 .

Внешние ссылки

[1] Джон Хатчинс: Ретроспектива и перспективы компьютерного перевода. Архивировано 14 апреля 2008 г. в журнале Wayback Machine Proceedings of MT Summit VII, 1999, стр. 30–44.

[2] «Умершие члены» . Члены МККЛ . Архивировано из оригинала 17 мая 2017 года . Проверено 15 ноября 2017 г.

[3] Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель

[4] Арнольд Б. Барах: Машина-переводчик 1975: и грядущие изменения.

[5] Маркус М. и Марцинкевич М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 9 октября 2022 г.

[6] Тейлор, Энн (2003). «1». Древесные берега . Весенние Нидерланды. стр. 5–22.

[autogenerated3-7] Фурухаши С. и Хаякава Ю. (2012). «Логнормальность распределения длины японских предложений». Журнал Физического общества Японии . 81 (3): 034004. Бибкод : 2012JPSJ...81c4004F . дои : 10.1143/JPSJ.81.034004 .

[8] Бауэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как детям избежать построения слишком общей грамматики. Объяснение языковых универсалий .

[autogenerated1971-9] Перейти обратно: ^а ^б Брейн, MDS (1971). О двух типах моделей интериоризации грамматик. В книге Д. И. Слобин (ред.) Онтогенез грамматики: теоретический взгляд. Нью-Йорк: Академическая пресса.

[powers1989-10] Пауэрс, DMW и Терк, CCR (1989). Машинное обучение естественного языка . Спрингер-Верлаг. ISBN 978-0-387-19557-5 .

[autogenerated1993-11] Перейти обратно: ^а ^б Элман, Джеффри Л. (1993). «Обучение и развитие нейронных сетей: важность начинать с малого». Познание . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . дои : 10.1016/0010-0277(93)90058-4 . ПМИД 8403835 . S2CID 2105042 .

[12] Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая загрузка: изучение значений слов на основе ассоциации восприятие-действие». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . дои : 10.1109/TSMCB.2011.2172420 . ПМИД 22106152 . S2CID 977486 .

[13] Гонг, Т.; Шуай, Л.; Тамарис М. и Ягер Г. (2012). Э. Скалас (ред.). «Изучение языковых изменений с использованием уравнения цен и динамики полиурн» . ПЛОС ОДИН . 7 (3): e33171. Бибкод : 2012PLoSO...733171G . дои : 10.1371/journal.pone.0033171 . ПМК 3299756 . ПМИД 22427981 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

v т и Информатика
Note: This template roughly follows the 2012 ACM Computing Classification System.
Hardware	Printed circuit board Peripheral Integrated circuit Very Large Scale Integration Systems on Chip (SoCs) Energy consumption (Green computing) Electronic design automation Hardware acceleration Processor Size / Form
Computer systems organization	Computer architecture Computational complexity Dependability Embedded system Real-time computing
Networks	Network architecture Network protocol Network components Network scheduler Network performance evaluation Network service
Software organization	Interpreter Middleware Virtual machine Operating system Software quality
Software notations and tools	Programming paradigm Programming language Compiler Domain-specific language Modeling language Software framework Integrated development environment Software configuration management Software library Software repository
Software development	Control variable Software development process Requirements analysis Software design Software construction Software deployment Software engineering Software maintenance Programming team Open-source model
Theory of computation	Model of computation Formal language Automata theory Computability theory Computational complexity theory Logic Semantics
Algorithms	Algorithm design Analysis of algorithms Algorithmic efficiency Randomized algorithm Computational geometry
Mathematics of computing	Discrete mathematics Probability Statistics Mathematical software Information theory Mathematical analysis Numerical analysis Theoretical computer science
Information systems	Database management system Information storage systems Enterprise information system Social information systems Geographic information system Decision support system Process control system Multimedia information system Data mining Digital library Computing platform Digital marketing World Wide Web Information retrieval
Security	Cryptography Formal methods Security hacker Security services Intrusion detection system Hardware security Network security Information security Application security
Human–computer interaction	Interaction design Social computing Ubiquitous computing Visualization Accessibility
Concurrency	Concurrent computing Parallel computing Distributed computing Multithreading Multiprocessing
Artificial intelligence	Natural language processing Knowledge representation and reasoning Computer vision Automated planning and scheduling Search methodology Control method Philosophy of artificial intelligence Distributed artificial intelligence
Machine learning	Supervised learning Unsupervised learning Reinforcement learning Multi-task learning Cross-validation
Graphics	Animation Rendering Photograph manipulation Graphics processing unit Mixed reality Virtual reality Image compression Solid modeling
Applied computing	Quantum Computing E-commerce Enterprise software Computational mathematics Computational physics Computational chemistry Computational biology Computational social science Computational engineering Differentiable computing Computational healthcare Digital art Electronic publishing Cyberwarfare Electronic voting Video games Word processing Operations research Educational technology Document management
Category Outline Glossaries