Схема обработки естественного языка
Следующий план представляет собой обзор и актуальное руководство по обработке естественного языка:
обработка естественного языка – компьютерная деятельность, в которой компьютеры должны анализировать, понимать , изменять или генерировать естественный язык . Сюда входит автоматизация любых или всех языковых форм, действий или методов общения, таких как беседа , переписка, чтение , письменное сочинение , диктовка , публикация , перевод , чтение по губам и так далее. Обработка естественного языка — это также название отрасли информатики , искусственного интеллекта и лингвистики, занимающейся предоставлением компьютерам возможности взаимодействовать с использованием естественного языка (языков) во всех формах, включая, помимо прочего, речь , печать , письмо и подписание .
Обработка естественного языка [ править ]
Обработку естественного языка можно описать как все следующее:
- Область науки – систематическое предприятие, которое создает и систематизирует знания в форме проверяемых объяснений и предсказаний о Вселенной. [1]
- Прикладная наука – область, в которой человеческие знания применяются для создания или проектирования полезных вещей.
- Область информатики – научный и практический подход к вычислениям и их приложениям.
- Раздел искусственного интеллекта – интеллект машин и роботов и раздел информатики, целью которого является его создание.
- Подраздел компьютерной лингвистики - междисциплинарная область, занимающаяся статистическим или основанным на правилах моделированием естественного языка с вычислительной точки зрения.
- Область информатики – научный и практический подход к вычислениям и их приложениям.
- Применение инженерии - наука, навыки и профессия, направленные на приобретение и применение научных, экономических, социальных и практических знаний для проектирования, а также создания конструкций, машин, устройств, систем, материалов и процессов.
- Применение разработки программного обеспечения - применение систематического, дисциплинированного, поддающегося количественной оценке подхода к проектированию, разработке, эксплуатации и обслуживанию программного обеспечения, а также изучение этих подходов; то есть применение инженерных разработок к программному обеспечению. [2] [3] [4]
- Подобласть компьютерного программирования – процесс проектирования, написания, тестирования, отладки и поддержки исходного кода компьютерных программ. Этот исходный код написан на одном или нескольких языках программирования (например, Java, C++, C#, Python и т. д.). Цель программирования — создать набор инструкций, которые компьютеры используют для выполнения определенных операций или демонстрации желаемого поведения.
- Подобласть программирования искусственного интеллекта -
- Подобласть компьютерного программирования – процесс проектирования, написания, тестирования, отладки и поддержки исходного кода компьютерных программ. Этот исходный код написан на одном или нескольких языках программирования (например, Java, C++, C#, Python и т. д.). Цель программирования — создать набор инструкций, которые компьютеры используют для выполнения определенных операций или демонстрации желаемого поведения.
- Применение разработки программного обеспечения - применение систематического, дисциплинированного, поддающегося количественной оценке подхода к проектированию, разработке, эксплуатации и обслуживанию программного обеспечения, а также изучение этих подходов; то есть применение инженерных разработок к программному обеспечению. [2] [3] [4]
- Прикладная наука – область, в которой человеческие знания применяются для создания или проектирования полезных вещей.
- Тип системы – совокупность взаимодействующих или взаимозависимых компонентов, образующих единое целое или совокупность элементов (часто называемых «компонентами») и отношений, отличных от связей совокупности или ее элементов с другими элементами или множествами.
- Система, включающая программное обеспечение . Программное обеспечение представляет собой набор компьютерных программ и связанных с ними данных, которые предоставляют инструкции, сообщающие компьютеру, что и как делать. Программное обеспечение относится к одной или нескольким компьютерным программам и данным, хранящимся в памяти компьютера. Другими словами, программное обеспечение — это набор программ, процедур, алгоритмов и документации к ним, связанных с работой системы обработки данных.
- Тип технологии – создание, модификация, использование и знание инструментов, машин, техник, ремесел, систем, методов организации для решения проблемы, улучшения уже существующего решения проблемы, достижения цели, решения прикладной задачи. отношение ввода/вывода или выполнение определенной функции. Это также может относиться к набору таких инструментов, механизмов, модификаций, механизмов и процедур. Технологии существенно влияют на способность человека и других видов животных контролировать и адаптироваться к окружающей среде.
- Вид компьютерной техники – компьютеры и их применение. НЛП использует компьютеры, сканеры изображений, микрофоны и многие типы программ.
- Языковые технологии – состоят из обработки естественного языка (НЛП) и компьютерной лингвистики (КЛ), с одной стороны, и речевых технологий, с другой. Он также включает в себя множество прикладных аспектов. Ее часто называют технологией человеческого языка (HLT).
- Вид компьютерной техники – компьютеры и их применение. НЛП использует компьютеры, сканеры изображений, микрофоны и многие типы программ.
Необходимые технологии [ править ]
Следующие технологии делают возможной обработку естественного языка:
- Коммуникация – деятельность источника, отправляющего сообщение получателю .
- Язык -
- Вычисления –
- Компьютеры –
- Компьютерное программирование –
- Программное обеспечение -
- Редактирование текста - программа, используемая для редактирования текстовых файлов.
- Текстовый процессор - часть программного обеспечения, используемая для создания, редактирования, форматирования и печати документов.
- Устройства ввода – аппаратные средства для отправки данных на компьютер для обработки. [5]
- Компьютерная клавиатура - устройство ввода в виде пишущей машинки, ввод которой преобразуется в различные данные в зависимости от обстоятельств.
- Сканеры изображений –
языка обработки Подполя естественного
- Извлечение информации (IE) – область, занимающаяся извлечением семантической информации из текста. Сюда входят такие задачи, как распознавание именованных объектов , разрешение кореференций , извлечение связей и т. д.
- Инженерия онтологий - область, изучающая методы и методологии построения онтологий, которые являются формальными представлениями набора концепций внутри предметной области и отношений между этими концепциями.
- Обработка речи – область, которая охватывает распознавание речи , преобразование текста в речь и связанные с этим задачи.
- Статистическая обработка естественного языка –
- Статистическая семантика - подобласть вычислительной семантики , которая устанавливает семантические отношения между словами для изучения их контекста.
- Распределительная семантика - подобласть статистической семантики , которая исследует семантические отношения слов в корпусе или в больших выборках данных.
- Статистическая семантика - подобласть вычислительной семантики , которая устанавливает семантические отношения между словами для изучения их контекста.
Связанные поля [ изменить ]
Обработка естественного языка способствует и использует (теории, инструменты и методологии) в следующих областях:
- Автоматизированное рассуждение - область информатики и математической логики, посвященная пониманию различных аспектов рассуждения и созданию программного обеспечения, которое позволяет компьютерам рассуждать полностью или почти полностью автоматически. Подобласть искусственного интеллекта, автоматическое мышление, также основана на теоретической информатике и философии разума.
- Лингвистика – научное исследование человеческого языка. Обработка естественного языка требует понимания структуры и применения языка и поэтому во многом опирается на лингвистику.
- Прикладная лингвистика - междисциплинарная область исследований, которая выявляет, исследует и предлагает решения реальных проблем, связанных с языком. Некоторыми академическими областями, связанными с прикладной лингвистикой, являются образование, лингвистика, психология, информатика, антропология и социология. Некоторые из подобластей прикладной лингвистики, имеющих отношение к обработке естественного языка:
- Двуязычие / Многоязычие –
- Компьютерно-опосредованное общение (CMC) – любая коммуникативная транзакция, происходящая посредством использования двух или более сетевых компьютеров. [6] Исследования CMC в основном сосредоточены на социальных последствиях различных компьютерных коммуникационных технологий. в Интернете, Многие недавние исследования связаны с социальными сетями поддерживаемыми социальным программным обеспечением .
- Контрастивная лингвистика – практико-ориентированный лингвистический подход, целью которого является описание различий и сходств между парой языков.
- Разговорный анализ (КА) – подход к изучению социального взаимодействия, охватывающий как вербальное, так и невербальное поведение, в ситуациях повседневной жизни. Очередность — это один из аспектов использования языка, который изучает CA.
- Дискурс-анализ - различные подходы к анализу письменного, устного или жестового использования языка или любого значимого семиотического события.
- Судебная лингвистика - применение лингвистических знаний, методов и знаний в судебно-медицинском контексте права, языка, расследования преступлений, судебного разбирательства и судебной процедуры.
- Интерлингвистика – исследование улучшения общения между людьми, говорящими на разных первых языках, с использованием этнических и вспомогательных языков (лингва франка). Например, путем использования преднамеренных международных вспомогательных языков, таких как эсперанто или интерлингва, или спонтанных межъязыков, известных как языки пиджин.
- Языковая оценка – оценка первого, второго или другого языка в школе, колледже или университете; оценка использования языка на рабочем месте; и оценка языка в контексте иммиграции, гражданства и предоставления убежища. Оценка может включать в себя анализ аудирования, говорения, чтения, письма или культурного понимания в отношении понимания того, как язык работает теоретически, и способности использовать язык на практике.
- Языковая педагогика – наука и искусство языкового образования, включая подходы и методы преподавания и изучения языка. Обработка естественного языка используется в программах, предназначенных для обучения языку, включая обучение первому и второму языку.
- Языковое планирование –
- Языковая политика –
- Лексикография –
- Грамотность –
- Прагматика –
- Овладение вторым языком –
- Стилистика –
- Перевод –
- Компьютерная лингвистика - междисциплинарная область, занимающаяся статистическим или основанным на правилах моделированием естественного языка с вычислительной точки зрения. Модели и инструменты компьютерной лингвистики широко используются в области обработки естественного языка и наоборот.
- Вычислительная семантика –
- Корпусная лингвистика - изучение языка, выраженного в образцах (корпусах) текста «реального мира». Корпус — это множественное число от слова «корпус» , а корпус — это специально отобранный набор текстов (или речевых сегментов), составленных из естественного языка. После того как корпус построен (собран или составлен), он анализируется с помощью методов компьютерной лингвистики, чтобы сделать вывод о значении и контексте его компонентов (слов, фраз и предложений), а также об отношениях между ними. При желании корпус можно аннотировать («пометить») данными (вручную или автоматически), чтобы облегчить понимание корпуса (например, разметка частей речи ). Эти данные затем применяются для осмысления вводимых пользователем данных, например, для более точного (автоматического) угадывания того, о чем люди говорят или говорят, возможно, для достижения более узконаправленного веб-поиска или для распознавания речи.
- Металингвистика –
- Жестовая лингвистика - научное изучение и анализ естественных жестовых языков, их особенностей, структуры (фонологии, морфологии, синтаксиса и семантики), их освоения (в качестве первичного или вторичного языка), того, как они развиваются независимо от других языков, их применения в общение, их отношения к другим языкам (включая разговорные языки) и многие другие аспекты.
- Прикладная лингвистика - междисциплинарная область исследований, которая выявляет, исследует и предлагает решения реальных проблем, связанных с языком. Некоторыми академическими областями, связанными с прикладной лингвистикой, являются образование, лингвистика, психология, информатика, антропология и социология. Некоторые из подобластей прикладной лингвистики, имеющих отношение к обработке естественного языка:
- Взаимодействие человека и компьютера – пересечение информатики и поведенческих наук. Эта область включает изучение, планирование и проектирование взаимодействия между людьми (пользователями) и компьютерами. Внимание к взаимодействию человека и машины важно, поскольку плохо спроектированные человеко-машинные интерфейсы могут привести к множеству неожиданных проблем. Классическим примером этого является авария на острове Три-Майл-Айленд , где расследование пришло к выводу, что конструкция человеко-машинного интерфейса, по крайней мере, частично ответственна за катастрофу.
- Информационный поиск (ИР) – область, связанная с хранением, поиском и извлечением информации. Это отдельная область информатики (ближе к базам данных), но IR опирается на некоторые методы НЛП (например, стемминг). Некоторые текущие исследования и приложения направлены на преодоление разрыва между МО и НЛП.
- Представление знаний (KR) - область исследований искусственного интеллекта, направленная на представление знаний в символах для облегчения вывода из этих элементов знаний, создания новых элементов знаний. Исследование представления знаний включает в себя анализ того, как точно и эффективно рассуждать и как лучше всего использовать набор символов для представления набора фактов в области знаний.
- Семантическая сеть – исследование семантических отношений между понятиями.
- Машинное обучение - раздел информатики, изучающий распознавание образов и теорию вычислительного обучения в области искусственного интеллекта. Существует три широких подхода к машинному обучению. Обучение под наблюдением происходит, когда учитель дает машине примеры входных и выходных данных, чтобы она могла выучить правило, которое сопоставляет входные данные с выходными данными. Обучение без учителя происходит, когда машина определяет структуру входных данных без предоставления примеров входных или выходных данных. Обучение с подкреплением происходит, когда машина должна выполнить задачу без обратной связи с учителем.
- Распознавание образов — раздел машинного обучения , изучающий, как машины распознают закономерности в данных. Как и в случае с машинным обучением, учителя могут обучать машины распознавать шаблоны, предоставляя им примеры входных и выходных данных (т. е. обучение с учителем ), или же машины могут распознавать шаблоны без обучения каким-либо примерам входных или выходных данных (т. е. обучение без учителя ).
- Статистическая классификация –
языка используемые при обработке естественного , Структуры
- Анафора – тип выражения, ссылка на которое зависит от другого ссылочного элемента. Например, в предложении «Салли предпочитала компанию самой себе» слово «сама» является анафорическим выражением, поскольку оно корреферентно с «Салли», субъектом предложения.
- Контекстно-свободный язык –
- Контролируемый естественный язык – естественный язык, в грамматику и словарный запас которого вводятся ограничения с целью устранения двусмысленности и сложности.
- Корпус — совокупность данных, дополнительно помеченная тегами (например, с помощью тегов частей речи ), предоставляющая образцы из реального мира для анализа и сравнения.
- Текстовый корпус – большой и структурированный набор текстов, в настоящее время обычно хранящихся и обрабатываемых в электронном виде. Они используются для статистического анализа и проверки гипотез, проверки совпадений или проверки лингвистических правил в рамках конкретного предмета (или области ).
- Речевой корпус – база данных речевых аудиофайлов и текстовых транскрипций. В технологии «Речь» речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи). В лингвистике разговорные корпуса используются для исследований в области фонетики, анализа разговоров, диалектологии и других областей.
- Грамматика –
- Контекстно-свободная грамматика (CFG) –
- Грамматика ограничений (CG) –
- Грамматика определенного предложения (DCG) –
- Грамматика функциональной унификации (FUG) –
- Грамматика обобщенной фразовой структуры (GPSG) –
- Грамматика структуры фраз, управляемая головой (HPSG) –
- Лексическая функциональная грамматика (ЛФГ) –
- Вероятностная контекстно-свободная грамматика (PCFG) – другое название стохастической бесконтекстной грамматики.
- Стохастическая контекстно-свободная грамматика (SCFG) –
- Системная функциональная грамматика (СФГ) –
- Древовидная грамматика (TAG) –
- Естественный язык –
- n -грамма – последовательность из n токенов, где «токен» — это символ, слог или слово. N . заменяется числом Следовательно, 5-грамма — это n -грамма из 5 букв, слогов или слов. «Съешь это» — это 2-грамма (также известная как биграмма).
- Биграмма – n -грамма из 2 токенов. Каждая последовательность двух соседних элементов в строке токенов является биграммой. Биграммы используются для распознавания речи, их можно использовать для решения криптограмм, а частота биграмм является одним из подходов к статистической идентификации языка.
- Триграмма – частный случай n- граммы, где n равно 3.
- Онтология – формальное представление набора концепций внутри предметной области и отношений между этими концепциями.
- Таксономия - практика и наука классификации, включая принципы, лежащие в основе классификации, и методы классификации вещей или концепций.
- Гипонимия и гиперонимия – лингвистика гипонимов и гиперонимов. Гипоним разделяет тип отношений со своим гиперонимом. Например, голубь, ворона, орел и чайка — все это гипонимы птицы (их гипероним); что, в свою очередь, является гипонимом животного.
- Таксономия для поисковых систем - обычно называется «таксономией объектов». Это дерево , в котором узлы помечены сущностями, которые, как ожидается, встречаются в поисковом веб-запросе. Эти деревья используются для сопоставления ключевых слов из поискового запроса с ключевыми словами из релевантных ответов (или фрагментов).
- Таксономия - практика и наука классификации, включая принципы, лежащие в основе классификации, и методы классификации вещей или концепций.
- Текстовое следствие – направленная связь между текстовыми фрагментами. Отношение сохраняется всякий раз, когда истинность одного фрагмента текста следует из другого текста. В рамках TE влекущий и влекущий за собой тексты называются текстом (t) и гипотезой (h) соответственно. Отношение является направленным, потому что даже если «t влечет за собой h», обратное «h влечет за собой t» гораздо менее достоверно.
- Трифон – последовательность трех фонем. Трифоны полезны в моделях обработки естественного языка, где они используются для установления различных контекстов, в которых фонема может встречаться в определенном естественном языке.
Процессы НЛП [ править ]
Приложения [ править ]
- Автоматизированная оценка эссе (AES) – использование специализированных компьютерных программ для выставления оценок эссе, написанным в образовательных целях. Это метод оценки образования и применение обработки естественного языка. Его цель — классифицировать большой набор текстовых объектов на небольшое количество дискретных категорий, соответствующих возможным классам, например числам от 1 до 6. Следовательно, это можно рассматривать как задачу статистической классификации.
- Автоматическое аннотирование изображения – процесс, при котором компьютерная система автоматически присваивает цифровому изображению текстовые метаданные в виде подписей или ключевых слов. Аннотации используются в системах поиска изображений для организации и поиска интересующих изображений в базе данных.
- Автоматическое реферирование – процесс сокращения текстового документа с помощью компьютерной программы с целью создания реферата, сохраняющего наиболее важные моменты исходного документа. Часто используется для краткого изложения текста известного типа, например статей в финансовом разделе газеты.
- Типы
- Извлечение ключевой фразы –
- Обобщение документов –
- Методы и техники
- Обобщение на основе извлечения –
- Обобщение на основе абстракции –
- Суммирование на основе максимальной энтропии –
- Извлечение предложения –
- Помощь в подведении итогов –
- Обобщение с помощью человека и машины (HAMS) –
- Машинное обобщение данных человеком (MAHS) –
- Типы
- Автоматическая индукция таксономии - автоматическое построение древовидных структур из корпуса. Это может быть применено для создания систем таксономической классификации для чтения конечными пользователями, таких как веб-каталоги или тематические обзоры.
- Разрешение кореферентности — чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимения и другие референтные выражения должны быть связаны с нужными людьми или объектами. Для предложения или более крупного фрагмента текста разрешение кореференции определяет, какие слова («упоминания») относятся к каким объектам («сущностям»), включенным в текст.
- Разрешение анафоры - связано с сопоставлением местоимений с существительными или именами, к которым они относятся. Например, в таком предложении, как «Он вошел в дом Джона через парадную дверь», «парадная дверь» является референтным выражением, а связующим отношением, которое необходимо выявить, является тот факт, что дверь, о которой идет речь, является входной дверью дома Джона. дом (а не какое-то другое строение, о котором также можно было бы упомянуть).
- Диалоговая система –
- Средство чтения на иностранном языке - компьютерная программа, которая помогает пользователю, не являющемуся родным языком, правильно читать на целевом языке. Правильное чтение означает, что произношение должно быть правильным, а ударение в разных частях слова должно быть правильным.
- Средство письма на иностранном языке — компьютерная программа или любой другой инструмент, который помогает пользователю, не являющемуся родным языком (также называемому изучающим иностранный язык), прилично писать на целевом языке. Вспомогательные операции можно разделить на две категории: подсказки «на лету» и проверки после написания.
- Проверка грамматики — действие по проверке грамматической правильности написанного текста, особенно если это действие выполняется компьютерной программой .
- Поиск информации –
- Машинный перевод (MT) – предназначен для автоматического перевода текста с одного человеческого языка на другой. Это одна из самых сложных проблем, и она принадлежит к классу проблем, в просторечии называемых « ИИ-полными », т.е. требующих всех различных типов знаний, которыми обладают люди (грамматика, семантика, факты о реальном мире и т. д.). .), чтобы правильно решить.
- Классический подход машинного перевода – машинный перевод на основе правил.
- Компьютерный перевод –
- Интерактивный машинный перевод –
- Память переводов - база данных, в которой хранятся так называемые «сегменты», которые могут представлять собой предложения, абзацы или похожие на предложения единицы (заголовки, заголовки или элементы в списке), которые ранее были переведены, чтобы помочь переводчикам-людям.
- Машинный перевод на основе примеров –
- Машинный перевод на основе правил –
- Программирование на естественном языке – интерпретация и компиляция инструкций, передаваемых на естественном языке, в компьютерные инструкции (машинный код).
- Поиск на естественном языке –
- Оптическое распознавание символов (OCR) – по изображению, представляющему собой печатный текст, определить соответствующий текст.
- Ответ на вопрос – задан вопрос на человеческом языке, определить на него ответ. Типичные вопросы имеют конкретный правильный ответ (например, «Какая столица Канады?»), но иногда рассматриваются и открытые вопросы (например, «В чем смысл жизни?»).
- Фильтрация спама –
- Анализ настроений - извлекает субъективную информацию, обычно из набора документов, часто используя онлайн-обзоры для определения «полярности» в отношении конкретных объектов. Это особенно полезно для выявления тенденций общественного мнения в социальных сетях в целях маркетинга.
- Распознавание речи – по звуковому фрагменту говорящего человека или людей определите текстовое представление речи. Это противоположность преобразования текста в речь и является одной из чрезвычайно сложных проблем, в просторечии называемых « ИИ-полным » (см. выше). В естественной речи пауз между последовательными словами практически нет, поэтому сегментация речи является необходимой подзадачой распознавания речи (см. ниже). В большинстве разговорных языков звуки, представляющие последовательные буквы, сливаются друг с другом в процессе, называемом коартикуляцией , поэтому преобразование аналогового сигнала в дискретные символы может быть очень трудным процессом.
- Синтез речи (Text-to-speech) –
- Проверка текста –
- Упрощение текста — автоматическое редактирование документа с целью включения меньшего количества слов или использования более простых слов, сохраняя при этом его основной смысл и информацию.
Компонентные процессы [ править ]
- Понимание естественного языка — преобразует фрагменты текста в более формальные представления, такие как логические структуры первого порядка , которыми компьютерным программам легче манипулировать. Понимание естественного языка включает идентификацию предполагаемой семантики из множества возможных семантик, которые могут быть получены из выражения естественного языка, которое обычно принимает форму организованных обозначений понятий естественного языка. Внедрение и создание языковой метамодели и онтологии являются эффективными, однако эмпирическими решениями. явная формализация семантики естественных языков без путаницы с неявными предположениями, такими как предположение о закрытом мире (CWA) против предположения об открытом мире Для построения основы семантики ожидается или субъективное Да/Нет против объективного Истина/Ложь. формализация. [7]
- Генерация естественного языка – задача преобразования информации из компьютерных баз данных в читаемый человеческий язык.
естественного процессы понимания Компонентные языка
- Автоматическая классификация документов (категоризация текста) –
- Обработка сложных терминов - категория методов, которые идентифицируют сложные термины и сопоставляют их с их определениями. Сложные термины создаются путем объединения двух (или более) простых терминов, например, «тройной» — это термин из одного слова, а «тройной шунт сердца» — составной термин.
- Автоматическое введение таксономии –
- Обработка корпуса –
- Глубокая лингвистическая обработка –
- Дискурс-анализ – включает в себя ряд взаимосвязанных задач. Одной из задач является выявление дискурсивной структуры связного текста, т.е. характера дискурсивных отношений между предложениями (например, разработка, объяснение, контраст). Другая возможная задача — распознавание и классификация речевых актов в фрагменте текста (например, вопросы «да-нет», содержательные вопросы, высказывания, утверждения, приказы, предложения и т. д.).
- Извлечение информации –
- Анализ текста – процесс извлечения высококачественной информации из текста. Высококачественная информация обычно получается путем выявления закономерностей и тенденций с помощью таких средств, как изучение статистических закономерностей.
- Биомедицинский анализ текста – (также известный как BioNLP), это анализ текста, применяемый к текстам и литературе в области биомедицины и молекулярной биологии. Это довольно недавняя область исследований, в которой используются элементы обработки естественного языка, биоинформатики, медицинской информатики и компьютерной лингвистики. Растет интерес к стратегиям интеллектуального анализа текста и извлечения информации, применяемым к литературе по биомедицине и молекулярной биологии, из-за увеличения количества доступных в электронном виде публикаций, хранящихся в таких базах данных, как PubMed.
- Обучение дереву решений –
- Извлечение предложения –
- Извлечение терминологии –
- Анализ текста – процесс извлечения высококачественной информации из текста. Высококачественная информация обычно получается путем выявления закономерностей и тенденций с помощью таких средств, как изучение статистических закономерностей.
- Скрытая семантическая индексация –
- Лемматизация - группирует все подобные термины, имеющие одну и ту же лемму, так что они классифицируются как один элемент.
- Морфологическая сегментация – разделяет слова на отдельные морфемы и определяет класс морфем. Сложность этой задачи во многом зависит от сложности морфологии ( т. е. структуры слов) рассматриваемого языка. В английском языке довольно простая морфология, особенно флективная морфология , поэтому часто можно полностью игнорировать эту задачу и просто моделировать все возможные формы слова (например, «открыть, открывает, открылось, открытие») как отдельные слова. Однако в таких языках, как турецкий , такой подход невозможен, поскольку каждая словарная статья имеет тысячи возможных словоформ.
- Распознавание именованного объекта (NER) – с учетом потока текста определяет, какие элементы в текстовой карте соответствуют именам собственным, например людям или местам, и каков тип каждого такого имени (например, человек, местоположение, организация). Хотя использование заглавных букв может помочь в распознавании именованных объектов на таких языках, как английский, эта информация не может помочь в определении типа именованного объекта и в любом случае часто бывает неточной или недостаточной. Например, первое слово предложения также пишется с заглавной буквы, а именованные объекты часто охватывают несколько слов, только некоторые из которых пишутся с заглавной буквы. Более того, многие другие языки с незападным письмом (например, китайский или арабский ) вообще не имеют заглавной буквы, и даже языки с заглавной буквой могут не всегда использовать ее для различения имен. Например, в немецком языке все существительные , не пишутся с заглавной буквы пишутся с заглавной буквы, независимо от того, относятся ли они к именам, а во французском и испанском языках имена, которые служат прилагательными .
- Обучение онтологии — автоматическое или полуавтоматическое создание онтологий , включая извлечение терминов соответствующей предметной области и связей между этими понятиями из корпуса текста на естественном языке и их кодирование с помощью языка онтологий для облегчения поиска. Также называется «извлечение онтологии», «генерация онтологии» и «получение онтологии».
- Синтаксический анализ – определяет дерево разбора (грамматического анализа) данного предложения. Грамматика , естественных языков неоднозначна и типичные предложения допускают множество возможных анализов. На самом деле, что, возможно, удивительно, для типичного предложения могут существовать тысячи потенциальных анализов (большая часть которых покажется человеку совершенно бессмысленной).
- Маркировка части речи – для данного предложения определяет часть речи для каждого слова. Многие слова, особенно общеупотребительные, могут служить несколькими частями речи . Например, «книга» может быть существительным («книга на столе») или глаголом («заказать рейс»); «набор» может быть существительным , глаголом или прилагательным ; и «out» может быть любой из как минимум пяти разных частей речи. В некоторых языках такой двусмысленности больше, чем в других. Языки с небольшой флективной морфологией , такие как английский, особенно склонны к такой двусмысленности. Китайский язык склонен к такой двусмысленности, поскольку во время вербализации он является тональным языком . Такое изменение нелегко передать через элементы, используемые в орфографии для передачи предполагаемого значения.
- Расширение запроса –
- Извлечение отношений – с учетом фрагмента текста идентифицирует отношения между названными объектами (например, кто чьей женой).
- Семантический анализ (вычислительный) - формальный анализ значения, а «вычислительный» относится к подходам, которые в принципе поддерживают эффективную реализацию.
- Разрушение предложения (также известное как устранение неоднозначности границ предложения и обнаружение предложения) — по фрагменту текста находит границы предложения. Границы предложений часто отмечаются точками или другими знаками препинания , но эти же символы могут служить и другим целям (например, для обозначения сокращений ).
- Сегментация речи – звуковой фрагмент говорящего человека или людей разделяет его на слова. Подзадача распознавания речи , обычно группируемая с ней.
- Стемминг – сводит измененное или производное слово к его основе , основе или корневой форме.
- Разбивка текста –
- Токенизация – данный кусок текста разделяет его на отдельные слова, символы, предложения или другие единицы.
- Сегментация и распознавание тем – дается фрагмент текста, разделяет его на сегменты, каждый из которых посвящен определенной теме, и идентифицирует тему сегмента.
- Истинный корпус –
- Сегментация слов – разделяет кусок непрерывного текста на отдельные слова. Для такого языка, как английский, это довольно тривиально, поскольку слова обычно разделяются пробелами. Однако некоторые письменные языки, такие как китайский, японский и тайский, не обозначают границы слов таким образом, и в этих языках сегментация текста является важной задачей, требующей знания словарного запаса и морфологии слов на языке.
- Разрешение смысловой неоднозначности (WSD) – поскольку многие слова имеют более одного значения , устранение смысловой неоднозначности используется для выбора значения, которое имеет наибольший смысл в контексте. Для решения этой задачи нам обычно дают список слов и связанных с ними значений слов, например, из словаря или из онлайн-ресурса, такого как WordNet .
- Смысловая индукция слова - открытая проблема обработки естественного языка, которая касается автоматического определения смыслов слова (т.е. значений). Учитывая, что результатом индукции смысла слова является набор смыслов целевого слова (инвентаризация смыслов), эта задача строго связана с задачей устранения смысловой неоднозначности (WSD), которая опирается на заранее определенный набор смыслов и направлена на решение многозначность слов в контексте.
- Автоматическое получение сенсорно-маркированных корпусов –
- W-шинглинг — набор уникальных «шинглов» — последовательных последовательностей токенов в документе — которые можно использовать для оценки сходства двух документов. Буква w обозначает количество токенов в каждой шингле набора.
процессы генерации Компонентные языка естественного
Генерация естественного языка – задача преобразования информации из компьютерных баз данных в читаемый человеческий язык.
- Автоматическая индукция таксономии (ATI) – автоматическое построение древовидных структур из корпуса. Хотя ATI используется для построения ядра онтологий (и это делает его компонентом процесса понимания естественного языка), когда конструируемые онтологии доступны для чтения конечному пользователю (например, краткое описание предмета), и они используются для построения дальнейшей документации (например, использования плана в качестве основы для построения отчета или трактата) это также становится компонентом процесса создания естественного языка.
- Структурирование документа –
языка естественного История обработки
История обработки естественного языка
- История машинного перевода
- История автоматизированной оценки эссе
- История пользовательского интерфейса на естественном языке
- История понимания естественного языка
- История оптического распознавания символов
- История ответов на вопросы
- История синтеза речи
- Тест Тьюринга - тест способности машины проявлять разумное поведение, эквивалентное поведению реального человека или неотличимое от него. В исходном иллюстративном примере человек-судья разговаривает на естественном языке с человеком и машиной, предназначенной для достижения результатов, неотличимых от действий человека. Все участники отделены друг от друга. Если судья не может достоверно отличить машину от человека, говорят, что машина прошла испытание. Тест был представлен Аланом Тьюрингом в его статье «Вычислительная техника и интеллект» 1950 года, которая начинается словами: «Я предлагаю рассмотреть вопрос: «Могут ли машины думать?»».
- Универсальная грамматика – теория в лингвистике , обычно приписываемая Ноаму Хомскому , предполагающая, что способность изучать грамматику жестко запрограммирована в мозге. [8] Теория предполагает, что лингвистические способности проявляются без обучения ( см. бедность стимула ) и что существуют свойства, общие для всех естественных человеческих языков . Это вопрос наблюдения и экспериментирования, чтобы точно определить, какие способности являются врожденными и какие свойства являются общими для всех языков.
- ALPAC – комитет из семи ученых под руководством Джона Р. Пирса, созданный в 1964 году правительством США с целью оценки прогресса в компьютерной лингвистике в целом и машинном переводе в частности. Его отчет, выпущенный в 1966 году, получил известность из-за очень скептического отношения к исследованиям, проведенным до сих пор в области машинного перевода, и подчеркивания необходимости фундаментальных исследований в области компьютерной лингвистики; в конечном итоге это заставило правительство США резко сократить финансирование этой темы.
- Теория концептуальной зависимости - модель понимания естественного языка, используемая в системах искусственного интеллекта. Роджер Шанк из Стэнфордского университета представил эту модель в 1969 году, на заре искусственного интеллекта. [9] Эту модель широко использовали студенты Шанка в Йельском университете, такие как Роберт Виленски, Венди Ленерт и Джанет Колоднер.
- Расширенная сеть переходов - тип теоретико-графовой структуры, используемый при оперативном определении формальных языков, особенно используемый при анализе относительно сложных естественных языков и имеющий широкое применение в искусственном интеллекте. Представлен Уильямом А. Вудсом в 1970 году.
- Распределенный языковой перевод (проект) –
Хронология программного обеспечения НЛП
Программное обеспечение | Год | Создатель | Описание | Ссылка |
---|---|---|---|---|
Джорджтаунский эксперимент | 1954 | Джорджтаунский университет и IBM | включал полностью автоматический перевод более шестидесяти русских предложений на английский язык. | |
СТУДЕНТ | 1964 | Дэниел Боброу | может решить школьные задачи по алгебре. [10] | |
ЭЛИЗА | 1964 | Джозеф Вайценбаум | симуляция роджерианского психотерапевта , перефразирующая ее (называемую «не оно») ответ с помощью нескольких грамматических правил. [11] | |
ШРДЛУ | 1970 | Терри Виноград | система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом, работала чрезвычайно хорошо | |
ПАРИРОВАТЬ | 1972 | Кеннет Колби | Чаттербот | |
КЛ-ОДИН | 1974 | Сондхаймер и др. | система представления знаний в традиции семантических сетей и фреймов; это язык фреймов . | |
МАРДЖИ | 1975 | Роджер Шэнк | ||
ТалеСпин (программное обеспечение) | 1976 | Михан | ||
ДЫМ | Ленерт | |||
ЖИЗНЬ/ЛЕСТНИЦА | 1978 | Хендрикс | интерфейс на естественном языке к базе данных с информацией о кораблях ВМС США. | |
СЭМ (программное обеспечение) | 1978 | Каллингфорд | ||
ПАМ (программное обеспечение) | 1978 | Роберт Виленски | ||
Политика (программное обеспечение) | 1979 | Карбонелл | ||
Единицы печати (программное обеспечение) | 1981 | Ленерт | ||
Джабберваки | 1982 | Ролло Карпентер | Чаттербот с заявленной целью «имитировать естественное человеческое общение в интересной, занимательной и юмористической манере». | |
МУМБЛ (программное обеспечение) | 1982 | Макдональдс | ||
Ратер | 1983 | Уильям Чемберлен и Томас Эттер | Чаттербот , который случайным образом генерировал англоязычную прозу. | |
МОПТРАНС | 1984 | Литинен | ||
КОДИАК (программное обеспечение) | 1986 | Виленский | ||
Абсити (программное обеспечение) | 1987 | Херст | ||
Аэротекст | 1999 | Локхид Мартин | Первоначально разработан для разведывательного сообщества США (Министерства обороны) для извлечения информации и анализа реляционных связей. | |
Ватсон | 2006 | ИБМ | Система ответов на вопросы, которая выиграла конкурс Jeopardy! соревновании, победив лучших игроков-людей в феврале 2011 года. | |
Мета | 2014 | Шон Массунг, Чейз Гейгл, Ченг{С}ян Чжай | MeTA — это современный набор инструментов C++ для обработки данных, включающий токенизацию текста, включая глубокие семантические функции, такие как деревья синтаксического анализа; инвертированные и прямые индексы со сжатием и различными стратегиями кэширования; набор функций ранжирования для поиска по индексам; тематические модели; алгоритмы классификации; графовые алгоритмы; языковые модели; реализация CRF (POS-тегирование, поверхностный парсинг); оболочки для liblinear и libsvm (включая парсеры наборов данных libsvm); Поддержка UTF8 для анализа на разных языках; многопоточные алгоритмы | |
Рука | 2016 | Майкрософт | Чаттер-бот с искусственным интеллектом, который вызвал споры в Твиттере, публикуя подстрекательские твиты, и вскоре после этого был отключен от сети. |
языка Общие концепции обработки естественного
- Алгоритм Сухотина - алгоритм статистической классификации для классификации символов в тексте как гласных или согласных. Первоначально он был создан Борисом Сухотиным.
- T9 (предиктивный текст) - расшифровывается как «Текст на 9 клавишах», представляет собой запатентованную в США технологию предиктивного ввода текста для мобильных телефонов (особенно тех, которые содержат цифровую клавиатуру 3x4), первоначально разработанную Tegic Communications, теперь являющуюся частью Nuance Communications.
- Tatoeba – бесплатная совместная онлайн-база данных примеров предложений, предназначенная для изучающих иностранный язык.
- Teragram Corporation – 100% дочерняя компания SAS Institute, крупного производителя программного обеспечения для статистического анализа, со штаб-квартирой в Кэри, Северная Каролина, США. Компания Teragram базируется в Кембридже, штат Массачусетс, и специализируется на применении компьютерной лингвистики для многоязычной обработки естественного языка.
- TipTop Technologies - компания, разработавшая TipTop Search, социальную поисковую систему, работающую в режиме реального времени, с уникальной платформой для семантического анализа естественного языка. TipTop Search предоставляет результаты, отражающие индивидуальные и групповые настроения, мнения и впечатления от контента различного рода, включая сообщения в реальном времени из Twitter или обзоры потребительских товаров на Amazon.com.
- Трансдеривационный поиск – когда поиск нечеткого совпадения проводится в широком поле. При вычислениях эквивалентную функцию можно выполнить с использованием памяти с содержательной адресацией.
- Словарное несоответствие – распространенное явление в использовании естественных языков, возникающее, когда разные люди по-разному называют один и тот же предмет или понятие.
- Карта ЖРД –
- Реификация (лингвистика) –
- Семантическая сеть –
- Разговорная диалоговая система –
- Аффиксная грамматика над конечной решеткой -
- Агрегация (лингвистика) –
- Модель «мешка слов» - модель, которая представляет текст как набор (мультимножество) его слов, не учитывающий грамматику и последовательность слов, но сохраняющий множественность. Эта модель обычно используется для обучения классификаторов документов.
- Метки Брилла –
- Модель языка кэша –
- ChaSen , MeCab — обеспечивают морфологический анализ и разделение слов на японском языке.
- Классический одноязычный WSD –
- ClearForest –
- Словарь произношения CMU , также известный как cmudict , представляет собой общедоступный словарь произношения, предназначенный для использования в речевых технологиях и созданный Университетом Карнеги-Меллона (CMU). Он определяет соответствие английских слов их североамериканскому произношению и обычно используется в приложениях обработки речи, таких как система синтеза речи Festival и система распознавания речи CMU Sphinx .
- Концепция майнинга –
- Определение содержания –
- ДАТР –
- В центре внимания DBpedia –
- Глубокая лингвистическая обработка –
- Дискурсивное отношение –
- Матрица документо-терминов –
- Драгомир Робертович Радев –
- ЭТБЛАСТ –
- Рекурсивная переходная сеть с фильтрацией -
- Робби Гарнер –
- ГенРИФ –
- Горнский адрес –
- Грамматическая индукция –
- Грамматика –
- Хэшинг-трюк –
- Скрытая марковская модель –
- Технология человеческого языка –
- Извлечение информации –
- Международная конференция по языковым ресурсам и оценке –
- Клини звезда –
- Языковая компьютерная корпорация –
- Языковая модель –
- LanguageWare –
- Скрытое семантическое картирование –
- Поиск юридической информации –
- Lesk algorithm –
- Лессак Технологии –
- Лексалитика –
- Лексический выбор –
- Структура лексической разметки –
- Лексическая замена –
- ЛКБ -
- Логическая форма –
- Карта ЖРД –
- Удобство использования программного обеспечения для машинного перевода –
- МАРШИРОВАТЬ -
- Максимальная энтропия –
- Конференция по пониманию сообщений –
- МЕТЕОР –
- Семантика минимальной рекурсии –
- Морфологическая картина –
- Объединение нескольких документов –
- Многоязычная запись –
- Наивная семантика –
- Естественный язык –
- Интерфейс на естественном языке –
- Пользовательский интерфейс на естественном языке –
- Новостная аналитика –
- Недетерминированный полином –
- Ответ на вопрос открытого домена –
- Теория оптимальности –
- Пако Натан –
- Грамматика фразовой структуры –
- Powerset (компания) –
- Производство (информатика) –
- ПропБанк –
- Ответ на вопрос –
- Реализация (лингвистика) –
- Рекурсивная переходная сеть –
- Генерация ссылающегося выражения –
- Переписать правило –
- Семантическое сжатие –
- Семантическая нейронная сеть –
- СемЭвал –
- Обозначение SPL –
- Стемминг – сводит измененное или производное слово к его основе , основе или корневой форме.
- Строковое ядро –
языка естественного Инструменты обработки
- Google Ngram Viewer — отображает графики использования n -грамм на основе более чем 5,2 миллионов книг.
Тела [ править ]
- Текстовый корпус (см. список ) – большой и структурированный набор текстов (в настоящее время обычно хранящихся и обрабатываемых в электронном виде). Они используются для статистического анализа и проверки гипотез, проверки совпадений или проверки лингвистических правил на определенной языковой территории.
языка обработки естественного инструментов для Наборы
Следующие для обработки естественного языка наборы инструментов представляют собой известные коллекции программного обеспечения для обработки естественного языка . Это наборы библиотек , фреймворков и приложений для символьной, статистической обработки естественного языка и речи.
Распознаватель именованных объектов [ править ]
- ABNER (Биомедицинский распознаватель именованных объектов) – программа интеллектуального анализа текста с открытым исходным кодом, которая использует линейно-цепочные модели условной последовательности случайных полей. Он автоматически помечает гены, белки и другие имена объектов в тексте. Написано Берром Сеттлсом из Университета Висконсин-Мэдисон.
- Стэнфордский NER (Распознаватель именованных объектов) — Java-реализация Распознаватель именованных объектов, использующая модели условной последовательности случайных полей с линейной цепочкой. Он автоматически помечает людей, организации и места в тексте на английском, немецком, китайском и испанском языках. Написано Дженни Финкель и другими членами Стэнфордской группы НЛП Стэнфордского университета.
Программное обеспечение для перевода [ править ]
- Сравнение приложений машинного перевода
- Приложения для машинного перевода
- Гугл переводчик
- ДипЛ
- Linguee – веб-сервис, предоставляющий онлайн-словарь для ряда языковых пар. В отличие от аналогичных сервисов, таких как LEO, Linguee включает в себя поисковую систему, которая обеспечивает доступ к большому количеству двуязычных переведенных пар предложений, поступающих из Всемирной паутины. Таким образом, в качестве средства перевода Linguee отличается от сервисов машинного перевода, таких как Babelfish, и по функциям больше похож на память переводов.
- UNL Универсальный сетевой язык
- Yahoo! Вавилонская рыба
- Обеспечить регресс
Другое программное обеспечение [ править ]
- CTAKES - система обработки естественного языка с открытым исходным кодом для извлечения информации из электронных медицинских записей в виде свободного текста. Он обрабатывает клинические записи, определяя типы клинических названий — лекарства, заболевания/расстройства, признаки/симптомы, анатомические участки и процедуры. Каждый именованный объект имеет атрибуты для текстового диапазона, кода отображения онтологии, контекста (семейный анамнез, текущий, не связанный с пациентом) и отрицание/не отрицание. Также известен как Apache cTAKES.
- ДМАП –
- ЭТАП-3 – собственная система лингвистической обработки, ориентированная на английский и русский языки. [12] Это система, основанная на правилах , которая использует теорию значения текста в качестве теоретической основы.
- JAPE — механизм шаблонов аннотаций Java, компонент платформы General Architecture for Text Engineering (GATE) с открытым исходным кодом. JAPE — это преобразователь конечных состояний, который работает с аннотациями на основе регулярных выражений.
- ЛОЛИТА – «Крупномасштабный объектно-ориентированный лингвистический интерактор, переводчик и анализатор». LOLITA была разработана Роберто Гарильяно и его коллегами в период с 1986 по 2000 год. Она задумывалась как инструмент общего назначения для обработки неограниченного текста, который мог бы стать основой для самых разных приложений. В его основе лежала семантическая сеть, содержащая около 90 000 взаимосвязанных понятий.
- Maluuba – интеллектуальный персональный помощник для Android-устройств, использующий контекстный подход к поиску, учитывающий географическое положение пользователя, контакты и язык.
- METAL MT — система машинного перевода, разработанная в 1980-х годах в Техасском университете и компании Siemens и работавшая на Lisp Machines.
- Бесконечное изучение языка — система семантического машинного обучения, разработанная исследовательской группой из Университета Карнеги-Меллона и поддерживаемая грантами DARPA, Google и NSF, при этом части системы работают на суперкомпьютерном кластере, предоставленном Yahoo!. [13] Разработчики NELL запрограммировали его таким образом, чтобы он мог идентифицировать базовый набор фундаментальных семантических отношений между несколькими сотнями предопределенных категорий данных, таких как города, компании, эмоции и спортивные команды. С начала 2010 года исследовательская группа Карнеги-Меллона круглосуточно управляет NELL, просматривая сотни миллионов веб-страниц в поисках связей между уже известной информацией и тем, что она находит в процессе поиска – чтобы установить новые связи в манера, призванная имитировать способ, которым люди усваивают новую информацию. [14]
- НЛТК –
- Online-translator.com –
- Regulus Grammar Compiler – программный комплекс для компиляции унификационных грамматик в грамматики для систем распознавания речи.
- S Голос –
- Сири (программное обеспечение) –
- Говори еду -
- ТеЛКАС –
- Инструменты классификации Weka –
- word2vec — модели, разработанные группой исследователей под руководством Томаса Милкова из Google для создания вложений слов, которые могут реконструировать часть лингвистического контекста слов с использованием неглубоких двумерных нейронных сетей, полученных из гораздо большего векторного пространства.
- Система синтеза фестивальной речи –
- CMU Sphinx – Система распознавания речи
- Language Grid — платформа с открытым исходным кодом для языковых веб-служб, которая может настраивать языковые службы путем объединения существующих языковых служб.
Чаттерботы [ править ]
Chatterbot — текстовый агент общения , который может взаимодействовать с пользователями через какую-либо среду, например службу мгновенных сообщений . Некоторые чат-боты созданы для конкретных целей, в то время как другие общаются с пользователями по широкому кругу тем.
Классические чат-боты [ править ]
- Доктор Сбайтсо
- ЭЛИЗА
- ПАРИРОВАТЬ
- Рэктер (или Клод Чаттербот)
- Mark V Shaney
Общие чат-боты [ править ]
- Альберт Уан 1998 и 1999 годов Лебнера - победитель от Робби Гарнера .
- АЛИСА 2001, 2002 и 2004 годов, – лауреат премии Лебнера разработанная Ричардом Уоллесом .
- Чарликс
- Cleverbot (победитель конкурса механического интеллекта 2010 г.)
- Элбот – премии Лебнера лауреат 2008 года Фреда Робертса .
- Eugene Goostman – 2012 Turing 100 winner, by Vladimir Veselov .
- Фред — ранний чат-бот Робби Гарнера .
- Джабберваки
- Джини ИИ
- МегаХАЛ
- Мицуку , Премии Лебнера 2013 и 2016 годов. лауреат [15]
- Роза - ... 2015 г. - трехкратный премии Лебнера лауреат Брюса Уилкокса .
- SimSimi — популярная программа разговоров с искусственным интеллектом, созданная в 2002 году компанией IMaker.
- Spookitalk - чат-бот, используемый для NPC в Дугласа Адамса « Звездный корабль Титаник» . видеоигре
- Ультра Хэл - лауреат премии Лебнера 2007 года , автор Роберт Медексза .
- Запретить
Чаттер-боты для обмена мгновенными сообщениями [ править ]
- GooglyMinotaur , специализирующийся на Radiohead , первом боте, выпущенном ActiveBuddy (июнь 2001 г. — март 2002 г.) [16]
- SmarterChild , разработанный ActiveBuddy и выпущенный в июне 2001 года. [17]
- Infobot , помощник на каналах IRC , таких как #perl , в первую очередь для помощи в ответах на часто задаваемые вопросы (июнь 1995 г. — сегодня) [18]
- Negobot — бот, созданный для поимки онлайн-педофилов, выдавая себя за юную девушку и пытаясь выведать личные данные у людей, с которыми он общается. [19]
языка обработке естественного по Организации
- AFNLP (Азиатская федерация ассоциаций обработки естественного языка) – организация по координации деятельности и мероприятий, связанных с обработкой естественного языка, в Азиатско-Тихоокеанском регионе.
- Австралазийская ассоциация языковых технологий –
- Ассоциация компьютерной лингвистики – международное научное и профессиональное общество людей, занимающихся проблемами обработки естественного языка.
посвященные , Конференции
- Ежегодное собрание Ассоциации компьютерной лингвистики (ACL)
- Международная конференция по интеллектуальной обработке текста и компьютерной лингвистике (CICLing)
- Международная конференция по языковым ресурсам и оценке - конференция, проводимая раз в два года, организованная Европейской ассоциацией языковых ресурсов при поддержке учреждений и организаций, занимающихся обработкой естественного языка.
- Ежегодная конференция Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL)
- Текст, речь и диалог (TSD) – ежегодная конференция
- Конференция по текстовому поиску (TREC) - постоянная серия семинаров, посвященных различным областям или направлениям исследований в области информационного поиска (IR).
естественного языка занимающиеся обработкой , Компании
- AlchemyAPI – поставщик услуг API обработки естественного языка.
- Google, Inc. – поисковая система Google является примером автоматического суммирования с использованием извлечения ключевых фраз.
- Кале (продукт Reuters) – поставщик услуг по обработке естественного языка.
- Wolfram Research, Inc. — разработчик вычислительной машины обработки естественного языка Wolfram Alpha .
языка обработке Публикации по естественного
Книги [ править ]
- Коннекционистский, статистический и символический подходы к обучению обработке естественного языка - Вермтер С., Рилофф Э. и Шелер Г. (редакторы). [20] Первая книга, посвященная статистическому и нейросетевому изучению языка.
- Обработка речи и языка: введение в обработку естественного языка, распознавание речи и компьютерную лингвистику - Дэниел Джурафски и Джеймс Х. Мартин . [21] Вводная книга по языковой технологии.
Серия книг [ править ]
- Исследования обработки естественного языка - серия книг Ассоциации компьютерной лингвистики, изданная издательством Cambridge University Press.
Журналы [ править ]
- Компьютерная лингвистика – рецензируемый академический журнал в области компьютерной лингвистики. Он публикуется ежеквартально MIT Press для Ассоциации компьютерной лингвистики (ACL).
языка влиятельные в обработке естественного , Люди
- Дэниел Боброу –
- Ролло Карпентер – создатель Jabberwacky и Cleverbot.
- Ноам Хомский – автор основополагающей работы «Синтаксические структуры» , которая произвела революцию в лингвистике благодаря « универсальной грамматике », системе синтаксических структур, основанной на правилах. [22]
- Кеннет Колби –
- Дэвид Ферруччи - главный исследователь команды, создавшей Watson , компьютер с искусственным интеллектом IBM, выигравший викторину Jeopardy!
- Лин Фрейзер –
- Дэниел Джурафски – профессор лингвистики и информатики Стэнфордского университета. Вместе с Джеймсом Х. Мартином он написал учебник « Речь и языковая обработка: введение в обработку естественного языка, распознавание речи и компьютерную лингвистику».
- Роджер Шанк – представил теорию концептуальной зависимости для понимания естественного языка. [23]
- Джин Э. Лисица –
- Алан Тьюринг – создатель теста Тьюринга .
- Джозеф Вайценбаум — автор ELIZA чат-бота .
- Терри Виноград – профессор информатики Стэнфордского университета и содиректор Стэнфордской группы взаимодействия человека и компьютера. Он известен в области философии разума и искусственного интеллекта своей работой над естественным языком с использованием программы SHRDLU.
- Уильям Аарон Вудс –
- Морис Гросс – автор концепции локальной грамматики, [24] принимая конечные автоматы в качестве компетентностной модели языка. [25]
- Стивен Вольфрам — генеральный директор и основатель Wolfram Research , создатель языка программирования (понимания естественного языка) Wolfram Language и вычислительной машины обработки естественного языка Wolfram Alpha . [26]
- Виктор Ингве –
См. также [ править ]
- Компьютерное рецензирование
- Интеллектуальный анализ данных
- Ватсон (компьютер)
- Биомедицинский анализ текста
- Сложная обработка
- Компьютерное рецензирование
- Контролируемый естественный язык
- Глубокая лингвистическая обработка
- Пособие для чтения на иностранном языке
- Помощник для письма на иностранном языке
- Языковые технологии
- Скрытое распределение Дирихле (LDA)
- Скрытая семантическая индексация
- Список проектов обработки естественного языка
- Карта ЖРД
- Программирование на естественном языке
- Реификация (лингвистика)
- Семантическая складчатость
- Разговорная диалоговая система
- Вектор мысли
- Трансдеривационный поиск
- Word2vec
Ссылки [ править ]
- ^ «... современная наука - это открытие, а также изобретение. Это было открытие, что природа в целом действует достаточно регулярно, чтобы ее можно было описать законами и даже математикой; и потребовалось изобретение, чтобы разработать методы, абстракции, аппараты и организации. за выявление закономерностей и обеспечение их законоподобных описаний». - стр.vii, Дж. Л. Хейлброн , (2003, главный редактор) Оксфордский справочник по истории современной науки Нью-Йорк: Oxford University Press ISBN 0-19-511229-6
- "наука" . Интернет-словарь Мерриам-Вебстера . Мерриам-Вебстер , Инк . Проверено 16 октября 2011 г.
3 а: знание или система знаний, охватывающая общие истины или действие общих законов, особенно полученные и проверенные с помощью научных методов ; б: такое знание или такая система знаний, касающихся физического мира и его явлений.
- "наука" . Интернет-словарь Мерриам-Вебстера . Мерриам-Вебстер , Инк . Проверено 16 октября 2011 г.
- ^ ШВЕДСКИЙ Пьер Бурк; Робер Дюпюи, ред. (2004). Руководство по своду знаний по программной инженерии — версия 2004 г. исполнительные редакторы Ален Абран, Джеймс В. Мур; редакторы Пьер Бурк, Робер Дюпюи. Компьютерное общество IEEE . п. 1. ISBN 0-7695-2330-7 .
- ^ АКМ (2006). «Компьютерные степени и карьера» . АКМ. Архивировано из оригинала 17 июня 2011 г. Проверено 23 ноября 2010 г.
- ^ Лапланте, Филипп (2007). Что должен знать каждый инженер о программной инженерии . Бока-Ратон: CRC. ISBN 978-0-8493-7228-5 . Проверено 21 января 2011 г.
- ^ Устройство ввода Компьютер Надежда
- ^ Маккуэйл, Денис. (2005). Теория массовой коммуникации Маккуэйла . 5-е изд. Лондон: Публикации SAGE.
- ^ Юконг Дуан, Кристоф Круз (2011), [http –//www.ijimt.org/abstract/100-E00187.htm Формализация семантики естественного языка посредством концептуализации из существования] . Международный журнал инноваций, менеджмента и технологий (2011) 2 (1), стр. 37–42.
- ^ «Инструментальный модуль: универсальная грамматика Хомского» . thebrain.mcgill.ca .
- ^ Роджер Шанк , 1969, Анализатор концептуальных зависимостей естественного языка. Материалы конференции 1969 года по компьютерной лингвистике, Сонг-Сэби, Швеция, страницы 1-3.
- ^ МакКордак 2004 , с. 286, Crevier 1993 , стр. 76–79, Russell & Norvig 2003 , стр. 286. 19
- ^ МакКордак 2004 , стр. 291–296, Кревье 1993 , стр. 134–139.
- ^ "МНОГОЦЕЛЕВОЙ ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР ЭТАП-3" . Iitp.ru . Retrieved 2012-02-14 .
- ^ «Стремясь учиться так же, как мы, машина учится сама» . Нью-Йорк Таймс . 4 октября 2010 г. Проверено 5 октября 2010 г.
С начала года группа исследователей из Университета Карнеги-Меллон при поддержке грантов Агентства перспективных исследовательских проектов Министерства обороны и Google, а также использования исследовательского суперкомпьютерного кластера, предоставленного Yahoo, настраивала компьютерную систему, которая пытаясь освоить семантику, обучаясь больше как человек.
- ^ Обзор проекта , Университет Карнеги-Меллон . По состоянию на 5 октября 2010 г.
- ^ «Конкурс на премию Лебнера 2013» . People.exeter.ac.uk. 14 сентября 2013 г. Проверено 2 декабря 2013 г.
- ^ Гибес, Эл (25 марта 2002 г.). «Круг друзей становится все шире». Журнал Las Vegas Review (Невада) .
- ^ «ActiveBuddy представляет программное обеспечение для создания и развертывания интерактивных агентов для обмена текстовыми сообщениями; сайт разработчика ActiveBuddy открыт: www.BuddyScript.com» . Деловой провод . 15 июля 2002 г. Проверено 16 января 2014 г.
- ^ Лензо, Кевин (лето 1998 г.). «Инфоботы и Перл» . Перл-журнал . 3 (2) . Проверено 26 июля 2010 г.
- ^ Лаорден, Чарльз; Галан-Гарсия, Пэтси; Святые, Игорь; Санс, Борха; Идальго, Хосе Мария Гомес; Брингас, Пол Г. (23 августа 2012 г.). Negobot: диалоговый агент на основе теории игр для обнаружения педофильского поведения (PDF) . ISBN 978-3-642-33018-6 . Архивировано из оригинала (PDF) 17 сентября 2013 г.
- ^ Вермтер, Стефан; Эллен Рилофф; Габриэле Шелер (1996). Коннекционистский, статистический и символический подходы к обучению обработке естественного языка . Спрингер.
- ^ Юрафски, Дэн; Джеймс Х. Мартин (2008). Речь и языковая обработка. Введение в обработку естественного языка, компьютерную лингвистику и распознавание речи (2-е изд.). Река Аппер-Седл (Нью-Джерси): Прентис-Холл. п. 2.
- ^ «SEM1A5 — Часть 1 — Краткая история НЛП» . Проверено 25 июня 2010 г.
- ^ Роджер Шанк , 1969, Анализатор концептуальных зависимостей естественного языка. Материалы конференции 1969 года по компьютерной лингвистике, Сонг-Сэби, Швеция, страницы 1-3.
- ^ Ибрагим, Амр Хелми. 2002. «Морис Гросс (1934-2001). Памяти Мориса Гросса». Гермес 34.
- ^ Догерти, Рэй. 2001. Мемориальное письмо Мориса Гросса .
- ^ «Программирование на естественном языке действительно будет работать — блог Wolfram» . 16 ноября 2010 г.
Библиография [ править ]
- Кревье, Дэниел (1993). ИИ: бурные поиски искусственного интеллекта . Нью-Йорк, штат Нью-Йорк: BasicBooks. ISBN 0-465-02997-3 .
- МакКордак, Памела (2004), Машины, которые думают (2-е изд.), Натик, Массачусетс: AK Peters, Ltd., ISBN 978-1-56881-205-2 , OCLC 52197627 .
- Рассел, Стюарт Дж .; Норвиг, Питер (2003), Искусственный интеллект: современный подход (2-е изд.), Аппер-Сэдл-Ривер, Нью-Джерси: Прентис-Холл, ISBN 0-13-790395-2 .