Jump to content

Схема обработки естественного языка

Следующий план представляет собой обзор и актуальное руководство по обработке естественного языка:

обработка естественного языка – компьютерная деятельность, в которой компьютеры должны анализировать, понимать , изменять или генерировать естественный язык . Сюда входит автоматизация любых или всех языковых форм, действий или методов общения, таких как беседа , переписка, чтение , письменное сочинение , диктовка , публикация , перевод , чтение по губам и так далее. Обработка естественного языка — это также название отрасли информатики , искусственного интеллекта и лингвистики, занимающейся предоставлением компьютерам возможности взаимодействовать с использованием естественного языка (языков) во всех формах, включая, помимо прочего, речь , печать , письмо и подписание .

Обработка естественного языка [ править ]

Обработку естественного языка можно описать как все следующее:

  • Область науки – систематическое предприятие, которое создает и систематизирует знания в форме проверяемых объяснений и предсказаний о Вселенной. [1]
    • Прикладная наука – область, в которой человеческие знания применяются для создания или проектирования полезных вещей.
      • Область информатики – научный и практический подход к вычислениям и их приложениям.
        • Раздел искусственного интеллекта – интеллект машин и роботов и раздел информатики, целью которого является его создание.
        • Подраздел компьютерной лингвистики - междисциплинарная область, занимающаяся статистическим или основанным на правилах моделированием естественного языка с вычислительной точки зрения.
    • Применение инженерии - наука, навыки и профессия, направленные на приобретение и применение научных, экономических, социальных и практических знаний для проектирования, а также создания конструкций, машин, устройств, систем, материалов и процессов.
      • Применение разработки программного обеспечения - применение систематического, дисциплинированного, поддающегося количественной оценке подхода к проектированию, разработке, эксплуатации и обслуживанию программного обеспечения, а также изучение этих подходов; то есть применение инженерных разработок к программному обеспечению. [2] [3] [4]
        • Подобласть компьютерного программирования – процесс проектирования, написания, тестирования, отладки и поддержки исходного кода компьютерных программ. Этот исходный код написан на одном или нескольких языках программирования (например, Java, C++, C#, Python и т. д.). Цель программирования — создать набор инструкций, которые компьютеры используют для выполнения определенных операций или демонстрации желаемого поведения.
  • Тип системы – совокупность взаимодействующих или взаимозависимых компонентов, образующих единое целое или совокупность элементов (часто называемых «компонентами») и отношений, отличных от связей совокупности или ее элементов с другими элементами или множествами.
    • Система, включающая программное обеспечение . Программное обеспечение представляет собой набор компьютерных программ и связанных с ними данных, которые предоставляют инструкции, сообщающие компьютеру, что и как делать. Программное обеспечение относится к одной или нескольким компьютерным программам и данным, хранящимся в памяти компьютера. Другими словами, программное обеспечение — это набор программ, процедур, алгоритмов и документации к ним, связанных с работой системы обработки данных.
  • Тип технологии – создание, модификация, использование и знание инструментов, машин, техник, ремесел, систем, методов организации для решения проблемы, улучшения уже существующего решения проблемы, достижения цели, решения прикладной задачи. отношение ввода/вывода или выполнение определенной функции. Это также может относиться к набору таких инструментов, механизмов, модификаций, механизмов и процедур. Технологии существенно влияют на способность человека и других видов животных контролировать и адаптироваться к окружающей среде.
    • Вид компьютерной техники – компьютеры и их применение. НЛП использует компьютеры, сканеры изображений, микрофоны и многие типы программ.
      • Языковые технологии – состоят из обработки естественного языка (НЛП) и компьютерной лингвистики (КЛ), с одной стороны, и речевых технологий, с другой. Он также включает в себя множество прикладных аспектов. Ее часто называют технологией человеческого языка (HLT).

Необходимые технологии [ править ]

Следующие технологии делают возможной обработку естественного языка:

языка обработки Подполя естественного

Связанные поля [ изменить ]

Обработка естественного языка способствует и использует (теории, инструменты и методологии) в следующих областях:

  • Автоматизированное рассуждение - область информатики и математической логики, посвященная пониманию различных аспектов рассуждения и созданию программного обеспечения, которое позволяет компьютерам рассуждать полностью или почти полностью автоматически. Подобласть искусственного интеллекта, автоматическое мышление, также основана на теоретической информатике и философии разума.
  • Лингвистика – научное исследование человеческого языка. Обработка естественного языка требует понимания структуры и применения языка и поэтому во многом опирается на лингвистику.
    • Прикладная лингвистика - междисциплинарная область исследований, которая выявляет, исследует и предлагает решения реальных проблем, связанных с языком. Некоторыми академическими областями, связанными с прикладной лингвистикой, являются образование, лингвистика, психология, информатика, антропология и социология. Некоторые из подобластей прикладной лингвистики, имеющих отношение к обработке естественного языка:
      • Двуязычие / Многоязычие
      • Компьютерно-опосредованное общение (CMC) – любая коммуникативная транзакция, происходящая посредством использования двух или более сетевых компьютеров. [6] Исследования CMC в основном сосредоточены на социальных последствиях различных компьютерных коммуникационных технологий. в Интернете, Многие недавние исследования связаны с социальными сетями поддерживаемыми социальным программным обеспечением .
      • Контрастивная лингвистика – практико-ориентированный лингвистический подход, целью которого является описание различий и сходств между парой языков.
      • Разговорный анализ (КА) – подход к изучению социального взаимодействия, охватывающий как вербальное, так и невербальное поведение, в ситуациях повседневной жизни. Очередность — это один из аспектов использования языка, который изучает CA.
      • Дискурс-анализ - различные подходы к анализу письменного, устного или жестового использования языка или любого значимого семиотического события.
      • Судебная лингвистика - применение лингвистических знаний, методов и знаний в судебно-медицинском контексте права, языка, расследования преступлений, судебного разбирательства и судебной процедуры.
      • Интерлингвистика – исследование улучшения общения между людьми, говорящими на разных первых языках, с использованием этнических и вспомогательных языков (лингва франка). Например, путем использования преднамеренных международных вспомогательных языков, таких как эсперанто или интерлингва, или спонтанных межъязыков, известных как языки пиджин.
      • Языковая оценка – оценка первого, второго или другого языка в школе, колледже или университете; оценка использования языка на рабочем месте; и оценка языка в контексте иммиграции, гражданства и предоставления убежища. Оценка может включать в себя анализ аудирования, говорения, чтения, письма или культурного понимания в отношении понимания того, как язык работает теоретически, и способности использовать язык на практике.
      • Языковая педагогика – наука и искусство языкового образования, включая подходы и методы преподавания и изучения языка. Обработка естественного языка используется в программах, предназначенных для обучения языку, включая обучение первому и второму языку.
      • Языковое планирование
      • Языковая политика
      • Лексикография
      • Грамотность
      • Прагматика
      • Овладение вторым языком
      • Стилистика
      • Перевод
    • Компьютерная лингвистика - междисциплинарная область, занимающаяся статистическим или основанным на правилах моделированием естественного языка с вычислительной точки зрения. Модели и инструменты компьютерной лингвистики широко используются в области обработки естественного языка и наоборот.
      • Вычислительная семантика
      • Корпусная лингвистика - изучение языка, выраженного в образцах (корпусах) текста «реального мира». Корпус — это множественное число от слова «корпус» , а корпус — это специально отобранный набор текстов (или речевых сегментов), составленных из естественного языка. После того как корпус построен (собран или составлен), он анализируется с помощью методов компьютерной лингвистики, чтобы сделать вывод о значении и контексте его компонентов (слов, фраз и предложений), а также об отношениях между ними. При желании корпус можно аннотировать («пометить») данными (вручную или автоматически), чтобы облегчить понимание корпуса (например, разметка частей речи ). Эти данные затем применяются для осмысления вводимых пользователем данных, например, для более точного (автоматического) угадывания того, о чем люди говорят или говорят, возможно, для достижения более узконаправленного веб-поиска или для распознавания речи.
    • Металингвистика
    • Жестовая лингвистика - научное изучение и анализ естественных жестовых языков, их особенностей, структуры (фонологии, морфологии, синтаксиса и семантики), их освоения (в качестве первичного или вторичного языка), того, как они развиваются независимо от других языков, их применения в общение, их отношения к другим языкам (включая разговорные языки) и многие другие аспекты.
  • Взаимодействие человека и компьютера – пересечение информатики и поведенческих наук. Эта область включает изучение, планирование и проектирование взаимодействия между людьми (пользователями) и компьютерами. Внимание к взаимодействию человека и машины важно, поскольку плохо спроектированные человеко-машинные интерфейсы могут привести к множеству неожиданных проблем. Классическим примером этого является авария на острове Три-Майл-Айленд , где расследование пришло к выводу, что конструкция человеко-машинного интерфейса, по крайней мере, частично ответственна за катастрофу.
  • Информационный поиск (ИР) – область, связанная с хранением, поиском и извлечением информации. Это отдельная область информатики (ближе к базам данных), но IR опирается на некоторые методы НЛП (например, стемминг). Некоторые текущие исследования и приложения направлены на преодоление разрыва между МО и НЛП.
  • Представление знаний (KR) - область исследований искусственного интеллекта, направленная на представление знаний в символах для облегчения вывода из этих элементов знаний, создания новых элементов знаний. Исследование представления знаний включает в себя анализ того, как точно и эффективно рассуждать и как лучше всего использовать набор символов для представления набора фактов в области знаний.
  • Машинное обучение - раздел информатики, изучающий распознавание образов и теорию вычислительного обучения в области искусственного интеллекта. Существует три широких подхода к машинному обучению. Обучение под наблюдением происходит, когда учитель дает машине примеры входных и выходных данных, чтобы она могла выучить правило, которое сопоставляет входные данные с выходными данными. Обучение без учителя происходит, когда машина определяет структуру входных данных без предоставления примеров входных или выходных данных. Обучение с подкреплением происходит, когда машина должна выполнить задачу без обратной связи с учителем.

языка используемые при обработке естественного , Структуры

  • Анафора – тип выражения, ссылка на которое зависит от другого ссылочного элемента. Например, в предложении «Салли предпочитала компанию самой себе» слово «сама» является анафорическим выражением, поскольку оно корреферентно с «Салли», субъектом предложения.
  • Контекстно-свободный язык
  • Контролируемый естественный язык – естественный язык, в грамматику и словарный запас которого вводятся ограничения с целью устранения двусмысленности и сложности.
  • Корпус — совокупность данных, дополнительно помеченная тегами (например, с помощью тегов частей речи ), предоставляющая образцы из реального мира для анализа и сравнения.
    • Текстовый корпус – большой и структурированный набор текстов, в настоящее время обычно хранящихся и обрабатываемых в электронном виде. Они используются для статистического анализа и проверки гипотез, проверки совпадений или проверки лингвистических правил в рамках конкретного предмета (или области ).
    • Речевой корпус – база данных речевых аудиофайлов и текстовых транскрипций. В технологии «Речь» речевые корпуса используются, среди прочего, для создания акустических моделей (которые затем можно использовать с механизмом распознавания речи). В лингвистике разговорные корпуса используются для исследований в области фонетики, анализа разговоров, диалектологии и других областей.
  • Грамматика
  • Естественный язык
  • n -грамма – последовательность из n токенов, где «токен» — это символ, слог или слово. N . заменяется числом Следовательно, 5-грамма — это n -грамма из 5 букв, слогов или слов. «Съешь это» — это 2-грамма (также известная как биграмма).
    • Биграмма n -грамма из 2 токенов. Каждая последовательность двух соседних элементов в строке токенов является биграммой. Биграммы используются для распознавания речи, их можно использовать для решения криптограмм, а частота биграмм является одним из подходов к статистической идентификации языка.
    • Триграмма – частный случай n- граммы, где n равно 3.
  • Онтология – формальное представление набора концепций внутри предметной области и отношений между этими концепциями.
    • Таксономия - практика и наука классификации, включая принципы, лежащие в основе классификации, и методы классификации вещей или концепций.
      • Гипонимия и гиперонимия – лингвистика гипонимов и гиперонимов. Гипоним разделяет тип отношений со своим гиперонимом. Например, голубь, ворона, орел и чайка — все это гипонимы птицы (их гипероним); что, в свою очередь, является гипонимом животного.
      • Таксономия для поисковых систем - обычно называется «таксономией объектов». Это дерево , в котором узлы помечены сущностями, которые, как ожидается, встречаются в поисковом веб-запросе. Эти деревья используются для сопоставления ключевых слов из поискового запроса с ключевыми словами из релевантных ответов (или фрагментов).
  • Текстовое следствие – направленная связь между текстовыми фрагментами. Отношение сохраняется всякий раз, когда истинность одного фрагмента текста следует из другого текста. В рамках TE влекущий и влекущий за собой тексты называются текстом (t) и гипотезой (h) соответственно. Отношение является направленным, потому что даже если «t влечет за собой h», обратное «h влечет за собой t» гораздо менее достоверно.
  • Трифон – последовательность трех фонем. Трифоны полезны в моделях обработки естественного языка, где они используются для установления различных контекстов, в которых фонема может встречаться в определенном естественном языке.

Процессы НЛП [ править ]

Приложения [ править ]

  • Автоматизированная оценка эссе (AES) – использование специализированных компьютерных программ для выставления оценок эссе, написанным в образовательных целях. Это метод оценки образования и применение обработки естественного языка. Его цель — классифицировать большой набор текстовых объектов на небольшое количество дискретных категорий, соответствующих возможным классам, например числам от 1 до 6. Следовательно, это можно рассматривать как задачу статистической классификации.
  • Автоматическое аннотирование изображения – процесс, при котором компьютерная система автоматически присваивает цифровому изображению текстовые метаданные в виде подписей или ключевых слов. Аннотации используются в системах поиска изображений для организации и поиска интересующих изображений в базе данных.
  • Автоматическое реферирование – процесс сокращения текстового документа с помощью компьютерной программы с целью создания реферата, сохраняющего наиболее важные моменты исходного документа. Часто используется для краткого изложения текста известного типа, например статей в финансовом разделе газеты.
    • Типы
    • Методы и техники
      • Обобщение на основе извлечения –
      • Обобщение на основе абстракции –
      • Суммирование на основе максимальной энтропии –
      • Извлечение предложения
      • Помощь в подведении итогов –
        • Обобщение с помощью человека и машины (HAMS) –
        • Машинное обобщение данных человеком (MAHS) –
  • Автоматическая индукция таксономии - автоматическое построение древовидных структур из корпуса. Это может быть применено для создания систем таксономической классификации для чтения конечными пользователями, таких как веб-каталоги или тематические обзоры.
  • Разрешение кореферентности — чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимения и другие референтные выражения должны быть связаны с нужными людьми или объектами. Для предложения или более крупного фрагмента текста разрешение кореференции определяет, какие слова («упоминания») относятся к каким объектам («сущностям»), включенным в текст.
    • Разрешение анафоры - связано с сопоставлением местоимений с существительными или именами, к которым они относятся. Например, в таком предложении, как «Он вошел в дом Джона через парадную дверь», «парадная дверь» является референтным выражением, а связующим отношением, которое необходимо выявить, является тот факт, что дверь, о которой идет речь, является входной дверью дома Джона. дом (а не какое-то другое строение, о котором также можно было бы упомянуть).
  • Диалоговая система
  • Средство чтения на иностранном языке - компьютерная программа, которая помогает пользователю, не являющемуся родным языком, правильно читать на целевом языке. Правильное чтение означает, что произношение должно быть правильным, а ударение в разных частях слова должно быть правильным.
  • Средство письма на иностранном языке — компьютерная программа или любой другой инструмент, который помогает пользователю, не являющемуся родным языком (также называемому изучающим иностранный язык), прилично писать на целевом языке. Вспомогательные операции можно разделить на две категории: подсказки «на лету» и проверки после написания.
  • Проверка грамматики — действие по проверке грамматической правильности написанного текста, особенно если это действие выполняется компьютерной программой .
  • Поиск информации
  • Машинный перевод (MT) – предназначен для автоматического перевода текста с одного человеческого языка на другой. Это одна из самых сложных проблем, и она принадлежит к классу проблем, в просторечии называемых « ИИ-полными », т.е. требующих всех различных типов знаний, которыми обладают люди (грамматика, семантика, факты о реальном мире и т. д.). .), чтобы правильно решить.
  • Программирование на естественном языке – интерпретация и компиляция инструкций, передаваемых на естественном языке, в компьютерные инструкции (машинный код).
  • Поиск на естественном языке
  • Оптическое распознавание символов (OCR) – по изображению, представляющему собой печатный текст, определить соответствующий текст.
  • Ответ на вопрос – задан вопрос на человеческом языке, определить на него ответ. Типичные вопросы имеют конкретный правильный ответ (например, «Какая столица Канады?»), но иногда рассматриваются и открытые вопросы (например, «В чем смысл жизни?»).
  • Фильтрация спама
  • Анализ настроений - извлекает субъективную информацию, обычно из набора документов, часто используя онлайн-обзоры для определения «полярности» в отношении конкретных объектов. Это особенно полезно для выявления тенденций общественного мнения в социальных сетях в целях маркетинга.
  • Распознавание речи – по звуковому фрагменту говорящего человека или людей определите текстовое представление речи. Это противоположность преобразования текста в речь и является одной из чрезвычайно сложных проблем, в просторечии называемых « ИИ-полным » (см. выше). В естественной речи пауз между последовательными словами практически нет, поэтому сегментация речи является необходимой подзадачой распознавания речи (см. ниже). В большинстве разговорных языков звуки, представляющие последовательные буквы, сливаются друг с другом в процессе, называемом коартикуляцией , поэтому преобразование аналогового сигнала в дискретные символы может быть очень трудным процессом.
  • Синтез речи (Text-to-speech) –
  • Проверка текста
  • Упрощение текста — автоматическое редактирование документа с целью включения меньшего количества слов или использования более простых слов, сохраняя при этом его основной смысл и информацию.

Компонентные процессы [ править ]

  • Понимание естественного языка — преобразует фрагменты текста в более формальные представления, такие как логические структуры первого порядка , которыми компьютерным программам легче манипулировать. Понимание естественного языка включает идентификацию предполагаемой семантики из множества возможных семантик, которые могут быть получены из выражения естественного языка, которое обычно принимает форму организованных обозначений понятий естественного языка. Внедрение и создание языковой метамодели и онтологии являются эффективными, однако эмпирическими решениями. явная формализация семантики естественных языков без путаницы с неявными предположениями, такими как предположение о закрытом мире (CWA) против предположения об открытом мире Для построения основы семантики ожидается или субъективное Да/Нет против объективного Истина/Ложь. формализация. [7]
  • Генерация естественного языка – задача преобразования информации из компьютерных баз данных в читаемый человеческий язык.

естественного процессы понимания Компонентные языка

процессы генерации Компонентные языка естественного

Генерация естественного языка – задача преобразования информации из компьютерных баз данных в читаемый человеческий язык.

  • Автоматическая индукция таксономии (ATI) – автоматическое построение древовидных структур из корпуса. Хотя ATI используется для построения ядра онтологий (и это делает его компонентом процесса понимания естественного языка), когда конструируемые онтологии доступны для чтения конечному пользователю (например, краткое описание предмета), и они используются для построения дальнейшей документации (например, использования плана в качестве основы для построения отчета или трактата) это также становится компонентом процесса создания естественного языка.
  • Структурирование документа

языка естественного История обработки

История обработки естественного языка

  • История машинного перевода
  • История автоматизированной оценки эссе
  • История пользовательского интерфейса на естественном языке
  • История понимания естественного языка
  • История оптического распознавания символов
  • История ответов на вопросы
  • История синтеза речи
  • Тест Тьюринга - тест способности машины проявлять разумное поведение, эквивалентное поведению реального человека или неотличимое от него. В исходном иллюстративном примере человек-судья разговаривает на естественном языке с человеком и машиной, предназначенной для достижения результатов, неотличимых от действий человека. Все участники отделены друг от друга. Если судья не может достоверно отличить машину от человека, говорят, что машина прошла испытание. Тест был представлен Аланом Тьюрингом в его статье «Вычислительная техника и интеллект» 1950 года, которая начинается словами: «Я предлагаю рассмотреть вопрос: «Могут ли машины думать?»».
  • Универсальная грамматика – теория в лингвистике , обычно приписываемая Ноаму Хомскому , предполагающая, что способность изучать грамматику жестко запрограммирована в мозге. [8] Теория предполагает, что лингвистические способности проявляются без обучения ( см. бедность стимула ) и что существуют свойства, общие для всех естественных человеческих языков . Это вопрос наблюдения и экспериментирования, чтобы точно определить, какие способности являются врожденными и какие свойства являются общими для всех языков.
  • ALPAC – комитет из семи ученых под руководством Джона Р. Пирса, созданный в 1964 году правительством США с целью оценки прогресса в компьютерной лингвистике в целом и машинном переводе в частности. Его отчет, выпущенный в 1966 году, получил известность из-за очень скептического отношения к исследованиям, проведенным до сих пор в области машинного перевода, и подчеркивания необходимости фундаментальных исследований в области компьютерной лингвистики; в конечном итоге это заставило правительство США резко сократить финансирование этой темы.
  • Теория концептуальной зависимости - модель понимания естественного языка, используемая в системах искусственного интеллекта. Роджер Шанк из Стэнфордского университета представил эту модель в 1969 году, на заре искусственного интеллекта. [9] Эту модель широко использовали студенты Шанка в Йельском университете, такие как Роберт Виленски, Венди Ленерт и Джанет Колоднер.
  • Расширенная сеть переходов - тип теоретико-графовой структуры, используемый при оперативном определении формальных языков, особенно используемый при анализе относительно сложных естественных языков и имеющий широкое применение в искусственном интеллекте. Представлен Уильямом А. Вудсом в 1970 году.
  • Распределенный языковой перевод (проект) –

Хронология программного обеспечения НЛП

Программное обеспечение Год  Создатель Описание Ссылка
Джорджтаунский эксперимент 1954 Джорджтаунский университет и IBM включал полностью автоматический перевод более шестидесяти русских предложений на английский язык.
СТУДЕНТ 1964 Дэниел Боброу может решить школьные задачи по алгебре. [10]
ЭЛИЗА 1964 Джозеф Вайценбаум симуляция роджерианского психотерапевта , перефразирующая ее (называемую «не оно») ответ с помощью нескольких грамматических правил. [11]
ШРДЛУ 1970 Терри Виноград система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом, работала чрезвычайно хорошо
ПАРИРОВАТЬ 1972 Кеннет Колби Чаттербот
КЛ-ОДИН 1974 Сондхаймер и др. система представления знаний в традиции семантических сетей и фреймов; это язык фреймов .
МАРДЖИ 1975 Роджер Шэнк
ТалеСпин (программное обеспечение) 1976 Михан
ДЫМ Ленерт
ЖИЗНЬ/ЛЕСТНИЦА 1978 Хендрикс интерфейс на естественном языке к базе данных с информацией о кораблях ВМС США.
СЭМ (программное обеспечение) 1978 Каллингфорд
ПАМ (программное обеспечение) 1978 Роберт Виленски
Политика (программное обеспечение) 1979 Карбонелл
Единицы печати (программное обеспечение) 1981 Ленерт
Джабберваки 1982 Ролло Карпентер Чаттербот с заявленной целью «имитировать естественное человеческое общение в интересной, занимательной и юмористической манере».
МУМБЛ (программное обеспечение) 1982 Макдональдс
Ратер 1983 Уильям Чемберлен и Томас Эттер Чаттербот , который случайным образом генерировал англоязычную прозу.
МОПТРАНС 1984 Литинен
КОДИАК (программное обеспечение) 1986 Виленский
Абсити (программное обеспечение) 1987 Херст
Аэротекст 1999 Локхид Мартин Первоначально разработан для разведывательного сообщества США (Министерства обороны) для извлечения информации и анализа реляционных связей.
Ватсон 2006 ИБМ Система ответов на вопросы, которая выиграла конкурс Jeopardy! соревновании, победив лучших игроков-людей в феврале 2011 года.
Мета 2014 Шон Массунг, Чейз Гейгл, Ченг{С}ян Чжай MeTA — это современный набор инструментов C++ для обработки данных, включающий токенизацию текста, включая глубокие семантические функции, такие как деревья синтаксического анализа; инвертированные и прямые индексы со сжатием и различными стратегиями кэширования; набор функций ранжирования для поиска по индексам; тематические модели; алгоритмы классификации; графовые алгоритмы; языковые модели; реализация CRF (POS-тегирование, поверхностный парсинг); оболочки для liblinear и libsvm (включая парсеры наборов данных libsvm); Поддержка UTF8 для анализа на разных языках; многопоточные алгоритмы
Рука 2016 Майкрософт Чаттер-бот с искусственным интеллектом, который вызвал споры в Твиттере, публикуя подстрекательские твиты, и вскоре после этого был отключен от сети.

языка Общие концепции обработки естественного

языка естественного Инструменты обработки

  • Google Ngram Viewer — отображает графики использования n -грамм на основе более чем 5,2 миллионов книг.

Тела [ править ]

языка обработки естественного инструментов для Наборы

Следующие для обработки естественного языка наборы инструментов представляют собой известные коллекции программного обеспечения для обработки естественного языка . Это наборы библиотек , фреймворков и приложений для символьной, статистической обработки естественного языка и речи.

Имя Язык Лицензия Создатели
Апертиум С++ , Ява лицензия GPL (различный)
ЧатСкрипт С++ лицензия GPL Брюс Уилкокс
Глубокое обучение4j Ява , Скала Апач 2.0 Адам Гибсон, Skymind
ДЕЛЬФ-ИН ЛИСП , С++ LGPL , Массачусетский технологический институт , ... Глубокая лингвистическая обработка с HPSG инициативой
Я делаю различие С++ Коммерческий Ультралингва Инк.
ДКПро Ядро Ява Apache 2.0 / варьируется для отдельных модулей Технический университет Дармштадта / Интернет-сообщество
Общая архитектура текстовой инженерии (GATE) Ява LGPL Сообщество открытого исходного кода GATE
Генерал Питон LGPL Радим Регурек
LinguaStream Ява Бесплатно для исследования Канский университет , Франция
Маллет Ява Общая общественная лицензия Массачусетский университет в Амхерсте
Модульная платформа распознавания звука Ява БСД Группа исследований и разработок MARF, Университет Конкордия
МонтиЛингва Питон , Ява Бесплатно для исследования С
Набор инструментов для естественного языка (NLTK) Питон Апач 2.0
Апач OpenNLP Ява Лицензия Апач 2.0 Интернет-сообщество
простор Питон , Китон С Мэтью Хоннибал, Explosion AI
ПЛАВАНИЕ Ява / С++ Апач 2.0 Апач

Распознаватель именованных объектов [ править ]

  • ABNER (Биомедицинский распознаватель именованных объектов) – программа интеллектуального анализа текста с открытым исходным кодом, которая использует линейно-цепочные модели условной последовательности случайных полей. Он автоматически помечает гены, белки и другие имена объектов в тексте. Написано Берром Сеттлсом из Университета Висконсин-Мэдисон.
  • Стэнфордский NER (Распознаватель именованных объектов) — Java-реализация Распознаватель именованных объектов, использующая модели условной последовательности случайных полей с линейной цепочкой. Он автоматически помечает людей, организации и места в тексте на английском, немецком, китайском и испанском языках. Написано Дженни Финкель и другими членами Стэнфордской группы НЛП Стэнфордского университета.

Программное обеспечение для перевода [ править ]

  • Сравнение приложений машинного перевода
  • Приложения для машинного перевода
    • Гугл переводчик
    • ДипЛ
    • Linguee – веб-сервис, предоставляющий онлайн-словарь для ряда языковых пар. В отличие от аналогичных сервисов, таких как LEO, Linguee включает в себя поисковую систему, которая обеспечивает доступ к большому количеству двуязычных переведенных пар предложений, поступающих из Всемирной паутины. Таким образом, в качестве средства перевода Linguee отличается от сервисов машинного перевода, таких как Babelfish, и по функциям больше похож на память переводов.
    • UNL Универсальный сетевой язык
    • Yahoo! Вавилонская рыба
    • Обеспечить регресс

Другое программное обеспечение [ править ]

  • CTAKES - система обработки естественного языка с открытым исходным кодом для извлечения информации из электронных медицинских записей в виде свободного текста. Он обрабатывает клинические записи, определяя типы клинических названий — лекарства, заболевания/расстройства, признаки/симптомы, анатомические участки и процедуры. Каждый именованный объект имеет атрибуты для текстового диапазона, кода отображения онтологии, контекста (семейный анамнез, текущий, не связанный с пациентом) и отрицание/не отрицание. Также известен как Apache cTAKES.
  • ДМАП
  • ЭТАП-3 – собственная система лингвистической обработки, ориентированная на английский и русский языки. [12] Это система, основанная на правилах , которая использует теорию значения текста в качестве теоретической основы.
  • JAPE — механизм шаблонов аннотаций Java, компонент платформы General Architecture for Text Engineering (GATE) с открытым исходным кодом. JAPE — это преобразователь конечных состояний, который работает с аннотациями на основе регулярных выражений.
  • ЛОЛИТА – «Крупномасштабный объектно-ориентированный лингвистический интерактор, переводчик и анализатор». LOLITA была разработана Роберто Гарильяно и его коллегами в период с 1986 по 2000 год. Она задумывалась как инструмент общего назначения для обработки неограниченного текста, который мог бы стать основой для самых разных приложений. В его основе лежала семантическая сеть, содержащая около 90 000 взаимосвязанных понятий.
  • Maluuba – интеллектуальный персональный помощник для Android-устройств, использующий контекстный подход к поиску, учитывающий географическое положение пользователя, контакты и язык.
  • METAL MT — система машинного перевода, разработанная в 1980-х годах в Техасском университете и компании Siemens и работавшая на Lisp Machines.
  • Бесконечное изучение языка — система семантического машинного обучения, разработанная исследовательской группой из Университета Карнеги-Меллона и поддерживаемая грантами DARPA, Google и NSF, при этом части системы работают на суперкомпьютерном кластере, предоставленном Yahoo!. [13] Разработчики NELL запрограммировали его таким образом, чтобы он мог идентифицировать базовый набор фундаментальных семантических отношений между несколькими сотнями предопределенных категорий данных, таких как города, компании, эмоции и спортивные команды. С начала 2010 года исследовательская группа Карнеги-Меллона круглосуточно управляет NELL, просматривая сотни миллионов веб-страниц в поисках связей между уже известной информацией и тем, что она находит в процессе поиска – чтобы установить новые связи в манера, призванная имитировать способ, которым люди усваивают новую информацию. [14]
  • НЛТК
  • Online-translator.com
  • Regulus Grammar Compiler – программный комплекс для компиляции унификационных грамматик в грамматики для систем распознавания речи.
  • S Голос
  • Сири (программное обеспечение)
  • Говори еду -
  • ТеЛКАС
  • Инструменты классификации Weka
  • word2vec — модели, разработанные группой исследователей под руководством Томаса Милкова из Google для создания вложений слов, которые могут реконструировать часть лингвистического контекста слов с использованием неглубоких двумерных нейронных сетей, полученных из гораздо большего векторного пространства.
  • Система синтеза фестивальной речи
  • CMU Sphinx – Система распознавания речи
  • Language Grid — платформа с открытым исходным кодом для языковых веб-служб, которая может настраивать языковые службы путем объединения существующих языковых служб.

Чаттерботы [ править ]

Chatterbot — текстовый агент общения , который может взаимодействовать с пользователями через какую-либо среду, например службу мгновенных сообщений . Некоторые чат-боты созданы для конкретных целей, в то время как другие общаются с пользователями по широкому кругу тем.

Классические чат-боты [ править ]

Общие чат-боты [ править ]

Чаттер-боты для обмена мгновенными сообщениями [ править ]

языка обработке естественного по Организации

обработке естественного языка посвященные , Конференции

естественного языка занимающиеся обработкой , Компании

  • AlchemyAPI – поставщик услуг API обработки естественного языка.
  • Google, Inc. – поисковая система Google является примером автоматического суммирования с использованием извлечения ключевых фраз.
  • Кале (продукт Reuters) – поставщик услуг по обработке естественного языка.
  • Wolfram Research, Inc. — разработчик вычислительной машины обработки естественного языка Wolfram Alpha .

языка обработке Публикации по естественного

Книги [ править ]

Серия книг [ править ]

Журналы [ править ]

  • Компьютерная лингвистика – рецензируемый академический журнал в области компьютерной лингвистики. Он публикуется ежеквартально MIT Press для Ассоциации компьютерной лингвистики (ACL).

языка влиятельные в обработке естественного , Люди

См. также [ править ]

Ссылки [ править ]

  1. ^ «... современная наука - это открытие, а также изобретение. Это было открытие, что природа в целом действует достаточно регулярно, чтобы ее можно было описать законами и даже математикой; и потребовалось изобретение, чтобы разработать методы, абстракции, аппараты и организации. за выявление закономерностей и обеспечение их законоподобных описаний». - стр.vii, Дж. Л. Хейлброн , (2003, главный редактор) Оксфордский справочник по истории современной науки Нью-Йорк: Oxford University Press ISBN   0-19-511229-6
    • "наука" . Интернет-словарь Мерриам-Вебстера . Мерриам-Вебстер , Инк . Проверено 16 октября 2011 г. 3 а: знание или система знаний, охватывающая общие истины или действие общих законов, особенно полученные и проверенные с помощью научных методов ; б: такое знание или такая система знаний, касающихся физического мира и его явлений.
  2. ^ ШВЕДСКИЙ Пьер Бурк; Робер Дюпюи, ред. (2004). Руководство по своду знаний по программной инженерии — версия 2004 г. исполнительные редакторы Ален Абран, Джеймс В. Мур; редакторы Пьер Бурк, Робер Дюпюи. Компьютерное общество IEEE . п. 1. ISBN  0-7695-2330-7 .
  3. ^ АКМ (2006). «Компьютерные степени и карьера» . АКМ. Архивировано из оригинала 17 июня 2011 г. Проверено 23 ноября 2010 г.
  4. ^ Лапланте, Филипп (2007). Что должен знать каждый инженер о программной инженерии . Бока-Ратон: CRC. ISBN  978-0-8493-7228-5 . Проверено 21 января 2011 г.
  5. ^ Устройство ввода Компьютер Надежда
  6. ^ Маккуэйл, Денис. (2005). Теория массовой коммуникации Маккуэйла . 5-е изд. Лондон: Публикации SAGE.
  7. ^ Юконг Дуан, Кристоф Круз (2011), [http –//www.ijimt.org/abstract/100-E00187.htm Формализация семантики естественного языка посредством концептуализации из существования] . Международный журнал инноваций, менеджмента и технологий (2011) 2 (1), стр. 37–42.
  8. ^ «Инструментальный модуль: универсальная грамматика Хомского» . thebrain.mcgill.ca .
  9. ^ Роджер Шанк , 1969, Анализатор концептуальных зависимостей естественного языка. Материалы конференции 1969 года по компьютерной лингвистике, Сонг-Сэби, Швеция, страницы 1-3.
  10. ^ МакКордак 2004 , с. 286, Crevier 1993 , стр. 76–79, Russell & Norvig 2003 , стр. 286. 19
  11. ^ МакКордак 2004 , стр. 291–296, Кревье 1993 , стр. 134–139.
  12. ^ "МНОГОЦЕЛЕВОЙ ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР ЭТАП-3" . Iitp.ru . Retrieved 2012-02-14 .
  13. ^ «Стремясь учиться так же, как мы, машина учится сама» . Нью-Йорк Таймс . 4 октября 2010 г. Проверено 5 октября 2010 г. С начала года группа исследователей из Университета Карнеги-Меллон при поддержке грантов Агентства перспективных исследовательских проектов Министерства обороны и Google, а также использования исследовательского суперкомпьютерного кластера, предоставленного Yahoo, настраивала компьютерную систему, которая пытаясь освоить семантику, обучаясь больше как человек.
  14. ^ Обзор проекта , Университет Карнеги-Меллон . По состоянию на 5 октября 2010 г.
  15. ^ «Конкурс на премию Лебнера 2013» . People.exeter.ac.uk. 14 сентября 2013 г. Проверено 2 декабря 2013 г.
  16. ^ Гибес, Эл (25 марта 2002 г.). «Круг друзей становится все шире». Журнал Las Vegas Review (Невада) .
  17. ^ «ActiveBuddy представляет программное обеспечение для создания и развертывания интерактивных агентов для обмена текстовыми сообщениями; сайт разработчика ActiveBuddy открыт: www.BuddyScript.com» . Деловой провод . 15 июля 2002 г. Проверено 16 января 2014 г.
  18. ^ Лензо, Кевин (лето 1998 г.). «Инфоботы и Перл» . Перл-журнал . 3 (2) . Проверено 26 июля 2010 г.
  19. ^ Лаорден, Чарльз; Галан-Гарсия, Пэтси; Святые, Игорь; Санс, Борха; Идальго, Хосе Мария Гомес; Брингас, Пол Г. (23 августа 2012 г.). Negobot: диалоговый агент на основе теории игр для обнаружения педофильского поведения (PDF) . ISBN  978-3-642-33018-6 . Архивировано из оригинала (PDF) 17 сентября 2013 г.
  20. ^ Вермтер, Стефан; Эллен Рилофф; Габриэле Шелер (1996). Коннекционистский, статистический и символический подходы к обучению обработке естественного языка . Спрингер.
  21. ^ Юрафски, Дэн; Джеймс Х. Мартин (2008). Речь и языковая обработка. Введение в обработку естественного языка, компьютерную лингвистику и распознавание речи (2-е изд.). Река Аппер-Седл (Нью-Джерси): Прентис-Холл. п. 2.
  22. ^ «SEM1A5 — Часть 1 — Краткая история НЛП» . Проверено 25 июня 2010 г.
  23. ^ Роджер Шанк , 1969, Анализатор концептуальных зависимостей естественного языка. Материалы конференции 1969 года по компьютерной лингвистике, Сонг-Сэби, Швеция, страницы 1-3.
  24. ^ Ибрагим, Амр Хелми. 2002. «Морис Гросс (1934-2001). Памяти Мориса Гросса». Гермес 34.
  25. ^ Догерти, Рэй. 2001. Мемориальное письмо Мориса Гросса .
  26. ^ «Программирование на естественном языке действительно будет работать — блог Wolfram» . 16 ноября 2010 г.

Библиография [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d54d763d6a36a31262657aebf58822e0__1706745780
URL1:https://arc.ask3.ru/arc/aa/d5/e0/d54d763d6a36a31262657aebf58822e0.html
Заголовок, (Title) документа по адресу, URL1:
Outline of natural language processing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)