МонтиЛингва
MontyLingua — популярный набор инструментов для обработки естественного языка . Это набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языков программирования Python и Java . Он обогащен здравыми знаниями о повседневном мире из Open Mind Common Sense . Из английских предложений он извлекает кортежи субъект/глагол/объект, прилагательные, именные фразы и глагольные фразы, а также имена людей, места, события, даты и время, а также другую семантическую информацию. Это не требует обучения. Его написал Хьюго Лю из Массачусетского технологического института в 2003 году.
Поскольку он обогащен знаниями здравого смысла, он позволяет избежать многих ошибок. например:
- "(NX the/DT комар/NN бит/NN NX) (NX the/DT мальчик/NN NX)"
против.
- "(NX the/DT москит/NN NX) (VX бит/VBD VX) (NX the/DT boy/NN NX)" [1]
Некоммерческое использование бесплатно. Если вы намерены использовать это программное обеспечение в некоммерческих целях, для непатентованных целей, например, для целей академических исследований, это программное обеспечение является бесплатным и подпадает под лицензию GNU GPL .
Способности
[ редактировать ]- MontyTokenizer: нормализует пунктуацию, пробелы и сокращения с чувствительностью к сокращениям.
- MontyTagger: маркировка частей речи с использованием набора тегов Penn Treebank , обогащенного «Здравым смыслом» из проекта Open Mind Common Sense. Превышает точность таггера Brill94 при использовании обучающих файлов по умолчанию.
- MontyREChunker: разбивает текст с тегами на глаголы, существительные и прилагательные (VX, NX и AX соответственно).
- MontyExtractor: извлекает структуры глаголов-аргументов, фразы и другую семантически ценную информацию из предложений и возвращает предложения в виде «дайджестов».
- MontyLemmatiser: лемматизация с учетом частей речи. Полоски множественного числа (гуси-->гусыни) и времени (были-->быть, имели-->иметь). Включает регулярные выражения из morph.lex Хамфриса и Кэрролла, а также корпуса XTAG UPENN.
- MontyNLGenerator: генерирует резюме, генерирует предложения поверхностной формы, определяет и нумерует NP и времена глаголов, учитывает предложение_типа.