Jump to content

КОГТИ (лингвистика)

Система автоматической разметки слов Constituent Likelihood (CLAWS) это программа, которая выполняет разметку частей речи . Он был разработан в 1980-х годах в Ланкастерском университете Университетским центром компьютерных исследований языка. [1] Общий уровень точности составляет 96–97%, а последняя версия (CLAWS4) содержит теги около 100 миллионов слов Британского национального корпуса . [1]

Tagger части речи (POS Tagger) — это часть программного обеспечения, которая считывает текст на некотором языке и присваивает части речи каждому слову (и другому токену), например существительному, глаголу, прилагательному и т. д., хотя обычно это вычислительные операции. приложения используют более детальные POS-теги, такие как «существительное во множественном числе». [2] Разработанный в начале 1980-х гг. [1] [3] CLAWS был создан, чтобы заполнить постоянно растущий пробел, возникающий из-за постоянно меняющихся потребностей POS. Первоначально созданный для добавления тегов части речи в корпус LOB британского английского языка, набор тегов CLAWS с тех пор был адаптирован и для других языков, включая урду и арабский язык. [4]

С момента своего создания CLAWS славился своей функциональностью и адаптируемостью. Тем не менее, он не лишен недостатков, и хотя уровень ошибок составляет всего 1,5% при оценке в основных категориях, CLAWS по-прежнему остается с нерешенными около 3,3% неопределенностей. Неоднозначность возникает в таких случаях, как, например, со словом « летит» и относительно того, следует ли его классифицировать как существительное или глагол. [5] Именно эти неоднозначности потребуют различных обновлений и наборов тегов, которые CLAWS выдержит.

Правила и обработка

[ редактировать ]

CLAWS использует скрытую марковскую модель для определения вероятности появления последовательностей слов в ожидании каждой метки части речи.

Пример вывода

[ редактировать ]
Примеры результатов CLAWS
С5 -----_PUN "_PUQ Welcome_VVB to_PRP my_DPS house_NN1 !_SENT -----_PUN Введите_VVB свободно_AV0 и_CJC of_PRF your_DPS own_DT0 will_NN1 !_PUN "_SENT -----_PUN He_PNP made_VVD no_AT0 motion_NN1 of_PRF Stepping_VVG to_TO0 meet_VVI me_P НП ,_ПУН но_CJC выстоял_ВВД Like_PRP a_AT0 статуя_NN1 ,_PUN as_CJS, хотя_CJS его_DPS жест_NN1 из_PRF Welcome_NN1 имел_VHD фиксированный_VVN его_PNP в_PRP камень_SENT ._PUN
С7 "_" Добро пожаловать_VV0 в_II мой_APPGE дом_NN1 !_!

Введите_VV0 свободно_RR и_CC of_IO вашего_APPGE own_DA will_NN1 !_! "_" He_PPHS1 сделал_VVD no_AT motion_NN1 из_IO, шагнув_VVG к_TO встретить_VVI со мной_PPIO1, _, но_CCB стоял_VVD как_II a_AT1 статуя_NN1, _, как_CS21 хотя_CS22 его_APPGE жест_NN1 из_IO добро пожаловать_NN1 имел_VHD фиксированный_VVN его_PPHO1 в_II камень_NN1 ._.

Этот отрывок из «Дракулы» Брэма Стокера (1897) был помечен с использованием наборов тегов CLAWS C5 и C7. Вот как обычно будет выглядеть вывод CLAWS , с наиболее вероятным тегом части речи после каждого слова.

Наборы тегов

[ редактировать ]

Набор тегов CLAWS1

[ редактировать ]

Первый набор тегов, разработанный в CLAWS , набор тегов CLAWS1, содержит 132 словесных тега. По форме и применению набор тегов C1 аналогичен тегам Brown Corpus . [6] См. Таблицу тегов в наборе тегов C1 здесь . [7]

Набор тегов CLAWS2

[ редактировать ]

С 1983 по 1986 год обновленные версии, приведшие к CLAWS2, были частью более широкой попытки решить такие аспекты, как распознавание разрывов предложений, чтобы избежать необходимости ручной предварительной обработки текста перед применением тегов, вместо этого перейдя к необязательным ручное постредактирование для корректировки вывода автоматических аннотаций, если это необходимо. [8] Набор тегов CLAWS2 содержит 166 словесных тегов. [6] [9] См. Таблицу тегов в наборе тегов C2 здесь . [10]

Набор тегов CLAWS4

[ редактировать ]

объемом 100 миллионов слов CLAWS4 использовался для Британского национального корпуса (BNC) . Универсальный грамматический теггер, он является преемником тегера CLAWS1. [11] При маркировке BNC многие этапы работы над CLAWS4 были сосредоточены на том, чтобы сделать программу CLAWS независимой от наборов тегов. Например, в проекте BNC использовались две версии набора тегов: «основной набор тегов (C5) с 62 тегами, которыми был помечен весь корпус, и более крупный (C7) набор тегов со 152 тегами, который использовался для создания выбран «основной» образец корпуса из двух миллионов слов». [12] Последнюю версию CLAWS4 предлагает UCREL, исследовательский центр Ланкастерского университета . [6] [13]

Набор тегов CLAWS5

[ редактировать ]

Набор тегов CLAWS5, который использовался для BNC , содержит более 60 тегов. [6] См. Таблицу тегов в наборе тегов C5 здесь . [14]

Набор тегов CLAWS6

[ редактировать ]

Набор тегов CLAWS6 использовался для корпуса сэмплера BNC и корпуса COLT . Он имеет более 160 тегов, включая 13 подтипов определителей. [6] См. Таблицу тегов в наборе тегов C6 здесь . [15]

Набор тегов CLAWS7

[ редактировать ]

В настоящее время используется стандартный набор тегов CLAWS7. По сравнению с набором тегов CLAWS6 он отличается только тегами пунктуации. [6] См. Таблицу тегов в наборе тегов C7 здесь . [16]

Набор тегов CLAWS8

[ редактировать ]

Набор тегов CLAWS8 был расширен из набора тегов C7 с дополнительными различиями в категориях определителей и местоимений, а также 37 новыми вспомогательными тегами для форм be, do и have . [6] См. Таблицу тегов в наборе тегов C8 здесь.

См. также

[ редактировать ]
  1. ^ Jump up to: а б с «Тегер части речи CLAWS» . ucrel.lancs.ac.uk . Проверено 01 апреля 2020 г.
  2. ^ «Стэнфордский лог-линейный тегер частей речи» . Стэнфордская группа обработки естественного языка . Архивировано из оригинала 25 октября 2004 г.
  3. ^ Гарсайд, Роджер. 1987. Система разметки слов CLAWS. В: Р. Гарсайд, Г. Лич и Г. Сэмпсон (ред.), Вычислительный анализ английского языка: подход, основанный на корпусе. Лонгман.
  4. ^ Этвелл, ES 2008. Разработка наборов тегов для маркировки частей речи. В: Люделинг А. и Кито М. (ред.) Корпусная лингвистика: Международный справочник, Том 1. Вальтер де Грюйтер, 501–526. ISBN   978-3-11-021142-9
  5. ^ Маккой, Кэти. «Часть речевых тегов (глава 5)» (PDF) . Архивировано (PDF) из оригинала 17 апреля 2018 г.
  6. ^ Jump up to: а б с д и ж г «Тегер части речи CLAWS» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
  7. ^ «Набор тегов UCREL CLAWS1 (LOB)» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
  8. ^ Гарсайд, Роджер. 1996. Надежная маркировка неограниченного текста: опыт BNC. В книге Дж. Томаса и М. (ред.) Использование Corpora для языковых исследований: исследования в честь Джеффри Лича. (стр. 167–180). Лондон. Лонгман.
  9. ^ Бут, Барбара. 1985. Пересмотр когтей. Журнал ICAME 9:29–35.
  10. ^ «Набор тегов UCREL CLAWS2» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
  11. ^ «CLAWS4: ТЕГИРОВАНИЕ БРИТАНСКОГО НАЦИОНАЛЬНОГО КОРПУСА» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
  12. ^ Гарсайд, Роджер. 1996. Надежная маркировка неограниченного текста: опыт BNC. В книге Дж. Томаса и М. (ред.) Использование Corpora для языковых исследований: исследования в честь Джеффри Лича. (стр. 167–180). Лондон. Лонгман. п. 169.
  13. ^ «Домашняя страница UCREL, Ланкастер, Великобритания» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
  14. ^ «Набор тегов UCREL CLAWS5» . ucrel.lancs.ac.uk . Проверено 20 апреля 2020 г.
  15. ^ «Набор тегов UCREL CLAWS6» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
  16. ^ «Набор тегов UCREL CLAWS7» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7d9eea21fea39360bf7ff06246c8984d__1718317260
URL1:https://arc.ask3.ru/arc/aa/7d/4d/7d9eea21fea39360bf7ff06246c8984d.html
Заголовок, (Title) документа по адресу, URL1:
CLAWS (linguistics) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)