КОГТИ (лингвистика)
Эта статья нуждается в дополнительных цитатах для проверки . ( май 2020 г. ) |
— Система автоматической разметки слов Constituent Likelihood (CLAWS) это программа, которая выполняет разметку частей речи . Он был разработан в 1980-х годах в Ланкастерском университете Университетским центром компьютерных исследований языка. [1] Общий уровень точности составляет 96–97%, а последняя версия (CLAWS4) содержит теги около 100 миллионов слов Британского национального корпуса . [1]
История
[ редактировать ]Tagger части речи (POS Tagger) — это часть программного обеспечения, которая считывает текст на некотором языке и присваивает части речи каждому слову (и другому токену), например существительному, глаголу, прилагательному и т. д., хотя обычно это вычислительные операции. приложения используют более детальные POS-теги, такие как «существительное во множественном числе». [2] Разработанный в начале 1980-х гг. [1] [3] CLAWS был создан, чтобы заполнить постоянно растущий пробел, возникающий из-за постоянно меняющихся потребностей POS. Первоначально созданный для добавления тегов части речи в корпус LOB британского английского языка, набор тегов CLAWS с тех пор был адаптирован и для других языков, включая урду и арабский язык. [4]
С момента своего создания CLAWS славился своей функциональностью и адаптируемостью. Тем не менее, он не лишен недостатков, и хотя уровень ошибок составляет всего 1,5% при оценке в основных категориях, CLAWS по-прежнему остается с нерешенными около 3,3% неопределенностей. Неоднозначность возникает в таких случаях, как, например, со словом « летит» и относительно того, следует ли его классифицировать как существительное или глагол. [5] Именно эти неоднозначности потребуют различных обновлений и наборов тегов, которые CLAWS выдержит.
Правила и обработка
[ редактировать ]CLAWS использует скрытую марковскую модель для определения вероятности появления последовательностей слов в ожидании каждой метки части речи.
Пример вывода
[ редактировать ]С5 | -----_PUN "_PUQ Welcome_VVB to_PRP my_DPS house_NN1 !_SENT -----_PUN Введите_VVB свободно_AV0 и_CJC of_PRF your_DPS own_DT0 will_NN1 !_PUN "_SENT -----_PUN He_PNP made_VVD no_AT0 motion_NN1 of_PRF Stepping_VVG to_TO0 meet_VVI me_P НП ,_ПУН но_CJC выстоял_ВВД Like_PRP a_AT0 статуя_NN1 ,_PUN as_CJS, хотя_CJS его_DPS жест_NN1 из_PRF Welcome_NN1 имел_VHD фиксированный_VVN его_PNP в_PRP камень_SENT ._PUN |
---|---|
С7 | "_" Добро пожаловать_VV0 в_II мой_APPGE дом_NN1 !_! Введите_VV0 свободно_RR и_CC of_IO вашего_APPGE own_DA will_NN1 !_! "_" He_PPHS1 сделал_VVD no_AT motion_NN1 из_IO, шагнув_VVG к_TO встретить_VVI со мной_PPIO1, _, но_CCB стоял_VVD как_II a_AT1 статуя_NN1, _, как_CS21 хотя_CS22 его_APPGE жест_NN1 из_IO добро пожаловать_NN1 имел_VHD фиксированный_VVN его_PPHO1 в_II камень_NN1 ._. |
Этот отрывок из «Дракулы» Брэма Стокера (1897) был помечен с использованием наборов тегов CLAWS C5 и C7. Вот как обычно будет выглядеть вывод CLAWS , с наиболее вероятным тегом части речи после каждого слова.
Наборы тегов
[ редактировать ]Набор тегов CLAWS1
[ редактировать ]Первый набор тегов, разработанный в CLAWS , набор тегов CLAWS1, содержит 132 словесных тега. По форме и применению набор тегов C1 аналогичен тегам Brown Corpus . [6] См. Таблицу тегов в наборе тегов C1 здесь . [7]
Набор тегов CLAWS2
[ редактировать ]С 1983 по 1986 год обновленные версии, приведшие к CLAWS2, были частью более широкой попытки решить такие аспекты, как распознавание разрывов предложений, чтобы избежать необходимости ручной предварительной обработки текста перед применением тегов, вместо этого перейдя к необязательным ручное постредактирование для корректировки вывода автоматических аннотаций, если это необходимо. [8] Набор тегов CLAWS2 содержит 166 словесных тегов. [6] [9] См. Таблицу тегов в наборе тегов C2 здесь . [10]
Набор тегов CLAWS4
[ редактировать ]объемом 100 миллионов слов CLAWS4 использовался для Британского национального корпуса (BNC) . Универсальный грамматический теггер, он является преемником тегера CLAWS1. [11] При маркировке BNC многие этапы работы над CLAWS4 были сосредоточены на том, чтобы сделать программу CLAWS независимой от наборов тегов. Например, в проекте BNC использовались две версии набора тегов: «основной набор тегов (C5) с 62 тегами, которыми был помечен весь корпус, и более крупный (C7) набор тегов со 152 тегами, который использовался для создания выбран «основной» образец корпуса из двух миллионов слов». [12] Последнюю версию CLAWS4 предлагает UCREL, исследовательский центр Ланкастерского университета . [6] [13]
Набор тегов CLAWS5
[ редактировать ]Набор тегов CLAWS5, который использовался для BNC , содержит более 60 тегов. [6] См. Таблицу тегов в наборе тегов C5 здесь . [14]
Набор тегов CLAWS6
[ редактировать ]Набор тегов CLAWS6 использовался для корпуса сэмплера BNC и корпуса COLT . Он имеет более 160 тегов, включая 13 подтипов определителей. [6] См. Таблицу тегов в наборе тегов C6 здесь . [15]
Набор тегов CLAWS7
[ редактировать ]В настоящее время используется стандартный набор тегов CLAWS7. По сравнению с набором тегов CLAWS6 он отличается только тегами пунктуации. [6] См. Таблицу тегов в наборе тегов C7 здесь . [16]
Набор тегов CLAWS8
[ редактировать ]Набор тегов CLAWS8 был расширен из набора тегов C7 с дополнительными различиями в категориях определителей и местоимений, а также 37 новыми вспомогательными тегами для форм be, do и have . [6] См. Таблицу тегов в наборе тегов C8 здесь.
См. также
[ редактировать ]- Брилл теги
- Маркировка частей речи
- Маркировка частей речи на основе скользящего окна
- Британский национальный корпус (BNC)
- Коричневый корпус
- Ланкастерский университет
- Скрытая модель Маркова
Ссылки
[ редактировать ]- ^ Jump up to: а б с «Тегер части речи CLAWS» . ucrel.lancs.ac.uk . Проверено 01 апреля 2020 г.
- ^ «Стэнфордский лог-линейный тегер частей речи» . Стэнфордская группа обработки естественного языка . Архивировано из оригинала 25 октября 2004 г.
- ^ Гарсайд, Роджер. 1987. Система разметки слов CLAWS. В: Р. Гарсайд, Г. Лич и Г. Сэмпсон (ред.), Вычислительный анализ английского языка: подход, основанный на корпусе. Лонгман.
- ^ Этвелл, ES 2008. Разработка наборов тегов для маркировки частей речи. В: Люделинг А. и Кито М. (ред.) Корпусная лингвистика: Международный справочник, Том 1. Вальтер де Грюйтер, 501–526. ISBN 978-3-11-021142-9
- ^ Маккой, Кэти. «Часть речевых тегов (глава 5)» (PDF) . Архивировано (PDF) из оригинала 17 апреля 2018 г.
- ^ Jump up to: а б с д и ж г «Тегер части речи CLAWS» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
- ^ «Набор тегов UCREL CLAWS1 (LOB)» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
- ^ Гарсайд, Роджер. 1996. Надежная маркировка неограниченного текста: опыт BNC. В книге Дж. Томаса и М. (ред.) Использование Corpora для языковых исследований: исследования в честь Джеффри Лича. (стр. 167–180). Лондон. Лонгман.
- ^ Бут, Барбара. 1985. Пересмотр когтей. Журнал ICAME 9:29–35.
- ^ «Набор тегов UCREL CLAWS2» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
- ^ «CLAWS4: ТЕГИРОВАНИЕ БРИТАНСКОГО НАЦИОНАЛЬНОГО КОРПУСА» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
- ^ Гарсайд, Роджер. 1996. Надежная маркировка неограниченного текста: опыт BNC. В книге Дж. Томаса и М. (ред.) Использование Corpora для языковых исследований: исследования в честь Джеффри Лича. (стр. 167–180). Лондон. Лонгман. п. 169.
- ^ «Домашняя страница UCREL, Ланкастер, Великобритания» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
- ^ «Набор тегов UCREL CLAWS5» . ucrel.lancs.ac.uk . Проверено 20 апреля 2020 г.
- ^ «Набор тегов UCREL CLAWS6» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.
- ^ «Набор тегов UCREL CLAWS7» . ucrel.lancs.ac.uk . Проверено 12 апреля 2020 г.