Словесный эскиз
Набросок слова — это одностраничное автоматическое сводное описание грамматического и коллокационного поведения слова, полученное из корпуса. Словесные эскизы были впервые представлены британским лингвистом Адамом Килгарриффом. [1] и используется в Sketch Engine [2] Система управления корпусом. Они являются расширением общей концепции словосочетания, используемой в корпусной лингвистике, поскольку они группируют словосочетания в соответствии с конкретными грамматическими отношениями (например, субъектом, дополнением, модификатором и т. д.). Кандидаты в словосочетания в словесном наброске сортируются либо по их частоте, либо с использованием оценки лексикографических ассоциаций, например Dice , T-score или MI-score .
С момента своего появления зарисовки слов использовались лексикографами для разработки современных корпусных словарей крупными издательствами, включая Oxford English Dictionary, [3] Словарь английского языка Macmillan [1] и включает в себя десятки языков, включая Английский, [1] Китайский, [4] Словенский, [5] японский, [6] Голландский, [7] Румынский, [8] Русский, [9] Чешский, [10] польский, [11] Вьетнамский, [12] Турецкий, [13] Португальский, [14] нет, [15] испанский [16] и другие. [17]
Официальный аккаунт
[ редактировать ]Тройка словесного наброска — это тройка, состоящая из заглавного слова, грамматического отношения, словосочетания (например, мужчина, модификатор, молодой ).Учитывая базовый текстовый корпус , пятерка эскизов слов представляет собой пятерку, состоящую из главного слова, грамматического отношения, словосочетания, положения главного слова в корпусе, положения словосочетания в корпусе (например, человек, модификатор, молодой, 104, 103 ).База данных эскизов слов представляет собой набор таких троек или пятерок, которые могут быть сгенерированы либо путем запроса корпуса с использованием языка запросов корпуса. [18] или путем анализа корпуса с помощью анализатора естественного языка. [19]
Ссылки
[ редактировать ]- ^ Jump up to: а б с Килгаррифф, Адам; Быстро, Павел; Смрж, Павел; Тагвелл, Дэвид (2004) Sketch Engine. Информационные технологии, 2004 г.
- ^ Килгаррифф, Адам; Байса, Вит; Буста, Ян; Якубичек, Милош; Коварж, Войтех; Мишельфейт, Ян; Быстро, Павел; Сухомель, Вит (2004) Sketch Engine: десять лет спустя. В лексикографии, стр. 7–36, Springer Berlin Heidelberg.
- ^ Джонатан Калпепер (2009) Метаязык невежливости: использование Sketch Engine для изучения Оксфордского корпуса английского языка. В современной корпусной лингвистике
- ^ Чу-Рен Хуан, Адам Килгаррифф, Ичин Ву, Чи-Минг Чиу, Саймон Смит, Павел Рыхлы, Мин-Хонг Бай и Ке-Цзянь Чен (2005). Китайский Sketch Engine и извлечение грамматических словосочетаний. На четвертом семинаре SIGHAN по обработке китайского языка, Корея, стр. 48–55.
- ^ Саймон Крек и Адам Килгаррифф (2006). Словенские словесные зарисовки. В материалах 5-й конференции по технологиям словенского языка, Словения
- ^ Ирена Срданович, Томаж Эрьявец и Адам Килгаррифф (2008) Веб-корпус и наброски слов для японского языка в журнале обработки естественного языка 15/2, 137–159.
- ^ Кэрол Тибериус и Адам Килгаррифф (2009). Sketch Engine для голландского языка с корпусом ANW. В Fons Verbhorum, Festschrift для Fons Moerdijk. Институт голландской лексикологии, Нидерланды, стр. 273--255
- ^ Моника Маковейчук и Адам Килгаррифф (2010) Корпус RoWaC и эскизы румынских слов. «Многоязычие и совместимость языковой обработки с упором на румынский язык», Румынская академия наук.
- ^ Мария Хохлова и Виктор Захаров (2010) Изучение словесных зарисовок для русского языка. В материалах Седьмой Международной конференции по языковым ресурсам и оценке (LREC'12)
- ^ Карел Пала и Павел Рыхлы (2010) Пример использования словесных зарисовок - чешский глагол vidět. В пути со словами: последние достижения в лексической теории и анализе. Фестиваль Патрика Хэнкса.
- ^ Адам Радзишевский, Адам Килгаррифф и Роберт Лью (2011) Очерки польского слова. В материалах 5-й конференции по языкам и технологиям (LTC)
- ^ Адам Килгаррифф и Фуонг Ле-Хонг (2012) Зарисовки вьетнамских слов. Семинар по вьетнамскому языку и обработке речи (IEEE-RIVF 9)
- ^ Бхарат Рам Амбати, Шива Редди и Адам Килгаррифф (2012) Словесные наброски на турецком языке. В материалах Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12)
- ^ Адам Килгаррифф, Милош Якубичек, Ян Помикалек, Тони Бербер Сардинья и Пит Уайтлок (2014) PtTenTen: Корпус португальской лексикографии. В работе с португальской корпорацией, издательство Bloomsbury Publishing
- ^ Анил Кришна Эрагани, Варун Кучибхотла, Дипти Шарма, Шива Редди и Адам Килгаррифф (2014) Наброски слов на хинди. В материалах конференции по обработке естественного языка (ICON-11)
- ^ Адам Килгаррифф и Ирен Ренау (2013) esTenTen, обширный веб-корпус полуостровного и американского испанского языка. В Procedia - Социальные и поведенческие науки
- ^ «Библиография Sketch Engine | Sketch Engine» . 27 марта 2015 г.
- ^ Милош Якубичек, Адам Килгаррифф, Диана Маккарти и Павел Рыхлы (2010) Быстрый синтаксический поиск в очень больших корпусах для многих языков. В материалах семинара по передовым корпусным решениям, PACLIC 24, Япония.
- ^ Алеш Горак, Павел Рыхлы, Адам Килгаррифф (2009) Отношения эскизов чешских слов с полным синтаксическим анализатором. Через полвека обработки славянского естественного языка.
Внешние ссылки
[ редактировать ]- Word Sketch – словосочетания в руководстве пользователя Sketch Engine