Jump to content

Идентификация на родном языке

Идентификация родного языка ( НЛИ автора ) – это задача определения родного языка (Я1) только на основании его произведений на втором языке (Л2). [1] NLI работает путем выявления моделей использования языка, общих для определенных групп L1, а затем применяет эти знания для прогнозирования родного языка ранее невидимых текстов. Частично это мотивировано применением в освоении второго языка , преподавании языка и судебной лингвистике , среди прочего.

NLI работает исходя из предположения, что L1 автора будет располагать его к определенным моделям языкового производства в его L2 под влиянием его родного языка. Это относится к межъязыковому влиянию (CLI), ключевой теме в области изучения второго языка (SLA), которая анализирует эффекты переноса с L1 на языки, изучаемые позже.

Используя крупномасштабные данные по английскому языку, методы NLI достигают точности более 80% при прогнозировании родного языка текстов, написанных авторами с 11 различными уровнями подготовки L1. [2] Это можно сравнить с базовым уровнем в 9% для случайного выбора.

Приложения

[ редактировать ]

Педагогика и языковой трансфер

[ редактировать ]

Эта идентификация особенностей, специфичных для L1, была использована для изучения эффектов языкового переноса при овладении вторым языком. [3] Это полезно для разработки педагогических материалов, методов обучения, инструкций для L1 и получения обратной связи от учащихся, адаптированной к их родному языку.

Судебная лингвистика

[ редактировать ]

Методы NLI также могут применяться в судебной лингвистике как метод составления профиля авторства с целью определения характеристик автора, включая его лингвистическое происхождение. Это особенно полезно в ситуациях, когда текст, например анонимное письмо, является ключевым доказательством в расследовании, а сведения о родном языке автора могут помочь следователям определить источник. Это уже привлекло интерес и финансирование со стороны спецслужб. [4]

Методология

[ редактировать ]

Методы обработки естественного языка используются для извлечения и идентификации моделей использования языка, общих для носителей L1-группы. Это делается с использованием данных об изучающих язык, обычно из корпуса учащихся . Затем машинное обучение применяется для обучения классификаторов, таких как машины опорных векторов , для прогнозирования L1 невидимых текстов. [5] Для решения этой задачи также был применен ряд систем, основанных на ансамблях, и было показано, что они улучшают производительность по сравнению с системами с одним классификатором. [6] [7]

Для этой задачи были применены различные типы лингвистических признаков. К ним относятся синтаксические функции, такие как синтаксический анализ составляющих, грамматические зависимости и теги части речи. Лексические функции поверхностного уровня, такие как символы, слова и леммы, также оказались весьма полезными для этой задачи. Однако кажется, что символьные n-граммы [8] [9] являются единственной лучшей функцией для этой задачи.

Общая задача 2013 г.

[ редактировать ]

На семинаре по созданию образовательных приложений (BEA) в рамках NAACL 2013 было проведено первое совместное задание NLI. [10] В результате конкурса было подано 29 заявок от команд со всего мира, 24 из которых также опубликовали статьи с описанием своих систем и подходов.

См. также

[ редактировать ]
  1. ^ Вонг, Се-Мэн Джоджо и Марк Драс. «Использование структур синтаксического анализа для идентификации родного языка» . Материалы конференции по эмпирическим методам обработки естественного языка. Ассоциация компьютерной лингвистики, 2011.
  2. ^ Шервин Малмаси, Килан Эванини, Аойф Кэхилл, Джоэл Тетро, ​​Роберт Пью, Кристофер Хэмилл, Дайан Наполитано и Яо Цянь. 2017. «Отчет об общей задаче по идентификации родного языка в 2017 году» . В материалах 12-го семинара по инновационному использованию НЛП для создания образовательных приложений, стр. 62–75, Копенгаген, Дания. Ассоциация компьютерной лингвистики.
  3. ^ Мальмаси, Шервин и Марк Драс. «Гипотезы переноса языка с линейными весами SVM». Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP). 2014.
  4. ^ Риа Перкинс. 2014. «Лингвистические идентификаторы персидских говорящих на английском языке L1: NLID для анализа авторства». доктор философии диссертация, Астонский университет.
  5. ^ Тетро и др., «Родные языки, потерянные и найденные: ресурсы и эмпирические оценки в идентификации родного языка» , In Proc. Международная конф. по компьютерной лингвистике (COLING), 2012 г.
  6. ^ Малмаси, Шервин, Се-Мэн Джоджо Вонг и Марк Драс. «Общая задача NLI 2013: отправка MQ» . Материалы восьмого семинара по инновационному использованию НЛП для создания образовательных приложений. 2013.
  7. ^ Хабич, Вук, Семенов, Александр и Пасилиао, Эдуардо. «Многозадачное глубокое обучение для идентификации родного языка» в «Системах, основанных на знаниях», 2020
  8. ^ Раду Тудор Ионеску, Мариус Попеску и Аойфе Кэхилл. «Строковые ядра для идентификации родного языка: взгляд из-за кулис» , Компьютерная лингвистика, 2016 г.
  9. ^ Раду Тудор Ионеску и Мариус Попеску. «Могут ли строковые ядра пройти проверку временем при идентификации родного языка?» , В материалах BEA12, 2017.
  10. ^ Тетро и др., «Отчет о первой общей задаче по идентификации родного языка» , 2013 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c4a74bdec2e6e0276a6a6aa25f2b8d96__1694448540
URL1:https://arc.ask3.ru/arc/aa/c4/96/c4a74bdec2e6e0276a6a6aa25f2b8d96.html
Заголовок, (Title) документа по адресу, URL1:
Native-language identification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)