Идентификация на родном языке
Идентификация родного языка ( НЛИ автора ) – это задача определения родного языка (Я1) только на основании его произведений на втором языке (Л2). [1] NLI работает путем выявления моделей использования языка, общих для определенных групп L1, а затем применяет эти знания для прогнозирования родного языка ранее невидимых текстов. Частично это мотивировано применением в освоении второго языка , преподавании языка и судебной лингвистике , среди прочего.
Обзор
[ редактировать ]NLI работает исходя из предположения, что L1 автора будет располагать его к определенным моделям языкового производства в его L2 под влиянием его родного языка. Это относится к межъязыковому влиянию (CLI), ключевой теме в области изучения второго языка (SLA), которая анализирует эффекты переноса с L1 на языки, изучаемые позже.
Используя крупномасштабные данные по английскому языку, методы NLI достигают точности более 80% при прогнозировании родного языка текстов, написанных авторами с 11 различными уровнями подготовки L1. [2] Это можно сравнить с базовым уровнем в 9% для случайного выбора.
Приложения
[ редактировать ]Педагогика и языковой трансфер
[ редактировать ]Эта идентификация особенностей, специфичных для L1, была использована для изучения эффектов языкового переноса при овладении вторым языком. [3] Это полезно для разработки педагогических материалов, методов обучения, инструкций для L1 и получения обратной связи от учащихся, адаптированной к их родному языку.
Судебная лингвистика
[ редактировать ]Методы NLI также могут применяться в судебной лингвистике как метод составления профиля авторства с целью определения характеристик автора, включая его лингвистическое происхождение. Это особенно полезно в ситуациях, когда текст, например анонимное письмо, является ключевым доказательством в расследовании, а сведения о родном языке автора могут помочь следователям определить источник. Это уже привлекло интерес и финансирование со стороны спецслужб. [4]
Методология
[ редактировать ]Методы обработки естественного языка используются для извлечения и идентификации моделей использования языка, общих для носителей L1-группы. Это делается с использованием данных об изучающих язык, обычно из корпуса учащихся . Затем машинное обучение применяется для обучения классификаторов, таких как машины опорных векторов , для прогнозирования L1 невидимых текстов. [5] Для решения этой задачи также был применен ряд систем, основанных на ансамблях, и было показано, что они улучшают производительность по сравнению с системами с одним классификатором. [6] [7]
Для этой задачи были применены различные типы лингвистических признаков. К ним относятся синтаксические функции, такие как синтаксический анализ составляющих, грамматические зависимости и теги части речи. Лексические функции поверхностного уровня, такие как символы, слова и леммы, также оказались весьма полезными для этой задачи. Однако кажется, что символьные n-граммы [8] [9] являются единственной лучшей функцией для этой задачи.
Общая задача 2013 г.
[ редактировать ]На семинаре по созданию образовательных приложений (BEA) в рамках NAACL 2013 было проведено первое совместное задание NLI. [10] В результате конкурса было подано 29 заявок от команд со всего мира, 24 из которых также опубликовали статьи с описанием своих систем и подходов.
См. также
[ редактировать ]- Межлингвистическое влияние - как языки двуязычных людей влияют на использование ими другого языка.
- Средство письма на иностранном языке - инструмент, который помогает пользователю, не являющемуся родным языком, прилично писать на целевом языке.
- Изучение языка с помощью компьютера – Техника обучения
- Языковое образование - Процесс и практика изучения языка.
- Обработка естественного языка - Область лингвистики и информатики
- Перенос языка - влияние одного языка на усвоение или разборчивость другого.
Ссылки
[ редактировать ]- ^ Вонг, Се-Мэн Джоджо и Марк Драс. «Использование структур синтаксического анализа для идентификации родного языка» . Материалы конференции по эмпирическим методам обработки естественного языка. Ассоциация компьютерной лингвистики, 2011.
- ^ Шервин Малмаси, Килан Эванини, Аойф Кэхилл, Джоэл Тетро, Роберт Пью, Кристофер Хэмилл, Дайан Наполитано и Яо Цянь. 2017. «Отчет об общей задаче по идентификации родного языка в 2017 году» . В материалах 12-го семинара по инновационному использованию НЛП для создания образовательных приложений, стр. 62–75, Копенгаген, Дания. Ассоциация компьютерной лингвистики.
- ^ Мальмаси, Шервин и Марк Драс. «Гипотезы переноса языка с линейными весами SVM». Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP). 2014.
- ^ Риа Перкинс. 2014. «Лингвистические идентификаторы персидских говорящих на английском языке L1: NLID для анализа авторства». доктор философии диссертация, Астонский университет.
- ^ Тетро и др., «Родные языки, потерянные и найденные: ресурсы и эмпирические оценки в идентификации родного языка» , In Proc. Международная конф. по компьютерной лингвистике (COLING), 2012 г.
- ^ Малмаси, Шервин, Се-Мэн Джоджо Вонг и Марк Драс. «Общая задача NLI 2013: отправка MQ» . Материалы восьмого семинара по инновационному использованию НЛП для создания образовательных приложений. 2013.
- ^ Хабич, Вук, Семенов, Александр и Пасилиао, Эдуардо. «Многозадачное глубокое обучение для идентификации родного языка» в «Системах, основанных на знаниях», 2020
- ^ Раду Тудор Ионеску, Мариус Попеску и Аойфе Кэхилл. «Строковые ядра для идентификации родного языка: взгляд из-за кулис» , Компьютерная лингвистика, 2016 г.
- ^ Раду Тудор Ионеску и Мариус Попеску. «Могут ли строковые ядра пройти проверку временем при идентификации родного языка?» , В материалах BEA12, 2017.
- ^ Тетро и др., «Отчет о первой общей задаче по идентификации родного языка» , 2013 г.