Идентификация на родном языке

Идентификация родного языка ( НЛИ автора ) – это задача определения родного языка (Я1) только на основании его произведений на втором языке (Л2). ^[1] NLI работает путем выявления моделей использования языка, общих для определенных групп L1, а затем применяет эти знания для прогнозирования родного языка ранее невидимых текстов. Частично это мотивировано применением в освоении второго языка , преподавании языка и судебной лингвистике , среди прочего.

Обзор

NLI работает исходя из предположения, что L1 автора будет располагать его к определенным моделям языкового производства в его L2 под влиянием его родного языка. Это относится к межъязыковому влиянию (CLI), ключевой теме в области изучения второго языка (SLA), которая анализирует эффекты переноса с L1 на языки, изучаемые позже.

Используя крупномасштабные данные по английскому языку, методы NLI достигают точности более 80% при прогнозировании родного языка текстов, написанных авторами с 11 различными уровнями подготовки L1. ^[2] Это можно сравнить с базовым уровнем в 9% для случайного выбора.

Приложения

Педагогика и языковой трансфер

Эта идентификация особенностей, специфичных для L1, была использована для изучения эффектов языкового переноса при овладении вторым языком. ^[3] Это полезно для разработки педагогических материалов, методов обучения, инструкций для L1 и получения обратной связи от учащихся, адаптированной к их родному языку.

Судебная лингвистика

Методы NLI также могут применяться в судебной лингвистике как метод составления профиля авторства с целью определения характеристик автора, включая его лингвистическое происхождение. Это особенно полезно в ситуациях, когда текст, например анонимное письмо, является ключевым доказательством в расследовании, а сведения о родном языке автора могут помочь следователям определить источник. Это уже привлекло интерес и финансирование со стороны спецслужб. ^[4]

Методология

Методы обработки естественного языка используются для извлечения и идентификации моделей использования языка, общих для носителей L1-группы. Это делается с использованием данных об изучающих язык, обычно из корпуса учащихся . Затем машинное обучение применяется для обучения классификаторов, таких как машины опорных векторов , для прогнозирования L1 невидимых текстов. ^[5] Для решения этой задачи также был применен ряд систем, основанных на ансамблях, и было показано, что они улучшают производительность по сравнению с системами с одним классификатором. ^[6]^[7]

Для этой задачи были применены различные типы лингвистических признаков. К ним относятся синтаксические функции, такие как синтаксический анализ составляющих, грамматические зависимости и теги части речи. Лексические функции поверхностного уровня, такие как символы, слова и леммы, также оказались весьма полезными для этой задачи. Однако кажется, что символьные n-граммы ^[8]^[9] являются единственной лучшей функцией для этой задачи.

Общая задача 2013 г.

На семинаре по созданию образовательных приложений (BEA) в рамках NAACL 2013 было проведено первое совместное задание NLI. ^[10] В результате конкурса было подано 29 заявок от команд со всего мира, 24 из которых также опубликовали статьи с описанием своих систем и подходов.

См. также

Межлингвистическое влияние - как языки двуязычных людей влияют на использование ими другого языка.
Средство письма на иностранном языке - инструмент, который помогает пользователю, не являющемуся родным языком, прилично писать на целевом языке.
Изучение языка с помощью компьютера – Техника обучения
Языковое образование - Процесс и практика изучения языка.
Обработка естественного языка - Область лингвистики и информатики
Перенос языка - влияние одного языка на усвоение или разборчивость другого.

Ссылки

^ Вонг, Се-Мэн Джоджо и Марк Драс. «Использование структур синтаксического анализа для идентификации родного языка» . Материалы конференции по эмпирическим методам обработки естественного языка. Ассоциация компьютерной лингвистики, 2011.
^ Шервин Малмаси, Килан Эванини, Аойф Кэхилл, Джоэл Тетро, Роберт Пью, Кристофер Хэмилл, Дайан Наполитано и Яо Цянь. 2017. «Отчет об общей задаче по идентификации родного языка в 2017 году» . В материалах 12-го семинара по инновационному использованию НЛП для создания образовательных приложений, стр. 62–75, Копенгаген, Дания. Ассоциация компьютерной лингвистики.
^ Мальмаси, Шервин и Марк Драс. «Гипотезы переноса языка с линейными весами SVM». Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP). 2014.
^ Риа Перкинс. 2014. «Лингвистические идентификаторы персидских говорящих на английском языке L1: NLID для анализа авторства». доктор философии диссертация, Астонский университет.
^ Тетро и др., «Родные языки, потерянные и найденные: ресурсы и эмпирические оценки в идентификации родного языка» , In Proc. Международная конф. по компьютерной лингвистике (COLING), 2012 г.
^ Малмаси, Шервин, Се-Мэн Джоджо Вонг и Марк Драс. «Общая задача NLI 2013: отправка MQ» . Материалы восьмого семинара по инновационному использованию НЛП для создания образовательных приложений. 2013.
^ Хабич, Вук, Семенов, Александр и Пасилиао, Эдуардо. «Многозадачное глубокое обучение для идентификации родного языка» в «Системах, основанных на знаниях», 2020
^ Раду Тудор Ионеску, Мариус Попеску и Аойфе Кэхилл. «Строковые ядра для идентификации родного языка: взгляд из-за кулис» , Компьютерная лингвистика, 2016 г.
^ Раду Тудор Ионеску и Мариус Попеску. «Могут ли строковые ядра пройти проверку временем при идентификации родного языка?» , В материалах BEA12, 2017.
^ Тетро и др., «Отчет о первой общей задаче по идентификации родного языка» , 2013 г.

[1] Вонг, Се-Мэн Джоджо и Марк Драс. «Использование структур синтаксического анализа для идентификации родного языка» . Материалы конференции по эмпирическим методам обработки естественного языка. Ассоциация компьютерной лингвистики, 2011.

[2] Шервин Малмаси, Килан Эванини, Аойф Кэхилл, Джоэл Тетро, Роберт Пью, Кристофер Хэмилл, Дайан Наполитано и Яо Цянь. 2017. «Отчет об общей задаче по идентификации родного языка в 2017 году» . В материалах 12-го семинара по инновационному использованию НЛП для создания образовательных приложений, стр. 62–75, Копенгаген, Дания. Ассоциация компьютерной лингвистики.

[3] Мальмаси, Шервин и Марк Драс. «Гипотезы переноса языка с линейными весами SVM». Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP). 2014.

[4] Риа Перкинс. 2014. «Лингвистические идентификаторы персидских говорящих на английском языке L1: NLID для анализа авторства». доктор философии диссертация, Астонский университет.

[5] Тетро и др., «Родные языки, потерянные и найденные: ресурсы и эмпирические оценки в идентификации родного языка» , In Proc. Международная конф. по компьютерной лингвистике (COLING), 2012 г.

[6] Малмаси, Шервин, Се-Мэн Джоджо Вонг и Марк Драс. «Общая задача NLI 2013: отправка MQ» . Материалы восьмого семинара по инновационному использованию НЛП для создания образовательных приложений. 2013.

[7] Хабич, Вук, Семенов, Александр и Пасилиао, Эдуардо. «Многозадачное глубокое обучение для идентификации родного языка» в «Системах, основанных на знаниях», 2020

[8] Раду Тудор Ионеску, Мариус Попеску и Аойфе Кэхилл. «Строковые ядра для идентификации родного языка: взгляд из-за кулис» , Компьютерная лингвистика, 2016 г.

[9] Раду Тудор Ионеску и Мариус Попеску. «Могут ли строковые ядра пройти проверку временем при идентификации родного языка?» , В материалах BEA12, 2017.

[10] Тетро и др., «Отчет о первой общей задаче по идентификации родного языка» , 2013 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]