Подстрочный глянец
В лингвистике и педагогике подстрочный глосс — это глосса (серия кратких пояснений, например определений или произношения), помещаемых между строками, например, между строкой исходного текста и его переводом на другой язык . При глоссировании каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный глоссированный текст ( IGT ) – для краткости подстрочный текст . Такие глоссы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру языка оригинала. В своей простейшей форме подстрочный глосс представляет собой буквальный, дословный перевод исходного текста .
История
[ редактировать ]Подстрочные глянцы использовались для различных целей в течение длительного периода времени. Одним из распространенных способов использования было аннотирование двуязычных учебников по языковому образованию. Этот вид интерлинеаризации помогает сделать смысл исходного текста явным, не пытаясь формально смоделировать структурные характеристики исходного языка.
Такие аннотации иногда выражались не через подстрочную раскладку, а через перечисление слов на объектном и метаязыке. Одним из таких примеров является Вильгельма фон Гумбольдта аннотация к классическому науатлю : [1]
1
в-
1
я
2
с-
3
ходить
3
Чихуэй
2
является
4
-его
4
для
5
в
5
тот
6
нет-
6
мой
7
Пильчин
7
Сын
8
Этот
8
а
9
Калли
9
Хаус
Этот «встроенный» стиль позволяет включать примеры в поток текста и записывать порядок слов целевого языка в порядке, который приблизительно соответствует синтаксису целевого языка. (Здесь в глоссе mache es переупорядочивается из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Несмотря на это, этот подход требует от читателей «перевыровнять» соответствия между исходной и целевой формами.
Более современные подходы 19-го и 20-го веков сводились к вертикальному толкованию, выравниванию одного и того же типа пословного содержания таким образом, что метаязыковые термины располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английский глосс):
в-
я
с-
это
Чихуэй
делать
-его
для
в
к-к
нет-
мой
Пильчин
сын
Этот
а
Калли
дом
«Я построил своему сыну дом».
Здесь порядок слов определяется синтаксисом объектного языка.
Наконец, современные лингвисты переняли практику использования сокращенных грамматических обозначений категорий. Публикация 2008 года, повторяющая этот пример, называет его следующим образом: [2]
ни-с-чихуи-лия
1СГ . СУБЖ - 3СГ . OBJ -машина -APPL
в
ТО
не-пильцин
1СГ . ПОСС -Зон
Этот
а
Калли
Хаус
Этот подход более плотный и требует усилий при чтении, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.
предусмотрены специальные текстовые маркеры, При вычислениях в блоке Specials Unicode обозначающие начало и конец подстрочных глосс.
Структура
[ редактировать ]Хотя формальной спецификации формата IGT не существует, Лейпцигские правила глоссирования [3] представляют собой набор руководящих принципов, направленных на максимальную стандартизацию формата.
Подстрочный текст для лингвистики обычно состоит из некоторых или всех следующих элементов, обычно в таком порядке, сверху вниз:
- Исходная орфография (обычно курсивом или жирным курсивом ),
- обычная транслитерация на латиницу,
- транскрипция фонетическая ,
- морфонематическая транслитерация ,
- пословный или поморфемный словарь, где морфемы внутри слова разделяются дефисами или другими знаками препинания,
и наконец
- свободный перевод, который может быть помещен в отдельный абзац или на следующую страницу, если структура языков слишком различна для того, чтобы он мог следовать за текстом построчно.
Например, следующее предложение тайваньского языка Миннан было расшифровано пятью строками текста:
- 1. стандартная транслитерация пэ-э-джи ,
- 2. глянец с использованием номеров тонов для тонов поверхности,
- 3. глосса, показывающая основные тона в форме цитирования (до прохождения тона сандхи ),
- 4. толкование морфем за морфемами на английском языке и
- 5. английский перевод: [4]
(1.)
(2.)
(3.)
(4.)
вдова
Гоа 1
Гоа 2
я
иау-боэ
я беру 1 -боэ 3
я беру 2 -боэ 7
еще нет
пальто-тэн
koat 2 - там 3
koat 4 - там 7
решать
Тан-си
Тан 7 -и 5
Тан 1 -и 5
когда
бу
бу 2
бу 4
хотеть
тнг-хи
ТНГ 1 -Когда 3 .
ТНГ 2 -Когда 3 .
возвращаться.
(5) «Я еще не решил, когда вернусь».
Пословное выравнивание . Согласно Лейпцигским правилам глоссирования, стандартным является выравнивание слов объектного языка по левому краю с соответствующими словами метаязыка; это выравнивание можно увидеть между строками (1-3) и строкой (4).
Морфемное соответствие . На уровне подслова сегментируемые морфемы разделяются дефисом как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:
Сумасшедший
сейчас
останавливаться
ферма
Хамишалу
навсегда
к власти
позади
«Теперь их ферма не останется навсегда».
Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, обозначающими будущее время и отрицание. Эти флективные аффиксы обозначаются как FUT и NEG ; список стандартных сокращений грамматических категорий, широко используемых в лингвистике, можно найти в Лейпцигских правилах глоссирования.
Соответствие один-ко-многим . Когда одному элементу объектного языка соответствует несколько элементов метаязыка, они разделяются точками. [3] Например,
уйти
Come.out- ИНФ
'выйти'
Неявные элементы . если толкование морфем за морфемами (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия состоит в том, чтобы включить явную букву «ø» в текст объектного языка, [3] который разделен дефисом, как явный элемент:
мальчик-ø
мальчик- ИМЯ
'мальчик'
Редупликация рассматривается аналогично аффиксации, но с использованием тильды (вместо стандартного дефиса), которая соединяет скопированный элемент с основой: [3]
они были бы
ИПФВ ~купить
'покупает'
Пунктуация
[ редактировать ]В подстрочных морфологических глоссах глоссы разделяются различными формами пунктуации. Обычно слова соответствуют их толкованию; внутри слов дефис используется, когда граница обозначена как в тексте, так и в его глянце, период, когда граница появляется только в одном. То есть в тексте и его толковании должно быть одинаковое количество слов, разделенных пробелами, а также одинаковое количество переносимых морфем внутри слова и его толкования. Это базовая система, и ее можно применять универсально. Например:
турецкий
— Я быстро вышел из комнаты.
Вместо точки можно использовать подчеркивание, как в go_out- PFV , когда одно слово на исходном языке соответствует фразе на языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais. дом. ФЕМ.ПЛ.ДАТ 'в дома'.
Однако иногда можно провести более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства ввода, знаком равенства), а не дефисом. Французский пример:
je⹀te⹀aime
I⹀you⹀love
(Французский)
'Я тебя люблю.'
Аффиксы, вызывающие разрыв ( инфиксы , циркумфиксы , трансфиксы и т. д.), могут быть выделены угловыми скобками, а дублирование — тильдами, а не дефисами:
ПИСЬМА
писать
писать
созерцательное настроение ~ писать
с ⟨ум⟩ улат
⟨ триггер агента .прошлое⟩ написать
с ⟨ум⟩ у~сулат
агента⟩ ⟨триггер созерцательный~запись
( см. в аффиксе Другие примеры .)
Морфемы, которые нелегко отделить, например умлаут , могут быть отмечены обратной косой чертой, а не точкой:
наш-н
our- DAT . PL
отцы-н
отец \ PL - DAT . ПЛ
(Немецкий)
«нашим отцам» (единственное число слова Väter «отцы» — Vater )
Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. [3]
Ресурсы по подстрочному глянцу
[ редактировать ]Были предприняты усилия по оцифровке IGT для сотен языков мира. [5]
Интернет-база данных подстрочного текста
[ редактировать ]Онлайн-база данных подстрочного текста (ODIN) представляет собой базу данных, содержащую более 200 000 экземпляров подстрочных глосс для более чем 1500 языков, извлеченных из научных лингвистических исследований. [6] База данных создавалась в два этапа: автоматическое построение с последующей ручной коррекцией. Сам этап автоматического строительства проходил в три этапа:
- Во-первых, поисковым системам (например, Google, Bing) было предложено найти научные документы, которые, вероятно, содержали подстрочные толкования. Запросы включали термины, относящиеся к лингвистическим исследованиям, такие как грамматические морфемы (например, «NOM», сокращение от именительного падежа; «3SG», сокращение от 3-го лица единственного числа).
- Во-вторых, каждая строка в извлеченном документе была помечена на предмет того, принадлежала ли она к подстрочному глоссу или нет, с использованием методов маркировки последовательностей из машинного обучения.
- В-третьих, каждому экземпляру подстрочного глосса было присвоено название языка (например, тагальский) и идентификатор языка ISO 693-3. Имена и идентификаторы языков автоматически присваивались подстрочным глоссам с использованием моделей разрешения кореференции из Natural Language Processing, где экземпляр подстрочного глосса был помечен названием языка (и идентификатором), которое появляется в научном документе, из которого был извлечен экземпляр подстрочного глосса. [6]
На этапе ручной коррекции создатели базы данных вручную корректировали границы экземпляров подстрочного блеска, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и языковые коды во втором и третьем проходе данных соответственно.
Ассортимент межлинейного блеска случаи | Количество языки | Количество экземпляры подстрочного глянца | Процент экземпляры подстрочного глянца |
---|---|---|---|
>10 000 | 3 (1) | 36,691 (10,814) | 19.39 (6.88) |
1000-9999 | 37 (31) | 97,158 (81,218) | 51.34 (51.69) |
100-999 | 122 (139) | 40,260 (46,420) | 21.27 (29.55) |
10-99 | 326 (460) | 12,822 (15,560) | 6.78 (9.96) |
1-9 | 838 (862) | 2,313 (3,012) | 1.22 (1.92) |
Общий | 1,326 (1,493) | 189,244 (157,114) | 100 (100) |
Автоматическая обработка экземпляров подстрочного глянца
[ редактировать ]Были разработаны модели обработки естественного языка с использованием ресурсов подстрочного глосса, таких как онлайн-база данных подстрочного текста. [7] [8]
Автоматическое глянцевание
[ редактировать ]Например, системы обработки естественного языка были разработаны для автоматического создания подстрочных толкований: [7]
ми-с
ты- ГЕН
перегной
верблюд
элу-аб-ок'ек'-аси
мы. ОБЛ - ЭРГ . 1 . PL -украсть- PRT
штукаджиг
быть. НЕГ
— Мы не крали твоего верблюда.
Учитывая сегментированную строку морфем (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глянцевую строку, содержащую переводы основы (например, mi : you) и метки грамматических категорий, соответствующие аффиксам (например, mi: you ) и метки грамматических категорий, соответствующие аффиксам (например, mi: you). , а : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательностей из обработки естественного языка. [7] Два фактора усложняют эту задачу:
- Перевод не обязательно соответствует морфемной сегментированной строке (например, верблюд — последнее слово в переводе, но второе слово в морфемной сегментированной строке).
- Некоторые слова в сегментированной строке морфем имеют несколько соответствий в глоссе (например, anu : be.NEG ).
Автоматическое определение морфологической структуры по глоссам
[ редактировать ]Исследователи использовали подстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссируется). Чтобы автоматически создавать морфологические парадигмы из подстрочных глосс, исследователи создали таблицы для каждой основы в глоссе и (возможно, пустое) место для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая приведенное ниже предложение с толкованием: [7]
Vecher-om
вечер- INS
победа-ла
запустить -PFV . ТИХООКЕАНСКОЕ СТАНДАРТНОЕ ВРЕМЯ . СГ . ПЯТЬ
v
в
магазин
магазин. АСС
«Вечером я побежал в магазин».
Была бы парадигма для основы победы со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :
Слот | перегиб |
---|---|
ПФВ.PST.SG.FEM | победа-ла |
ПФВ.PST.SG.MASC | ? |
Слот для PFV.PST.SG.FEM будет заполнен (поскольку он наблюдался в данных подстрочного блеска), но слот для PFV.PST.SG.MASC будет пустым (при условии, что ни один другой экземпляр подстрочного блеска не содержит побега, измененного для ) грамматическая категория PFV.PST.SG.MASC . Для заполнения недостающих записей можно использовать статистическую модель машинного обучения для морфологического перегиба. [8] [9] [10] [11] [12]
См. также
[ редактировать ]- Канбун - японская традиция толкования классических китайских текстов.
- Рубиновый текст - блеск, который иногда используется в китайском или японском языках для демонстрации произношения.
- Маркировка частей речи , часто отображаемая в виде подстрочных толкований под отмеченными словами, иногда одновременно с подстрочным пословным переводом.
- Treebanks , часто отображается в виде глоссы или аннотации к исходному тексту.
- Джеймс Гамильтон , композитор девятнадцатого века и популяризатор подстрочных текстов для изучения языков.
- Метафраза
Ссылки
[ редактировать ]- ^ Леманн, Кристиан (23 января 2004 г.). «Инструкции по подстрочному морфемному переводу». В Герте Буидже; Кристиан Леманн; Иоахим Мугдан; Ставрос Скопетеас (ред.). Морфология. Международный справочник по флексии и словообразованию . Справочники по языку и коммуникативным наукам. Том 2. Берлин: В. де Грюйтер. стр. 1834–1857.
- ^ Хаспельмат, Мартин (2008). Типология языка и языковые универсалии: международный справочник . Вальтер де Грюйтер. п. 715 . ISBN 978-3-11-011423-2 .
- ^ Перейти обратно: а б с д и Бикель, Бальтазар; Бернард Комри; Мартин Хаспельмат (февраль 2008 г.). «Лейпцигские правила глоссирования. Соглашения о подстрочных морфемах по морфемным глоссам» . Кафедра лингвистики – Ресурсы – Правила глоссирования . Проверено 30 июня 2010 г.
- ^ Пример из «Базового словарного запаса тайваньского языка для начинающих», авторы Ко Чек Хоан и Тан Пан Тин.
- ^ Джорджи, Райан (2016). От Аари до Зулу: массовое многоязычное создание языковых инструментов с использованием подстрочного глянцевого текста (доктор философии). Университет Вашингтона.
- ^ Перейти обратно: а б Ся, Фэй; Льюис, Уильям; Уэйн, Майкл; Слейден, Гленн; Джорджи, Райан; Кроуги, Джошуа; Бендер, Эмили (2016). «Пополнение огромной многоязычной базы данных подстрочного глянцевого текста» . Языковые ресурсы и оценка . 50 (2): 321–349. дои : 10.1007/s10579-015-9325-4 . S2CID 2674996 . Проверено 15 декабря 2021 г.
- ^ Перейти обратно: а б с д Синъюань, Чжао; Сатору, Одзаки; Анастасопулос, Антониос; Нойбиг, Грэм; Левин, Лори (2020). «Автоматическое межстрочное глоссирование для языков с ограниченными ресурсами, использующих переводы» . ОХЛАЖДЕНИЕ . Материалы 28-й Международной конференции по компьютерной лингвистике: 5397–5408. doi : 10.18653/v1/2020.coling-main.471 . S2CID 227231816 . Проверено 15 декабря 2021 г.
- ^ Перейти обратно: а б Мёллер, Сара; Лю, Линг; Ян, Чанбин; Канн, Катарина; Халден, Ман (2020). «IG2P: От подстрочных глоссированных текстов к парадигмам» . ЕМНЛП . Материалы конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP): 5251–5262. doi : 10.18653/v1/2020.emnlp-main.424 . S2CID 226262296 . Проверено 15 декабря 2021 г.
- ^ Сильфверберг, Миикка; Халден, Ман (2018). «Подход кодировщика-декодера к проблеме заполнения ячейки парадигмы» . Материалы конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики. стр. 2883–2889. дои : 10.18653/v1/D18-1315 . S2CID 53082616 .
- ^ Ву, Шицзе; Коттерелл, Райан; Халден, Ман (2021). «Применение Трансформатора к преобразованию на уровне персонажа» . Материалы 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: основной том . Онлайн: Ассоциация компьютерной лингвистики. стр. 1901–1907. arXiv : 2005.10213 . doi : 10.18653/v1/2021.eacl-main.163 . S2CID 218718982 .
- ^ Николай, Гарретт; Черри, Колин; Кондрак, Гжегож (2015). «Генерация флексий как дискриминационная трансдукция строк» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2015 года: технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 922–931. дои : 10.3115/v1/N15-1093 . S2CID 14929030 .
- ^ Бхаргава, Адитья; Кондрак, Гжегож (2012). «Использование дополнительных представлений для последовательной трансдукции» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2012 года: технологии человеческого языка . Монреаль, Канада: Ассоциация компьютерной лингвистики: 396–406.
Внешние ссылки
[ редактировать ]- Лейпцигские правила глоссирования: соглашения для подстрочных поморфемных глосс
- Стандарты подстрочного глянцевого текста (E-MELD)
- Уровни подстрочного глянцевого текста (E-MELD)
- К общей модели подстрочного текста (E-MELD)
- Подстрочные морфемные глоссы
- Глоссирование древних языков и текстов . Форум рекомендаций по межлинейному морфемическому толкованию древних языков, подтвержденному древними рукописями.
- Онлайн-подстрочный текст Библейских Греческих Писаний (Новый Завет)
- ODIN - Интернет-база данных межстрочного текста
- Страница латинского подстрочного метода. Список старых подстрочных и интерпретированных текстов, в основном на латыни или древнегреческом языке и в основном на английском языке.
- Эрнест Блюм, «Новый старый способ изучения языков» , The American Scholar , осень 2008 г.