Jump to content

Подстрочный глянец

(Перенаправлено из подстрочного текста )

В лингвистике и педагогике подстрочный глосс — это глосса (серия кратких пояснений, например определений или произношения), помещаемых между строками, например, между строкой исходного текста и его переводом на другой язык . При глоссировании каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный глоссированный текст ( IGT ) – для краткости подстрочный текст . Такие глоссы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру языка оригинала. В своей простейшей форме подстрочный глосс представляет собой буквальный, дословный перевод исходного текста .

Подстрочный текст в Toussaint-Langenscheidt Spanisch , учебнике испанского языка для немецкоязычных , 1910 г.

Подстрочные глянцы использовались для различных целей в течение длительного периода времени. Одним из распространенных способов использования было аннотирование двуязычных учебников по языковому образованию. Этот вид интерлинеаризации помогает сделать смысл исходного текста явным, не пытаясь формально смоделировать структурные характеристики исходного языка.

Такие аннотации иногда выражались не через подстрочную раскладку, а через перечисление слов на объектном и метаязыке. Одним из таких примеров является Вильгельма фон Гумбольдта аннотация к классическому науатлю : [1]

1

в-

1

я

2

с-

3

ходить

3

Чихуэй

2

является

4

- его

4

для

5

в

5

тот

6

нет-

6

мой

7

Пильчин

7

Сын

8

Этот

8

а

9

Калли

9

Хаус

1 2 3 4 5 6 7 8 9

ni- c- chihui -lia in no- piltzin ce calli

1 3 2 4 5 6 7 8 9

ich mache es für der mein Sohn ein Haus

Этот «встроенный» стиль позволяет включать примеры в поток текста и записывать порядок слов целевого языка в порядке, который приблизительно соответствует синтаксису целевого языка. (Здесь в глоссе mache es переупорядочивается из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Несмотря на это, этот подход требует от читателей «перевыровнять» соответствия между исходной и целевой формами.

Более современные подходы 19-го и 20-го веков сводились к вертикальному толкованию, выравниванию одного и того же типа пословного содержания таким образом, что метаязыковые термины располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английский глосс):

в-

я

с-

это

Чихуэй

делать

- его

для

в

к-к

нет-

мой

Пильчин

сын

Этот

а

Калли

дом

ni- c- chihui -lia in no- piltzin ce calli

I it make for to-the my son a house

«Я построил своему сыну дом».

Здесь порядок слов определяется синтаксисом объектного языка.

Наконец, современные лингвисты переняли практику использования сокращенных грамматических обозначений категорий. В публикации 2008 года, повторяющей этот пример, он маркируется следующим образом: [2]

ни-с-чихуи-лия

1СГ . СУБЖ - 3СГ . OBJ -машина -APPL

в

ТО

не-пильцин

1СГ . ПОСС -Зон

Этот

а

Калли

Хаус

ni-c-chihui-lia in no-piltzin ce calli

1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus

Этот подход более плотный и требует усилий при чтении, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.

предусмотрены специальные текстовые маркеры, При вычислениях в блоке Specials Unicode обозначающие начало и конец подстрочных глосс.

Структура

[ редактировать ]

Хотя официальной спецификации формата IGT не существует, Лейпцигские правила глоссирования [3] представляют собой набор руководящих принципов, направленных на максимальную стандартизацию формата.

Подстрочный текст для лингвистики обычно состоит из некоторых или всех следующих элементов, обычно в таком порядке, сверху вниз:

и наконец

  • свободный перевод, который может быть помещен в отдельный абзац или на следующую страницу, если структура языков слишком различна для того, чтобы он мог следовать за текстом построчно.

Например, следующее предложение тайваньского языка Миннан было расшифровано пятью строками текста:

1. стандартная транслитерация пэ-э-джи ,
2. глянец с использованием номеров тонов для тонов поверхности,
3. глосса, показывающая основные тона в форме цитирования (до прохождения тона сандхи ),
4. толкование морфем за морфемами на английском языке и
5. английский перевод: [4]

(1.)

(2.)

(3.)

(4.)

вдова

Гоа 1

Гоа 2

я

иау-боэ

я беру 1 -боэ 3

я беру 2 -боэ 7

еще нет

пальто-тэн

koat 2 - там 3

koat 4 - там 7

решать

Тан-си

Тан 7 5

Тан 1 5

когда

бу

бу 2

бу 4

хотеть

тнг-хи

ТНГ 1 -Когда 3 .

ТНГ 2 -Когда 3 .

возвращаться.

(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì

(2.) goa1 iau1-boe3 koat2-teng3 tang7-si5 boeh2 tng1-khi3.

(3.) goa2 iau2-boe7 koat4-teng7 tang1-si5 boeh4 tng2-khi3.

(4.) I not-yet decide when want return.

(5) «Я еще не решил, когда вернусь».

Пословное выравнивание . Согласно Лейпцигским правилам глоссирования, стандартным является выравнивание слов объектного языка по левому краю с соответствующими словами метаязыка; это выравнивание можно увидеть между строками (1-3) и строкой (4).

Морфемное соответствие . На уровне подслова сегментируемые морфемы разделяются дефисом как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:

Сумасшедший

сейчас

пепел

они- ОБЛ - GEN

останавливаться

ферма

Хамишалу

навсегда

к власти

позади

амук-да-ч

остаться- FUT - NEG

Gila abur-u-n ferma hamišaluǧ güǧüna amuqʼ-da-č

now they-OBL-GEN farm forever behind stay-FUT-NEG

«Теперь их ферма не останется навсегда».

Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, обозначающими будущее время и отрицание. Эти флективные аффиксы обозначаются как FUT и NEG ; список стандартных сокращений грамматических категорий, широко используемых в лингвистике, можно найти в Лейпцигских правилах глоссирования.

Соответствие один-ко-многим . Когда одному элементу объектного языка соответствует несколько элементов метаязыка, они разделяются точками. [3] Например,

уйти

Come.out- ИНФ

çık-mak

come.out-INF

'выйти'

Неявные элементы . если толкование морфем за морфемами (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия состоит в том, чтобы включить явную букву «ø» в текст объектного языка, [3] который разделен дефисом, как явный элемент:

мальчик-ø

мальчик- ИМЯ

puer-ø

boy-NOM

'мальчик'

Редупликация рассматривается аналогично аффиксации, но с использованием тильды (вместо стандартного дефиса), которая соединяет скопированный элемент с основой: [3]

они были бы

ИПФВ ~купить

bi~bili

IPFV~buy

'покупает'

Пунктуация

[ редактировать ]

В подстрочных морфологических глоссах глоссы разделяются различными формами пунктуации. Обычно слова соответствуют их толкованию; внутри слов дефис используется, когда граница обозначена как в тексте, так и в его глянце, период, когда граница появляется только в одном. То есть в тексте и его толковании должно быть одинаковое количество слов, разделенных пробелами, а также одинаковое количество переносимых морфем внутри слова и его толкования. Это базовая система, и ее можно применять универсально. Например:

Я быстро вышел из комнаты.

из комнаты

номер- ABL

комната-от

быстрый

скорость- COM

скорость-с

вне-м

go.out- ПФВ - 1сг

go_out-perfect-I

турецкий

 

 

oda-dan hız-lı çık-tı-m

room-ABL speed-COM go.out-PFV-1sg

room-from speed-with go_out-perfective-I

— Я быстро вышел из комнаты.

Вместо точки можно использовать подчеркивание, как в go_out- PFV , когда одно слово на исходном языке соответствует фразе на языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais. дом. ФЕМ.ПЛ.ДАТ 'в дома'.

Однако иногда можно провести более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства ввода, знаком равенства), а не дефисом. Французский пример:

Я тебя люблю.

je⹀te⹀aime

I⹀you⹀love

(Французский)

 

je⹀te⹀aime

I⹀you⹀love

'Я тебя люблю.'

Аффиксы, вызывающие разрывы ( инфиксы , циркумфиксы , трансфиксы и т. д.), могут быть выделены угловыми скобками, а дублирование — тильдами, а не дефисами:

письмо, письмо, письмо, письмо (глагольные склонения) (тагальский)

ПИСЬМА

писать

с ⟨ум⟩ улат

триггер агента .прошлое⟩ написать

с ⟨ум⟩ у~сулат

агента⟩  ⟨триггер созерцательный~запись

sulat su~sulat s⟨um⟩ulat s⟨um⟩u~sulat

write contemplative mood~write agent trigger.past⟩write ⟨agent trigger⟩contemplative~write

( см. в аффиксе Другие примеры .)

Морфемы, которые нелегко отделить, например умлаут , могут быть отмечены обратной косой чертой, а не точкой:

наш-н

our- DAT . PL

отцы-н

отец \ PL - DAT . ПЛ

(Немецкий)

 

unser-n Väter-n

our-DAT.PL father\PL-DAT.PL

'нашим отцам' (единственное число слова Väter 'отцы' - Vater )

Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. [3]

Ресурсы по подстрочному глянцу

[ редактировать ]

Были предприняты усилия по оцифровке IGT для сотен языков мира. [5]

Интернет-база данных подстрочного текста

[ редактировать ]

Онлайн-база данных подстрочного текста (ODIN) представляет собой базу данных, содержащую более 200 000 экземпляров подстрочных глосс для более чем 1500 языков, извлеченных из научных лингвистических исследований. [6] База данных создавалась в два этапа: автоматическое построение с последующей ручной коррекцией. Сам этап автоматического строительства проходил в три этапа:

  1. Во-первых, поисковым системам (например, Google, Bing) было предложено найти научные документы, которые, вероятно, содержали подстрочные толкования. Запросы включали термины, относящиеся к лингвистическим исследованиям, такие как грамматические морфемы (например, «NOM», сокращение от именительного падежа; «3SG», сокращение от 3-го лица единственного числа).
  2. Во-вторых, каждая строка в извлеченном документе была помечена с учетом того, принадлежала ли она к подстрочному глоссу или нет, с использованием методов маркировки последовательностей из машинного обучения.
  3. В-третьих, каждому экземпляру подстрочного глосса было присвоено название языка (например, тагальский) и идентификатор языка ISO 693-3. Имена и идентификаторы языков автоматически присваивались подстрочным глоссам с использованием моделей разрешения кореференции из Natural Language Processing, где экземпляр подстрочного глосса был помечен названием языка (и идентификатором), которое появляется в научном документе, из которого был извлечен экземпляр подстрочного глосса. [6]

На этапе ручной коррекции создатели базы данных вручную корректировали границы экземпляров подстрочного блеска, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и языковые коды во втором и третьем проходе данных соответственно.

Языковое распределение экземпляров подстрочного глосса в онлайн-базе данных подстрочного текста после этапа 1 и (этапа 2)
Ассортимент межлинейного блеска

случаи

Количество

языки

Количество

экземпляры подстрочного глянца

Процент

экземпляры подстрочного глянца

>10 000 3 (1) 36,691 (10,814) 19.39 (6.88)
1000-9999 37 (31) 97,158 (81,218) 51.34 (51.69)
100-999 122 (139) 40,260 (46,420) 21.27 (29.55)
10-99 326 (460) 12,822 (15,560) 6.78 (9.96)
1-9 838 (862) 2,313 (3,012) 1.22 (1.92)
Общий 1,326 (1,493) 189,244 (157,114) 100 (100)

Автоматическая обработка экземпляров подстрочного глянца

[ редактировать ]

Были разработаны модели обработки естественного языка с использованием ресурсов подстрочного глосса, таких как онлайн-база данных подстрочного текста. [7] [8]

Автоматическое глянцевание

[ редактировать ]

Например, системы обработки естественного языка были разработаны для автоматического создания подстрочных толкований: [7]

ми-с

ты- ГЕН

перегной

верблюд

элу-аб-ок'ек'-аси

мы. ОБЛ - ЭРГ . 1 . PL -украсть- PRT

штукаджиг

быть. НЕГ

mi-s ħumukuli elu-ab-ok'ek'-asi anu

you-GEN camel we.OBL-ERG.1.PL-steal-PRT be.NEG

— Мы не крали твоего верблюда.

Учитывая сегментированную строку морфем (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глянцевую строку, содержащую переводы основы (например, mi : you) и метки грамматических категорий, соответствующие аффиксам (например, mi: you ) и метки грамматических категорий, соответствующие аффиксам (например, mi: you). , а : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательностей из обработки естественного языка. [7] Два фактора усложняют эту задачу:

  1. Перевод не обязательно соответствует морфемной сегментированной строке (например, верблюд — последнее слово в переводе, но второе слово в морфемной сегментированной строке).
  2. Некоторые слова в сегментированной строке морфем имеют несколько соответствий в глоссе (например, anu : be.NEG ).

Автоматическое определение морфологической структуры по глоссам

[ редактировать ]

Исследователи использовали подстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссируется). Чтобы автоматически создавать морфологические парадигмы из подстрочных глосс, исследователи создали таблицы для каждой основы в глоссе и (возможно, пустое) место для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая приведенное ниже предложение с толкованием: [7]

Vecher-om

вечер- INS

v

в

магазин

магазин. АСС

Vecher-om ya pobeja-la v magazin

evening-INS 1.SG.NOM run-PFV.PST.SG.FEM in store.ACC

«Вечером я побежал в магазин».

Была бы парадигма для основы победы со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :

(Частичная) парадигма победы
Слот перегиб
ПФВ.PST.SG.FEM победа-ла
ПФВ.PST.SG.MASC ?

Слот для PFV.PST.SG.FEM будет заполнен (поскольку он наблюдался в данных подстрочного блеска), но слот для PFV.PST.SG.MASC будет пустым (при условии, что ни один другой экземпляр подстрочного блеска не содержит побега, измененного для ) грамматическая категория PFV.PST.SG.MASC . Для заполнения недостающих записей можно использовать статистическую модель машинного обучения для морфологического перегиба. [8] [9] [10] [11] [12]

См. также

[ редактировать ]
  • Канбун - японская традиция толкования классических китайских текстов.
  • Рубиновый текст - блеск, который иногда используется в китайском или японском языках для демонстрации произношения.
  • Маркировка частей речи , часто отображаемая в виде подстрочных толкований под отмеченными словами, иногда одновременно с подстрочным пословным переводом.
  • Treebanks , часто отображается в виде глоссы или аннотации к исходному тексту.
  • Джеймс Гамильтон , композитор девятнадцатого века и пропагандист подстрочных текстов для изучения языков.
  • Метафраза
  1. ^ Леманн, Кристиан (23 января 2004 г.). «Инструкции по подстрочному морфемному переводу». В Герте Буидже; Кристиан Леманн; Иоахим Мугдан; Ставрос Скопетеас (ред.). Морфология. Международный справочник по флексии и словообразованию . Справочники по языку и коммуникативным наукам. Том 2. Берлин: В. де Грюйтер. стр. 1834–1857.
  2. ^ Хаспельмат, Мартин (2008). Типология языка и языковые универсалии: международный справочник . Вальтер де Грюйтер. п. 715 . ISBN  978-3-11-011423-2 .
  3. ^ Jump up to: а б с д и Бикель, Бальтазар; Бернард Комри; Мартин Хаспельмат (февраль 2008 г.). «Лейпцигские правила глоссирования. Соглашения о подстрочных морфемах по морфемным глоссам» . Кафедра лингвистики – Ресурсы – Правила глоссирования . Проверено 30 июня 2010 г.
  4. ^ Пример из «Базового словарного запаса тайваньского языка для начинающих», Ко Чек Хоан и Тан Пан Тин.
  5. ^ Джорджи, Райан (2016). От Аари до Зулу: массовое многоязычное создание языковых инструментов с использованием подстрочного глянцевого текста (доктор философии). Университет Вашингтона.
  6. ^ Jump up to: а б Ся, Фэй; Льюис, Уильям; Уэйн, Майкл; Слейден, Гленн; Джорджи, Райан; Кроуги, Джошуа; Бендер, Эмили (2016). «Пополнение огромной многоязычной базы данных подстрочного глянцевого текста» . Языковые ресурсы и оценка . 50 (2): 321–349. дои : 10.1007/s10579-015-9325-4 . S2CID   2674996 . Проверено 15 декабря 2021 г.
  7. ^ Jump up to: а б с д Синъюань, Чжао; Сатору, Одзаки; Анастасопулос, Антониос; Нойбиг, Грэм; Левин, Лори (2020). «Автоматическое межстрочное глоссирование для языков с ограниченными ресурсами, использующих переводы» . ОХЛАЖДЕНИЕ . Материалы 28-й Международной конференции по компьютерной лингвистике: 5397–5408. doi : 10.18653/v1/2020.coling-main.471 . S2CID   227231816 . Проверено 15 декабря 2021 г.
  8. ^ Jump up to: а б Мёллер, Сара; Лю, Линг; Ян, Чанбин; Канн, Катарина; Халден, Ман (2020). «IG2P: От подстрочных глоссированных текстов к парадигмам» . ЕМНЛП . Материалы конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP): 5251–5262. doi : 10.18653/v1/2020.emnlp-main.424 . S2CID   226262296 . Проверено 15 декабря 2021 г.
  9. ^ Сильфверберг, Миикка; Халден, Ман (2018). «Подход кодировщика-декодера к проблеме заполнения ячейки парадигмы» . Материалы конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики. стр. 2883–2889. дои : 10.18653/v1/D18-1315 . S2CID   53082616 .
  10. ^ Ву, Шицзе; Коттерелл, Райан; Халден, Ман (2021). «Применение Трансформатора к преобразованию на уровне персонажа» . Материалы 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: основной том . Онлайн: Ассоциация компьютерной лингвистики. стр. 1901–1907. arXiv : 2005.10213 . doi : 10.18653/v1/2021.eacl-main.163 . S2CID   218718982 .
  11. ^ Николай, Гарретт; Черри, Колин; Кондрак, Гжегож (2015). «Генерация флексий как дискриминационная трансдукция строк» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2015 года: технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 922–931. дои : 10.3115/v1/N15-1093 . S2CID   14929030 .
  12. ^ Бхаргава, Адитья; Кондрак, Гжегож (2012). «Использование дополнительных представлений для последовательной трансдукции» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2012 года: технологии человеческого языка . Монреаль, Канада: Ассоциация компьютерной лингвистики: 396–406.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0dfa80ef8c7ec24964ecf5ea7d8b7bb3__1718174700
URL1:https://arc.ask3.ru/arc/aa/0d/b3/0dfa80ef8c7ec24964ecf5ea7d8b7bb3.html
Заголовок, (Title) документа по адресу, URL1:
Interlinear gloss - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)