Лексикостатистика

Лексикостатистика — это метод сравнительной лингвистики , который предполагает сравнение процента лексических родственных слов между языками для определения их родства. Лексикостатистика родственна сравнительному методу , но не реконструирует праязык . Ее следует отличать от глоттохронологии , которая пытается использовать лексикостатистические методы для оценки промежутка времени с тех пор, как два или более языков отделились от общего более раннего праязыка. Однако это всего лишь одно из применений лексикостатистики; другие его применения могут не разделять предположение о постоянной скорости изменения основных лексических единиц.

Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, а не статистика. Помимо лексики, могут использоваться и другие особенности языка, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика их не идентифицирует. Лексикостатистика является дистанционным методом, тогда как сравнительный метод рассматривает языковые символы напрямую. Метод лексикостатистики является простым и быстрым методом по сравнению со сравнительным методом, но имеет ограничения (обсуждаемые ниже). Это можно проверить путем перекрестной проверки деревьев, полученных обоими методами.

История

Лексикостатистика была разработана Моррисом Сводешем в серии статей в 1950-х годах на основе более ранних идей. ^[1]^[2]^[3] Впервые эту концепцию использовал Дюмон д'Юрвиль в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) рассматривают историю лексикостатистики. ^[4]^[5]

Метод

Создать список слов

Цель состоит в том, чтобы составить список универсально используемых значений (рука, рот, небо, я). Затем собираются слова для этих смысловых слотов для каждого рассматриваемого языка. Первоначально Сводеш сократил более широкий набор значений до 200. Позже он обнаружил, что необходимо еще больше сократить его, но что он может включить некоторые значения, которых не было в его первоначальном списке, составив более поздний список из 100 пунктов. Список Сводеша в Викисловаре дает всего 207 значений на нескольких языках. Были созданы альтернативные списки, в которых применяются более строгие критерии, например, список Долгопольского и список Лейпцига-Джакарты , а также списки с более конкретным объемом; например, Dyen , Kruskal и Black имеют 200 значений для 84 индоевропейских языков в цифровой форме. ^[6]

Определить коньяки

Для принятия решений о знании необходим обученный и опытный лингвист. Однако решения, возможно, придется уточнять по мере увеличения уровня знаний. Однако лексикостатистика не полагается на правильность всех решений. Для каждой пары слов (на разных языках) в этом списке родственность формы может быть положительной, отрицательной или неопределенной. Иногда в языке имеется несколько слов для одного значения, например «маленький» и «маленький» для «небольшой» .

Вычислить лексикостатистические проценты

Этот процент связан с долей родственных значений для конкретной языковой пары, т.е. относительно общего числа значений без неопределенности. Это значение вводится в $N \times N$ таблицу расстояний , где N — количество сравниваемых языков. После завершения эта таблица наполовину заполнена и имеет треугольную форму. Чем выше доля родства, тем ближе языки.

Создать генеалогическое древо

Создание языкового дерева осуществляется исключительно на основе приведенной выше таблицы. Можно использовать различные методы подгруппировки, но Дайен, Краскал и Блэк выбрали следующий:

все списки помещаются в пул
два ближайших члена удаляются и образуют ядро, которое помещается в пул.
этот шаг повторяется
при определенных условиях ядро становится группой
это повторяется до тех пор, пока пул не будет содержать только одну группу.

Расчеты должны производиться на основе ядерных и групповых лексических процентов.

Приложения

Ведущим представителем применения лексикостатистики был Исидор Дьен . ^[7]^[8]^[9]^[10] Он использовал лексикостатистику для классификации австронезийских языков. ^[11] а также индоевропейские . ^[6] О крупном исследовании последнего сообщили Дайен, Крускал и Блэк (1992). ^[6] Исследования также проводились на индейских и африканских языках .

Пама-Нюнган

Проблема внутреннего разветвления внутри языковой семьи пама-ньюнган была давней проблемой для австралийской лингвистики, и общее мнение заключалось в том, что внутренние связи между более чем 25 различными подгруппами пама-ньюнгана либо невозможно реконструировать, либо эти подгруппы были на самом деле вообще не связаны генетически. ^[12] В 2012 году Клэр Бауэрн и Квентин Аткинсон опубликовали результаты применения вычислительных филогенетических методов к 194 документам, представляющим все основные подгруппы и изоляты Пама-Ньюнган. ^[13] Их модель «восстановила» многие из ветвей и подразделений, которые ранее были предложены и приняты многими другими австралийцами, а также дала некоторое представление о более проблемных ветвях, таких как Паман (который осложняется отсутствием данных) и Нгумпин- Япа (где генетическая картина скрыта из-за очень высоких темпов заимствований между языками). Их набор данных является крупнейшим в своем роде для языковой семьи охотников-собирателей и вторым по величине в целом после австронезийского языка ( Greenhill et al. 2008. Архивировано 19 декабря 2018 г. на Wayback Machine ). Они приходят к выводу, что пама-ньюнганские языки на самом деле не являются исключением из лексикостатистических методов, которые успешно применяются к другим языковым семьям мира.

Критика

Такие люди, как Хойер (1956), показали, что существуют трудности с поиском эквивалентов значений предметов, в то время как многие сочли необходимым изменить списки Сводеша. ^[14] Гудщинский (1956) задавался вопросом, возможно ли получить универсальный список. ^[15]

Такие факторы, как заимствование , традиции и табу, могут исказить результаты, как и в случае с другими методами. Иногда для поиска сходства использовалась лексикостатистика, при этом использовалось лексическое сходство, а не родство. Тогда это эквивалентно массовому сравнению .

Выбор смысловых слотов субъективен, как и выбор синонимов .

Улучшенные методы

Некоторые из современных методов вычислительной статистической проверки гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют аналогичные списки слов и меры расстояния.

См. также

Ссылки

^ Сводеш, Моррис (1955). «К большей точности лексикостатистического датирования» . Международный журнал американской лингвистики . 21 (2): 121–137. дои : 10.1086/464321 . S2CID 144581963 .
^ Сводеш, Моррис (1952). «Лексикостатистическая датировка доисторических этнических контактов». Труды Американского философского общества . 96 : 452–463.
^ Сводеш, Моррис (1950). «Салиш внутренние отношения». Международный журнал американской лингвистики . 16 (4): 157–167. дои : 10.1086/464084 . S2CID 145122561 .
^ Хаймс, Делл (1960). «Лексикостатистика до сих пор». Современная антропология . 1 (1): 3–44. дои : 10.1086/200074 . S2CID 144569209 .
^ Эмблтон, Шейла (1986). Статистика в исторической лингвистике . Бохум.
^ Перейти обратно: ^а ^б ^с Дьен, Исидор; Краскал, Джозеф; Блэк, Пол (1992). «Индоевропейская классификация, лексикостатистический эксперимент». Труды Американского философского общества . 82 (5): iii–132. дои : 10.2307/1006517 . JSTOR 1006517 .
^ Дьен, Исидор (1962). «Лексикостатистически обусловленные отношения языковой группы». Международный журнал американской лингвистики . 28 (3): 153–161. дои : 10.1086/464687 . S2CID 143070513 .
^ Дьен, Исидор (1963). «Лексикостатистически обусловленные заимствования и табу». Язык . 39 (1): 60–66. дои : 10.2307/410762 . JSTOR 410762 .
^ Дьен, Исидор, изд. (1973). Лексикостатистика в генетической лингвистике . Гаага: Мутон.
^ Дьен, Исидор (1975). Лингвистическая подгруппировка и лексикостатистика . Гаага: Мутон.
^ Дьен, Исидор (1965). «Лексикостатистическая классификация австронезийских языков». Международный журнал американской лингвистики . 19 .
^ Диксон, Роберт М.В. (2002). Австралийские языки: их природа и развитие . Издательство Кембриджского университета. стр. 48, 53. Австралия представляет собой прототип лингвистической области. Он имеет значительную временную глубину, довольно однородную местность, что обеспечивает легкость взаимодействия и общения, значительную долю взаимных экзогамных браков, безудержный многоязычие и открытое отношение к заимствованиям ... В австралийских языках существует базовое единообразие, что является естественным Результат длительного периода диффузии. Хотя никакого обоснования «Пама-Нюнган» не было, оно было принято. Люди приняли это, потому что это было принято — как разновидность веры. ... Понятно, что «Пама-Нюнган» не может быть признан как генетическая группа. Это также не является полезной типологической группировкой.
^ Бауэрн, Клэр; Аткинсон, Квентин (2012). «Вычислительная филогенетика и внутреннее строение Пама-Нюнгана». Язык . 88 (4): 817–845. дои : 10.1353/lan.2012.0081 . hdl : 1885/61360 . S2CID 4375648 .
^ Хойер, Гарри (1956). «Лексикостатистика: критика». Язык . 32 (1): 49–60. дои : 10.2307/410652 . JSTOR 410652 .
^ Гудщинский, Сара (1956). «Азбуки лексикостатистики (глоттохронологии)» . Слово . 12 (2): 175–210. дои : 10.1080/00437956.1956.11659599 .

Дальнейшее чтение

Добсон, Аннет (1969). Лексикостатистическая группировка. Антропологическая лингвистика 7, 216–221.
Добсон, Аннетт и Блэк, Пол (1979). Многомерное масштабирование некоторых лексикостатистических данных. Ученый-математик 1979/4, 55-61.
МакМахон, Эйприл и МакМахон, Роберт (2005). Классификация языков по цифрам. Издательство Оксфордского университета.
Санкофф, Дэвид (1970). «О скорости замены словесных связей». Язык 46.564-569.
Виттманн, Анри (1969). «Лексико-статистическое исследование диахронии хеттского языка». Индоевропейские исследования 74.1-10. [1]
Виттманн, Анри (1973). «Лексикостатистическая классификация креольских языков французского происхождения». Лексикостатистика в генетической лингвистике: материалы Йельской конференции, 3–4 апреля 1971 г. , реж. Исидор Дьен, 89–99. Ла Хэй: Мутон. [2]

Внешние ссылки

[1] Сводеш, Моррис (1955). «К большей точности лексикостатистического датирования» . Международный журнал американской лингвистики . 21 (2): 121–137. дои : 10.1086/464321 . S2CID 144581963 .

[2] Сводеш, Моррис (1952). «Лексикостатистическая датировка доисторических этнических контактов». Труды Американского философского общества . 96 : 452–463.

[3] Сводеш, Моррис (1950). «Салиш внутренние отношения». Международный журнал американской лингвистики . 16 (4): 157–167. дои : 10.1086/464084 . S2CID 145122561 .

[4] Хаймс, Делл (1960). «Лексикостатистика до сих пор». Современная антропология . 1 (1): 3–44. дои : 10.1086/200074 . S2CID 144569209 .

[5] Эмблтон, Шейла (1986). Статистика в исторической лингвистике . Бохум.

[Dyen&al1992-6] Перейти обратно: ^а ^б ^с Дьен, Исидор; Краскал, Джозеф; Блэк, Пол (1992). «Индоевропейская классификация, лексикостатистический эксперимент». Труды Американского философского общества . 82 (5): iii–132. дои : 10.2307/1006517 . JSTOR 1006517 .

[7] Дьен, Исидор (1962). «Лексикостатистически обусловленные отношения языковой группы». Международный журнал американской лингвистики . 28 (3): 153–161. дои : 10.1086/464687 . S2CID 143070513 .

[8] Дьен, Исидор (1963). «Лексикостатистически обусловленные заимствования и табу». Язык . 39 (1): 60–66. дои : 10.2307/410762 . JSTOR 410762 .

[9] Дьен, Исидор, изд. (1973). Лексикостатистика в генетической лингвистике . Гаага: Мутон.

[10] Дьен, Исидор (1975). Лингвистическая подгруппировка и лексикостатистика . Гаага: Мутон.

[11] Дьен, Исидор (1965). «Лексикостатистическая классификация австронезийских языков». Международный журнал американской лингвистики . 19 .

[Dixon2002-12] Диксон, Роберт М.В. (2002). Австралийские языки: их природа и развитие . Издательство Кембриджского университета. стр. 48, 53. Австралия представляет собой прототип лингвистической области. Он имеет значительную временную глубину, довольно однородную местность, что обеспечивает легкость взаимодействия и общения, значительную долю взаимных экзогамных браков, безудержный многоязычие и открытое отношение к заимствованиям ... В австралийских языках существует базовое единообразие, что является естественным Результат длительного периода диффузии. Хотя никакого обоснования «Пама-Нюнган» не было, оно было принято. Люди приняли это, потому что это было принято — как разновидность веры. ... Понятно, что «Пама-Нюнган» не может быть признан как генетическая группа. Это также не является полезной типологической группировкой.

[Bowern&Atkinson2012-13] Бауэрн, Клэр; Аткинсон, Квентин (2012). «Вычислительная филогенетика и внутреннее строение Пама-Нюнгана». Язык . 88 (4): 817–845. дои : 10.1353/lan.2012.0081 . hdl : 1885/61360 . S2CID 4375648 .

[14] Хойер, Гарри (1956). «Лексикостатистика: критика». Язык . 32 (1): 49–60. дои : 10.2307/410652 . JSTOR 410652 .

[15] Гудщинский, Сара (1956). «Азбуки лексикостатистики (глоттохронологии)» . Слово . 12 (2): 175–210. дои : 10.1080/00437956.1956.11659599 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

v т и Дальняя сравнительная лингвистика
Концепции	Сравнительный метод Этимологический словарь глоттохронология Лексикостатистика Лингвистическая реконструкция Внутренняя реконструкция Лингвистический универсальный Макросемья Массовое сравнение Происхождение языка Палеолингвистика Праязык список Сводеша Dolgopolsky list Список Лейпциг – Джакарта
Языковые семьи	Проточеловек борейский Американцы Ностратический Элам-дравидийский Евразийский алтайский Урало-Алтайский Индо-Уральский Китайско-Уральский Дене–Кавказский Северо-Кавказский австрийский Индо-Тихоокеанский регион Айно-минойский
Лингвисты	Джон Бенгтсон Вацлав Блажек Аллан Р. Бомхард Светлана Бурлак Аарон Долгопольский Vladimir Dybo Гарольд К. Флеминг Джозеф Гринберг Юджин Хелимски Мюррей Гелл-Манн Vladislav Illich-Svitych Фредерик Кортландт Алексис Манастер Рамер Сергей Николаев Сорин Палига Хольгер Педерсен Илья Пейрос Мартин Роббитс Мерритт Рулен Виталий Шеворошкин Georgiy Starostin Сергей Старостин Альфредо Тромбетти
Журналы	Журнал языковых отношений Родной язык
Книги	Этимологический словарь алтайских языков Языки Африки
Учреждения и школы	Эволюция человеческих языков Институт языкознания РАН Московская школа сравнительного языкознания Российский государственный гуманитарный университет Институт Санта-Фе
Лингвистический портал Категория