Лексикостатистика
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Август 2014 г. ) |
Лексикостатистика — это метод сравнительной лингвистики , который предполагает сравнение процента лексических родственных слов между языками для определения их родства. Лексикостатистика родственна сравнительному методу , но не реконструирует праязык . Ее следует отличать от глоттохронологии , которая пытается использовать лексикостатистические методы для оценки промежутка времени с тех пор, как два или более языков отделились от общего более раннего праязыка. Однако это всего лишь одно из применений лексикостатистики; другие его применения могут не разделять предположение о постоянной скорости изменения основных лексических единиц.
Термин «лексикостатистика» вводит в заблуждение, поскольку используются математические уравнения, а не статистика. Помимо лексики, могут использоваться и другие особенности языка, хотя это необычно. В то время как сравнительный метод использовал общие идентифицированные инновации для определения подгрупп, лексикостатистика их не идентифицирует. Лексикостатистика является дистанционным методом, тогда как сравнительный метод рассматривает языковые символы напрямую. Метод лексикостатистики является простым и быстрым методом по сравнению со сравнительным методом, но имеет ограничения (обсуждаемые ниже). Это можно проверить путем перекрестной проверки деревьев, полученных обоими методами.
История
[ редактировать ]Лексикостатистика была разработана Моррисом Сводешем в серии статей в 1950-х годах на основе более ранних идей. [1] [2] [3] Впервые эту концепцию использовал Дюмон д'Юрвиль в 1834 году, который сравнил различные «океанические» языки и предложил метод расчета коэффициента родства. Хаймс (1960) и Эмблтон (1986) рассматривают историю лексикостатистики. [4] [5]
Метод
[ редактировать ]Создать список слов
[ редактировать ]Цель состоит в том, чтобы составить список универсально используемых значений (рука, рот, небо, я). Затем собираются слова для этих смысловых слотов для каждого рассматриваемого языка. Первоначально Сводеш сократил более широкий набор значений до 200. Позже он обнаружил, что необходимо еще больше сократить его, но что он может включить некоторые значения, которых не было в его первоначальном списке, составив более поздний список из 100 пунктов. Список Сводеша в Викисловаре дает всего 207 значений на нескольких языках. Были созданы альтернативные списки, в которых применяются более строгие критерии, например, список Долгопольского и список Лейпцига-Джакарты , а также списки с более конкретным объемом; например, Dyen , Kruskal и Black имеют 200 значений для 84 индоевропейских языков в цифровой форме. [6]
Определить коньяки
[ редактировать ]Для принятия решений о знании необходим обученный и опытный лингвист. Однако решения, возможно, придется уточнять по мере увеличения уровня знаний. Однако лексикостатистика не полагается на правильность всех решений. Для каждой пары слов (на разных языках) в этом списке родственность формы может быть положительной, отрицательной или неопределенной. Иногда в языке имеется несколько слов для одного значения, например «маленький» и «маленький» для «небольшой» .
Вычислить лексикостатистические проценты
[ редактировать ]Этот процент связан с долей родственных значений для конкретной языковой пары, т.е. относительно общего числа значений без неопределенности. Это значение вводится в N × N таблицу расстояний , где N — количество сравниваемых языков. После завершения эта таблица наполовину заполнена и имеет треугольную форму. Чем выше доля родства, тем ближе языки.
Создать генеалогическое древо
[ редактировать ]Создание языкового дерева осуществляется исключительно на основе приведенной выше таблицы. Можно использовать различные методы подгруппировки, но Дайен, Краскал и Блэк выбрали следующий:
- все списки помещаются в пул
- два ближайших члена удаляются и образуют ядро, которое помещается в пул.
- этот шаг повторяется
- при определенных условиях ядро становится группой
- это повторяется до тех пор, пока пул не будет содержать только одну группу.
Расчеты должны производиться на основе ядерных и групповых лексических процентов.
Приложения
[ редактировать ]Ведущим представителем применения лексикостатистики был Исидор Дьен . [7] [8] [9] [10] Он использовал лексикостатистику для классификации австронезийских языков. [11] а также индоевропейские . [6] О крупном исследовании последнего сообщили Дайен, Крускал и Блэк (1992). [6] Исследования также проводились на индейских и африканских языках .
Пама-Нюнган
[ редактировать ]Проблема внутреннего разветвления внутри языковой семьи пама-ньюнган была давней проблемой для австралийской лингвистики, и общее мнение заключалось в том, что внутренние связи между более чем 25 различными подгруппами пама-ньюнгана либо невозможно реконструировать, либо эти подгруппы были на самом деле вообще не связаны генетически. [12] В 2012 году Клэр Бауэрн и Квентин Аткинсон опубликовали результаты применения вычислительных филогенетических методов к 194 документам, представляющим все основные подгруппы и изоляты Пама-Ньюнган. [13] Их модель «восстановила» многие из ветвей и подразделений, которые ранее были предложены и приняты многими другими австралийцами, а также дала некоторое представление о более проблемных ветвях, таких как Паман (который осложняется отсутствием данных) и Нгумпин- Япа (где генетическая картина скрыта из-за очень высоких темпов заимствований между языками). Их набор данных является крупнейшим в своем роде для языковой семьи охотников-собирателей и вторым по величине в целом после австронезийского языка ( Greenhill et al. 2008. Архивировано 19 декабря 2018 г. на Wayback Machine ). Они приходят к выводу, что пама-ньюнганские языки на самом деле не являются исключением из лексикостатистических методов, которые успешно применяются к другим языковым семьям мира.
Критика
[ редактировать ]Такие люди, как Хойер (1956), показали, что существуют трудности с поиском эквивалентов значений предметов, в то время как многие сочли необходимым изменить списки Сводеша. [14] Гудщинский (1956) задавался вопросом, возможно ли получить универсальный список. [15]
Такие факторы, как заимствование , традиции и табу, могут исказить результаты, как и в случае с другими методами. Иногда для поиска сходства использовалась лексикостатистика, при этом использовалось лексическое сходство, а не родство. Тогда это эквивалентно массовому сравнению .
Выбор смысловых слотов субъективен, как и выбор синонимов .
Улучшенные методы
[ редактировать ]Некоторые из современных методов вычислительной статистической проверки гипотез можно рассматривать как усовершенствования лексикостатистики, поскольку они используют аналогичные списки слов и меры расстояния.
См. также
[ редактировать ]- Базовый английский
- Родственный
- Сравнительное языкознание
- Сравнительный метод
- Глобальная лексикостатистическая база данных
- глоттохронология
- Историческая лингвистика
- Индоевропейские исследования
- Серия Межконтинентальных словарей
- Языковая дистанция
- Массовое лексическое сравнение
- Праязык
- список Сводеша
- Список слов
Ссылки
[ редактировать ]- ^ Сводеш, Моррис (1955). «К большей точности лексикостатистического датирования» . Международный журнал американской лингвистики . 21 (2): 121–137. дои : 10.1086/464321 . S2CID 144581963 .
- ^ Сводеш, Моррис (1952). «Лексикостатистическая датировка доисторических этнических контактов». Труды Американского философского общества . 96 : 452–463.
- ^ Сводеш, Моррис (1950). «Салиш внутренние отношения». Международный журнал американской лингвистики . 16 (4): 157–167. дои : 10.1086/464084 . S2CID 145122561 .
- ^ Хаймс, Делл (1960). «Лексикостатистика до сих пор». Современная антропология . 1 (1): 3–44. дои : 10.1086/200074 . S2CID 144569209 .
- ^ Эмблтон, Шейла (1986). Статистика в исторической лингвистике . Бохум.
- ^ Перейти обратно: а б с Дьен, Исидор; Краскал, Джозеф; Блэк, Пол (1992). «Индоевропейская классификация, лексикостатистический эксперимент». Труды Американского философского общества . 82 (5): iii–132. дои : 10.2307/1006517 . JSTOR 1006517 .
- ^ Дьен, Исидор (1962). «Лексикостатистически обусловленные отношения языковой группы». Международный журнал американской лингвистики . 28 (3): 153–161. дои : 10.1086/464687 . S2CID 143070513 .
- ^ Дьен, Исидор (1963). «Лексикостатистически обусловленные заимствования и табу». Язык . 39 (1): 60–66. дои : 10.2307/410762 . JSTOR 410762 .
- ^ Дьен, Исидор, изд. (1973). Лексикостатистика в генетической лингвистике . Гаага: Мутон.
- ^ Дьен, Исидор (1975). Лингвистическая подгруппировка и лексикостатистика . Гаага: Мутон.
- ^ Дьен, Исидор (1965). «Лексикостатистическая классификация австронезийских языков». Международный журнал американской лингвистики . 19 .
- ^ Диксон, Роберт М.В. (2002). Австралийские языки: их природа и развитие . Издательство Кембриджского университета. стр. 48, 53.
Австралия представляет собой прототип лингвистической области. Он имеет значительную временную глубину, довольно однородную местность, что обеспечивает легкость взаимодействия и общения, значительную долю взаимных экзогамных браков, безудержный многоязычие и открытое отношение к заимствованиям ... В австралийских языках существует базовое единообразие, что является естественным Результат длительного периода диффузии. Хотя никакого обоснования «Пама-Нюнган» не было, оно было принято. Люди приняли это, потому что это было принято — как разновидность веры. ... Понятно, что «Пама-Нюнган» не может быть признан как генетическая группа. Это также не является полезной типологической группировкой.
- ^ Бауэрн, Клэр; Аткинсон, Квентин (2012). «Вычислительная филогенетика и внутреннее строение Пама-Нюнгана». Язык . 88 (4): 817–845. дои : 10.1353/lan.2012.0081 . hdl : 1885/61360 . S2CID 4375648 .
- ^ Хойер, Гарри (1956). «Лексикостатистика: критика». Язык . 32 (1): 49–60. дои : 10.2307/410652 . JSTOR 410652 .
- ^ Гудщинский, Сара (1956). «Азбуки лексикостатистики (глоттохронологии)» . Слово . 12 (2): 175–210. дои : 10.1080/00437956.1956.11659599 .
Дальнейшее чтение
[ редактировать ]- Добсон, Аннет (1969). Лексикостатистическая группировка. Антропологическая лингвистика 7, 216–221.
- Добсон, Аннетт и Блэк, Пол (1979). Многомерное масштабирование некоторых лексикостатистических данных. Ученый-математик 1979/4, 55-61.
- МакМахон, Эйприл и МакМахон, Роберт (2005). Классификация языков по цифрам. Издательство Оксфордского университета.
- Санкофф, Дэвид (1970). «О скорости замены словесных связей». Язык 46.564-569.
- Виттманн, Анри (1969). «Лексико-статистическое исследование диахронии хеттского языка». Индоевропейские исследования 74.1-10. [1]
- Виттманн, Анри (1973). «Лексикостатистическая классификация креольских языков французского происхождения». Лексикостатистика в генетической лингвистике: материалы Йельской конференции, 3–4 апреля 1971 г. , реж. Исидор Дьен, 89–99. Ла Хэй: Мутон. [2]