Jump to content

Автоматизированная программа оценки сходства

Автоматизированная программа оценки сходства
Продюсер Институт Макса Планка науки истории человечества (Германия)
Языки Английский
Доступ
Расходы Бесплатно
Покрытие
Дисциплины Количественная сравнительная лингвистика
Ссылки
Веб-сайт asjp .clld .org

Программа автоматического определения сходства ( ASJP ) — это совместный проект, применяющий вычислительные подходы к сравнительной лингвистике с использованием базы данных списков слов. База данных имеет открытый доступ и состоит из списков базового словарного запаса из 40 пунктов для более чем половины языков мира. [1] Он постоянно расширяется. Помимо изолятов и языков продемонстрированных генеалогических групп, база данных включает пиджины , креольские языки , смешанные языки и искусственные языки . Слова базы данных транскрибируются в упрощенную стандартную орфографию ( ASJPcode ). [2] База данных использовалась для оценки дат, когда языковые семьи разделились на дочерние языки, с помощью метода, связанного с глоттохронологией , но все же отличного от него . [3] определить родину ( Urheimat ) праязыка , [4] исследовать звуковую символику , [5] оценить различные филогенетические методы, [6] и ряд других целей.

ASJP не получил широкого признания среди лингвистов-историков как адекватный метод установления или оценки отношений между языковыми семьями. [7]

Это часть проекта Cross-Linguistic Linked Data, организованного Институтом истории человечества Макса Планка . [8]

Оригинальные цели

[ редактировать ]

Первоначально ASJP был разработан как средство объективной оценки сходства слов с одинаковым значением в разных языках с конечной целью компьютерной классификации языков на основе наблюдаемых лексических сходств. В первой статье ASJP [2] два семантически идентичных слова из сравниваемых языков считались похожими, если они содержали хотя бы два идентичных звуковых сегмента. Сходство между двумя языками рассчитывалось как процент от общего количества сравниваемых слов, которые были оценены как похожие. Этот метод был применен к спискам слов из 100 элементов для 250 языков из языковых семей, включая австроазиатскую , индоевропейскую , майя и мускогейскую .

Консорциум АСДП

[ редактировать ]

Консорциум ASJP, основанный примерно в 2008 году, [ когда? ] удалось привлечь около 25 профессиональных лингвистов и других заинтересованных сторон, которые работали волонтерами-расшифровщиками и/или оказывали помощь проекту другими способами. Главной движущей силой создания консорциума был Сесил Х. Браун . Сорен Вихманн является ежедневным куратором проекта. Третьим центральным членом консорциума является Эрик Холман, создатель большей части программного обеспечения, используемого в проекте.

Более короткие списки слов

[ редактировать ]

из 100 пунктов Хотя использованные списки слов изначально были основаны на списке Сводеша , статистически было установлено, что подмножество из 40 из 100 слов дало столь же хорошие, если не немного лучшие классификационные результаты, чем весь список. [9] Таким образом, впоследствии собранные списки слов содержат только 40 слов (или меньше, поскольку для некоторых из них отсутствуют подтверждения).

Расстояние Левенштейна

[ редактировать ]

В статьях, опубликованных с 2008 года, ASJP использовал программу оценки сходства, основанную на расстоянии Левенштейна (LD). Было обнаружено, что этот подход дает лучшие результаты классификации, сравниваемые с мнением экспертов, чем метод, использованный первоначально. LD определяется как минимальное количество последовательных изменений, необходимых для преобразования одного слова в другое, где каждое изменение представляет собой вставку, удаление или замену символа. В рамках подхода Левенштейна различия в длине слова можно исправить, разделив LD на количество символов более длинного из двух сравниваемых слов. Это дает нормализованный LD (LDN). Разделенный LDN (LDND) между двумя языками рассчитывается путем деления среднего значения LDN для всех пар слов, имеющих одно и то же значение, на среднее значение LDN для всех пар слов, имеющих разные значения. Эта вторая нормализация предназначена для исправления случайного сходства. [10]

Список слов

[ редактировать ]

ASJP использует следующий список из 40 слов. [11] Он похож на список Сводеша–Яхонтова , но имеет некоторые отличия.

Части тела
  • глаз
  • ухо
  • нос
  • язык
  • зуб
  • рука
  • колено
  • кровь
  • кость
  • грудь (женская)
  • печень
  • кожа
Животные и растения
  • вошь
  • собака
  • рыба (существительное)
  • рог (часть животного)
  • дерево
  • лист
Люди
  • человек
  • имя (существительное)
Природа
  • солнце
  • звезда
  • вода
  • огонь
  • камень
  • путь
  • гора
  • ночь (темное время)
Глаголы и прилагательные
  • пить (глагол)
  • тот
  • видеть
  • слышать
  • приходить
  • новый
  • полный
Числа и местоимения
  • один
  • два
  • я
  • ты
  • мы

Версия ASJP от 2016 года. [ нужна ссылка ] использует следующие символы для кодирования фонем : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G ! т.е. E 3 auo

Они представляют собой 7 гласных и 34 согласных, которые встречаются на стандартной QWERTY-клавиатуре.

Звуки, представленные ASJPcode [2]
ASJPкод Описание НАСИЛИЕ
я верхняя гласная переднего ряда, округленная и неокругленная я, ɪ, й, ʏ
и гласная среднего переднего ряда, округленная и неокругленная е, остров
И нижняя гласная переднего ряда, округленная и неокругленная a, æ, ε, ɶ, œ и
3 верхняя и средняя центральная гласная, округленная и неокругленная ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
а нижняя центральная гласная, неокругленная ɐ , ä
в верхняя гласная заднего ряда, округленная и неокругленная ɯ, ты, ʊ
тот гласные средней и нижней части спины, округленные и неокругленные ɤ, ʌ, ɑ, о, о, ɒ
п глухой двугубный стоп и фрикативный звук п, ɸ
б звонкий двугубный стоп и фрикативный б, б
м двугубный носовой м
ж глухой губно-зубной фрикативный звук ж
v звонкий губно-зубной фрикативный звук v
8 глухой и звонкий зубной фрикативный звук θ, ð
4 стоматологический носовой нет
т глухая альвеолярная остановка т
д звонкая альвеолярная остановка д
с глухой альвеолярный фрикативный звук с
С звонкий альвеолярный фрикативный звук С
с глухая и звонкая альвеолярная аффриката тс, дз
н глухие и звонкие альвеолярно-носовые н
С глухой постальвеолярный фрикативный звук ʃ
С звонкий постальвеолярный фрикативный звук ʒ
С глухой небно-альвеолярный аффрикат t͡ʃ
дж звонкий небно-альвеолярный аффрикат d͡ʒ
Т глухая и звонкая небная стопа в , ɟ
5 небный носовой с
к глухой велярный стоп к
г звонкий велярный стоп ɡ
х глухой и звонкий велярный фрикативный звук х, γ
Н носовая вуаль ŋ
д глухой увулярный стоп д
Г звонкий увулярный стоп ɢ
Х глухой и звонкий увулярный фрикативный звук, глухой и звонкий глоточный фрикативный звук χ, ʁ, ħ, ʕ
7 глухая гортанная остановка ʔ
час глухой и звонкий гортанный фрикативный звук х, ɦ
л звонкий альвеолярный латеральный приблизительный л
л все остальные боковые стороны ʟ, ɭ, ʎ
В звонкий двугубно-велярный аппроксимант В
и небный аппроксимант дж
р звонкая верхушечно-альвеолярная трель и все разновидности «р-звуков» р, ʀ и т. д.
! все разновидности «щелканий» Й, Й, Й, Й

А ~ знак следует за двумя согласными, так что они считаются находящимися в одной и той же позиции.Таким образом, к'ат становится kw~at.Слоги типа kat, wat, kaw и kwi считаются лексически близкими к kw~at.

Аналогично, $ знак следует за тремя согласными, так что они считаются находящимися в одной и той же позиции. ndy$im считается похожим на nim, dam и yim.

" отмечает предыдущую согласную как голосовую .

См. также

[ редактировать ]
  1. ^ «База данных ASJP -» . asjp.clld.org . Проверено 15 февраля 2024 г.
  2. ^ Перейти обратно: а б с Браун, Сесил Х; Холман, Эрик В.; Вихманн, Сорен; Велупилаи, Вивека (2008). «Автоматизированная классификация языков мира: описание метода и предварительные результаты» . STUF – Языковая типология и универсалии .
  3. ^ «Автоматическое датирование языковых семей мира на основе лексического сходства» (PDF) . pubman.mpdl.mpg.de . 2011.
  4. ^ «Родины языковых семей мира: количественный подход» . www.researchgate.net . 2010.
  5. ^ Вихманн, Сорен; Холман, Эрик В.; Браун, Сесил Х. (апрель 2010 г.). «Звуковая символика в базовой лексике» . Энтропия . 12 (4): 844–858. дои : 10.3390/e12040844 . ISSN   1099-4300 .
  6. ^ Помпеи, Симона; Лорето, Витторио; Триа, Франческа (3 июня 2011 г.). «О точности языковых деревьев» . ПЛОС ОДИН . 6 (6): e20109. arXiv : 1103.4012 . Бибкод : 2011PLoSO...620109P . дои : 10.1371/journal.pone.0020109 . ISSN   1932-6203 . ПМК   3108590 . ПМИД   21674034 .
  7. ^ См. комментарии Аделаара, Бласта и Кэмпбелла в книге Holman, Eric W. и др. (2011) «Автоматическое датирование мировых языковых семей на основе лексического сходства». Современная антропология , том. 52, нет. 6, стр. 841–875.
  8. ^ «Межлингвистические связанные данные» . Проверено 22 февраля 2020 г.
  9. ^ Холман, Эрик В.; Вихманн, Сорен; Браун, Сесил Х.; Велупилаи, Вивека; Мюллер, Андре; Баккер, Дик (2008). «Исследования в области автоматизированной классификации языков» . Фолиа Лингвистика .
  10. ^ Вичманн, Сорен, Эрик В. Холман, Дик Баккер и Сесил Х. Браун. 2010. Оценка мер лингвистической дистанции. Физика А 389: 3632-3639 ( doi : 10.1016/j.physa.2010.05.011 ).
  11. ^ «Руководство» (PDF) . asjp.clld.org .

Источники

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4d588f4729ad7239170ef55bdea749ab__1718516580
URL1:https://arc.ask3.ru/arc/aa/4d/ab/4d588f4729ad7239170ef55bdea749ab.html
Заголовок, (Title) документа по адресу, URL1:
Automated Similarity Judgment Program - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)