ИСО 639-3
ISO 639-3:2007 , Коды для представления названий языков. Часть 3: Код Alpha-3 для всестороннего охвата языков , является международным стандартом для языковых кодов серии ISO 639 . Он определяет трехбуквенные коды для идентификации языков. Стандарт был опубликован Международной организацией по стандартизации (ISO) 1 февраля 2007 года. [1]
ISO 639-3 расширяет коды ISO 639-2 альфа-3 с целью охватить все известные естественные языки . Расширенный языковой охват был основан в первую очередь на языковых кодах, используемых в « Этнологе» (тома 10–14), опубликованном SIL International , которая сейчас является органом регистрации ISO 639-3. [2] Он обеспечивает максимально полный перечень языков, включая живые и вымершие, древние и искусственные, основные и второстепенные, письменные и неписьменные. [1] Однако он не включает реконструированные языки , такие как протоиндоевропейский . [3]
ISO 639-3 предназначен для использования в качестве кодов метаданных в широком спектре приложений. Он широко используется в компьютерных и информационных системах, таких как Интернет, в которых необходимо поддерживать множество языков. В архивах и других хранилищах информации он используется в системах каталогизации, указывая, на каком языке или о каком языке изложен ресурс. Коды также часто используются в лингвистической литературе и других источниках, чтобы компенсировать тот факт, что названия языков могут быть неясными или двусмысленными.
Найти язык |
---|
Введите код ISO 639-3, чтобы найти соответствующую языковую статью. |
Коды языков [ править ]
ISO 639-3 включает все языки ISO 639-1 и все отдельные языки ISO 639-2 . ISO 639-1 и ISO 639-2 ориентированы на основные языки, наиболее часто представленные в мировой литературе. Поскольку ISO 639-2 также включает наборы языков, а Часть 3 — нет, ISO 639-3 не является расширенным набором ISO 639-2. Там, где в ISO 639-2 существуют коды B и T , в ISO 639-3 используются T-коды.
Язык | 639-1 | 639-2 (Б/Т) | Тип 639-3 | код 639-3 |
---|---|---|---|---|
Английский | в | а | индивидуальный | а |
Французский | фр. | пятница/пятница | индивидуальный | от |
немецкий | из | гер/дей | индивидуальный | это дало |
арабский | с | Мы покупаем | макрос | Мы покупаем |
Стандартный арабский | индивидуальный | вилка | ||
Масри | индивидуальный | поставлять | ||
Шами | индивидуальный | БТР | ||
Злой арабский | индивидуальный | акм | ||
китайский | zh | чи/жо [4] [5] | макрос | жо |
Мандарин | индивидуальный | смн | ||
Кантонский диалект | индивидуальный | Юэ | ||
Южный Мин | индивидуальный | в | ||
Центральный Тайский | й | Да | индивидуальный | Да |
Южный Тай | индивидуальный | на | ||
Северный Тайский | индивидуальный | кивок | ||
Читайте дальше | индивидуальный | хб | ||
Лао / Исан | это | туберкулез | индивидуальный | лаосский/ттс |
Фу Тай | индивидуальный | фт |
По состоянию на 23 января 2023 г. [update], стандарт содержит 7916 записей. [6] Перечень языков основан на ряде источников, включая: отдельные языки, содержащиеся в 639-2, современные языки из « Этнолога» , исторические разновидности, древние языки и искусственные языки из « Списка лингвистов» . [7] а также языки, рекомендованные в рамках ежегодного периода общественного обсуждения.
Машиночитаемые файлы данных предоставляются регистрирующим органом. [6] С помощью этих файлов данных можно выполнить сопоставление ISO 639-1 или ISO 639-2 с ISO 639-3.
ISO 639-3 предполагает различия, основанные на не совсем объективных критериях. [8] Он не предназначен для документирования или предоставления идентификаторов диалектов или других подъязыковых вариаций. [9] Тем не менее, суждения относительно различий между языками могут быть субъективными, особенно в случае языковых разновидностей без устоявшихся литературных традиций, использования в образовании или средствах массовой информации или других факторов, способствующих конвенционализации языка. Таким образом, стандарт следует рассматривать не как авторитетное утверждение о том, какие языки существуют в мире (по поводу которых в некоторых случаях могут возникнуть существенные разногласия), а скорее как один из полезных способов точного определения различных языковых разновидностей.
Кодовое пространство [ править ]
Поскольку код состоит из трех букв, одна верхняя граница количества языков, которые могут быть представлены, составляет 26 × 26 × 26 = 17 576. Поскольку ISO 639-2 определяет специальные коды (4), зарезервированный диапазон (520) и коды только B (22), коды 546 не могут использоваться в части 3. Следовательно, более строгая верхняя граница составляет 17 576 - 546 = 17 030.
Верхняя граница становится еще более строгой, если вычесть наборы языков, определенные в стандарте 639-2, и те, которые еще не определены в стандарте ISO 639-5 .
Макроязыки [ править ]
В ISO 639-2 указано 58 языков, которые для целей стандарта считаются «макроязыками» в ISO 639-3. [10]
Некоторые из этих макроязыков не имели отдельного языка, определенного ISO 639-3 в кодовом наборе ISO 639-2, например «ара» (общий арабский язык). Другие, такие как «nor» (норвежский), уже имели две отдельные части («nno» ( нюнорск ), «nob» ( букмол )) уже в ISO 639-2.
Это означает, что некоторые языки (например, «арб», стандартный арабский язык), которые в ISO 639-2 считались диалектами одного языка («ара»), теперь в ISO 639-3 в определенных контекстах сами считаются отдельными языками.
Это попытка разобраться с разновидностями, которые могут лингвистически отличаться друг от друга, но воспринимаются их носителями как две формы одного и того же языка, например, в случаях диглоссии .
Например:
- ара | ISO 639-3 (общий арабский язык, 639-2)
- вилка | ISO 639-3 (Стандартный арабский язык, 639-3)
Полный список доступен на веб-сайте регистратора ISO 639-3. [11]
Коллективные языки [ править ]
«Элемент коллективного языкового кода — это идентификатор, который представляет группу отдельных языков, которые не считаются одним языком ни в каком контексте использования». [12] Эти коды не совсем точно представляют конкретный язык или макроязык.
Хотя ISO 639-2 включает трехбуквенные идентификаторы коллективных языков, эти коды исключены из ISO 639-3. Следовательно, ISO 639-3 не является расширенной версией ISO 639-2.
ISO 639-5 определяет трехбуквенные коллективные коды для языковых семей и групп, включая коллективные языковые коды из ISO 639-2.
Специальные коды [ править ]
Четыре кода выделены в ISO 639-2 и ISO 639-3 для случаев, когда ни один из конкретных кодов не подходит. Они предназначены в первую очередь для таких приложений, как базы данных, где требуется код ISO независимо от того, существует ли он.
mis
(некодированные языки, первоначально аббревиатура от «разное») предназначен для языков, которые (еще) не включены в стандарт ISO.mul
(несколько языков) предназначен для случаев, когда данные включают более одного языка и (например) для базы данных требуется один код ISO.und
(неопределенный) предназначен для случаев, когда язык в данных не был идентифицирован, например, когда он неправильно помечен или никогда не был помечен. Он не предназначен для таких случаев, как троянская программа , в которой имя присвоено непроверенному языку.zxx
(нет языкового содержания / неприменимо) предназначен для данных, которые вообще не являются языком, например, криков животных. [13]
Кроме того, 520 кодов в диапазоне qaa
– qtz
«зарезервированы для местного использования». код Например, Ребекка Беттанкур присваивает построенным языкам , а новые назначения делаются по запросу. [14] Список лингвистов использует их для обозначения вымерших языков . Список лингвистов присвоил одному из них общее значение: qnp
, безымянный праязык. Это используется для предлагаемых промежуточных узлов в генеалогическом дереве, у которых нет имени.
Процессы обслуживания [ править ]
Таблица кодов ISO 639-3 открыта для изменений. Чтобы защитить стабильность существующего использования, разрешенные изменения ограничиваются: [15]
- изменения справочной информации для записи (включая имена или категоризации по типу и области применения),
- добавление новых записей,
- устаревание записей, которые являются дубликатами или поддельными,
- объединение одной или нескольких записей в другую запись, и
- разделение существующей языковой записи на несколько новых языковых записей.
Код, присвоенный языку, не изменяется, если не изменяется также его обозначение. [16]
Изменения вносятся ежегодно. Каждому запросу дается минимум три месяца на общественное рассмотрение.
На веб-сайте ISO 639-3 есть страницы, описывающие «области обозначения». [17] ( языкие типы) и типы языков, [18] которые объясняют, какие концепции подлежат кодированию и определенные критерии, которым необходимо соответствовать. Например, искусственные языки могут быть закодированы, но только если они предназначены для человеческого общения и имеют достаточно литературы, что предотвращает запросы на идиосинкразические изобретения.
Регистрирующий орган размещает на своем веб-сайте инструкции, содержащиеся в тексте стандарта ISO 639-3, относительно того, как следует поддерживать кодовые таблицы. [19] Он также документирует процессы, используемые для получения и обработки запросов на изменения. [20]
Предусмотрена форма запроса на изменение, а также имеется вторая форма для сбора информации о предлагаемых дополнениях. Любая сторона может подать запрос на изменение. После подачи запросы первоначально проверяются регистрирующим органом на предмет полноты.
Когда получен полностью документированный запрос, он добавляется в опубликованный индекс запросов на изменение. Кроме того, объявления отправляются в общий список обсуждения ЛИНГВИСТОВ в Списке лингвистов и в другие списки, которые регистрирующий орган может счесть уместными, с приглашением общественности рассмотреть и внести свой вклад в запрошенное изменение. Любой владелец списка или физическое лицо может запросить уведомления о запросах на изменение для определенных регионов или языковых семей. Полученные комментарии публикуются для просмотра другими сторонами. На основании консенсуса в полученных комментариях запрос на изменение может быть отозван или повышен до «статуса кандидата».
За три месяца до окончания ежегодного цикла рассмотрения (обычно в сентябре) в дискуссионный список ЛИНГВИСТ и другие списки отправляется объявление о запросах на изменение статуса кандидата. Все запросы остаются открытыми для рассмотрения и комментариев до конца ежегодного цикла рассмотрения.
Решения объявляются в конце ежегодного цикла рассмотрения (обычно в январе). В это время запросы могут быть приняты полностью или частично, изменены и перенесены в следующий цикл рассмотрения или отклонены. Отказы часто включают предложения о том, как изменить предложения для повторной подачи. Публичный архив каждого запроса на изменение сохраняется вместе с принятыми решениями и их обоснованием. [21]
Критика [ править ]
Лингвисты Мори, Пост и Фридман выдвигают различные критические замечания в адрес ISO 639 и, в частности, ISO 639-3: [16]
- Сами по себе трехбуквенные коды проблематичны, поскольку, хотя официально они являются произвольными техническими обозначениями, они часто происходят от мнемонических сокращений названий языков, некоторые из которых носят уничижительный характер. Например, Йемсе был присвоен код
jnj
, от уничижительного «Жанехеро». Таким образом, носители языка могут счесть эти кодексы оскорбительными. Однако коды можно изменить, отправив запрос на веб-сайте SIL . - Применение стандарта проблематично, поскольку SIL является миссионерской организацией с недостаточной прозрачностью и подотчетностью. Решения о том, что заслуживает кодирования в виде языка, принимаются внутри компании. Хотя сторонний вклад может приветствоваться, а может и не приветствоваться, сами решения непрозрачны, и многие лингвисты отказались от попыток улучшить стандарт.
- Постоянная идентификация языка несовместима с изменением языка.
- Языки и диалекты часто невозможно строго разделить, а диалектные континуумы можно подразделить по-разному, тогда как стандарт отдает предпочтение одному выбору. Вместо этого такие различия часто основаны на социальных и политических факторах.
- ISO 639-3 может быть неправильно понят и неправильно использован властями, которые принимают решения относительно идентичности и языка людей, отменяя право говорящих идентифицировать или идентифицировать себя со своим речевым разнообразием. Хотя SIL чувствителен к таким проблемам, эта проблема присуща природе установленного стандарта, который может использоваться (или неправильно использоваться) способами, которые не предназначены для ISO и SIL.
Мартин Хаспелмат согласен с четырьмя из этих пунктов, но не с пунктом об изменении языка. [22] Он не согласен, потому что любое описание языка требует его идентификации, и мы можем легко определить различные стадии языка. Он предполагает, что лингвисты могут предпочесть использовать кодификацию, выполненную на лангуоидном уровне, поскольку «для лингвистов редко имеет значение, является ли то, о чем они говорят, языком, диалектом или сплоченной семьей языков». Он также задается вопросом, подходит ли стандарт ISO для идентификации языка, поскольку ISO является промышленной организацией, в то время как он рассматривает языковую документацию и номенклатуру как научную деятельность. Он ссылается на первоначальную потребность в стандартизированных идентификаторах языков как на «экономическое значение перевода и локализации программного обеспечения », для чего были установлены стандарты ISO 639-1 и 639-2. Но он ставит под сомнение потребность отрасли во всестороннем охвате, предусмотренном ISO 639-3, в том числе в отношении «малоизвестных языков небольших сообществ, которые никогда или почти не используются в письменной форме и часто находятся под угрозой исчезновения».
Использование [ править ]
- Этнолог
- Список лингвистов
- OLAC : Сообщество архивов открытых языков [23]
- Microsoft Windows 8 : [24] Поддерживает все коды ISO 639-3 на момент выпуска.
- Фонд Викимедиа: Новые языковые проекты (например, Википедии на новых языках) должны иметь идентификатор ISO 639-1, -2 или -3. [25]
- Другие стандарты, основанные на ISO 639-3:
- Языковые теги , определенные Инженерной группой Интернета (IETF), как описано в:
- Стандарт ePub 3.0 для языковых метаданных. [27] использует элементы метаданных Dublin Core. Эти элементы языковых метаданных в ePubs должны содержать действительные Коды RFC 5646 для языков. [27] RFC5646 указывает на ISO 639-3 для языков без более коротких кодов IANA.
- Инициатива по метаданным Dublin Core : термин метаданных DCMI [28] для языка через IETF RFC 4646 (now superseded by RFC 5646 ).
- Управление по присвоению номеров в Интернете (IANA) В рамках усилий по интернационализации W3C рекомендует использовать реестр языковых субтегов IANA для выбора кодов для языков. [29] Реестр языковых субтегов IANA [30] зависит от кодов ISO 639-3 для языков, которые ранее не имели кодов в других частях стандарта ISO 639.
- HTML5: [31] через BCP 47 IETF.
- XML: [32] через BCP 47 IETF.
- СВГ: [33] через BCP 47 IETF.
- Коды библиотеки MODS : [34] Включает IETF RFC 3066 (now superseded by RFC 5646 ).
- Инициатива по кодированию текста (TEI): [35] через BCP 47 IETF.
- Lexical Markup Framework : спецификация ISO для представления машиночитаемых словарей.
- Unicode Общий репозиторий данных локали : использует несколько сотен кодов из ISO 639-3, не включенных в ISO 639-2.
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б «Состояние ISO 639-3 и аннотация» . Международная организация по стандартизации. 20 июля 2010 г. Проверено 14 июня 2012 г.
- ^ «Эксплуатационные агентства и органы регистрации» . ИСО.
- ^ «Типы отдельных языков – Древние языки» . sil.org . Проверено 11 июня 2018 г.
- ^ Отчет Ethnologue для кода ISO 639: zho. Архивировано 12 сентября 2014 г. на Wayback Machine на ethnologue.com.
- ^ ISO639-3 на SIL.org
- ↑ Перейти обратно: Перейти обратно: а б «Набор кодов ISO 639-3» . Сил.орг. 18 февраля 2021 г. Проверено 7 апреля 2021 г.
- ^ «ИСО 639-3» . sil.org.
- ^ «Объем обозначения: отдельные языки» . sil.org.
- ^ «Объем обозначения: диалекты» . sil.org.
- ^ «Область обозначения: Макроязыки» . sil.org . Проверено 14 июня 2012 г.
- ^ «Макроязыковые отображения» . sil.org . Проверено 2 ноября 2021 г.
- ^ «Объем денотации: Коллективные языки» . sil.org . Проверено 14 июня 2012 г.
- ^ Полевые записи криков верветок . Запись в каталоге Консорциума лингвистических данных . Проверено 15 января 2023 г.
- ^ Бетанкур, Ребекка. «Реестр кодов ConLang» . КреативКорп . Проверено 12 марта 2021 г.
- ^ «Отправка запросов на изменение ISO 639-3: типы изменений» . sil.org.
- ↑ Перейти обратно: Перейти обратно: а б Мори, Стивен; Пост, Марк В.; Фридман, Виктор А. (2013). Языковые коды ISO 639: преждевременная, в конечном итоге недостижимая и, возможно, разрушительная стандартизация . Конференция PARADISEC РРР. Архивировано из оригинала 23 февраля 2016 г. Проверено 3 ноября 2015 г.
- ^ «Объем обозначения языковых идентификаторов» . sil.org.
- ^ «Виды языков» . sil.org.
- ^ «ISO 639-3 Управление изменениями» . sil.org.
- ^ «Отправка запросов на изменение ISO 639-3» . sil.org.
- ^ «Индекс запроса на изменение ISO 639-3» . sil.org.
- ^ Мартин Хаспельмат (4 декабря 2013 г.). «Можно ли стандартизировать языковую идентичность? О критике ISO 639-3 Мори и др.» . Комментарий к лингвистике многообразия .
- ^ «Расширение языка OLAC» . язык-архивы.org . Проверено 3 августа 2015 г.
- ^ «Более 7000 языков, всего 1 Windows» . Майкрософт. 05.02.2014.
- ^ «Политика языковых предложений» . Wikimedia.org . Проверено 3 августа 2015 г.
- ^ «BCP 47 – Теги для идентификации языков» . ietf.org . Проверено 3 августа 2015 г.
- ↑ Перейти обратно: Перейти обратно: а б «Публикации EPUB 3.0» . idpf.org . Проверено 3 августа 2015 г.
- ^ «Условия метаданных DCMI» . Purl.org . Проверено 3 августа 2015 г.
- ^ «Двухбуквенные или трехбуквенные коды языков ISO» . W3C . Проверено 3 августа 2015 г.
- ^ «Реестр языков» . Управление по присвоению номеров в Интернете . Проверено 12 августа 2015 г.
- ^ «Семантика, структура и API HTML-документов — HTML5» . W3C . Проверено 3 августа 2015 г.
- ^ «Расширяемый язык разметки (XML) 1.0 (пятое издание)» . W3C . Проверено 3 сентября 2022 г.
- ^ «Масштабируемая векторная графика (SVG) 2» . W3C . Проверено 3 сентября 2022 г.
- ^ «Элементы – Рекомендации пользователя MODS: Схема описания объекта метаданных: MODS» . Библиотека Конгресса . Проверено 3 августа 2015 г.
- ^ «Язык элементов TEI» . Инициатива по кодированию текста . Проверено 3 августа 2015 г.
Дальнейшее чтение [ править ]
- Аристар, Энтони (2006). «Стандартизированные ISO коды языков и этнолог» (PDF) . Бюллетень SSILA . 247 . Архивировано из оригинала (PDF) 20 мая 2014 года.
- Добрин, Лиза М.; Хорошо, Джефф (2009). «Практическое развитие языка: чья миссия?» (PDF) . Язык . 85 (3): 619–629. дои : 10.1353/lan.0.0152 . S2CID 144749106 .
- Эппс, Терпение (2006). «Против принятия языковых кодов Ethnologue по стандарту ISO 639-3» (PDF) . Бюллетень SSILA . 246 . Архивировано из оригинала (PDF) 20 мая 2014 года.
- Голла, Виктор, изд. (2006). «Положение SSILA о языковых кодах ISO 639-3» (PDF) . Бюллетень SSILA . 249 . Архивировано из оригинала (PDF) 20 мая 2014 года.
- Хорошо, Джефф; Цисоу, Майкл (2013). «Язык, документ и глоссоним: формализация понятия «язык» ». Языковая документация и сохранение . 7 : 331–359. hdl : 10125/4606 .