Jump to content

Идентификация языка

(Перенаправлено из «Определение языка »)

При обработке естественного языка идентификация языка или угадывание языка — это проблема определения того, на каком естественном языке находится данный контент. Вычислительные подходы к этой проблеме рассматривают ее как особый случай категоризации текста , решаемый с помощью различных статистических методов.

Существует несколько статистических подходов к идентификации языка, использующих различные методы классификации данных. Один из методов — сравнить сжимаемость текста со сжимаемостью текстов на наборе известных языков. Этот подход известен как измерение расстояния на основе взаимной информации. Тот же метод можно использовать и для эмпирического построения генеалогических деревьев языков, которые точно соответствуют деревьям, построенным историческими методами. [ нужна ссылка ] Измерение расстояния на основе взаимной информации по существу эквивалентно более традиционным методам, основанным на моделях, и обычно не считается ни новым, ни лучшим, чем более простые методы.

Другой метод, описанный Кавнаром и Тренклом (1994) и Даннингом (1994), заключается в создании языковой n-граммной модели из «обучающего текста» для каждого из языков. Эти модели могут быть основаны на символах (Кавнар и Тренкл) или закодированных байтах (Даннинг); в последнем идентификация языка и обнаружение кодировки символов интегрированы . Затем для любого фрагмента текста, который необходимо идентифицировать, создается аналогичная модель, и эта модель сравнивается с каждой сохраненной языковой моделью. Наиболее вероятным является тот язык, модель которого наиболее похожа на модель из текста, который необходимо идентифицировать. Этот подход может быть проблематичным, если входной текст написан на языке, для которого не существует модели. В этом случае метод может вернуть в качестве результата другой, «наиболее похожий» язык. Также проблематичными для любого подхода являются фрагменты входного текста, состоящие из нескольких языков, как это часто бывает в Интернете.

Более новый метод см. в Řehůřek and Kolkus (2009). Этот метод может обнаружить несколько языков в неструктурированном фрагменте текста и надежно работает с короткими текстами, состоящими всего из нескольких слов: с этим сталкиваются подходы с использованием n-грамм .

Более старый статистический метод Грефенштетта был основан на преобладании определенных служебных слов (например, «the» в английском языке).

Распространенный нестатистический интуитивный подход (хотя и весьма неопределенный) заключается в поиске общих комбинаций букв, отличительных диакритических знаков или знаков препинания. [1] [2]

Определение похожих языков

[ редактировать ]

Одним из самых узких мест систем языковой идентификации является различие между близкородственными языками. Подобные языки, такие как болгарский и македонский или индонезийский и малайский, имеют значительное лексическое и структурное совпадение, из-за чего системам сложно различать их.

В 2014 году общая задача DSL [3] был организован набор данных (Tan et al., 2014), содержащий 13 различных языков (и языковых разновидностей) в шести языковых группах: группа A (боснийский, хорватский, сербский), группа B (индонезийский, малайзийский), группа C (чешский). , словацкий), группа D (бразильский португальский, европейский португальский), группа E (полуостровной испанский, аргентинский испанский), группа F (американский английский, британский английский). Лучшая система достигла производительности более 95% результатов (Goutte et al., 2014). Результаты общей задачи DSL описаны в Zampieri et al. 2014.

Программное обеспечение

[ редактировать ]
  • Apache OpenNLP включает статистический детектор на основе символьных грамм и поставляется с моделью, которая может различать 103 языка.
  • Apache Tika содержит детектор языков для 18 языков.

См. также

[ редактировать ]
  1. ^ Сток, Вольфганг Г.; Сток, Мехтильд (31 июля 2013 г.). Справочник по информатике . Вальтер де Грюйтер. стр. 180–181. ISBN  978-3-11-023500-5 .
  2. ^ Хагивара, Масато (14 декабря 2021 г.). Реальная обработка естественного языка: практическое применение с глубоким обучением . Саймон и Шустер. стр. 105–106. ISBN  978-1-61729-642-0 .
  3. ^ «Мастерская VarDial @ COLING 2014» .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 28092c5877dcffcb32dfc69f6065a965__1719159120
URL1:https://arc.ask3.ru/arc/aa/28/65/28092c5877dcffcb32dfc69f6065a965.html
Заголовок, (Title) документа по адресу, URL1:
Language identification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)