Идентификация языка
При обработке естественного языка идентификация языка или угадывание языка — это проблема определения того, на каком естественном языке находится данный контент. Вычислительные подходы к этой проблеме рассматривают ее как особый случай категоризации текста , решаемый с помощью различных статистических методов.
Обзор
[ редактировать ]Существует несколько статистических подходов к идентификации языка, использующих различные методы классификации данных. Один из методов — сравнить сжимаемость текста со сжимаемостью текстов на наборе известных языков. Этот подход известен как измерение расстояния на основе взаимной информации. Тот же метод можно использовать и для эмпирического построения генеалогических деревьев языков, которые точно соответствуют деревьям, построенным историческими методами. [ нужна ссылка ] Измерение расстояния на основе взаимной информации по существу эквивалентно более традиционным методам, основанным на моделях, и обычно не считается ни новым, ни лучшим, чем более простые методы.
Другой метод, описанный Кавнаром и Тренклом (1994) и Даннингом (1994), заключается в создании языковой n-граммной модели из «обучающего текста» для каждого из языков. Эти модели могут быть основаны на символах (Кавнар и Тренкл) или закодированных байтах (Даннинг); в последнем идентификация языка и обнаружение кодировки символов интегрированы . Затем для любого фрагмента текста, который необходимо идентифицировать, создается аналогичная модель, и эта модель сравнивается с каждой сохраненной языковой моделью. Наиболее вероятным является тот язык, модель которого наиболее похожа на модель из текста, который необходимо идентифицировать. Этот подход может быть проблематичным, если входной текст написан на языке, для которого не существует модели. В этом случае метод может вернуть в качестве результата другой, «наиболее похожий» язык. Также проблематичными для любого подхода являются фрагменты входного текста, состоящие из нескольких языков, как это часто бывает в Интернете.
Более новый метод см. в Řehůřek and Kolkus (2009). Этот метод может обнаружить несколько языков в неструктурированном фрагменте текста и надежно работает с короткими текстами, состоящими всего из нескольких слов: с этим сталкиваются подходы с использованием n-грамм .
Более старый статистический метод Грефенштетта был основан на преобладании определенных служебных слов (например, «the» в английском языке).
Распространенный нестатистический интуитивный подход (хотя и весьма неопределенный) заключается в поиске общих комбинаций букв, отличительных диакритических знаков или знаков препинания. [1] [2]
Определение похожих языков
[ редактировать ]Одним из самых узких мест систем языковой идентификации является различие между близкородственными языками. Подобные языки, такие как болгарский и македонский или индонезийский и малайский, имеют значительное лексическое и структурное совпадение, из-за чего системам сложно различать их.
В 2014 году общая задача DSL [3] был организован набор данных (Tan et al., 2014), содержащий 13 различных языков (и языковых разновидностей) в шести языковых группах: группа A (боснийский, хорватский, сербский), группа B (индонезийский, малайзийский), группа C (чешский). , словацкий), группа D (бразильский португальский, европейский португальский), группа E (полуостровной испанский, аргентинский испанский), группа F (американский английский, британский английский). Лучшая система достигла производительности более 95% результатов (Goutte et al., 2014). Результаты общей задачи DSL описаны в Zampieri et al. 2014.
Программное обеспечение
[ редактировать ]- Apache OpenNLP включает статистический детектор на основе символьных грамм и поставляется с моделью, которая может различать 103 языка.
- Apache Tika содержит детектор языков для 18 языков.
См. также
[ редактировать ]- Идентификация родного языка
- Алгоритмическая теория информации
- Искусственное изучение грамматики
- Аффиксы фамилии
- Колмогоровская сложность
- Языковой анализ для определения происхождения
- Машинный перевод
- Перевод
Ссылки
[ редактировать ]- Бенедетто Д., Э. Кальоти и В. Лорето. Языковые деревья и архивирование . Physical Review Letters , 88:4 (2002), Теория сложности .
- Кавнар, Уильям Б. и Джон М. Тренкл. «Категоризация текста на основе N-грамм». Материалы SDAIR-94, 3-го ежегодного симпозиума по анализу документов и поиску информации (1994) [1] .
- Чилибраси, Руди и Пол М.Б. Витаньи. « Кластеризация путем сжатия ». Транзакции IEEE по теории информации 51 (4), апрель 2005 г., 1523–1545.
- Даннинг, Т. (1994) «Статистическая идентификация языка». Технический отчет MCCS 94-273, Университет штата Нью-Мексико, 1994 г.
- Гудман, Джошуа. (2002) Расширенный комментарий к «Языковым деревьям и архивированию» . Microsoft Research, 21 февраля 2002 г. (Это критика сжатия данных в пользу наивного байесовского метода.)
- Гутте, К.; Леже, С.; Карпуат, М. (2014) Система NRC для распознавания похожих языков . Материалы семинара Coling 2014 «Применение инструментов НЛП к схожим языкам, разновидностям и диалектам»
- Грефенштетт, Грегори. (1995) Сравнение двух схем языковой идентификации. Материалы 3-й Международной конференции по статистическому анализу текстовых данных (JADT 1995).
- Поутсма, Арьен. (2001) Применение методов Монте-Карло для идентификации языка. СмартХейвен, Амстердам. Представлено на CLIN 2001. Архивировано 7 января 2015 г. в Wayback Machine .
- Тан, Л.; Зампиери, М.; Любешич, Н.; Тидеманн, Дж. (2014) Объединение сопоставимых источников данных для дискриминации схожих языков: Коллекция корпуса DSL . Материалы 7-го семинара по созданию и использованию сопоставимых корпораций (BUCC). Рейкьявик, Исландия. п. 6-10
- Экономист. (2002) « Элементы стиля: анализ сжатых данных приводит к впечатляющим результатам в лингвистике »
- Радим Ржегуржек и Милан Колкус. (2009) « Идентификация языка в Интернете: расширение словарного метода » Компьютерная лингвистика и интеллектуальная обработка текста .
- Зампиери, М.; Тан, Л.; Любешич, Н.; Тидеманн, Дж. (2014) Отчет об общей задаче DSL, 2014 г. . Материалы 1-го семинара по применению инструментов НЛП к схожим языкам, разновидностям и диалектам (VarDial). Дублин, Ирландия. п. 58-67.
Ссылки
[ редактировать ]- ^ Сток, Вольфганг Г.; Сток, Мехтильд (31 июля 2013 г.). Справочник по информатике . Вальтер де Грюйтер. стр. 180–181. ISBN 978-3-11-023500-5 .
- ^ Хагивара, Масато (14 декабря 2021 г.). Реальная обработка естественного языка: практическое применение с глубоким обучением . Саймон и Шустер. стр. 105–106. ISBN 978-1-61729-642-0 .
- ^ «Мастерская VarDial @ COLING 2014» .