Jump to content

Коричневая кластеризация

Кластеризация Брауна — это сложная иерархическая задача агломеративной кластеризации , основанная на информации о распределении, предложенная Питером Брауном , Уильямом А. Брауном, Винсентом Делла Пьетрой, Питером В. де Соузой , Дженнифер Лай и Робертом Мерсером . [1] Метод, основанный на моделях языка биграмм, [2] обычно применяется к тексту, группируя слова в кластеры, которые считаются семантически связанными в силу того, что они были встроены в схожие контексты.

Введение

[ редактировать ]

При обработке естественного языка используется . кластеризация Брауна [3] или кластеризация IBM [4] — это форма иерархической кластеризации слов, основанная на контекстах, в которых они встречаются, предложенная Питером Брауном, Уильямом А. Брауном, Винсентом Делла Пьетрой, Питером де Соузой, Дженнифер Лай и Робертом Мерсером из IBM в контексте языкового моделирования . [1] Интуиция этого метода заключается в том, что языковая модель на основе классов (также называемая кластерной n -граммной моделью) [4] ), то есть тот, в котором вероятности слов основаны на классах (кластерах) предыдущих слов, используется для решения проблемы разреженности данных , присущей языковому моделированию. Этот метод успешно использовался для улучшения синтаксического анализа, адаптации предметной области и распознавания именованных объектов. [5]

Джурафски и Мартин приводят пример системы бронирования авиабилетов , которой необходимо оценить вероятность биграммы «в Шанхай», не видя этого в обучающем наборе. [4] Система может получить хорошую оценку, если сгруппирует «Шанхай» с названиями других городов, а затем сделает оценку на основе вероятности таких фраз, как «в Лондон», «в Пекин» и «в Денвер».

Техническое определение

[ редактировать ]

Браун группирует элементы (т. е. типы ) в классы, используя критерий двоичного слияния, основанный на логарифмической вероятности текста в языковой модели на основе классов, т. е. вероятностной модели, которая учитывает кластеризацию. Таким образом, средняя взаимная информация (AMI) является функцией оптимизации, а слияния выбираются так, чтобы они несли наименьшие потери в глобальной взаимной информации .

В результате результат можно рассматривать не только как двоичное дерево. [6] но, возможно, более полезно в виде последовательности слияний, заканчивающейся одним большим классом всех слов. Эта модель имеет тот же общий вид, что и скрытая марковская модель , сведенная к биграммным вероятностям в решении Брауна задачи. МИ определяется как:

Поиск кластеризации, которая максимизирует вероятность данных, требует больших вычислительных затрат. Подход, предложенный Brown et al. это жадная эвристика .

В работе также предлагается использовать кластеризацию Брауна в качестве упрощенной языковой модели на основе классов биграмм. Учитывая индикаторы членства в кластере c i для токенов w i в тексте, вероятность экземпляра слова w i с учетом предыдущего слова w i-1 определяется выражением: [4]

Это подверглось критике [ нужна ссылка ] как имеющая ограниченную полезность, поскольку она всегда предсказывает только наиболее распространенное слово в любом классе и поэтому ограничена |c| типы слов; это отражается в небольшом относительном снижении недоумения, обнаруженном при использовании этой модели и Брауна.

при применении к данным Твиттера кластеризация Брауна назначала путь двоичного дерева каждому слову в немаркированных твитах во время кластеризации. Например, [7] Префиксы этих путей используются в качестве новых функций тегера. [7]

Вариации

[ редактировать ]

Коричневая кластеризация также изучалась с использованием триграмм. [8]

Предложенная кластеризация Брауна генерирует фиксированное количество выходных классов. Важно выбрать правильное количество занятий, которое зависит от задачи. [9] Членство слов в кластере, полученное в результате кластеризации Брауна, может использоваться в качестве признаков в различных задачах машинного обучения по обработке естественного языка. [3]

Обобщение алгоритма было опубликовано на конференции AAAI в 2016 году, включая краткое формальное определение версии 1992 года, а также общую форму. [10] В основе этого лежит концепция, согласно которой классы, рассматриваемые для слияния, не обязательно представляют собой окончательное количество выходных классов, и что изменение количества классов, рассматриваемых для слияния, напрямую влияет на скорость и качество конечного результата.

Нет известных теоретических гарантий относительно жадной эвристики, предложенной Брауном и др. (по состоянию на февраль 2018 г.). Однако проблему кластеризации можно сформулировать как оценку параметров базовой языковой модели на основе классов: можно разработать непротиворечивую систему оценки для этой модели при мягких предположениях. [11]

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Браун, Питер Ф.; де Соуза, Питер В.; Мерсер, Роберт Л.; Делла Пьетра, Винсент Дж.; Лай, Дженифер К. (1992). на основе классов « Н- граммные модели естественного языка » (PDF) . Компьютерная лингвистика . 18 (4): 467–479. CiteSeerX   10.1.1.94.9004 .
  2. ^ Гомес, Мануэль Монтес и; Эскаланте, Уго Хаир; СЕГУРА, Альберто; Мурильо, Хуан де Диос (2016). Достижения в области искусственного интеллекта — IBERAMIA 2016: 15-я Иберо-американская конференция по искусственному интеллекту, Сан-Хосе, Коста-Рика, 23–25 ноября 2016 г., Материалы . Чам, Швейцария: Springer. п. 177. ИСБН  978-3-319-47954-5 .
  3. ^ Перейти обратно: а б Туриан, Джозеф; Ратинов Лев; Бенджио, Йошуа (2010). Словесные представления: простой и общий метод обучения под учителем (PDF) . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. стр. 1533–9. CiteSeerX   10.1.1.714.8528 .
  4. ^ Перейти обратно: а б с д Юрафский, Дэниел; Мартин, Джеймс Х. (2009). Речевая и языковая обработка . Пирсон Эдьюкейшн Интернэшнл. стр. 145–6. ISBN  9780131873216 .
  5. ^ Рем, Георг; Деклерк, Тьерри (2018). Языковые технологии для вызовов цифровой эпохи: 27-я Международная конференция, GSCL 2017, Берлин, Германия, 13-14 сентября 2017, Труды . Чам, Швейцария: Springer. п. 66. ИСБН  978-3-319-73705-8 .
  6. ^ Сунь, Маосун; Чжан, Мин; Линь, Декан; Ван, Хайфэн (2013). Китайская компьютерная лингвистика и обработка естественного языка на основе больших данных с естественными аннотациями: 12-я Китайская национальная конференция, CCL 2013 и Первый международный симпозиум, NLP-NABD 2013, Сучжоу, Китай, 10-12 октября 2013 г., Материалы . Гейдельберг: Спрингер. п. 54. ИСБН  978-3-642-41490-9 .
  7. ^ Перейти обратно: а б Гуревич Ирина; Биманн, Крис; Зеш, Торстен (2013). Языковая обработка и знания в Интернете: 25-я Международная конференция, GSCL 2013, Дармштадт, Германия, 25-27 сентября 2013 г., Материалы . Гейдельберг: Спрингер. п. 167. ИСБН  978-3-642-40721-5 .
  8. ^ Мартин, Свен; Лирманн, Йорг; Ней, Герман (1999). «Алгоритмы кластеризации слов биграмм и триграмм». Речевое общение . 24 (1): 19–37. CiteSeerX   10.1.1.53.2354 . дои : 10.1016/S0167-6393(97)00062-9 .
  9. ^ Дерчинский, Леон; Честер, Шон; Бог, Кеннет С. (2015). Настройте кластеризацию Брауна, пожалуйста (PDF) . Материалы конференции «Последние достижения в области обработки естественного языка». CiteSeerX   10.1.1.713.5576 .
  10. ^ Дерчинский, Леон; Честер, Шон (2016). Обобщенная кластеризация Брауна и генерация сводных признаков . Материалы тридцатой конференции AAAI по искусственному интеллекту. стр. 1533–9. CiteSeerX   10.1.1.714.8528 .
  11. ^ Стратос, Карл; Ким, До-кюм; Коллинз, Майкл; Сюй, Дэниел (2014). Спектральный алгоритм для изучения n-граммных моделей естественного языка на основе классов (PDF) . Материалы 30-й конференции по неопределенности в искусственном интеллекте. стр. 762–771. CiteSeerX   10.1.1.643.6343 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cd34a0e70e80ce2f291d74ba6249a9bd__1705963680
URL1:https://arc.ask3.ru/arc/aa/cd/bd/cd34a0e70e80ce2f291d74ba6249a9bd.html
Заголовок, (Title) документа по адресу, URL1:
Brown clustering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)