Коричневая кластеризация
Кластеризация Брауна — это сложная иерархическая задача агломеративной кластеризации , основанная на информации о распределении, предложенная Питером Брауном , Уильямом А. Брауном, Винсентом Делла Пьетрой, Питером В. де Соузой , Дженнифер Лай и Робертом Мерсером . [1] Метод, основанный на моделях языка биграмм, [2] обычно применяется к тексту, группируя слова в кластеры, которые считаются семантически связанными в силу того, что они были встроены в схожие контексты.
Введение
[ редактировать ]При обработке естественного языка используется . кластеризация Брауна [3] или кластеризация IBM [4] — это форма иерархической кластеризации слов, основанная на контекстах, в которых они встречаются, предложенная Питером Брауном, Уильямом А. Брауном, Винсентом Делла Пьетрой, Питером де Соузой, Дженнифер Лай и Робертом Мерсером из IBM в контексте языкового моделирования . [1] Интуиция этого метода заключается в том, что языковая модель на основе классов (также называемая кластерной n -граммной моделью) [4] ), то есть тот, в котором вероятности слов основаны на классах (кластерах) предыдущих слов, используется для решения проблемы разреженности данных , присущей языковому моделированию. Этот метод успешно использовался для улучшения синтаксического анализа, адаптации предметной области и распознавания именованных объектов. [5]
Джурафски и Мартин приводят пример системы бронирования авиабилетов , которой необходимо оценить вероятность биграммы «в Шанхай», не видя этого в обучающем наборе. [4] Система может получить хорошую оценку, если сгруппирует «Шанхай» с названиями других городов, а затем сделает оценку на основе вероятности таких фраз, как «в Лондон», «в Пекин» и «в Денвер».
Техническое определение
[ редактировать ]Браун группирует элементы (т. е. типы ) в классы, используя критерий двоичного слияния, основанный на логарифмической вероятности текста в языковой модели на основе классов, т. е. вероятностной модели, которая учитывает кластеризацию. Таким образом, средняя взаимная информация (AMI) является функцией оптимизации, а слияния выбираются так, чтобы они несли наименьшие потери в глобальной взаимной информации .
В результате результат можно рассматривать не только как двоичное дерево. [6] но, возможно, более полезно в виде последовательности слияний, заканчивающейся одним большим классом всех слов. Эта модель имеет тот же общий вид, что и скрытая марковская модель , сведенная к биграммным вероятностям в решении Брауна задачи. МИ определяется как:
Поиск кластеризации, которая максимизирует вероятность данных, требует больших вычислительных затрат. Подход, предложенный Brown et al. это жадная эвристика .
В работе также предлагается использовать кластеризацию Брауна в качестве упрощенной языковой модели на основе классов биграмм. Учитывая индикаторы членства в кластере c i для токенов w i в тексте, вероятность экземпляра слова w i с учетом предыдущего слова w i-1 определяется выражением: [4]
Это подверглось критике [ нужна ссылка ] как имеющая ограниченную полезность, поскольку она всегда предсказывает только наиболее распространенное слово в любом классе и поэтому ограничена |c| типы слов; это отражается в небольшом относительном снижении недоумения, обнаруженном при использовании этой модели и Брауна.
при применении к данным Твиттера кластеризация Брауна назначала путь двоичного дерева каждому слову в немаркированных твитах во время кластеризации. Например, [7] Префиксы этих путей используются в качестве новых функций тегера. [7]
Вариации
[ редактировать ]Коричневая кластеризация также изучалась с использованием триграмм. [8]
Предложенная кластеризация Брауна генерирует фиксированное количество выходных классов. Важно выбрать правильное количество занятий, которое зависит от задачи. [9] Членство слов в кластере, полученное в результате кластеризации Брауна, может использоваться в качестве признаков в различных задачах машинного обучения по обработке естественного языка. [3]
Обобщение алгоритма было опубликовано на конференции AAAI в 2016 году, включая краткое формальное определение версии 1992 года, а также общую форму. [10] В основе этого лежит концепция, согласно которой классы, рассматриваемые для слияния, не обязательно представляют собой окончательное количество выходных классов, и что изменение количества классов, рассматриваемых для слияния, напрямую влияет на скорость и качество конечного результата.
Нет известных теоретических гарантий относительно жадной эвристики, предложенной Брауном и др. (по состоянию на февраль 2018 г.). Однако проблему кластеризации можно сформулировать как оценку параметров базовой языковой модели на основе классов: можно разработать непротиворечивую систему оценки для этой модели при мягких предположениях. [11]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б Браун, Питер Ф.; де Соуза, Питер В.; Мерсер, Роберт Л.; Делла Пьетра, Винсент Дж.; Лай, Дженифер К. (1992). на основе классов « Н- граммные модели естественного языка » (PDF) . Компьютерная лингвистика . 18 (4): 467–479. CiteSeerX 10.1.1.94.9004 .
- ^ Гомес, Мануэль Монтес и; Эскаланте, Уго Хаир; СЕГУРА, Альберто; Мурильо, Хуан де Диос (2016). Достижения в области искусственного интеллекта — IBERAMIA 2016: 15-я Иберо-американская конференция по искусственному интеллекту, Сан-Хосе, Коста-Рика, 23–25 ноября 2016 г., Материалы . Чам, Швейцария: Springer. п. 177. ИСБН 978-3-319-47954-5 .
- ^ Перейти обратно: а б Туриан, Джозеф; Ратинов Лев; Бенджио, Йошуа (2010). Словесные представления: простой и общий метод обучения под учителем (PDF) . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. стр. 1533–9. CiteSeerX 10.1.1.714.8528 .
- ^ Перейти обратно: а б с д Юрафский, Дэниел; Мартин, Джеймс Х. (2009). Речевая и языковая обработка . Пирсон Эдьюкейшн Интернэшнл. стр. 145–6. ISBN 9780131873216 .
- ^ Рем, Георг; Деклерк, Тьерри (2018). Языковые технологии для вызовов цифровой эпохи: 27-я Международная конференция, GSCL 2017, Берлин, Германия, 13-14 сентября 2017, Труды . Чам, Швейцария: Springer. п. 66. ИСБН 978-3-319-73705-8 .
- ^ Сунь, Маосун; Чжан, Мин; Линь, Декан; Ван, Хайфэн (2013). Китайская компьютерная лингвистика и обработка естественного языка на основе больших данных с естественными аннотациями: 12-я Китайская национальная конференция, CCL 2013 и Первый международный симпозиум, NLP-NABD 2013, Сучжоу, Китай, 10-12 октября 2013 г., Материалы . Гейдельберг: Спрингер. п. 54. ИСБН 978-3-642-41490-9 .
- ^ Перейти обратно: а б Гуревич Ирина; Биманн, Крис; Зеш, Торстен (2013). Языковая обработка и знания в Интернете: 25-я Международная конференция, GSCL 2013, Дармштадт, Германия, 25-27 сентября 2013 г., Материалы . Гейдельберг: Спрингер. п. 167. ИСБН 978-3-642-40721-5 .
- ^ Мартин, Свен; Лирманн, Йорг; Ней, Герман (1999). «Алгоритмы кластеризации слов биграмм и триграмм». Речевое общение . 24 (1): 19–37. CiteSeerX 10.1.1.53.2354 . дои : 10.1016/S0167-6393(97)00062-9 .
- ^ Дерчинский, Леон; Честер, Шон; Бог, Кеннет С. (2015). Настройте кластеризацию Брауна, пожалуйста (PDF) . Материалы конференции «Последние достижения в области обработки естественного языка». CiteSeerX 10.1.1.713.5576 .
- ^ Дерчинский, Леон; Честер, Шон (2016). Обобщенная кластеризация Брауна и генерация сводных признаков . Материалы тридцатой конференции AAAI по искусственному интеллекту. стр. 1533–9. CiteSeerX 10.1.1.714.8528 .
- ^ Стратос, Карл; Ким, До-кюм; Коллинз, Майкл; Сюй, Дэниел (2014). Спектральный алгоритм для изучения n-граммных моделей естественного языка на основе классов (PDF) . Материалы 30-й конференции по неопределенности в искусственном интеллекте. стр. 762–771. CiteSeerX 10.1.1.643.6343 .