Итеративная пропорциональная подгонка
Итерационная процедура пропорционального подбора ( IPF или IPFP , также известная как бипропорциональный подбор или бипропорция в статистике или экономике (анализ «затраты-выпуск» и т. д.), алгоритм RAS [1] в экономике, сбор статистики опросов и матричное масштабирование в информатике) — это операция поиска подходящей матрицы которая наиболее близка к исходной матрице но с итоговыми суммами строк и столбцов целевой матрицы (который обеспечивает ограничения задачи; внутреннюю часть неизвестно). Подобранная матрица имеет вид , где и являются диагональными матрицами такими, что имеет поля (суммы строк и столбцов) . Некоторые алгоритмы могут быть выбраны для выполнения бипропорции. У нас также есть максимизация энтропии, [2] [3] минимизация потерь информации (или перекрестная энтропия) [4] или RAS, который состоит из факторизации строк матрицы для соответствия указанным итоговым суммам строк, а затем факторизации ее столбцов для соответствия указанным итоговым суммам столбцов; каждый шаг обычно нарушает соответствие предыдущего шага, поэтому эти шаги повторяются циклически, по очереди корректируя строки и столбцы, пока все указанные предельные итоги не будут удовлетворительно аппроксимированы. Однако все алгоритмы дают одно и то же решение. [5] В трехмерных и более объемных случаях этапы корректировки применяются поочередно к границам каждого измерения, причем этапы также повторяются циклически.
История
[ редактировать ]IPF «изобретался заново» много раз, самый первый из них Круитхоф в 1937 году. [6] в отношении телефонного трафика («двухфакторный метод Круитгофа»), Деминг и Стефан в 1940 г. [7] за корректировку перекрестных таблиц переписи и Г.В. Шелейховский за движение транспорта по сообщению Брегмана. [8] (Деминг и Стефан предложили IPFP в качестве алгоритма, ведущего к минимизации статистики Пирсона X-квадрат , но, как позже сообщил Стефан, это не так ). [9] Ранние доказательства уникальности и конвергенции были получены Синкхорном (1964): [10] Бахарах (1965), [11] Бишоп (1967), [12] и Финберг (1970). [13] Доказательство Бишопа о том, что IPFP находит оценку максимального правдоподобия для любого числа измерений, расширило доказательство Брауна 1959 года для случаев 2x2x2.... Доказательство Файнберга с помощью дифференциальной геометрии использует постоянные коэффициенты перекрестного произведения метода для строго положительных таблиц. Чисар (1975). [14] нашел необходимые и достаточные условия для общих таблиц, имеющих нулевые записи. Пукельсхайм и Симеоне (2009) [15] дать дальнейшие результаты по сходимости и поведению ошибок.
Исчерпывающее описание алгоритма и его математических основ можно найти в книге Бишопа и др. (1975). [16] Идеал (2016) [17] дает более поздний опрос.
Другие общие алгоритмы могут быть модифицированы для достижения того же предела, что и IPFP, например метод Ньютона-Рафсона иалгоритм ЭМ . В большинстве случаев предпочтение отдается IPFP из-за его скорости вычислений, низких требований к хранению, числовой стабильности и алгебраической простоты.
Приложения IPFP расширились и теперь включают модели распределения поездок , Fratar или Furness и другие приложения в транспортном планировании (Ламонд и Стюарт), взвешивание опросов, синтез перекрестно классифицированных демографических данных, корректировку моделей «затраты-выпуск» в экономике, оценку ожидаемых квазинезависимых показателей. таблицы непредвиденных обстоятельств , бипропорциональные системы распределения политического представительства и предобусловливатель в линейной алгебре. [18]
Бипропорциональный
[ редактировать ]Бипропорция, какой бы алгоритм ни использовался для ее решения, представляет собой следующую концепцию: , матрица и матрица известны вещественные неотрицательные матрицы размерности ; интерьер неизвестно и ищется так, что имеет те же пределы, что и , то есть и ( вектор суммы) и такой, что близко к следуя заданному критерию, подобранная матрица имеет вид , где и являются диагональными матрицами.
ул. , ∀ и , ∀ .Лагранжиан .
Таким образом , для ∀ ,
который после позирования и , дает
, ∀ , то есть, ,
с , ∀ и , ∀ . и сформировать систему, которую можно решать итеративно:
, ∀ и , ∀ .
Решение не зависит от выбранной инициализации (т.е. мы можем начать с , ∀ или через , ∀ . Если матрица является «неразложимым», то этот процесс имеет единственную неподвижную точку, поскольку он выводится из программы, где функция является выпуклой и непрерывно выводимой функцией, определенной на компактном множестве. В некоторых случаях решения может не существовать: см. пример де Менара, приведенный Миллером и Блэром (Miller RE & Blair PD (2009) Анализ ввода-вывода: основы и расширения, второе издание, Кембридж (Великобритания): Cambridge University Press, стр. 335-336 (в свободном доступе)).
Некоторые свойства (см. де Меснард (1994)):
Недостаток информации: если не несет никакой информации, т.е. , ∀ затем .
Идемпотентность: если имеет те же пределы, что и .
Состав бипропорций: ; .
Нули: ноль в прогнозируется как ноль в . Таким образом, блочно-диагональная матрица проецируется как блочно-диагональная матрица, а треугольная матрица проецируется как треугольная матрица.
Теорема сепарабельных модификаций: если предварительно умножается на диагональную матрицу и/или постумножается на диагональную матрицу, то решение не меняется.
Теорема «единственности»: Если любой неопределенный алгоритм, с , и будучи неизвестным, то и всегда можно преобразовать в стандартную форму и . Демонстрация вызывает некоторые из вышеперечисленных свойств, в частности, теорему о сепарабельных модификациях и о составе бипропорций.
Алгоритм 1 (классический ИПФ)
[ редактировать ]Учитывая двустороннюю ( I × J )-таблицу , мы хотим оценить новую таблицу для всех i и j таких, что маргинальные значения удовлетворяют и .
Выберите начальные значения и для набор
Повторяйте эти шаги до тех пор, пока итоговые суммы строк и столбцов не станут достаточно близки к u и v.
Примечания:
- Для RAS-формы алгоритма определим оператор диагонализации , который создает (диагональную) матрицу с входным вектором на главной диагонали и нулем в других местах. Затем для каждой корректировки строки пусть , из которого . Аналогичным образом каждая корректировка столбца , из которого . Сводя операции к необходимым, легко увидеть, что RAS делает то же самое, что и классический IPF. На практике невозможно реализовать фактическое умножение матриц на целые матрицы R и S; Форма RAS — это скорее обозначение, чем удобство вычислений.
Алгоритм 2 (факторная оценка)
[ редактировать ]Предположим те же настройки, что и в классическом IPFP.В качестве альтернативы мы можем оценить коэффициенты строки и столбца отдельно: выберите начальные значения. и для набор
Повторяйте эти шаги до тех пор, пока последовательные изменения a и b не станут достаточно незначительными (что указывает на то, что полученные суммы строк и столбцов близки к u и v).
Наконец, матрица результатов
Примечания:
- Два варианта алгоритма математически эквивалентны, как видно с помощью формальной индукции. При факторной оценке нет необходимости фактически вычислять значения каждого цикла. .
- Факторизация не является единственной, поскольку она для всех .
Обсуждение
[ редактировать ]Смутно требуемое «сходство» между M и X можно объяснить следующим образом: IPFP (и, следовательно, RAS)сохраняет отношения перекрестного произведения, т.е.
с
Это свойство иногда называют сохранением структуры , и оно напрямую ведет к геометрической интерпретации таблиц сопряженности и доказательству сходимости в основополагающей статье Файнберга (1970).
Прямая факторная оценка (алгоритм 2), как правило, является более эффективным способом решения IPF: тогда как форма классической IPFP требует
элементарные операции на каждом шаге итерации (включая этап подгонки строки и столбца), требуется только оценка фактора
операции выполняются как минимум на порядок быстрее, чем классический IPFP.
IPFP можно использовать для оценки ожидаемых квазинезависимых (неполных) таблиц непредвиденных обстоятельств с , и для включенных ячеек и для исключенных ячеек. Для полностью независимых (полных) таблиц сопряженности оценка с помощью IPFP завершается ровно за один цикл.
Сравнение с НМ-методом
[ редактировать ]Подобно ИПФ, НМ-метод также является операцией нахождения матрицы что является «ближайшим» к матрице ( ), в то время как его итоги по строкам и итоги по столбцам идентичны итоговым значениям целевой матрицы .
Однако существуют различия между НМ-методом и ИПФ . Например, НМ-метод определяет близость матриц одного размера иначе, чем IPF. [19] Также был разработан НМ-метод для решения матричных задач. в задачах, где матрица не является выборкой из генеральной совокупности, характеризуемой итогами строк и итогами столбцов матрицы , но представляет другую популяцию . [19] Напротив, матрица представляет собой выборку из этой совокупности в задачах, где IPF применяется в качестве средства оценки максимального правдоподобия .
Макдональд (2023) [20] спокойно воспринимает вывод Насзоди (2023) [21] что IPF подходит для задач коррекции выборки, но не для генерации контрфактических данных. Подобно Насзоди, Макдональд также задается вопросом, сохраняют ли пропорциональные преобразования строк и столбцов IPF структуру ассоциаций в таблице непредвиденных обстоятельств, которая позволяет нам изучать социальную мобильность.
Существование и уникальность MLE
[ редактировать ]Необходимые и достаточные условия существования и единственности МЛЭ в общем случае сложны (см. [22] ), но достаточные условия для двумерных таблиц просты:
- поля наблюдаемой таблицы не обращаются в нуль (т.е. ) и
- наблюдаемая таблица неотделима (т. е. таблица не принимает блочно-диагональную форму).
Если существуют уникальные MLE, IPFP в худшем случае демонстрирует линейную сходимость (Fienberg 1970), но также наблюдается экспоненциальная сходимость (Pukelsheim and Simeone 2009). Если прямая оценка (т.е. закрытая форма ) существует, IPFP сходится после 2 итераций. Если уникальные MLE не существуют, IPFP по своей конструкции сходится к так называемым расширенным MLE (Haberman 1974), но сходимость может быть сколь угодно медленной и часто неосуществимой с вычислительной точки зрения.
Если все наблюдаемые значения строго положительны, то существование и уникальность MLE и, следовательно, сходимость обеспечены.
Пример
[ редактировать ]Рассмотрим следующую таблицу, в которой указаны суммы строк и столбцов и целевые значения.
1 | 2 | 3 | 4 | ОБЩИЙ | ЦЕЛЬ | |
---|---|---|---|---|---|---|
1 | 40 | 30 | 20 | 10 | 100 | 150 |
2 | 35 | 50 | 100 | 75 | 260 | 300 |
3 | 30 | 80 | 70 | 120 | 300 | 400 |
4 | 20 | 30 | 40 | 50 | 140 | 150 |
ОБЩИЙ | 125 | 190 | 230 | 255 | 800 | |
ЦЕЛЬ | 200 | 300 | 400 | 100 | 1000 |
Для выполнения классического IPFP мы сначала настраиваем строки:
1 | 2 | 3 | 4 | ОБЩИЙ | ЦЕЛЬ | |
---|---|---|---|---|---|---|
1 | 60.00 | 45.00 | 30.00 | 15.00 | 150.00 | 150 |
2 | 40.38 | 57.69 | 115.38 | 86.54 | 300.00 | 300 |
3 | 40.00 | 106.67 | 93.33 | 160.00 | 400.00 | 400 |
4 | 21.43 | 32.14 | 42.86 | 53.57 | 150.00 | 150 |
ОБЩИЙ | 161.81 | 241.50 | 281.58 | 315.11 | 1000.00 | |
ЦЕЛЬ | 200 | 300 | 400 | 100 | 1000 |
Первый шаг точно сопоставил суммы строк, но не суммы столбцов. Далее корректируем столбцы:
1 | 2 | 3 | 4 | ОБЩИЙ | ЦЕЛЬ | |
---|---|---|---|---|---|---|
1 | 74.16 | 55.90 | 42.62 | 4.76 | 177.44 | 150 |
2 | 49.92 | 71.67 | 163.91 | 27.46 | 312.96 | 300 |
3 | 49.44 | 132.50 | 132.59 | 50.78 | 365.31 | 400 |
4 | 26.49 | 39.93 | 60.88 | 17.00 | 144.30 | 150 |
ОБЩИЙ | 200.00 | 300.00 | 400.00 | 100.00 | 1000.00 | |
ЦЕЛЬ | 200 | 300 | 400 | 100 | 1000 |
Теперь суммы столбцов точно соответствуют целевым значениям, но суммы строк больше не соответствуют их целевым значениям. После завершения трех циклов, каждый с корректировкой строк и корректировок столбцов, мы получаем более близкое приближение:
1 | 2 | 3 | 4 | ОБЩИЙ | ЦЕЛЬ | |
---|---|---|---|---|---|---|
1 | 64.61 | 46.28 | 35.42 | 3.83 | 150.13 | 150 |
2 | 49.95 | 68.15 | 156.49 | 25.37 | 299.96 | 300 |
3 | 56.70 | 144.40 | 145.06 | 53.76 | 399.92 | 400 |
4 | 28.74 | 41.18 | 63.03 | 17.03 | 149.99 | 150 |
ОБЩИЙ | 200.00 | 300.00 | 400.00 | 100.00 | 1000.00 | |
ЦЕЛЬ | 200 | 300 | 400 | 100 | 1000 |
Выполнение
[ редактировать ]Пакет R mipfp (в настоящее время в версии 3.2) обеспечивает многомерную реализацию традиционной итеративной процедуры пропорциональной подгонки. [23] Пакет позволяет обновлять N -мерный массив относительно заданных целевых предельных распределений (которые, в свою очередь, могут быть многомерными).
У Python есть эквивалентный пакет ipfn. [24] [25] который можно установить через pip. Пакет поддерживает объекты ввода numpy и pandas.
См. также
[ редактировать ]- Очистка данных
- Редактирование данных
- НМ-метод
- Триангуляция (социальные науки) для количественного и качественного улучшения данных исследования.
Ссылки
[ редактировать ]- ^ Бахарах, М. (1965). «Оценка неотрицательных матриц по маргинальным данным». Международное экономическое обозрение . 6 (3). Издательство Блэквелл: 294–310. дои : 10.2307/2525582 . JSTOR 2525582 .
- ^ Джейнс ET (1957) Теория информации и статистическая механика, Physical Review, 106: 620-30.
- ^ Wilson AG (1970) Энтропия в городском и региональном моделировании. Лондон: Pion LTD, Монография по анализу пространственных и экологических систем.
- ^ Кульбак С. и Лейблер Р.А. (1951) Об информации и достаточности, Анналы математики и статистики, 22 (1951) 79-86.
- ^ де Меснар, Л. (1994). «Единственность бипропорции». Журнал SIAM по матричному анализу и его приложениям . 15 (2): 490–495. дои : 10.1137/S0895479891222507 . https://www.researchgate.net/publication/243095013_Unicity_of_Biproportion
- ^ Круитхоф, Дж (февраль 1937 г.). «Счет за телефонный трафик (Учет телефонного трафика)» . Инженер . 52 (8): Е15–Е25.
- ^ Деминг, МЫ ; Стефан, Ф.Ф. (1940). «О корректировке выборочной таблицы частот методом наименьших квадратов, когда известны ожидаемые предельные суммы» . Анналы математической статистики . 11 (4): 427–444. дои : 10.1214/aoms/1177731829 . МР 0003527 .
- ^ Ламонд, Б. и Стюарт, Н.Ф. (1981) Метод балансировки Брегмана. Транспортные исследования 15Б, 239-248.
- ^ Стефан, Ф.Ф. (1942). «Итеративный метод корректировки таблиц частот, когда известны ожидаемые запасы» . Анналы математической статистики . 13 (2): 166–178. дои : 10.1214/aoms/1177731604 . МР 0006674 . Збл 0060.31505 .
- ^ Синкхорн, Ричард (1964). «Связь между произвольными положительными матрицами и дваждыСтохастические матрицы». В: Анналы математической статистики 35.2, стр. 876–879.
- ^ Бахарах, Майкл (1965). «Оценка неотрицательных матриц по маргинальным данным». В: International Economic Review 6.3, стр. 294–310.
- ^ Бишоп, YMM (1967). «Многомерные таблицы непредвиденных обстоятельств: оценки ячеек». Кандидатская диссертация.Гарвардский университет.
- ^ Финберг, SE (1970). «Итерационная процедура оценки в таблицах сопряженности» . Анналы математической статистики . 41 (3): 907–917. дои : 10.1214/aoms/1177696968 . JSTOR 2239244 . МР 0266394 . Збл 0198.23401 .
- ^ Чисар, И. (1975). « I -Расхождение вероятностных распределений и задачи минимизации» . Анналы вероятности . 3 (1): 146–158. дои : 10.1214/aop/1176996454 . JSTOR 2959270 . МР 0365798 . Збл 0318.60013 .
- ^ «Об итерационной процедуре пропорциональной аппроксимации: структура точек накопления и анализ ошибок L1» . Пукельсхайм Ф. и Симеоне Б. Проверено 28 июня 2009 г.
- ^ Бишоп, YMM ; Файнберг, SE ; Голландия, PW (1975). Дискретный многомерный анализ: теория и практика . МТИ Пресс. ISBN 978-0-262-02113-5 . МР 0381130 .
- ^ Мартин Идель (2016)Обзор матричного масштабирования и нормальной формы Синкхорна для матриц и положительных отображений.Препринт arXiv https://arxiv.org/pdf/1609.06349.pdf
- ^ Брэдли, AM (2010) Алгоритмы уравновешивания матриц и их применение к квазиньютоновым методам с ограниченной памятью. доктор философии диссертация, Институт вычислительной и математической инженерии, Стэнфордский университет, 2010 г.
- ^ Jump up to: а б Насзоди, А.; Мендонка, Ф. (2021). «Новый метод определения роли супружеских предпочтений в формировании моделей брака» . Журнал демографической экономики . 1 (1): 1–27. дои : 10.1017/дем.2021.1 .
- ^ Макдональд, К. (2023). «Еще раз о предельной корректировке таблиц мобильности» . ОСФ : 1–19.
- ^ Насзоди, А. (2023). «Итерационный алгоритм пропорциональной аппроксимации и НМ-метод: решения двух разных групп задач». arXiv : 2303.05515 [ econ.GN ].
- ^ Хаберман, С.Дж. (1974). Анализ частотных данных . унив. Чикаго Пресс. ISBN 978-0-226-31184-5 .
- ^ Бартелеми, Йохан; Зюссе, Томас. «mipfp: многомерная итеративная пропорциональная аппроксимация» . КРАН . Проверено 23 февраля 2015 г.
- ^ «ipfn: пип» .
- ^ «ipfn: github» .