Исследовательский причинно-следственный анализ
Эта статья может быть слишком технической для понимания большинства читателей . ( февраль 2019 г. ) |
Причинный анализ — это область планирования эксперимента и статистического анализа, относящаяся к установлению причины и следствия. [1] [2] Исследовательский причинно-следственный анализ ( ECA ), также известный как причинно-следственная связь данных или причинно-следственная связь. [3] Это использование статистических алгоритмов для вывода ассоциаций в наблюдаемых наборах данных, которые потенциально являются причинно-следственными при строгих предположениях. ECA — это тип причинного вывода, отличный от причинного моделирования и эффектов лечения в рандомизированных контролируемых исследованиях . [4] Это поисковое исследование, обычно предшествующее более формальному причинно-следственному исследованию , точно так же, как исследовательский анализ данных часто предшествует проверке статистических гипотез при анализе данных. [5] [6]
Мотивация
[ редактировать ]Анализ данных в первую очередь касается причинно-следственных вопросов. [3] [4] [7] [8] [9] Например, способствовали ли удобрения росту урожая? [10] Или можно ли предотвратить данную болезнь? [11] Или почему мой друг в депрессии? [12] Потенциальные результаты и методы регрессионного анализа обрабатывают такие запросы, когда данные собираются с помощью запланированных экспериментов. Данные, собранные в ходе обсервационных исследований, требуют различных методов причинно-следственной связи (например, из-за таких проблем, как смешивание ). [13] Методы причинно-следственной связи, используемые с экспериментальными данными, требуют дополнительных предположений для получения разумных выводов на основе данных наблюдений. [14] Трудность причинного вывода в таких обстоятельствах часто резюмируется следующим образом: « корреляция не подразумевает причинно-следственную связь ».
Обзор
[ редактировать ]ECA постулирует, что существуют процедуры анализа данных, выполняемые по конкретным подмножествам переменных в более широком наборе, результаты которых могут указывать на причинно-следственную связь между этими переменными. [3] Например, если мы предположим, что каждая значимая ковариата в данных наблюдается, то сопоставление показателей склонности можно использовать для поиска причинного эффекта между двумя переменными наблюдения. [4] Причинность Грейнджера также можно использовать для поиска причинной связи между двумя переменными наблюдения при разных, но столь же строгих предположениях. [15]
Два широких подхода к разработке таких процедур используют операциональные определения причинности. [5] или проверка «истиной» (т. е. явное игнорирование проблемы определения причинности и демонстрация того, что данный алгоритм подразумевает причинную связь в сценариях, когда известно, что причинные связи существуют, например, с использованием синтетических данных). [3] ).
Оперативные определения причинности
[ редактировать ]Клайв Грейнджер создал первое рабочее определение причинности в 1969 году. [16] Грейнджер применил определение вероятностной причинности, предложенное Норбертом Винером , на практике как сравнение дисперсий. [17]
Некоторые авторы предпочитают использовать методы ЭКА, разработанные с использованием оперативных определений причинности, поскольку считают, что это может помочь в поиске причинных механизмов. [5] [18]
Проверка «правдой»
[ редактировать ]Питер Спиртес , Кларк Глимур и Ричард Шайнс выдвинули идею о том, что явно не следует давать определение причинности. [3] Спиртес и Глимур представили компьютерный алгоритм для обнаружения причинно-следственных связей в 1990 году. [19] Многие современные алгоритмы обнаружения причинно-следственных связей следуют подходу Спиртеса-Глимура к проверке. [20]
Техники
[ редактировать ]Существует множество обзоров методов обнаружения причинно-следственных связей. [3] [5] [20] [21] [22] [23] В этом разделе перечислены широко известные методы.
Двумерный (или «парный»)
[ редактировать ]- Причинность Грейнджера (есть также запись в Scholarpedia [1] )
- передача энтропии
- конвергентное перекрестное отображение
Многомерный
[ редактировать ]Многие из этих методов обсуждаются в учебных пособиях, предоставленных Центром причинных исследований (CCD) [3] .
Примеры использования
[ редактировать ]Социальные науки
[ редактировать ]Алгоритм ПК был применен к нескольким различным наборам данных социальных наук. [3]
Лекарство
[ редактировать ]Алгоритм ПК был применен к медицинским данным. [28] Причинность Грейнджера была применена к данным фМРТ . [29] CCD протестировала свои инструменты, используя биомедицинские данные [4] .
Физика
[ редактировать ]ECA используется в физике для понимания физических причинных механизмов системы, например, в геофизике с использованием PC-стабильного алгоритма (вариант исходного PC-алгоритма). [30] и в динамических системах, использующих попарный асимметричный вывод (вариант конвергентного перекрестного отображения). [31]
Критика
[ редактировать ]Ведутся споры о том, действительно ли связи между данными, обнаруженными с помощью причинно-следственной связи, являются причинно-следственными. [3] [25] Джудея Перл подчеркнула, что причинный вывод требует причинной модели, разработанной «интеллектом» посредством итеративного процесса проверки предположений и подбора данных. [7]
В ответ на критику указывается, что предположения, использованные для разработки методов ECA, могут не соответствовать данному набору данных. [3] [14] [32] [33] [34] и что любые причинно-следственные связи, обнаруженные в ходе ЭКА, зависят от справедливости этих предположений. [25] [35]
Пакеты программного обеспечения
[ редактировать ]Комплексные наборы инструментов
[ редактировать ]- Tetrad — это Java-программа с открытым исходным кодом, основанная на графическом интерфейсе пользователя, которая предоставляет набор алгоритмов причинного обнаружения. [36] Библиотека алгоритмов, используемая Tetrad, также доступна в виде инструмента командной строки , Python API и R. оболочки [37]
- Java Information Dynamics Toolkit (JIDT) — это Java-библиотека с открытым исходным кодом для выполнения теоретико-информационного обнаружения причинно-следственных связей (т. е. энтропии передачи, энтропии условной передачи и т. д.) [5] . Примеры использования библиотеки в MATLAB , GNU Octave , Python , R , Julia и Clojure приведены в документации [6] .
- pcalg — это пакет R , который предоставляет некоторые из тех же алгоритмов обнаружения причин, что и в Tetrad [7]. Архивировано 20 июля 2017 г. на Wayback Machine .
Конкретные методы
[ редактировать ]Причинность Грейнджер
[ редактировать ]конвергентное перекрестное отображение
[ редактировать ]- R Пакет [10]. Архивировано 25 сентября 2019 г. на Wayback Machine.
ЛИНГАМ
[ редактировать ]- MATLAB / GNU Octave Пакет [11]
Существует также набор инструментов и данных, поддерживаемый командой Causality Workbench [12] и командой CCD [13] .
Ссылки
[ редактировать ]- ^ Ролфинг, Инго; Шнайдер, Карстен К. (2018). «Объединяющая структура причинного анализа в теоретико-множественных многометодных исследованиях» (PDF) . Социологические методы и исследования . 47 (1): 37–63. дои : 10.1177/0049124115626170 . S2CID 124804330 . Архивировано из оригинала (PDF) 9 октября 2022 года . Проверено 29 февраля 2020 г.
- ^ Брэди, Генри Э. (7 июля 2011 г.). «Причинность и объяснение в социальных науках» . Оксфордский справочник по политологии . doi : 10.1093/oxfordhb/9780199604456.013.0049 . Проверено 29 февраля 2020 г.
- ^ Перейти обратно: а б с д и ж г час я дж к Спиртес, П.; Глимур, К.; Шайнс, Р. (2012). Причинно-следственная связь, предсказание и поиск . Springer Science & Business Media. ISBN 978-1461227489 .
- ^ Перейти обратно: а б с Розенбаум, Пол (2017). Наблюдение и эксперимент: введение в причинный вывод . Издательство Гарвардского университета. ISBN 9780674975576 .
- ^ Перейти обратно: а б с д Маккракен, Джеймс (2016). Исследовательский причинный анализ с данными временных рядов (обобщающие лекции по интеллектуальному анализу данных и обнаружению знаний) . Издательство Морган и Клейпул. ISBN 978-1627059343 .
- ^ Тьюки, Джон В. (1977). Исследовательский анализ данных . Пирсон. ISBN 978-0201076165 .
- ^ Перейти обратно: а б Перл, Иудея (2018). Книга «Почему: новая наука о причине и следствии» . Основные книги. ISBN 978-0465097616 .
- ^ Кляйнберг, Саманта (2015). Почему: Руководство по поиску и использованию причин . O'Reilly Media, Inc. ISBN 978-1491952191 .
- ^ Иллари, П.; Руссо, Ф. (2014). Причинность: философская теория встречается с научной практикой . ОУП Оксфорд. ISBN 978-0191639685 .
- ^ Фишер, Р. (1937). План экспериментов . Оливер и Бойд.
- ^ Хилл, Б. (1955). Принципы медицинской статистики . Ланцет Лимитед.
- ^ Халперн, Дж. (2016). Фактическая причинно-следственная связь . МТИ Пресс. ISBN 978-0262035026 .
- ^ Перл, Дж.; Глимур, М.; Джуэлл, НП (2016). Причинно-следственный вывод в статистике: учебник для начинающих . Джон Уайли и сыновья. ISBN 978-1119186847 .
- ^ Перейти обратно: а б Стоун, Р. (1993). «Предположения, на которых основываются причинные выводы». Журнал Королевского статистического общества. Серия Б (Методическая) . 55 (2): 455–466. дои : 10.1111/j.2517-6161.1993.tb01915.x .
- ^ Грейнджер, К. (1980). «Тестирование причинности: личная точка зрения». Журнал экономической динамики и контроля . 2 : 329–352. дои : 10.1016/0165-1889(80)90069-X .
- ^ Грейнджер, CWJ (1969). «Исследование причинно-следственных связей с помощью эконометрических моделей и кросс-спектральных методов». Эконометрика . 37 (3): 424–438. дои : 10.2307/1912791 . JSTOR 1912791 .
- ^ Грейнджер, Клайв. «Лекция о премии. NobelPrize.org. Nobel Media AB 2018» .
- ^ Вудворд, Джеймс (2004). Как заставить вещи происходить: теория причинного объяснения (Оксфордские исследования по философии науки) . Издательство Оксфордского университета. ISBN 978-1435619999 .
- ^ Спиртес, П.; Глимур, К. (1991). «Алгоритм быстрого восстановления разреженных причинных графов». Компьютерный обзор социальных наук . 9 (1): 62–72. дои : 10.1177/089443939100900106 . S2CID 38398322 .
- ^ Перейти обратно: а б Го, Жочэн; Ченг, Лу; Ли, Цзюньдун; Хан, П. Ричард; Лю, Хуан (2020). «Обзор изучения причинно-следственной связи с данными». Обзоры вычислительной техники ACM . 53 (4): 1–37. arXiv : 1809.09337 . дои : 10.1145/3397269 . S2CID 52822969 .
- ^ Малинский, Дэниел; Дэнкс, Дэвид (2018). «Алгоритмы причинно-следственного обнаружения: Практическое руководство» . Философский компас . 13 (1): e12470. дои : 10.1111/phc3.12470 .
- ^ Спиртес, П.; Чжан, К. (2016). «Причинное открытие и вывод: концепции и последние методологические достижения» . Appl Inform (Берл) . 3 : 3. дои : 10.1186/s40535-016-0018-x . ПМЦ 4841209 . ПМИД 27195202 .
- ^ Ю, Куй; Ли, Цзююн; Лю, Лин; Ричард Хан, П.; Лю, Хуан (2016). «Обзор алгоритмов причинно-следственного обнаружения на основе ограничений». arXiv : 1611.03977 [ cs.AI ].
- ^ Сунь, Цзе; Боллт, Эрик М.; Ли, Цзюньдун; Ричард Хан, П.; Лю, Хуан (2014). «Энтропия причинно-следственной связи определяет косвенные влияния, доминирование соседей и упреждающие связи». Физика D: Нелинейные явления . 267 : 49–57. arXiv : 1504.03769 . Бибкод : 2014PhyD..267...49S . дои : 10.1016/j.physd.2013.07.001 . S2CID 14422483 .
- ^ Перейти обратно: а б с Фридман, Дэвид; Хамфрис, Пол (1999). «Существуют ли алгоритмы, обнаруживающие причинную структуру?». Синтезируйте . 121 (1–2): 29–54. дои : 10.1023/А:1005277613752 . S2CID 6826436 .
- ^ Рагу, В.К.; Рэмси, доктор юридических наук; Моррис, А.; Манатакис, Д.В.; Спрайты, П.; Хризантис, ПК; Глимур, К.; Бенос, П.В. (2018). «Сравнение стратегий масштабируемого причинно-следственного обнаружения моделей скрытых переменных из смешанных данных» . Международный журнал науки о данных и аналитики . 6 (33): 33–45. дои : 10.1007/s41060-018-0104-3 . ПМК 6096780 . ПМИД 30148202 .
- ^ Симидзу, С (2014). «LiNGAM: негауссовы методы оценки причинных структур». Поведенческая метрика . 41 (1): 65–98. дои : 10.2333/bhmk.41.65 . S2CID 49238101 .
- ^ Чик, К.; Чжэн, Х.; Холлстрем, БР; Хьюз, RE (2018). «Применение алгоритма обнаружения причин для анализа данных реестра артропластики» . Биомед Инж Компьютерная Биол . 9 : 117959721875689. дои : 10.1177/1179597218756896 . ПМК 5826097 . ПМИД 29511363 .
- ^ Вэнь, X.; Рангараджан, Г.; Дин, М. (2013). «Является ли причинность Грейнджера жизнеспособным методом анализа данных фМРТ?» . ПЛОС ОДИН . 8 (7): e67428. Бибкод : 2013PLoSO...867428W . дои : 10.1371/journal.pone.0067428 . ПМК 3701552 . ПМИД 23861763 .
- ^ Эберт-Упхофф, Имме; Дэн, Йи (2017). «Причинно-следственные открытия в науках о Земле — использование синтетических данных, чтобы научиться интерпретировать результаты» . Компьютеры и геонауки . 99 : 50–60. Бибкод : 2017CG.....99...50E . дои : 10.1016/j.cageo.2016.10.008 .
- ^ Маккракен, Дж. М.; Вейгель, Р.С.; Ли, Цзюньдун; Ричард Хан, П.; Лю, Хуан (2014). «Конвергентное перекрестное отображение и попарный асимметричный вывод». Физ. Преподобный Е. 90 (6): 062903. arXiv : 1407.5696 . Бибкод : 2014PhRvE..90f2903M . дои : 10.1103/PhysRevE.90.062903 . ПМИД 25615160 . S2CID 7506718 .
- ^ Шайнс, Р. (1997). «Введение в причинный вывод» (PDF) . Причинность в кризисе : 185–199.
- ^ Голландия, PW (1986). «Статистика и причинно-следственные связи». Журнал Американской статистической ассоциации . 81 (396): 945–960. дои : 10.1080/01621459.1986.10478354 . S2CID 14377504 .
- ^ Имбенс, Г.В.; Рубин, Д.Б. (2015). Причинно-следственный вывод в статистике, социальных и биомедицинских науках . Издательство Кембриджского университета. ISBN 978-0521885881 .
- ^ Морган, СЛ; Уиншип, К. (2015). Контрфакты и причинно-следственные выводы . Издательство Кембриджского университета. ISBN 978-1107065079 .
- ^ «Причинные модели и статистические данные, Проект Тетрада» .
- ^ «Инструменты, Центр причинно-следственных связей, Питтсбургский университет» . 10 августа 2016 г.