Оценка воздействия
в этой статье Использование внешних ссылок может не соответствовать политике и рекомендациям Википедии . ( июнь 2017 г. ) |
Оценка воздействия оценивает изменения, которые можно отнести к конкретному вмешательству, такому как проект, программа или политика, как запланированные, так и, в идеале, непреднамеренные. [ 1 ] В отличие от мониторинга результатов, который проверяет, были ли достигнуты цели, оценка воздействия построена так, чтобы ответить на вопрос: как изменились бы такие результаты, как благополучие участников, если бы вмешательство не было предпринято? Это предполагает контрфактический анализ, то есть «сравнение того, что произошло на самом деле, и того, что произошло бы в отсутствие вмешательства». [ 2 ] Оценки воздействия направлены на получение ответов на вопросы о причинах и следствиях. Другими словами, они ищут изменения в результатах, которые напрямую связаны с программой. [ 3 ]
Оценка воздействия помогает людям ответить на ключевые вопросы для разработки политики, основанной на фактических данных: что работает, что нет, где, почему и за сколько? В последние годы ему уделяется все больше внимания при разработке политики как в развитых, так и в развивающихся странах. [ 4 ] Это важный компонент арсенала инструментов и подходов оценки , а также неотъемлемая часть глобальных усилий по повышению эффективности оказания помощи и государственных расходов в целом на повышение уровня жизни. Первоначально оценка воздействия была более ориентирована на оценку программ социального сектора в развивающихся странах, особенно на условные денежные трансферты , но теперь все чаще применяется в других областях, таких как сельское хозяйство, энергетика и транспорт.
Контрафактические схемы оценки
[ редактировать ]Контрфактический анализ позволяет оценщикам устанавливать причину и следствие между вмешательствами и результатами. «Контрфактическое» измерение того, что произошло бы с бенефициарами в отсутствие вмешательства, а воздействие оценивается путем сравнения контрфактических результатов с теми, которые наблюдались в результате вмешательства. Ключевая проблема в оценке воздействия заключается в том, что контрфактическое явление невозможно наблюдать напрямую, и его необходимо аппроксимировать со ссылкой на группу сравнения. Существует ряд общепринятых подходов к определению подходящей группы сравнения для контрфактического анализа с использованием либо проспективной (ex ante), либо ретроспективной (ex post) схемы оценки. Проспективные оценки начинаются на этапе разработки вмешательства и включают сбор исходных и конечных данных от бенефициаров вмешательства («группа лечения») и не-бенефициаров («группа сравнения»); они могут включать отбор отдельных лиц или сообществ в группы лечения и сравнения. Ретроспективные оценки обычно проводятся после этапа реализации и могут использовать существующие данные опросов, хотя лучшие оценки будут собирать данные как можно ближе к исходному уровню, чтобы обеспечить сопоставимость групп вмешательства и сравнения.
Существует пять ключевых принципов, касающихся внутренней достоверности (план исследования) и внешней достоверности (обобщаемости), которые должны учитываться при тщательной оценке воздействия: искажающие факторы, систематическая ошибка отбора , побочные эффекты, загрязнение и неоднородность воздействия. [ 5 ]
- Смешение возникает, когда определенные факторы, обычно относящиеся к социально-экономическому статусу, коррелируют с воздействием вмешательства и, независимо от воздействия, причинно связаны с интересующим результатом. Таким образом, мешающие факторы являются альтернативными объяснениями наблюдаемой (возможно, ложной) связи между вмешательством и результатом.
- Смещение отбора , особый случай смешения, возникает, когда участники вмешательства неслучайно выбираются из популяции бенефициаров, а критерии, определяющие отбор, коррелируют с результатами. Ненаблюдаемые факторы , которые связаны с доступом к вмешательству или участием в нем и причинно связаны с интересующим результатом, могут привести к ложной связи между вмешательством и результатом, если их не учитывать. Самоотбор происходит там, где, например, более способные или организованные люди или сообщества, которые с большей вероятностью добьются лучших интересующих результатов, также с большей вероятностью примут участие в вмешательстве. Эндогенный отбор программ происходит тогда, когда для участия выбираются отдельные лица или сообщества, поскольку считается, что они с большей вероятностью получат выгоду от вмешательства. Игнорирование мешающих факторов может привести к проблеме смещения пропущенной переменной. В частном случае систематической ошибки отбора эндогенность переменных выборки может вызвать систематическую ошибку одновременности.
- Перелив (называемый «заражением» в случае экспериментальных оценок) происходит, когда вмешательство затрагивает членов группы сравнения (контрольной).
- Заражение происходит, когда члены групп лечения и/или сравнения имеют доступ к другому вмешательству, которое также влияет на интересующий результат.
- Неоднородность воздействия означает различия в воздействии, обусловленные типом бенефициара и контекстом. Высококачественные оценки воздействия позволят оценить степень, в которой различные группы (например, обездоленные) получают выгоду от вмешательства, а также потенциальное влияние контекста на воздействие. Степень обобщения результатов будет определять применимость извлеченных уроков для вмешательства в других контекстах.
Проекты оценки воздействия определяются типом методов, используемых для создания контрфактических данных, и могут быть в общих чертах разделены на три категории – экспериментальные, квазиэкспериментальные и неэкспериментальные проекты – которые различаются по осуществимости, стоимости, участию на этапе разработки или после фазы реализации. вмешательство и степень систематической ошибки отбора. Белый (2006) [ 6 ] и Раваллион (2008) [ 7 ] обсудить альтернативные подходы к оценке воздействия.
Экспериментальные подходы
[ редактировать ]При экспериментальных оценках группы лечения и сравнения выбираются случайным образом и изолируются как от вмешательства, так и от любых вмешательств, которые могут повлиять на интересующий результат. Эти схемы оценки называются рандомизированными контрольными исследованиями (РКИ). При экспериментальных оценках группу сравнения называют контрольной группой . Когда рандомизация осуществляется на достаточно большой выборке без заражения вмешательством, единственная разница между экспериментальной и контрольной группами в среднем состоит в том, что последняя не получает вмешательства. Случайные выборочные обследования, в которых выборка для оценки выбирается случайным образом, не следует путать с экспериментальными методами оценки, которые требуют случайного назначения лечения.
Экспериментальный подход часто называют «золотым стандартом» оценки. Это единственный дизайн оценки, который может убедительно объяснить предвзятость отбора при демонстрации причинно-следственной связи между вмешательством и результатами. Рандомизация и изоляция от вмешательств могут оказаться непрактичными в сфере социальной политики, и их может быть трудно защитить с этической точки зрения. [ 8 ] [ 9 ] хотя могут быть возможности использовать естественные эксперименты. Бамбергер и Уайт (2007) [ 10 ] выделить некоторые ограничения применения РКИ для мероприятий в области развития. Методологическую критику высказал Скривен (2008). [ 11 ] из-за предубеждений, возникающих из-за того, что социальные вмешательства не могут быть полностью скрыты , и Дитон (2009) [ 12 ] отметил, что на практике анализ РКИ прибегает к подходам, основанным на регрессии, которых они стараются избегать, и поэтому подвержен тем же потенциальным предвзятости. Другие проблемы включают часто неоднородные и меняющиеся контексты вмешательств, логистические и практические проблемы, трудности с мониторингом предоставления услуг, доступ к вмешательству для группы сравнения и изменения в критериях отбора и/или вмешательстве с течением времени. Таким образом, по оценкам, РКИ применимы только к 5 процентам финансирования развития. [ 10 ]
Рандомизированные контрольные исследования (РКИ)
[ редактировать ]РКИ — это исследования, используемые для измерения эффективности нового вмешательства. Они вряд ли смогут доказать причинно-следственную связь сами по себе, однако рандомизация снижает предвзятость, предоставляя инструмент для изучения причинно-следственных связей. [ 13 ] РКИ основаны на случайном распределении, а это означает, что такая оценка почти всегда должна планироваться заранее , поскольку редко естественное распределение проекта происходит на случайной основе. [ 14 ] При планировании РКИ необходимо задать пять ключевых вопросов: какое лечение тестируется, сколько групп лечения будет, какова будет единица назначения, какой объем выборки необходим, как будет проходить тест. быть рандомизированным. [ 14 ] Хорошо проведенное РКИ даст достоверную оценку среднего эффекта лечения в пределах одной конкретной группы населения или единицы назначения. [ 15 ] Недостатком РКИ является «проблема транспортировки», подчеркивающая, что то, что работает в одной популяции, не обязательно работает в другой популяции, а это означает, что средний эффект лечения неприменим к различным единицам назначения. [ 15 ]
Естественные эксперименты
[ редактировать ]Естественные эксперименты используются, потому что эти методы ослабляют присущее им напряжение, неконтролируемые полевые и контролируемые подходы к сбору лабораторных данных. [ 16 ] Естественные эксперименты используют события, находящиеся вне контроля исследователей и испытуемых, для устранения нескольких угроз внутренней достоверности, сводя к минимуму вероятность смешивания элементов, при этом жертвуя некоторыми особенностями полевых данных, такими как более естественные диапазоны эффектов лечения и наличие органически сформированный контекст. [ 16 ] Основная проблема естественных экспериментов — проблема воспроизводимости. Лабораторная работа, если ее правильно описать и повторить, должна дать аналогичные результаты. Из-за уникальности естественных экспериментов репликация часто ограничивается анализом альтернативных данных аналогичного события. [ 16 ]
Неэкспериментальные подходы
[ редактировать ]Квазиэкспериментальный дизайн
[ редактировать ]Квазиэкспериментальные подходы могут устранить систематическую ошибку, возникающую в результате отбора наблюдаемых величин, а при наличии панельных данных — инвариантных во времени ненаблюдаемых величин. Квазиэкспериментальные методы включают сопоставление, дифференцирование, инструментальные переменные и конвейерный подход; они обычно выполняются с помощью многомерного регрессионного анализа .
Если характеристики выбора известны и наблюдаются, ими можно управлять, чтобы устранить систематическую ошибку. Сопоставление предполагает сравнение участников программы с неучастниками на основе наблюдаемых характеристик отбора. Сопоставление оценок склонности (PSM) использует статистическую модель для расчета вероятности участия на основе набора наблюдаемых характеристик и сопоставляет участников и неучастников с одинаковыми показателями вероятности. В модели разрыва регрессии используется правило принятия решения относительно того, кто получает и не получает вмешательство, чтобы сравнить результаты для тех, кто находится по обе стороны от этого порогового значения.
Разница в различиях или двойные различия, в которых используются данные, собранные на исходном и конечном уровне для групп вмешательства и сравнения, могут использоваться для учета систематической ошибки отбора при предположении, что ненаблюдаемые факторы, определяющие отбор, фиксированы во времени (инвариантны во времени).
Оценка инструментальных переменных учитывает предвзятость отбора путем моделирования участия с использованием факторов («инструментов»), которые коррелируют с выбором, но не с результатом, тем самым изолируя аспекты участия в программе, которые можно рассматривать как экзогенные.
В рамках конвейерного подхода ( ступенчато-клиновой дизайн ) в качестве группы сравнения используются бенефициары, уже выбранные для участия в проекте на более позднем этапе. Предполагается, что, поскольку они были отобраны для получения вмешательства в будущем, они аналогичны группе лечения и, следовательно, сопоставимы с точки зрения представляющих интерес переменных результатов. Однако на практике невозможно гарантировать, что группы лечения и сравнения сопоставимы, и для проверки сопоставимости необходимо будет применить какой-то метод сопоставления.
Неэкспериментальный дизайн
[ редактировать ]Неэкспериментальные оценки воздействия называются так потому, что в них не участвует группа сравнения, не имеющая доступа к вмешательству. Метод, используемый в неэкспериментальной оценке, заключается в сравнении групп вмешательства до и после реализации вмешательства. вмешательства Для оценки временных рядов с прерыванием (ITS) требуется несколько точек данных по получавшим лечение лицам до и после вмешательства, тогда как схемы «до и после» (или «до-тест-пост-тест») просто требуют одной точки данных до и после. Посттестовый анализ включает данные только после вмешательства из группы вмешательства. Неэкспериментальные планы являются самым слабым методом оценки, поскольку для того, чтобы убедительно продемонстрировать причинно-следственную связь между вмешательством и результатами, оценка должна продемонстрировать, что любые возможные альтернативные объяснения результатов не имеют значения. Однако остаются приложения, к которым применим этот подход, например, при расчете экономии времени от вмешательства, улучшающего доступ к удобствам. Кроме того, могут быть случаи, когда неэкспериментальные планы являются единственной осуществимой схемой оценки воздействия, например, универсально реализуемые программы или реформы национальной политики, в которых, вероятно, не существует изолированных групп сравнения.
Предвзятости в оценке эффектов программы
[ редактировать ]Рандомизированные полевые эксперименты являются наиболее эффективным методом исследования для оценки воздействия программы. Считается, что этот конкретный план исследования обычно является предпочтительным, когда он осуществим, поскольку он позволяет справедливо и точно оценить фактические эффекты программы (Росси, Липси и Фриман, 2004).
С учетом вышесказанного, проведение рандомизированных полевых экспериментов не всегда возможно, и в таких ситуациях в распоряжении оценщика имеются альтернативные планы исследований. Основная проблема, однако, заключается в том, что независимо от того, какой проект выбирает оценщик, он склонен к общей проблеме: независимо от того, насколько хорошо продуман или хорошо реализован проект, каждый дизайн может давать необъективные оценки эффектов программы. Эти предубеждения играют роль преувеличения или преуменьшения эффектов программы. Более того, направление смещения обычно не может быть известно заранее (Rossi et al., 2004). Эти предубеждения влияют на интересы заинтересованных сторон. Более того, возможно, что участники программы окажутся в невыгодном положении, если предвзятость будет такой, что она будет способствовать тому, что неэффективная или вредная программа будет казаться эффективной. Существует также вероятность того, что из-за предвзятости эффективная программа может показаться неэффективной или даже вредной. Это может привести к тому, что достижения программы покажутся незначительными или даже незначительными, что вынудит персонал и даже спонсоров программы сократить или прекратить финансирование программы (Росси и др., 2004).
Можно с уверенностью сказать, что если неадекватный дизайн приведет к предвзятости, то больше всего будут обеспокоены заинтересованные стороны, которые несут основную ответственность за финансирование программы; результаты оценки помогают заинтересованным сторонам решить, продолжать ли финансировать программу, поскольку окончательное решение остается за спонсорами и спонсорами. В первую очередь заинтересованы не только заинтересованные стороны, но и те, кто принимает участие в программе или те, на кого программа призвана положительно повлиять, будут затронуты выбранным дизайном и результатом, полученным с помощью этого выбранного дизайна. Таким образом, задачей оценщика является минимизация систематической ошибки в оценке эффектов программы (Росси и др., 2004).
Погрешности обычно заметны в двух ситуациях: когда измерение результата при воздействии программы или оценка того, каким был бы результат без воздействия программы, выше или ниже соответствующего «истинного» значения (p267). К сожалению, не все формы предвзятости, которые могут поставить под угрозу оценку воздействия, очевидны (Росси и др., 2004).
Наиболее распространенной формой оценки воздействия является сравнение двух групп лиц или других подразделений: группы вмешательства, которая получает программу, и контрольной группы, которая ее не получает. Оценка эффекта программы затем основывается на разнице между группами по подходящему критерию результата (Rossi et al., 2004). Случайное распределение людей в программную и контрольную группы позволяет сделать предположение о продолжающейся эквивалентности. Групповые сравнения, которые не были сформированы посредством рандомизации, известны как неэквивалентные схемы сравнения (Rossi et al., 2004).
Предвзятость выбора
[ редактировать ]Когда отсутствует предположение об эквивалентности, разница в результатах между группами, которая имела бы место независимо от этого, создает форму систематической ошибки в оценке эффектов программы. Это известно как систематическая ошибка отбора (Росси и др., 2004). Это создает угрозу достоверности оценки эффекта программы при любой оценке воздействия с использованием схемы сравнения неэквивалентных групп и появляется в ситуациях, когда некоторый процесс, ответственный за воздействия, которые не полностью известны, выбирает, какие люди будут в какой группе, а не отнесение к группам определяется чистой случайностью (Росси и др., 2004). Это может быть связано с самостоятельным выбором участников или с размещением в программе (предвзятость при размещении). [ 17 ]
Смещение отбора может произойти в результате естественных или преднамеренных процессов, которые приводят к потере данных о результатах для членов уже сформированной группы вмешательства и контроля. Это известно как истощение, и оно может происходить двумя способами (Rossi et al., 2004): целевые показатели выпадают из группы вмешательства или контрольной группы, которые не могут быть достигнуты, или целевые показатели отказываются сотрудничать в измерении результатов. Дифференциальное истощение предполагается, когда истощение происходит в результате чего-либо, а не явного случайного процесса (Rossi et al., 2004). Это означает, что «нельзя предполагать, что те люди, которые были из группы вмешательства, данные о результатах которых отсутствуют, имеют те же характеристики, значимые для результатов, что и лица из контрольной группы, данные о результатах которых отсутствуют» (Rossi et al., 2004, p271). . Однако схемы случайного распределения не застрахованы от систематической ошибки отбора, вызванной истощением (Rossi et al., 2004).
Другие формы предвзятости
[ редактировать ]Существуют и другие факторы, которые могут быть причиной систематической ошибки в результатах оценки воздействия. Обычно они связаны с событиями или опытом, отличными от получения программы, которые происходят во время вмешательства. Эти предубеждения включают вековые тенденции, мешающие события и взросление (Rossi et al., 2004).
Светские тенденции или светский дрейф
[ редактировать ]Светские тенденции можно определить как относительно долгосрочные тенденции в сообществе, регионе или стране. Их также называют вековым дрейфом, и они могут вызывать изменения, которые усиливают или маскируют очевидные эффекты вмешательства (Rossi et al., 2004). Например, когда уровень рождаемости в сообществе снижается, программа по снижению рождаемости может оказаться эффективной из-за предвзятости, вытекающей из этой тенденции к снижению (Росси и др., 2004, стр. 273).
Мешающие события
[ редактировать ]Мешающие события подобны светским тенденциям; в этом случае именно краткосрочные события могут вызвать изменения, которые могут внести предвзятость в оценку эффекта программы, например, отключение электроэнергии, нарушающее связь или затрудняющее доставку пищевых добавок, может помешать программе питания (Росси и др., 2004, стр. 273).
Созревание
[ редактировать ]Оценка воздействия должна учитывать тот факт, что естественные процессы взросления и развития могут привести к значительным изменениям независимо от программы. Включение этих изменений в оценки эффектов программы приведет к смещению оценок. Примером такой формы предвзятости может служить программа по улучшению профилактической практики здравоохранения среди взрослых, которая может показаться неэффективной, поскольку здоровье обычно ухудшается с возрастом (Rossi et al., 2004, стр. 273).
«Тщательное поддержание сопоставимых обстоятельств для программной и контрольной групп между случайным распределением и измерением результатов должно предотвратить смещение из-за влияния другого дифференциального опыта или событий на группы. Если какое-либо из этих условий отсутствует в дизайне, существует вероятность смещения в оценки эффекта программы» (Росси и др., 2004, стр. 274).
Методы оценки
[ редактировать ]Методы оценки в целом соответствуют схемам оценки. Разные схемы требуют разных методов оценки для измерения изменений в благосостоянии от несоответствующих фактам. При экспериментальной и квазиэкспериментальной оценке предполагаемое воздействие вмешательства рассчитывается как разница средних результатов между группой лечения (тех, кто получает вмешательство) и контрольной группой или группой сравнения (тех, кто этого не делает). Этот метод также называют рандомизированными контрольными исследованиями (РКИ). Согласно интервью Джима Рафа, бывшего представителя Американской ассоциации оценки, в журнале D+C Development and Cooperation , этот метод не работает для сложных, многослойных задач. Оценщик единой разницы сравнивает средние результаты на конечном этапе и действителен в тех случаях, когда группы лечения и контрольная группы имеют одинаковые значения результатов на исходном уровне. Оценщик разницы в разнице (или двойной разницы) вычисляет разницу в изменении результата с течением времени для групп лечения и сравнения, используя таким образом данные, собранные на исходном уровне для обеих групп, а также данные второго раунда, собранные на конечном этапе. после осуществления вмешательства, что может произойти спустя годы. [ 18 ]
Оценки воздействия, которые должны сравнивать средние результаты в группе лечения, независимо от участия бенефициара (также называемые «соблюдение» или «приверженность»), с результатами в группе сравнения, называются анализом намерения лечить (ITT). . Оценки воздействия, которые сравнивают результаты среди бенефициаров, которые соблюдают или придерживаются вмешательства в лечебной группе, с результатами в контрольной группе, называются анализом лечения на лечении (ТОТ). Таким образом, ITT дает нижнюю оценку воздействия, но, возможно, имеет большую политическую значимость, чем TOT, при анализе добровольных программ. [ 19 ]
Дебаты
[ редактировать ]Несмотря на то, что существует согласие относительно важности оценки воздействия и появляется консенсус относительно использования контрфактических методов оценки, в последние годы также широко развернулись дебаты как по определению оценки воздействия, так и по использованию соответствующих методов (см. White 2009). [ 20 ] для обзора).
Определения
[ редактировать ]Международная инициатива по оценке воздействия (3ie) определяет строгие оценки воздействия как: «анализ, который измеряет чистое изменение результатов для конкретной группы людей, которое можно отнести к конкретной программе, с использованием наилучшей доступной методологии, осуществимой и подходящей для оценки». вопрос, который исследуется, и в конкретном контексте». [ 21 ]
Согласно инициативе Всемирного банка DIME, «оценки воздействия сравнивают результаты программы с контрфактическими данными, которые показывают, что произошло бы с бенефициарами без программы. В отличие от других форм оценки, они позволяют приписать наблюдаемые изменения в результатах программе». оценивается с помощью следующих экспериментальных и квазиэкспериментальных планов». [ 22 ]
Аналогичным образом, согласно данным Агентства по охране окружающей среды США , оценка воздействия — это форма оценки, которая оценивает чистый эффект программы путем сравнения результатов программы с оценкой того, что произошло бы в отсутствие программы. [ 23 ]
(IEG) Всемирного банка По данным Независимой группы оценки , оценка воздействия представляет собой систематическое выявление положительных или отрицательных последствий, преднамеренных или нет, на отдельные домохозяйства, учреждения и окружающую среду, вызванных определенной деятельностью по развитию, такой как программа или проект. [ 24 ]
За последние несколько десятилетий оценка воздействия определялась по-разному. [ 6 ] Другие интерпретации оценки воздействия включают:
- Оценка, в которой рассматривается влияние вмешательства на конечные результаты благосостояния, а не только результаты проекта, или оценка процесса, ориентированная на реализацию;
- Оценка проводится через некоторое время (пять-десять лет) после завершения вмешательства, чтобы дать время для проявления эффекта; и
- Оценка, учитывающая все вмешательства в данном секторе или географическом регионе.
Другие авторы проводят различие между «оценкой воздействия» и «оценкой воздействия». «Оценка воздействия» использует эмпирические методы для оценки последствий вмешательств и их статистической значимости, тогда как «оценка воздействия» включает более широкий набор методов, включая структурное моделирование и другие подходы, которые не могут проверить статистическую значимость. [ 17 ]
Общие определения «воздействия», используемые при оценке, обычно относятся к совокупности долгосрочных последствий, связанных с вмешательством в качество жизни. Например, Комитет содействия развитию Организации экономического сотрудничества и развития (ОЭСР-КСР) определяет воздействие как «положительные и отрицательные, первичные и вторичные долгосрочные эффекты, вызванные вмешательством в целях развития, прямо или косвенно, преднамеренным или непреднамеренным». [ 25 ] Ряд международных агентств также приняли это определение воздействия. Например, ЮНИСЕФ определяет воздействие как «долгосрочные результаты программы – технические, экономические, социокультурные, институциональные, экологические или другие – независимо от того, запланированные или непреднамеренные. Намеченное воздействие должно соответствовать цели программы». [ 26 ] Аналогичным образом, Evaluationwiki.org определяет оценку воздействия как оценку, которая выходит за рамки непосредственных результатов политики, инструкций или услуг, чтобы выявить долгосрочные, а также непредвиденные эффекты программы. [ 27 ]
Технически, оценка может быть проведена для определения «воздействия», как оно определено здесь, без ссылки на контрфактические данные. Однако большая часть существующей литературы (например, Рекомендации NONIE по оценке воздействия) [ 28 ] принимает определение воздействия ОЭСР-КСР, ссылаясь на методы, используемые для приписывания воздействия вмешательству, которое обязательно основано на контрфактическом анализе.
Чего не хватает в термине «оценка воздействия», так это того, как «воздействие» проявляется в долгосрочной перспективе. Например, большинство планов «логической структуры» мониторинга и оценки имеют входы-выходы-результаты и... воздействия. Хотя первые три появляются в ходе самого проекта, для достижения эффекта требуется гораздо больше времени. Например, в пятилетнем сельскохозяйственном проекте семена являются ресурсами, фермеры обучены использовать их - нашими результатами, а изменения в урожайности сельскохозяйственных культур в результате правильной посадки семян - это результат, а семьи, которые со временем становятся более устойчивыми в продовольственной безопасности, - это результат. влияние. Подобные оценки послепроектного воздействия проводятся очень редко. Их также называют оценками по факту, или мы вводим термин « оценки устойчивого воздействия» . Хотя их требуют сотни тысяч документов, доноры редко имеют финансовую гибкость – или интерес – чтобы вернуться и увидеть, насколько устойчивыми и долговечными остались наши вмешательства после закрытия проекта, после того, как ресурсы были изъяты. множество уроков для проектирования, реализации, мониторинга и оценки. Необходимо извлечь и как способствовать повышению ответственности страны .
Методологические дебаты
[ редактировать ]В академических кругах ведутся интенсивные дебаты вокруг подходящих методологий оценки воздействия между сторонниками экспериментальных методов, с одной стороны, и сторонниками более общих методологий, с другой. Уильям Истерли назвал это «Гражданской войной в экономике развития» . Сторонники экспериментальных планов, иногда называемые «рандомистами», [ 8 ] утверждают, что рандомизация является единственным средством обеспечения учета ненаблюдаемой систематической ошибки отбора, и что создание хрупкой экспериментальной доказательной базы должно развиваться в приоритетном порядке. [ 29 ] Напротив, другие утверждают, что рандомизированное распределение редко подходит для вмешательств в целях развития, и даже когда это так, эксперименты предоставляют нам информацию о результатах конкретного вмешательства, примененного к конкретному контексту, и мало имеют внешнего значения. [ 30 ] Органы по оценке и другие организации критиковали то, что некоторые доноры и ученые переоценивают предпочтительные методы оценки воздействия. [ 31 ] и что на самом деле это может препятствовать обучению и подотчетности. [ 32 ] Кроме того, ведутся споры о соответствующей роли качественных методов в оценке воздействия. [ 33 ] [ 34 ]
Теоретическая оценка воздействия
[ редактировать ]Хотя знание эффективности имеет жизненно важное значение, также важно понимать причины эффективности и обстоятельства, при которых результаты могут быть воспроизведены. В отличие от подходов к оценке воздействия «черного ящика», которые сообщают только о средних различиях в результатах между группами лечения и группами сравнения, теоретическая оценка воздействия включает в себя составление причинно-следственной цепочки от исходных данных до результатов и воздействия, а также проверку основных предположений. [ 35 ] [ 28 ] Большинство вмешательств в сфере государственной политики носят добровольный, а не принудительный (требуемый законом) характер. Кроме того, вмешательства часто носят активный, а не пассивный характер, требуя большей, а не меньшей степени участия бенефициаров и, следовательно, изменения поведения как предварительного условия для эффективности. Таким образом, государственная политика будет успешной в той степени, в которой у людей появится стимул изменить свое поведение в лучшую сторону. Теоретический подход позволяет политикам понять причины различных уровней участия в программе (называемых «соблюдением» или «приверженностью») и процессы, определяющие изменение поведения. Теоретические подходы используют сбор как количественных, так и качественных данных, и последний может быть особенно полезен для понимания причин соблюдения требований и, следовательно, того, можно ли и каким образом повторить вмешательство в других условиях. Методы сбора качественных данных включают фокус-группы, глубинные интервью, совместную сельскую оценку (PRA) и выезды на места, а также чтение антропологической и политической литературы.
Белый (2009б) [ 35 ] выступает за более широкое применение теоретического подхода к оценке воздействия как средства повышения политической значимости оценок воздействия, выделяя шесть ключевых принципов теоретического подхода:
- Составьте карту причинно-следственной цепочки (теория программ), которая объясняет, как вмешательство, как ожидается, приведет к намеченным результатам, и соберите данные для проверки основных предположений о причинно-следственных связях.
- Понять контекст, включая социальные, политические и экономические условия вмешательства.
- Предусмотрите неоднородность, чтобы помочь определить подгруппы и скорректировать размер выборки с учетом уровней дезагрегирования, которые будут использоваться в анализе.
- Тщательная оценка воздействия с использованием заслуживающих доверия контрфактических данных (как обсуждалось выше).
- Строгий фактический анализ звеньев причинно-следственной цепи.
- Используйте смешанные методы (комбинацию количественных и качественных методов).
Примеры
[ редактировать ]Хотя экспериментальные методологии оценки воздействия использовались для оценки мероприятий в области питания, водоснабжения и санитарии в развивающихся странах с 1980-х годов, первым и наиболее известным применением экспериментальных методов в крупномасштабной программе развития является оценка обусловленных денежных трансфертов ( CCT) программа Progresa (теперь называемая Oportunidades ) в Мексике, в которой изучался ряд результатов развития, включая школьное образование, уровень иммунизации и детский труд. [ 36 ] [ 37 ] С тех пор программы Одт были реализованы рядом правительств в Латинской Америке и других странах, а в отчете, опубликованном Всемирным банком в феврале 2009 года, рассматривается влияние Одт в двадцати странах. [ 38 ]
Совсем недавно оценка воздействия стала применяться к ряду мер в социальном и производственном секторах. 3ie запустила онлайн- базу данных оценок воздействия, охватывающую исследования, проведенные в странах с низким и средним уровнем дохода. Другие организации, публикующие оценки воздействия, включают Innovations for Poverty Action Всемирного банка , DIME Initiative и NONIE . НЭГ . Всемирного банка систематически оценил и обобщил опыт десяти оценок воздействия программ развития в различных секторах, проведенных за последние 20 лет [ 39 ]
Организации, продвигающие оценку воздействия мер по развитию
[ редактировать ]В 2006 году Рабочая группа по пробелам в оценке [ 40 ] выступал за наличие серьезного пробела в фактических данных о вмешательствах в целях развития и, в частности, за создание независимого органа, который мог бы восполнить этот пробел путем финансирования и пропаганды строгой оценки воздействия в странах с низким и средним уровнем дохода. Международная инициатива по оценке воздействия (3ie) была создана в ответ на этот отчет. 3ie стремится улучшить жизнь бедных людей в странах с низким и средним уровнем дохода, предоставляя и обобщая доказательства того, что работает, когда, почему и за сколько. 3ie реализует программу грантов, финансирует исследования воздействия в странах с низким и средним уровнем дохода и синтетические обзоры существующих фактических данных, обновляемых по мере появления новых данных, а также поддерживает оценку воздействия на качество посредством своих услуг по обеспечению качества.
Еще одной инициативой, посвященной оценке воздействия, является Комитет по оценке устойчивости (COSA) . COSA — это некоммерческий глобальный консорциум учреждений, поддерживаемый в партнерстве с Международного института устойчивого развития (IISD) Инициативой устойчивого сырьевого сектора , Конференцией Организации Объединенных Наций по торговле и развитию (ЮНКТАД) и Международным торговым центром Организации Объединенных Наций (ITC). . COSA разрабатывает и применяет независимый инструмент измерения для анализа различных социальных, экологических и экономических последствий сельскохозяйственной практики, в частности тех, которые связаны с реализацией конкретных программ устойчивого развития (Organic, Fairtrade и т. д.). Целью инициативы является создание глобальных показателей и инструментов измерения, которые фермеры, политики и промышленность могут использовать для понимания и повышения их устойчивости применительно к различным культурам или сельскохозяйственным секторам. COSA стремится облегчить это, позволяя им точно рассчитать относительные затраты и выгоды от участия в любой конкретной инициативе устойчивого развития.
Для продвижения оценки воздействия во всем мире был создан ряд дополнительных организаций, в том числе «Инновации для борьбы с бедностью» , Фонд оценки стратегического воздействия Всемирного банка (SIEF) , Инициатива Всемирного банка по оценке воздействия на развитие (DIME), Институциональное обучение и изменения (ILAC). Инициатива CGIAR и Сети сетей по оценке воздействия (NONIE) .
Систематические обзоры доказательств воздействия
[ редактировать ]Ряд организаций работают над координацией подготовки систематических обзоров . Систематические обзоры направлены на преодоление разрыва между исследованиями и политикой путем оценки спектра существующих фактических данных по конкретной теме и представления информации в доступном формате. Как и строгие оценки воздействия, они разрабатываются на основе протокола исследования, в котором априори устанавливаются критерии включения в исследование, поиск и методы синтеза. Систематические обзоры включают пять ключевых этапов: определение вмешательств, групп населения, результатов и дизайна исследований, которые будут включены; поиск для выявления опубликованной и неопубликованной литературы, а также применение критериев включения в исследование (относящихся к вмешательствам, группам населения, результатам и дизайну исследования), как указано в протоколе исследования; кодирование информации из исследований; представление количественных оценок эффективности вмешательств с использованием лесных участков и, если вмешательства определяются как достаточно однородные, расчет объединенной сводной оценки с использованием метаанализа; наконец, систематические обзоры должны периодически обновляться по мере появления новых данных. Систематические обзоры могут также включать синтез качественной информации, например, касающейся препятствий или факторов, способствующих эффективности вмешательства.
См. также
[ редактировать ]- Эконометрика
- Оценка воздействия
- Теория результатов
- Совместный анализ путей воздействия
- Политический анализ
- Политические исследования
- Оценка программы
Ссылки
[ редактировать ]- ^ Группа Всемирного банка по оценке воздействия на уровень бедности , по состоянию на 6 января 2008 г.
- ^ «Уайт, Х. (2006) Оценка воздействия: опыт независимой группы оценки Всемирного банка, Всемирный банк, Вашингтон, округ Колумбия, стр. 3» (PDF) . Архивировано из оригинала (PDF) 19 февраля 2018 г. Проверено 7 января 2010 г.
- ^ «Гертлер, Мартинес, Преманд, Роулингс и Вермеерш (2011) Оценка воздействия на практике, Вашингтон, округ Колумбия: Всемирный банк» . Архивировано из оригинала 17 июля 2011 г. Проверено 15 декабря 2010 г.
- ^ «Войти» (PDF) . Проверено 16 января 2017 г.
- ^ «Войти» (PDF) . Проверено 16 января 2017 г.
- ^ Jump up to: а б «Уайт, Х. (2006) Оценка воздействия: опыт независимой группы оценки Всемирного банка, Всемирный банк, Вашингтон, округ Колумбия» (PDF) . Архивировано из оригинала (PDF) 19 февраля 2018 г. Проверено 7 января 2010 г.
- ^ Раваллион, М. (2008) Оценка программ борьбы с бедностью
- ^ Jump up to: а б Мартин, Раваллион (1 января 2009 г.). «Должны ли править рандомисты?» . 6 (2): 1–5 . Проверено 16 января 2017 г. - через RePEc - IDEAS.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Обратите внимание, что утверждалось, что « Randomistas — это жаргонный термин, используемый критиками для описания сторонников методологии РКИ. Это почти наверняка гендерно-уничижительный термин, призванный легкомысленно отмахнуться от экономистов-экспериментаторов и их успехов, особенно от Эстер Дюфло, одного из самых успешных экспертов по рандомизации». См. Уэббер С. и Проуз К. (2018). Новый золотой стандарт: рост рандомизированных контрольных исследований и экспериментальных разработок. Экономическая география, 94 (2), 166–187.
- ^ Jump up to: а б Бамбергер М. и Уайт Х. (2007) Использование надежных методов оценки в развивающихся странах: опыт и проблемы, Журнал многодисциплинарной оценки , том 4, номер 8, 58-73
- ^ Скривен (2008) Суммативная оценка методологии РКИ: и альтернативный подход к причинно-следственным исследованиям, Журнал многодисциплинарной оценки , Том 5, номер 9, 11-24
- ^ Дитон, Ангус (1 января 2009 г.). «Инструменты развития: рандомизация в тропиках и поиск неуловимых ключей к экономическому развитию». ССНН 1335715 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Харитон, Эдуардо; Локашио, Джозеф Дж. (декабрь 2018 г.). «Рандомизированные контролируемые исследования — золотой стандарт исследований эффективности» . BJOG: Международный журнал акушерства и гинекологии . 125 (13): 1716. doi : 10.1111/1471-0528.15199 . ISSN 1470-0328 . ПМК 6235704 . ПМИД 29916205 .
- ^ Jump up to: а б Уайт, Ховард (8 марта 2013 г.). «Введение в использование рандомизированных контролируемых исследований для оценки вмешательств в области развития» . Журнал эффективности развития . 5 : 30–49. дои : 10.1080/19439342.2013.764652 . S2CID 51812043 .
- ^ Jump up to: а б Дитон, Ангус; Картрайт, Нэнси (9 ноября 2016 г.). «Ограничения рандомизированных контролируемых исследований» . VoxEU.org . Проверено 26 октября 2020 г.
- ^ Jump up to: а б с Роу, Брайан Э.; Просто, Дэвид Р. (декабрь 2009 г.). «Внутренняя и внешняя валидность экономических исследований: компромисс между экспериментами, полевыми экспериментами, естественными экспериментами и полевыми данными» . Американский журнал экономики сельского хозяйства . 91 (5): 1266–1271. дои : 10.1111/j.1467-8276.2009.01295.x . ISSN 0002-9092 .
- ^ Jump up to: а б Уайт, Ховард; Райцер, Дэвид (2017). Оценка воздействия мер по развитию: Практическое руководство (PDF) . Манила: Азиатский банк развития. ISBN 978-92-9261-059-3 .
- ^ Руг, Джим (22 июня 2012 г.). «Молот в поисках гвоздей» . D+C Развитие и сотрудничество . 2012 (7): 300.
- ^ Блум, Х. (2006) Основная аналитика рандомизированных экспериментов для социальных исследований. Рабочие документы MDRC по методологии исследования. MDRC, Нью-Йорк
- ^ «Уайт, Х. (2009) Некоторые размышления о текущих дебатах по оценке воздействия, Рабочий документ 1, Международная инициатива по оценке воздействия, Нью-Дели» . Архивировано из оригинала 8 января 2013 г. Проверено 29 октября 2012 г.
- ^ «Войти» (PDF) . Проверено 16 января 2017 г.
- ^ Всемирный банк (без даты) Инициатива по оценке воздействия на развитие (DIME), проектный документ, Всемирный банк, Вашингтон, округ Колумбия
- ^ Глоссарий оценки программы Агентства по охране окружающей среды США , по состоянию на 6 января 2008 г.
- ↑ Группа независимой оценки Всемирного банка , по состоянию на 6 января 2008 г.
- ^ ОЭСР-DAC (2002) Глоссарий ключевых терминов в оценке и управлении, основанном на результатах, Предлагаемая гармонизированная терминология, ОЭСР, Париж
- ^ ЮНИСЕФ (2004) Стандарты отчета об оценке ЮНИСЕФ, Управление оценки, штаб-квартира ЮНИСЕФ в Нью-Йорке, Нью-Йорк
- ^ «Определение оценки: что такое оценка? — EvaluationWiki» . Проверено 16 января 2017 г.
- ^ Jump up to: а б «Страница не найдена» . Проверено 16 января 2017 г.
{{cite web}}
: Cite использует общий заголовок ( справка ) - ^ «Банерджи, А.В. (2007) «Заставить помощь работать» Кембридж, Бостонская обзорная книга, MIT Press, Массачусетс» (PDF) . Проверено 16 января 2017 г. [ постоянная мертвая ссылка ]
- ^ Бамбергер, М. и Уайт, Х. (2007) Использование надежных методов оценки в развивающихся странах: опыт и проблемы, Журнал многодисциплинарной оценки, том 4, номер 8, 58-73
- ^ http://www.europeanevaluation.org/download/?noGzip=1&id=1969403 [ постоянная мертвая ссылка ] Заявление EES о важности методологически разнообразного подхода к оценке воздействия
- ^ http://www.odi.org.uk/resources/odi-publications/opinions/127-impact-evaluation.pdf «Золотой стандарт» не является панацеей для оценки.
- ^ «Эффективность помощи: роль качественных исследований в оценке воздействия» . 27 июня 2014 г.
- ^ Проуз, Мартин; Камфилд, Лаура (2013). «Повышение качества помощи развитию». Прогресс в исследованиях развития . 13 : 51–61. дои : 10.1177/146499341201300104 . S2CID 44482662 .
- ^ Jump up to: а б «Уайт, Х. (2009b) Теоретическая оценка воздействия: принципы и практика, Рабочий документ 3, Международная инициатива по оценке воздействия, Нью-Дели» . Архивировано из оригинала 6 ноября 2012 г. Проверено 29 октября 2012 г.
- ^ Гертлер, П. (2000) Заключительный отчет: Влияние ПРОГРЕСА на здоровье. Международный исследовательский институт продовольственной политики, Вашингтон, округ Колумбия
- ^ «Документ без названия» (PDF) . Проверено 16 января 2017 г.
- ^ Фишбейн, А. и Шади, Н. (2009) Условные денежные трансферты: сокращение нынешней и будущей бедности: Отчет об исследовании политики Всемирного банка, Всемирный банк, Вашингтон, округ Колумбия.
- ^ Оценка воздействия: опыт независимой группы оценки Всемирного банка, 2006 г.
- ^ «Когда мы когда-нибудь научимся? Улучшение жизни посредством оценки воздействия» . Проверено 16 января 2017 г.
Источники и внешние ссылки
[ редактировать ]- Гертлер, Мартинес, Преманд, Роулингс и Вермеерш (2011) Оценка воздействия на практике, Вашингтон, округ Колумбия: Всемирный банк
- Группа Всемирного банка по борьбе с бедностью Группа Всемирного банка по борьбе с бедностью
- Группа независимой оценки Всемирного банка или в Википедии Независимая группа оценки
- Бейкер, Джуди. 2000. Оценка влияния проектов развития на бедность: Справочник для практиков. Направления развития, Всемирный банк, Вашингтон, округ Колумбия
- Международная инициатива по оценке воздействия
- Инновации для борьбы с бедностью
- Комитет по оценке устойчивого развития (COSA)
- Международный институт устойчивого развития (МИУР)
- Международный торговый центр ООН (МТЦ)