Каскадный отказ
Каскадный отказ — это отказ в системе взаимосвязанных частей, при котором отказ одной или нескольких частей приводит к отказу других частей, прогрессивно нарастающему в результате положительной обратной связи . Это может произойти, когда выходит из строя одна часть, увеличивая вероятность выхода из строя других частей системы. [1] [2] Такой сбой может произойти во многих типах систем, включая передачу энергии, компьютерные сети, финансы, транспортные системы, организмы, человеческое тело и экосистемы.
Каскадные сбои могут возникать при выходе из строя одной части системы. Когда это происходит, другие детали должны компенсировать неисправный компонент. Это, в свою очередь, перегружает эти узлы, вызывая их сбой, что приводит к сбою дополнительных узлов один за другим.
В передаче энергии
[ редактировать ]Каскадный отказ распространен в электрических сетях , когда один из элементов выходит из строя (полностью или частично) и нагрузка переносится на близлежащие элементы системы. Затем эти близлежащие элементы выходят за пределы своих возможностей, поэтому они перегружаются и перекладывают свою нагрузку на другие элементы. Каскадный отказ — это распространенный эффект, наблюдаемый в высокого напряжения системах , где единственная точка отказа (SPF) в полностью или слегка перегруженной системе приводит к внезапному скачку напряжения во всех узлах системы. Этот импульсный ток может привести к выходу из строя уже перегруженных узлов, вызывая новые перегрузки и тем самым выводя из строя всю систему за очень короткое время.
Этот процесс отказа распространяется по элементам системы, как рябь на пруду, и продолжается до тех пор, пока практически все элементы системы не будут скомпрометированы и/или система не станет функционально отключена от источника своей нагрузки. Например, при определенных условиях крупная электросеть может разрушиться после выхода из строя одного трансформатора.
Мониторинг работы системы в режиме реального времени и разумное отключение частей могут помочь остановить каскад. Другой распространенный метод заключается в расчете запаса безопасности системы путем компьютерного моделирования возможных сбоев, установлении безопасных рабочих уровней, ниже которых, по прогнозам, ни один из рассчитанных сценариев не приведет к каскадному сбою, и определении частей сети, которые наиболее вероятны. вызвать каскадные сбои. [3]
Одна из основных проблем предотвращения сбоев в электрической сети заключается в том, что скорость управляющего сигнала не превышает скорость распространения перегрузки по мощности, т. е. поскольку и управляющий сигнал, и электрическая мощность движутся с одинаковой скоростью, это недопустимо. можно изолировать сбой, заранее отправив предупреждение для изоляции элемента.
Примеры
[ редактировать ]Каскадный сбой привел к следующим отключениям электроэнергии :
- Отключение электроэнергии в Северо-Восточной Америке в 1965 году.
- Отключение электроэнергии на юге Бразилии в 1999 году.
- Отключение электроэнергии в Северо-Восточной Америке в 2003 году.
- Отключение электроэнергии в Италии в 2003 году.
- Отключение электроэнергии в Лондоне в 2003 году.
- Европейское затемнение в 2006 году
- Отключение электроэнергии в Северной Индии в 2012 году.
- Отключение электроэнергии в Южной Австралии в 2016 году.
- Отключение электроэнергии на юго-востоке Южной Америки в 2019 году.
- Отключение электроэнергии по всей стране в Кении, 2022 г.
- Отключение электроэнергии по всей стране в Кении, 2023 г.
В компьютерных сетях
[ редактировать ]Каскадные сбои также могут возникать в компьютерных сетях (таких как Интернет ), в которых сетевой трафик серьезно нарушен или остановлен в больших участках сети или между ними из-за сбоя или отключения оборудования или программного обеспечения. В этом контексте каскадный отказ известен под термином « каскадный отказ» . Каскадный сбой может повлиять на большие группы людей и системы.
Причиной каскадного сбоя обычно является перегрузка одного важного маршрутизатора или узла, что приводит к выходу узла из строя, даже на короткое время. Это также может быть вызвано отключением узла для обслуживания или обновления. В любом случае трафик направляется по другому (альтернативному) пути или через него. В результате этот альтернативный путь становится перегруженным, что приводит к его сбою и так далее. Это также повлияет на системы, регулярная работа которых зависит от узла.
Симптомы
[ редактировать ]К симптомам каскадного сбоя относятся: потеря пакетов и высокая задержка в сети не только для отдельных систем, но и для целых участков сети или Интернета. Высокая задержка и потеря пакетов вызваны тем, что узлы не работают из-за коллапса перегрузки , из-за чего они все еще присутствуют в сети, но без какой-либо полезной связи, проходящей через них. В результате маршруты по-прежнему можно считать действительными, хотя они фактически не обеспечивают связь.
Если из-за каскадного сбоя выйдет из строя достаточное количество маршрутов, весь участок сети или Интернета может стать недоступным. Хотя это и нежелательно, это может помочь ускорить восстановление после этого сбоя, поскольку время соединения истечет, и другие узлы откажутся от попыток установить соединения с разделом(ами), которые были отключены, что снизит нагрузку на задействованные узлы.
Распространенным явлением во время каскадного отказа является ходячий отказ , при котором секции выходят из строя, что приводит к выходу из строя следующей секции, после чего первая секция снова поднимается. Эта пульсация может совершить несколько проходов по одним и тем же участкам или соединительным узлам, прежде чем стабильность восстановится.
История
[ редактировать ]Каскадные сбои возникли относительно недавно, в связи с массовым увеличением трафика и высокой степенью взаимосвязи между системами и сетями. Этот термин был впервые применен в этом контексте в конце 1990-х годов голландским ИТ-специалистом и постепенно стал относительно распространенным термином для обозначения такого рода крупномасштабных сбоев. [ нужна ссылка ]
Пример
[ редактировать ]Сбои в сети обычно начинаются с выхода из строя одного узла сети. Первоначально трафик, который обычно проходит через узел, останавливается. Системы и пользователи получают ошибки о невозможности связаться с хостами. Обычно резервные системы интернет-провайдера реагируют очень быстро, выбирая другой путь через другую магистраль. Путь маршрутизации по этому альтернативному маршруту длиннее, с большим количеством переходов и, следовательно, через большее количество систем, которые обычно не обрабатывают внезапно предлагаемый объем трафика.
Это может привести к выходу из строя одной или нескольких систем на альтернативном маршруте, что создаст аналогичные проблемы.
В этом случае также затрагиваются связанные системы. Например, разрешение DNS может дать сбой, и то, что обычно приводит к взаимодействию систем, может привести к разрыву соединений, которые даже не связаны напрямую с реальными вышедшими из строя системами. Это, в свою очередь, может привести к возникновению проблем на, казалось бы, несвязанных узлах, которые сами по себе могут вызвать еще один каскадный сбой.
В декабре 2012 года во всем мире произошла частичная потеря (40%) службы Gmail на 18 минут. Эта потеря обслуживания была вызвана регулярным обновлением программного обеспечения балансировки нагрузки, которое содержало ошибочную логику — в данном случае ошибка была вызвана логикой, использующей неподходящее «все» вместо более подходящего «некоторые». [4] Ошибка каскадирования была исправлена путем полного обновления одного узла в сети вместо частичного обновления всех узлов одновременно.
Каскадный структурный отказ
[ редактировать ]Некоторые несущие конструкции с отдельными структурными компонентами могут подвергаться «эффекту молнии», когда выход из строя одного элемента конструкции увеличивает нагрузку на соседние элементы. В случае обрушения дорожки Hyatt Regency подвесная дорожка (которая уже была перенапряжена из-за ошибки в конструкции) вышла из строя, когда вышел из строя один вертикальный подвесной стержень, перегружая соседние стержни, которые выходили из строя последовательно (т.е. как застежка -молния ). Мост, который может иметь такое разрушение, называется критическим изломом, и многочисленные обрушения мостов были вызваны выходом из строя одной части. Правильно спроектированные конструкции используют адекватный коэффициент безопасности и/или альтернативные пути нагрузки для предотвращения каскадного механического отказа этого типа. [5]
Каскад трещин
[ редактировать ]Каскад трещин — это явление в контексте геологии, описывающее запуск цепной реакции последующих трещин в результате одной трещины. [6] Первоначальный перелом приводит к распространению дополнительных трещин, вызывая каскадный эффект по всему материалу.
Каскадные разрушения могут возникать в различных материалах, включая камни, лед, металлы и керамику. [7] Типичным примером является изгиб сухих спагетти , которые в большинстве случаев распадаются более чем на 2 части, как впервые заметил Ричард Фейнман . [7]
В контексте остеопороза каскад переломов представляет собой повышенный риск последующих переломов костей после первоначального. [8]
Другие примеры
[ редактировать ]Биология
[ редактировать ]Биохимические каскады существуют в биологии, где даже небольшая реакция может иметь общесистемные последствия. Одним из негативных примеров является ишемический каскад , при котором небольшая ишемическая атака высвобождает токсины , которые убивают гораздо больше клеток, чем первоначальное повреждение, в результате чего выделяется больше токсинов. Текущие исследования направлены на то, чтобы найти способ заблокировать этот каскад у пациентов, перенесших инсульт, чтобы минимизировать ущерб.
При изучении вымирания иногда исчезновение одного вида приводит к исчезновению многих других видов. Такой вид известен как краеугольный вид .
Электроника
[ редактировать ]Другим примером является генератор Кокрофта-Уолтона , который также может испытывать каскадные сбои, при которых один неисправный диод может привести к выходу из строя всех диодов за долю секунды.
Еще одним примером этого эффекта в научном эксперименте стал взрыв в 2001 году нескольких тысяч хрупких стеклянных фотоумножителей, использованных в эксперименте Супер-Камиоканде , где ударная волна, вызванная отказом одного детектора, по-видимому, вызвала взрыв другие детекторы в цепной реакции.
Финансы
[ редактировать ]В финансах риск каскадных банкротств финансовых учреждений называется системным риском : банкротство одного финансового учреждения может привести к банкротству других финансовых учреждений (его контрагентов ), распространяясь по всей системе. Институты, которые, как считается, представляют собой системный риск, считаются либо « слишком большими, чтобы обанкротиться » (TBTF), либо «слишком взаимосвязанными, чтобы обанкротиться» (TICTF), в зависимости от того, почему они представляют угрозу.
Однако обратите внимание, что системный риск возникает не из-за отдельных институтов как таковых, а из-за их взаимосвязей. В исследовательской литературе были разработаны основы для изучения и прогнозирования последствий каскадных отказов. [9] [10] [11]
Похожий (хотя и отдельный) тип каскадных неудач в финансах происходит на фондовом рынке, примером которого является внезапный крах 2010 года . [11]
Взаимозависимые каскадные сбои
[ редактировать ]Различные инфраструктуры, такие как водоснабжение , транспорт , топливные и электростанции, связаны между собой и зависят друг от друга в функционировании, см. рис. 1. Из-за этой связи взаимозависимые сети чрезвычайно чувствительны к случайным сбоям и, в частности, к целенаправленным атакам . так что отказ небольшой части узлов в одной сети может вызвать итеративный каскад отказов в нескольких взаимозависимых сетях. [12] [13] Отключения электроэнергии часто являются результатом каскада сбоев между взаимозависимыми сетями, и эта проблема ярко иллюстрируется несколькими крупномасштабными отключениями электроэнергии, произошедшими в последние годы. Отключения электроэнергии — это увлекательная демонстрация той важной роли, которую играют зависимости между сетями. Например, отключение электроэнергии в Италии в 2003 году привело к повсеместному выходу из строя железнодорожной сети , систем здравоохранения и финансовых услуг и, кроме того, серьезно повлияло на телекоммуникационные сети . Частичный отказ системы связи, в свою очередь, еще больше ухудшил работу системы управления электросетью , что вызвало положительную обратную связь в энергосистеме. [14] Этот пример подчеркивает, как взаимозависимость может значительно увеличить ущерб во взаимодействующей сетевой системе.
Модель каскадных сбоев из-за перегрузки
[ редактировать ]Моделью каскадных отказов из-за распространения перегрузки является модель Моттера – Лая. [15]
См. также
[ редактировать ]- Отключения электроэнергии
- Хрупкая система
- Эффект бабочки
- Византийский провал
- Каскадный откат
- Цепная реакция
- Теория хаоса
- Давка с кэшем
- Коллапс пробок
- Эффект домино
- Без гвоздя (пословица)
- Сетевая наука
- Теория сетей
- Взаимозависимые сети
- Синдром Кесслера
- Теория перколяции
- Прогрессирующий коллапс
- Добродетельный круг и порочный круг
- Зловещая проблема
Ссылки
[ редактировать ]- ^ «Каскадный отказ – обзор | Темы ScienceDirect» . www.sciencedirect.com .
- ^ Ульрих, Майк. «Глава 22. Устранение каскадных сбоев» . Google — Проектирование надежности сайта .
- ^ Чжай, Чао (2017). «Моделирование и идентификация наихудших каскадных отказов в энергосистемах». arXiv : 1703.05232 [ cs.SY ].
- ^ «Почему Gmail вышел из строя: Google неправильно настроил серверы балансировки нагрузки (обновлено)» . 11 декабря 2012 г.
- ^ Петроски, Генри (1992). Инженер – это человек: роль неудач в проектировании конструкций . Винтаж. ISBN 978-0-679-73416-1 .
- ^ Хвастайтесь, П. Бавей, CW (1998). «Фрактальная геометрия, процессы фрагментации и физика масштабной инвариантности: введение» . Возрождение: фракталы в почвоведении (1998) . ЦРК Пресс. дои : 10.1201/9781315151052 . ISBN 9781315151052 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Jump up to: а б Хейссер, Рональд Х.; Патил, Вишал П.; Ступ, Норберт; Виллермо, Эммануэль; Дункель, Йорн (28 августа 2018 г.). «Управление каскадами разрушения посредством скручивания и закалки» . Труды Национальной академии наук . 115 (35): 8665–8670. arXiv : 1802.05402 . Бибкод : 2018PNAS..115.8665H . дои : 10.1073/pnas.1802831115 . ISSN 0027-8424 . ПМК 6126751 . ПМИД 30104353 .
- ^ Мелтон, Л. Джозеф; Амин, Шрейаси (26 июня 2013 г.). «Существует ли определенный «каскад» переломов?» . Отчеты BoneKey . 2 : 367. дои : 10.1038/bonekey.2013.101 . ПМЦ 3935254 . ПМИД 24575296 .
- ^ Аджемоглу, Дарон; Оздаглар, Асуман; Тахбаз-Салехи, Алиреза (2015). «Системный риск и стабильность в финансовых сетях». Американский экономический обзор . 105 (2). Американская экономическая ассоциация: 564–608. дои : 10.1257/aer.20130456 . hdl : 1721.1/100979 . ISSN 0002-8282 . S2CID 7447939 .
- ^ Гай, Прасанна; Кападия, Суджит (8 августа 2010 г.). «Заражение в финансовых сетях» . Труды Королевского общества A: Математические, физические и технические науки . 466 (2120): 2401–2423. Бибкод : 2010RSPSA.466.2401G . дои : 10.1098/rspa.2009.0410 . ISSN 1364-5021 . S2CID 9945658 .
- ^ Jump up to: а б Эллиотт, Мэтью; Голуб, Бенджамин; Джексон, Мэтью О. (1 октября 2014 г.). «Финансовые сети и заражение» . Американский экономический обзор . 104 (10): 3115–3153. дои : 10.1257/aer.104.10.3115 . ISSN 0002-8282 .
- ^ «Отчет Комиссии по оценке угрозы Соединенным Штатам от атаки электромагнитным импульсом (ЭМИ)» (PDF) .
- ^ Ринальди, С.М.; Пиренбум, JP; Келли, ТК (2001). «Выявление, понимание и анализ взаимозависимостей критической инфраструктуры». Журнал IEEE Control Systems . 21 (6): 11–25. дои : 10.1109/37.969131 .
- ^ В. Розато, Иссахаров Л., Тиритикко Ф., Мелони С., Порселлинис С.Д. и Сетола Р. (2008). «Моделирование взаимозависимых инфраструктур с использованием взаимодействующих динамических моделей». Международный журнал критических инфраструктур . 4 : 63–79. doi : 10.1504/IJCIS.2008.016092 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Моттер, А.Е.; Лай, ЮК (2002). «Каскадные атаки на сложные сети». Физ. Преподобный Е. 66 (6 Pt 2): 065102. arXiv : cond-mat/0301086 . Бибкод : 2002PhRvE..66f5102M . дои : 10.1103/PhysRevE.66.065102 . ПМИД 12513335 . S2CID 17189308 .
Дальнейшее чтение
[ редактировать ]- Тосиюки Миядзаки (1 марта 2005 г.). «Сравнение стратегий защиты от каскадного пробоя в сетях SF со степенью корреляции» (PDF) . Архивировано из оригинала (PDF) 20 февраля 2009 г.
- Расс Купер (1 июня 2005 г.). «(В) Secure Shell?» . РедмондМаг.com. Архивировано из оригинала 28 сентября 2007 г. Проверено 8 сентября 2007 г.
- Министерство внутренней безопасности США (5 февраля 2007 г.). «Cascade Net (программа моделирования)» . Центр внутренней обороны и безопасности. Архивировано из оригинала 28 декабря 2008 г. Проверено 8 сентября 2007 г.
Внешние ссылки
[ редактировать ]- Космическая погода: отключение электроэнергии — масштабный сбой в электросети
- Демонстрационный апплет каскадных сбоев (Виртуальная лаборатория Университета Монаша)
- А.Е. Моттер и Ю.-К. Лай, Каскадные атаки на сложные сети, Physical Review E (Rapid Communications) 66, 065102 (2002).
- П. Кручитти, В. Латора и М. Маркиори, Модель каскадных сбоев в сложных сетях, Physical Review E (Rapid Communications) 69, 045104 (2004).
- Стратегии защиты от каскадных сбоев сети — сокращенный подход
- И. Добсон, Б. А. Каррерас и Д. Е. Ньюман, препринт «Модель вероятностного каскадного отказа, зависящая от нагрузки», «Вероятность в инженерных и информационных науках», том. 19, нет. 1 января 2005 г., стр. 15–32.
- Нова: крушение рейса 111 2 сентября 1998 года. Рейс 111 авиакомпании Swissair, летевший из Нью-Йорка в Женеву, врезался в Атлантический океан у побережья Новой Шотландии, на борту находились 229 человек. Первоначально полагали, что это террористический акт. После расследования стоимостью 39 миллионов долларов, выплаты страховки в размере 1,5 миллиарда долларов и более четырех лет следователи разгадывают загадку: каскадный отказ. Каково наследие Swissair 111? «У нас есть окно во внутреннюю структуру дизайна, систему сдержек и противовесов, защиту и безопасность». -Дэвид Эванс, главный редактор журнала Air Safety Week.
- Веб-сюжет по физике: Авария на месте нейтринной лаборатории
- Структура и динамика крупномасштабных организационных сетей (Дэн Браха, Институт сложных систем Новой Англии)
- От единой сети к сети сетей. Архивировано 14 ноября 2015 г. на Wayback Machine.