Jump to content

Время простоя

(Перенаправлено с «Отключение сети »)

Термин «время простоя» (также «отключение системы» ) используется для обозначения периодов, когда система недоступна. Недоступность это доля времени, в течение которого система недоступна или находится в автономном режиме .Обычно это является результатом сбоя системы в работе из-за незапланированного события или планового обслуживания (запланированного события).

Эти термины обычно применяются к сетям и серверам . Распространенными причинами незапланированных простоев являются системные сбои (например, сбой ) или сбои связи (широко известные как сбои сети ). Для простоев из-за проблем с общими компьютерными системами термин «отказ компьютера» (также «отказ ИТ» можно использовать ).

Этот термин также широко применяется в промышленных условиях в отношении сбоев в промышленном производственном оборудовании. Некоторые предприятия измеряют время простоя в течение рабочей смены, а также в течение 12- или 24-часового периода. Другая распространенная практика заключается в том, чтобы идентифицировать каждое событие простоя как имеющее эксплуатационное, электрическое или механическое происхождение.

Противоположностью времени простоя является время безотказной работы .

Отраслевые стандарты для терминов «Продолжительность простоя» или «Продолжительность технического обслуживания» могут иметь разные точки начала и завершения, поэтому во избежание конфликтов при исполнении контракта следует использовать следующее разъяснение:

  1. «Под ключ» — это самый увлекательный из всех видов отключений. Отключение или техническое обслуживание начинается с того, что оператор установки или оборудования нажимает кнопку выключения или остановки, чтобы инициировать остановку работы. Если не указано иное, простой или техническое обслуживание считаются завершенными, когда установка или оборудование снова работают в нормальном режиме и готовы к началу производства, или готовы к синхронизации с системой или сетью, или готовы выполнять функции насоса или компрессора.
  2. «От выключателя к выключателю» Это отключение или техническое обслуживание начинается с того, что оператор установки или оборудования выводит из строя силовую цепь (главный силовой выключатель находится в положении «выключено», «выключено» или «включено при охлаждении»), а не цепь управления. Это по-прежнему позволит охладить оборудование или довести его до температуры окружающей среды, чтобы можно было подготовить или начать работы по отключению/техническому обслуживанию. В зависимости от типа оборудования отключение по принципу «от выключателя к выключателю» может быть выгодным при заключении контракта на техническое обслуживание средств управления, поскольку этот тип работ по техническому обслуживанию может выполняться, пока основное оборудование все еще находится в режиме охлаждения или в режиме ожидания. Если не указано иное, этот тип отключения считается завершенным, когда в силовую цепь повторно подается питание посредством включения силового выключателя.
  3. «Завершение блокировки/маркировки ». Это отключение или техническое обслуживание (иногда ошибочно принимаемое за «выключение охлаждения», но это не одно и то же) начинается с того, что оператор установки или оборудования отключает силовую цепь, отключает цепь управления и выполняет другие действия по нейтрализации. потенциальных источников энергии и опасностей (обычно называемых блокировкой, маркировкой «LOTO»). Эта точка периода технического обслуживания обычно является последней фазой стадии начала отключения перед началом фактических работ на объекте, заводе или оборудовании. Инструктаж по технике безопасности всегда должен следовать за деятельностью LOTO, прежде чем проводиться какие-либо работы. Если не указано иное, этот тип отключения считается завершенным, когда оборудование достигло механической завершенности и готово к переводу в режим медленного вращения для большого количества тяжелого вращающегося оборудования, функциональному испытанию или проверке вращения двигателей и т. д., но должно следовать за возвратом или разрешение на работу по процедурам ЛОТО.

Любое онлайн-тестирование, тестирование производительности и требуемая настройка не должны засчитываться в продолжительность простоя, поскольку эти действия обычно проводятся после завершения простоя или мероприятия по техническому обслуживанию и находятся вне контроля большинства подрядчиков по техническому обслуживанию.

Характеристики

[ редактировать ]

Незапланированные простои могут быть следствием неисправности оборудования и т.п.

Классификации сбоев в телекоммуникациях

[ редактировать ]

Простои могут быть вызваны сбоем ваппаратное обеспечение (физическое оборудование),(логическое управляющее оборудование),соединительное оборудование (например, кабели, устройства, маршрутизаторы и т. д.),передача (беспроводная, микроволновая, спутниковая) и/илимощность (системные ограничения).

Неисправности могут возникнуть из-заповреждать,отказ,дизайн,процедурный (неправильное использование людьми),инжиниринг (как использовать и развертывание),перегрузка (трафик или системные ресурсы загружены сверх заданных пределов),окружающая среда (системы поддержки, такие как электроснабжение и HVAC),(отключения, предусмотренные в системе для таких целей, как обновление программного обеспечения и расширение оборудования),другое (ничего из вышеперечисленного, но известное), илинеизвестный.

Ответственность за сбои может быть возложена наклиент/поставщик услуг,продавец/поставщик,полезность,правительство,подрядчик,конечный потребитель,публичный человек,стихийное бедствие,другое (ничего из вышеперечисленного, но известно), илинеизвестный.

Отключения, вызванные системными сбоями, могут оказать серьезное влияние на пользователей компьютерных/сетевых систем, особенно на те отрасли, которые полагаются на почти круглосуточное обслуживание:

Также могут пострадать пользователи интернет-провайдера и другие клиенты телекоммуникационной сети.

Корпорации могут потерять бизнес из-за сбоя в сети или невыполнения контракта, что приведет к финансовым потерям. Согласно отчету Veeam по управлению облачными данными за 2019 год, организации сталкиваются с незапланированными простоями в среднем 5–10 раз в год, при этом средняя стоимость одного часа простоя составляет 102 450 долларов США. [1]

Те люди или организации, на которых влияет простой, могут быть более чувствительны к определенным аспектам:

  • на некоторых больше влияет продолжительность простоя — для них важно, сколько времени потребуется на восстановление после проблемы
  • другие чувствительны к времени отключения электроэнергии — на них больше всего влияют отключения в часы пик.

Наиболее требовательными пользователями являются те, которым требуется высокая доступность .

Известные отключения электроэнергии

[ редактировать ]

В День матери вспыхнул пожар , в воскресенье, 8 мая 1988 года, в главной коммутационной комнате центрального офиса Хинсдейла телефонной компании Illinois Bell . Одна из крупнейших коммутационных систем в штате. Центр обрабатывал более 3,5 миллионов вызовов каждый день, обслуживая 38 000 клиентов, включая многочисленные предприятия, больницы, а также аэропорты О'Хара и Мидуэй в Чикаго. [2]

Практически вся AT&T сеть , состоящая из тандемных коммутаторов 4ESS , снова и снова включалась и выходила из строя 15 января 1990 года, нарушая связь междугородной связи на всей территории Соединенных Штатов. Проблема исчезла сама собой, когда движение транспорта замедлилось. Обнаружена программная ошибка. [3]

13 апреля 1998 года компания AT&T потеряла сеть Frame Relay на 26 часов. [4] Это затронуло многие тысячи клиентов, и банковские операции стали одной из жертв. AT&T не выполнила соглашение об уровне обслуживания по своим контрактам с клиентами и была вынуждена вернуть деньги. [5] 6600 клиентских счетов стоимостью в миллионы долларов.

у Xbox Live были периодические простои, которые длились тринадцать дней. Во время праздничного сезона 2007–2008 годов [6] Причиной простоя был назван повышенный спрос со стороны покупателей Xbox 360 (самое большое количество новых регистраций пользователей в истории Xbox Live); Чтобы исправить проблемы с обслуживанием, Microsoft предложила своим пользователям возможность получить бесплатную игру. [7]

Sony Отключение сети PlayStation Network в апреле 2011 года началось 20 апреля 2011 года и было постепенно восстановлено 14 мая 2011 года, начиная с США . Это отключение является самым длительным периодом времени, в течение которого PSN находилась в автономном режиме с момента ее создания в 2006 году. Sony заявила, что проблема была вызвана внешним вторжением, которое привело к конфискации личной информации. 26 апреля 2011 года Sony сообщила, что большой объем пользовательских данных был получен в результате того же взлома, который привел к простою. [8]

Выключатель Ryde компании Telstra вышел из строя в конце 2011 года после того, как из-за продолжающейся влажной погоды в электрический распределительный щит попала вода. Коммутатор Райда является одним из крупнейших по площади коммутаторов в Австралии и затронул более 720 000 служб. [ нужна ссылка ]

Центр обработки данных ServerAxis в Майами отключился без предупреждения 29 февраля 2016 г. и так и не был восстановлен. Это затронуло нескольких провайдеров и сотни веб-сайтов. Отключение повлияло на освещение женского баскетбольного турнира первого дивизиона NCAA 2016 года , поскольку WBBState, один из пострадавших сайтов, был на сегодняшний день наиболее полным поставщиком доступной статистики женского баскетбола. [9]

на игровой платформе Roblox произошел сбой Примерно в октябре 2021 года во время мероприятия Chipotle . Многие пользователи думали, что это произошло из-за мероприятия, потому что оно получило широкий прием, поскольку во время него пользователи могли получить бесплатное буррито Chipotle. Отключение стало самым продолжительным простоем Roblox, продолжавшимся 3 дня. [10] [11] [12]

8 июля 2022 года произошло крупное общенациональное отключение в Канаде электроэнергии . Это одновременно затронуло сотовую связь и доступ в Интернет, что привело к сбою звонков в службу 911 и межбанковских транзакций, а также к нарушению работы государственных служб.

19 июля 2024 года компания CrowdStrike выпустила ошибочное обновление драйвера устройства для своего программного обеспечения Falcon, что привело к сбою ПК, серверов и виртуальных машин с ОС Windows и зацикливанию загрузки. Инцидент непреднамеренно затронул около 8,5 миллионов компьютеров Windows по всему миру, включая критически важную инфраструктуру, такую ​​​​как службы 911 в различных штатах. Это считается крупнейшим сбоем в истории информационных технологий. [13] [14]

Уровни обслуживания

[ редактировать ]

В соглашениях об уровне обслуживания обычно указывается процентное значение (в месяц или в год), которое рассчитывается путем деления суммы всех периодов простоев на общее время базового периода времени (например, месяца). 0% простоя означает, что сервер был доступен все время.

Для интернет-серверов время простоя выше 1% в год или хуже может считаться неприемлемым, поскольку это означает простой более 3 дней в году. Для электронной коммерции и другого промышленного использования любое значение выше 0,1% обычно считается неприемлемым. [15]

Реагирование и снижение воздействия

[ редактировать ]

В обязанности проектировщика сети входит обеспечение предотвращения сбоев в сети. Когда это все же произойдет, хорошо спроектированная система еще больше уменьшит последствия сбоя за счет локализованных сбоев, которые можно обнаружить и устранить как можно скорее.

Должен быть установлен процесс обнаружения неисправности ( мониторинг сети ) и восстановления сети до рабочего состояния. Обычно для этого требуется группа службы поддержки , которая может устранить проблему, состоящая из обученных инженеров; Обычно необходима отдельная группа службы поддержки для обработки данных пользователей, что может быть особенно трудоемким во время простоя.

Систему управления сетью можно использовать для обнаружения неисправных или пришедших в негодность компонентов до поступления жалоб от клиентов с упреждающим устранением неисправностей.

Методы управления рисками можно использовать для определения влияния сбоев в сети на организацию и того, какие действия могут потребоваться для минимизации риска. Риск можно свести к минимуму за счет использования надежных компонентов, выполнения технического обслуживания, например обновлений, использования резервных систем или наличия плана действий в чрезвычайных ситуациях или плана обеспечения непрерывности бизнеса .Технические средства могут уменьшить количество ошибок с помощью кодов исправления ошибок , повторной передачи , контрольных сумм или схемы разнесения .

Одной из основных причин простоев является неправильная конфигурация, когда запланированное изменение идет не так, как надо. Обычно организации полагаются на ручное управление процессом резервного копирования конфигурации, но для этого требуются высококвалифицированные инженеры, у которых есть время для управления процессом в сети различных поставщиков. Доступны инструменты автоматизации для управления резервным копированием, но очень мало решений, обеспечивающих восстановление конфигурации, необходимое для минимизации общего воздействия сбоя. [16]

Планирование

[ редактировать ]

Запланированный сбой является результатом запланированных действий владельца системы и/или поставщика услуг . Эти отключения, часто запланированные во время периода обслуживания , могут использоваться для выполнения следующих задач:

  • Отложенное обслуживание, например отложенный ремонт оборудования или отложенный перезапуск для очистки поврежденной памяти.
  • Диагностика для изоляции обнаруженной неисправности
  • Ремонт аппаратных неисправностей
  • Исправление ошибки или упущения в базе данных конфигурации или упущения в недавнем изменении базы данных конфигурации.
  • Исправление ошибки в базе данных приложения или ошибки при недавнем изменении базы данных приложения.
  • Исправления программного обеспечения/обновления программного обеспечения для устранения неисправности программного обеспечения.

Отключения также можно планировать в результате предсказуемого природного события, такого как отключение Солнца .

В отраслях, где используются компьютерные системы, необходимо тщательно планировать время простоя из-за технического обслуживания. Во многих случаях простои всей системы можно предотвратить с помощью так называемого «последовательного обновления» — процесса постепенного отключения частей системы для обновления без ущерба для общей функциональности.

Избегание

[ редактировать ]

Для большинства веб-сайтов мониторинг веб-сайтов доступен . Мониторинг сайта (синтетический или пассивный) — это сервис, который «отслеживает» время простоя и пользователей на сайте.

Другое использование

[ редактировать ]

Время простоя также может относиться к времени, когда человеческий капитал или другие активы приходят в упадок. Например, если сотрудники находятся на собраниях или не могут выполнять свою работу из-за другого ограничения, они не работают. Это может быть столь же дорогостоящим и может быть результатом выхода из строя другого актива (например, компьютера/системы). Это также широко известно как « мертвое время ».

Время простоя также обобщается в личном смысле и используется для обозначения периода сна или отдыха . [17] [18] [19]

Этот термин также используется на заводах или в промышленности. См. общее продуктивное обслуживание (TPM).

Измерение времени простоя

[ редактировать ]

Существует множество внешних служб, которые можно использовать для мониторинга времени безотказной работы и простоя, а также доступности службы или хоста.

См. также

[ редактировать ]
  1. ^ «Краткий обзор тенденций в области защиты данных на 2021 год» . Программное обеспечение Veeam .
  2. ^ Нойманн, Питер Г.; Вайнсток, Чак; Таунсон, Патрик (11 мая 1988 г.). «Риски единичных отказов: пожар в Хинсдейле» . Дайджест РИСКИ . 6 (82). Архивировано из оригинала 6 октября 2022 г. - через веб-сервер Catless. Выдержки из журнала «ТЕЛЕКОМ Дайджест». 8 (76).
  3. ^ Нойманн, Питер Г. (26 февраля 1990 г.). «Крах сети AT&T в 1990 году» . Телефонный мир . Дайджест рисков. Архивировано из оригинала 19 декабря 2022 года.
  4. ^ «Предотвращение сбоев в работе служб IP-сети» (PDF) . Аджилент Технологии . 15 марта 2002 г. Архивировано из оригинала (PDF) 28 сентября 2018 г.
  5. ^ Нойманн, Питер Г.; Белловин, Стив; Бирнс, Джим; Ньюэлл, Рутлин (7 мая 1998 г.). «AT&T объявляет причину сбоя в сети Frame Relay» . Дайджест РИСКИ . 19 (72) – через веб-сервер Catless.
  6. ^ Блок, Райан (3 января 2008 г.). «Отказ Xbox Live, день 13: все еще взлеты и падения, все еще мешают развлечься» . Engadget. Архивировано из оригинала 27 января 2012 года . Проверено 27 апреля 2011 г.
  7. ^ Коэн, Питер (4 января 2008 г.). «Microsoft предлагает бесплатную игру для решения праздничных задач Xbox Live» . Мир ПК . Макмир. Архивировано из оригинала 1 декабря 2011 г.
  8. ^ «Начинается восстановление PlayStation®Network и служб Qriocity» . Портал Sony Group — глобальная штаб-квартира Sony . 15 мая 2011 года . Проверено 22 октября 2021 г.
  9. ^ Леви, Ян (16 марта 2016 г.). «Веб-сайт отключился и забрал с собой большую часть аналитики женского баскетбола в колледже» . ПятьТридцатьВосемь . Архивировано из оригинала 30 сентября 2023 г.
  10. ^ Плант, Логан (29 октября 2021 г.). «Серверы Roblox снова в сети [обновление]» . ИГН . Архивировано из оригинала 17 октября 2023 года.
  11. ^ Финнис, Алекс. «Roblox не работает? Почему игровая платформа сегодня не работает, а тысячи пользователей сообщают о проблемах со входом в систему» ​​. МСН . Архивировано из оригинала 15 ноября 2021 г.
  12. ^ «Roblox не работал все выходные, и не из-за Chipotle» . 30 октября 2021 г.
  13. ^ Милмо, Дэн; Коллеве, Юлия; Куинн, Бен; Тейлор, Джош; Ибрагим, Мими (20 июля 2024 г.). «Медленное восстановление после сбоя ИТ начинается, поскольку эксперты предупреждают о будущих рисках» . Хранитель . ISSN   0261-3077 . Проверено 21 июля 2024 г.
  14. ^ Уэстон, Дэвид (20 июля 2024 г.). «Помогаем нашим клиентам пережить сбой в работе CrowdStrike» . Официальный блог Microsoft . Проверено 21 июля 2024 г.
  15. ^ Коэн, Гад. «Простои, простои и сбои – понимание их истинной стоимости» . www.evolven.com . Проверено 22 октября 2021 г.
  16. ^ «Почему отслеживание простоев оборудования имеет значение?» . Эвокон . 10 сентября 2018 года . Проверено 22 октября 2021 г.
  17. ^ «Отдых и релаксация: почему «простои» важны для детей» . 19 сентября 2016 г.
  18. ^ «Важность планирования простоев» . 25 августа 2008 г.
  19. ^ «Что недостаток сна делает с вашим разумом» . Многие люди думают о сне просто как о роскоши – небольшом времени простоя.
[ редактировать ]
  • Словарное определение простоя в Викисловаре
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 974386b49ed1fcf80723cb78e07c9d52__1721725380
URL1:https://arc.ask3.ru/arc/aa/97/52/974386b49ed1fcf80723cb78e07c9d52.html
Заголовок, (Title) документа по адресу, URL1:
Downtime - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)