Jump to content

Проектирование надежности сайта

Проектирование надежности сайта ( SRE ) — это набор принципов и практик, который применяет аспекты разработки программного обеспечения к ИТ- инфраструктуре и операциям . [1] SRE утверждает, что создает высоконадежные и масштабируемые программные системы. Хотя они тесно связаны, SRE немного отличается от DevOps . [2] [3] [4]

Область проектирования надежности сайтов зародилась в Google Беном Трейнором Слоссом. [5] [6] который основал команду по обеспечению надежности сайтов после прихода в компанию в 2003 году. [7] В 2016 году в Google работало более 1000 инженеров по надежности сайтов. [8] Зародившись в Google в 2003 году, эта концепция распространилась на более широкую индустрию разработки программного обеспечения, и впоследствии другие компании начали нанимать инженеров по надежности сайтов. [9] Эта позиция более распространена в крупных веб-компаниях, поскольку небольшие компании часто не работают в таких масштабах, которые потребовали бы выделенных SRE. [9] В число организаций , принявших эту концепцию, входят Airbnb , Dropbox , IBM , [10] Линкедин , [11] Нетфликс , [8] и Викимедиа . [12] Согласно отчету Института DevOps за 2021 год, 22% организаций при опросе 2000 респондентов приняли модель SRE. [13] [14]

Определение

[ редактировать ]

Проектирование надежности объекта, как должностная роль, может выполняться отдельными участниками или быть организовано в группы, ответственные за сочетание следующих функций в рамках более широкой инженерной организации: доступность системы , задержка , производительность , эффективность, управление изменениями , мониторинг , реагирование на чрезвычайные ситуации , и планирование мощностей . [15] Инженеры по обеспечению надежности объектов часто имеют опыт работы в области разработки программного обеспечения , системной разработки или системного администрирования . [16] В сферу деятельности SRE входят автоматизация, проектирование систем и повышение устойчивости систем . [16]

Проектирование надежности объекта как набор принципов и практик может выполняться кем угодно. Хотя каждый должен внести свой вклад в передовой опыт, как это происходит в сфере проектирования безопасности , компания может в конечном итоге нанять для этой работы специалистов и инженеров. [ нужна ссылка ]

Проектирование надежности сайта считается конкретной реализацией DevOps; [17] SRE фокусируется конкретно на создании надежных систем, тогда как DevOps фокусируется на более широком смысле. [2] [3] [4] Хотя у них разные направления деятельности, некоторые компании переименовали свои операционные группы в команды SRE с небольшими значимыми изменениями. [9]

Принципы и практика

[ редактировать ]

Было предпринято множество попыток определить канонический список принципов проектирования надежности объектов, но, хотя консенсус отсутствует, в большинство определений обычно включаются следующие характеристики: [1] [18]

  • Автоматизация или устранение повторяющихся действий экономически эффективным способом.
  • Избегание стремления к гораздо большей надежности, чем это строго необходимо. Определение того, что необходимо, само по себе является практикой (см. список практик ниже).
  • Системы, спроектированные с уклоном в сторону снижения рисков доступности, задержек и эффективности.
  • Наблюдаемость — способность задавать произвольные вопросы о системе, не зная заранее, что спрашивать. [19]

Методы проектирования надежности объектов также сильно различаются, но приведенный ниже список относительно часто рассматривается как хотя бы частично реализованный:

Реализации

[ редактировать ]

Команды инженеров по обеспечению надежности объектов взаимодействуют с другими группами внутри своих компаний, а также с принципами и практиками SRE в различных формах. Вот общий обзор распространенных реализаций команды SRE: [20]

Кухонная мойка, также известная как «Все SRE»

[ редактировать ]

Объем охватываемых услуг или рабочих процессов обычно не ограничен.

Инфраструктура

[ редактировать ]

Они сосредоточены на надежности скрытых систем, которые помогают сделать работу других команд более эффективной. Их часто путают с командами «Платформы» или командами «Операций на платформе». Команды SRE инфраструктуры могут объединяться с одной или несколькими группами разработчиков платформ, но они отличаются тем, что команды SRE инфраструктуры сосредотачиваются на выполнении большей части, если не всей, работы, описанной в принципах и методах, перечисленных выше. Команды разработчиков платформы, как правило, сосредотачиваются на создании платформы, и хотя надежность желательна, это не единственный их приоритет.

Инструменты

[ редактировать ]

Команды сосредоточены на инструментах для измерения, обслуживания и повышения надежности системы. Например, Nagios Core или Prometheus (программное обеспечение) .

Продукт или приложение

[ редактировать ]

Команда SRE для продукта и/или приложения. Некоторые крупные компании обычно нанимают несколько таких сотрудников.

Встроенный

[ редактировать ]

Обычно специалисты по SRE или пары, входящие в состав команды разработчиков программного обеспечения, применяют большинство принципов и практик, описанных выше.

Консалтинг

[ редактировать ]

Эти команды консультируются о том, как реализовать принципы и методы SRE. Обычно это опытные SRE, работавшие в командах в одной или нескольких из описанных выше реализаций. SRE, занимающиеся внешним консалтингом. Команды SRE иногда называют «инженерами по надежности клиентов».

Крупные компании, внедрившие SRE, как правило, имеют комбинацию описанных выше реализаций, включая несколько групп одной и той же реализации, например, несколько групп SRE по продукту/приложению для удовлетворения конкретных требований нескольких продуктов и группу SRE по инфраструктуре для объединения с платформой. инженерная группа для достижения целей надежности общей платформы для обоих продуктов/приложений.

Промышленность

[ редактировать ]

Организация USENIX с 2014 года проводит ежегодную конференцию SREcon для инженеров по надежности объектов в отрасли, а также проводит региональные конференции на аналогичные темы. [21]

См. также

[ редактировать ]
  1. ^ Jump up to: а б «Оценка положения вашей команды в спектре SRE» . Блог Google Cloud . Проверено 26 июня 2021 г.
  2. ^ Jump up to: а б Бейер, Бетси; Джонс, Крис; Петофф, Дженнифер; Мерфи, Найл, ред. (2016). Проектирование надежности сайта: как Google управляет производственными системами . Севастополь, Калифорния: O'Reilly Media . ISBN  978-1-4919-5118-7 . OCLC   945577030 .
  3. ^ Jump up to: а б Варго, Сет; Фонг-Джонс, Лиз (1 марта 2018 г.). В чем разница между DevOps и SRE? (класс SRE реализует DevOps) (Видео). Google .
  4. ^ Jump up to: а б «Что такое SRE? — Объяснение SRE — AWS» . Amazon Веб-сервисы, Inc. Проверено 5 ноября 2022 г.
  5. ^ Хилл, Патрик. «Любите DevOps? Подождите, пока не встретите SRE» . Атласиан . Проверено 17 июня 2021 г.
  6. ^ «Что такое СРЕ?» . Красная шляпа . Проверено 17 июня 2021 г.
  7. ^ Трейнор, Бен (2014). «Ключи к СРЕ» . USENIX SREcon14 . Проверено 17 июня 2021 г.
  8. ^ Jump up to: а б Фишер, Дональд (2 марта 2016 г.). «Являются ли инженеры по надежности объектов следующими специалистами по данным?» . ТехКранч . Проверено 17 июня 2021 г.
  9. ^ Jump up to: а б с Госсетт, Стивен (1 июня 2020 г.). «Что такое инженер по надежности объекта? Чем занимается SRE?» . Встроенный . Проверено 17 июня 2021 г.
  10. ^ «Инженерия надежности сайта» . IBM Cloud Education . ИБМ . 12 ноября 2020 г. . Проверено 21 июня 2021 г.
  11. ^ «Инженерия надежности объекта (SRE)» . Engineering.linkedin.com . Проверено 12 марта 2024 г.
  12. ^ «СРЭ — Викитех» . wikitech.wikimedia.org . Проверено 17 октября 2021 г.
  13. ^ Эрлих, Эвелин; Гролл, Джейн; Гарбани, Жан-Пьер (2021). Отчет о повышении квалификации корпоративных DevOps в 2021 году (PDF) (Отчет). Институт DevOps . Проверено 17 июня 2021 г.
  14. ^ Эрлих, Эвелин (4 мая 2021 г.). «Что нужно, чтобы стать инженером по надежности объекта» . ТехМаяк . Микро Фокус . Проверено 17 июня 2021 г.
  15. ^ Трейнор, Бен. «В разговоре» (Интервью). Беседовал Найл Мерфи. Проектирование надежности сайтов Google.
  16. ^ Jump up to: а б Джонс, Крис; Андервуд, Тодд; Нукала, Шилая (июнь 2015 г.). «Найм инженеров по надежности объектов» (PDF) . ;авторизоваться: . Том. 40, нет. 3. С. 35–39 . Проверено 17 июня 2021 г.
  17. ^ Дэйв Харрисон (9 октября 2018 г.). «Интервью с Бетси Бейер и Стивеном Торном из Google» . Проверено 24 июля 2024 г.
  18. ^ «7 принципов SRE [и как их применить на практике]» . www.blameless.com . Проверено 26 июня 2021 г.
  19. ^ «Узнайте о наблюдаемости | Honeycomb» . docs.honeycomb.io . Проверено 26 июня 2021 г.
  20. ^ «SRE в Google: как структурировать команду SRE» . Блог Google Cloud . Проверено 26 июня 2021 г.
  21. ^ «Usenix SREcon» . УСЕНИКС . 2021 . Проверено 17 июня 2021 г.

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 11cc518a3c51cd0aabbfb6adb41eebb0__1721959740
URL1:https://arc.ask3.ru/arc/aa/11/b0/11cc518a3c51cd0aabbfb6adb41eebb0.html
Заголовок, (Title) документа по адресу, URL1:
Site reliability engineering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)