Провал Facebook показывает, почему мы не должны полагаться на него во всем

Оглавление:

Провал Facebook показывает, почему мы не должны полагаться на него во всем
Провал Facebook показывает, почему мы не должны полагаться на него во всем
Anonim

Ключевые выводы

  • Технические проблемы Facebook были прискорбными, но проблема, скорее всего, была бы решена намного быстрее, если бы она не полагалась на такое количество взаимосвязанных систем.
  • Невозможно полностью предотвратить системные сбои, но есть способы сделать их менее вероятными.
  • Наличие планов резервного копирования на случай (а не если, когда) система выйдет из строя, может сделать разницу между «раздражающей» и «катастрофической».
Image
Image

Недавний крах Facebook демонстрирует, как взаимосвязанные системы обречены на сбой и почему мы не должны использовать их для всего.

Потеря Facebook, WhatsApp и Instagram на несколько часов в понедельник была неудобной, наносящей ущерб бизнесу, а в некоторых случаях даже катастрофической. Согласно Facebook, все это произошло из-за изменений конфигурации его сетевых координирующих маршрутизаторов.

Это разумное объяснение, но тот факт, что одна подобная ошибка может привести к остановке не только Facebook, но и других систем, принадлежащих Facebook, немного настораживает.

Одно неверное изменение конфигурации маршрутизатора привело к полному прекращению работы нескольких сервисов и даже гарнитур виртуальной реальности. Вдобавок ко всему, по собственному признанию Facebook, это также оказало каскадное влияние на то, как центры обработки данных компании обмениваются данными, что привело к остановке всех их услуг.

«Зависимость от взаимосвязанных систем несет в себе неотъемлемый риск сбоя системы или даже обслуживания», - сказал Франческо Альтомаре, старший технический инженер по продажам в GlobalDots, в интервью по электронной почте Lifewire, "Чтобы противостоять этому пугающему риску, компании используют принцип SRE (System Reliability Engineering), а также другие инструменты, которые имеют дело с различными уровнями избыточности, встроенными в каждый уровень системной инфраструктуры."

Image
Image

Что может пойти не так

Стоит отметить, что когда подобная система дает сбой, это обычно требует идеального шторма вещей, которые идут не так, как надо. Это больше похоже не на карточный домик, ожидающий падения, а на открытое вентиляционное отверстие на космической станции размером с маленькую луну.

Большинство компаний предпринимают шаги, чтобы гарантировать, что одна вещь, которая может повергнуть все в хаос, никогда не произойдет, но, тем не менее, это может произойти.

«Неожиданные сбои являются частью бизнеса и могут возникнуть в результате халатности сотрудников, сбоев в сети интернет-провайдера или даже проблем с облачными хранилищами», - сказала Салли Стивенс, соучредитель FastPeopleSearch, в интервью по электронной почте.

"… Пока приняты необходимые меры для защиты системы, такие как резервное копирование, локальный маршрутизатор и многоуровневый доступ, эти сбои маловероятны". Хотя даже с целой армией отказоустойчивых устройств краеугольный камень может выйти из строя.

Если система, которая контролирует такие вещи, как первичные формы контакта, приборы, двери и т. д., дает сбой, результаты могут быть значительными. От легкого неудобства до полной катастрофы, в зависимости от того, насколько люди и компании полагаются на все это.

Image
Image

«Существует также риск проникновения хакеров в систему с любого из наименее защищенных устройств, таких как холодильники и тостеры, - добавил Стивенс, - что может привести к краже данных и программам-вымогателям».

Как мы можем подготовиться

Нет никакого способа гарантировать, что система никогда не выйдет из строя, но есть шаги, которые можно предпринять, чтобы либо уменьшить вероятность сбоя, либо более плавно устранить сбой. Идеальной была бы комбинация двух подходов, сочетающая отказоустойчивость и контрмеры с планами на случай непредвиденных обстоятельств и резервными системами.

«Для устранения этих опасностей, создаваемых сторонними продуктами и услугами, которые эффективно обрабатываются, роли и обязанности в отношении управления рисками третьих лиц должны быть четко определены», - сказала Даниэла Сойер, основатель и главный технический директор FindPeopleFast, в интервью по электронной почте: «Чтобы процветать в этих новых условиях, менеджеры по управлению рисками должны понимать основные части такой сложной экосистемы».

То, что произошло с Facebook, WhatsApp и Instagram, было прискорбным, но, надеюсь, и поучительным. Люди, которые полагаются на взаимосвязанные системы, должны понимать, что если что-то пойдет не так, то все может разрушиться. И необходимо принять меры (или тщательно изучить и уточнить), чтобы сделать такие сбои менее вероятными и менее серьезными.

В случае с Facebook проблема заключалась не в проблемах с маршрутизатором, а в том, что почти вся его экосистема была подключена ко всему остальному. Таким образом, из-за того, что Facebook (сервис) не работает, Facebook (компании) пришлось тратить гораздо больше времени и энергии просто на организацию и решение проблемы. Если бы он либо не использовал такую глубоко укоренившуюся, взаимосвязанную систему, либо не имел бы планов резервного копирования на случай подобного сбоя, вероятно, на устранение проблемы ушло бы гораздо меньше времени..

Рекомендуемые: