Время простоя - Downtime

Период, термин время простоя используется для обозначения периодов, когда система недоступна.Время простоя или же продолжительность простоя относится к периоду времени, когда система не выполняет свою основную функцию. Надежность, доступность, восстановление и недоступность являются взаимосвязанными понятиями. недоступность это доля промежутка времени, система недоступен или не в сети. Обычно это результат работы системы. неспособность функционировать из-за незапланированного события или из-за рутины поддержание (запланированное мероприятие).

Этот термин обычно применяется к сети и серверы. Распространенными причинами незапланированных отключений являются системные сбои (например, крушение ) или сбои связи (обычно известные как отключение сети).

Этот термин также обычно применяется в промышленных условиях в отношении отказов промышленного производственного оборудования. На некоторых предприятиях измеряется время простоя во время рабочей смены или в течение 12- или 24-часового периода. Другой распространенной практикой является определение каждого простоя как имеющего операционную, электрическую или механическую причину.

Противоположностью простоя является время безотказной работы.

Типы

Отраслевые стандарты для терминов «Продолжительность простоя» или «Продолжительность технического обслуживания» могут иметь разные точки начала и завершения, поэтому следует использовать следующее пояснение, чтобы избежать конфликтов при выполнении контракта:

  1. «Под ключ» - это самый увлекательный из всех видов простоев. Отключение или обслуживание начинается с того, что оператор установки или оборудования нажимает кнопку выключения или остановки, чтобы инициировать остановку работы. Если не указано иное, отключение или техническое обслуживание считаются завершенными, когда завод или оборудование вернулись в нормальный режим работы, готовые начать производство, или готовы быть синхронизированы с системой или сетью, или готовы выполнять обязанности в качестве насоса или компрессора.
  2. «От выключателя к выключателю» Этот отказ или техническое обслуживание начинается с того, что оператор установки или оборудования отключает силовую цепь (главный силовой выключатель находится в состоянии «выключено», «отключен» или «включено-охлаждение»), а не цепь управления из работы. Это по-прежнему позволит охлаждать оборудование или довести его до температуры окружающей среды, чтобы можно было подготовить или начать работы по отключению / техническому обслуживанию. В зависимости от типа оборудования отключение «от выключателя к выключателю» может быть выгодным при заключении контракта на техническое обслуживание, связанное с управлением, поскольку этот тип работ по техническому обслуживанию может выполняться, пока основное оборудование все еще находится в режиме охлаждения или в режиме ожидания. Если не указано иное, этот тип отключения считается завершенным, когда в силовую цепь повторно подается питание посредством включения силового выключателя.
  3. "Завершение Заблокировать тег из «Этот простой или техническое обслуживание (иногда ошибочно принимаемое за« отключение охлаждения », но не одно и то же) начинается с того, что оператор установки или оборудования отключает цепь питания, отключает цепь управления и выполняет другую нейтрализацию потенциальных источников энергии и опасности (обычно называемую блокировкой). -Out, Tag-Out "LOTO") Эта точка периода технического обслуживания обычно является последней фазой этапа инициирования отключения перед фактическим началом работ на объекте, заводе или оборудовании. Инструктаж по технике безопасности всегда должен следовать за деятельностью LOTO, прежде чем любая работа Если не указано иное, этот тип простоя считается завершенным, когда оборудование достигло механической готовности и готово к установке на медленное вращение для многих тяжелых вращающихся механизмов, испытанию на работоспособность или проверке вращения для двигателей и т. д., но после возврат или разрешение на работу в соответствии с процедурами LOTO.

Любое онлайн-тестирование, тестирование производительности и настройка не должны засчитываться в счет продолжительности простоя, поскольку эти действия обычно проводятся после завершения простоя или события технического обслуживания и не контролируются большинством подрядчиков по техническому обслуживанию.

Характеристики

Незапланированный простой может быть результатом неисправности оборудования и т. Д.

Классификация отключений электросвязи

Время простоя может быть вызвано отказом оборудования (физического оборудования), (оборудования логического управления), соединительного оборудования (такого как кабели, оборудование, маршрутизаторы, ...), передачи (беспроводной, микроволновый, спутниковый) и / или пропускной способности (системные ограничения) .

Отказы могут возникать из-за повреждений, сбоев, конструктивных, процедурных (неправильное использование людьми), инженерных (как использовать и развертывание), перегрузки (трафик или системные ресурсы, превышающие установленные пределы), окружающей среды (вспомогательные системы, такие как питание и HVAC), (сбои, встроенные в систему для таких целей, как обновление программного обеспечения и расширение оборудования), другие (ничего из вышеперечисленного, но известные) или неизвестные.

За сбои могут нести ответственность заказчик / поставщик услуг, продавец / поставщик, коммунальное предприятие, правительство, подрядчик, конечный заказчик, общественное лицо, стихийное бедствие, другое (ничего из вышеперечисленного, но известное) или неизвестное.

Влияние

Сбои, вызванные системными сбоями, могут оказать серьезное влияние на пользователей компьютерных / сетевых систем, особенно на те отрасли, которые полагаются на почти 24-часовое обслуживание:

Также затронуты могут быть пользователи Интернет-провайдер и другие клиенты телекоммуникационной сети.

Корпорации могут потерять бизнес из-за сбоя сети или не выполнить контракт, что приведет к финансовым потерям. В соответствии с Veeam В отчете об управлении облачными данными за 2019 год организации сталкиваются с незапланированными простоями в среднем 5-10 раз в год, при этом средняя стоимость одного часа простоя составляет 102 450 долларов США. [1]

Люди или организации, на которые влияет простой, могут быть более чувствительны к определенным аспектам:

  • на некоторых больше влияет продолжительность простоя - для них важно, сколько времени потребуется на восстановление после проблемы
  • другие чувствительны к срокам отключения - отключение в часы пик влияет на них больше всего

Самые требовательные пользователи - те, которым требуется высокая доступность.

Известные сбои

На День матери В воскресенье, 8 мая 1988 г., произошел пожар в главной коммутационной комнате центрального офиса Хинсдейла. Иллинойс Белл телефонная компания. Один из наибольших переключение системы в штате, центр обрабатывал более 3,5 миллионов звонков каждый день, обслуживая 38 000 клиентов, включая многочисленные предприятия, больницы и аэропорты Чикаго О'Хара и Мидуэй.[2]

Практически весь AT&T сеть 4ESS 15 января 1990 года тандемные коммутаторы платной связи снова и снова выходили из строя, нарушая работу междугородной связи для всех Соединенных Штатов. Проблема исчезла сама собой, когда трафик замедлился. Обнаружена программная ошибка.[3]

AT&T потеряла ретрансляция кадров сеть на 26 часов 13 апреля 1998 г.[4] Это затронуло многие тысячи клиентов, а банковские операции были одной жертвой. AT&T не смогла удовлетворить соглашение об уровне обслуживания по их контрактам с клиентами и должны были вернуть[5] 6,600 счета клиентов, стоимостью в миллионы долларов.

Xbox Live в период отпусков 2007–2008 гг., которые длились тринадцать дней, были периодические простои.[6] Повышенный спрос со стороны покупателей Xbox 360 (самое большое количество новых пользователей в истории Xbox Live) был назван причиной простоя; Чтобы исправить проблемы с обслуживанием, Microsoft предложила своим пользователям возможность получить бесплатную игру.[7]

Sony с Сеть PlayStation Network в апреле 2011 г. отключена, началось 20 апреля 2011 г. и постепенно восстанавливалось 14 мая 2011 г., начиная с Соединенные Штаты. Это отключение является самым продолжительным периодом времени, в течение которого PSN находилась в автономном режиме с момента его создания в 2006 году. Sony заявила, что проблема была вызвана внешним вторжением, которое привело к конфискации личной информации.[8] 26 апреля 2011 г. Sony сообщила, что большой объем пользовательских данных был получен с помощью того же взлома, который привел к простою.

Telstra Переключатель Ryde вышел из строя в конце 2011 года после того, как из-за продолжающейся влажной погоды в электрический распределительный щит попала вода. Коммутатор Ryde является одним из крупнейших коммутаторов в Австралии по площади и затронул более 720 000 служб.[нужна цитата ]

В Майами центр обработки данных ServerAxis был отключен без предварительного уведомления 29 февраля 2016 г. и так и не был восстановлен. Это коснулось нескольких провайдеров и сотен веб-сайтов. Отключение повлияло на покрытие Баскетбольный турнир женского дивизиона NCAA 2016 поскольку WBBState, один из пострадавших сайтов, на сегодняшний день является наиболее полным поставщиком статистических данных по женскому баскетболу.[9]

Уровни обслуживания

В соглашения об уровне обслуживания, обычно упоминается процентное значение (за месяц или год), которое рассчитывается путем деления суммы всех временных интервалов простоев на общее время эталонного временного интервала (например, месяца). 0% простоя означает, что сервер был доступен все время.

Для Интернет-серверов простои более 1% в год или хуже могут считаться неприемлемыми, поскольку это означает простои более 3 дней в году. Для электронной коммерции и другого промышленного использования любое значение выше 0,1% обычно считается неприемлемым.[нужна цитата ]

Реагирование и снижение воздействия

Обязанность разработчика сети - убедиться, что сбой в сети не произойдет. Когда это все же произойдет, хорошо спроектированная система еще больше снизит последствия отключения за счет локальных отключений, которые можно обнаружить и устранить как можно скорее.

Необходимо наличие процесса для обнаружения неисправности - сетевой мониторинг - и для восстановления сети в рабочее состояние - обычно это требует служба поддержки команда, которая может устранять неполадки проблема, состоящая из обученных инженеров; отдельная группа службы поддержки обычно необходима для ввода данных пользователем, что может быть особенно требовательным во время простоя.

А управление сетью Система может использоваться для обнаружения неисправных или выходящих из строя компонентов до подачи жалоб клиентов с упреждающим устранением неисправностей.

Управление рисками методы могут быть использованы для определения влияния сбоев сети на организацию и того, какие действия могут потребоваться для минимизации риска. Риск можно свести к минимуму, используя надежные компоненты, выполняя техническое обслуживание, такое как обновления, используя резервные системы или имея план действий в непредвиденных обстоятельствах или же план продолжения работы компании.Технические средства могут уменьшить количество ошибок коды исправления ошибок, ретрансляция, контрольные суммы, или же схема разнесения.

Одна из основных причин простоев - неправильная конфигурация, когда запланированное изменение идет не так, как надо. Обычно организации полагаются на ручное управление процессом резервного копирования конфигурации, но для этого требуются высококвалифицированные инженеры, у которых есть время для управления процессом в мультивендорной сети. Доступны инструменты автоматизации для управления резервным копированием, но существует очень мало решений для восстановления конфигурации, необходимых для минимизации общего воздействия сбоя.

В промышленных условиях простой, вызванный отказами в промышленном производственном оборудовании, может иметь несколько форм профилактических мер для измерения обеспечения качества и мониторинга оборудования. Визуальный осмотр могут выполняться с привлечением лиц, проверяющих оборудование вручную. Хотя эти проверки проводятся для сокращения «непредвиденных простоев» на промышленной площадке, такая форма проверки может привести к простоям из-за длительного процесса, зависящего от размера площадки.

Датчики, системы контроля вибрации, Напряжение лесорубы, термометры и другие системы мониторинга могут быть размещены на оборудовании или рядом с ним для измерения качества и контроля их использования. Эти датчики могут служить в качестве «постоянно включенной» формы мониторинга, который может обнаружить существующую проблему или может предсказать будущую проблему. Эти системы рассматриваются как отличный способ сократить время простоя как можно больше машины может продолжать работать, пока датчики собираются данные. [10]

Робототехника играет все более важную роль в процессе мониторинга с помощью роботов с глубоким обучением,[11] дроны[12][13] мобильные роботы,[14] среди прочего. Мониторинг и инспекции обеспечено роботы считаются хорошим способом сократить время простоя, поскольку многие роботы, заводы или другие промышленные объекты не должны прекращать работу и фактически могут продолжать работать во время проверки. Уменьшение человеческого взаимодействия как в робототехнике, так и в мониторинге датчиков может снизить общие затраты за счет снижения численности персонала и сокращения времени простоя во время проверок.[15]

Планирование

Запланированный простой является результатом запланированных действий владельца системы и / или поставщик услуг. Эти отключения, часто планируемые во время окно обслуживания, можно использовать для выполнения следующих задач:

  • Отложенное обслуживание, например, отложенный ремонт оборудования или отложенный перезапуск для очистки испорченной памяти
  • Диагностика для выявления обнаруженной неисправности
  • Ремонт аппаратных неисправностей
  • Исправление ошибки или упущения в базе данных конфигурации или упущения в недавнем изменении базы данных конфигурации
  • Исправление ошибки в базе данных приложения или ошибки в недавнем изменении базы данных приложения
  • Исправление программного обеспечения / обновления программного обеспечения для устранения ошибки программного обеспечения.

Отключение также может быть запланировано в результате предсказуемого природного события, такого как Отключение солнца.

В отраслях, где используются компьютерные системы, необходимо тщательно планировать время простоя на техническое обслуживание. Во многих случаях общесистемные простои можно предотвратить с помощью так называемого «последовательного обновления» - процесса постепенного отключения частей системы для обновления без ущерба для общей функциональности.

Избегание

Для большинства веб-сайтов мониторинг сайта доступен. Мониторинг веб-сайтов (синтетический или пассивный) - это услуга, которая «отслеживает» время простоя и пользователей на сайте.

Другое использование

Время простоя также может относиться к времени, когда падает человеческий капитал или другие активы. Например, если сотрудники находятся на собраниях или не могут выполнять свою работу из-за другого ограничения, они не работают. Это может быть столь же дорогостоящим и может быть результатом отказа другого актива (например, компьютера / системы). Это также широко известно как "мертвое время ".

Время простоя также обобщается в личном смысле и используется для обозначения периода спать или же отдых.[16][17][18]

Этот термин также используется на фабриках или в промышленности. Видеть комплексное обслуживание оборудования (TPM).

Измерение времени простоя

Существует множество внешних служб, которые можно использовать для отслеживания времени безотказной работы и простоя, а также доступности службы или хоста.

Смотрите также

Рекомендации

Введение и советы по поводу простоя веб-сайта

Почему важно отслеживать простои оборудования?

  1. ^ https://go.veeam.com/cloud-data-management-report-2019
  2. ^ Дайджест рисков Том 6: выпуск 82, 1988 г.
  3. ^ «Крах сети AT&T в 1990 году».
  4. ^ «Предотвращение сбоев в обслуживании IP-сети» (PDF). Agilent Technologies.
  5. ^ Дайджест рисков Том 19 Выпуск 72 1998 г.
  6. ^ «ДЕНЬ 13, отключение Xbox». Engadget. 2008-01-03. Получено 2011-04-27.
  7. ^ Microsoft предлагает бесплатную игру для проблем с праздником Xbox Live. Компьютерный мир, 4 января 2008 г.
  8. ^ https://www.google.com/hostednews/ap/article/ALeqM5j9AacQSaJXBQ3JUqZWxemjT8nMPw?docId=916344d02c284103af70f845db4befc1
  9. ^ Веб-сайт перешел в автономный режим и собрал большую часть аналитики женского колледжа по баскетболу Пять тридцать восемь
  10. ^ "Промышленная автоматизация - адаптивные сетевые решения RU". an-solutions.de. Получено 2020-10-01.
  11. ^ «Глубокое обучение для проверки качества». Scortex. 2020-01-20. Получено 2020-10-01.
  12. ^ Дуковиц, Зак. "Можно ли использовать дрон в качестве официального инструмента проверки?". www.flyability.com. Получено 2020-10-01.
  13. ^ Раз, Равив (2020-03-08). «Более строгий мониторинг, более высокая производительность, меньшее время простоя. Автономные дроны - беспроигрышный вариант». Percepto. Получено 2020-10-01.
  14. ^ Команда, Gecko Marketing. «Использование робототехники для проверки трубопроводов». blog.geckorobotics.com. Получено 2020-10-01.
  15. ^ «Профилактическое обслуживание помогает сократить время простоя процессов». АВТОМАТИЗАЦИЯ производства. 2017-12-28. Получено 2020-10-01.
  16. ^ "Отдых и релаксация: почему" отдых "важен для детей".
  17. ^ «Важность планирования простоев».
  18. ^ "Что делает с вашим разумом недостаток сна". Многие думают, что сон - это просто роскошь - небольшой отдых.