MTTR отвечает на вопрос: «Сколько в среднем пользователи будут ждать, пока компания справиться со сбоем?» В зависимости от контекста данное понятие может означать разные этапы работы с проблемой, поэтому оно включает в себя сразу три метрики: Mean Time To Recover (время восстановления), Mean Time To Respond (время реакции на инцидент) и Mean Time To Resolve (время на разрешение). Более подробно о каждой из них, включая формулы расчета, можно прочитать в отдельной
статье на сайте.
На показатель MTTR влияет сразу несколько факторов: скорость обнаружения инцидента, доступность информации для его решения, эффективность коммуникации внутри команды, распределение задач по приоритету. Если хотя бы один из этих элементов работает плохо, команда теряет производительность, а значит, время решения увеличивается.
Ниже – практические способы, которые реально помогают снизить MTTR и ускорить решение инцидентов.