10 минут на чтение Отправь статью на почту?

Использование SLA договора для бесперебойной работы приложения

Подписаться
127

От каких проблем договор SLA защищает заказчиков и исполнителей digital-услуг. Чем он отличается от обычного договора, и как сделать SLA реально работающим документом. Об этом – в нашем материале.

Содержание

Что такое SLA договор и кому он необходим

Договор SLA (Service Level Agreement) – соглашение об уровне обслуживания – регулирует взаимоотношения между заказчиком и поставщиком (исполнителем) IT-услуг. Документ призван обеспечить бесперебойное функционирование цифровых продуктов: приложений и веб-сервисов.

В первую очередь, подобное соглашение необходимо крупным компаниям, активно работающим в сфере B2B и B2C. Практически все современные бизнес-процессы оцифрованы и целиком зависят от работы IT-программ: ERP (планирование ресурсов предприятия), 1С (автоматизация деятельности предприятия), CRM (управление отношениями с клиентами), мобильный клиент и др.

Малейший сбой в любом из этих ПО в пиковые часы продаж и дни «черных пятниц» повлечет для крупных ритейлеров и маркетплейсов многомиллионные убытки.

В сфере телекоммуникаций без постоянного мониторинга работы серверного и сетевого оборудования невозможно обеспечить потребителю должный уровень интернет- и мобильной связи. Частые «поломки и зависания» – это репутационные и клиентские потери.

Онлайн-сервисам с аудиторией более пяти тысяч человек в месяц рекомендуется настраивать системы мониторинга и страховать возможные перебои в работе IT-систем договором SLA.

В чем отличие SLA от типового документа

Впервые термин SLA появился при разработке ITIL (Information Technology Infrastructure Library) в конце 80-х годов прошлого столетия. Идея создания хранилища, где сконцентрирован передовой опыт мировых компаний, работающих в сфере информационных технологий принадлежала Комитету по вычислительной технике и телекоммуникациям при правительстве Великобритании.

Современные стандарты SLA по обслуживанию и построению IT-инфраструктуры, детально обозначенные в ITIL и COBIT (методология управления ИТ и смежными технологиями), регламентируют параметры бизнес-процессов, осуществляют контроль за их выполнением и выстраивают взаимоотношения IT-служб с клиентом.

В отличие от типового договорного документа в соглашении об уровне обслуживания SLA детально и понятно для клиентов-«не компьютерщиков» фиксируются все технические и сервисные характеристики. Так, если в типовом соглашении прописана общая фраза, что исполнитель должен устранить неполадки после заявления заказчика, то в SLA договоре будет указано, что поставщик обязан приступить к устранению конкретной ошибки в течение, например, 30 минут после обращения в будние дни с 9.00 до 18.00 и исправить ее за три часа.

Точные параметры устанавливаются по всем пунктам: качеству услуг, времени реагирования и устранения багов и крашей (ошибок и аварий в работе программы, сервера или операционной системы), штрафным санкциям в случае несвоевременного устранения проблемы и т.д.

Порядок работы по договору SLA

Определяем критично важные сервисы. В первую очередь, необходимо определить, какие программные сервисы наиболее важны для работы заказчика.

  • Для маркетплейсов – это бесперебойная работа CRM – системы, которая управляет взаимоотношениями с клиентами.
  • Провайдерам хостинга и интернета необходимо обеспечить средние значения доступности сервера и способности соединения.
  • Центру обработки данных (ЦОД, или дата-центр) важно, чтобы ему гарантировали непрерывный доступ в сеть и не было проблем с электроэнергией.

Критичные сценарии заказчик и исполнитель определяют совместно.

Первостепенная задача по SLA – определить стратегические направления работы сервиса.

Устанавливаем системы мониторинга. После определения стратегических направлений работы сервиса необходимо выбрать системы мониторинга. Например, если для службы доставки важно, чтобы платежная система работала непрерывно, значит, IT-исполнитель должен настроить автотесты, которые будут постоянно мониторить экран оплаты.

В списке возможных систем мониторинга:

  • Автотесты, которые позволяют круглосуточно отслеживать нагрузку на сервер.
  • Системы логирования помогают обнаружить источник проблемы.
  • Крашлитика сообщает об аварийном прекращении работы приложения.
  • Система сбора и анализов отзывов отыскивает самые редкие ошибки и возможные идеи развития проекта.
  • Подключение уведомлений в мессенджерах, электронной почте или по телефону, которые сигнализируют о сбоях в работе.

Для примера рассмотрим процесс нахождения ошибок и их исправление в энергосбытовой компании, включая 10 филиалов.

Для мониторинга серверов клиента настроен zabbix.

Zabbix – свободная система мониторинга и отслеживания статусов разнообразных сервисов компьютерной сети, серверов и сетевого оборудования.

Функции системы:

  • проверка нагрузки на процессор;
  • проверка нагрузки на оперативную память;
  • проверка нагрузки на жесткий диск;
  • проверка свободного места;
  • проверка свободной оперативной памяти;
  • проверка доступности сервера;
  • проверка доступности страниц сайта;
  • построение графиков нагрузки;
  • уведомление о проблемах на почту, sms, telegram и др.

Подключенные тесты каждые 30 минут в автоматическом режиме совершают примерно 50 запросов по основным этапам пути клиента. Если приходит уведомление о проблеме, то менеджер по договору SLA, отследив ситуацию, проводит дополнительное тестирование, чтобы убедиться в наличии ошибки.

Пример графика по нагрузке процессора
Пример графика по нагрузке процессора
Пример графика по нагрузке оперативной памяти
Пример графика по нагрузке оперативной памяти

Подключаем систему сбора анализов и отзывов из приложения и сторов.

Подключаем систему сбора анализов и отзывов из приложения и сторов

Данная услуга позволяет отслеживать ошибки в приложении, которые причиняют неудобства пользователям. Отзывы клиентов появляются либо в самом приложении, либо в сторах на App и Google. Ответственный за ваш проект менеджер собирает отзывы в едином окне, чтобы их было удобно читать и сортировать по датам. Feedback (обратная связь) от клиентов помогает разработчикам устранять редкие ошибки и улучшать продукт.

Настройка визуализации инцидентов

Установив системы мониторинга, необходимо также настроить визуализацию, чтобы заказчик и исполнитель могли оперативно получать информацию о возникновении инцидента на почту, в мессенджеры или на телефон.

Координирование проекта SLA менеджером. На каждый проект обычно назначается ответственный менеджер, который координирует работу веб-сервера/приложения. Именно он связывается с разработчиками, отслеживает отзывы клиентов. По итогу составляет еженедельные или ежемесячные отчеты для заказчика об ошибках и проведенных действиях.

Параметры, применяемые в соглашении об уровне обслуживания Sla

Параметры SLA – это метрики, которые можно измерить, они отвечают за качество предоставляемого сервиса. Физические величины, система единиц, применяемая профессиональная терминология должны быть понятны обычным потребителям, чтобы не возникало разночтений и разногласий в процессе сотрудничества.

Терминологию и цифры SLA договора заказчик должен понимать.

Метрика доступности услуг определяет наименьший промежуток времени, во время которого можно воспользоваться услугой. К примеру, поставщик IT-услуг гарантирует, что за год та или иная опция будет доступна заказчику на Икс процентов, а время простоя за указанный период составит Игрек часов.

Чем надежнее провайдер, тем выше уровень доступности и меньше время простоя сервиса.

Так, дата-центры ведущего российского провайдера Selectel соответствуют стандартам Tier III (уровень надежности) и PCI DSS (стандарт безопасности индустрии платежных карт). Что это значит?

Данный уровень надежности гарантирует доступность веб-ресурса в режиме – 24/7/365. Провайдер обещает процент работоспособности за месяц – 99, 8 % для линейки Chipcore на базе популярных декстопных процессоров Intel®️ Celeron, Intel®️ Core и AMD Ryzen™ и 100 % – для серверов на базе процессоров enterprise-класса Intel®️ Xeon и AMD EPYC™. Такие серверы выдерживают очень мощные нагрузки, имеют более высокую производительность IOPS, работают на больших скоростях и с большими объемами по сравнению с декстопными серверами. Соответственно, и цена за услугу будет выше, чем для Chipcore.

В SLA договоре указывается не только процент доступности услуги, но и время, когда услуга будет недоступна, а также размер компенсации, если условие соглашения будет нарушено из-за сбоя инфраструктуры исполнителя.

Ниже в таблице можно видеть цифры для линейки серверных процессоров Selectel. Например, если доступность веб-сайта или приложения в течение месяца сохранялась от 99,79 % до 99,58 %, то это значит, что площадка была нерабочей от 1 часа 31 минуты до 3 часов. Исполнитель готов предоставить за это 10 % компенсации. А если процент доступности был до 96,6 %, нерабочее время составило от 24 часов, то подрядчик обязуется стопроцентно компенсировать затраты.

Показатели услуги для линейки серверных процессоров Selectel
Показатели услуги для линейки серверных процессоров Selectel

Аварийные и профилактические работы, а также Жесткий грейс период (льготный период для оплаты и продления домена) обычно не засчитываются в часы недоступности услуги.

Обещая 100 % доступность, Selectel, как один из лидеров рынка, может себе это позволить. В распоряжении компании – шесть высокотехнологичных дата-центров, с общей площадью серверных помещений – более 8 тыс. кв.м, совокупной используемой мощностью – 14,4 МВт.

Но не все провайдеры имеют подобные технические возможности. Да и не всякому бизнесу нужен такой уровень доступности интернет-ресурса.

Так, малым предприятиям и ИП, где информационные технологии не являются основополагающим инструментом и нужны лишь для расширения внутренних рабочих процессов – вполне сгодится провайдер с уровнем надежности Tier I (базовым). Tire II подойдет для МП и ИП, где потребность в IT- услугах ограничена и систему можно без последствий отключать в нерабочее время. А вот крупным предприятиям, маркетплейсам, ритейлерам, где идет круглосуточная работа с клиентами, важна автоматизация бизнес-процессов и качество сервиса, третий уровень надежности Tire III – в самый раз.

Выбирая обслуживающую IT-компанию исходите из реальных потребностей в цифровых услугах. И обращайте внимание на уровень надежности небольших и малоизвестных провайдеров. Нередко, 100-процентные аптаймы серверов, которые они обещают, это просто уловка, чтобы выглядеть лучше конкурентов. Можно годами пользоваться хостером с уровнем надежности 60% без проблем и поломок, а можно «падать» каждый месяц с провайдером, обещающим 99,9999 % доступности.

Поэтому заказчики должны понимать, что при выборе исполнителя/поставщика IT-услуг не стоит руководствоваться только этими параметрами. Обращайте внимание, сколько лет компания на рынке, с кем работает, насколько успешно функционируют ресурсы, обслуживаемые данным провайдером.

Вообще, заявленный уровень доступности следует воспринимать не как гарантию бесперебойной работы приложения или сайта, а скорее, как гарантию, что исполнитель приложит максимальные усилия для стабильной работы своей IT-структуры и вашего сервиса. Потому что интернет вылетает всегда и периодически, другой вопрос, что делает IT-компания, чтобы предупредить и минимизировать поломки.

Мотивация традиционная – сохранить и приумножить клиентов, не допустить репутационных потерь и штрафных санкций. Причем, последние, на самом деле, не имеют для крупных заказчиков и IT-исполнителей решающего значения. Компенсация по договору SLA возвращает деньги в рамках тарифа пропорционально простою оборудования. Эта сумма не покроет даже 1% возможных финансовых потерь заказчика и не компенсирует урон репутации перед партнерами и клиентами.

Партнерам по SLA важно не «запугивать» друг друга штрафными санкциями и перерасчетами тарифов, а добиваться высокого уровня предупреждения, реагирования и устранения недочетов. И ориентироваться на продуктивное долгосрочное сотрудничество.

Задача SLA договора – достичь высокого уровня предупреждения и устранения ошибок.

Временные параметры

Клиенты должны понимать, почему установлены разные временные границы реагирования и ликвидации какой-либо ошибки. Время реакции на произошедший инцидент определяется важностью поломки.

  • Так, если перестал работать один из модулей, это считается низким уровнем критичности.
  • При средней ступени поломки – вылетают два-три и более модулей.
  • Если аварийный случай нарушил работу большого участка сервиса, то это уже высокая степень критичности.

К примеру, если вдруг разом обрушились 20 тонких клиентов (бездисковых компьютеров) из 30, то реакция на инцидент составит 15-30 минут, а время устранения проблемы займет от 1 до 5 часов. При этом на поломку принтера специалист может отреагировать через час, хотя устранение проблемы займет всего 10 минут.

Метрику Время решения проблемы каждый исполнитель/поставщик IT-услуг обозначает, исходя из стандартных рекомендаций SLA договора и с учетом своих технических и физических возможностей. Во избежание будущих конфликтов, метрики стоит указывать не конкурентно привлекательные, а реальные для достижения.

Величина времени простоя складывается из двух значений: продолжительность реакции на проблему и ее решение. Все показатели указываются в минутах и часах, иногда – днях.

Когда сроки нарушаются или не соблюдается уровень оказываемых услуг по качеству, назначаются штрафы.

Штрафные санкции, как и оплата услуг (постоянная абонентская плата/ отдельные тарифы на устранение каждой неполадки), тоже прописываются в SLA договоре с указанием цен и денежной валюты.

Оценить результаты устранения ошибок можно с помощью двух метрик:

  • Сколько проблем было решено вовремя.
  • За какое время (среднее значение) был устранен инцидент.

Подробные рекомендации по оценке KPI (индикаторов эффективности) по SLA договору есть в ITIL и COBIT.

Плюсы SLA договора для заказчиков и исполнителей

Что получает потребитель:

  • Ожидаемое и понятное качество исполнения.
  • Контроль над обозначенными сроками проведения работ.
  • Понимание за что отвечает провайдер, нарушая условия договора.
  • Частичная компенсация финансовых потерь за счет штрафов.

Что получает IT-исполнитель:

  • Четкий порядок сотрудничества с контрагентом, с указанием сроков и зоны ответственности.
  • Упорядочение внутренних рабочих процессов.
  • Возможность устранять поломки в рамках договора без лишних согласований с заказчиком.
  • Можно выбрать уровень оказываемой услуги в зависимости от срочности и тарифа.

Вывод

SLA – базовый документ для выстраивания оптимального взаимодействия заказчика с IT-исполнителем/поставщиком. Прозрачная схема формирования параметров по качеству услуг, временных затрат, штрафных санкций дает обеим сторонам понимание ответственности и позволяет выстраивать более доверительные отношения.

SLA договор обеспечивает более высокий уровень отслеживания и устранения ошибок, что повышает качество работы веб-сервиса или приложения.

Правильно составить договор SLA помогут специалисты digital-агентства «Цифровой Элемент».

Популярное

Все статьи
Золотой партнер<br>1С-Битрикс
Золотой партнер
1С-Битрикс
Сертифицированное агентство <br>Яндекс.Директ
Сертифицированное агентство
Яндекс.Директ
Сертифицированное агентство <br>Google.AdWords
Сертифицированное агентство
Google.AdWords
Региональный партнер <br>Ru-center
Региональный партнер
Ru-center
Золотой партнер  <br>Битрикс24
Золотой партнер
Битрикс24