Метрики в норме, но почему так больно?

EN / День 2 / 16:00 / Зал 3

Никто не удивляется, что внедрение метрик — это часть обязательного минимума для разработки сервисов. В команде Жени стремятся к отказоустойчивости, потому что они делают mission critical-сервисы для компании. Команда, конечно, добавляет метрик: системных и бизнесовых, чтобы лучше понимать, как идут дела у систем. Сейчас команда Контура уверена, что они вовремя отреагирует на уведомление о критичном изменении метрик, и сразу поймёт, что пошло не так... Но так было не всегда.

Женя расскажет, как ее команда ошибалась в сборе, визуализации и интерпретации метрик, когда им неожиданно не хватило данных, и какие проблемы можно обойти, если понимать, как именно работают инструменты для сбора и визуализации метрик. В Контуре используют Graphite, Grafana и Moira, но если у вас Prometheus или, хм, Zabbix, вам тоже будет полезно.