Предложение по НПК
Наблюдаемость
В1:
Проблема исследования:
При запросе данных о использовании НВС через PA возникают пробелы. Этот процесс вызывает увеличение дискрепанции между реальным использованием НВС и зарегистрированным использованием НВС, возможно, из-за того, что PA не наблюдает или не сохраняет данные в процессе.
Вопросы исследования:
Как мы можем точно наблюдать за данными и отчеты о правильном использовании НВС?
Что такое наблюдаемость?
В широком смысле, наблюдаемость - это степень, в которой можно понять внутреннее состояние или условие сложной системы, основываясь только на ее внешних выходах. Чем более наблюдаема система, тем быстрее и точнее можно определить проблему производительности и ее причину без дополнительного тестирования или кодирования.
В данной проблеме исследования, наблюдаемость будет использоваться для мониторинга использования НВС.
Метод исследования (возможное решение):
Решение заключается в усилении наблюдаемости кластеров НВС.
• Внедрение новых метрик и автоматизированных методов для определения наличия пробела.
• Изучение телеметрии наблюдаемости, чтобы определить частоту существенного пробела.
• Анализ связи между метриками и пробелами для активации решений, позволяющих исправить пробел перед тем, как он станет слишком большим.
На основе этих данных мы можем построить инструмент, который может устранить эту проблему.
Основная цель - пассивное наблюдение за кластером НВС для сбора важных метрик, используемых инструментом решения. Это позволяет инструменту функционировать как очередь: захваченные метрики помещаются в очередь к инструменту, который может проверить, есть ли у PA пробел по сравнению с тем, что наблюдал инструмент.
Проблемы с предложенным решением:
Постоянное вызывание базы данных для достижения нулевого пробела подразумевает повторное вызывание обновления. Так что необходимо установить минимально допустимый пробел для бизнес-кейса. Критическая задача - избежать пробела на определенных порогах, например, в конце дня, недели или месяца.
В2:
Проблема исследования:
Основная проблема заключается в дискрепанции между реальным использованием НВС и зарегистрированным использованием НВС. Решение этой проблемы должно быть обобщено, чтобы решать другие проблемы пробелов, возникающие при наблюдении за НВС.
Вопрос исследования:
Можно ли обобщить предыдущее решение при применении к другой системе?
Метод исследования:
• Проанализировать систему, наблюдаемость которой мы хотим улучшить
• Определить, можно ли измерить параметры, которые могут быть использованы для определения метрик системы
• Проверить, можно ли использовать эти новые метрики для предыдущего решения.
Эта тактика должна позволить нам внедрить обобщенную логику и настроить ее с учетом структуры системы, используя универсальное решение на другой системе, персонализируя метрики.
В3:
Проблема исследования:
Устойчивость данных в трубопроводах и его инфраструктуре.
Вопрос исследования:
Как мы можем предусмотреть измеримые проблемы, которые могут нарушить работу? (например, сбои в трубопроводах)
Метод исследования и предложенное решение:
Определить сценарии, в которых могут произойти сбои в трубопроводе:
• Провести анализ предыдущих проблем трубопровода и их отчетов
• Определить некоторые критические случаи
В4:
Проблема исследования:
Трубопровод данных и инфраструктура обладают системой резервного копирования, способной восстановить сбившийся трубопровод данных.
Вопрос исследования:
Как мы можем проверить эффективное функционирование системы резервного копирования?
Что такое инженерия хаоса?
Инженерия хаоса включает набор принципов, направленных на улучшение устойчивости системы. Он включает формирование гипотезы о стабильном состоянии системы, изменение реальных событий, проведение тестов в производстве, автоматизацию экспериментов для непрерывного выполнения и сокращение радиуса блока экспериментов.
Метод исследования (возможное решение):
Можно использовать инженерию хаоса для проверки состояния резервных копий с помощью экспериментов хаоса.
Окончательная цель предложенного подхода должна быть направлена на улучшение устойчивости системы резервного копирования, гарантируя, что в случае сбоя трубопровода, восстановление этого трубопровода будет более продуктивным, без необходимости перезапуска трубопровода сначала.
Ссылки:
https://www.ibm.com/topics/chaos-engineering
https://www.gremlin.com/community/tutorials/chaos-engineering-tools-comparison/.
Дополнительную информацию о NXP в Нидерландах можно найти здесь.