Стажировка - Инженерия систем передачи данных

  • Full Time
Job expired!
Предложение по НПК Наблюдаемость В1: Проблема исследования: При запросе данных о использовании НВС через PA возникают пробелы. Этот процесс вызывает увеличение дискрепанции между реальным использованием НВС и зарегистрированным использованием НВС, возможно, из-за того, что PA не наблюдает или не сохраняет данные в процессе. Вопросы исследования: Как мы можем точно наблюдать за данными и отчеты о правильном использовании НВС? Что такое наблюдаемость? В широком смысле, наблюдаемость - это степень, в которой можно понять внутреннее состояние или условие сложной системы, основываясь только на ее внешних выходах. Чем более наблюдаема система, тем быстрее и точнее можно определить проблему производительности и ее причину без дополнительного тестирования или кодирования. В данной проблеме исследования, наблюдаемость будет использоваться для мониторинга использования НВС. Метод исследования (возможное решение): Решение заключается в усилении наблюдаемости кластеров НВС. • Внедрение новых метрик и автоматизированных методов для определения наличия пробела. • Изучение телеметрии наблюдаемости, чтобы определить частоту существенного пробела. • Анализ связи между метриками и пробелами для активации решений, позволяющих исправить пробел перед тем, как он станет слишком большим. На основе этих данных мы можем построить инструмент, который может устранить эту проблему. Основная цель - пассивное наблюдение за кластером НВС для сбора важных метрик, используемых инструментом решения. Это позволяет инструменту функционировать как очередь: захваченные метрики помещаются в очередь к инструменту, который может проверить, есть ли у PA пробел по сравнению с тем, что наблюдал инструмент. Проблемы с предложенным решением: Постоянное вызывание базы данных для достижения нулевого пробела подразумевает повторное вызывание обновления. Так что необходимо установить минимально допустимый пробел для бизнес-кейса. Критическая задача - избежать пробела на определенных порогах, например, в конце дня, недели или месяца. В2: Проблема исследования: Основная проблема заключается в дискрепанции между реальным использованием НВС и зарегистрированным использованием НВС. Решение этой проблемы должно быть обобщено, чтобы решать другие проблемы пробелов, возникающие при наблюдении за НВС. Вопрос исследования: Можно ли обобщить предыдущее решение при применении к другой системе? Метод исследования: • Проанализировать систему, наблюдаемость которой мы хотим улучшить • Определить, можно ли измерить параметры, которые могут быть использованы для определения метрик системы • Проверить, можно ли использовать эти новые метрики для предыдущего решения. Эта тактика должна позволить нам внедрить обобщенную логику и настроить ее с учетом структуры системы, используя универсальное решение на другой системе, персонализируя метрики. В3: Проблема исследования: Устойчивость данных в трубопроводах и его инфраструктуре. Вопрос исследования: Как мы можем предусмотреть измеримые проблемы, которые могут нарушить работу? (например, сбои в трубопроводах) Метод исследования и предложенное решение: Определить сценарии, в которых могут произойти сбои в трубопроводе: • Провести анализ предыдущих проблем трубопровода и их отчетов • Определить некоторые критические случаи В4: Проблема исследования: Трубопровод данных и инфраструктура обладают системой резервного копирования, способной восстановить сбившийся трубопровод данных. Вопрос исследования: Как мы можем проверить эффективное функционирование системы резервного копирования? Что такое инженерия хаоса? Инженерия хаоса включает набор принципов, направленных на улучшение устойчивости системы. Он включает формирование гипотезы о стабильном состоянии системы, изменение реальных событий, проведение тестов в производстве, автоматизацию экспериментов для непрерывного выполнения и сокращение радиуса блока экспериментов. Метод исследования (возможное решение): Можно использовать инженерию хаоса для проверки состояния резервных копий с помощью экспериментов хаоса. Окончательная цель предложенного подхода должна быть направлена на улучшение устойчивости системы резервного копирования, гарантируя, что в случае сбоя трубопровода, восстановление этого трубопровода будет более продуктивным, без необходимости перезапуска трубопровода сначала. Ссылки: https://www.ibm.com/topics/chaos-engineering https://www.gremlin.com/community/tutorials/chaos-engineering-tools-comparison/. Дополнительную информацию о NXP в Нидерландах можно найти здесь.