Propozycja Doktoratu NPX
Obserwowalność
RQ1:
Problem Badawczy:
Podczas wydobywania danych dotyczących użycia HPC z PA występują luki. Proces ten dodatkowo powiększa te luki pomiędzy rzeczywistym użyciem HPC a zarejestrowanym użyciem HPC, prawdopodobnie z powodu niepasywnego obserwowania lub zapisywania danych przez PA podczas tej czynności.
Pytanie Badawcze:
Jak możemy dokładnie obserwować łańcuchy przepływu danych i raportować prawidłowe użycie HPC?
Czym jest obserwowalność?
W szerokim sensie obserwowalność to stopień, w jakim można zrozumieć wewnętrzny stan lub stan komplikowanego systemu, bazując jedynie na jego zewnętrznych wynikach. Im większa jest obserwowalność systemu, tym szybciej i dokładniej można zidentyfikować problem z wydajnością i jego przyczynę bez dodatkowego testowania lub kodowania.
W tym problemie badawczym, obserwowalność będzie wykorzystywana do monitorowania użycia HPC.
Metoda Badawcza (Możliwe Rozwiązanie):
Rozwiązanie polega na zwiększeniu obserwowalności klastrów HPC.
• Inicjowanie nowych metryk i zautomatyzowanych metod do identyfikacji kiedy luka istnieje.
• Badanie telemetrii obserwowalności, aby ustalić częstotliwość znacznej luki, która musi zostać zaadresowana.
• Analizowanie relacji między metrykami a lukami, aby uruchomić rozwiązanie naprawiające lukę, zanim stanie się zbyt duża.
Na podstawie tych działań, możemy skonstruować narzędzie, które pomoże rozwiązać problem luk.
Głównym celem jest pasywne obserwowanie klastra HPC w celu zbierania ważnych metryk, które są wykorzystywane przez narzędzie do rozwiązania problemu. Pozwala to narzędziu działać jak kolejka: przechwycone metryki są umieszczane w kolejce do narzędzia, które może sprawdzić, czy PA ma luki w porównaniu do tego, co narzędzie zaobserwowało.
Problem z Proponowanym Rozwiązaniem:
Ciągłe uruchamianie bazy danych w celu osiągnięcia luki o wartości zero, oznacza wielokrotne wywoływanie aktualizacji. Dlatego istnieje potrzeba ustalenia akceptowalnej minimalnej luki dla przypadku biznesowego. Głównym zadaniem jest unikanie luk w określonych progach, takich jak na koniec dnia, tygodnia lub miesiąca.
RQ2:
Problem Badawczy:
Główne wyzwanie kręci się wokół rozbieżności między rzeczywistym użyciem HPC a zarejestrowanym użyciem HPC. Rozwiązanie tego problemu powinno być uogólnione, aby poradzić sobie z innymi problemami luk wynikających z obserwowalności HPC.
Pytanie Badawcze:
Czy poprzednie rozwiązanie można uogólnić, jeśli zastosujemy je do innego systemu?
Metoda Badawcza:
• Analizuję system, dla którego chcemy zwiększyć obserwowalność
• Określam, czy możemy mierzyć parametry, które można używać do określenia metryk systemowych
• Sprawdzamy, czy te nowe metryki można wykorzystać dla poprzedniego rozwiązania.
Ta taktyka powinna pozwolić nam zaimplementować ogólną logikę i dostosować ją do struktury systemu, a tym samym używać ogólnego rozwiązania na innym systemie, personalizując metryki.
RQ3:
Problem Badawczy:
Odporność łańcucha przepływu danych i jego infrastruktury.
Pytanie Badawcze:
Jak możemy przewidzieć mierzalne problemy, które mogą zakłócić pracę? (np. awarie łańcucha przepływu danych)
Metoda Badawcza i Proponowane Rozwiązanie:
Określ scenariusze, w których łańcuch przepływu danych może zawieść:
• Przeprowadź analizę poprzednich problemów z łańcuchem przepływu danych i ich raportów
• Zidentyfikuj niektóre przypadki krańcowe
RQ4:
Problem Badawczy:
Łańcuch przepływu danych i infrastruktura posiada system kopii zapasowych zdolny do odzyskiwania zawieszonego łańcucha przepływu danych.
Pytanie Badawcze:
Jak możemy sprawdzić efektywne działanie systemu kopii zapasowych?
Czym jest inżynieria chaosu?
Inżynieria chaosu obejmuje zasady mające na celu poprawę odporności systemu. Polega ona na budowaniu hipotez dotyczących stałego stanu systemu, zmienianiu rzeczywistych zdarzeń, przeprowadzaniu testów w produkcji, automatyzowaniu eksperymentów w celu ich ciągłego prowadzenia i ograniczaniu zasięgu doświadczeń.
Metoda Badawcza (Możliwe Rozwiązanie):
Inżynieria chaosu może być stosowana do sprawdzania stanu kopii zapasowej za pomocą eksperymentów chaosu.
Najważniejszym celem proponowanego podejścia jest teoretyczne zwiększenie odporności systemu kopii zapasowej, tak aby w przypadku awarii łańcucha przepływu danych, jego odzyskanie było bardziej efektywne, bez konieczności ponownego uruchamiania łańcucha przepływu danych od początku.
Źródła:
https://www.ibm.com/topics/chaos-engineering
https://www.gremlin.com/community/tutorials/chaos-engineering-tools-comparison/.
Więcej informacji o NXP w Holandii można znaleźć tutaj.