Dołącz do Our Future Health, największego programu badań zdrowotnych w Wielkiej Brytanii, na ekscytującym i wpływowym stanowisku jako Inżynier Danych specjalizujący się w Bioinformatyce. To prestiżowe stanowisko oferuje nie tylko do 60 000 funtów rocznie, ale również znajduje się w sercu pionierskiej inicjatywy wspieranej przez rząd Wielkiej Brytanii, współpracującej z organizacjami charytatywnymi i przemysłem, oraz pracującej ściśle z NHS i władzami publicznymi na terenie całego kraju.
Jako Inżynier Danych będziesz kluczową częścią multidyscyplinarnego zespołu, który ma za zadanie tworzyć i zarządzać innowacyjnymi potokami danych dla programu o globalnym zasięgu. Główne obowiązki obejmują:
- Budowanie i utrzymanie potoków danych od różnych dostawców do naszego głównego magazynu danych i zaufanych środowisk badawczych.
- Opracowywanie logiki transformacji jako kodu w celu wytworzenia kuratowanych, dostępnych i wysokiej jakości danych do analizy.
- Prototypowanie potoków dla skomplikowanych transformacji danych, korzystając z istniejących przepływów prac w przemyśle i akademii.
- Zapoznanie się z najlepszymi praktykami w dziedzinach inżynierii danych w przemyśle, badaniach i rządzie, umożliwiając adopcję standardów.
- Dostarczanie wiedzy technicznej do górnych aspektów potoków danych, od specyfikacji po transfer danych.
- Zajmowanie się ad-hoc kuracją danych i opracowywaniem dedykowanych skryptów czyszczenia ETL, głównie w Pythonie.
- Współpraca z badaczami w celu zrozumienia ich potrzeb danych i wspieranie w dostarczaniu niezbędnych danych do projektów.
Aby osiągnąć sukces na tym kluczowym stanowisku, potrzebujesz solidnego doświadczenia w bioinformatyce, szczególnie z narzędziami i metodologiami związanymi z danymi genomowymi. Idealny kandydat wykaże:
- Doświadczenie w środowisku Agile, ze szczególnym naciskiem na przegląd kodu i programowanie w parach.
- Znajomość kontroli wersji, szczególnie Git/GitHub.
- Biegłość w projektowaniu, budowaniu i testowaniu potoków przy użyciu różnych technologii ze szczególnym naciskiem na powtarzalność i możliwość ponownego użycia.
- Mocne umiejętności w zarządzaniu dużymi zbiorami danych genomowych, wyszukiwaniem i filtrowaniem.
- Stała wiedza na temat środowisk chmurowych (idealnie Azure), obliczeń rozproszonych i skalowania przepływów pracy.
- Doświadczenie z Pythonem i narzędziami zarządzania przepływem pracy takimi jak Nextflow, WDL/Cromwell, Airflow, Prefect i Dagster.
- Znajomość powszechnych formatów transformacji i przechowywania danych, takich jak Apache Parquet, oraz technologii data lakes takich jak Spark i Databricks.
- Zrozumienie technologii konteneryzacji, np. Docker, oraz standardów danych takich jak GA4GH i FAIR.
- Wiedza na temat zarządzania informacjami i