Data Engineer - Bioinformatics

Data Engineer
London
06/12/2024
-

Job expired!

Dołącz do Our Future Health, największego programu badań zdrowotnych w Wielkiej Brytanii, na ekscytującym i wpływowym stanowisku jako Inżynier Danych specjalizujący się w Bioinformatyce. To prestiżowe stanowisko oferuje nie tylko do 60 000 funtów rocznie, ale również znajduje się w sercu pionierskiej inicjatywy wspieranej przez rząd Wielkiej Brytanii, współpracującej z organizacjami charytatywnymi i przemysłem, oraz pracującej ściśle z NHS i władzami publicznymi na terenie całego kraju.

Jako Inżynier Danych będziesz kluczową częścią multidyscyplinarnego zespołu, który ma za zadanie tworzyć i zarządzać innowacyjnymi potokami danych dla programu o globalnym zasięgu. Główne obowiązki obejmują:

Budowanie i utrzymanie potoków danych od różnych dostawców do naszego głównego magazynu danych i zaufanych środowisk badawczych.
Opracowywanie logiki transformacji jako kodu w celu wytworzenia kuratowanych, dostępnych i wysokiej jakości danych do analizy.
Prototypowanie potoków dla skomplikowanych transformacji danych, korzystając z istniejących przepływów prac w przemyśle i akademii.
Zapoznanie się z najlepszymi praktykami w dziedzinach inżynierii danych w przemyśle, badaniach i rządzie, umożliwiając adopcję standardów.
Dostarczanie wiedzy technicznej do górnych aspektów potoków danych, od specyfikacji po transfer danych.
Zajmowanie się ad-hoc kuracją danych i opracowywaniem dedykowanych skryptów czyszczenia ETL, głównie w Pythonie.
Współpraca z badaczami w celu zrozumienia ich potrzeb danych i wspieranie w dostarczaniu niezbędnych danych do projektów.

Aby osiągnąć sukces na tym kluczowym stanowisku, potrzebujesz solidnego doświadczenia w bioinformatyce, szczególnie z narzędziami i metodologiami związanymi z danymi genomowymi. Idealny kandydat wykaże:

Doświadczenie w środowisku Agile, ze szczególnym naciskiem na przegląd kodu i programowanie w parach.
Znajomość kontroli wersji, szczególnie Git/GitHub.
Biegłość w projektowaniu, budowaniu i testowaniu potoków przy użyciu różnych technologii ze szczególnym naciskiem na powtarzalność i możliwość ponownego użycia.
Mocne umiejętności w zarządzaniu dużymi zbiorami danych genomowych, wyszukiwaniem i filtrowaniem.
Stała wiedza na temat środowisk chmurowych (idealnie Azure), obliczeń rozproszonych i skalowania przepływów pracy.
Doświadczenie z Pythonem i narzędziami zarządzania przepływem pracy takimi jak Nextflow, WDL/Cromwell, Airflow, Prefect i Dagster.
Znajomość powszechnych formatów transformacji i przechowywania danych, takich jak Apache Parquet, oraz technologii data lakes takich jak Spark i Databricks.
Zrozumienie technologii konteneryzacji, np. Docker, oraz standardów danych takich jak GA4GH i FAIR.
Wiedza na temat zarządzania informacjami i