Data Engineer - Bioinformatics

Job expired!

Dołącz do Our Future Health, największego programu badań zdrowotnych w Wielkiej Brytanii, na ekscytującym i wpływowym stanowisku jako Inżynier Danych specjalizujący się w Bioinformatyce. To prestiżowe stanowisko oferuje nie tylko do 60 000 funtów rocznie, ale również znajduje się w sercu pionierskiej inicjatywy wspieranej przez rząd Wielkiej Brytanii, współpracującej z organizacjami charytatywnymi i przemysłem, oraz pracującej ściśle z NHS i władzami publicznymi na terenie całego kraju.

Jako Inżynier Danych będziesz kluczową częścią multidyscyplinarnego zespołu, który ma za zadanie tworzyć i zarządzać innowacyjnymi potokami danych dla programu o globalnym zasięgu. Główne obowiązki obejmują:

  • Budowanie i utrzymanie potoków danych od różnych dostawców do naszego głównego magazynu danych i zaufanych środowisk badawczych.
  • Opracowywanie logiki transformacji jako kodu w celu wytworzenia kuratowanych, dostępnych i wysokiej jakości danych do analizy.
  • Prototypowanie potoków dla skomplikowanych transformacji danych, korzystając z istniejących przepływów prac w przemyśle i akademii.
  • Zapoznanie się z najlepszymi praktykami w dziedzinach inżynierii danych w przemyśle, badaniach i rządzie, umożliwiając adopcję standardów.
  • Dostarczanie wiedzy technicznej do górnych aspektów potoków danych, od specyfikacji po transfer danych.
  • Zajmowanie się ad-hoc kuracją danych i opracowywaniem dedykowanych skryptów czyszczenia ETL, głównie w Pythonie.
  • Współpraca z badaczami w celu zrozumienia ich potrzeb danych i wspieranie w dostarczaniu niezbędnych danych do projektów.

Aby osiągnąć sukces na tym kluczowym stanowisku, potrzebujesz solidnego doświadczenia w bioinformatyce, szczególnie z narzędziami i metodologiami związanymi z danymi genomowymi. Idealny kandydat wykaże:

  • Doświadczenie w środowisku Agile, ze szczególnym naciskiem na przegląd kodu i programowanie w parach.
  • Znajomość kontroli wersji, szczególnie Git/GitHub.
  • Biegłość w projektowaniu, budowaniu i testowaniu potoków przy użyciu różnych technologii ze szczególnym naciskiem na powtarzalność i możliwość ponownego użycia.
  • Mocne umiejętności w zarządzaniu dużymi zbiorami danych genomowych, wyszukiwaniem i filtrowaniem.
  • Stała wiedza na temat środowisk chmurowych (idealnie Azure), obliczeń rozproszonych i skalowania przepływów pracy.
  • Doświadczenie z Pythonem i narzędziami zarządzania przepływem pracy takimi jak Nextflow, WDL/Cromwell, Airflow, Prefect i Dagster.
  • Znajomość powszechnych formatów transformacji i przechowywania danych, takich jak Apache Parquet, oraz technologii data lakes takich jak Spark i Databricks.
  • Zrozumienie technologii konteneryzacji, np. Docker, oraz standardów danych takich jak GA4GH i FAIR.
  • Wiedza na temat zarządzania informacjami i