Inżynier Big Data
Kaizen Analytix LLC, firma zajmująca się produktami i usługami analitycznymi, dostarczająca nieosiągalną prędkość wartości dzięki rozwiązaniom analitycznym i praktycznym wglądom biznesowym, poszukuje kwalifikowanych kandydatów na stanowisko Inżyniera Big Data. Szukamy wysoce wykwalifikowanych i doświadczonych specjalistów odpowiedzialnych za projektowanie, rozwijanie i utrzymanie kanałów przesyłania danych i hurtowni danych za pomocą ekosystemu Hadoop, włączając HDFS, Spark, Hive, HBase, Sqoop, Pig, Oozie lub równoważne oferty chmurowe takie jak AWS EMR, GCP Dataproc, Azure HDInsights. Idealny kandydat powinien dobrze zrozumieć zasady inżynierii danych i najlepsze praktyki, a także mieć doświadczenie w pracy z ogromnymi zestawami danych.
Obowiązki:
Analiza i Projektowanie
- Przeprowadza sesje zebrania faktów z użytkownikami.
- Konsultuje się z menedżerami technicznymi i właścicielami firm w celu zidentyfikowania i analizowania potrzeb technologicznych i problemów.
- Przeprowadza diagramowanie przepływu danych i/lub modelowanie procesów (architektura kodu).
- Projektuje, rozwija i utrzymuje kanały przesyłania danych i hurtownie danych na wybranych platformach chmurowych (np. AWS, GCP, Azure).
- Pracuje ze zainteresowanymi stronami w celu zebrania wymagań i zdefiniowania modeli danych.
- Rozwija i wdraża kanały przesyłania danych na platformach chmurowych za pomocą narzędzi i usług Big Data.
- Wdraża kontrole jakości danych i monitorowanie.
- Rozwiązuje problemy z danymi i problemy z wydajnością.
- Pracuje z innymi inżynierami nad rozwojem i utrzymaniem infrastruktury danych firmy.
- Utrzymuje aktualność w zakresie najnowszych technologii i trendów inżynierii danych.
Zgodność ze strategią
- Pracuje z innymi członkami zespołu technicznego w celu ciągłego doskonalenia strategii implementacji, standardów rozwoju i innych procesów i dokumentacji działalności.
- Udziela pomocy technicznej i prowadzi mentoring dla mniej doświadczonych inżynierów danych.
- Regularnie informuje zarządzanie o planach, statusie i problemach.
- Przestrzega standardów, polityk i procedur działu oraz najlepszych praktyk branżowych.
Wymagania:
- Licencjat/magister nauk komputerowych, systemów informacyjnych lub pokrewnego kierunku.
- 4+ lat doświadczenia w inżynierii danych i narzędziach Big Data.
- Doświadczenie w projektach migracji obejmujących hurtownie danych, migrację baz danych z jednej technologii do innej.
- Silne umiejętności programowania w Scala/Java do tworzenia skryptów ETL.
- Solidne zrozumienie zasad inżynierii danych i najlepszych praktyk.
- Solidne umiejętności wdrażania Spark za pomocą Scala/Java.
- Biegłość w Map Reduce, formatach plików Big Data, partycjonowaniu, utrzymaniu replik technik kompresji.
- Doświadczenie z jakąkolwiek platformą chmurową i ich ofertami narzędzi Hadoop, takimi jak Google Cloud Platform - Dataproc, Cloud Dataflow i Cloud Data Fusion, AWS Elastic Map-Reduce.
- Doświadczenie z modelowaniem danych i hurtowniami danych.
- Doświadczenie z kontrolą jakości danych i monitorowaniem.
- Musi znać kanały CI/CD i umieć korzystać z narzędzi takich jak Jenkins, Cloud Build i TeamCity do tworzenia wymaganych kanałów dla CI/CD.
- Zdolność do samodzielnej propozycji rozwiązań i obejścia oraz do pracy w ścisłych terminach.
- Zdolność do rozwiązywania kluczowych problemów klientów i ich pomyślnego rozwiązania.
- Zdolność do współpracy z architektami domen w celu opracowania końcowej architektury rozwiązania, obejmującej aplikacje, infrastrukturę, dane, integracje i domeny bezpieczeństwa.
Dobrze mieć:
- Certyfikat Professional Data Engineer jest preferowany.
- Znajomość podstaw Pythona i HiveQL/SQL jest korzystna.
- Doświadczenie z analizą danych z mediów społecznościowych obejmujących duże ilości danych i wysokie częstotliwości.
- Doświadczenie w projektach związanych z rozwojem aplikacji skupiających się na działaniach inżynierii danych za pomocą dowolnego z języków programowania (Python, SQL, Java) jest pożądane.
- Wcześniejsze doświadczenie z narzędziami i koncepcjami Big Data, takimi jak Hadoop, MapReduce, Spark, Hive, HBase, Apache Airflow (orkestracja) będzie korzystne.