Інженер з даних (Databricks)
- Data Engineer
- Other places
- $111 K - $183 K
- Full Time
Опис роботи:
Як інженер по роботі з даними на платформі Azure, ви будете відігравати важливу роль у проектуванні, розробці та підтримці рішень для роботи з даними на платформі Azure. Ваші основні обов'язки будуть пов'язані з будівництвом та оптимізацією конвейерів даних, забезпеченням якості даних та впровадженням логіки обробки та перетворення даних. Для успіху в цій ролі вам потрібні знання в Azure Databricks, Python, SQL, Azure Data Factory (ADF) та PySpark/Scala. Ваша робота допоможе нашій організації приймати рішення на основі даних та отримувати нові перспективи.
Ключові обов'язки:
1. Проектування та розробка конвейерів даних:
- Проектування та реалізація масштабованих та ефективних конвейерів даних, використовуючи Azure Databricks, PySpark та Scala.
- Контроль за процесами споживання даних, перетворення даних та завантаження даних.
2. Моделювання даних і проектування баз даних:
- Формулювання та виконання моделей даних для сприяння ефективному зберіганню даних, їх вилученню та аналізу.
- Робота з реляційними базами даних, озерами даних та іншими рішеннями зберігання даних на платформі Azure.
3. Інтеграція даних та оркестрація:
- Використання Azure Data Factory (ADF) для оркестрації робочих потоків інтеграції даних.
- Керування пересуванням даних між різними джерелами даних та цілями, включаючи планування та моніторинг конвейерів даних.
4. Якість даних і управління ними:
- Впровадження перевірок якості даних, правил валідації та процесів управління даними.
- Забезпечення точності даних, їх узгодженості та відповідності відповідним регулятивам і нормам.
5. Оптимізація продуктивності:
- Оптимізація конвейерів даних і запитів для підвищення продуктивності системи та зменшення часу обробки.
- Коригування SQL-запитів, оптимізація логіки перетворення даних та використання технік кешування при необхідності.
6. Моніторинг та усунення неполадок:
- Неперервний огляд конвейерів даних та виявлення проблем з продуктивністю.
- Активне усунення проблем, пов'язаних із споживанням даних, їх обробкою та перетворенням.
- Співпраця з різними відділами для вирішення проблем, пов'язаних з даними.
7. Документування та співпраця:
- Документування конвейерів даних, потоків даних та процесів перетворення даних.
- Щільна співпраця з дата-саєнтистами, аналітиками та іншими зацікавленими сторонами для визначення їх потреб в даних та надання інженерної підтримки в області даних.
Вимоги
5+ років досвіду праці на посаді інженера по даних.
- Володіння програмуванням на Python або Scala.
- Виняткові навички вирішення проблем в середовищі великих даних.
- Досвід у будівництві конвейерів даних великого обсягу, архітектур та наборів даних з різних бізнес-застосунків.
- Знайомство з чергами повідомлень, потоковою обробкою та масштабованими сховищами даних великого обсягу.
- Підприємницький дух, зобов'язання до досягнення високоякісних результатів.
- Ступінь бакалавра або магістра в галузі комп'ютерних наук або в суміжній галузі, наприклад, прикладна математика.
- Досвід роботи з клієнтами в технічній ролі (бажано в ролі інженера-розробника рішень) або готовність до такої роботи.
- Глибокі знання Azure Databricks, Python, SQL, ADF, PySpark, і Scala.
- Володіння проектуванням та розробкою конвейерів даних та процесів ETL.
- Міцне розуміння концепцій моделювання даних і принципів проектування баз даних.
- Знання інтеграції даних та оркестрації за допомогою Azure Data Factory.