Инженер по данным (Databricks)
- Data Engineer
- Other places
- $111 K - $183 K
- Full Time
Описание работы:
В качестве инженера по данным Azure у вас будет важная роль в проектировании, разработке и поддержании решений для данных на платформе Azure. Ваши основные обязанности будут включать в себя создание и оптимизацию данных, обеспечение их качества и внедрение логики обработки и преобразования данных. Для успеха в этой роли вам понадобятся знания в Azure Databricks, Python, SQL, Azure Data Factory (ADF) и PySpark/Scala. Ваша работа позволит принимать данные в решениях и выводах для нашей организации.
Ключевые обязанности:
1. Проектирование и разработка потоков данных:
- Создайте и выполните масштабируемые и эффективные потоки данных с помощью Azure Databricks, PySpark и Scala.
- Контролируйте процессы загрузки, преобразования и загрузки данных.
2. Моделирование данных и проектирование баз данных:
- Создайте и выполните модели данных для обеспечения эффективного хранения, извлечения и анализа данных.
- Взаимодействуйте с реляционными базами данных, хранилищами данных и другими решениями для хранения на платформе Azure.
3. Интеграция данных и оркестровка:
- Используйте Azure Data Factory (ADF) для организации работ по интеграции данных.
- Управляйте передвижением данных между различными источниками данных и целями, включая планирование и мониторинг потоков данных.
4. Качество данных и управление:
- Внедряйте проверки качества данных, правила проверки и процессы управления данными.
- Обеспечьте точность данных, последовательность и соответствие соответствующим регулятивным и нормативным требованиям.
5. Оптимизация производительности:
- Оптимизируйте потоки данных и запросы для увеличения производительности системы и минимизации времени обработки.
- Регулируйте SQL-запросы, оптимизируйте логику преобразования данных и используйте техники кэширования при необходимости.
6. Мониторинг и устранение неполадок:
- Непрерывно наблюдайте за потоками данных и определяйте проблемы производительности.
- Активно устраняйте проблемы, связанные с загрузкой данных, их обработкой и преобразованием.
- Сотрудничайте с межфункциональными командами для решения проблем, связанных с данными.
7. Документация и сотрудничество:
- Документируйте потоки данных, потоки данных и процессы преобразования данных.
- Тесно сотрудничайте с дата-сайентистами, аналитиками и другими заинтересованными сторонами, чтобы понять их потребности в данных и предоставлять поддержку по инженерии данных.
Требования
5+ лет опыта работы на должности инженера по данным.
- Владение Python или Scala программированием.
- Исключительные навыки решения проблем в среде больших данных.
- Опыт создания потоков данных "больших данных", архитектур и наборов данных из различных бизнес-приложений.
- Знание систем очереди сообщений, потоковой обработки и масштабируемых хранилищ данных "больших данных".
- Предпринимательский дух, стремление к достижению высококачественных результатов.
- Диплом в области компьютерных наук или связанной области, такой как прикладная математика.
- Опыт работы в технической роли с прямым контактом с клиентами (предпочтительно инженер-продавец решений) или готовность к такой роли.
- Глубокие знания в Azure Databricks, Python, SQL, ADF, PySpark, and Scala.
- Владение проектированием и созданием потоков данных и процессов ETL.
- Твердое понимание концепций моделирования данных и принципов проектирования баз данных.
- Знание интеграции и оркестровки данных с помощью Azure Data Factory.