Инженер по данным (Databricks)

  • Full Time
Job expired!

Описание работы:

В качестве инженера по данным Azure у вас будет важная роль в проектировании, разработке и поддержании решений для данных на платформе Azure. Ваши основные обязанности будут включать в себя создание и оптимизацию данных, обеспечение их качества и внедрение логики обработки и преобразования данных. Для успеха в этой роли вам понадобятся знания в Azure Databricks, Python, SQL, Azure Data Factory (ADF) и PySpark/Scala. Ваша работа позволит принимать данные в решениях и выводах для нашей организации.

Ключевые обязанности:

1. Проектирование и разработка потоков данных:

- Создайте и выполните масштабируемые и эффективные потоки данных с помощью Azure Databricks, PySpark и Scala.

- Контролируйте процессы загрузки, преобразования и загрузки данных.

2. Моделирование данных и проектирование баз данных:

- Создайте и выполните модели данных для обеспечения эффективного хранения, извлечения и анализа данных.

- Взаимодействуйте с реляционными базами данных, хранилищами данных и другими решениями для хранения на платформе Azure.

3. Интеграция данных и оркестровка:

- Используйте Azure Data Factory (ADF) для организации работ по интеграции данных.

- Управляйте передвижением данных между различными источниками данных и целями, включая планирование и мониторинг потоков данных.

4. Качество данных и управление:

- Внедряйте проверки качества данных, правила проверки и процессы управления данными.

- Обеспечьте точность данных, последовательность и соответствие соответствующим регулятивным и нормативным требованиям.

5. Оптимизация производительности:

- Оптимизируйте потоки данных и запросы для увеличения производительности системы и минимизации времени обработки.

- Регулируйте SQL-запросы, оптимизируйте логику преобразования данных и используйте техники кэширования при необходимости.

6. Мониторинг и устранение неполадок:

- Непрерывно наблюдайте за потоками данных и определяйте проблемы производительности.

- Активно устраняйте проблемы, связанные с загрузкой данных, их обработкой и преобразованием.

- Сотрудничайте с межфункциональными командами для решения проблем, связанных с данными.

7. Документация и сотрудничество:

- Документируйте потоки данных, потоки данных и процессы преобразования данных.

- Тесно сотрудничайте с дата-сайентистами, аналитиками и другими заинтересованными сторонами, чтобы понять их потребности в данных и предоставлять поддержку по инженерии данных.

Требования

5+ лет опыта работы на должности инженера по данным.

- Владение Python или Scala программированием.

- Исключительные навыки решения проблем в среде больших данных.

- Опыт создания потоков данных "больших данных", архитектур и наборов данных из различных бизнес-приложений.

- Знание систем очереди сообщений, потоковой обработки и масштабируемых хранилищ данных "больших данных".

- Предпринимательский дух, стремление к достижению высококачественных результатов.

- Диплом в области компьютерных наук или связанной области, такой как прикладная математика.

- Опыт работы в технической роли с прямым контактом с клиентами (предпочтительно инженер-продавец решений) или готовность к такой роли.

- Глубокие знания в Azure Databricks, Python, SQL, ADF, PySpark, and Scala.

- Владение проектированием и созданием потоков данных и процессов ETL.

- Твердое понимание концепций моделирования данных и принципов проектирования баз данных.

- Знание интеграции и оркестровки данных с помощью Azure Data Factory.