Big Data Engineer (PySpark)

Job expired!

Присоединяйтесь к команде Capgemini в качестве инженера по большим данным (PySpark)

Роли и обязанности:

  • Проектирование и разработка проектов по обработке данных с использованием Spark Scala и PySpark.
  • Реализация надежных модульных тестов для трансформации данных и вспомогательных методов.
  • Эффективное управление данными и аналитика в Hive с использованием Spark и Spark SQL через Scala API.
  • Сотрудничество с бизнес-аналитиками для проверки результатов тестов и достижения подписания проектов.
  • Документирование проектирования и операционных процедур для руководства будущими процессами и реализациями.
  • Обеспечение высокого качества поставок посредством тщательного рецензирования кода коллег и соблюдения стандартов качества.
  • Участие в совместных средах программирования, включая парное программирование.
  • Вклад в командные усилия по созданию качественного, поддерживаемого кода.

Квалификация и требования:

  • Доказанный опыт работы от 4 до 10 лет в качестве инженера по данным Hadoop.
  • Демонстрируемый опыт работы в экосистемах Hadoop, таких как Spark, Scala, PySpark, Python, Hive и Impala.
  • Навыки работы с дополнительными инструментами, такими как Oracle, Spark Streaming, Kafka, а также основные концепции машинного обучения.
  • Владение практиками Agile, непрерывной интеграции и развертывания (CI/CD), а также инструментами вроде Git, Jenkins и Cloudera Distribution.
  • Глубокое понимание манипуляций с структурой данных, распределенных систем, разработки приложений и автоматизации.
  • Предыдущий опыт в секторе базового банковского дела или финансов будет считаться значительным преимуществом.
  • Опыт работы с облачными вычислениями, особенно с AWS, будет считаться сильным активом.

Начните захватывающий карьерный путь в Capgemini, используя свой опыт в области больших данных и технологий экосистемы для реализации трансформационных проектов и инновационных решений. Подайте заявку сегодня, чтобы стать частью глобально уважаемой команды в качестве инженера по большим данным, специализирующегося на PySpark!