Присоединяйтесь к команде Capgemini в качестве инженера по большим данным (PySpark)
Роли и обязанности:
- Проектирование и разработка проектов по обработке данных с использованием Spark Scala и PySpark.
- Реализация надежных модульных тестов для трансформации данных и вспомогательных методов.
- Эффективное управление данными и аналитика в Hive с использованием Spark и Spark SQL через Scala API.
- Сотрудничество с бизнес-аналитиками для проверки результатов тестов и достижения подписания проектов.
- Документирование проектирования и операционных процедур для руководства будущими процессами и реализациями.
- Обеспечение высокого качества поставок посредством тщательного рецензирования кода коллег и соблюдения стандартов качества.
- Участие в совместных средах программирования, включая парное программирование.
- Вклад в командные усилия по созданию качественного, поддерживаемого кода.
Квалификация и требования:
- Доказанный опыт работы от 4 до 10 лет в качестве инженера по данным Hadoop.
- Демонстрируемый опыт работы в экосистемах Hadoop, таких как Spark, Scala, PySpark, Python, Hive и Impala.
- Навыки работы с дополнительными инструментами, такими как Oracle, Spark Streaming, Kafka, а также основные концепции машинного обучения.
- Владение практиками Agile, непрерывной интеграции и развертывания (CI/CD), а также инструментами вроде Git, Jenkins и Cloudera Distribution.
- Глубокое понимание манипуляций с структурой данных, распределенных систем, разработки приложений и автоматизации.
- Предыдущий опыт в секторе базового банковского дела или финансов будет считаться значительным преимуществом.
- Опыт работы с облачными вычислениями, особенно с AWS, будет считаться сильным активом.
Начните захватывающий карьерный путь в Capgemini, используя свой опыт в области больших данных и технологий экосистемы для реализации трансформационных проектов и инновационных решений. Подайте заявку сегодня, чтобы стать частью глобально уважаемой команды в качестве инженера по большим данным, специализирующегося на PySpark!