Обязанности
- Проектирование, разработка и поддержка data pipelines с использованием Apache Spark для эффективной обработки и преобразования больших объемов данных.
- Сотрудничество с архитекторами данных и другими заинтересованными сторонами для определения архитектуры данных и лучших практик.
- Обеспечение соответствия моделей и структур данных требованиям бизнеса и их масштабируемость для будущих потребностей.
- Работа над обработкой данных в реальном времени и стримингом с помощью Spark Streaming.
- Оптимизация Spark заданий и кода Java с целью повышения производительности, масштабируемости и использования ресурсов.
- Мониторинг и устранение проблем в data pipeline для обеспечения минимального простоя и максимальной эффективности.
- Внедрение проверок качества данных, валидации данных и механизмов обработки ошибок для поддержания целостности данных.
- Обеспечение соблюдения политики управления данными и безопасности.
- Документирование процессов инженерии данных, потоков данных и конфигураций для будущего использования.
- Сотрудничество с data scientists, аналитиками и деловыми заинтересованными сторонами для понимания требований к данным и предоставления решений, отвечающих их потребностям.
- Установка систем мониторинга и оповещения для своевременного определения и решения проблем data pipeline.
- Выполнение регулярных задач по обслуживанию и поддержание программного обеспечения и систем в актуальном состоянии.
Требования
- Высшее образование в области информационных технологий, компьютерных наук или смежной области.
- Знание Java для разработки программного обеспечения.
- Обширный опыт работы с Apache Spark, включая Spark SQL и Spark Streaming.
- Владение технологиями и фреймворками big data, такими как Hadoop, HDFS, и связанными с ними инструментами.
- Понимание концепций и технологий хранилищ данных.
- Опыт работы с системами баз данных (SQL и NoSQL).
- Сильные навыки решения проблем и способность работать в сотрудничестве, в командной среде.
- Отличные коммуникативные навыки и умение документировать процессы.
- Понимание лучших практик обеспечения безопасности данных, конфиденциальности и соблюдения нормативных требований.