Инженер по большим данным
Компания Kaizen Analytix LLC, специализирующаяся на продуктах и услугах в области аналитики, предоставляющая несравненную скорость в достижении эффективности благодаря аналитическим решениям и практически значимым бизнес-инсайтам, ищет квалифицированных кандидатов на занимаемую должность инженера по большим данным. Мы ищем высококвалифицированных профессионалов со стажем, ответственных за разработку, создание и поддержку данных, а также их хранение с использованием экосистемы Hadoop, включая HDFS, Spark, Hive, HBase, Sqoop, Pig, Oozie или эквивалентные облачные предложения, такие как AWS EMR, GCP Dataproc, Azure HDInsights. Идеальный кандидат обладает крепкими знаниями принципов и лучших практик инженерии данных, а также опытом работы с огромными наборами данных.
Обязанности:
Анализ и проектирование
- Проводит фактографические сессии с пользователями.
- Консультирует технических менеджеров и владельцев бизнеса для определения и анализа технологических потребностей и проблем.
- Выполняет моделирование потока данных и/или процесса (архитектура кода).
- Разрабатывает, создает и поддерживает потоки данных и их хранение на желаемых облачных платформах (например, AWS, GCP, Azure).
- Сотрудничает с заинтересованными сторонами для сбора требований и определения моделей данных.
- Разрабатывает и внедряет потоки данных на облачных платформах с использование инструментов и услуг больших данных.
- Внедряет контроль качества данных и мониторинг.
- Устраняет проблемы с данными и проблемы с производительностью.
- Работает с другими инженерами по разработке и поддержанию инфраструктуры данных компании.
- Оставаться в курсе последних технологий и трендов в области инженерии данных.
Соответствие стратегии
- Работает с другими техническими участниками команды для постоянного улучшения стратегий внедрения, стандартов разработки и других отделочных процессов и документации.
- Предоставляет техническую помощь и наставничество младшим инженерам по данным.
- Регулярно информирует руководство о планах, статусе и проблемах.
- Соблюдает стандарты отдела, политики, процедуры и лучшие практики отрасли.
Требования к работе:
- Бакалавриат/магистратура в области информатики, информационных систем или смежной области.
- 4+ лет опыта работы в области данных и инструментов большого объема данных.
- Опыт работы над проектами миграции, включающие хранилище данных, перенос баз данных из одной технологии в другую.
- Сильные навыки программирования на Scala/Java для разработки ETL-скриптов.
- Твердое понимание принципов и лучших практик инженерии данных.
- Твердые знания реализации Spark с использованием Scala/Java.
- Владение Map Reduce, форматами больших файлов, разделением, поддержкой копий, методами сжатия.
- Опыт работы с любой облачной платформой и их предложениями по набору инструментов Hadoop, таких как Google Cloud Platform - Dataproc, Cloud Dataflow и Cloud Data Fusion, AWS Elastic Map-Reduce.
- Опыт моделирования данных и работы с хранилищами данных.
- Опыт проверки качества данных и мониторинга.
- Необходимо знание CI/CD, уверенное владение такими инструментами, как Jenkins, Cloud Build и TeamCity для создания необходимых процедур для CI/CD.
- Способность самостоятельно предлагать решения и обходные пути и соблюдать строгие сроки.
- Способность устранять ключевые проблемы при внедрении клиентов и вести их к успешному разрешению.
- Вероятность взаимодействия с архитекторами в области для разработки архитектуры решения "от и до", включая приложения, инфраструктуру, данные, интеграцию и области безопасности.
Желательно наличие:
- Профессиональная сертификация инженера по данным является преимуществом.
- Знание основ Python и HiveQL/SQL будет полезным.
- Опыт работы с аналитикой данных в социальных сетях, включающей данные большого объема и высокой частоты.
- Опыт работы над проектами разработки приложения с упором на деятельность инженера по данным, используя любой из языков программирования (Python, SQL, Java), будет желательным.
- Предыдущий опыт работы с инструментами и концепциями больших данных, такими как Hadoop, MapReduce, Spark, Hive, HBase, Apache Airflow (оркестровка), будет преимуществом.