Инженер по большим данным

  • Full Time
Job expired!
Инженер по большим данным Компания Kaizen Analytix LLC, специализирующаяся на продуктах и услугах в области аналитики, предоставляющая несравненную скорость в достижении эффективности благодаря аналитическим решениям и практически значимым бизнес-инсайтам, ищет квалифицированных кандидатов на занимаемую должность инженера по большим данным. Мы ищем высококвалифицированных профессионалов со стажем, ответственных за разработку, создание и поддержку данных, а также их хранение с использованием экосистемы Hadoop, включая HDFS, Spark, Hive, HBase, Sqoop, Pig, Oozie или эквивалентные облачные предложения, такие как AWS EMR, GCP Dataproc, Azure HDInsights. Идеальный кандидат обладает крепкими знаниями принципов и лучших практик инженерии данных, а также опытом работы с огромными наборами данных. Обязанности: Анализ и проектирование - Проводит фактографические сессии с пользователями. - Консультирует технических менеджеров и владельцев бизнеса для определения и анализа технологических потребностей и проблем. - Выполняет моделирование потока данных и/или процесса (архитектура кода). - Разрабатывает, создает и поддерживает потоки данных и их хранение на желаемых облачных платформах (например, AWS, GCP, Azure). - Сотрудничает с заинтересованными сторонами для сбора требований и определения моделей данных. - Разрабатывает и внедряет потоки данных на облачных платформах с использование инструментов и услуг больших данных. - Внедряет контроль качества данных и мониторинг. - Устраняет проблемы с данными и проблемы с производительностью. - Работает с другими инженерами по разработке и поддержанию инфраструктуры данных компании. - Оставаться в курсе последних технологий и трендов в области инженерии данных. Соответствие стратегии - Работает с другими техническими участниками команды для постоянного улучшения стратегий внедрения, стандартов разработки и других отделочных процессов и документации. - Предоставляет техническую помощь и наставничество младшим инженерам по данным. - Регулярно информирует руководство о планах, статусе и проблемах. - Соблюдает стандарты отдела, политики, процедуры и лучшие практики отрасли. Требования к работе: - Бакалавриат/магистратура в области информатики, информационных систем или смежной области. - 4+ лет опыта работы в области данных и инструментов большого объема данных. - Опыт работы над проектами миграции, включающие хранилище данных, перенос баз данных из одной технологии в другую. - Сильные навыки программирования на Scala/Java для разработки ETL-скриптов. - Твердое понимание принципов и лучших практик инженерии данных. - Твердые знания реализации Spark с использованием Scala/Java. - Владение Map Reduce, форматами больших файлов, разделением, поддержкой копий, методами сжатия. - Опыт работы с любой облачной платформой и их предложениями по набору инструментов Hadoop, таких как Google Cloud Platform - Dataproc, Cloud Dataflow и Cloud Data Fusion, AWS Elastic Map-Reduce. - Опыт моделирования данных и работы с хранилищами данных. - Опыт проверки качества данных и мониторинга. - Необходимо знание CI/CD, уверенное владение такими инструментами, как Jenkins, Cloud Build и TeamCity для создания необходимых процедур для CI/CD. - Способность самостоятельно предлагать решения и обходные пути и соблюдать строгие сроки. - Способность устранять ключевые проблемы при внедрении клиентов и вести их к успешному разрешению. - Вероятность взаимодействия с архитекторами в области для разработки архитектуры решения "от и до", включая приложения, инфраструктуру, данные, интеграцию и области безопасности. Желательно наличие: - Профессиональная сертификация инженера по данным является преимуществом. - Знание основ Python и HiveQL/SQL будет полезным. - Опыт работы с аналитикой данных в социальных сетях, включающей данные большого объема и высокой частоты. - Опыт работы над проектами разработки приложения с упором на деятельность инженера по данным, используя любой из языков программирования (Python, SQL, Java), будет желательным. - Предыдущий опыт работы с инструментами и концепциями больших данных, такими как Hadoop, MapReduce, Spark, Hive, HBase, Apache Airflow (оркестровка), будет преимуществом.