Инженер по данным - Платформа Google Cloud

  • Full Time
Job expired!

Старший инженер по данным - Векторные базы данных | GCP

Kaizen Analytix LLC, компания по продуктам и услугам аналитики, которая обеспечивает клиентам непревзойденную скорость достижения результатов посредством аналитических решений и применимых бизнес-выводов, ищет квалифицированных кандидатов на позицию старшего инженера по данным. Отобранные специалисты будут отвечать за проектирование, разработку и поддержание каналов передачи данных и хранилищ данных на платформе Google Cloud. Идеальный кандидат обладает твердым пониманием принципов и лучших практик инженерии данных, и умеет работать с большими, неструктурированными наборами данных (100 ГБ+), такими как видео, аудио, изображения и текст. Мы ищем людей, которые смогут поддержать проекты AI, предоставляя необходимое обеспечение для хранения результатов на основе глубокого обучения, таких как векторные встраивания, используя мощные технологии распределенных вычислений.

Обязанности:

Анализ и дизайн

  • Проводить сессии сбора информации с пользователями.
  • Консультировать Технических Менеджеров и Владельцев Бизнеса для идентификации и анализа потребностей в технологиях и проблем.
  • Выполнять диаграммирование потока данных и / или моделирование процессов (архитектура кода).
  • Проектировать, разрабатывать и поддерживать каналы передачи данных и хранилища данных на платформе Google Cloud.
  • Работать со стейкхолдерами для сбора требований и определения моделей данных.
  • Разрабатывать и развертывать каналы передачи данных с использованием инструментов и услуг Google Cloud Platform.
  • Реализовывать проверки качества данных и мониторинг.
  • Решать проблемы с данными и проблемы производительности.
  • Совместно работать с другими инженерами для разработки и поддержки инфраструктуры данных компании.
  • Оставаться в курсе последних технологий и тенденций в области инженерии данных.

Соответствие стратегии

  • Работать с другими членами технической команды для постоянного улучшения стратегий реализации, стандартов разработки и других отделных процессов и документации.
  • Оказывать техническую помощь и наставничество младшим инженерам по данным.
  • Регулярно общаться с управлением о планах, статусе и проблемах.
  • Своевременно выполнить принятые стандарты отдела, политику, процедуры и лучшие практики отрасли.

Требования к работе:

  • Бакалавр/Магистр в области компьютерных наук, информационных систем или смежной области.
  • 5+ лет опыта работы в инженерии данных.
  • Обязательное наличие профессиональной сертификации GCP Data Engineer.
  • Опыт в проектах по миграции, включающих хранилища данных и перенос баз данных с одной технологии на другую.
  • Сильные навыки программирования на Python для разработки ETL-скриптов.
  • Твердое понимание принципов и лучших практик инженерии данных.
  • Глубокое понимание Vertex AI и Vector Search.
  • Опыт работы с другими технологиями Google Cloud Platform, включая BigQuery, Cloud Dataproc, Cloud Dataflow и Cloud Data Fusion.
  • Опыт моделирования данных и работы с хранилищами данных.
  • Опыт проведения проверок качества данных и мониторинга.
  • Опыт работы с любыми инструментами IaC, такими как Terraform, GCP Python Clients.
  • Нужно обладать знаниями о CI/CD pipelines и быть профессионалом в использовании таких инструментов, как Jenkins, Cloud Build и TeamCity для создания требуемых pipelines для CI/CD.
  • Самостоятельность, предлагающий решения и обходные пути; способность работать в условиях жестких сроков.
  • Способность устранять основные проблемы при реализации клиентов и принимать меры по их решению.
  • Ответственность за конечное проектирование решений, архитектуру и лучшие практики по интеграции с экосистемой и инфраструктурой GCP.
  • Способность взаимодействовать с архитекторами доменов, чтобы разрабатывать конечную архитектуру решений, включая приложения, инфраструктуру, данные, интеграцию и безопасность.

Будет плюсом:

  • Предыдущий опыт работы с аналитикой данных в социальных сетях, связанной с обработкой больших объемов данных и данных высокой частоты.
  • Опыт работы над проектами разработки приложений, ориентированных на деятельность в области инженерии данных, с использованием любого из языков программирования (Python, SQL, Java).
  • Предыдущий опыт работы с большими данными, инструментами и концепциями, такими как Hadoop, MapReduce, Spark, Hive, HBase, Apache Airflow (оркестровка).