Старший инженер по данным - Векторные базы данных | GCP
Kaizen Analytix LLC, компания по продуктам и услугам аналитики, которая обеспечивает клиентам непревзойденную скорость достижения результатов посредством аналитических решений и применимых бизнес-выводов, ищет квалифицированных кандидатов на позицию старшего инженера по данным. Отобранные специалисты будут отвечать за проектирование, разработку и поддержание каналов передачи данных и хранилищ данных на платформе Google Cloud. Идеальный кандидат обладает твердым пониманием принципов и лучших практик инженерии данных, и умеет работать с большими, неструктурированными наборами данных (100 ГБ+), такими как видео, аудио, изображения и текст. Мы ищем людей, которые смогут поддержать проекты AI, предоставляя необходимое обеспечение для хранения результатов на основе глубокого обучения, таких как векторные встраивания, используя мощные технологии распределенных вычислений.
Обязанности:
Анализ и дизайн
- Проводить сессии сбора информации с пользователями.
- Консультировать Технических Менеджеров и Владельцев Бизнеса для идентификации и анализа потребностей в технологиях и проблем.
- Выполнять диаграммирование потока данных и / или моделирование процессов (архитектура кода).
- Проектировать, разрабатывать и поддерживать каналы передачи данных и хранилища данных на платформе Google Cloud.
- Работать со стейкхолдерами для сбора требований и определения моделей данных.
- Разрабатывать и развертывать каналы передачи данных с использованием инструментов и услуг Google Cloud Platform.
- Реализовывать проверки качества данных и мониторинг.
- Решать проблемы с данными и проблемы производительности.
- Совместно работать с другими инженерами для разработки и поддержки инфраструктуры данных компании.
- Оставаться в курсе последних технологий и тенденций в области инженерии данных.
Соответствие стратегии
- Работать с другими членами технической команды для постоянного улучшения стратегий реализации, стандартов разработки и других отделных процессов и документации.
- Оказывать техническую помощь и наставничество младшим инженерам по данным.
- Регулярно общаться с управлением о планах, статусе и проблемах.
- Своевременно выполнить принятые стандарты отдела, политику, процедуры и лучшие практики отрасли.
Требования к работе:
- Бакалавр/Магистр в области компьютерных наук, информационных систем или смежной области.
- 5+ лет опыта работы в инженерии данных.
- Обязательное наличие профессиональной сертификации GCP Data Engineer.
- Опыт в проектах по миграции, включающих хранилища данных и перенос баз данных с одной технологии на другую.
- Сильные навыки программирования на Python для разработки ETL-скриптов.
- Твердое понимание принципов и лучших практик инженерии данных.
- Глубокое понимание Vertex AI и Vector Search.
- Опыт работы с другими технологиями Google Cloud Platform, включая BigQuery, Cloud Dataproc, Cloud Dataflow и Cloud Data Fusion.
- Опыт моделирования данных и работы с хранилищами данных.
- Опыт проведения проверок качества данных и мониторинга.
- Опыт работы с любыми инструментами IaC, такими как Terraform, GCP Python Clients.
- Нужно обладать знаниями о CI/CD pipelines и быть профессионалом в использовании таких инструментов, как Jenkins, Cloud Build и TeamCity для создания требуемых pipelines для CI/CD.
- Самостоятельность, предлагающий решения и обходные пути; способность работать в условиях жестких сроков.
- Способность устранять основные проблемы при реализации клиентов и принимать меры по их решению.
- Ответственность за конечное проектирование решений, архитектуру и лучшие практики по интеграции с экосистемой и инфраструктурой GCP.
- Способность взаимодействовать с архитекторами доменов, чтобы разрабатывать конечную архитектуру решений, включая приложения, инфраструктуру, данные, интеграцию и безопасность.
Будет плюсом:
- Предыдущий опыт работы с аналитикой данных в социальных сетях, связанной с обработкой больших объемов данных и данных высокой частоты.
- Опыт работы над проектами разработки приложений, ориентированных на деятельность в области инженерии данных, с использованием любого из языков программирования (Python, SQL, Java).
- Предыдущий опыт работы с большими данными, инструментами и концепциями, такими как Hadoop, MapReduce, Spark, Hive, HBase, Apache Airflow (оркестровка).