Senior Data Engineer

Job expired!

О нас

Основанная в 2018 году, Causaly революционизирует способы получения знаний и разработки инсайтов в биомедицине. Наша передовая генеративная платформа искусственного интеллекта повышает качество исследовательских инсайтов и автоматизацию знаний, что позволяет тысячам ученых находить важные доказательства из миллионов академических публикаций, клинических испытаний, регуляторных документов, патентов и других источников данных всего за несколько минут.

Мы гордимся сотрудничеством с некоторыми из крупнейших биофармацевтических компаний и учреждений мира, фокусируясь на таких случаях использования, как открытие лекарств, безопасность и конкурентная разведка. Подробнее о нашем пути и о том, как мы ускоряем приобретение знаний и улучшаем процесс принятия решений, читайте в нашем блоге.

Поддерживаемые ведущими венчурными капитальными фирмами, такими как ICONIQ, Index Ventures, Pentech и Marathon, Causaly стремится оказать значительное влияние на биомедицинскую отрасль.

Мы ищем опытного старшего инженера по данным для присоединения и развития нашей устоявшейся команды Data & Semantic Technologies. Эта команда играет ключевую роль в разработке и создании масштабируемой и гибкой базы данных, необходимой Causaly для воплощения нашего видения в жизнь.

Роль включает в себя работу над инкрементальными конвейерами данных как для пакетных, так и для целевых обновлений, поддержку массивных графов знаний и онтологий, и пополнение нашего постоянно растущего хранилища данных. Вы будете тесно сотрудничать с командами прикладного искусственного интеллекта и приложений для создания реальной коммерческой ценности через данные.

Ваши обязанности:

  • Сбор и понимание данных на основе бизнес-требований.
  • Импорт больших наборов данных (миллионы записей) из таких форматов, как CSV, XML, SQL, JSON в BigQuery.
  • Обработка и объединение данных в BigQuery с внешними источниками данных.
  • Реализация и поддержка высокопроизводительных конвейеров данных в соответствии с лучшими отраслевыми практиками масштабируемости, устойчивости к сбоям и надежности.
  • Разработка инструментов для мониторинга, аудита, экспорта и извлечения инсайтов из конвейеров данных.
  • Взаимодействие с техническими, продуктовыми и бизнес-стейкхолдерами для предоставления решений на основе данных.
  • Управление процессами, связанными с доставкой данных, их курацией и операциями машинного обучения.
  • Создание сильной функции инженерии данных, наставничество других инженеров, формирование нашей технологической стратегии и инновации в инфраструктуре данных.

Требования для успешной работы:

Минимальные требования:

  • Степень магистра в области компьютерных наук, математики или смежной технической области.
  • Более 5 лет опыта обработки данных на серверной стороне и создания конвейеров данных.
  • Знание Python и связанных библиотек (например, pandas, Airflow).
  • Сильные навыки работы с SQL и базами данных.
  • Хорошее понимание современных методов разработки программного обеспечения (тестирование, контроль версий, документация и т.д.).
  • Ориентация на продукт и пользователя.
  • Отличные навыки решения проблем, чувство ответственности, организованность и внимание к деталям.

Предпочтительные квалификации:

  • Опыт работы с NoSQL и технологиями больших данных (например, Spark, Hadoop).
  • Опыт работы с базами данных полнотекстового поиска (например, ElasticSearch).
  • Опыт работы с графами знаний и графовыми базами данных (например, Neo4J).