Machine Learning Data Engineer

Job expired!

Проектирование и создание конвейеров данных: Создание эффективных, надежных, потоковых и масштабируемых конвейеров данных с использованием стандартных инструментов и методов, таких как TorchData, WebDataset, Apache Parquet, Python и SQL.

Сбор данных: Разработка стратегий для сбора данных от поставщиков, обеспечение качества и согласованности данных.

Предварительная обработка данных: Реализация параллельной предварительной обработки для очистки, трансформации, дублирования, объединения и нормализации данных.

Курирование и обогащение данных: Курирование, расширение и обогащение наборов данных для улучшения качества данных и предоставления ценных инсайтов заинтересованным сторонам.

Генерация синтетических данных: Сотрудничество с командами по созданию синтетических данных для генерации данных и их интеграции в существующие конвейеры.

Сотрудничество с командами клиентов: Тесное сотрудничество с учеными, инженерами и продуктовыми командами клиентов для понимания требований к данным и сотрудничество по вопросам их доставки.

Мониторинг, обслуживание и обновление: Мониторинг конвейеров данных для оценки производительности, ошибок и узких мест, выполнение регулярного обслуживания и обновлений. Оставаться в курсе последних тенденций и передовых практик.

Техническая документация: Документирование конвейеров данных, настроек и процедур для облегчения обслуживания и обмена знаниями.

Степень бакалавра в области компьютерных наук, информационных технологий или смежной области.

Не менее 3 лет опыта работы инженером-программистом или инженером по данным.

Сильные навыки программирования, владение Python.

Опыт работы с инструментами и форматами обработки данных, такими как Apache Parquet, WebDataset, TorchData, Pandas, Shell Scripting, Protobuf, TFRecord.

Знание архитектур хранилищ данных и облачных систем (например, AWS S3).

Сильные навыки решения проблем и аналитические навыки.

Отличные навыки общения и сотрудничества.

Степень магистра в области науки о данных или смежной области.

Опыт работы с методами курирования и обогащения данных, особенно для обработки текстовых, графических и видео данных в большом масштабе.

Знание обработки естественного языка (NLP), концепций машинного обучения и фреймворков (PyTorch).

Будучи работодателем, предоставляющим равные возможности, ICONMA создает рабочую среду, которая поддерживает и поощряет способности всех сотрудников без дискриминации по признакам расы, цвета кожи, религии, пола, сексуальной ориентации, гендерной идентичности или выражения, этнической принадлежности, национального происхождения, возраста, инвалидности, политических взглядов, генетической информации, семейного положения, статуса защищенного ветерана или любых других характеристик, защищенных федеральными, государственными или местными законами.