Machine Learning Data Engineer
- Machine learning
- Seattle
- 08/28/2024
- -
Дизайн і створення конвеєрів даних: Створення ефективних, надійних, потокових та масштабованих конвеєрів даних, використовуючи інструменти та техніки, такі як TorchData, WebDataset, Apache Parquet, Python та SQL.
Завантаження даних: Розробка стратегій завантаження даних від постачальників, забезпечення якості та консистентності даних.
Попередня обробка даних: Реалізація паралельної попередньої обробки для очищення, трансформації, видалення дублікатів, об'єднання та нормалізації даних.
Курація та збагачення даних: Курація, доповнення та збагачення наборів даних для покращення якості даних і надання цінних інсайтів зацікавленим сторонам.
Генерація синтетичних даних: Співпраця з командами, що займаються синтетичними даними, для генерації даних та їх включення в існуючі конвеєри.
Співпраця з командами клієнтів: Тісна співпраця з науковцями, інженерами та продуктовими командами клієнтів для розуміння вимог до даних та спільної розробки рішень їх доставки.
Моніторинг, технічне обслуговування та оновлення: Моніторинг конвеєрів даних на предмет продуктивності, помилок та вузьких місць, здійснення регулярного технічного обслуговування та оновлень. Постійно бути в курсі останніх тенденцій та найкращих практик.
Технічна документація: Документування конвеєрів даних, налаштувань та процедур для легкого технічного обслуговування та обміну знаннями.
Ступінь бакалавра з комп'ютерних наук, інформаційних технологій або споріднених областей.
Щонайменше 3 роки досвіду роботи як інженер програмного забезпечення або інженер з даних.
Сильні навички програмування, досвід роботи з Python.
Досвід роботи з інструментами та форматами обробки даних, такими як Apache Parquet, WebDataset, TorchData, Pandas, Shell Scripting, Protobuf, TFRecord.
Знання архітектури сховищ даних та хмарних систем (наприклад, AWS S3).
Сильні аналітичні та проблемноорієнтовані навички.
Відмінні навички спілкування та співпраці.
Ступінь магістра з науки про дані або спорідненої області.
Досвід роботи з техніками курації та збагачення даних, особливо для масштабних текстових, зображувальних та відео даних.
Знання природної обробки мови (NLP), концепцій машинного навчання та фреймворків (PyTorch).
Як роботодавець, що надає рівні можливості, ICONMA забезпечує робоче середовище, яке підтримує та заохочує здібності всіх осіб незалежно від раси, кольору шкіри, релігії, статі, сексуальної орієнтації, гендерної ідентичності або вираження, етнічної приналежності, національного походження, віку, статусу інвалідності, політичної приналежності, генетики, сімейного стану, статусу захищеного ветерана чи будь-яких інших характеристик, захищених федеральними, державними або місцевими законами.