Компания: FactSet
Должность: Инженер-программист
FactSet активно ищет опытного инженера-программиста с обширным опытом в облачной архитектуре AWS, развертывании инфраструктуры и её обслуживании. Эта роль включает сотрудничество с другими инженерами для развертывания приложений, интегрированных с моделями машинного обучения (ML), ориентированными на обработку естественного языка (NLP), классификацию и большие языковые модели (LLMs).
Инженер-программист будет играть ключевую роль в разработке стратегической дорожной карты по управлению и расширению существующих конвейеров и инфраструктуры, поддерживающих ML и AI решения. Основные задачи включают:
- Развертывание и обслуживание моделей ML, баз данных и приложений.
- Поддержка различных проектов AI/ML, включая моделирование сущностей и тем, семантическую разметку/обогащение, извлечение информации и интеграцию LLMs в существующие структуры.
- Создание панелей мониторинга и визуализаций для финансовых экспертов.
- Поглощение и анализ как структурированных, так и неструктурированных данных.
- Разработка процессов для сбора данных, оценки их качества и контроля.
- Поддержание осведомленности о технологических достижениях и обмен знаниями и страстью к ML и технологиям с командой.
- Сотрудничество с другими инженерными командами для непрерывного улучшения.
Идеальный кандидат будет обладать:
- Степенью бакалавра или магистра в области компьютерных наук или смежной области.
- 5+ лет опыта работы инженером-программистом.
- Опыт управления облачной инфраструктурой на AWS.
- Опыт работы с ML и NLP.
- Прочная основа в написании и выпуске производственного кода в корпоративной среде.
- Сильные аналитические навыки и командный настрой.
- Свободное владение английским языком и умение объяснять сложные темы нетехническим заинтересованным сторонам.
- Высокий уровень владения Python.
- Знание Docker и разработки API.
- Опыт работы с различными службами AWS (например, SageMaker, S3, Athena, Glue, ECS, EC2).
Дополнительные желательные навыки включают:
- Опыт работы с RDF, triple stores и извлечением отношений.
- Обработка больших объемов данных в потоковых или пакетных средах.
- Использование MongoDB.
- Знание библиотек глубинного обучения (Keras, PyTorch, TensorFlow).
- Опыт работы с инструментами больших данных (Pyspark, Hive).
- Экспертиза в извлечении информации, разборе и сегментации текста.
- Понимание онтологий, разрешения таксономий и дизамбигуации.
- Опыт работы с методами ненаблюдаемого обучения, включая оценку плотности, кластеризацию и моделирование тем.
- Знание графовых баз данных (AWS Neptune, Neo4j).
- Опыт работы с фреймворками машинного обучения, такими как sklearn, и рабочими процессами ML.
- Знание библиотек NLP и инструментов предобработки текста (nltk, SpaCy).
- Уверенность в работе с фреймворками больших языковых моделей, такими как OpenAI и Llama.
- Опыт работы с неструктурированными данными (например, текстовым контентом, JSON-записями), включая инженеринг признаков.