Опис роботи:
Група Global Technology and Operations (GTO) компанії IQVIA розширює свої обов'язки. Для ефективного управління цим збільшеним обсягом ми шукаємо старшого інженера зі застосування великих даних, який приєднається до нашої команди.
Приєднайтеся до нашого Data Office як старший інженер зі застосування великих даних, де ви будете відігравати ключову роль в оптимізації операцій нашої Big Data Factory. Наша швидкозростаюча команда управляє понад 40 петабайтами даних через тисячі робочих навантажень на публічних і приватних платформах Hadoop CDP, Snowflake Data Cloud та Databricks. Ваша роль буде критичною для впровадження оптимізацій з мінімальним наглядом, забезпечуючи максимальну ефективність та економічність наших процесів роботи з великими даними.
- Розробляти передові оптимізації на основі Spark для забезпечення оптимальної продуктивності та економічності нашої інфраструктури на місцевих та хмарних платформах даних.
- Використовувати глибокі знання Scala, Python, SQL та TEZ для досягнення значної економії витрат та підвищення продуктивності.
- Очолювати ініціативи щодо автоматизації передачі даних та впровадження стратегій повторного використання та архівування даних, значно скорочуючи витрати на зберігання та обробку.
- Розробляти та впроваджувати найкращі практики та стандарти для розробки та розгортання застосувань Spark, забезпечуючи стабільність та надійність нашої екосистеми великих даних.
- Проводити детальний аналіз продуктивності застосувань Spark, оптимізуючи код та запити для досягнення максимальної ефективності.
- Оптимізувати використання наших платформ BI шляхом налаштування моделей даних та інформаційних панелей для обробки та аналізу великих даних.
- Створювати та надавати навчальні матеріали, присвячені технікам оптимізації Spark та найкращим практикам для наших ресурсів бізнес-підрозділу.
- Ступінь бакалавра в галузі комп'ютерних наук, інженерії або суміжній сфері; магістерський ступінь буде перевагою; або рівнозначний досвід роботи.
- Щонайменше 8 років глибокого досвіду в галузі інженерії даних з акцентом на розробку застосувань Spark та SQL.
- Доведена експертиза в технологіях великих даних, включаючи Apache Spark, Scala, Python, SQL та TEZ.
- Протокового досвіду досягнення значної економії витрат та підвищення продуктивності в середовищі великих даних.
- Досвід оптимізації коду Spark, запитів Impala та стратегії розмежування Hive для масштабованості, надійності та підвищення продуктивності.
- Знання оптимізацій продуктивності Hive, таких як використання розподіленого кешу для невеликих наборів даних, розділення даних, створення кошиків у Hive та об'єднання Map Side.
- Досвід роботи з Snowflake, Databricks, Oracle та Cloudera для керування даними та оптимізації.
- Виняткові аналітичні та проблемно-орієнтовані здібності, здатність проводити детальний технічний аналіз для виявлення можливостей оптимізації.
- Відмінні комунікативні навички, здатність очолювати міжфункціональні команди та доносити складні технічні концепції