Data инженер
Top Selection
Обязательные требования:
– Релевантный опыт работы от 3-х лет;
– Опыт разработки ETL-процессов;
– Хорошее знание Python + Spark;
– Опыт работы с распределенными системами обработки данных (Hadoop, Airflow)
– Знание оболочки Bash;
– Знание GreenPlum, Git;
– Понимание модели данных Data Vault.
Задачи на проекте:
– Разработка и оптимизация ETL-процессов на стеке Hadoop;
– Анализ данных в Hadoop-кластере;
– Анализ и исследование источников (получение доступов, подключение к новым источникам (Clickhouse, GP, Oracle, Kafka и т.д.), оценка объемов, выявление инкрементов, уточнение бизнес-смысла данных и взаимосвязей);
– Создание продуктовых витрин в архитектуре DataVault;
– Разработка DQ проверок согласно разработанному ТЗ;
– Проведение работ по оптимизации общих процессов в рамках продукта (развитие библиотеки продукта, рефакторинг процессов).