Что делаю

Основа 01

Платформа данных

Участвую в развитии DWH и data lake в рамках существующей архитектуры. Реализую модели данных (Data Vault, dimensional) и поддерживаю процессы инкрементальной загрузки.

Исполнение 02

Оркестрация и автоматизация

Разрабатываю и поддерживаю пайплайны данных с использованием Apache Airflow, Spark, dbt и CI/CD. Автоматизирую процессы загрузки и трансформации данных, повышаю стабильность пайплайнов.

Надежность 03

Моделирование и качество данных

Реализую ETL/ELT-процессы и проверки качества данных (валидации, базовое обнаружение аномалий). Улучшаю согласованность и надежность данных для аналитики.

Результат 04

Подготовка данных для BI

Разрабатываю и оптимизирую витрины данных и BI-ready датасеты. Повышаю производительность запросов и упрощаю доступ к данным для бизнес-пользователей.

Технологии

Базовые
технологии

  • Python
  • SQL
  • Jupyter
  • Git
  • Linux

Хранилища и
озера данных

  • Greenplum
  • PostgreSQL
  • ClickHouse
  • Amazon S3
  • Parquet, ORC & Avro

Пайплайны и
аналитика

  • Apache Airflow
  • dbt
  • Apache Spark
  • Apache Superset
  • Data Vault

Платформа и
доставка

  • Docker
  • Terraform
  • Google Cloud
  • CI/CD