Skip to content

Roadmap | Как стать Дата Инженером

Курс, Roadmap, агрегатор информации для Data Engineer | Актуально на 2025г. | Версия 2.1


Каналы авторов Roadmap | Подпишись!

Хочешь стать автором? Кликай сюда!


0. Деньги

Размер зарплаты зависит от успешности продажи себя на собесе. Если будешь бояться говорить большие суммы, эти суммы будет называть другой более наглый человек. При этом он будет знать меньше тебя, а зарабатывать больше. С этого момента забудь про справедливость. Её нет.

Зарплатные вилки собраны лично мной на собесах за 2024 год:

Стажер
70k – 90k
Джун
100k – 150k
Джун+
160k – 190k
Мидл
200k – 250k
Мидл+
260k – 380k
Сеньор и выше
от 380k

Учитывайте, что вилки в некоторых компаниях могут быть сильно ниже. Корреляция между размером зарплаты и знаниями не всегда 100%.

Важно! Нет смысла заниматься раз в неделю. Таким темпом вы никогда не дойдете до конца. Лучше тогда потратьте это время на отпуск, семью, друзей. Иначе вы просто спускаете свою жизнь в никуда.


1. Кто такой Дата Инженер?

Чтобы понять, кто такой дата инженер и как им стать, посмотри видео!

Чтобы смотреть Youtube без тормозов, используй нашего бота!

Бот для YOUTUBE Промокод: DE (FREE 2 недели)

de

Кто такой Data Engineer?

Как я попал в DE?

Интервью с Senior/Team Lead DE

Мок-собеседование на junior+ Data Engineer


2. Курсы

Дальше тебе нужно научиться писать базовые запросы на SQL и на Python. В тренажерах внизу проходи так, как там просят. Не спрашивай зачем, тебе понадобятся эти инструменты в будущем!

Пройди эти три курса SQL и Python

Курс Продолжительность
SQL с нуля до оконок ≈ 1-2 месяца
Python с нуля до базы ≈ 1-2 месяца
Продвинутый уровень Python (вложенность, словари, функции) ≈ 1-2 месяца

Если задача не получается и ты сидишь с ней уже больше часа, пропускай и переходи к следующей. Потом вернешься и дорешаешь, если будет желание. Не гонись за 100%. Это никто не оценит.


3. Github / Git

git

Регистрируешься на Github и подключаешь его к своему ПК

Работа с github / git

Теоритические аспекты на картинках при работе с github / git

Видео по работе с github / git на примере Bootcamp'а


4. Linux / Terminal

linux

Пробуешь привыкнуть и запомнить работу с этими командами в терминале

Работа с Linux / Terminal


4. Data Warehouse

dwh

Нужно понимать, что такое хранилище данных, какие они бывают, чем отличаются и, как в целом можно грузить данные. Обязательно читай теорию!

Теория по Data Warehouse


5. Нормальные формы

nf

Важная тема про нормализацию таблиц. Всегда спрашивают на собесах. За это надо шарить.

Нормальные формы


6. Модели данных

nf

Для собесов и в будущем на работе вам надо шарить за модели данных. Читаем и обязательно изучаем SCD по ссылке ниже!

Модели данных


nf

Не факт, что на первой работе вы будете сразу строить Data Vault. Это вообще настолько не факт, что может остаться у вас в теории еще на год вперед. Но на собесах спросить могут. Более того, вам могут дать тестовое на то, чтобы построить простенькую модельку на базе Data Vault. Грубо говоря – это все про то, как связать таблицы между собой...

Что такое Data Vault

Конспект Data Vault


8. Индексы и партиции

nf

Очень важная тема при работе в классическом DWH с реляционными СУБД. По данной теме любят погонять на собеседованиях.

Теория по индексам и партициям


9. Docker

nf

Теория по Docker


10. Hadoop

hdfs

На многих проектах в качестве хранилища используют HDFS (Hadoop) и инструменты экосистемы hadoop. Также по нему часто спрашивают на собеседованиях:

Теория по Hadoop

Теория по Экосистеме

Смотри видео здесь ➜ HDFS | Что это такое и как оно работает? [Hadoop HDFS]

Презентация из видео ➜ HDFS


11. Airflow

hdfs

Изучать только после осовения Python, SQL, Docker, командной строки Linux. В целом оркестратор Airflow – частый инструмент среди компаний, поэтому он уже классика и шарить за него нужно.

Теория по Airflow


12. Greenplum

Greenplum будет в 50% вакансиях на DE. Остальные будут сидеть на Hadoop + Spark. На первых порах рекомендую базово освоить все три, но окунуться поглубже лишь в один на выбор (Spark | Greenplum). Если хватит сил на освоение обоих, флаг вам в руки!

🧩 Уровень: Junior

Теория по Greenplum

Простое видео о Greenplum

Презентация из видео ➜ Greenplum

🚀 Уровень: Junior+ и выше

Простая оптимизация запросов

Реальный кейс оптимизации запроса(видео)

Кейсы и правила хорошего тона при оптимизации запросов

Полезные utils запросы для работы

🧠 Курсы для более глубого погружения

Бесплатный курс от Яндекс.Практикум


13. ClickHouse

ClickHouse будет в 80% вакансиях для постоения витрин данных. В последнее время стала набирать популярность связка GreenPlum + ClickHouse. Не стоит в теорию погружаться с головой и читать всю документацию, а стоит прочитать только то, что описано в статье + ссылки на другие источники.

Обязательно данный инструмент добавляем в свой пет-проект.

Теория по ClickHouse

Краткий обзор движком с практическими примерами

Видео о ClickHouse от разработчика

Docker compose кластера


14. Spark

spark

Spark изучайте только после того, как научились базово кодить на Python и SQL. Без них будет очень сложно и непонятно.

🧩 Уровень: Junior

Основы работы с Spark, понимание базовых концепций.

🚀 Уровень: Junior+ и выше

Более глубокое понимание Spark, оптимизация и продвинутые техники.


15. dbt (data build tool)

Про dbt вы часто можете слышать у модных и продвинутых команд. К этому инструменту подходить уже после изучения Airflow.

Теория по dbt

Видео от Дмитрия Аношина по dbt


16. Apache Kafka

Для джунов про Кафку можно знать только общие факты. В DE её используют для процессинга данных в реальном времени. На собесах вы можете лишь рассказать теорию из видоса ниже и в целои на этом все. Далеко не во всех компаниях и командах её используют, поэтому пока достаточно просто посмотреть видос.

Видео по Kafka

Для мидлов знания по ней частенько спрашивают ➜ Теория по КАФКЕ


17. Pet Project

pet_project

Все пет проекты – это на самом деле маленькие копии реальных задач. Поэтому чем глубже вы разберетесь в инструментах, тем легче и свободнее вам будет на собесе и на работе. О пет проекте вы можете рассказывать, что он был развернут у вас на предыдущем месте работы. По факту, может вы этого и не делали, но крайне рекомендую именно адаптировать хотя бы часть каких-то задач. Вам точно должно повезти! Ниже ссылка на примеры проектов:

Pet Projects

Будет круто, если ты напишешь свой собственный проект и запушишь его к себе на github. Это сильно поможет уложить в голове многие концепции при работы с данными


18. Теоретические вопросы c собеседований

nf

Вопросы по SQL

Типичные вопросы с собесов на все темы

Telegram Bot для подготовки к собесам


19. Резюме и Работа

Все врут. Все приукрашивают. Это сделка двух сторон. Ваша задача продать себя подороже. Задача компании купить вас подешевле, да и выбрать по способнее. По ссылке ниже читаем ЧИТ КОДЫ по поиску работы, зарплатным ожиданиям и оформлению резюме.

Как составить резюме?

Как найти работу?


20. Рабочие кейсы

Вот где там могут быть проблемы? Просто перекладываем таблички.. А нет. Проблем и ошибок на самом деле больше, чем вы думаете. И хорошо, если бы задачи решались оним универскальным скриптом, но так не происходит. Ниже примеры встречающихся кейсов на работе:

Реальные задачи на работе


21. Полезные ссылки

Почитать про Data Engineer - Канал Я – Дата Инженер - Все, о чем не говорят вслух про Data Engineer - Канал Инженерообязанный | Из военки в IT - Канал rzv Data Engineering

Найти работу - Сайт агрегатор для Data Engineer - Найти работу для DE Канал 1 - Найти работу для DE Канал 2 - Найти работу для DE Канал 3 - Найти работу для DE Канал 4 - Найти работу для DE Канал 5

Посмотреть про Data Engineer