Skip to content

Pet Project

Содержание страницы

Проекты

Проект №0 - Sandbox DB

Песочница для Дата ИнженераSandbox DB


Проект №1 - HalltapeETLPipeline

Важно! Этот проект был таким не сразу. Первые его версии содержали только Airflow, Clickhouse и Pandas под капотом. Поэтому не думайте, что я сразу был суперменом. Все добавлялось и допиливалось уже позже. Но база была та же.

Любой пет проект ты можешь собрать, как с нуля, так и взять готовый шаблон по типу моего. В проекте ниже есть минимальный набор необходимых инструментов. Твоя задача – настроить ETL процесс. Данные можно, как сгенерировать свои, так и скачать по API или с любого другого ресурса. Ограничение только твоя фантазия. Этот проект больше, как шаблон. То, как выстроить весь процесс работы с данными – твоя задача.

Вот, что там уже есть: - Генерация синтетических данных - Построение простой витрины данных на Spark - Мониторинг качества данных - dbt модель для витрины данных в Clickhouse - dbt модель для качества данных в Clickhouse

Для сборки проекта тебе понадобятся знания Git, Docker

Собери его у себяPet Project HalltapeETLPipeline


Проект №2 - spacex-api-analize

По всем вопросам по данному проекту можно обращаться к Шустикову Владимиру в телеграмм канале – Инженерообязанный

Задачами проекта является настройка ETL-процесса по загрузке данных из API в базу данных, настройка сетей и логической репликации данных, автоматизация создания аналитических запросов поверх сырых данных и визуальное представление результатов на дашборде.

Здесь вы можете получить следующие знания:

  • Выгрузка данных из API на AirFlow
  • Работа с ООП
  • Настройка сетей, а именно IP-адресации
  • Логическая репликация в PostgreSQL
  • Работа с внешними источниками в Clickhouse на основе движка PostgreSQL
  • Построение моделей, тестов и макросов в DBT

Для сборки проекта тебе понадобятся знания Git, Docker

Собери его у себяОбработка данных SpaceX AP


Проект №3 - Create mart in PySpark

По всем вопросам по данному проекту можно обращаться к Шустикову Владимиру в телеграмм канале – Инженерообязанный

Задачей данного проекта была сгенерировать сырые данные и на их основе построить несколько витрин данных. Более подробно с заданием проекта можно ознакомиться здесь.

В этом проекты вы можете получить следующие знания:

  • программирования на Python
  • работа с Google Disk через код
  • написание кода на PySpark

Собери его у себя

Проект состоит из двух блокнотов:

1) генерация файлов в Google Disk 2) создание витрин данных

Для сборки проекта тебе понадобятся стабильный интернет и Google аккаунт. Вся инструкция по запуску описана в блокнотах.


Проект №4 - От почтового сервера до Greenplum

По всем вопросам по данному проекту можно обращаться к Кузьмину Дмитрию в телеграмм канале – Дмитрий Кузьмин. Инженерия данных

Открытые API для проектов

  • Launch Library 2 - Запуски ракет, космические события и космические полеты с экипажем.
  • SpaceX API - Информация о компании SpaceX.
  • Wikimedia - Дампы данных о посмотрах страниц в Википедии в текстовом виде.