Skip to content

Data Lake

Озеро данных (Data Lake) – это хранилище большого объема неструктурированных данных, собранных или генерированных одной компанией. В таком подходе в озеро данных поступают все данные, которые собирает компания, без предварительной очистки и подготовки.

Примеры данных: - Видеозаписи с беспилотников и камер наружного наблюдения. - Транспортная телеметрия. - Фотографии. - Логи пользовательского поведения. - Метрики сайтов. - Показатели нагрузки информационных систем и пр.

Эти данные пока непригодны для типового использования в ежедневной аналитике в рамках BI-систем, но могут быть использованы для быстрой отработки новых бизнес-гипотез с помощью ML-алгоритмов.

Основные особенности использования подхода:

  • Хранятся все данные, включая «бесполезные», которые могут пригодиться в будущем или не понадобиться никогда.
  • Структурированные, полуструктурированные и неструктурированные разнородные данные различных форматов: от мультимедийных файлов до текстовых и бинарных из разных источников.
  • Высокая гибкость, позволяющая добавлять новые типы и структуры данных в процессе эксплуатации.
  • Из-за отсутствия четкой структуры необходима дополнительная обработка данных для их практического использования.
  • Озеро данных дешевле DWH с точки зрения проектирования.

Преимущества озера данных:

  • Масштабируемость: распределенная файловая система позволяет подключать новые машины или узлы без изменения структуры хранилища.
  • Экономичность: Data Lake можно построить на базе свободного ПО Apache Hadoop, без дорогих лицензий и серверов.
  • Универсальность: большие объемы разнородных данных могут использоваться для различных исследовательских задач (например, прогнозирование спроса или выявление пользовательских предпочтений).
  • Быстрота запуска: накопленные объемы Data Lake позволяют быстро проверять новые модели, не тратя время на сбор информации из различных источников.

Болото данных

У подхода Data Lake есть обратная сторона - болото данных, когда данные собираются, хранятся и не используются.

Причины этого: 1. Низкое качество данных из-за отсутствия контроля при загрузке и дешевого хранения информации. 2. Сложность определения ценности данных: философия Big Data предполагает важность любой информации, но если бизнесу нужны данные, эта информация логично загружается сразу в DWH или витрину BI-системы.