5. Теория проектирования хранилищ данных. Основные принципы построения. ETL и ELT процессы

Храни́лище да́нных (англ. Data Warehouse) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации.

Любая передача внутри хранилищ данных — ETL (аббревиатура от Extract, Transform, Load).

Способы хранения данных

Пространственная модель хранения данных

В основу такой модели закладывается четкое разделение данных на измерения (Dimension) и факты (Fact).

Факт — строка в таблице, которая является точечным событием (нет продолжительности)

Факт (fact) — это набор связанных элементов данных, содержащих метрики и описательные данные. Каждый фактобычно представляет элемент данных, численно описывающий деятельность организации, бизнес-операцию или событие, которое может быть использовано для анализа деятельности организации или бизнес-процессов. В ХД факты сохраняются в базовых таблицах реляционной БД. Например, стоимость товара, количество единиц товара и т.д.

Факт — транзакционное событие → у него есть много измерений

Измерение (dimension) — это интерпретация факта с некоторой точки зрения в реальном мире. Измерения, подобно атрибутам, содержат текстовые значения, которые сильно связаны по смыслу между собой.

Измерения задаются перечислением своих элементов (members). Элемент измерения (dimensional member) — уникальное имя или идентификатор (лингвистическая переменная), используемая для определения позиции элемента. Например, измерение " Время " может содержать следующие элементы: "все месяцы", "кварталы", "годы".

Измерение — мера события (справочник) → могут иметь под собой точечные события

Три типа модели данных:

  1. Схема «Звезда» — есть измерения и таблица фактов (отдельные факты размещаются в колонках). В центре таблица фактов, остальные таблицы измерений.

Untitled

  1. Схема «Снежинка» — есть измерения (некоторые измерения состоят из нескольких таблиц для отображения различных взаимосвязей, в том числе иерархии) и таблица фактов (отдельные факты размещаются в колонках). Продажи бакалеи - таблица фактов, остальное таблица измерений.

Untitled

  1. Схема «Многомерный куб» или OLAP-куб — есть измерения и факты (факты переведенены из колонок в строки). Иногда данная модель удобней для тех или иных приложений. Факт - желтый кубик, измерения - оси куба

Untitled

На данный момент для разработки хранилища данных используются 2 известных архитектурных стиля: архитектура Inmon и архитектура Kimball. Ральф Кимбалл и Билл Инмон предлагают разные подходы к проектированию. Основным различием является способ моделирования структуры данных, их загрузки и хранения.