В заданной предметной области аналитики логов для OLAP обсуждайте компромисс между нормализацией и денормализацией в схеме базы данных, приведите конкретные примеры структуры таблиц и объясните последствия для скорости запросов и объёма хранения
Предыдущий
вопрос Следующий
вопрос

Question

В заданной предметной области аналитики логов для OLAP обсуждайте компромисс между нормализацией и денормализацией в схеме базы данных, приведите конкретные примеры структуры таблиц и объясните последствия для скорости запросов и объёма хранения
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

В заданной предметно...

eva

21 Ноя в 10:47

2 +1

0

Helper · Answer 1

Коротко — компромисс сводится к выбору между меньшим объёмом хранения и гибкостью (нормализация) и скоростью выполнения аналитических запросов / простотой исполнения (денормализация). Ниже — объяснение с конкретными примерами и численными оценками.
1) Примеры структур
- Нормализованная (реляционная, фактовая таблица + размерности):
- fact_logs:

event_id PK`, `ts TIMESTAMP`, `user_id INT FK`, `endpoint_id INT FK`, `status_id SMALLINT`, `bytes_sent BIGINT`

- dim_user:

user_id PK`, `email VARCHAR`, `tenant_id INT`, …

- dim_endpoint:

endpoint_id PK`, `path VARCHAR`, `service VARCHAR`

- dim_status:

status_id PK`, `code INT`, `desc VARCHAR`

- Денормализованная (широкая строка, все поля вместе):
- events_wide:

event_id PK`, `ts TIMESTAMP`, `user_email VARCHAR`, `tenant_id INT`, `endpoint_path VARCHAR`, `service VARCHAR`, `status INT`, `bytes_sent BIGINT`

2) Последствия для скорости запросов
- При аналитике типовые запросы — агрегации по времени/эндпоинту/статусу. В нормализованной схеме требуется join fact → dim (по целым ключам). Если размеры dimension малы и ключи — целые, joins дешевы, но остаётся I/O: нужно сканировать факт-таблицу.
- В денормализованной схеме joins отсутствуют → меньше CPU на джоины и меньше случайных обращений к страницам, поэтому простые агрегирования обычно быстрее.
- Пример: пусть количество строк в факте за день

N = 10^8

. Оценим объём данных на строку:
- нормализованная: ключи и числа ≈

ts` 8 байт + `user_id` 4 + `endpoint_id` 4 + `status` 2 + `bytes_sent` 8 + накладные 20

≈

≈46\approx 46

байт/строка.
- денормализованная: добавляем строки для email/paths (средняя длина) ≈

‘ e mai l ‘64 + ‘ p a t h ‘64

→ примерно

≈150\approx 150

байт/строка.
- Суммарно: нормализ. объём ≈

\times 46

байт =

4.6

ГБ (для

N=10^8

); денорм. объём ≈

\times 150

байт =

15

ГБ.
- Если дисковая/сетевая пропускная способность

T = 1

ГБ/с, простой полный скан даст время:
- нормализ.:

\frac{4.6\ \text{ГБ}}{1\ \text{ГБ/с}} = 4.6\ \text{с}

- денорм.:

\frac{15\ \text{ГБ}}{1\ \text{ГБ/с}} = 15\ \text{с}

3) Последствия для объёма хранения
- Нормализация уменьшает дублирование полей (строковые значения хранятся в одном месте в dim), поэтому сырой объём основной таблицы меньше.
- Денормализация увеличивает объём, но в колоннарных форматах (Parquet/ORC) повторяющиеся строки хорошо сжимаются: эффективность компрессии для повторяющихся строк может давать фактор сжатия

c

, поэтому эффективный объём денормализации может быть значительно меньше теоретического. Пример: если колонка `endpoint_path` имеет всего

10^3

уникальных значений на

10^8

строк, компрессия/строковое кодирование снизит стоимость хранения этой колонки почти до размера словаря + битных кодов.
- Итого: без учёта сжатия — денормализация ≈

×3\times 3

объёма; с хорошей компрессией — разница может упасть до

×1.2–1.5 \times 1.2\text{–}1.5

.
4) Другие факторы
- Частые вставки/стриминг: нормализованная схема проще поддерживать консистентность при обновлениях dim; денормализация усложняет обновления (нужно менять много строк).
- Индексы/сортировки/партиционирование: нормализованная факт-таблица легче партиционируется по времени и индексируется по целым ключам; в колоннарных хранилищах лучше проектировать широкой денормализацией только если выгоды операций перевешивают стоимость хранения.
- Материализованные представления / предварительные агрегаты: часто лучший компромисс — хранить нормализованную факт-таблицу + набор денормализованных/материализованных таблиц для «горячих» отчётов. Это даёт баланс между экономией места и скоростью запросов.
5) Практические рекомендации
- OLAP для логов: обычно использовать звёздную модель (факт + компактные измерения с суррогатными ключами) — меньше дублирования в факте и быстрые joins по целым ключам.
- Денормализовать (или хранить кеш/материализованные агрегаты) для часто выполняемых сложных запросов/дашбордов.
- Использовать колоннарное хранилище и кодирование словаря для строковых dimension-полей — это снижает стоимость денормализации.
- Измерять: сравнивать реальные байты на диск/скорость скана/латентность для ваших N и распределений cardinality, прежде чем решать.
Короткая формула выбора: если критична скорость ad‑hoc агрегации и джойны создают узкое место → денормализация/предагрегаты; если важны хранение и гибкость при изменениях размеров — нормализация (и материализованные представления для ускорения горячих запросов).

Другие вопросы eva

Другие вопросы
eva