-
Notifications
You must be signed in to change notification settings - Fork 7
exam16 2
Реферат к лекции 16 (32) Технологии хранилищ данных
Выполнил: Лскавян Армен, группа: ИДБ-18-06
Проверил:
Извлечение данных (в ETL)
Начальным этапом процесса является процедура извлечения записи из источников данных и подготовка их к процессу преобразования
При разработке процедуры извлечения данных, в первую очередь необходимо определить частоту выгрузки данных из OLTP-систем или отдельных источников Выгрузка данных занимает определённое время, которое называется окном выгрузки.
Процедуру извлечения данных можно реализовать двумя способами: • извлечение данных с помощью специализированных программных средств; • извлечение данных средствами той системы, в которой они хранятся. После извлечения данные помещаются в так называемую «промежуточную область», где для каждого источника данных создаётся своя таблица или отдельный файл, или и то и другое.
- Распространение мастер-данных предприятия (количество баз данных прикладных систем предприятия может достигать нескольких десятков, но есть данные, единые для всего предприятия. Централизованное их распространение позволяет избежать трудозатрат на повторный ввод данных и их консолидацию в случае построения единых отчетов)
- Обеспечивает качество данных (данные, собираемые учетными системами не всегда удовлетворяют требованиям качества. На уровне хранилища выполняется «очистка» данных, т.е. приведение к нужному виду, дедупликация, унификация)
- Предоставляет консолидированные данные для систем визуализации, таких как системы отчетности и [OLAP-кубы]
- Обеспечивает эффективное хранение данных предприятия
В традиционной архитектуре существует три общих модели хранилищ данных: виртуальное хранилище, витрина данных и корпоративное хранилище данных:
Виртуальное хранилище данных — это набор отдельных баз данных, которые можно использовать совместно, чтобы пользователь мог эффективно получать доступ ко всем данным, как если бы они хранились в одном хранилище данных;
Модель витрины данных используется для отчетности и анализа конкретных бизнес-линий. В этой модели хранилища – агрегированные данные из ряда исходных систем, относящихся к конкретной бизнес-сфере, такой как продажи или финансы;
Модель корпоративного хранилища данных предполагает хранение агрегированных данных, охватывающих всю организацию. Эта модель рассматривает хранилище данных как сердце информационной системы предприятия с интегрированными данными всех бизнес-единиц
Две самых популярных для ХД методологии гибкого проектирования — Anchor model и Data Vault.
-
Data Vault — гибридный подход, объединивший достоинства знакомой многим схемы «звезды» и 3-ей нормальной формы. Впервые эта методология была анонсинована в 2000 году Дэном Линстедтом (Dan Linstedt). Подход был придуман в процессе разработки хранилища данных для Министерства Обороны США и хорошо себя зарекомендовал. Позже, в 2013 году, Дэн анонсировал версию 2.0, доработанную с учетом быстро набравших популярность технологий (NoSQL, Hadoop) и новых требований, выставляемых к DWH. Поговорим мы именно о Data Vault 2.0. Data Vault состоит из трех основных компонентов — Хаб (Hub), Ссылка (Link) и Сателлит (Satellite).
-
Anchor Model - при раскладке данных в хранилище используется классическая якорная модель (Anchor Model). Эта модель позволяет гибко реагировать на изменение уже хранимых или добавление новых данных. Также благодаря ей можно эффективнее сжимать данные и быстрее работать с ними. Для примера, чтобы добавить новый атрибут к имеющейся сущности, достаточно создать еще одну таблицу и сообщить аналитикам о необходимости делать join'ы на нее.
- Проектирование и разработка хранилищ данных DWH. (http://biweb.ru/services/development-data-warehouse-dwh)
- Обзор гибких методологий проектирования DWH. (https://habr.com/ru/company/glowbyte/blog/515940/)
- Основные подходы к архитектуре Хранилищ данных. (http://iso.ru/ru/press-center/journal/2056.phtml)