Skip to content
modernClown edited this page Feb 15, 2022 · 31 revisions

Понятия и методы извлечения, очистки и обогащения данных.

Реферат к лекции 16 (32) Технологии хранилищ данных

Выполнил: Лскавян Армен, группа: ИДБ-18-06

Проверил:


Понятие "Извлечение данных"

Извлечение данных (в ETL)

Начальным этапом процесса является процедура извлечения записи из источников данных и подготовка их к процессу преобразования

При разработке процедуры извлечения данных, в первую очередь необходимо определить частоту выгрузки данных из OLTP-систем или отдельных источников Выгрузка данных занимает определённое время, которое называется окном выгрузки.

Процедуру извлечения данных можно реализовать двумя способами: • извлечение данных с помощью специализированных программных средств; • извлечение данных средствами той системы, в которой они хранятся. После извлечения данные помещаются в так называемую «промежуточную область», где для каждого источника данных создаётся своя таблица или отдельный файл, или и то и другое.


Какие задачи решает хранилище:

  • Распространение мастер-данных предприятия (количество баз данных прикладных систем предприятия может достигать нескольких десятков, но есть данные, единые для всего предприятия. Централизованное их распространение позволяет избежать трудозатрат на повторный ввод данных и их консолидацию в случае построения единых отчетов)
  • Обеспечивает качество данных (данные, собираемые учетными системами не всегда удовлетворяют требованиям качества. На уровне хранилища выполняется «очистка» данных, т.е. приведение к нужному виду, дедупликация, унификация)
  • Предоставляет консолидированные данные для систем визуализации, таких как системы отчетности и [OLAP-кубы]
  • Обеспечивает эффективное хранение данных предприятия

Концептуальная схема хранилища данных DWH:


Модели хранилищ данных

В традиционной архитектуре существует три общих модели хранилищ данных: виртуальное хранилище, витрина данных и корпоративное хранилище данных:

Виртуальное хранилище данных — это набор отдельных баз данных, которые можно использовать совместно, чтобы пользователь мог эффективно получать доступ ко всем данным, как если бы они хранились в одном хранилище данных;

Модель витрины данных используется для отчетности и анализа конкретных бизнес-линий. В этой модели хранилища – агрегированные данные из ряда исходных систем, относящихся к конкретной бизнес-сфере, такой как продажи или финансы;

Модель корпоративного хранилища данных предполагает хранение агрегированных данных, охватывающих всю организацию. Эта модель рассматривает хранилище данных как сердце информационной системы предприятия с интегрированными данными всех бизнес-единиц


Модели Datawarehouse

Две самых популярных для ХД методологии гибкого проектирования — Anchor model и Data Vault.

  • Data Vault — гибридный подход, объединивший достоинства знакомой многим схемы «звезды» и 3-ей нормальной формы. Впервые эта методология была анонсинована в 2000 году Дэном Линстедтом (Dan Linstedt). Подход был придуман в процессе разработки хранилища данных для Министерства Обороны США и хорошо себя зарекомендовал. Позже, в 2013 году, Дэн анонсировал версию 2.0, доработанную с учетом быстро набравших популярность технологий (NoSQL, Hadoop) и новых требований, выставляемых к DWH. Поговорим мы именно о Data Vault 2.0. Data Vault состоит из трех основных компонентов — Хаб (Hub), Ссылка (Link) и Сателлит (Satellite).

  • Anchor Model - при раскладке данных в хранилище используется классическая якорная модель (Anchor Model). Эта модель позволяет гибко реагировать на изменение уже хранимых или добавление новых данных. Также благодаря ей можно эффективнее сжимать данные и быстрее работать с ними. Для примера, чтобы добавить новый атрибут к имеющейся сущности, достаточно создать еще одну таблицу и сообщить аналитикам о необходимости делать join'ы на нее.


Источники

  1. Проектирование и разработка хранилищ данных DWH. (http://biweb.ru/services/development-data-warehouse-dwh)
  2. Обзор гибких методологий проектирования DWH. (https://habr.com/ru/company/glowbyte/blog/515940/)
  3. Основные подходы к архитектуре Хранилищ данных. (http://iso.ru/ru/press-center/journal/2056.phtml)
Clone this wiki locally