-
Notifications
You must be signed in to change notification settings - Fork 7
exam16 2
Реферат к лекции 16 (32). Технологии хранилищ данных.
ИДБ-19-**
Выполнил: Рыкалов Андрей ИДБ-19-06
Проверил: Утенкова Елена ИДБ-19-06
Извлечение, очистка и обогащение данных всё это обработка данных. Технология обработки данных – это информационная технология, направленная на процесс стандартизации, очистки и обогащения информации, что позволяет ее представлять и хранить в наиболее оптимальном виде.
Извлечение данных - совокупность действий/процессов/алгоритмов выборки данных из плохо структурированных или неструктурированны источников данных (электронные носители и техника, различные базы данных (веб-страниц, почтовых сервисов и т.п.)) для дальнейшего анализа или структурированного хранения.
При извлечении данных происходит добавление структуры к неструктурированным данным, и данная структура может принимать следующие формы:
- Использование сопоставления текстовых шаблонов, таких как регулярные выражения, для идентификации мелкомасштабной или крупномасштабной структуры.
- Использование табличного подхода для определения общих разделов в ограниченной области.
- Использование текстовой аналитики для попытки понять текст и связать его с другой информацией.
ИДБ-18-**
Выполнил: Сидоров Михаил ИДБ-18-05
Проверил: Гулан Адриан ИДБ-18-08
Извлечение данных - совокупность алгоритмов и компьютерных методов обработки информации, используемых для выборки данных из специальных хранилищ или баз знаний. Часто включает в себя процедуры анализа данных. В отличие от процедуры поиска термин “извлечение данных” характеризует применение сложных алгоритмов сопоставления и оценки данных.
Процесс извлечения данных из источников данных должен обеспечивать следующие важные возможности:
- возможность планировать извлечения по времени, интервалу или событию;
- набор правил для выбора данных из источника;
- возможность выбирать и объединять записи из нескольких источников.
Ряд коммерческих инструментов, таких как Informatica и Data Integrator, предоставляют большую часть этих функций извлечения.
Очистка данных - процесс обнаружения, удаления и/или исправления грязных данных. (Данные, которые являются неправильными, устаревшими, избыточными, несогласованными, неполными или неправильно отформатированными). Очистка данных направлена не только на очистку данных, но и на обеспечение согласованности различных наборов данных, которые были объединены из отдельных баз данных. Доступны сложные программные приложения для очистки данных с использованием определенных функций, правил и справочных таблиц. Раньше эта задача выполнялась вручную и поэтому допускала человеческую ошибку.
Частотный анализ - метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности данных.
Контрольные числа - в основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности номеров банковских карт, ИНН, СНИЛС, ОКПО, ОКАТО и т.д.
Схожесть строк - анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности.
Дедубликация - основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов.
Формализованные правила - накладывание заранее определенных правил очистки на контролируемые поля.
Способы замены - индексирование слов по их звучанию, кодирование.
Проверка по статистическим значениям - по доверительному интервалу, средним значениям.
Кластерный анализ - проверка написания значения с учетом попадания его в кластер.
Обогащение данных (улучшение данных) - процесс использования дополнительной информации из внутренних или внешних источников данных для улучшения качества входных данных, которые были неполными, неспецифическими или устаревшими. Пополнение почтовых адресов, геокодирование и добавление демографических данных являются типичными процедурами обогащения данных.
Интеграция с источниками - осуществляется сбор информации из различных внутренних и внешних источников: CRM-системы, БКИ, социальные сети, статистические службы.
Анализ связей - исследует взаимосвязанные объекты и определяет закономерности между ними.
Поиск близких объектов - основывается на «схожести» значений признаков объектов.
Реорганизация самих данных - введение кодировок, признаков состояний объектов, подразделение их на категории.
Нечеткий поиск - восстановление пропусков с помощью нечетких запросов.
Анализ источников данных - рейтингование источников данных по достоверности.