Хранилища данных: основные архитектуры и принципы
построения в реляционных СУБД
Аннотация к статье
В основе концепции хранилища данных лежат две
основные идеи - интеграция разъединенных детализированных данных
(детализированных в том смысле, что они описывают некоторые
конкретные факты, свойства, события и т.д.) в едином хранилище
и разделение наборов данных и приложений, используемых для оперативной
обработки и применяемых для решения задач анализа. Определение
понятия «хранилище данных» первым дал Уильям Г. Инмон
в своей монографии.
В начале восьмидесятых годов прошлого века, в
период бурного развития регистрирующих информационных систем,
возникло понимание ограниченности возможности их применения
для целей анализа данных и построения на их основе систем поддержки
и принятия решений. Регистрирующие системы создавались для автоматизации
рутинных операций по ведению бизнеса выписка счетов,
оформление договоров, проверка состояния склада и т.д., и основными
пользователями таких систем был линейный персонал. Основными
требованиями к таким системам были обеспечение транзакционности
вносимых изменений и максимизация скорости их выполнения. Именно
эти требования определили выбор реляционных СУБД и модели представления
данных «сущность-связь» в качестве основных используемых
технических решений при построении регистрирующих систем.
Для менеджеров и аналитиков в свою очередь требовались
системы, которые бы позволяли:
 |
Анализировать информацию во временном аспекте;
|
 |
Формировать произвольные запросы к системе;
|
 |
Обрабатывать большие объемы данных;
|
 |
Интегрировать данные из различных регистрирующих
систем.
|
Очевидно, что регистрирующие системы не удовлетворяли ни одному
из вышеуказанных требований. В регистрирующей системе информация
актуальна только на момент обращения к базе данных, в следующий
момент времени по тому же запросу Вы можете получить совершенно
другой результат. Интерфейс регистрирующих систем рассчитан
на проведение жестко определенных операций и возможности получения
результатов на нерегламентированный (ad-hoc) запрос сильно ограничены.
Возможность обработки больших массивов данных также мала из-за
настройки СУБД на выполнение коротких транзакций и неизбежного
замедления работы остальных пользователей.
Ответом на возникшую потребность стало появление новой технологии
организации баз данных технологии хранилищ данных).
В статье описаны основные архитектуры хранилищ
данных: виртуальное хранилище, двухуровневая, трехуровневая;
рассмотрены некоторые общие принципы их построения; затронут
вопрос работы с медленно меняющимися размерностями.
Подробно описаны способы представления иерархий
в реляционной структуре данных, в том числе методы, предложенные
Джо Селко (Joe Celko) и Ральфом Кимбаллом (Ralph Kimball).
Автор: Александр
Стулов
Ведущий специалист BI Partner
Статья
целиком
|