Việc xây dựng liên hệ giữa các bảng fact và dim là hoạt động cốt yếu trong xây dựng mô hình đa chiều nhà kho dữ liệu doanh nghiệp để hỗ trợ quá trình ra quyết định. Có 2 cách tiếp cận đối nghịch nhau:
- Top-down: Xây dựng toàn bộ DW doanh nghiệp từ quan điểm tập trung, theo kế hoạch.
- Bottom-up: Xây dựng từng giải pháp nhỏ cho các đơn vị kinh doanh cụ thể.
Phương pháp Bottom-up sẽ nhanh chóng đưa ra kết quả, nhưng cũng sẽ nhanh chóng phát sinh những vấn đề do các giải pháp đơn lẻ không tích hợp không đáp ứng được các mục tiêu tổng thể của doanh nghiệp.
Phương pháp Top-down sẽ tốn nhiều thời gian/nỗ lực hơn. Tuy nhiên, cách tiếp cận này hỗ trợ quản lý dữ liệu tổng thể trên toàn tổ chức (Master Data Management – MDM) và cung cấp một framework nhất quán cho phân tích kinh doanh.
Việc lựa chọn cách tiếp cận thiết kế DW theo hướng top-down hay bottom-up bắt đầu bằng việc xây dựng kiến trúc mạch nối nhà kho dữ liệu doanh nghiệp Data Warehouse Bus Architecture. DW Bus Archictecture cung cấp một cách tiếp cận/phương thức tăng cường incremental để xây dựng hệ thống DW/BI, thiết kế kế hoạch thành các phần có thể quản lý, mỗi phần tập trung vào các tiến trình nghiệp vụ. Kết quả là các thành phần của DW sẽ được tích hợp thông qua các dimension thích hợp dùng chung, được chuẩn hoá và sử dụng trong nhiều tiến trình.
Data Warehouse Bus Architecture là gì?
Cấu trúc mạch nối (Bus Architecture) là tập các bảng fact và dimension và mối liên kết giữa chúng (theo các tiến trình nghiệp vụ), xây dựng nên các chợ dữ liệu (Data Mart).
Bảng chiều dimension là bảng tra cứu “lookup” trong mô hình dữ liệu đa chiều, chứa dữ liệu văn bản để xác định các định danh identifer trong các bảng sự kiện fact. Dimension xác định WHO, WHAT, WHERE, WHY, HOW của trạng thái của sự kiện được ghi lại trong fact. Dimension được định nghĩa và triển khai một lần, từ đó sử dụng xuyên suốt trong các nghiệp vụ kinh doanh.
Xây dựng DW Bus Architecture như thế nào?
Xây dựng kiến trúc nhà kho dữ liệu doanh nghiệp là kết quả của quá trình thu thập yêu cầu. Ma trận được định nghĩa như sau:
- Mỗi hàng row đại diện cho một qui trình nghiệp vụ
- Mỗi cột column tương ứng một chiều của nghiệp vụ.
Ma trận kết quả thể hiện một bức tranh lớn (không tính đến các yếu tố liên quan đến công nghệ), cho phép xác dịnh và quản lý quá trình phát phát triển một cách dễ dàng. Kimball sử dụng khái niệm bus matrix cung cấp một khuôn khổ framework và một kế hoạch tổng thể để phát triển nhanh theo mô hình Agile, xác định các dimensions chung có thể sử dụng lại, đem lại sự thống nhất về mặt dữ liệu và giảm thời gian delivery.
Mục tiêu của việc xây dựng bus matrix là phải có được tổng quan toàn cảnh và chính xác các tiến trình trong toàn bộ tổ chức. Trong mô hình đa chiều, mỗi tiến trình được mô hình hoá và môt tả thông qua bảng fact và các bảng dimension liên quan.
Lợi ích của Data Warehouse Bus Architecture
1. Nhất quán (Consitency)
Theo định nghĩa, các chiều sẽ luôn thích hợp ở mọi nơi mà nó được sử dụng.
2. Hiệu quả (Efficiency)
Các chiều liên qua ít thay đổi/bảo tri (less maintenence) như time, geography,… không cần phải đồng bộ các thay đổi nhiều lần tới các bảng chiều.
3. Dễ sử dụng (Ease of use)
Một khi chúng ta đã quen các chiều (cấu trúc, thứ nó đại diện, nội dung), chúng ta sẽ không tốn nhiề công sức để viết code.
4. Dễ mở rộng (Expandability)
Mỗi chiều giúp giải mã các sự kiện mà nó liên quan được ghi lại trong fact trong nhà kho dữ liệu doanh nghiệp. Khi một nghiệp vụ kinh doanh phát sinh, một/nhiều bảng fact được thêm vào DW, việc liên kết bảng fact và các chiều để tạo ra một khối dữ liệu data cube mới một cách đơn giản giúp mở rộng khả năng báo cáo của DW.
5. Tiêu chuẩn hoá (Standardize)
Một khi mọi người trong tổ chức thống nhất về kiến trúc, ý nghĩa, nội dung dữ liệu trong các chiều, phần còn lại chỉ là sử dụng thiết kế. Thông qua việc sử dụng thường xuyên các bảng chiều thích hợp, chúng ta đã thực hiện việc tiêu chuẩn hoá.
6. Tăng cường báo cáo (Reporting enhancement)
Khi xây dựng báo cáo dựa trên nhà kho dữ liệu được xây dựng theo DW Bus Architecture, chúng ta dễ dàng truy cập các số liệu về tình hình hoạt động của doanh nghiệp (dữ liệu sản xuât, tồn kho, phân phối, bán hàng,…)
Bài viết tham khảo: