Blog

Quy trình phân phối Data Warehouse – Kiến thức cơ bản

Bây giờ chúng ta thảo luận về quá trình phân phối của Data Warehouse. Các bước chính được sử dụng trong quy trình phân phối Data Warehouse như sau:

IT Strategy: Dự án Data Warehouse phải có chiến lược CNTT để mua sắm và duy trì tài trợ.

Business Case Analysis: Sau khi chiến lược CNTT đã được thiết kế, bước tiếp theo là tình huống kinh doanh. Điều cần thiết là phải hiểu mức đầu tư có thể hợp lý và nhận ra các lợi ích kinh doanh dự kiến ​​thu được từ việc sử dụng Data Warehouse.

Education & Prototyping: Công ty sẽ thử nghiệm các ý tưởng phân tích dữ liệu và tự đào tạo về giá trị của Data Warehouse. Điều này có giá trị và cần được yêu cầu nếu đây là công ty lần đầu tiên tiếp xúc với những lợi ích của hồ sơ DS. Phương pháp tạo mẫu có thể thúc đẩy sự phát triển của giáo dục. Nó tốt hơn các mô hình làm việc. Việc tạo mẫu đòi hỏi yêu cầu kinh doanh, bản thiết kế kỹ thuật và cấu trúc.

Business Requirement: Nó chứa chẳng hạn như

Mô hình logic cho dữ liệu trong Data Warehouse.

Hệ thống nguồn cung cấp dữ liệu này (quy tắc ánh xạ)

Các quy tắc kinh doanh được áp dụng cho thông tin.

Các cấu hình truy vấn cho yêu cầu tức thì

Technical blueprint: Nó sắp xếp kiến ​​trúc của nhà kho. Bản thiết kế kỹ thuật của quá trình giao hàng đưa ra một kế hoạch kiến ​​trúc đáp ứng các yêu cầu lâu dài. Nó đặt máy chủ và kiến ​​trúc Data Warehouse và các thành phần thiết yếu của thiết kế cơ sở dữ liệu.

Building the vision: Đây là giai đoạn mà sản phẩm đầu tiên có thể phân phối được sản xuất. Giai đoạn này có thể sẽ tạo ra các yếu tố cơ sở hạ tầng quan trọng để trích xuất và tải thông tin nhưng giới hạn chúng ở việc trích xuất và tải các nguồn thông tin.

History Load: Bước tiếp theo là bước tải phần còn lại của lịch sử bắt buộc vào Data Warehouse. Điều này có nghĩa là các thực thể mới sẽ không được thêm vào Data Warehouse, nhưng các bảng vật lý bổ sung có thể sẽ được tạo để tiết kiệm khối lượng bản ghi tăng lên.

AD-Hoc Query: Trong bước này, chúng tôi định cấu hình một công cụ truy vấn đặc biệt để hoạt động dựa trên Data Warehouse.

Các công cụ truy cập khách hàng cuối này có khả năng tự động tạo truy vấn cơ sở dữ liệu trả lời bất kỳ câu hỏi nào do người dùng đặt ra.

Automation: Giai đoạn tự động hóa là nơi nhiều quy trình quản lý hoạt động được tự động hóa hoàn toàn trong DWH. Chúng sẽ bao gồm:

  • Trích xuất và tải dữ liệu từ nhiều hệ thống nguồn khác nhau
  • Chuyển thông tin thành một dạng phù hợp để phân tích
  • Sao lưu, khôi phục và lưu trữ dữ liệu
  • Tạo tổng hợp từ các định nghĩa được xác định trước trong Data Warehouse.
  • Giám sát hồ sơ truy vấn & xác định tổng hợp thích hợp để duy trì hiệu suất hệ thống.

Extending Scope: Trong giai đoạn này, phạm vi của DWH được mở rộng để giải quyết một loạt các yêu cầu kinh doanh mới. Điều này liên quan đến việc tải các nguồn dữ liệu bổ sung vào DWH, tức là giới thiệu các siêu thị dữ liệu mới.

Requirement Evolution: Đây là bước cuối cùng của quá trình cung cấp Data Warehouse. Như chúng ta đều biết rằng các yêu cầu không tĩnh và phát triển liên tục. Khi các yêu cầu kinh doanh sẽ thay đổi, nó hỗ trợ được phản ánh trong hệ thống.

Hệ thống phân cấp khái niệm

Hệ thống phân cấp khái niệm là biểu đồ tuần hoàn có hướng của các ý tưởng, trong đó một tên duy nhất xác định từng lý thuyết.

Một cung từ khái niệm a đến b biểu thị khái niệm nào tổng quát hơn khái niệm b. Chúng tôi có thể gắn thẻ văn bản với các ý tưởng.

Mỗi báo cáo văn bản được gắn thẻ bởi một tập hợp các khái niệm tương ứng với nội dung của nó.

Việc gắn thẻ báo cáo với một khái niệm hoàn toàn đồng nghĩa với việc gắn thẻ báo cáo đó với tất cả các tổ tiên của hệ thống phân cấp khái niệm. Do đó, chúng tôi mong muốn rằng một báo cáo nên được gắn thẻ với khái niệm thấp nhất có thể.

Phương pháp tự động gắn thẻ báo cáo vào hệ thống phân cấp là cách tiếp cận từ trên xuống. Một chức năng đánh giá xác định liệu một bản ghi hiện được gắn thẻ cho một nút cũng có thể được gắn thẻ cho bất kỳ nút con nào của nó hay không.

Nếu đúng như vậy, thì thẻ sẽ di chuyển xuống hệ thống phân cấp cho đến khi nó không thể được đẩy thêm nữa.

Kết quả của bước này là một hệ thống phân cấp của báo cáo và tại mỗi nút, có một nhóm báo cáo có khái niệm chung liên quan đến nút.

Hệ thống phân cấp của các báo cáo thu được từ bước gắn thẻ rất hữu ích cho nhiều quá trình khai thác văn bản.

Người ta cho rằng thứ bậc của các khái niệm được gọi là tiên nghiệm. Chúng tôi thậm chí có thể có một hệ thống phân cấp tài liệu như vậy mà không cần phân cấp khái niệm, bằng cách sử dụng bất kỳ thuật toán phân cụm phân cấp nào, dẫn đến một hệ thống phân cấp như vậy.

Hệ thống phân cấp khái niệm xác định một trình tự ánh xạ từ một tập hợp các khái niệm cấp thấp, cụ thể đến các khái niệm tổng quát hơn, cấp cao hơn.

Trong Data Warehouse, nó thường được sử dụng để thể hiện các mức độ chi tiết khác nhau của một thuộc tính từ một trong các bảng thứ nguyên.

Phân cấp khái niệm rất quan trọng đối với việc hình thành các truy vấn OLAP hữu ích. Hệ thống phân cấp cho phép người dùng tóm tắt

e dữ liệu ở các cấp độ khác nhau.

Ví dụ: bằng cách sử dụng phân cấp vị trí, người dùng có thể truy xuất dữ liệu tóm tắt doanh số bán hàng cho từng vị trí, cho tất cả các khu vực trong một trạng thái nhất định hoặc thậm chí một quốc gia nhất định mà không cần tổ chức lại dữ liệu.

Nguồn: Internet
Chúng tôi chuyên cung cấp những khoá học về Phân tích dữ liệu, đăng ký ngay để nhận được tư vấn chi tiết lộ trình dành riêng cho bạn nhé!

    LIÊN HỆ VỚI CHÚNG TÔI ĐỂ NHẬN ĐƯỢC TƯ VẤN MIỄN PHÍ
    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:






    Leave a Reply

    Your email address will not be published. Required fields are marked *