Blog

Data Cube là gì?

Khi dữ liệu được nhóm hoặc kết hợp trong ma trận nhiều chiều được gọi là Data Cubes. Phương thức Data Cube có một vài tên thay thế hoặc một vài biến thể, chẳng hạn như “Cơ sở dữ liệu đa chiều”, “chế độ xem cụ thể hóa” và “OLAP (Xử lý phân tích trực tuyến).”

Ý tưởng chung của phương pháp này là thực hiện một số phép tính đắt tiền thường được yêu cầu.

Ví dụ: mối quan hệ với doanh số bán hàng trong lược đồ (bộ phận, nhà cung cấp, khách hàng và giá bán) có thể được cụ thể hóa thành một tập hợp tám chế độ xem như được hiển thị trong hình, trong đó psc chỉ ra một chế độ xem bao gồm giá trị hàm tổng hợp (chẳng hạn như tổng- bán hàng) được tính bằng cách nhóm ba phần thuộc tính, nhà cung cấp và khách hàng, p chỉ ra một chế độ xem bao gồm các giá trị hàm tổng hợp tương ứng được tính bằng cách nhóm riêng phần, v.v.

Một Data Cube được tạo từ một tập hợp con các thuộc tính trong cơ sở dữ liệu. Các thuộc tính cụ thể được chọn làm thuộc tính đo lường, tức là các thuộc tính có giá trị được quan tâm. Các thuộc tính khác được chọn làm thứ nguyên hoặc thuộc tính chức năng. Các thuộc tính đo lường được tổng hợp theo các kích thước.

Ví dụ: XYZ có thể tạo một kho dữ liệu bán hàng để lưu giữ hồ sơ về doanh số của cửa hàng cho các thứ nguyên về thời gian, mặt hàng, chi nhánh và địa điểm. Những thứ nguyên này cho phép cửa hàng theo dõi những thứ như doanh thu bán hàng hàng tháng của các mặt hàng cũng như các chi nhánh và địa điểm mà tại đó các mặt hàng đã được bán. Mỗi thứ nguyên có thể có một bảng đồng nhất với nó, được gọi là bảng thứ nguyên, mô tả các thứ nguyên. Ví dụ: bảng thứ nguyên cho các mặt hàng có thể chứa các thuộc tính item_name, brand và type.

Phương pháp Data Cube là một kỹ thuật thú vị với nhiều ứng dụng. Các Data Cube có thể thưa thớt trong nhiều trường hợp vì không phải mọi ô trong mỗi chiều đều có thể có dữ liệu tương ứng trong cơ sở dữ liệu.

Các kỹ thuật nên được phát triển để xử lý các hình khối thưa thớt một cách hiệu quả.

Nếu một truy vấn chứa các hằng số ở cấp độ thậm chí thấp hơn những hằng số được cung cấp trong Data Cube, thì không rõ làm thế nào để sử dụng tốt nhất các kết quả được tính toán trước được lưu trữ trong Data Cube.

Mô hình xem dữ liệu dưới dạng một Data Cube. Các công cụ OLAP dựa trên mô hình dữ liệu đa chiều. Các Data Cube thường mô hình hóa dữ liệu n chiều.

Một Data Cube cho phép dữ liệu được mô hình hóa và xem theo nhiều chiều. Mô hình dữ liệu đa chiều được tổ chức xung quanh chủ đề trung tâm, như bán hàng và giao dịch. Một bảng thông tin đại diện cho chủ đề này. Dữ kiện là các thước đo bằng số. Do đó, bảng dữ kiện chứa số đo (chẳng hạn như Rs_sold) và các khóa cho mỗi bảng chiều liên quan.

Kích thước là một thực tế xác định một Data Cube. Dữ kiện nói chung là các đại lượng, được sử dụng để phân tích mối quan hệ giữa các thứ nguyên.

Ví dụ: Trong biểu diễn 2-D, chúng tôi sẽ xem xét dữ liệu bán hàng của Tất cả các thiết bị điện tử cho các mặt hàng được bán mỗi quý ở thành phố Vancouver. Màn hình được đo bằng đô la đã bán (hàng nghìn).

3-Dimensional

Giả sử chúng ta muốn xem dữ liệu bán hàng bằng thứ nguyên thứ ba. Ví dụ: giả sử chúng tôi muốn xem dữ liệu theo thời gian, mục cũng như vị trí cho các thành phố Chicago, New York, Toronto và Vancouver. Màn hình được đo bằng đô la đã bán (hàng nghìn). Dữ liệu 3-D này được hiển thị trong bảng. Dữ liệu 3-D của bảng được biểu diễn dưới dạng một chuỗi các bảng 2-D.

Về mặt khái niệm, chúng ta có thể biểu diễn cùng một dữ liệu dưới dạng các Data Cube 3-D, như thể hiện trong hình:

Giả sử rằng chúng tôi muốn xem dữ liệu bán hàng của mình với một chiều thứ tư bổ sung, chẳng hạn như nhà cung cấp.

Trong kho dữ liệu, các Data Cube là n chiều. Hình khối chứa mức tổng hợp thấp nhất được gọi là hình khối cơ sở.

Ví dụ: hình khối 4-D trong hình là hình khối cơ sở cho các kích thước thời gian, mặt hàng, vị trí và nhà cung cấp đã cho.

Hình được hiển thị là Data Cube 4-D đại diện cho dữ liệu bán hàng, theo kích thước thời gian, mặt hàng, địa điểm và nhà cung cấp. Số đo được hiển thị là đô la được bán (tính theo hàng nghìn).

Hình khối 0-D trên cùng, có mức tổng hợp cao nhất, được gọi là hình khối đỉnh. Trong ví dụ này, đây là tổng doanh số hoặc đô la đã bán, được tóm tắt trên cả bốn thứ nguyên.

Mạng tinh thể của hình khối tạo thành một Data Cube. Hình bên cho thấy mạng lưới các khối lập phương tạo ra các Data Cube 4-D cho thứ nguyên thời gian, mặt hàng, vị trí và nhà cung cấp. Mỗi hình khối đại diện cho một mức độ tóm tắt khác nhau.

Chúng tôi chuyên cung cấp các dịch vụ về Xây dựng Kho dữ liệu Data Warehouse/ Xây dựng Báo cáo Power BI cho các doanh nghiệp lớn như: Nakagawa, Mutoshi, Tinh Vân Group,….. đăng ký ngay để được Demo và tư vấn miễn phí dành riêng cho doanh nghiệp của bạn.

    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:


    Leave a Reply

    Your email address will not be published. Required fields are marked *