Phân tích kho dữ liệu là một kĩ thuật đơn giản, không quá phức tạp nhưng yêu cầu người thực hiện phải có một lượng kiến thức nhất định về database, data warehouse để có thể kiểm soát được các bước của quy trình, hiểu được tiến độ vận hành và sẵn sàng có sự can thiệp về mặt kĩ thuật khi cần thiết để quy trình được diễn ra suôn sẻ.
Ngoài ra phần mềm được sử dụng trong bài viết cũng là phần mềm OLAP đã được các công ty làm phần mềm, developers dùng từ nhiều năm trước tuy nhiên các công cụ, tính năng của phần mềm vẫn có thể xử lý được tốt và rất phù hợp cho các bạn sinh viên làm các bài tập, dự án mà một vài trường đại học công nghệ thông tin hiện đang dạy, các phần mềm đó là:
- SQL Server 2008 R2
- Microsoft visual studio 2008
Mục lục
Phân tích Kho dữ liệu (Datawarehouse) bằng OLAP
Bước chuẩn bị:
Trước khi bắt đầu vào quy trình phân tích, các bạn hãy Import trước mẫu Database của mình vào SQL 2008 R2 bằng công cụ SQL Server Management Studio. Đây là thao tác đơn giản chỉ cần làm theo đúng hướng dẫn các bạn sẽ làm được nhé:
Bước 1: Truy cập phần mềm OLAP Analysis Services – BIDS Environment.
Chọn Menu bắt đầu Start Menu, truy cập thư mục Microsoft SQL Server 2008 R2 và chọn SQL Server Business Intelligence Development Studio.
Bước 2: Chạy chương trình Analysis Services Project
Các bạn vào thư viện theo luồng thao tác sau: File -> New -> Project -> Business Intelligence Projects -> Analysis Services Project -> Assign Project Name -> OK
Bước 3: Tạo một Data Source mới để bắt đầu
3.1 Cách Insert dữ liệu để chạy quá trình phân tích
- Mở cửa sổ Solution Explorer, bạn sẽ thấy Project đã tạo lúc nãy, chuột phải vào file Data Source và chọn New Data Source để khởi tạo một Data Source mới
3.2 Chọn vào nút “New” để tiếp tục
3.3 Kết nối đến Database “Sales_DW”
Đây là Database đã được Import vào SQL 2008 R2 từ trước nên các bạn có thể lấy dùng mà không gặp vấn đề gì sau đó nhé
3.4 Chọn “Inherit” và “Next” để tiếp tục
Bước 4: Hướng dẫn cách tạo một Data Source View mới.
Một Data Source View mới sẽ giúp các bạn có một bảng dữ liệu trực tiếp thuộc dự án OLAP, sử dụng một Data Source View trực quan, chi tiết sẽ giúp các bạn đưa ra các quyết định chính xác hơn khi xây dựng các khối phục vụ truy vấn
4.1 Từ cửa số làm việc Solution Explorer, chuột phải chọn “Data Source View” và chọn thao tác tạo mới “New Data Source View”
4.2 Cách thêm đối tượng theo dõi vào danh sách
- Chọn đối tượng theo dõi là FactProductSales dưới danh sách Available Objects và chọn mũi tên qua phải > để thêm vào
- Sau đó tiếp tục chọn vào FactProductSales khi này đã được chuyển sang danh sách kế bên là Included Objects và chọn nút Add Related Tables.
- Sau khi hoàn tất đúng các bước trên, bạn sẽ nhận được kết quả là một bảng như sau: các đối tượng từ danh sách Available Objects nếu đã được chọn thì bắt buộc phải xuất hiện ở danh sách Included Objects
4.5 Kết quả Data Source Views
Sau khi hoàn tất các bạn đã tạo được cho mình một Data Source Views quan hệ dữ liệu giữa các bảng thực tế có giao diện trực quan, chi tiết có chứa đầy đủ các công cụ lọc, phương thức lọc đa dạng như lọc theo ngày, theo tháng, theo tuần, kiểm tra kho hàng theo sản phẩm, đơn hàng bán ra, báo cáo doanh thu thuần theo tuần, theo tháng, báo cáo lợi nhuận của một hay nhiều sản phẩm…
Bước 5: Thiết lập Cube mới và tạo các Dim trên dữ liệu có sẵn trên bảng
Chọn thư mục Cube và chọn thao tác New Cube để bắt đầu tạo một dữ liệu Cube mới
5.1 Chọn cách tạo khối Cube là “Use Existing Tables” và chọn “Next” để tiếp tục
5.2 Chọn bảng cần thiết để phục vụ cho quy trình phân tích thuộc tính giá trị
Trong Measure Group Tables (FactProductSales), bạn sẽ thấy lựa chọn “Fact Table Name” và chọn “Next” để tiếp tục
5.3 Chọn các “Measures” mà bạn muốn xuất hiện trong Cube ở danh sách rồi chọn “Next” để tiếp tục
Chọn các phương thức đo lường mà bạn muốn thêm vào Cube từ danh sách Measure, hãy chọn tất cả phương thức có thể để tạo được cho mình đa dạng báo cáo, thống kê hơn nhé.
5.4 Chọn các Dimensions hiển thị của Cube dựa trên các bảng dữ liệu đang có sẵn
Chọn hết các lựa chọn Dim có liên quan đến Fact Table và chọn Next để tiếp tục
5.5 Hoàn thành cài đặt khối Cube, bạn sẽ nhận được một bảng thông báo trạng thái, chọn Finish để hoàn tất
Sau khi bạn hoàn tất bước cài đặt Cube, bảng thông báo sẽ thể hiện đầy đủ các yếu tố, phương thức, Dimensions được bạn thiết lập trước đó để kiểm tra, hãy kiểm tra xem đã đầy đủ tất cả các yếu tố bạn cần không trước khi nhấp vào finish để đóng bảng thông báo
5.6 Quay lại trang Data Source Views để kiểm tra kết quả khối Cube đã hoàn thiện, thiết lập Dimensions, giá trị đầy đủ
Bước 6: Chọn ra các thuộc tính từ bảng dữ liệu để sử dụng làm Dim hoặc làm giá trị Measure
Đây là một thao tác kéo thả rất đơn giản, bạn chỉ cần nhấp từng Dimension cần thiết ở mục Table trong Data Source View rồi thả vào danh sách Attribute Pane ở bên trái ứng dụng.
Đối với Dim Date các bạn cũng chỉ cần có các thao tác xử lý tương tự là được, và nếu muốn các bạn có thể thoải mái chọn Dim Customer.
Bước 7: Bắt đầu triển khai Cube
Sau các bước thiết lập Dimensions và Measures cho phù hợp với mẫu báo cáo, dữ liệu liên quan thì bây giờ các bạn đã có thể khởi chạy tạo khối Cube.
7.1 Chọn các thuộc tính cần thiết cho Cube trong công cụ Delployment Properties.
7.2 Tại cửa sổ “Solution Explorer”, chuột phải vào mục “Project Name” và bắt đầu triển khai bằng cách nhấp vào nút “Deploy”.
7.3 Theo dõi tiến độ và quá trình ở bảng tình trạng góc trái bên dưới ứng dụng
Bước 8: Sau khi đã hoàn thành khởi tạo, các bạn bắt đầu quá trình xử lý bằng cách chọn thao tác Process trên thiết lập deployment
8.1 Kiểm tra các thông tin và chọn nút “Run” để bắt đầu quá trình
Bước 9: Sử dụng công cụ Browser để theo dõi và phân tích dữ liệu
9.1 Đây là bước cuối cùng để tạo các bảng báo cáo, phân tích dữ liệu dựa trên Cube.
Các bạn có thể tự do thả các yếu tố cần thiết để tạo ra các bảng báo cáo tùy vào nhu cầu, mục đích sử dụng của bạn. Chọn các yếu tố Measures và thả vào mục Detail Fields rồi sau đó tiếp tục thả các thuộc tính Dim từ Dimension Attributes vào hàng hoặc cột để thể hiện đo lường.
Ví dụ: Khởi tạo một trang báo cáo thống kê số lượng hàng hóa đã bán theo đơn vị từng ngày.
- Từ mục Product Name: Chọn và kéo vào cột đầu tiên (chọn yếu tố tên hàng hóa đầu tiên để dễ dàng theo dõi yếu tố chính)
- Tiếp theo bạn lấy Mục Full Date UK và thả vào hàng: Thể hiện số lượng hàng hóa theo từng ngày
- Bước cuối cùng là chọn mục FactProductSalesCount và thả vào khu vực Measure in Detail Area: Hiển thị chi tiết tình trạng hàng hóa từ số lượng, đã bán, hàng trả về… theo từng ngày
Dim và Measure là bộ đôi hoàn hảo để thể hiện các bảng dữ liệu, tạo ra các bảng báo cáo, đồ thị so sánh một cách đơn giản và nhanh chóng. Các công cụ thu nhập dữ liệu và trích xuất báo cáo đã được xây dựng rất nhiều, tuy nhiên đây là phương thức khởi tạo báo cáo nhanh chóng, hữu hiệu và với điểm mạnh là có thể dễ dàng tùy chỉnh để tạo ra một bảng báo cáo mới từ sự kết hợp của nhiều DataBase giúp cho OLAP vẫn là phương thức phân tích Kho dữ liệu (Datawarehouse) được sử dụng phổ biến.