Kho dữ liệu (tiếng Anh: Data Warehouse) là kho lưu trữ điện tử của một lượng lớn thông tin của một doanh nghiệp hoặc tổ chức
Mục lục
Khái niệm
Kho dữ liệu là kho lưu trữ điện tử của một lượng lớn thông tin của một doanh nghiệp hoặc tổ chức. Đây là một thành phần quan trọng của phân tích kinh doanh, sử dụng các kĩ thuật phân tích trên dữ liệu doanh nghiệp.
Khái niệm được giới thiệu vào năm 1988 bởi 2 nhà nghiên cứu của IBM là Barry Devlin và Paul Murphy. Nhu cầu lưu trữ dữ liệu phát triển khi các hệ thống máy tính trở nên phức tạp hơn và phải xử lí lượng dữ liệu ngày càng tăng. Một cuốn sách quan trọng về lưu trữ dữ liệu là “Xây dựng kho dữ liệu” của W.H Inmon, được xuất bản lần đầu tiên vào năm 1990 và đã được tái bản nhiều lần kể từ đó.
Nó được sử dụng để cung cấp cái nhìn sâu sắc hơn về hiệu suất của một công ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất và được thiết kế để chạy các câu hỏi và phân tích trên dữ liệu lịch sử có nguồn gốc từ các nguồn giao dịch.
Data Warehouse hoạt động như thế nào?
Khi dữ liệu đã được nạp vào kho, nó không thay đổi và không thể sửa đổi do kho dữ liệu vận hành các phân tích về sự kiện đã xảy ra bằng cách tập trung vào các thay đổi trong dữ liệu theo thời gian. Dữ liệu được lưu trữ phải được lưu trữ theo cách an toàn, đáng tin cập, dễ truy xuất và quản lí.
Có một số bước nhất định được thực hiện để tạo một kho dữ liệu. Bước đầu tiên là trích xuất dữ liệu, bao gồm việc thu thập lượng lớn dữ liệu từ nhiều điểm nguồn. Sau khi dữ liệu được biên soạn, nó sẽ trải qua quá trình làm sạch dữ liệu, quá trình xử lí dữ liệu để tìm lỗi và sửa, hoặc loại trừ bất kì lỗi nào được tìm thấy.
Dữ liệu được dọn sạch sau đó được chuyển đổi từ định dạng cơ sở dữ liệu sang định dạng kho. Khi được lưu trữ trong kho, dữ liệu sẽ được sắp xếp, hợp nhất và tổng kết,… để nó được điều phối và dễ sử dụng hơn. Theo thời gian, nhiều dữ liệu được thêm vào kho khi nhiều nguồn dữ liệu được cập nhật.
Các doanh nghiệp có thể lưu trữ dữ liệu để sử dụng trong thăm dò và khai thác dữ liệu, tìm kiếm các mẫu thông tin sẽ giúp họ cải thiện qui trình kinh doanh của mình. Một hệ thống lưu trữ dữ liệu tốt cũng có thể giúp các bộ phận khác nhau trong công ty truy cập dữ liệu của nhau dễ dàng hơn.
Ví dụ: Nó có thể cho phép một công ty dễ dàng đánh giá dữ liệu của nhóm bán hàng và giúp đưa ra quyết định về cách cải thiện doanh số hoặc sắp xếp hợp lí hóa các bộ phận. Doanh nghiệp có thể chọn tập trung vào thói quen chi tiêu của khách hàng để định vị tốt hơn sản phẩm của mình và tăng doanh số.
Kho dữ liệu và cơ sở dữ liệu
Vốn là hai khái niệm khác nhau nhưng vẫn có nhiều người nhầm lẫn hai khái niệm này. Dưới đây là một số sự khác biệt cơ bản giữa cơ sở dữ liệu và kho dữ liệu:
Cơ sở dữ liệu (Database) | Kho dữ liệu (Data Warehouse) | |
Mục đích | Để ghi và truy vấn dữ liệu | Để xử lý và phân tích dữ liệu |
Chức năng | Hỗ trợ các hoạt động hàng ngày | Hỗ trợ quyết định mang tính chiến lược |
Phương pháp xử lý | Cơ sở dữ liệu sử dụng Xử lý giao dịch trực tuyến (OLTP) | Kho dữ liệu sử dụng Xử lý phân tích trực tuyến (OLAP). |
Các bảng và phép nối | Có độ phức tạp cao vì chúng được chuẩn hóa (cho RDMS) để giảm dữ liệu thừa, tối ưu hóa dung lượng lưu trữ | Bảng và phép nối rất dễ dàng trong kho dữ liệu vì chúng không được chuẩn hóa. |
Tính chất dữ liệu | Chi tiết, được cập nhật thường xuyên | Có tính lịch sử và thống kê, được thêm mới chứ không cập nhật |
Lưu trữ dữ liệu | Phương pháp tiếp cận quan hệ phẳng, nhiều dữ liệu khác nhau được tích hợp vào một nguồn | Phương pháp tiếp cận đa chiều và chuẩn hóa, nhiều nguồn dữ liệu khác nhau được tích hợp và định dạng lại |
Sử dụng | Thường xuyên | Trong những trường hợp đặc biệt |
Đơn vị công việc | Giao dịch đơn giản, ngắn | Các câu truy vấn phức tạp |
Độ đo | Thông lượng giao dịch, có thể thực hiện nhiều giao dịch cùng một lúc | Thông lượng truy vấn và trả lời |
Sự định hướng | Định hướng ứng dụng | Định hướng chủ đề |
Mô hình sử dụng | Mô hình quan hệ – thực thể | Mô hình dữ liệu đa chiều |
Loại truy vấn | Những truy vấn giao dịch đơn giản được sử dụng. | Những truy vấn phức tạp được áp dụng cho mục đích phân tích. |
Hiệu suất truy vấn phân tích | Thấp | Cao |
Có thể hiểu, kho dữ liệu có kích thước lớn hơn nhiều so với cơ sở dữ liệu, thậm chí nó có thể bao gồm cả cơ sở dữ liệu trong đó, hay nói cách khác kho dữ liệu là một loại cơ sở dữ liệu khổng lồ được thiết kế để tối ưu hóa quy trình phân tích và báo cáo.
Cơ sở dữ liệu thường là một ứng dụng, chương trình hoặc hệ thống để chứa các thông tin trong một nguồn.
Kho dữ liệu là tập hơn các nguồn, hệ thống thông tin khác nhau để sắp xếp, phân tích và xuất báo cáo theo truy vấn người dùng. Điều quan trọng cần lưu ý là kho dữ liệu có thể được lấy từ nhiều cơ sở dữ liệu khác nhau (hoặc có thể không lấy).
Nguồn: Internet
>> Đọc thêm:
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP
LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU
DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DE? CÁC KỸ NĂNG CẦN THIẾT
Chúng tôi có 12 năm kinh nghiệm về cung cấp dịch vụ Tư vấn, triển khai kho dữ liệu và các Khóa học Data Warehouse/ETL từ cơ bản đến nâng cao.
Hãy liên hệ với chúng tôi để được biết thêm chi tiết.