Blog

[Nhập môn Data Warehouse] – Tổng quan về kho dữ liệu (Data Warehouse)

1. DATA WAREHOUSE LÀ GÌ?

Data Warehouse có nghĩa là kho dữ liệu là một loại quản lý dữ liệu hệ thống được thiết kế để cho phép và hỗ trợ kinh doanh thông minh (BI), đặc biệt là phân tích.

Data Warehouse chỉ nhằm mục đích thực hiện các truy vấn, phân tích và thường chứa một lượng lớn dữ liệu. Dữ liệu trong Data Warehouse thường được lấy từ nhiều nguồn như các phần mềm, ứng dụng như: website bán hàng, phần mềm kế toán, phần mềm nhân sự, phần mềm chấm công, phần mềm bán hàng, phần mềm chăm sóc Khách hàng (CRM), hệ thống lõi ngân hàng (Corebanking),….

Khả năng phân tích Data Warehouse cho phép các tổ chức thu được những hiểu biết kinh doanh có giá trị từ dữ liệu của họ để cải thiện việc ra quyết định. Theo thời gian, nó xây dựng một hồ sơ lịch sử có thể là vô giá đối với các nhà Data Science và nhà phân tích kinh doanh.

Một Data Warehouse điển hình thường bao gồm các yếu tố sau:

  • Một cơ sở dữ liệu quan hệ để lưu trữ và quản lý dữ liệu.
  • Giải pháp trích xuất, tải và biến đổi ELT để chuẩn bị dữ liệu cho phân tích.
  • Khả năng phân tích thống kê, báo cáo và khai thác dữ liệu.
  • Các công cụ phân tích khách hàng để trực quan hóa và trình bày dữ liệu cho người dùng doanh nghiệp.
  • Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành động bằng cách áp dụng khoa học dữ liệu và thuật toán trí tuệ nhân tạo AI hoặc các tính năng đồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trên quy mô lớn.

Hệ thống Data Warehouse còn được gọi bằng tên sau:

  • Hệ thống hỗ trợ quyết định (DSS)
  • Hệ thống điều hành thông tin
  • Hệ thống thông tin quản lý
  • Giải pháp kinh doanh thông minh
  • Ứng dụng phân tích
  • Kho dữ liệu
data warehouse là gì

>> Đọc thêm:

KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP

KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP

LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU

DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT

 2. LỢI ÍCH CỦA DATA WAREHOUSE?

Why Invest In A Data Warehouse. We recently had a medium sized company… | by  SeattleDataGuy | Medium
  • Đối với các tổ chức có lượng dữ liệu ngày càng lớn thì càng khó truy cập và sử dụng dữ liệu.
  • Dữ liệu trong nhiều định dạng khác nhau, tồn tại trên nhiều nền tảng khác nhau, và lưu trữ trong nhiều tập tin khác nhau, cấu trúc cơ sở dữ liệu khác nhau được phát triển bởi các nhà cung cấp khác nhau.
  • Tổ chức phải viết và duy trì hàng trăm chương trình để trích xuất, chuẩn bị, hợp nhất dữ liệu để sử dụng cho nhiều chương trình khác nhau dùng để phân tích và báo cáo.
  • Người ra quyết định muốn khai thác sâu hơn vào các dữ liệu.
  • Điều này dẫn đến các yêu cầu phát triển chương trình trích xuất mới hơn. Quá trình này rất tốn kém, không hiệu quả và tốn thời gian. Data Warehousing cung cấp một phương pháp tiếp cận tốt hơn.
  • Data Warehouse thực hiện quá trình truy cập dữ liệu từ các nguồn không đồng nhất; làm sạch, lọc và chuyển đổi dữ liệu; lưu trữ dữ liệu theo cấu trúc để dễ dàng truy cập, hiểu rõ và sử dụng.
  • Dữ liệu sau đó được dùng để truy vấn, báo cáo và phân tích dữ liệu.
  • Khối lượng dữ liệu trong kho dữ liệu có thể rất lớn, đặc biệt khi xem xét các yêu cầu phân tích dữ liệu mang tính lịch sử.
  • Chương trình phân tích dữ liệu đòi hỏi phải quét qua khối lượng dữ liệu rất lớn, có thể dẫn đến kết quả không tốt cho các ứng dụng hoạt động.

3. CÁC KHÁI NIỆM CƠ BẢN

3.1 OLTP

Hệ thống OLTP (On-Line Transaction Processing – Xử lý giao dịch trực tuyến)

  • Dữ liệu phát sinh từ các hoạt động hằng ngày
  • Thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức
  • Thường được gọi là dữ liệu tác vụ và hoạt động thu thập xử lý dữ liệu này
  • Ví dụ: phần mềm kế toán, phần mềm bán hàng, phần mềm nhân sự, lương,… được nhập liệu thường xuyên bởi những người dùng cuối và dữ liệu chi tiết tới từng nghiệp vụ, mô hình thiết kế theo quan hệ thực thể.

3.2 Data warehouse

  • Kho dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao
  • Kho dữ liệu là nơi dữ liệu được tuyển tập và lưu trữ:
    • Hướng chủ đề
    • Tích hợp
    • Biến đổi theo thời gian
    • Ổn định
  • Kho dữ liệu dùng để hỗ trợ ra quyết định trong quản lý

3.3 OLAP

Hệ thống OLAP(On-Line Analytical Processing – Xử lý phân tích trực tuyến)

  • OLAP là kỹ thuật sử dụng các cube(khối – thể hiện dữ liệu đa chiều) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Tạo khối(cube) cho dữ liệu trong các bảng chiều(dimension table) và bảng sự kiện(fact table) và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho các ứng dụng client.
  • Trong khi Data warehouse và Data mart lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này.
  • OLAP cung cấp nhiều lợi ích cho người phân tích như sau:
    • Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu.
    • Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp.
    • Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả kết quả của các truy vấn đặc biệt trở nên nhanh chóng hơn.
    • Cung cấp các công cụ mạnh mẽ giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt.
  • OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian.

4. CÁC ĐẶC TÍNH CỦA DATA WAREHOUSE

4.1 Subject Oriented – Hướng chủ đề

  • Kho dữ liệu được thiết kế để hỗ trợ trong việc phân tích dữ liệu
  • Được tổ chức xung quanh các chủ đề chính như: khách hàng, sản phẩm, bán hàng,…
  • Loại bỏ những dữ liệu không hữu ích cho trình ra quyết định

Việc này giúp cho người dùng hướng theo một chủ đề nhất định giúp xác định được những thông tin cần thiết trong hoạt động của mình.

4.2 Integrated – Tích hợp

  • Là đặc tính quan trọng nhất của kho dữ liệu
  • Dữ liệu được tập hợp từ nhiều nguồn khác nhau: Cở sở dữ liệu quan hệ(relational databases), flat files, các bảng ghi toàn tác trực tuyến. à Điều này sẽ dấn đến việc trong quá trình tập hợp dữ liệu phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu.

4.3 Non Volatile – Ổn định

  • Được lấy từ nhiều nguồn dữ liệu của hệ thống tác nghiệp có sẵn
  • Kho dữ liệu tách rời vật lý với môi trường tác nghiệp, nên dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc, không chỉnh sửa hoặc thêm mới được.

4.4 Time Variant – Biến đổi theo thời gian

  • Dữ liệu quá khứ và hiện tại
  • Mỗi dữ liệu trong kho dữ liệu đều được gắn với thời gian và có tính lịch sử

*** Dữ liệu trong kho dữ liệu rất lớn và không được thêm, xóa, sửa dữ liệu.

5. MỤC ĐÍCH CỦA DATA WAREHOUSE

  • Kho dữ liệu phải đáp ứng những yêu cầu sau:
    • Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng.
    • Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình.
    • Giúp cho tổ chức xác định, quản lý và điều hành dự án, các nghiệp vụ một các hiệu quả và chính xác.
  • Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.
  • Dùng trong các hệ thống hỗ trợ quyết định(DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt.

6. KIẾN TRÚC CỦA DATA WAREHOUSE

data-warehouse

  •  

Kho dữ liệu có cấu trúc bao gồm ba tầng:

  • Tầng dữ liệu đầu vào (Data Sources) : là nơi chứa các dữ liệu của doanh nghiệp. Dữ liệu này có thể là: website bán hàng, phần mềm kế toán, quản lý nhân sự, quản lý khách hàng (CRM), hệ thống lõi ngân hàng (Corebanking), hệ thống thẻ, hệ thống quản lý thanh toán online….
  • Tầng giữa (Data Warehouse) : là nơi thu thập, tích hợp dữ liệu từ nhiều nguồn khác nhau sau đó chuẩn hóa về cùng định dạng, làm sạch xử lí dữ liệu để tìm lỗi và sửa và lưu trữ dữ liệu đã tổng hợp.
  • Tầng phân tích dữ liệu (User Analysis) : nơi thực hiện các thao tác truy vấn, báo cáo, phân tích để tìm ra xu hướng, trung bình, tổng hợp…

https://www.youtube.com/watch?v=buLQIoWzpNo

>> Đọc thêm:

KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP

KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP

LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU

DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT

7. AI NÊN SỬ DỤNG DATA WAREHOUSE

Data Warehouse là cần thiết cho tất cả các loại người dùng như:

  • Những người ra quyết định dựa vào khối lượng dữ liệu
  • Người dùng sử dụng các quy trình phức tạp, tùy chỉnh để lấy thông tin từ nhiều nguồn dữ liệu.
  • Nó cũng được sử dụng bởi những người muốn công nghệ đơn giản để truy cập dữ liệu
  • Nó cũng cần thiết cho những người muốn có một cách tiếp cận có hệ thống để đưa ra quyết định.
  • Nếu người dùng muốn hiệu suất nhanh trên một lượng dữ liệu khổng lồ cần thiết cho các báo cáo, lưới hoặc biểu đồ, thì Data Warehouse sẽ trở nên hữu ích.
  • Data Warehouse là bước đầu tiên nếu bạn muốn khám phá ‘các mẫu ẩn’ của luồng dữ liệu và nhóm

8. CLOUD DATA WAREHOUSE LÀ GÌ?

Cloud Data Warehouse sử dụng đám mây để nhập và lưu trữ dữ liệu từ các nguồn dữ liệu khác nhau.

Các kho dữ liệu ban đầu được xây dựng với các máy chủ tại chỗ. Các kho dữ liệu tại chỗ này tiếp tục có nhiều lợi thế ngày nay. Trong nhiều trường hợp, chúng có thể cải thiện khả năng quản trị, bảo mật, chủ quyền dữ liệu và độ trễ tốt hơn.

Tuy nhiên, kho dữ liệu tại chỗ không co giãn bằng và chúng yêu cầu dự báo phức tạp để xác định cách mở rộng kho dữ liệu cho các nhu cầu trong tương lai. Việc quản lý các kho dữ liệu này cũng có thể rất phức tạp.

Mặt khác, một số ưu điểm của Cloud Data Warehouse bao gồm:

  • Hỗ trợ co giãn, mở rộng quy mô cho các yêu cầu lưu trữ hoặc tính toán lớn hoặc thay đổ.
  • Dễ sử dụng.
  • Dễ quản lý.
  • Tiết kiệm chi phí.

Các kho dữ liệu đám mây tốt nhất được quản lý hoàn toàn, đảm bảo rằng ngay cả những người mới bắt đầu cũng có thể tạo và sử dụng kho dữ liệu chỉ với một vài cú nhấp chuột. Một cách dễ dàng để bắt đầu di chuyển sang Cloud Data Warehouse là chạy kho dữ liệu đám mây của bạn tại chỗ, đằng sau tường lửa trung tâm dữ liệu tuân thủ các yêu cầu về chủ quyền và bảo mật dữ liệu.

Ngoài ra, hầu hết các kho dữ liệu đám mây đều tuân theo mô hình và trả tiền khi sử dụng, giúp tiết kiệm thêm chi phí cho khách hàng.

>> Đọc thêm:

KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP

KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP

LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU

DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT

Chúng tôi còn cung cấp Khóa học Data Warehouse/ETL: Xây dựng kho dữ liệu từ cơ bản đến nâng cao. Hãy liên hệ với chúng tôi để được tư vấn!

    LIÊN HỆ VỚI CHÚNG TÔI ĐỂ NHẬN ĐƯỢC TƯ VẤN MIỄN PHÍ
    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:






    Leave a Reply

    Your email address will not be published. Required fields are marked *