Chắc hẳn đối với bộ phận phân tích và phát triển kinh doanh trong mỗi doanh nghiệp, khái niệm kho dữ liệu (data warehouse), dữ liệu lớn (big data)… không còn quá xa lạ nữa.
Với nhu cầu tiếp nhận, phân tích và xử lý dữ liệu dưới góc nhìn đa chiều và tổng hợp hiện nay, việc thống kê dòng dữ liệu là vô cùng cần thiết, từ đó khái niệm kho dữ liệu ra đời nhằm đảm lưu trữ đầy đủ dữ liệu cho bước phân tích tiếp theo và nâng cao tốc độ của các kết quả trả về của hệ thống.
Chúng ta hãy cùng tìm hiểu khái niệm data warehouse là gì và những tính năng, lợi ích về nó nhé!
Mục lục
Data Warehouse là gì?
Kho dữ liệu (data warehouse) là khái niệm được giới thiệu lần đầu vào năm 1988 bởi 2 nhà nghiên cứu của IBM là Barry Devlin và Paul Murphy. Đây là nơi lưu trữ dữ liệu bằng thiết bị điện tử của một tổ chức, doanh nghiệp, nhằm hỗ trợ việc phân tích dữ liệu và lập báo cáo. Khái niệm kho dữ liệu này ra đời và Data warehouse ngày nay đã khác.
Ngày nay, người ta hiểu “kho dữ liệu” theo ngữ cảnh rộng hơn, bao gồm tập các phương pháp, kỹ thuật và công nghệ có thể kết hợp, hỗ trợ nhau để thu thập, tổng hợp dữ liệu từ nhiều nguồn (nhiều môi trường khác nhau) về 1 nơi duy nhất. Từ đó cung cấp thông tin nhanh chóng, tức thì cho người sử dụng.
Do đó, kho dữ liệu còn có thể được gọi bằng những cái tên sau: hệ thống hỗ trợ quyết định, hệ thống điều hành thông tin, hệ thống thông tin quản lý, ứng dụng phân tích. Kho dữ liệu thường có dung lượng lên đến hàng trăm GB thậm chí tính bằng đơn vị TB.
Đặc tính của kho dữ liệu (data warehouse)
Kho dữ liệu không phải là một sản phẩm mà là một môi trường, cung cấp một mô hình kiến trúc cho luồng thông tin hỗ trợ từ hệ thống vận hành đến các môi trường hỗ trợ quyết định. Do đó kho dữ liệu sẽ có những đặc tính sau:
Hướng chủ đề (subject-oriented):
Mục đích của Kho dữ liệu là phục vụ các yêu cầu phân tích, hoặc khai phá cụ thể được gọi là chủ đề. Ví dụ với chủ đề phân tích nhân sự thì có thể bao gồm các độ đo về doanh thu của từng người, số ngày nghỉ trong tháng, số dự án tham gia trong tháng, theo các chiều phân tích: thời gian, chi nhánh, sản phẩm, …
Một sự so sánh dễ hiểu, giống như chẩn đoán một bệnh ví dụ bệnh liên quan đến tim, thì bác sỹ cần quan tâm không chỉ một mà một vài chỉ số như các chỉ số liên quan đến máu, chỉ số về huyết áp, nhịp tim, điện tâm đồ. Ngoài ra còn cần theo dõi theo thời gian (có thể là hàng ngày) để xem xét sự thay đổi mà có phương pháp điều trị kịp thời. Trong trường hợp này thời gian được gọi là chiều phân tích. Để chẩn đoán được chính xác thì cần đầy đủ các thông tin về các chỉ số trên, và cũng không cần các chỉ số khác lẫn vào làm nhiễu quá trình chẩn đoán và cũng không cần thiết. Việc tổ chức dữ liệu theo chủ đề này sẽ dẫn đến nhu cầu tổ chức lưu trữ dữ liệu khác với các cơ sở dữ liệu tác nghiệp.
Được tích hợp (integrated):
Tại một bệnh viện, các phòng khác nhau sẽ thực hiện các xét nghiệm khác nhau, do đó để có được đầy đủ thông tin phục vụ chẩn đoán thì cần thu thập được kết quả từ nhiêu nguồn. Điều này hoàn toàn tương tự như tại doanh nghiệp, dữ liệu cần để phân tích có thể nằm rải rác ở nhiều hệ thống tác nghiệp khác nhau, và vì vậy cần tích hợp lại. Quá trình tích hợp này sẽ được thực hiện trong quá trình ETL như đã trình bày ở bài trước. Việc tổng hợp dữ liệu từ nhiều nguồn vào một kho dữ liệu cho phép chúng ta có thể xem đồng thời nhiều nhóm chỉ tiêu khác nhau (từ nhiều hệ thống nghiệp vụ khác nhau), ví dụ ta có thể xem chỉ tiêu doanh thu ở nhiều mảng nghiệp vụ khác nhau để có thể so sánh được sự tương quan giữa các mảng nghiệp vụ này. Điều này cũng giống trong chuẩn đoán bệnh ta có thể cần nhiều xét nghiệm (thử máu, thử nước tiếu, siêu âm, …) và kiểm tra khác nhau để có thể đưa ra kết luận chính xác.
Có gán nhãn thời gian (time variant):
Như đã đề cập, với các chỉ số thay đổi liên tục (như huyết áp, nhịp tim) việc chẩn đoán bệnh sẽ cần dữ liệu của các hôm trước để so sánh phục vụ quá trình điều trị. Do đó hàng ngày cần phải lưu lại giá trị của các chỉ số này. Hay nói cách khác các chỉ số này khi lưu sẽ được gán 1 nhãn thời gian tương ứng. Tương tự như vậy, dữ liệu lịch sử có tầm quan trọng đặc biệt trong phân tích dữ liệu, cùng một độ đo sẽ có nhiều giá trị khác nhau trong lịch sử có thể dùng để so sánh với nhau để biết được sự thay đổi là tốt hay xấu.
Ví dụ, độ đo doanh thu của một mặt hàng của tháng hiện tại, nếu đem so sánh với doanh thu của mặt hàng đó trong tháng trước, tháng này năm trước thì sẽ có nhiều thông tin hơn để đánh giá doanh thu của mặt hàng đó là tốt hay không, trên cơ sở đó sẽ có các quyết định phù hợp. Ngoài ra, dữ liệu lịch sử còn cho phép dự báo được tương lai khi ứng dụng khai phá dữ liệu.
Bất biến (non-volatile):
Khác với các cơ sở dữ liệu (CSDL) giao dịch, nơi thông tin của một đối tượng có thể được cập nhật thay đổi hàng ngày, dữ liệu trong Kho dữ liệu có chức năng báo cáo lại các chỉ số về hoạt động kinh doanh thực tế đã xảy ra. Do đó dữ liệu trong Kho dữ liệu không thể cập nhật, thay đổi vì nó sẽ không phản ánh đúng thực tế. Do đó với kho dữ liệu chỉ có 2 thao tác chính là tải dữ liệu vào kho và truy cập (đọc) dữ liệu từ kho.
Trường hợp sau khi tổng hợp dữ liệu mà dữ liệu ở trong nguồn bị thay đổi, khi đó một giải pháp xử lý là thực hiện lại quá trình ETL để tải lại dữ liệu từ nguồn vào Kho dữ liệu chứ không cho phép sửa đổi dữ liệu ở trong Kho. Một ý nghĩa khác của tính chất này là dữ liệu lịch sử vẫn được bảo tồn, vẫn có ý nghĩa chứ không như dữ liệu tác nghiệp ở các cơ sở dữ liệu, dữ liệu cũ (năm trước, hoặc tháng trước) không có ý nghĩa phục vụ hoạt động hằng ngày.
Như vậy, nếu như CSDL tác nghiệp được ví như cái tủ sách cá nhân, nơi người ta thường xuyên tra cứu, cập nhật, hiệu đính, ghi chú vào lề, thêm mới hoặc chuyển sách đi. Thì Kho dữ liệu lại được so sánh với thư viện quốc gia, nơi các tài liệu kinh điển được đưa đến liên tục để lưu trữ và tham khảo, không ai sửa chữa hoặc chuyển chúng qua chỗ nào khác cả.
Kiến trúc của kho dữ liệu (data warehouse)
Kho dữ liệu có cấu trúc bao gồm ba tầng:
- Tầng dữ liệu đầu vào (Data Sources) : là nơi chứa các dữ liệu của doanh nghiệp. Dữ liệu này có thể là: website bán hàng, phần mềm kế toán, quản lý nhân sự, quản lý khách hàng (CRM), hệ thống lõi ngân hàng (Corebanking), hệ thống thẻ, hệ thống quản lý thanh toán online….
- Tầng giữa (Data Warehouse) : là nơi thu thập, tích hợp dữ liệu từ nhiều nguồn khác nhau sau đó chuẩn hóa về cùng định dạng, làm sạch xử lí dữ liệu để tìm lỗi và sửa và lưu trữ dữ liệu đã tổng hợp.
- Tầng phân tích dữ liệu (User Analysis) : nơi thực hiện các thao tác truy vấn, báo cáo, phân tích để tìm ra xu hướng, trung bình, tổng hợp…
Tiến trình xử lý trong kho dữ liệu (data warehouse)
Bước 1: Dữ liệu được tập hợp từ nhiều nguồn và đưa vào Data Sources để đồng bộ định dạng, biên soạn, sau đó sẽ quá trình làm sạch dữ liệu, tìm kiếm để sửa hay loại bỏ bất kỳ lỗi nào trong dữ liệu nhằm đảm bảo tính nhất quán của dữ liệu trước khi đưa vào Warehouse.
Bước 2: Dữ liệu sau khi trải qua nhiều thao tác ở tầng Data Sources sẽ được chuyển từ định dạng cơ sở dữ liệu sang định dạng kho. Sau đó tại tầng Warehouse, dữ liệu sẽ được sắp xếp, hợp nhất và tổng kết,… nhằm đảm bảo quá trình phân phối và xử lý dữ liệu diễn ra trơn tru và mượt mà hơn. Theo thời gian, khi càng có nhiều dữ liệu từ nhiều nguồn được cập nhật, kho dữ liệu sẽ càng tiếp nhận và xử lý chúng
Bước 3: Dữ liệu được phân bổ đến người dùng cuối khi có thao tác tìm kiếm, truy vấn và xuất báo cáo. Trong bước này, có nhiều công cụ để thực hiện nhằm giúp dữ liệu được xử lý gọn gàng và dễ nhìn trước khi hiển thị tới người dùng cuối. Một kho dữ liệu tốt không chỉ giúp cho quá trình phân tích, xuất báo cáo dễ dàng nhanh chóng mà còn giúp các bộ phận khác nhau trong công ty truy cập dữ liệu của nhau dễ dàng hơn.
Ví dụ: nhờ có kho dữ liệu, bộ phận bán hàng có thể có những thông tin về nhu cầu, đặc điểm của khách hàng và giúp đưa ra quyết định về cách cải thiện doanh số hoặc sắp xếp quy trình hay phân công nhiệm vụ rõ ràng trong bộ phận kinh doanh. Đặc biệt với khả năng lưu trữ ưu việt của mình, kho dữ liệu có thể có tất cả các thông tin mà khách hàng đã mua sản phẩm/sử dụng dịch vụ trong 10 năm qua.
>> Đọc thêm:
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP
LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU
DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DE? CÁC KỸ NĂNG CẦN THIẾT
Lợi ích của kho dữ liệu (data warehouse)
Sự ra đời của kho dữ liệu nhằm đáp ứng khối lượng dữ liệu cần được xử lý ngày càng nhiều, nhu cầu lưu trữ dữ liệu phát triển khi các hệ thống máy tính trở nên phức tạp hơn. Cụ thể, kho dữ liệu sẽ đem lại các lợi ích sau đây cho các doanh nghiệp:
- Tích hợp dữ liệu lại về một nguồn, cùng một định dạng, giải quyết tính phân mảnh và rời rạc của dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin của người sử dụng
- Tiết kiệm thời gian và hiệu quả khi tìm thấy dữ liệu cần thiết
- Giúp việc sử dụng dữ liệu của doanh nghiệp trở nên hiệu quả hơn bằng tính năng xử lý và phân tích dữ liệu
- Hỗ trợ người sử dụng đưa ra những quyết định hợp lý, nhanh chóng, năng suất cao hơn, thu được lợi nhuận cao hơn…
- Giúp cho tổ chức, xác định, quản lý và điều hành những dự án, những nghiệp vụ một cách hiệu quả và chính xác.
- Giúp tăng cường khối lượng dữ liệu cần được tổng hợp, lưu trữ và xử lý lên đáng kể
Kho dữu liệu theo từng lĩnh vực
Hiện kho dữ liệu đã được ứng dụng rộng rãi trong các doanh nghiệp thuộc nhiều lĩnh vực khác nhau, cụ thể ta có thể kể đến:
- Hàng không: Xây dựng hệ thống quản lý các công việc hàng không như quản lý tuyến bay, lịch bay, phân công phi hành đoàn, quản lý các chương trình ưu đãi dành cho khách hàng…
- Ngân hàng: quản lý dòng tiền, quản lý các quỹ đầu tư, cho vay, thời hạn thanh toán…
- Y – Dược: quản lý thông tin bệnh nhân, tình trạng bệnh án, phác đồ điều trị, đơn thuốc được kê cho họ, thời gian điều trị bệnh…
- Bảo hiểm: phân tích xu hướng của khách hàng và để theo dõi sự thay đổi của thị trường một cách nhanh chóng
- Bán lẻ: quản lý mặt hàng nhập vào – bán ra, quản lý chuỗi phân phối, xác định mô hình mua hàng của khách hàng, các chương trình khuyến mãi cũng như các chính sách giá
- Giáo dục: quản lý thông tin học sinh – giáo viên – công nhân viên của trường, quản lý quá trình học tập, giáo án, bài giảng, kết quả học tập của học sinh… Là nền tảng để xây dựng các phần mềm dạy học hiện nay.
- Quản lý quan hệ khách hàng: tổng hợp, xử lý, phân tích và giúp dự đoán insight của khách hàng và xu hướng thị trường trong tương lai
- Thương mại điện tử: là lĩnh vực có sự ứng dụng rõ rệt nhất của kho dữ liệu thông qua việc quản lý thông tin hàng hóa, người bán, người mua, tình trạng đơn hàng, các chương trình khuyến mãi…
Từ những thông tin trên mà chúng tôi cung cấp, bạn có thể dễ dàng thấy rằng kho dữ liệu đóng vai trò then chốt trong việc tập hợp, xử lý dữ liệu thô trong doanh nghiệp. Xây dựng kho dữ liệu là nền tảng vững chắc trong quá trình tích hợp hệ thống báo cáo quản trị thông minh cho doanh nghiệp.
Chúc bạn thành công với kho dữ liệu mà mình xây dựng nhé!
>> Đọc thêm:
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP
LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU
DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DE? CÁC KỸ NĂNG CẦN THIẾT
Chúng tôi còn cung cấp Khóa học Data Warehouse/ETL: Xây dựng kho dữ liệu từ cơ bản đến nâng cao. Hãy liên hệ với chúng tôi để được tư vấn!