Cá nhân, tổ chức hay doanh nghiệp bất kỳ đều có một lượng dữ liệu tiếp nhận và xử lý mỗi ngày liên quan đến các hoạt động việc làm diễn ra hằng ngày. Vì vậy con người cần phải có sự thống kê các dòng dữ liệu. Từ đó xuất hiện khái niệm kho dữ liệu hay còn gọi là data warehouse. Cùng đọc bài viết dưới đây để tìm hiểu bản chất data warehouse là gì? Những thông tin về lợi ích, phương pháp thiết kế và cấu tạo của data warehouse mà bạn cần biết.
Mục lục
Data warehouse là gì?
Theo dịch nghĩa anh – việt thì Data Warehouse có nghĩa là kho dữ liệu, nó còn có nhiều tên gọi khác được viết tắt như DW hoặc DWH và nó còn được gọi là kho dữ liệu doanh nghiệp nghiệp Enterprise Data Warehouse (EDW). Data Warehouse hay kho dữ liệu doanh nghiệp là một hệ thống được sử dụng để báo cáo và phân tích dữ liệu và được coi là một thành phần cốt lõi của trí tuệ kinh doanh. DW là kho lưu trữ trung tâm của dữ liệu tích hợp từ một hoặc nhiều nguồn khác nhau. Họ lưu trữ dữ liệu hiện tại và lịch sử ở một nơi duy nhất được sử dụng để tạo báo cáo phân tích cho công nhân trong toàn doanh nghiệp.
Dữ liệu được lưu trữ trong kho được tải lên từ các hệ thống hoạt động (chẳng hạn như tiếp thị hoặc bán hàng). Dữ liệu có thể đi qua kho lưu trữ dữ liệu vận hành và có thể yêu cầu làm sạch dữ liệu cho các hoạt động bổ sung để đảm bảo chất lượng dữ liệu trước khi được sử dụng trong DW để báo cáo.
Trích xuất, biến đổi, tải (ETL) và Trích xuất, tải, biến đổi (E-LT) là hai cách tiếp cận chính được sử dụng để xây dựng một hệ thống kho dữ liệu.
Về bản chất, khái niệm lưu trữ dữ liệu nhằm cung cấp một mô hình kiến trúc cho luồng dữ liệu từ các hệ thống vận hành đến các môi trường hỗ trợ quyết định. Khái niệm này đã cố gắng giải quyết các vấn đề khác nhau liên quan đến dòng chảy này, chủ yếu là chi phí cao liên quan đến nó.
Lịch sử hình thành data warehouse là gì?
Khái niệm về kho dữ liệu bắt nguồn từ cuối những năm 1980 khi các nhà nghiên cứu của IBM Barry Devlin và Paul Murphy phát triển “kho dữ liệu kinh doanh”. Về bản chất, khái niệm lưu trữ dữ liệu nhằm cung cấp một mô hình kiến trúc cho luồng dữ liệu từ các hệ thống vận hành đến các môi trường hỗ trợ quyết định. Khái niệm này đã cố gắng giải quyết các vấn đề khác nhau liên quan đến dòng chảy này, chủ yếu là chi phí cao liên quan đến nó.
Trong trường hợp không có kiến trúc kho dữ liệu, cần có một lượng dự phòng khổng lồ để hỗ trợ nhiều môi trường hỗ trợ quyết định. Trong các tập đoàn lớn hơn, điển hình là nhiều môi trường hỗ trợ quyết định hoạt động độc lập. Mặc dù mỗi môi trường phục vụ người dùng khác nhau, họ thường yêu cầu nhiều dữ liệu được lưu trữ giống nhau.
Quá trình thu thập, làm sạch và tích hợp dữ liệu từ nhiều nguồn khác nhau, thường là từ các hệ thống hoạt động dài hạn hiện có (thường được gọi là hệ thống cũ), thường được nhân rộng một phần cho mỗi môi trường. Hơn nữa, các hệ thống hoạt động thường được xem xét lại khi các yêu cầu hỗ trợ quyết định mới xuất hiện. Thông thường các yêu cầu mới cần phải thu thập, làm sạch và tích hợp dữ liệu mới từ ” dữ liệu ” được thiết kế để người dùng truy cập sẵn sàng.
Những phát triển chính trong những năm đầu của kho dữ liệu:
– Những năm 1960 – General Mills và Đại học Dartmouth , trong một dự án nghiên cứu chung, phát triển các khía cạnh và sự kiện.
– Những năm 1970 – AC Nielsen và IRI cung cấp các bảng dữ liệu thứ nguyên cho doanh số bán lẻ.
– Những năm 1970 – Bill Inmon bắt đầu định nghĩa và thảo luận về thuật ngữ Kho dữ liệu.
– 1975 – Sperry Univac giới thiệu Mapper (duy trì, Chuẩn bị, và các báo cáo điều hành) là một quản lý cơ sở dữ liệu và hệ thống báo cáo bao gồm đầu tiên trên thế giới 4GL. Đây là nền tảng đầu tiên được thiết kế để xây dựng Trung tâm thông tin (tiền thân của công nghệ kho dữ liệu đương đại).
– 1983 – Teradata giới thiệu máy tính cơ sở dữ liệu DBC / 1012 được thiết kế đặc biệt để hỗ trợ quyết định.
– 1984 – Metaphor Computer Systems , được thành lập bởi David Liddle và Don Massaro, phát hành gói phần cứng / phần mềm và GUI cho người dùng doanh nghiệp để tạo một hệ thống phân tích và quản lý cơ sở dữ liệu.
– 1985 – Sperry Corporation xuất bản một bài báo (Martyn Jones và Philip Newman) trên các trung tâm thông tin, nơi họ giới thiệu thuật ngữ kho dữ liệu MAPPER trong bối cảnh các trung tâm thông tin.
– 1988 – Barry Devlin và Paul Murphy xuất bản bài báo Một kiến trúc cho một hệ thống thông tin và kinh doanh nơi họ giới thiệu thuật ngữ “kho dữ liệu kinh doanh”.
– 1990 – Red Brick Systems, được thành lập bởi Ralph Kimball , giới thiệu Red Brick Warehouse, một hệ thống quản lý cơ sở dữ liệu dành riêng cho kho dữ liệu.
– 1991 – Prism Solutions, được thành lập bởi Bill Inmon , giới thiệu Prism Warehouse Manager, phần mềm để phát triển kho dữ liệu.
– 1992 – Bill Inmon xuất bản cuốn sách Xây dựng kho dữ liệu.
– 1995 – Viện kho dữ liệu, một tổ chức vì lợi nhuận nhằm thúc đẩy kho dữ liệu, được thành lập.
– 1996 – Ralph Kimball xuất bản cuốn sách Bộ công cụ kho dữ liệu.
– 2000 – Dan Linstedt phát hành trong phạm vi công cộng, mô hình kho dữ liệu được hình thành vào năm 1990 như là một thay thế cho Inmon và Kimball để cung cấp lưu trữ dữ liệu lịch sử lâu dài đến từ nhiều hệ thống hoạt động, tập trung vào theo dõi, kiểm toán và phục hồi để thay đổi mô hình dữ liệu nguồn.
– 2012 – Bill Inmon phát triển và làm cho công nghệ công cộng được gọi là “định hướng văn bản”. Định hướng văn bản áp dụng bối cảnh cho văn bản thô và định dạng lại văn bản thô và ngữ cảnh thành định dạng cơ sở dữ liệu tiêu chuẩn. Khi văn bản thô được chuyển qua định hướng văn bản, nó có thể được truy cập và phân tích một cách dễ dàng và hiệu quả bằng công nghệ kinh doanh thông minh tiêu chuẩn. Định hướng văn bản được thực hiện thông qua việc thực hiện ETL văn bản. Định hướng văn bản là hữu ích ở bất cứ nơi nào tìm thấy văn bản thô, chẳng hạn như trong tài liệu, Hadoop, email, v.v.
Cấu tạo của data warehouse – kho dữ liệu bao gồm những gì?
Môi trường cho kho dữ liệu và siêu thị bao gồm:
– Hệ thống nguồn cung cấp dữ liệu cho kho hoặc mart.
– Công nghệ tích hợp dữ liệu và các quy trình cần thiết để chuẩn bị dữ liệu để sử dụng;
– Các kiến trúc khác nhau để lưu trữ dữ liệu trong kho dữ liệu của tổ chức hoặc các dữ liệu;
– Các công cụ và ứng dụng khác nhau cho sự đa dạng của người dùng;
– Các siêu dữ liệu, chất lượng dữ liệu và các quy trình quản trị phải được đặt ra để đảm bảo rằng kho hoặc mart đáp ứng các mục đích của nó.
Liên quan đến các hệ thống nguồn được liệt kê ở trên, R. Kelly Rainer nói, “Một nguồn chung cho dữ liệu trong kho dữ liệu là cơ sở dữ liệu hoạt động của công ty, có thể là cơ sở dữ liệu quan hệ”.
Về tích hợp dữ liệu, Rainer nói, “Cần phải trích xuất dữ liệu từ các hệ thống nguồn, chuyển đổi chúng và tải chúng vào một trung tâm dữ liệu hoặc kho”.
Rainer thảo luận về việc lưu trữ dữ liệu trong kho dữ liệu của tổ chức hoặc các dữ liệu.
Siêu dữ liệu là dữ liệu về dữ liệu. “Nhân viên CNTT cần thông tin về nguồn dữ liệu, cơ sở dữ liệu, bảng và tên cột; lịch trình làm mới và các biện pháp sử dụng dữ liệu”.
Ngày nay, các công ty thành công nhất là những công ty có thể đáp ứng nhanh chóng và linh hoạt với những thay đổi và cơ hội thị trường. Chìa khóa cho phản ứng này là việc sử dụng hiệu quả và hiệu quả dữ liệu và thông tin của các nhà phân tích và quản lý.
“Kho dữ liệu” là kho lưu trữ dữ liệu lịch sử được tổ chức theo chủ đề để hỗ trợ các nhà ra quyết định trong tổ chức. Khi dữ liệu được lưu trữ trong kho dữ liệu hoặc kho, dữ liệu có thể được truy cập.
>> Đọc thêm:
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP
LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU
DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT
Đặc điểm của data warehouse là gì?
Có các tính năng cơ bản xác định dữ liệu trong kho dữ liệu bao gồm định hướng chủ đề, tích hợp dữ liệu, biến đổi thời gian, dữ liệu không biến đổi và độ chi tiết của dữ liệu.
– Định hướng theo chủ đề: Không giống như các hệ thống hoạt động, dữ liệu trong kho dữ liệu xoay quanh các đối tượng của doanh nghiệp ( chuẩn hóa cơ sở dữ liệu ). Định hướng chủ đề có thể thực sự hữu ích cho việc ra quyết định. Tập hợp các đối tượng cần thiết được gọi là hướng đối tượng.
– Tích hợp: Dữ liệu được tìm thấy trong kho dữ liệu được tích hợp. Vì nó đến từ một số hệ thống hoạt động, tất cả các mâu thuẫn phải được loại bỏ. Tính nhất quán bao gồm các quy ước đặt tên, đo lường các biến, cấu trúc mã hóa, các thuộc tính vật lý của dữ liệu, v.v.
– Biến thể thời gian: Mặc dù các hệ thống vận hành phản ánh các giá trị hiện tại khi chúng hỗ trợ các hoạt động hàng ngày, dữ liệu kho dữ liệu biểu thị dữ liệu trong một khoảng thời gian dài (lên đến 10 năm) có nghĩa là nó lưu trữ dữ liệu lịch sử. Nó chủ yếu có nghĩa là để khai thác và dự báo dữ liệu, Nếu người dùng đang tìm kiếm mô hình mua của một khách hàng cụ thể, người dùng cần xem dữ liệu về các giao dịch mua hiện tại và quá khứ.
– Không biến đổi: Dữ liệu trong kho dữ liệu ở chế độ chỉ đọc, có nghĩa là không thể cập nhật, tạo hoặc xóa.
Các phương pháp thiết kế data warehouse là gì?
Một số phương pháp thiết kế kho dữ liệu đang được sử dụng nhiều hiện nay gồm:
4.1. Thiết kế từ dưới lên
Theo cách tiếp cận từ dưới lên , các dữ liệu đầu tiên được tạo ra để cung cấp khả năng báo cáo và phân tích cho các quy trình kinh doanh cụ thể . Những dữ liệu này sau đó có thể được tích hợp để tạo ra một kho dữ liệu toàn diện. Kiến trúc bus dữ liệu chủ yếu là một triển khai của “bus”, một tập hợp các kích thước phù hợp và các sự kiện tuân thủ , là các kích thước được chia sẻ (theo một cách cụ thể) giữa các sự kiện trong hai hoặc nhiều dữ liệu.
4.2. Thiết kế từ trên xuống
Thiết kế từ trên xuống
Cách tiếp cận từ trên xuống được thiết kế bằng mô hình dữ liệu doanh nghiệp được chuẩn hóa . Dữ liệu “nguyên tử” , nghĩa là dữ liệu ở mức độ chi tiết lớn nhất, được lưu trữ trong kho dữ liệu. Các dữ liệu thứ nguyên có chứa dữ liệu cần thiết cho các quy trình kinh doanh cụ thể hoặc các bộ phận cụ thể được tạo từ kho dữ liệu.
4.3. Thiết kế lai
Kho dữ liệu (DW) thường giống với kiến trúc trung tâm và nan hoa . Các hệ thống kế thừa cho kho thường bao gồm quản lý quan hệ khách hàng và lập kế hoạch nguồn lực doanh nghiệp , tạo ra lượng lớn dữ liệu. Để hợp nhất các mô hình dữ liệu khác nhau này và tạo điều kiện cho quá trình tải biến đổi trích xuất , kho dữ liệu thường sử dụng kho lưu trữ dữ liệu vận hành , thông tin được phân tách thành DW thực tế. Để giảm sự dư thừa dữ liệu, các hệ thống lớn hơn thường lưu trữ dữ liệu theo cách chuẩn hóa. Dữ liệu cho các báo cáo cụ thể sau đó có thể được xây dựng trên đầu kho dữ liệu.
Một cơ sở dữ liệu DW lai được giữ ở dạng bình thường thứ ba để loại bỏ sự dư thừa dữ liệu. Tuy nhiên, một cơ sở dữ liệu quan hệ bình thường không hiệu quả đối với các báo cáo kinh doanh thông minh trong đó mô hình hóa chiều là phổ biến. Các dữ liệu nhỏ có thể mua dữ liệu từ kho tổng hợp và sử dụng dữ liệu cụ thể được lọc cho các bảng và kích thước thực tế cần thiết.
DW cung cấp một nguồn thông tin duy nhất mà dữ liệu có thể đọc được, cung cấp nhiều thông tin kinh doanh. Kiến trúc lai cho phép thay thế DW bằng kho lưu trữ quản lý dữ liệu chính nơi hoạt động, không phải thông tin tĩnh có thể cư trú.
Các thành phần mô hình hóa dữ liệu theo kiến trúc hub và nan hoa. Phong cách mô hình hóa này là một thiết kế lại, bao gồm các thực tiễn tốt nhất từ cả sơ đồ sao và dạng bình thường thứ ba .
Mô hình vault dữ liệu không phải là một dạng bình thường thứ ba thực sự và phá vỡ một số quy tắc của nó, nhưng nó là một kiến trúc từ trên xuống với thiết kế từ dưới lên. Mô hình kho dữ liệu được định hướng là một kho dữ liệu. Nó không hướng đến khả năng truy cập của người dùng cuối, khi được xây dựng, vẫn yêu cầu sử dụng vùng phát hành dựa trên lược đồ sao hoặc lược đồ sao cho mục đích kinh doanh.
Lợi ích của data warehouse là gì?
Kho dữ liệu duy trì một bản sao thông tin từ các hệ thống giao dịch nguồn. Sự phức tạp về kiến trúc này cung cấp cơ hội để:
– Tích hợp dữ liệu từ nhiều nguồn vào một cơ sở dữ liệu và mô hình dữ liệu. Nhiều tập hợp dữ liệu vào cơ sở dữ liệu duy nhất để một công cụ truy vấn có thể được sử dụng để trình bày dữ liệu trong một ODS.
– Giảm thiểu vấn đề tranh chấp khóa cách ly cơ sở dữ liệu trong các hệ thống xử lý giao dịch gây ra bởi các nỗ lực chạy các truy vấn phân tích lớn, dài hạn trong cơ sở dữ liệu xử lý giao dịch.
– Duy trì lịch sử dữ liệu , ngay cả khi các hệ thống giao dịch nguồn không.
– Tích hợp dữ liệu từ nhiều hệ thống nguồn, cho phép một chế độ xem trung tâm trên toàn doanh nghiệp. Lợi ích này luôn có giá trị, nhưng đặc biệt là khi tổ chức đã phát triển bằng cách sáp nhập.
– Cải thiện chất lượng dữ liệu , bằng cách cung cấp mã và mô tả nhất quán, gắn cờ hoặc thậm chí sửa dữ liệu xấu.
– Trình bày thông tin của tổ chức một cách nhất quán.
– Cung cấp một mô hình dữ liệu chung duy nhất cho tất cả dữ liệu quan tâm bất kể nguồn dữ liệu.
– Cơ cấu lại dữ liệu sao cho hợp lý với người dùng doanh nghiệp.
– Cơ cấu lại dữ liệu để nó mang lại hiệu suất truy vấn tuyệt vời, ngay cả đối với các truy vấn phân tích phức tạp, mà không ảnh hưởng đến các hệ thống hoạt động .
– Thêm giá trị cho các ứng dụng kinh doanh hoạt động, đáng chú ý là hệ thống quản lý quan hệ khách hàng (CRM).
– Đưa ra quyết định hỗ trợ truy vấn dễ dàng hơn để viết.
– Sắp xếp và phân tán dữ liệu lặp đi lặp lại.
Bài viết đã cung cấp các thông tin xung quanh về data warehouse là gì? Mong rằng những thông tin về lợi ích, phương pháp thiết kế và cấu tạo của data warehouse sẽ giúp ích cho cá nhân, tổ chức hay doanh nghiệp có được phương án tối ưu kho dữ liệu của mình. Hãy nhớ theo dõi thường xuyên và cập nhập thêm nhiều thông tin hữu ích từ website nhé.
>> Đọc thêm:
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP
LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU
DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT
Chúng tôi cung cấp Khóa học Data Warehouse/ETL: Xây dựng Kho dữ liệu từ cơ bản đến nâng cao. Hãy liên hệ với chúng tôi được tư vấn chi tiết nhé